-
Bekavac, B.: Metainformationsdienste des Internet (2004)
0.06
0.056062292 = product of:
0.112124585 = sum of:
0.042728424 = weight(_text_:und in 3936) [ClassicSimilarity], result of:
0.042728424 = score(doc=3936,freq=22.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.28445345 = fieldWeight in 3936, product of:
4.690416 = tf(freq=22.0), with freq of:
22.0 = termFreq=22.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.02734375 = fieldNorm(doc=3936)
0.06939616 = weight(_text_:html in 3936) [ClassicSimilarity], result of:
0.06939616 = score(doc=3936,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.19905464 = fieldWeight in 3936, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.02734375 = fieldNorm(doc=3936)
0.5 = coord(2/4)
- Abstract
- Diverse Metainformationsdienste, allen voran natürlich die Suchmaschinen, ermöglichen das Auffinden von Informationen im Internet. Diese Aufgabe ist nicht leicht, denn die Problematik liegt nicht nur darin, dass inzwischen Milliarden von Dokumenten über das Internet zugreifbar sind, sondern auch in der hohen Dynamik bezüglich neuer oder geänderter Inhalte, den heterogenen Datenformaten und medialen Formen und uneinheitlich strukturierten Inhalten, einer großen Vielfalt an unterschiedlichen natürlichen Sprachen zur Bildung der textuellen Daten sowie einer hohen Anzahl von Dokument-Dubletten, die u.a. durch das Kopieren (Spiegeln bzw. Mirroring) von Inhalten zu Stande kommen. Die Web-Seiten der zahlreichen Anbieter sind nicht nur inhaltlich umfangreich, sondern auch vom Aufbau her komplex. Oft kommt der Text aus Deutschland, die Grafiken z.B. aus den USA. Die angegebenen Links führen dann nach England oder Japan. Die Quellen der publizierten Informationen spielen dabei nur eine untergeordnete Rolle. Kann man sich bei kommerziellen Online-Datenbanken noch weitgehend sicher sein, dass hinter den Informationsbeständen seriöse und kompetente Produzenten und Anbieter stehen, so ist die Einspeisung von Informationen in das WWW prinzipiell von jeder Person möglich, der Speicherplatz auf einem Web-Server (i.d.R. Provider oder Arbeitgeber) zur Verfügung steht. Beim Betrachten der multimedialen WWW-Dokumente ist die inhaltliche Kompetenz der dahinterstehenden Autoren daher nur schwer abzuschätzen, oft können diese nicht einmal eindeutig bestimmt werden. Von einer Konsistenz im Sinne von Wiederauffindbarkeit, Aktualität oder gar Qualität der Informationsbestände im WWW kann nicht die Rede sein. Inhalte einzelner WWW Seiten oder deren URLs werden laufend verändert bzw. gelöscht. Die zentralen Technologien des WWW, das Übertragungsprotokoll HTTP und die Seitenbeschreibungssprache HTML bieten weder die Möglichkeit einer automatischen Aktualisierung der auf diese Seiten verweisenden Hyperlinks noch kann ein tatsächliches Erstellungs- bzw. Änderungsdatum für die Inhalte der einzelnen Dokumente identifiziert werden. Nützliche formal-inhaltliche Dokumentattribute wie Titel, Autor, Erscheinungsjahr usw. sind im WWW häufig nicht vorhanden oder unzutreffend und sind, wenn überhaupt, nur über die Inhalte der WWW Dokumente selbst ausfindig zu machen. Alle diese Eigenschaften erschweren zusätzlich zu der immensen im Web verfügbaren Dokumentenmenge die Suche und Lokalisierung von Informationen.
Auf der anderen Seite stehen Benutzer, die nach Eingabe weniger Suchbegriffe von den Suchmaschinen wahre Wunder in Form von relevanten Dokumenten erwarten. Jedoch ist die Dokumentmenge, die zu den eingegebenen Suchbegriffen passt, nicht selten so groß, dass es für die Benutzer zu aufwändig wäre sich alles anzuschauen. Die von den Suchmaschinen angewandten Sortierverfahren (Ranking), welche versuchen die relevantesten Dokumente unter den ersten Plätzen der Ergebnisseiten zu platzieren, scheitern zu oft an der großen "Ähnlichkeit" der Dokumente. Alternativ zu den Suchmaschinen können auch Web-Kataloge bzw. -Verzeichnisse verwendet werden, über die ganz bestimmte Interessensgebiete gezielt angesteuert werden können. Der größte Vorteil hierbei ist sicherlich der Kontext der gefundenen Informationen, der sich durch die ausgewählten Rubriken und Sachgebiete während der Navigation widerspiegelt. Nachteilig ist die sehr geringe Abdeckung des weltweiten Informationsraumes, da Kataloge im Gegensatz zu den Suchmaschinen die Quell-Informationen nicht automatisiert beziehen. Ganz anders hingegen Meta-Suchdienste, die selbst weder einen eigenen Index besitzen noch sich Gedanken über eine inhaltliche Strukturierung des Internet machen. Sie befragen ganz einfach andere Metainformationsdienste verschiedenster Art und sehen ihre Leistung in der benutzergerechten Zusammenführung der erhaltenen Treffermengen. Auch wenn die Suchoberflächen der im Internet befindlichen Suchdienste in der Regel mehrere der hier genannten Suchmöglichkeiten anbieten, die dahinter verborgenen Suchverfahren, vor allem die Gewinnung von Metainformationen, sind recht unterschiedlich.
- Source
- Grundlagen der praktischen Information und Dokumentation. 5., völlig neu gefaßte Ausgabe. 2 Bde. Hrsg. von R. Kuhlen, Th. Seeger u. D. Strauch. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried. Bd.1: Handbuch zur Einführung in die Informationswissenschaft und -praxis
-
Song, R.; Luo, Z.; Nie, J.-Y.; Yu, Y.; Hon, H.-W.: Identification of ambiguous queries in web search (2009)
0.06
0.05574825 = product of:
0.222993 = sum of:
0.222993 = weight(_text_:java in 3441) [ClassicSimilarity], result of:
0.222993 = score(doc=3441,freq=2.0), product of:
0.47730878 = queryWeight, product of:
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.06772732 = queryNorm
0.46718815 = fieldWeight in 3441, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.046875 = fieldNorm(doc=3441)
0.25 = coord(1/4)
- Abstract
- It is widely believed that many queries submitted to search engines are inherently ambiguous (e.g., java and apple). However, few studies have tried to classify queries based on ambiguity and to answer "what the proportion of ambiguous queries is". This paper deals with these issues. First, we clarify the definition of ambiguous queries by constructing the taxonomy of queries from being ambiguous to specific. Second, we ask human annotators to manually classify queries. From manually labeled results, we observe that query ambiguity is to some extent predictable. Third, we propose a supervised learning approach to automatically identify ambiguous queries. Experimental results show that we can correctly identify 87% of labeled queries with the approach. Finally, by using our approach, we estimate that about 16% of queries in a real search log are ambiguous.
-
Croft, W.B.; Metzler, D.; Strohman, T.: Search engines : information retrieval in practice (2010)
0.06
0.05574825 = product of:
0.222993 = sum of:
0.222993 = weight(_text_:java in 3605) [ClassicSimilarity], result of:
0.222993 = score(doc=3605,freq=2.0), product of:
0.47730878 = queryWeight, product of:
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.06772732 = queryNorm
0.46718815 = fieldWeight in 3605, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.046875 = fieldNorm(doc=3605)
0.25 = coord(1/4)
- Abstract
- For introductory information retrieval courses at the undergraduate and graduate level in computer science, information science and computer engineering departments. Written by a leader in the field of information retrieval, Search Engines: Information Retrieval in Practice, is designed to give undergraduate students the understanding and tools they need to evaluate, compare and modify search engines. Coverage of the underlying IR and mathematical models reinforce key concepts. The book's numerous programming exercises make extensive use of Galago, a Java-based open source search engine. SUPPLEMENTS / Extensive lecture slides (in PDF and PPT format) / Solutions to selected end of chapter problems (Instructors only) / Test collections for exercises / Galago search engine
-
Sander-Beuermann, W.: Schürfrechte im Informationszeitalter : Google hin, Microsoft her v das Internet braucht eine freie Suchkultur (2005)
0.06
0.055627137 = product of:
0.111254275 = sum of:
0.041153565 = weight(_text_:und in 4245) [ClassicSimilarity], result of:
0.041153565 = score(doc=4245,freq=40.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.27396923 = fieldWeight in 4245, product of:
6.3245554 = tf(freq=40.0), with freq of:
40.0 = termFreq=40.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=4245)
0.07010071 = weight(_text_:html in 4245) [ClassicSimilarity], result of:
0.07010071 = score(doc=4245,freq=4.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.20107555 = fieldWeight in 4245, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.01953125 = fieldNorm(doc=4245)
0.5 = coord(2/4)
- Abstract
- Artikel als Reaktion auf das Angebot von Google: http://scholar.google.com/. Begleitkommentar des Verfassers: Der "Google-Scholar" (http://scholar.google.com/) ist durchaus eine bemerkenswerte Entwicklung von Google, welche die Internet-Suchtechnik voranbringt - zumindest vordergruendig. Der Satz auf der Scholar Startseite "Stand on the shoulders of giants" drueckt es treffend aus: derart gigantische Ressourcen hat eben im Suchmaschinenbereich sonst niemand. Und genau DAS ist der Punkt: das Quasi-Monopol von Google (spaeter u.U. Microsoft) wird dadurch NOCH staerker werden. Ich halte diese Entwicklung fuer bedrohlich. An dieser Stelle ist kein Vorwurf an Google zu richten: dort verhaelt man sich nur so, wie es der Markt verlangt. Der Vorwurf ist dorthin zu richten, wo diese Entwicklung gesehen und ignoriert wird. Ich erlebe es immer wieder, auch in "hochrangigen" Gespraechen, dass als "Argument" gegen alternative Enticklungen vorgebracht wird "was wollt ihr da eigentlich - es gibt doch Google und die sind doch gut". Solche Kurzsichtigkeit ist kaum uebertreffbar. Von der Zeitschrift "Technology Review" des Heise-Verlages (das deutsche Pendant zum MIT-Review) wurde ich gebeten, hierzu einen Artikel zu schreiben. Sie finden diesen Artikel bei Interesse im WWW unter http://suma-ev.de/tech-rev1.html Daraus hat sich eine Diskussion ueber unabhaengige Suchmaschinen ergeben, die ich hier kurz skizzieren moechte: ----------------------------------------------------------------------- Unabhaengige Suchmaschinen sind in einem weiten Spektrum von Moeglichkeiten denkbar: 1. von voellig freien, nicht strukturierten, losen Zusammenschluessen, z.B. auf Peer-to-Peer Basis (a la YACY: http://suma-lab.de/) 2. bis hin zu staatlich gewollter Unabhaengigkeit durch gesetzliche Regelungen (aehnlich der Intention beim oeffentlich-rechtlichen Rundfunk und Fernsehen); Stichwort: oeffentlich-rechtliche Suchmaschine 3. Dazwischen sind Optionen denkbar, die beides kombinieren: eine Vielzahl von Betreibern kleinerer Suchmaschinen (Mini-Sucher), die sich zu Verbuenden organisieren, in denen Organisationen des oeffentlich-rechtlichen Raumes, wie z.B. Bibliotheken und Universitaeten als klassische Wissensvermittler, eine tragende Rolle spielen. 4. Und moeglicherweise sehen SIE noch ganz andere Moeglichkeiten ...?
- Content
- Text des Artikels: "Wenn der Rohstoff des 21. Jahrhunderts wirklich Information ist, dann unterscheidet er sich grundlegend von seinen Vorgängern Eisenerz und Erdöl: Er verbraucht sich nicht, kann endlos wiederverwertet werden, ist einfach um die ganze Welt transportierbar, und kann sich sogar durch Neuzusammensetzung vermehren. Letztere Eigenschaft, so schön sie zunächst scheint, wird allmählich zur Plage. Die Menge der weltweit vorliegenden Information wächst seit Jahrhunderten stetig. Laut einem Bericht der University of California in Berkeley schafft die Menschheit derzeit ein bis zwei Exabyte (Milliarden Gigabyte) an Information pro Jahr. Dargestellt als Text entspricht das einem Stapel von rund einer Billion dicker Bücher - dessen Höhe etwa die 130-fachen Entfernung Erde-Mond erreichen würde. Die große Herausforderung ist, aus solch gigantischen Informationsmengen das subjektiv Wesentliche - also das Wissen - herauszusuchen. Die Wissensextraktion wird im digitalen Zeitalter zunehmend von Internet-Suchmaschinen übernommen. Sie verarbeiten den Rohstoff Information zu Wissen, kontrollieren und verteilen ihn. Es kann keinem Nutzer ganz geheuer sein, dass diese Schlüsselfunktion der Informationsgesellschaft in die Hände weniger Konzerne gerät: Google hat mit einem Marktanteil von mehr als 80 Prozent in Deutschland ein De-facto-Monopol erreicht, das nun Microsoft mit seiner "MSN Search" angreifen will. Aber diese Alternative weckt schwerlich mehr Vertrauen.
Suchmaschinen-Monopolisten können bestimmen oder kontrollieren, welche Information wann und auf welchen Rechnern verfügbar ist, und in welcher Reihenfolge die Ergebnisse angezeigt werden. Durch Beobachtung der Abrufe können die Unternehmen genaue Profile ihrer Nutzer erstellen. Um die Vormacht der kommerziellen Wissenswächter zu brechen, bedarf es einer freien Suchkultur - so wie das offene Betriebssystem Linux die Welt vor einer reinen Windows-Monokultur bewahrt hat. Immerhin scheint man auch auf staatlicher Seite das Problem des "Information Overkill" erkannt zu haben. Die öffentliche Hand fördert zahlreiche Projekte, die Ordnung in den Datenwust bringen wollen. Doch die meisten davon sind mehr visionär als realistisch. Vom einst so gefeierten "Semantic Web" etwa ist auch nach Jahren kaum Handfestes zu sehen. Kein Wunder: Solche Vorhaben setzen voraus, dass die Daten zunächst eingesammelt und suchgerecht indiziert werden. Mangels freier Software fehlt diese Voraussetzung. Was also ist nötig, um im Informationszeitalter die freie Verfügbarkeit der Ressourcen sicherzustellen? Die Antwort ist die gleiche wie einst für Kohle, Eisen und Öl: eine Vielfalt von Anbietern. Der beste Weg dorthin führt über freie Suchmaschinen-Software, auf welche die Betreiber solcher Maschinen zurückgreifen können. Dann entstünde ganz von selbst ein offener und dynamischer Wettbewerb. Freie Suchmaschinen-Software ist jedoch sehr rar. Es gibt Ansätze dazu in Russland und ein einziges Projekt in den USA (nutch.org). Auch Europa ist weitgehend Ödnis - bis auf den Lichtblick Yacy, ein Vorhaben des Frankfurter Softwarespezialisten Michael Christen. Yacy ist meines Wissen der weltweit einzige proof-of-concept einer strikt dezentralen Peer-to-Peer-Suchmaschine (suma-lab.de:8080"). Um die Suchmaschinen-Landschaft zu beleben, haben nun 13 Forscher, Politiker und Unternehmer den "Gemeinnützigen Verein zur Förderung der Suchmaschinen-Technologie und des freien Wissenszugangs" (kurz: SuMa-eV, suma-ev.de) mit Sitz in Hannover gegründet. Zu den Gründungsmitgliedern gehören der MP3-Erfinder Karlheinz Brandenburg, der Vizepräsident für Forschung der Universität Hannover Wolfgang Ertmer und ich selbst. Ziel des SuMa-eV ist die Etablierung einer auf möglichst viele autarke Systeme verteilten Suchmaschinen-Infrastruktur, die von ihrem Bauprinzip her kaum monopolisierbar ist. Der Kerngedanke dieser Struktur, die sich aus sehr vielen und sehr unterschiedlichen Bausteinen zusammensetzen kann, liegt in der Autarkie der Einzelsysteme: gesellschaftlicher Pluralismus wird netztopologisch abgebildet. Eigentlich wäre es im Interesse und in der Macht des Staats, die Meinungsvielfalt im Netz besser zu sichern. Während er - abgesehen von ein paar hellhörigen Parlamentariern - noch träumerische Visionen pflegt, müssen Initiativen wie SuMa-eV einspringen."
- Source
- http://suma-ev.de/tech-rev1.html
-
Lohberg, P.: Suchet, so werdet ihr finden ... : Mit der richtigen Suchmaschine leichter an Information aus dem Netz kommen (2001)
0.06
0.055068057 = product of:
0.110136114 = sum of:
0.040739954 = weight(_text_:und in 6736) [ClassicSimilarity], result of:
0.040739954 = score(doc=6736,freq=20.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.2712157 = fieldWeight in 6736, product of:
4.472136 = tf(freq=20.0), with freq of:
20.0 = termFreq=20.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.02734375 = fieldNorm(doc=6736)
0.06939616 = weight(_text_:html in 6736) [ClassicSimilarity], result of:
0.06939616 = score(doc=6736,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.19905464 = fieldWeight in 6736, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.02734375 = fieldNorm(doc=6736)
0.5 = coord(2/4)
- Abstract
- Da hat man nun das gesamte Wissen der Menschheit im Griff, wohlverteilt auf Milliarden von Internetseiten. Und dann findet man nicht einmal die rudimentärsten Informationen zum gesuchten Thema. Suchmaschinen sind die Geister, die man rief und nun nicht mehr loswerden will - auch wenn sie häufig für viel Frustration sorgen: Auf eine einfache Frage bekommt man eine Unmenge von Antworten, die häufig gar nichts mit der Frage zu tun haben. Um mit den modernen Heinzelmännchen des Internets vernünftig umgehen zu können, sind Kenntnisse über die Arbeitsweise dieser Dienste hilfreich. Drei Arten von Anlaufstellen für Suchende gibt es im Netz: Kataloge, Suchmaschinen und Meta-Suchmaschinen. Bei den Katalogen (yahoo.de, web.de) hangelt man sich durch die Sites wie durch die Seiten eines Buches. Man klickt sich durch Rubriken und zahllose Unterrubriken, bis man dort angelangt ist, wo die gesuchte Information stehen könnte. Leider muß hier der Konjunktiv benutzt werden, denn die Struktur der Suchkataloge bedingt, daß die Internetseiten dort angemeldet werden müssen, wo sie am sinnvollsten plaziert sind: in der Unterrubrik der Unterrubrik der ... Das kann nur von Hand geschehen, und selbst der Betreiber der Seite muß sich bis dorthin durchklicken, wo er seine Information plaziert haben will. Von Vorteil ist daß dann am Ende Menschen die Einträge überprüfen, häufig hochbezahlte Akademiker, die aber kaum der riesigen Menge an neuen Seiten Herr werden. Dennoch, in Katalogen gefundene Informationen sind meist relativ hochwertig. Klassische und Meta-Suchmaschinen Die eigentlichen Suchmaschinen (altavista.de, google.de) schicken kleine Spider-Programme in das Netz oder auf Anfrage zu bestimmten Seiten. Diese Programme durchsuchen selbständig die Seiten nach den gewünschten Begriffen. Die eine indiziert den gesamten Text, die andere legt das Hauptgewicht auf die Meta-Tags im Kopf der HTML-Datei - Auszeichnungen, die den Inhalt der Seite beschreiben (sollen), andere legen großen Wert auf den Titel oder den Datei- oder DomainNamen. jeder Seitenbetreiber legt großen Wert darauf, bei einer Suchabfrage weit vorne gelistet zu werden. Das Ranking ist wichtig, denn kaum ein Suchender sieht auf Seite zehn der Suchergebnisse nach. Meta-Suchmaschinen (metager.de, metaspinner.de) fragen Datenbestände mehrerer Suchmaschinen gleichzeitig ab. So kann man sich die Suche bei unterschiedlichen Suchmaschinen sparen. Wie aber frage ich eine Suchmaschine? Fast jeder Intemetnutzer kennt eine oder mehrere Suchmaschinen. Nur wenige aber haben je auf den Link zur Hilfeseite oder Profisuche - meist ganz oben in direkter Nähe des Suchfensters - geklickt. Dort findet sich Wichtiges: die Sprache, die das Suchprogramm versteht. Hier kann man sich informieren, wie man die Suche rein technisch eingrenzen und dadurch beschleunigen kann. Viele Suchmaschinen kennen Boolsche Operatoren, mit denen man Worte ausschließen "-" oder Worte kombinieren kann "+". Auch Gänsefüßchen (sprich: Anführungszeichen) kommen häufig zum Einsatz. Damit kann man Wortkombinationen oder Satzfragmente zusammenpacken. So werden diese Kombinationen in bestimmter Reihenfolge gesucht - und theoretisch auch gefunden. Die Spiderprogramme der Suchmaschinen können, so schnell sie auch sein mögen, nur einen Bruchteil der Seiten, die täglich neu ins Netz gestellt werden, besuchen. Wie suche ich nun am besten? Angenommen, Sie suchen eine Unterkunft für Behinderte mit Rollstuhl im Schwarzwald. Es liegt auf der Hand, daß die Suche nach einem dieser Worte zu viele unnötige Seiten finden würde. Also nehmen Sie Unterkunft + Behinderte + Rollstuhl + Schwarzwald. Das ergibt dann ein knappes Dutzend Ergebnisse, von denen eines möglicherweise zutrifft. Wenn nicht finden Sie sicher einen weiterführenden Link, eine Adresse oder Telefonnummer. Der Autor dieser Zeilen hat sich - entgegen der verbreiteten Lehrmeinung - auf einen anderen Weg begeben. Als Freund der Suchmaschinen Google und MetaGer gibt er den vollständigen Satz ein: Unterkunft für Behinderte mit Rollstuhl im Schwarzwald. Und siehe da, es funktioniert! Ein paar wenige Ergebnisse werden angezeigt. Aber fast alle passen haargenau!
-
Patalong, F.: Life after Google : I. Besser suchen, wirklich finden (2002)
0.05
0.05040223 = product of:
0.10080446 = sum of:
0.051235776 = weight(_text_:und in 2165) [ClassicSimilarity], result of:
0.051235776 = score(doc=2165,freq=62.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.34108895 = fieldWeight in 2165, product of:
7.8740077 = tf(freq=62.0), with freq of:
62.0 = termFreq=62.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=2165)
0.049568687 = weight(_text_:html in 2165) [ClassicSimilarity], result of:
0.049568687 = score(doc=2165,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.14218189 = fieldWeight in 2165, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.01953125 = fieldNorm(doc=2165)
0.5 = coord(2/4)
- Content
- "Google ist einfach zu bedienen, effektiv, bringt qualitativ hochwertige Suchergebnisse - und ist doch nicht der Weisheit letzter Schluss. Manchmal braucht man Alternativen, und mitunter sind die sogar weit besser als Google. Patentrezepte sind eine feine Sache, sie haben aber auch ihre Nachteile. Je stärker man sich auf sie stützt, desto eher läuft man Gefahr, alternative Ansätze zu verlernen oder zu vergessen. Dass es derzeit vielen Surfern so geht, könnten die Betreiber der meisten Suchmaschinen und Kataloge anhand ihrer Logstatistiken nachweisen: Google monopolisiert den Markt und nimmt den anderen die Butter vom Brot. Das ist nicht Googles Schuld. Der erst vier Jahre alte Suchdienst hat sich weltweit durchgesetzt, weil er nach wie vor die beste Suchtechnik bietet. Zurzeit gibt es wohl kaum eine einzelne Searchengine, die in ihrer Gesamtperformance, in Datenbankgröße und Güte der Ergebnisse mit Google wirklich mithalten könnte. So etwas spricht sich herum und hat dazu geführt, dass Google inzwischen den größten Batzen aller Suchanfragen im WWW abwickelt. Kleine wie große Konkurrenten drohen daran kaputtzugehen. Das wiederum wäre schade, denn es muss Alternativen geben: Google kann viel, aber er kann nicht alles.
Google sucht "flach", weil "hochgestochenes" nicht populär ist Das Pageranking-System von Google, mit dem der Suchdienst Ergebnisse in eine "relevante" Reihenfolge bringt, begünstigt populäre Angebote. Fachleute suchen vielleicht gerade die bewusst nicht. Sie sind in aller Regel mit Suchen über Kataloge oder spezialisierte Suchdienste besser bedient. Da keine Suchmaschine es schafft, das WWW, geschweige denn das Internet vollständig abzudecken, gelingt es vielen Suchmaschinen immer wieder, in bestimmten Suchfeldern, Themenbereichen oder auch über regionale Ansätze und Schwerpunkte zu qualitativ hochwertigen Ergebnissen zu kommen, die auch Google ausstechen. Ganz besonders gilt dies für alle Dienste, die gezielt im so genannten "Deep Web" suchen: Gemeint sind damit vor allem Datenbankbestände. An die kommt Google in den seltensten Fällen heran, aber gerade hier sind zumindest im Kontext professioneller Recherchen die Perlen im Web verborgen - egal, ob man Ingenieur, Bibliothekar, Arzt, Möbelrestaurator oder Journalist ist. Patentrezepte gibt es hier nicht, weil alles Suchen im Web abhängig ist von den Interessen des Suchenden. Stets up to date über das Angebot auch an spezialisierten Suchdiensten ist aber die Website Searchenginewatch: Hier sind unter "Specialty Search Engines" entsprechende Links zu finden. Zumindest eines lässt sich pauschal und problemlos für alle Suchenden im Web konstatieren: Es kann nicht schaden, eine Alternative zu Google zu pflegen. Metasucher: Mit Masse zur Klasse Neben kraftvollen Suchmaschinen wie Altavista, Hotbot, Teoma, Wisenut, Inktomi oder AlltheWeb , die alle ihre Eigenheiten, Stärken und Schwächen besitzen (ausprobieren!), glänzen vor allem auch die Metasuchdienste. Das sind Websites, die über ein Suchformular parallel eine ganze Reihe von Quellen abfragen können und die Ergebnisse zusammenfassen. Metasearcher kommen und gehen und leben dabei - aus Perspektive der Surchengine-Anbieter - quasi parasitär auf Kosten der Suchmaschinen. Aus Nutzerperspektive haben sie allerdings einiges zu bieten, und die besten unter ihnen bringen tatsächlich eigene Leistungen ein, die die Qualität der bei anderen Suchdiensten gesammelten Ergebnisse steigert. Denn Metamaschinen "verbreitern" die Suche nicht nur, sie engen sie auch ein: Ein Beispiel wie Ithaki macht das sehr schön deutlich. Der Suchdienst fragt nur Kataloge für Kinderseiten ab - und wer weiß, wie dürftig die in aller Regel für sich genommen sind, wird für den breiteren, aber fest definierten Ansatz dankbar sein. Typisch: So was gibt es für den deutschsprachigen Raum natürlich wieder nicht.
Viel abfragen, präzise einengen Ein guter, allgemeiner Metadienst ist auch Ixquick , der in seiner deutschen Version zwölf Searchengines parallel abfragt. Mit im Päckchen: Eine Reihe spezifisch deutscher Engines, ernsthafte Google-Konkurrenten wie AlltheWeb oder AskJeeves/Teoma bis hin zu Katalogen. Google dagegen fehlt, was die ganze Sache nicht nur zum echten Alternativprogramm macht, sondern auch zur sinnvollen Ergänzung: Tests deuten darauf hin, dass Google im Diffusen weit besser fischt, Ixquick bei sehr konkreten Aufgaben aber deutlich bessere Ergebnisse zeigt. Im Klartext: Bei Google ist die Chance größer, den Ex-Klassenkameraden wiederzufinden, bei Ixquick findet man dagegen seinen Fachaufsatz an der Uni Antwerpen. Das hat was, und es ist kein Zufall: Der niederländische Dienst Ixquick leistet es sich, die bei diversen Diensten gefundenen Resultate neu zu gewichten und zu ordnen. Ganz nebenbei killt er dabei auch noch sämtliche Doppler. Brauchbar ist dabei wiederum wirklich nur die Metasuche: Die anderen Suchoptionen (Bilder, News, MP3) bieten vergleichsweise wenig. Das gewöhnt den Surfer dann wieder daran, dass es oft besser ist, mehrere Quellen gegeneinander zu konsultieren. Weder die Bildsuche von Google, noch die von Altavista ist wirklich gut - in Kombination aber decken sie eine Menge ab.
Auch das bringt was: Gezielte Plattformwechsel Das versucht auch ein Dienst wie Pandia : Der Metasearcher kombiniert in seinen Anfragen gute Searchengines mit der Vollindexierung qualitativ hochwertiger Inhalte-Angebote. So kombiniert Pandia gezielt die Encyclopedia Britannica, Lexika und Searchengines mit den Datenbeständen von Amazon. Wozu das gut sein soll und kann, zeigt das praktische Beispiel einer sehr sachlich orientierten Suche: "Retina Implant". Dabei geht es um Techniken, über oparative Eingriffe und Implantate an Netzhaut-Degeneration erblindeter Menschen das Augenlicht (zumindest teilweise) wieder zu geben. Pandia beantwortet die Suche zunächst mit dem Verweis auf etliche universitäre und privatwirtschaftliche Forschungsinstitute. 13 von 15 Suchergebnissen sind 100 Prozent relevant: Hier geht es ab in die Forschung. Die letzten beiden verweisen zum einen auf eine Firma, die solche Implantate herstellt, die andere auf einen Fachkongress unter anderem zu diesem Thema: Das ist schon beeindruckend treffsicher. Und dann geht's erst los: Mit einem Klick überträgt Pandia die Suchabfrage auf das Suchmuster "Nachrichtensuche", als Resultat werden Presse- und Medienberichte geliefert. Deren Relevanz ist leicht niedriger: Um Implantate geht es immer, um Augen nicht unbedingt, aber in den meisten Fällen. Nicht schlecht. Noch ein Klick, und die Suche im "Pandia Plus Directory" reduziert die Trefferanzahl auf zwei: Ein Treffer führt zur Beschreibung des universitären "Retinal Implant Project", der andere zu Intelligent Implants, einer von Bonner Forschern gegründeten Firma, die sich auf solche Implantate spezialisiert hat - und nebenbei weltweit zu den führenden zählt. Noch ein Klick, und Pandia versucht, Bücher zum Thema zu finden: Die gibt es bisher nicht, aber mit Pandias Hilfe ließe sich sicher eins recherchieren und schreiben. Trotzdem: Keiner der angesprochenen Dienste taugt zum Universalwerkzeug. Was der eine kann, das schafft der andere nicht. Da hilft nur ausprobieren. Der Suchdienst muss zum Sucher passen. Fazit und Ausblick So gut Google auch ist, es geht noch besser. Die intelligente Kombination der besten Fertigkeiten guter Suchwerkzeuge schlägt selbst den Platzhirsch unter den Suchdiensten. Doch darum geht es ja gar nicht. Es geht darum, die Suche im Web effektiv zu gestalten, und das will nach wie vor gelernt sein. Noch einfacher und effektiver geht das mit zahlreichen, oft kostenlosen Werkzeugen, die entweder als eigenständige Software (Bots) für Suche und Archivierung sorgen, oder aber als Add-On in den heimischen Browser integriert werden können. Doch dazu mehr im zweiten Teil dieses kleinen Web-Wanderführers"
- Footnote
- Zum Thema: Im Internet: · Searchenginewatch http://www.searchenginewatch.com · Searchenginewatch: Spezialsuchdienste http://www.searchenginewatch.com/links/specialty.html · Ixquick Metasuche http://www.ixquick.com/ · Pandia Metasearchdienst http://www.pandia.com · Ithaki: Metasuchdienst für Kinderthemen http://www.ithaki.net/kids/ · Metaspinner: Deutscher Metasuchdienst mit vielen speziellen Suchmöglichkeiten http://www.metaspinner.de · AlltheWeb: Googles Herausforderer http://www.alltheweb.com/ · AltaVista: Der ehemalige Marktführer hat mächtig aufgerüstet http://www.altavista.com/ · Inktomi: Suchdienstleister im Hintergrund http://www.inktomi.com/ · Wisenut: Viel versprechender Newcomer, der dringend ein Update gebrauchen könnte http://www.wisenut.com · Teoma sucht anders: Im Doppel mit AskJeeves ein Klasse-Angebot, bisher ohne die nötige Masse http://www.teoma.com · Hotbot: Einst intelligenteste Searchengine, bis heute guter Service http://www.hotbot.lycos.com · ...und natürlich der Dienst, an dem sich alle messen müssen: Google http://www.google.com/intl/de/
- Source
- http://www.spiegel.de/netzwelt/technologie/0,1518,222478,00.html
-
Hentschel, A.; Schmidt, M.: Google: erste Krise (2008)
0.05
0.050400138 = product of:
0.100800276 = sum of:
0.04131785 = weight(_text_:und in 2812) [ClassicSimilarity], result of:
0.04131785 = score(doc=2812,freq=28.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.27506292 = fieldWeight in 2812, product of:
5.2915025 = tf(freq=28.0), with freq of:
28.0 = termFreq=28.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0234375 = fieldNorm(doc=2812)
0.059482425 = weight(_text_:html in 2812) [ClassicSimilarity], result of:
0.059482425 = score(doc=2812,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.17061827 = fieldWeight in 2812, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.0234375 = fieldNorm(doc=2812)
0.5 = coord(2/4)
- Abstract
- Die Nummer eins der Suchmaschinen strauchelt. Die Erfolgsstory von Web 2.0 und Social Networks bereitet Google Probleme. Der Gigant sieht seine Nutzer nicht mehr
- Content
- "Am 7. September feiert die Google-Seite ihren zehnten Geburtstag. Die Bilanz dieser Dekade ist durchaus überwältigend. Gerade bescheinigte das Marktforschungs-Unternehmen comScore Google einen Anteil von 61,6 Prozent am weltweiten Suchmaschinen-Markt. Der Gigant aus Mountain View machte letztes Jahr 16,5 Milliarden US-Dollar Umsatz und erwirtschaftete 4,2 Milliarden US-Dollar Gewinn - gegenüber 2006 ein Plus von bemerkenswerten 30 Prozent. Viele Gründe zum Feiern. Eigentlich. Doch die Stimmung beim weltgrößten Suchmaschinen-Betreiber ist getrübt. Die gleichen Marktforscher sagen Google nämlich ein Ende der glorreichen Zeiten voraus. Die Gründe: Die User verstecken sich vor Google, klicken seltener auf Werbebanner und achten stärker denn je auf ihre Privatsphäre im Internet. In den USA schrumpfte das Anzeigengeschäft allein von Dezember 2007 bis Januar 2008 um sieben Prozent. Der Aktienkurs der Suchmaschine brach ob dieser Zurückhaltung ein, seit letztem November verlor Google 40 Prozent seines Börsenwertes - immerhin 80 Milliarden US-Dollar. Das rückläufige Geschäft verdeutlicht ein gravierendes Problem. Es wird für Google immer schwerer, Werbung dort einzublenden, wo die Webnutzer sind. Die Platzierung funktioniert vereinfacht so: Um seinen Webseitenindex aktuell zu halten, schickt Google Crawler durch das Web. Sie erfassen für das Indizierungs-Programm Google-bot die Inhalte der Webseiten - anhand häufig auftauchender Begriffe sowie von Content- und Title-Tags. So weiß Google, auf welchen Seiten welche Inhalte stehen und kann passende Werbung schalten. In Zeiten dröger HTML-Seiten war das mehr als ausreichend. Doch das Web hat sich schneller geändert als Google seinen Googlebot. Der nämlich kann nicht alle Seitenformate erfassen. Die Inhalte von Flash-Dateien und dynamischen Webseiten etwa bleiben außen vor, zielgenaue Werbung lässt sich hier nicht schalten. Dummerweise boomen ausgerechnet diese Formate im populären "Web 2.0". Eigentlich ein rein technisches Problem, für das die Suchmaschine noch keine Lösung hat.
Doch auch mit den Menschen im Internet hadert Google. Schon vergangenes Jahr bettelte Google-Chef Eric Schmidt bei den Nutzern um die Preisgabe persönlicher Informationen: "Wir können nicht einmal die einfachsten Fragen beantworten, weil wir zu wenig über euch wissen" Dass es Probleme geben könnte, wusste Google freilich schon länger. Wie verzweifelt die Führungsriege tatsächlich ist, zeigen die 900 Millionen Dollar, mit denen sich die Suchmaschine im Sommer 2006 in die Web-Community MySpace einkaufte. Der Deal klingt eigentlich absurd - schließlich zahlte der Branchen-Primus das Geld, damit er seinen Such-Service anbieten kann. Natürlich ist das nur die halbe Geschichte. ,Wir halten es für wichtig, dass wir Google dorthin bringen, wo die User sind, und die wenden sich immer stärker Seiten mit selbst geschaffenen Inhalten zu", sagte seinerzeit Eric Schmidt. Doch die User verstecken sich, schalten ihre Profile auf den Status "Privat" und sind damit weiterhin unsichtbar und wertlos für Google. Und so geht es der Suchmaschine in nahezu jedem Social Network: Weltweit etwa 300 Millionen Nutzer solcher Netzwerke bekommt Google nicht zu Gesicht. Xing, facebook oder studiVZ sind beliebt bei den Surfern - und für Google unerreichbar. Doch ausgerechnet im Sammeln der dort preisgegebenen Daten sieht Google mittlerweile seine Existenzgrundlage. Der scheinbare Ausweg aus dem Dilemma heißt OpenSocial. Das ist eine Sammlung standardisierter Programmierschnittstellen (APIs) für webbasierte soziale Netzwerke. Mithilfe solcher APIs lassen sich Widgets programmieren - oder aber auch die in Datenbanken versteckten Nutzerprofile auslesen. Joe Kraus, bei Google verantwortlich für OpenSocial, nannte es einmal ganz unverhohlen "eine fantastische Monetarisierungsplattform". Auf Deutsch: ein Goldesel. Spürhund: Auf der verzweifelten Suche nach den Userdaten Fraglich ist allerdings, ob die Nutzer Google an ihre Daten lassen. Drei Viertel aller Surfer rebellieren ja bereits, wenn Google nur über die an sich relativ nutzlose IP-Adresse auf frühere Suchen der Personen schließt, fand der Autor Gerald Reischl für sein gerade erschienenes Buch "Die Google-Falle" heraus. Wie solch ein Protest praktisch aussieht, erfuhren die Betreiber des Studenten-Netzwerkes studiVZ Ende letzten Jahres: Reichlich unbedarft verkündeten sie ihren Nutzern, deren persönliche Daten zukünftig auch für Werbezwecke einzusetzen. Die Community machte das, was man eigentlich auch von ihr erwarten durfte: Sie organisierte sich gegen den befürchteten Ausverkauf und zwang studiVZ schließlich, den fraglichen Passus aus den Geschäftsbedingungen zu streichen. Selbst die Netzwerke, die OpenSocial unterstützen, halten nichts davon, dass sich Google über die Nutzerprofile hermacht, um seine Werbeeinnahmen zu steigern. Zumindest nicht die deutschen: "Es ist nicht in unserem Sinne, dass es bei der Nutzung von auf OpenSocial basierten Widgets zu einem Datenaustausch mit Google oder Dritten kommt", sagt Daniela Hinrichs, Pressesprecherin des Business-Netzwerkes Xing. "Das wäre aufgrund der strengenDatenschutzbestimmungen und unserer AGB überhaupt nicht zulässig - und es ist auch nicht gewollt.""
-
Courtois, M.P.; Berry, M.W.: Results ranking in Web search engines (1999)
0.05
0.049568687 = product of:
0.19827475 = sum of:
0.19827475 = weight(_text_:html in 3794) [ClassicSimilarity], result of:
0.19827475 = score(doc=3794,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.56872755 = fieldWeight in 3794, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.078125 = fieldNorm(doc=3794)
0.25 = coord(1/4)
- Footnote
- Auch unter: http://www.on-lineinc.com/on-linemag/OL1999/courtois5.html.
-
Page, A.: ¬The search is over : the search-engines secrets of the pros (1996)
0.05
0.049568687 = product of:
0.19827475 = sum of:
0.19827475 = weight(_text_:html in 5738) [ClassicSimilarity], result of:
0.19827475 = score(doc=5738,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.56872755 = fieldWeight in 5738, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.078125 = fieldNorm(doc=5738)
0.25 = coord(1/4)
- Footnote
- Auch unter: http://www.zdnet.com/pccomp/features/fea1096/sub2.html
-
Day, M.; Koch, T.: ¬The role of classification schemes in Internet resource description and discovery : DESIRE - Development of a European Service for Information on Research and Education. Specification for resource description methods, part 3 (1997)
0.05
0.049568687 = product of:
0.19827475 = sum of:
0.19827475 = weight(_text_:html in 4067) [ClassicSimilarity], result of:
0.19827475 = score(doc=4067,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.56872755 = fieldWeight in 4067, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.078125 = fieldNorm(doc=4067)
0.25 = coord(1/4)
- Source
- http://www.ub.lu.se/desire/radar/reports/D3.2.3/class_v10.html.
-
Dambeck, H.: Wie Google mit Milliarden Unbekannten rechnet : Teil 2: Ausgerechnet: Der Page Rank für ein Mini-Web aus drei Seiten (2009)
0.05
0.049568687 = product of:
0.19827475 = sum of:
0.19827475 = weight(_text_:html in 67) [ClassicSimilarity], result of:
0.19827475 = score(doc=67,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.56872755 = fieldWeight in 67, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.078125 = fieldNorm(doc=67)
0.25 = coord(1/4)
- Source
- http://www.spiegel.de/wissenschaft/mensch/0,1518,646448-2,00.html
-
Charisius, H.: Gängige Suchmaschinen übersehen weite Bereiche des Internet, neue Dienste helfen beim Heben der Info-Schätze : Mehr drin, als man denkt (2003)
0.05
0.045869272 = product of:
0.091738544 = sum of:
0.042169858 = weight(_text_:und in 2721) [ClassicSimilarity], result of:
0.042169858 = score(doc=2721,freq=42.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.28073493 = fieldWeight in 2721, product of:
6.4807405 = tf(freq=42.0), with freq of:
42.0 = termFreq=42.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=2721)
0.049568687 = weight(_text_:html in 2721) [ClassicSimilarity], result of:
0.049568687 = score(doc=2721,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.14218189 = fieldWeight in 2721, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.01953125 = fieldNorm(doc=2721)
0.5 = coord(2/4)
- Abstract
- Unendlich weit. Über Jahrzehnte wuchs das Internet zum Wissenskosmos. Neue Suchstrategien erschließen Nutzern die verborgenen Informationen. Mit Bezugnahme auf das Invisible Web (Grafik) und Stellungnahmen von W.G. Stock (Bild), W. Sander-Beuermann (MetaGer) (Bild) u. M. Henzinger (google.de) (Bild)
- Content
- "Wenn Chris Sherman über das Internet spricht, schweift er mitunter ab zu den Sternen. "Wie das Universum ist auch das Web voll dunkler Materie", sagt der Suchmaschinenexperte aus Los Angeles. "Die Astronomen erzählen uns, dass selbst das stärkste Teleskop höchstens zehn Prozent der Himmelskörper im All aufspüren kann. " Der Rest sei dunkel und somit unsichtbar. Genauso verhalte es sich mit Informationen im Web. "Das meiste Wissen", so Sherman, "bleibt selbst den besten Suchmaschinen verborgen." Höchstens ein Zehntel des Internet können die digitalen Spürhunde durchwühlen. Der Rest bleibt unter der Oberfläche im so genannten Deep Web verborgen, verteilt auf Datenbanken, Archive und Foren, oder treibt unverlinkt im Info-Meer - unerreichbar für Suchmaschinen. Eine Studie von Brightplanet, einer US-Firma für Suchtechnologie, rechnet vor, dass im Deep Web 400- bis 550-mal mehr Daten liegen als im oberflächlichen Surface-Web, in dem Google & Co. fischen können." Wenn Informationen die wichtigste Ware im 21. Jahrhundert sind, dann ist das tiefe Web unschätzbar wertvoll", sagt Michael Bergman aus dem Brightplanet-Vorstand. Um ihren Index zu pflegen und zu erweitern, schicken Suchmaschinen ihre Spione, so genannte Spider oder Crawler, durchs Netz. Diese Software-Roboter hangeln sich von Link zu Link und speichern jede neue Seite, die sie erreichen. "Millionen unverlinkter Web-Auftritte oder dynamisch aus Datenbanken erzeugte Dokumente gehen ihnen dabei durch die Maschen", schätzt Wolfgang Sander-Beuermann, Leiter des Suchmaschinenlabors der Uni Hannover. Andere Seiten sperren die Agenten bewusst aus. Ein versteckter Hinweis oder eine Passwortabfrage blockt die Spider ab, zum Beispiel am Eingang zu Firmen-Intranets. An manche Inhalte kommen die Spider nicht heran, weil sie mit deren Datenformat nichts anfangen können: Musikdateien, Bilder und Textdokumente sind schwer verdauliche Brocken für die Agenten, die auf den Internet-Code HTML spezialisiert sind. Den größten Teil des Deep Web füllen "Datenbanken mit gesichertem und für jedermann zugänglichem Wissen", weiß Netz-Ausloter Sherman, der zusammen mit dem Bibliothekar und Informationsspezialisten Gary Price in dem Buch "The Invisible Web" die Tiefenregionen des Internet erstmals für die breite Masse der Anwender sichtbar macht. Zu den wertvollsten Informationsquellen zählen kostenlose Archive, die Kataloge öffentlicher Bibliotheken, Datenbanken von Universitäten, Behörden, Patentämtern oder des Statistischen Bundesamts, ferner Newsgroups, das sind themenspezifische Schwarze Bretter im Netz, und digitale Produktkataloge. "Die Suchmaschinen können nicht in diesen Schätzen stöbem, weil sie erst gar nicht hineingelangen", erklärt Sherman. Vor dem Zugriff zum Beispiel auf das kostenlose Archiv von FOCUS muss der Nutzer per Eingabemaske nach Schlagwörtern recherchieren. Die Crux für Google & Co. bringt Sherman auf den Punkt: "Sie können nicht tippen" -und müssen deshalb draußen bleiben. Dasselbe Spiel beim größten deutschen Buchkatalog: Die digitalen Fahnder finden ihn zwar und führen den Suchenden zur Deutschen Bibliothek unter www.ddb.de. In dem Verzeichnis, das über acht Millionen Druckerzeugnisse listet, muss der Gast dann selbst weitersuchen. Für Suchmaschinen ist der Index unsichtbar. Auch an der gezielten Recherche nach Albert Einsteins Lebenslauf scheitern automatische Findhilfen. So meldet Google zwar 680 000 Treffer für Albert Einstein. Nur die Vita, die neben 25 000 weiteren im Archiv von www.biography.com liegt, findet der beliebte Generalist nicht.
Auch an die Daten der Flugverbindungen zwischen Berlin und New York kommt Google nicht heran. Die spuckt hingegen www.trip.com binnen Sekunden inklusive Preisen und Buchungsmöglichkeit aus. Um solche Quellen künftig anzuzapfen, verfolgen Suchdienste unterschiedliche Strategien. Die in South Dakota ansässige Firma Brightplanet katalogisiert unter der ambitionierten Adresse www.completeplanet.com nach eigenen Angaben 103 000 Datenbanken und Spezialsuchmaschinen. Dazu verkauft das Unternehmen den Rechercheautomaten Lexibot, ein kleines Programm, das mehr als 4300 Wissenssammlungen auf einen Rutsch abfragen kann. Andere Hersteller bieten ähnliche Software-Agenten, die im Deep Web schürfen (s. Kasten). Auch die klassischen Suchhilfen dringen in immer tiefere Regionen vor. Der deutsche Anbieter Acoon liefert testweise Links zu Musikdateien in der Tauschbörse eDonkey in der Trefferliste. Wolfgang Sander-Beuermann entwickelt derzeit mit Kollegen im Hannoveraner Suchmaschinenlabor das forschungsportal.net "für das deutsche Hochschulwissen, das bei den beliebten Allzwecksuchern in der Treffermasse untergeht", so Sander-Beuermann. Branchenprimus Google kann seit geraumer Zeit News von 4000 ausgewählten Nachrichtenquellen abgreifen, Textdokumente lesen, Fotos und Grafiken finden und in einem riesigen Archiv nach Newsgroups-Einträgen fahnden. "Das Archiv unter groups.google.com beherbergt Foren zu fast jedem denkbaren Thema", erklärt Suchspezialist Sander-Beuermann. "Immer wenn ich im Web nicht weiterkomme, suche ich in diesem Teil des Internet." Den jüngsten Coup landete der beliebte Dienst, der inzwischen fast 3,1 Milliarden Dokumente erfasst hat, vor einigen Tagen mit dem auf Produkte spezialisierten Zusatzangebot froogle.com. "Wir haben Froogle auf vielfachen Wunsch unserer Nutzer entwickelt", erzählt die Leiterin der Google-Forschungsabteilung Monika Henzinger. Auch Konkurrent Altavista fahndet nach Musikdateien, Fotos, Videos und Nachrichten. Eine viel versprechende Strategie verfolgt auch Northem Light. Der Dienst durchsucht gleichzeitig den von Spidem erstellten Index und ausgewählte Spezialdatenbanken. "Solche Hybride vereinigen die unterschiedlichen Welten des Web, ein sinnvoller Ansatz", meint Wolfgang Stock, Professor für Informationswissenschaft an der Uni Düsseldorf und FH Köln. Leider sei der Index teilweise veraltet und recht klein, klagt der Computerexperte, der mit seinen Studenten die Qualität von Suchmaschinen untersucht hat. Den Umfang des in Datenbanken schlummernden Wissens schätzt Stock nüchterner ein als Michael Bergman von Brightplanet: "Das Unternehmen hat nicht die einzelnen Dokumente ausgewertet, sondem den benötigten Speicherplatz ermittelt." Wenn man sich an der Zahl der Datensätze orientiere, sei "deren Größenschätzung wahrscheinlich zehnmal zu hoch", kalkuliert Stock. Solange die meisten Suchdienste nur den kleineren Teil des Internet im Blick haben, bleibt der Expertenstreit über die Größe des gesamten Netzes folgenlos. "Trotz aller Verbesserungen kann keine Suchmaschine alle Anfragen gleichermaßen gut beantworten", sagt der Berliner Suchmaschinenspezialist und Betreiber des Ratgebers at-web.de, Klaus Patzwaldt. "Dazu müssten Computer so intelligent wie Menschen sein." "
-
Blittkowsky, R.: ¬Das World Wide Web gleicht einer Fliege : Studien versuchen zu erklären, warum Suchmaschinen nicht immer fündig werden (2001)
0.04
0.044840112 = product of:
0.089680225 = sum of:
0.040111534 = weight(_text_:und in 2090) [ClassicSimilarity], result of:
0.040111534 = score(doc=2090,freq=38.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.26703218 = fieldWeight in 2090, product of:
6.164414 = tf(freq=38.0), with freq of:
38.0 = termFreq=38.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=2090)
0.049568687 = weight(_text_:html in 2090) [ClassicSimilarity], result of:
0.049568687 = score(doc=2090,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.14218189 = fieldWeight in 2090, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.01953125 = fieldNorm(doc=2090)
0.5 = coord(2/4)
- Abstract
- Einer möchte wissen, auf welchen Webseiten sein Name vorkommt. Die andere sucht nach den neusten Sportergebnissen. Ein Dritter recherchiert den Wissensstand über Schrödingers Katze. Internetnutzer befragen jede Minute zu Hunderttausenden Suchmaschinen und Webkataloge. Die wurden, seit das Internet zum Masseninedium herangereift ist, zu Info- (Mono-) Polen für den Zugang zur heterogenen Welt des Web. Dahinter steckt viel Arbeit. Die Suchmaschinen schicken unentwegt Roboter und Agenten los, die Seiten lesen - und Inhalte oder Verweise an mächtige Datenbankservermelden. Täglich entstehen mehrere hunderttausend Webseiten; die Zahl der Adressen, die verarbeitet werden müsste, ist mittlerweile auf mehr als eine Milliarde gewachsen. Nicht nur deshalb wird die automatische Recherche zunehmend schwierig. Eine Untersuchung der Firmen Altavista, Compac und IBM, die die Verbindungen auf 500 Millionen Seiten auswertete, ergab: Im WWW wächst ein Bereich heran, den konventionelle Suchtechnologien nicht erfassen können. Das widerspricht früheren Studien, nach denen zwei beliebige Webadressen höchstens 19 Hyperlinks voneinander entfernt liegen - sich prinzipiell also alles finden lässt. Die Forscher um Altavista-Chefwissenschaftler Andrei Broder vergleichen den Aufbau des World Wide Weh mit der Form einer Fliege. Das Netz gliedert sich demnach in vier Bereiche. Etwa ein Drittel der Seiten fügen den zentralen Kein, um den sich die anderen Gebiete lagern. Den Knoten beschreiben die Fachleute als Giant Strongly Connected Components (SCC): Die Seiten sind untereinander eng verknüpft; es bestehen gute Linkverbindungen zwischen den Angeboten; sie sind leicht zu finden. Ein Viertel der Adressen macht eine Schicht aus, die sich als eine Schleife der Fliege sehen lässt. Es handelt sich vorwiegend um Anfangsseiten, Einstiegspunkte zu Webseiten und inhaltlich sortierende Kataloge.
Von dort aus sind die zentralen Seiten im Knoten gut erreichbar. Eine zweite Schleife, ein weiteres Viertel aller Webseiten, bilden die Endpunkte - Angebote ohne Links. Sie sind nur über den Knoten erreichbar. Verbleibt etwa ein Fünftel aller Seiten, die gar nicht oder nur indirekt mit dem Knoten verknüpft sind. Letztere werden als Tendrils bezeichnet. Diese Webangebote basieren beispielsweise auf Datenbanken von Unternehmen, Verbänden oder Organisationen. Sie entstehen erst in den wenn sie abgerufen werden - oft in kryptischen Dateiformaten und mit Animationen, Bildern oder Audiodateien angereichert. Surfer können diese Informationen mit Recherchen in den Webseiten der Schleifen aufspüren. Die Agenten der Suchmaschinen dagegen sind darauf trainiert, ständig verfügbare Dokumente im html-Format zu finden. Ihnen entgeht dieser Teil des World Wide Web. Das US-Softwareunternehmen Bright Planet schätzt, das WWW umfasst 2000-mal so viele Seiten, wie alle Suchsysteme zusammen glauben. Auch wenn sie systembedingt nicht alle Seiten kennen: Insgesamt liefern die automatischen Maschinen mehr Ergebnisse als Kataloge wie Yahoo, Dino-Online oder Looksmart. Deren Macher beschäftigen Redaktionsstäbe, die Inhalte recherchieren, sichten und in die Verzeichnisse einordnen. Webkataloge bauen also auf die humane Intelligenz ihrer Rechercheure, die Themen und Seiten verknüpfen sowie Inhalte kommentieren und einordnen. Yahoo, Lieblingskind der New Economy, bringt es indes gerade einmal auf 15 Millionen katalogisierter Webseiten. Gleichwohl kauft Yahoo bei einigen Themen mancher Suchmaschine den Schneid ab: Eine vorstrukturierte, handverlesene Einarbeitung von Inhalten in die Rubriken eines Katalogs kann genauer Auskunft geben.
Die Spitzenreiter unter den Suchmaschinen sehen sich im Zugzwang, ihren Service zu verbessern. Schließlich sollen die Kunden immer wieder Anfragen starten und damit indirekt die üppigen Werbepreise rechtfertigen. Alltheweb, Google und Altavista erkunden das Netz unterschiedlich. Alltheweb, betrieben vom norwegisch-amerikanischen Unternehmens Fast, setzt bei der Verwaltung der Index-Datenbank auf superschnelle Rechenleistungen und Servertechnologie, damit die richtigen Hyperlinks oben stehen. Etwa 500 Millionen indizierter Webseiten bedeuten für Alltheweb die Pole-Position. Die rein maschinelle Verarbeitung scheint ein gutes Konzept zu sein: Allthewebs Resultatslisten warten mit den besten mehrsprachigen Kommentaren auf. Die Suchmaschine Google, die ihren Namen der Zahl Googol verdankt und eine eins mit hundert Nullen bezeichnet, speichert alle Webseiten lokal auf einer Computerfarm mit 6000 Zentraleinheiten. Sie verwendet ein mathematisches Verfahren, um Webseiten nach inhaltlichen Kriterien zu ordnen. Larry Page und Sergej Brin, die Entwickler des kalifornischen Projekts an der Stanford University, setzen bei der internen Bewertung von Webseiten, dem Page-Ranking, auf die Einschätzungen der Internet-Surfer: Wenn sie einem Verweis auf eine andere Adresse folgen, treffen sie eine intuitive Entscheidung. Sie rufen ein Angebot auf, von dem sie bessere Informationen, eine konkrete Antwort auf ihre Frage erwarten. Page und Brin überlegten, die Summe der Surfentscheidungen kann ihren Inhalt indirekt qualifizieren: Je häufiger eine Webseite ausgewählt wird, desto höher kann ihre Qualität sein - in Bezug auf die inhaltliche Relevanz hinsichtlich eines Themas. Mit einem komplizierten Bewertungsverfahren filtern die Datenbankserver von Google permanent und ohne menschliches Zutun die Entscheidungen unzähliger Surfer Die Ergebnisse von Google gehören nachweisbar zu den besten, die Maschinen weltweit bieten. Altavista ist schon lange im Geschäft. Auch die Manager dieses Unternehmens setzen auf einen hohen technologischen Aufwand. Sie schicken Suchroboter, genannt Scooter, los, die Tag für Tag ungefähr 24 Millionen Dokumente überprüfen und gegebenenfalls der Datenbank hinzufügen. Das entspricht einer Kapazität von 800 DIN-A4-Seiten pro Sekunde. Die Datenbank erfasst alle Worte eines Dokuments. Der Vorteil der Volltext-Indizierung ist offenkundig: Jedes Dokument kann theoretisch auf Grund eines darin enthaltenen Worts sekundenschnell gefunden werden. Altavista kennt 50 Millionen deutschsprachiger Webseiten. Als Spezialität findet sie auch Produktinformationen und Markenbezeichnungen - und sicher auch das Neueste zu Schrödingers Katze
-
Hartknopf, A.: ¬Die Kugel für Google? : Alternative Suchwerkzeuge (2006)
0.04
0.044305194 = product of:
0.08861039 = sum of:
0.0390417 = weight(_text_:und in 5733) [ClassicSimilarity], result of:
0.0390417 = score(doc=5733,freq=36.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.25991005 = fieldWeight in 5733, product of:
6.0 = tf(freq=36.0), with freq of:
36.0 = termFreq=36.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=5733)
0.049568687 = weight(_text_:html in 5733) [ClassicSimilarity], result of:
0.049568687 = score(doc=5733,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.14218189 = fieldWeight in 5733, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.01953125 = fieldNorm(doc=5733)
0.5 = coord(2/4)
- Abstract
- Das Web wächst rasant und GoogLe findet offensichtlich immer weniger. Eine Reihe raffinierter Tools will Abhilfe schaffen.
- Content
- "Für viele ist es schon Gewohnheit: Wer im Web etwas sucht, geht zu Google. Der Suchdienst hat in kürzester Zeit die Netzwelt erobert. Wer heute im Netz etwas sucht, sagt: das googel ich. Doch nicht immer ist die Inanspruchnahme des Generalisten der Weisheit letzter Schluss. Eine Anzahl von Spezialisten versucht mit witzigen Angeboten, Google die Kugel zu geben. Sicher haben Sie so etwas auch schon erlebt: Kurz vor Feierabend sind Sie beim halbberuflichen Surfen auf eine supertolle Site mit Tipps zur Marathon-Vorbereitung gestoßen. Abends geben Sie bei Ihren Lauffreunden damit an. Die lachen Sie später aus, weil sie von den tollen Informationen nichts gefunden haben. Die Inhalte des Web ändern sich manchmal rasant schnell und vor allem zu unvorsehbaren Zeitpunkten. Wer nicht Gefahr laufen möchte, stundenlang mit wachsender Verzweiflung nach Inhalten zu suchen, von denen nur noch das persönliche Gedächtnis eine vage Ahnung behalten hat, kann jetzt bei Yahoo ein eigenes Webarchiv anlegen. Die "Mein Web" genannte Funktion speichert mit einem Wort gesagt die gefundenen Webseiten für Sie und macht sie so dauerhaft verfügbar. Gegen das Vergessen Nach der Anmeldung bei Yahoo ist dieser Dienst kostenlos nutzbar. Sie können in "Mein Web" Ordner anlegen und Ihre Lesezeichen so sortieren. Unterordner sind derzeit leider nicht möglich. Wer möchte, kann seine Browser-Lesezeichen importieren. Das funktioniert mit den Bookmarks von Internet Explorer, Firefox und Netscape. Auf diese Weise sind die Favoriten von jedem Internet-fähigen Rechner aus zugänglich. Über die Yahoo-Toolbar oder ein leicht zu installierendes Bookmarklet lassen sich von beliebigen StelLen im Web nun Seiten zu "Mein Web" hinzufügen. Yahoo macht eine Kopie des HTML-Codes und archiviert sie im gewünschten Ordner. Oder Sie benutzen die Yahoo-Suchmaske und speichern Treffer direkt aus der Ergebnisliste heraus. Sie können die gespeicherten Seiten nach Datum, Titel, URL und Art der Suche durchsuchen. Außerdem lassen sich beliebige Gruppen von Treffern veröffentlichen, sodass jeder über eine maskierte ID, die seine privaten Ordner schützt, darauf zugreifen kann. Unerwünschte Ergebnisse können blockiert werden und verschwinden so bei künftigen Suchen aus den Ergebnissen. Leider speichert "Mein Web" nur den HTMLCode der archivierten Seiten. Es kann also gut sein, dass verlinkte Bilder, Frames, Flash-Animationen usw. später nicht mehr verfügbar sind. Auch mit der richtigen Wiedergabe der gespeicherten Seiten tut sich das noch in der Betaphase befindliche "Mein Web" mitunter schwer. Beim ersten Ausprobieren wurde aus manchem Layout ein befremdliches Durcheinander. Vor allem deshalb begeistert der an sich sinnvolle Dienst noch nicht vollends.
Dranbleiben Der amerikanische Dienst PubSub verkörpert gewissermaßen die Gegenidee zu Yahoos Seitenspeicher. Bei PubSub geht es in erster Linie darum, über neue Treffer zu einer Suchanfrage informiert zu werden. Google und andere Suchmaschinen sammeln Webseiten, um sie bei Suchanfragen zur Verfügung stellen zu können. PubSub sammelt Suchanfragen, um für diese zutreffende Seiten zur Verfügung stellen zu können. Die Treffer kommen von einer proprietären Suchmaschine, die nach eigenen Angaben über 17 Millionen Weblogs, 50.000 Newsgroups und sämtliche EDGAR-Filings umfasst. Bei letzteren handelt es sich um ein Projekt der amerikanischen Börsenaufsichtsbehörde SEC; die Online-Registratur (Electronic Data Gathering and Retrieval Project) umfasst eine Auflistung von Quartals- und Jahresberichten und den dazugehörigen Dokumenten von an der Börse notierten US-Firmen. Es handelt sich also in vielen Fällen um häufig aktualisierte Inhalte. PubSub speichert die nach einer kostenlosen Anmeldung gemachten Suchanfragen und aktualisiert die Ergebnisliste, sobald ein neuer Treffer zu den angefragten Begriffen eingetroffen ist. Aktuelle Ergebnisse lassen sich direkt auf der PubSub-Site, über einen RSS-Feed-Reader oder die für den Internet Explorer erhältliche proprietäre SideBar abfragen. Die im Grunde gute Idee führt jedoch (noch) zu bescheidenen Ergebnissen. Eine Sprachauswahl (vergleichbar Googles "Seiten auf Deutsch") ist nicht vorgesehen. Deutschsprachige Suchanfragen scheinen insgesamt so gut wie sinnlos. Selbst auf die Anfrage "George Bush" kamen auf den ersten Blick nur wenig relevante Treffer. Es bleibt also, wenigstens für Deutsch sprechende Nutzer, vorläufig fraglich, ob der noch junge Dienst wirklich zu einer sinnvollen Ergänzung zum Prinzip der Suchmaschinen beitragen wird.
Das geht tief Ein kleiner Mythos wird häufig aus dem so genannten "deep web" gemacht. Gemeint sind damit all jene Inhalte, die Suchmaschinen niemals listen, weil ihre Crawler sie nicht erreichen - hauptsächlich aus Datenbanken dynamisch generierte Contents und damit eine riesige Menge von Seiten. Bis zu 500-mal größer soll das "unsichtbare" Web sein. Der Suchdienst Complete Planet will beim Entdecken des Verborgenen helfen. Er listet derzeit 70.000 Datenbanken in über 40 Kategorien von "Agriculture" bis "Weather". Zu jedem Angebot gibt es eine englische Zusammenfassung. Da es jedoch praktisch kaum machbar ist, die teilweise über 100 Datenbanken zu einem Thema auf diese Weise abzuarbeiten, lassen sich die Beschreibungstexte nach Stichworten durchsuchen. Diese Suche lässt sich auf die gesamte Complete-Planet-Datenbank ausweiten oder auf eine Kategorie beschränken. Wie häufig sind auch hier diejenigen im Vorteil, die ihre Infos aus dem englischen Sprachraum beziehen können. Turbo10 ist ein Suchdienst, der nach eigenen Angaben 804 "deep net engines" abfragt, über die zunächst wenig Genaues zu erfahren ist. Die sparsam aufgemachte Site schmeißt auch sonst nicht gerade mit Selbstauskünften um sich. Dafür bietet sie ein sehr übersichtlich organisiertes Ergebnisfenster. Die Ergebnisse werden nach "Clustern" sortiert: Zum Suchbegriff "dvd brenner" etwa lieferte Turbo10 u. a. die Kategorien "hardware", "shops" oder "tests". Auch die abgefragten Suchdienste lassen sich hier mit der Zahl ihrer Treffer auflisten. Interessant ist die Möglichkeit, sich aus der Liste dervon Turbo10 genutzten Suchmaschinen eine eigene Kollektion zusammenzustellen. Dazu muss der Benutzer allerdings seine E-Mail-Adresse herausrücken. Für die tiefgehenden Anfragen wird außerdem einiges an kostenpflichtiger Software angeboten, die das Suchen erleichtern soll.
Im deutschsprachigen Bereich betätigt sich zum Beispiel Bingooo in diesem Feld. Spezialisierte 'Agenten' fragen Informationen aus Bereichen wie Einkaufen, Reisen, Wissen oder Nachrichten ab und geben sie aufbereitet wieder. Eine Trial-Version der Anwendung ist kostenfrei verfügbar. Das mit zusätzlichen Funktionen ausgestattete Programm kostet rund 57 Euro. Viel bekommen Als Beispiel einer Meta-Suchmaschine sei der Metaspinner erwähnt. Metaspinner richtet Ihre Anfrage an 18 einzelne Suchdienste, darunter Alltheweb, Altavista, T-Online (Google) und Yahoo. Wer möchte, kann aus diesen Diensten eine Auswahl treffen. Außerdem finden sich direkt in der Suchmaske Buttons zum Einbeziehen von Wikipedia, eBay, Preispiraten und Amazon in die Suche. Auf Wunsch lassen sich die Ergebnisse in Kategorien sortieren. Durch die zahlreichen Konfigurationsmöglichkeiten wirkt der Metaspinner einem typischen Problem der Metasuchmaschinen entgegen: Werviele Dienste anfragt, bekommt viele Ant-worten. Die manchmal sowieso schon mühevolle Suche nach brauchbaren Treffern kann bei Mehrfachanfragen nämlich noch mühevoller werden. Google ist also nicht alles. Es gibt im Netz eine Reihe von Tools, die vor allem bei Spezialinteressen oder-fragen helfen. Vieles davon ist jedoch auf das englischsprachige Web konzentriert. Für viele Einzelfragen schadet es nach wie vor nicht, die entsprechenden Datenbanken zu kennen. Neue Angebote wie Yahoos "Mein Web" weisen in eine interessante Richtung, sind aber noch verbesserungswürdig."
-
Hosbach, W.: ¬Die Suche denkt mit : Moderne Suchtechnologien (2006)
0.04
0.044305194 = product of:
0.08861039 = sum of:
0.0390417 = weight(_text_:und in 5885) [ClassicSimilarity], result of:
0.0390417 = score(doc=5885,freq=36.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.25991005 = fieldWeight in 5885, product of:
6.0 = tf(freq=36.0), with freq of:
36.0 = termFreq=36.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=5885)
0.049568687 = weight(_text_:html in 5885) [ClassicSimilarity], result of:
0.049568687 = score(doc=5885,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.14218189 = fieldWeight in 5885, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.01953125 = fieldNorm(doc=5885)
0.5 = coord(2/4)
- Abstract
- Google und Co. sind auf dem Weg in die Sackgasse. Die Zukunft gehört der Suche mit Intelligenz und Bedeutung. Denn dann hat die Suche Sinn und Verstand
- Content
- "Stellen Sie sich vor, ein Fremder bittet Sie in seiner Sprache um Hilfe. Sie verstehen: "Drink" und "Bier". Wenn Sie in München leben, schicken Sie den Mann auf dem schnellsten Weg ins Hofbräuhaus. Google würde ebenso handeln: Die meisten Suchenden, die "Drink Bier" von sich geben, suchen das Hofbräuhaus (Popularitätsprinzip). Aber vielleicht wollte er wissen, wo er eine Flasche Bier kaufen kann oder ob Sie ein Bier mit ihm trinken möchten? Sie haben ihn Schlichtweg nichtverstanden. So geht es den Suchmaschinen auch. Umso erstaunlicher ist es, wie präzise deren Antworten oft sind. Wenn man aber etwas sucht, was nicht dem Popularitätsprinzip entspricht, was also vom Suchen der Vielen abweicht, so steht man vor Zehntausenden von Treffern. Besser wäre es, wenn die Suchmaschine versteht, was man sucht. Wenn sie etwas von der Bedeutung der Sucheingabe und der Bedeutung der Webseiten wüsste. Aber die steht in den Seiten nicht drin. Eine komplette Bedeutungshierarchie müsste dem jetzigen Web hinzugefügt werden. Im Kleinen gibt es Ansätze dazu unter dem Namen Semantic Web (www w3. org/2001/sw; in der Sprachwissenschaft beschäftigt sich die Semantik mit der Bedeutung). Der Autor fügt HTML-Dokumenten die Bedeutung in Form von XML-Metatags zu. Ein Beispiel für RDF ist RDF Site Summary (RSS). Eine RSS-Webseite (z.B. www.pc-magazin .de) bietet Nachrichten. Im Gegensatz zu einer normalen Nachrichtenseite sind über XML-Tags Bedeutungen zugefügt. <title> bedeutet: Hier folgt eine Überschrift, <description>: Hier folgt die Inhaltsangabe. Ein RSS Reader (z.B. Thunderbird) kann nun ganz klar erkennen, was eine Überschrift ist, und muss sie nicht über Standardelemente (<b>, <h1>) erraten. Eine andere semantische Anwendung könnte ein Musiker-Netz sein mit Bedeutungs-Tags für Instrumente, Konzerte, Terminen, Downloads etc. Hier könnte man mit entsprechenden Programmen (Browser-Extensions) sehr viel präziser suchen. Eine Besonderheit ist, das RSS auch über Hyperlinks arbeitet. Metainformationen müssen sich nicht auf der Seite selbst finden, sondern eine andere Seite kann sie aufführen. So erschließt sich eine Interessensgruppe fremde Ressourcen und bringt sie in einen eigenen Bedeutungszusammenhang, der vom Autor einer Seite vielleicht nicht gesehen oder nicht einmal gewollt wurde.
Mehr Intelligenz Semantik bedeutet bislang Handarbeit. Das ist lästig und kostspielig. Der Computer soll die Bedeutung bitte selbst verstehen! Im Forschungsbereich der Künstlichen Intelligenz (KI) arbeiten Wissenschaftler auch an derVerbesserung der Suche. Die Forscher vom Fraunhofer Institut für Integrierte Publikations- und Informationssysteme unter der Leitung von Prof. Thomas Hofmann haben ein Verfahren vorgestellt, das Konzepte von Texten extrahiert. "Konzepte bilden eine Brücke zwischen der Ausdrucksweise in einem Dokument und der in der Anfrage", erläutert Hofmann seinen Ansatz. So findet der Suchende alle relevanten Dokumente, selbst wenn die Suchbegriffe nicht direkt vorkommen. Das funktioniert derzeit nur in einem thematisch begrenzten Raum, z.B. einem Webauftritt über Medizin, Handel, Hardware... Bevor die Suchmaschine die Dokumente indiziert, errechnet sie die Konzepte aus einer begrenzten Sammlung an Dokumenten. Diese hat der Betreuer des Systems so ausgewählt, dass sie für das Themengebiet und den Webauftritt charakteristisch sind. Mit Methoden der Statistik und Wahrscheinlichkeitsrechnung (Probabilistic Latent Semantic Analysis; kurz pLSA) extrahiert der Roboter einige hundert bis tausend Konzepte. Die bestehen aus Begriffen und deren Art, gemeinsam in Dokumenten aufzutreten (Häufigkeit, Ort, Beziehung etc.) Für das Beispiel Handel gibt es etwa ein Konzept für Import oder eines für Buchhaltung. Stehen die Konzepte fest, erstellt die Suchmaschine den Index, indem sie alle Dokumente der Domäne den Konzepten zuordnet. Wenn der Anwender nun sucht, so versucht die Suchmaschine, die Anfrage ebenfalls Konzepten zuzuordnen, und wählt dementsprechend die Ergebnisse aus. Hoffmanns System ist auf der Webseite www.medlineplus.com im Einsatz. Gibt der Anwender z.B. +bird +flu ein, so sucht die Suchmaschine genau die Worte - ohne +, jedoch mit Konzept. Die Frage, ob eine konzeptbasierte Suchmaschine für das ganze Web möglich ist, bezweifelt Hofmann derzeit: "Das ist eine Frage der Skalierbarkeit. Die statistische Analyse ist nicht ganz trivial und braucht eine entsprechende Rechenleistung. Auf lange Sicht wird das aber kommen.
Im Web müsste die KI-Suchmaschine Hunderttausende von Konzepten bewältigen. Das ist kostspielig. Eine intelligente Suche wäre pro Anfrage vielleicht zehnmal teuerer als eine jetzige, bei vielen Millionen täglichen Anfragen ist das ein erheblicher Kostenfaktor. Dennoch laufen bei Google Entwicklungen in diese Richtung. Der Marktführer muss Technologieführer bleiben, um zu überleben. Mehr Sprache Die KI arbeitet daran, die Sprache immer besser zu verstehen, bis hin zur Möglichkeit, Fakten ausSätzen zu extrahieren. Das erfordert eine genaue gramma tikalische und semantische Analyse. Auch da haben sichstatistische Verfahren durchgesetzt, die eine große Menge an Sätzen auswerten. Das öffnet auch Wege zum automatischen Übersetzen von Sprachen, was wieder für die Suche relevant ist. An die Grenzen kommt die KI dann, wenn sie Fakten aus mehreren Dokumenten zusammensetzen soll- also Bedeutung im synthetischen Schluss aus verschiedenen Quellen extrahieren. Ebenso wenig kann die KI etwas über die Glaubwürdigkeit einer Quelle sagen. Das schaffen wir als Menschen ja oft kaum. Es gibt auch Methoden, mit denen Suchmaschinen den Suchenden besser verstehen. Sucht er z.B. nach Flügel, so weiß das Tool erst einmal nicht, ob ein Instrument, ein Gebäude, ein Vogel oder ein Flugzeug gemeint ist. Das könnte die Suchmaschine aber vermuten, wenn sie den Anwender besser kennt: Ist er Musiker oder Flugzeugkonstrukteur? Mit KI könnte sie das lernen, z.B. aus seinen bisherigen Suchanfragen (Orchester oder Triebwerke?). Sie könnte auch die Festplatte des Anwenders durchsuchen, um anhand der Dokumente festzustellen, womit der Suchende sich beschäftigt und was ihn interessiert. Das interessiert aber auch das Finanzamt und Adresshändler. Viele Anwender werden Probleme mit der Vertraulichkeit ihrer Daten sehen. Bei einer Internet-Suchmaschine müssten die Informationen als Profile auf dem Server liegen. Wer will das schon?"
-
Haubner, S.: Was uns Google vorenthält : Alternativen zum Marktführer gibt es beim Suchen im Internet kaum - Wir erklären, wie der Suchmaschinen-Gigant "Google" funktioniert. (2012)
0.04
0.04260436 = product of:
0.08520872 = sum of:
0.035640035 = weight(_text_:und in 1006) [ClassicSimilarity], result of:
0.035640035 = score(doc=1006,freq=30.0), product of:
0.15021236 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06772732 = queryNorm
0.23726434 = fieldWeight in 1006, product of:
5.477226 = tf(freq=30.0), with freq of:
30.0 = termFreq=30.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=1006)
0.049568687 = weight(_text_:html in 1006) [ClassicSimilarity], result of:
0.049568687 = score(doc=1006,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.14218189 = fieldWeight in 1006, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.01953125 = fieldNorm(doc=1006)
0.5 = coord(2/4)
- Content
- "Ganze "230 Adressen im World Wide Web, 250 Server und 100 per E-Mail zugängliche Informationsquellen". So stand es 1995 in der "Updated Internet Services List". Die manuell zusammengetragene Adressliste, nach ihrem Urheber auch als "Yanoff-Liste" bekannt, war einer der ersten Versuche, die anschwellende Informationsflut des Internet zu kanalisieren. Aus einem dieser Verzeichnisse, das zunächst von Studenten zusammengetragen wurde, entstand kurze Zeit später mit Yahoo die Mutter aller Suchmaschinen. Die englische Wortkombination "Search Engine" ist allerdings irreführend. Denn dahinter steckt in Wahrheit eine Software, die automatisch einen Index der Internetinhalte erstellt. Denn der Fleiß einer Handvoll Studenten reichte schon bald nicht mehr aus, das sich explosionsartig ausbreitende Web auch nur ansatzweise zu erfassen.
Keine ernsthafte Konkurrenz Damit ist die Geschichte der Suchmaschinen weitestgehend erzählt - außer, dass Yahoo praktisch keine Rolle mehr spielt. Um das Gesuchte in den Weiten des Netzes zu finden, benutzt man heute Google. Mehr als 90 Prozent aller Suchanfragen in Deutschland laufen Schätzungen zufolge über die Rechenzentren des US-Konzerns. Ernsthafte Konkurrenten? Keine. Einst erfolgreiche Dienste wie Excite, Infoseek, AltaVista oder Lycos sind längst von der Bildfläche verschwunden. Liefert nicht Google zu allen erdenklichen Suchbegriffen zigtausend Ergebnisse? Mehr, so die allgemeine Auffassung, kann sowieso kein Mensch verarbeiten. Dahinter steht der naive Glaube, Google bilde die digitale Welt in ihrer Gesamtheit ab. Oder, schlimmer noch, gar die reale Welt. Dabei könnte nichts weiter von der Realität entfernt sein, wie Dr. Wolfgang Sander-Beuermann, Leiter des Suchmaschinenlabors der Leibniz-Universität Hannover erklärt. Denn Google entscheidet, nach welchen Kriterien die digitale Welt durchkämmt wird. Google legt fest, welche Webseiten unter den ersten zehn Ergebnissen zu einer Suche angezeigt werden. Da die Mehrheit der Nutzer ohnehin nur diese wahrnimmt, bestimmt ein einzelnes Unternehmen, welchen Ausschnitt der Wirklichkeit die Menschheit zu sehen bekommt. Und die Algorithmen, nach denen die Suchmaschine funktioniert, hält der Konzern streng unter Verschluss: "Google entscheidet, welches Wissen wahrgenommen wird, und welches nicht; was im Internet existiert und was nicht." Die Macht, die dem Konzern damit zukomme, reiche weit über die Kontrolle des Wissenszugangs durch Suchmaschinen hinaus. "Was wir hier beobachten, ist eine Monokultur mit gravierenden Folgen für die Informations- und Wissenskultur", warnt der Wissenschaftler, der deshalb bereits vor Jahren "SuMa e.V.", einen "Verein für freien Wissenszugang", gegründet hat. Er setzt sich dafür ein, "globale Online-Oligopole besser zu kontrollieren". Um den freien Zugang zu dem im Internet gespeicherten Wissen für möglichst viele Menschen zu ermöglichen, sei es außerdem "von entscheidender Bedeutung, die dahinterstehende Technologie zu entwickeln und zu fördern - auch und gerade in Deutschland." Doch genau das wurde in den vergangenen zehn Jahren versäumt.
Die Grundlage für das heutige Monopol wurde Ende der 90er-Jahre geschaffen. Damals hatten die beiden Google-Gründer Larry Page und Sergei Brin das Glück, zum richtigen Zeitpunkt mit der besten Technik aufwarten zu können. Kurz darauf führte die so genannte Dotcom-Krise zum Versiegen der Geldquellen und leitete den Niedergang der Mitbewerber ein. Ausgestattet mit frischem Geld und einer überlegenen Technologie nutze das Unternehmen die Gunst der Stunde und wuchs zu einem mittlerweile rund 25000 Mitarbeiter zählenden Konzern heran. Seitdem muss man sich in Mountain View nicht mehr großartig mit Kritik auseinandersetzen. Vom kalifornischen Hauptsitz aus wird praktisch im Alleingang über die Zukunft des Internet entschieden. So werden dem Nutzer mittlerweile personalisierte Ergebnisse angezeigt, die auf dessen bisherigen Suchanfragen beruhen. "Sie freuen sich vielleicht, dass bei dem für Sie wichtigen Suchwort ihre Homepage ganz vorn bei Google erscheint, worauf Sie Google ganz besonders toll finden", erklärt Sander-Beuermann. "Tatsächlich liegt das daran, dass Sie Ihre Homepage selber angeklickt haben. Ihr Nachbar kann völlig andere Ergebnisse erhalten." Wie diese Informationsbewertung genau funktioniere, gehöre allerdings zum Betriebsgeheimnis. Ebenso wie eine Fülle weiterer Faktoren, die eine Rolle bei der Auswahl der angezeigten Suchergebnisse spiele. So fließt auch die jeweilige geografische Position in die Zusammenstellung und Reihenfolge der angezeigten Links ein.
Neue Entwicklungen im Netz Doch es gibt durchaus Ansätze, dem Goliath Google die Stirn zu bieten. Zu den Davids, die das versuchen, gehört Michael Schöbel. Seit 1999 betreibt er die deutsche Suchmaschine Acoon - als Gründer, Geschäftsführer und einziger Angestellter. Schöbel gibt sich jedoch keinen besonderen Illusionen hin. "Allein vom Datenumfang her kann ich mit den von Google erfassten 50 Milliarden erfassten Webseiten natürlich nicht konkurrieren." Die Erfassung koste eine Menge Geld, ebenso wie die Server, die man zum Speichern solcher Datenbestände bereitstellen müsste. Dennoch hält es der Einzelkämpfer für wichtig, "dem rein amerikanischen Blick auf die Welt eine eigene Sichtweise entgegenzusetzen." Weil Acoon auf einen vollkommen eigenständigen Suchindex setze, erhalte der Nutzer Suchergebnisse, "die gut sind, ohne dabei dem Einheitsbrei zu entsprechen." Hoffnung macht Google-Kritikern derzeit aber vor allem eine Firma, die bislang nicht unbedingt im Verdacht konterrevolutionärer Aktivitäten stand: Microsoft. Dessen Suchmaschine Bing konnte Google bereits einige Marktanteile gewinnen - freilich nicht, ohne zuvor selbst eine Reihe kleinerer Anbieter geschluckt zu haben. Auch das einst so einflussreiche Webverzeichnis Yahoo! bezieht seine Ergebnisse mittlerweile aus dem Bing-Index.
Und natürlich schlägt Microsoft in die gleiche Kerbe wie Google. Denn auch die Bing-Suche steht ganz im Zeichen der "Individualisierung" der Ergebnisse. "Social Search" nennt sich die (noch) optionale Möglichkeit, Facebook-Einträge von Freunden als Suchkriterien zu verwenden. Schließlich, so die Meinung des Konzerns, beeinflusse der "Freunde-Effekt" die Entscheidung von Menschen in der Regel mehr als andere Faktoren. Die Entwicklung zeigt eindrucksvoll, wie schnell sich die beiden letzten Großen im Suchmaschinen-Geschäft neue Entwicklungen im Netz aneignen. Im Web 2.0 bildeten Blogs und Soziale Netzwerke bislang gewissermaßen ein demokratisches Gegengewicht zum Meinungsmonopol. Doch auch hier ist der Internet-Goliath bereits am Start. Wer sich schon immer mal gefragt hat, warum der Such-Gigant praktisch monatlich mit neuen Angeboten wie etwa Google+ aufwartet, findet hier eine Antwort. Mit dem kostenlosen Smartphone-Betriebssystem Android sicherte man sich eine gewichtige Position auf dem expandieren Markt für mobile Plattformen. Trotz ihrer momentanen Allmacht erkennen die Konzernlenker also durchaus die Gefahr, irgendwann einmal selbst vom Zug der Zeit überrollt zu werden. Für die meisten Konkurrenten kommt diese Einsicht zu spät."
- Footnote
- Vgl.: http://www.fr-online.de/ratgeber/suchmaschinen-was-uns-google-vorenthaelt,1472794,11675234.html.
-
Lawrence, S.; Giles, C.L.: Accessibility and distribution of information on the Web (1999)
0.04
0.042060427 = product of:
0.16824171 = sum of:
0.16824171 = weight(_text_:html in 5952) [ClassicSimilarity], result of:
0.16824171 = score(doc=5952,freq=4.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.48258135 = fieldWeight in 5952, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.046875 = fieldNorm(doc=5952)
0.25 = coord(1/4)
- Abstract
- Search engine coverage relative to the estimated size of the publicly indexable web has decreased substantially since December 97, with no engine indexing more than about 16% of the estimated size of the publicly indexable web. (Note that many queries can be satisfied with a relatively small database). Search engines are typically more likely to index sites that have more links to them (more 'popular' sites). They are also typically more likely to index US sites than non-US sites (AltaVista is an exception), and more likely to index commercial sites than educational sites. Indexing of new or modified pages byjust one of the major search engines can take months. 83% of sites contain commercial content and 6% contain scientific or educational content. Only 1.5% of sites contain pornographic content. The publicly indexable web contains an estimated 800 million pages as of February 1999, encompassing about 15 terabytes of information or about 6 terabytes of text after removing HTML tags, comments, and extra whitespace. The simple HTML "keywords" and "description" metatags are only used on the homepages of 34% of sites. Only 0.3% of sites use the Dublin Core metadata standard.
-
What is Schema.org? (2011)
0.04
0.042060427 = product of:
0.16824171 = sum of:
0.16824171 = weight(_text_:html in 437) [ClassicSimilarity], result of:
0.16824171 = score(doc=437,freq=4.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.48258135 = fieldWeight in 437, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.046875 = fieldNorm(doc=437)
0.25 = coord(1/4)
- Abstract
- This site provides a collection of schemas, i.e., html tags, that webmasters can use to markup their pages in ways recognized by major search providers. Search engines including Bing, Google and Yahoo! rely on this markup to improve the display of search results, making it easier for people to find the right web pages. Many sites are generated from structured data, which is often stored in databases. When this data is formatted into HTML, it becomes very difficult to recover the original structured data. Many applications, especially search engines, can benefit greatly from direct access to this structured data. On-page markup enables search engines to understand the information on web pages and provide richer search results in order to make it easier for users to find relevant information on the web. Markup can also enable new tools and applications that make use of the structure. A shared markup vocabulary makes easier for webmasters to decide on a markup schema and get the maximum benefit for their efforts. So, in the spirit of sitemaps.org, Bing, Google and Yahoo! have come together to provide a shared collection of schemas that webmasters can use.
-
Sieverts, E.: Citatie-zoeken op het Web (1997)
0.04
0.039654948 = product of:
0.15861979 = sum of:
0.15861979 = weight(_text_:html in 1143) [ClassicSimilarity], result of:
0.15861979 = score(doc=1143,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.45498204 = fieldWeight in 1143, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.0625 = fieldNorm(doc=1143)
0.25 = coord(1/4)
- Abstract
- Just as citiation indexing provides links between related documents for published literature, the WWW offers facilities for searching related sources via the HTML tags. Search engines which offer this facility are InfoSeek and AltaVista, and, to a lesser degree, HotBot. All enable Boolean search strategy to be used, althoufg HotBot requires insertion of full URL addresses
-
Dambeck, H.: Wie Google mit Milliarden Unbekannten rechnet : Teil.1 (2009)
0.04
0.039654948 = product of:
0.15861979 = sum of:
0.15861979 = weight(_text_:html in 68) [ClassicSimilarity], result of:
0.15861979 = score(doc=68,freq=2.0), product of:
0.3486287 = queryWeight, product of:
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.06772732 = queryNorm
0.45498204 = fieldWeight in 68, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.1475344 = idf(docFreq=701, maxDocs=44421)
0.0625 = fieldNorm(doc=68)
0.25 = coord(1/4)
- Source
- http://www.spiegel.de/wissenschaft/mensch/0,1518,646448,00.html