-
Lanvent, A.: Licht im Daten Chaos (2004)
0.01
0.008562221 = product of:
0.034248885 = sum of:
0.034248885 = weight(_text_:und in 3806) [ClassicSimilarity], result of:
0.034248885 = score(doc=3806,freq=10.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.2191754 = fieldWeight in 3806, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=3806)
0.25 = coord(1/4)
- Content
- "Bitte suchen Sie alle Unterlagen, die im PC zum Ibelshäuser-Vertrag in Sprockhövel gespeichert sind. Finden Sie alles, was wir haben - Dokumente, Tabellen, Präsentationen, Scans, E-Mails. Und erledigen Sie das gleich! « Wer diese Aufgabe an das Windows-eigene Suchmodul vergibt, wird zwangsläufig enttäuscht. Denn das Betriebssystem beherrscht weder die formatübergreifende Recherche noch die Kontextsuche, die für solche komplexen Aufträge nötig sind. Professionelle Desktop-Suchmaschinen erledigen Aufgaben dieser Art jedoch im Handumdrehen - genauer gesagt in einer einzigen Sekunde. Spitzenprogramme wie Global Brain benötigen dafür nicht einmal umfangreiche Abfrageformulare. Es genügt, einen Satz im Eingabefeld zu formulieren, der das Thema der gewünschten Dokumente eingrenzt. Dabei suchen die Programme über alle Laufwerke, die sich auf dem System einbinden lassen - also auch im Netzwerk-Ordner (Shared Folder), sofern dieser freigegeben wurde. Allen Testkandidaten - mit Ausnahme von Search 32 - gemeinsam ist, dass sie weitaus bessere Rechercheergebnisse abliefern als Windows, deutlich schneller arbeiten und meist auch in den Online-Postfächern stöbern. Wer schon öfter vergeblich über die Windows-Suche nach wichtigen Dokumenten gefahndet hat, kommt angesichts der Qualität der Search-Engines kaum mehr um die Anschaffung eines Desktop-Suchtools herum. Aber Microsoft will nachbessern. Für den Windows-XP-Nachfolger Longhorn wirbt der Hersteller vor allem mit dem Hinweis auf das neue Dateisystem WinFS, das sämtliche Files auf der Festplatte über Meta-Tags indiziert und dem Anwender damit lange Suchläufe erspart. So sollen sich anders als bei Windows XP alle Dateien zu bestimmten Themen in wenigen Sekunden auflisten lassen - unabhängig vom Format und vom physikalischen Speicherort der Files. Für die Recherche selbst ist dann weder der Dateiname noch das Erstelldatum ausschlaggebend. Anhand der kontextsensitiven Suche von WinFS kann der Anwender einfach einen Suchbefehl wie »Vertragsabschluss mit Firma XYZ, Neunkirchen/Saar« eingeben, der dann ohne Umwege zum Ziel führt."
- Footnote
- Darin auch 2 Teilbeiträge: (1) Know-how - Suchverfahren; (2) Praxis - Windows-Suche und Indexdienst
-
Berry, M.W.; Browne, M.: Understanding search engines : mathematical modeling and text retrieval (1999)
0.01
0.008122836 = product of:
0.032491345 = sum of:
0.032491345 = weight(_text_:und in 777) [ClassicSimilarity], result of:
0.032491345 = score(doc=777,freq=4.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.20792803 = fieldWeight in 777, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=777)
0.25 = coord(1/4)
- Classification
- ST 230 [Informatik # Monographien # Software und -entwicklung # Software allgemein, (Einführung, Lehrbücher, Methoden der Programmierung) Software engineering, Programmentwicklungssysteme, Softwarewerkzeuge]
- RVK
- ST 230 [Informatik # Monographien # Software und -entwicklung # Software allgemein, (Einführung, Lehrbücher, Methoden der Programmierung) Software engineering, Programmentwicklungssysteme, Softwarewerkzeuge]
-
Oberhauser, O.: Relevance Ranking in den Online-Katalogen der "nächsten Generation" (2010)
0.01
0.008122836 = product of:
0.032491345 = sum of:
0.032491345 = weight(_text_:und in 308) [ClassicSimilarity], result of:
0.032491345 = score(doc=308,freq=4.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.20792803 = fieldWeight in 308, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=308)
0.25 = coord(1/4)
- Abstract
- Relevance Ranking in Online-Katalogen ist zwar kein neues Thema, doch liegt dazu nicht allzu viel Literatur vor, die das Prädikat "ernstzunehmen" verdient. Dies ist zum einen darin begründet, dass das Interesse an der Ausgabe ranggereihter Ergebnislisten auf Seiten aller Beteiligter (Bibliothekare, Softwarehersteller, Benutzer) traditionell gering war. Zum anderen ging die seit einigen Jahren populär gewordene Kritik an den bestehenden OPACs vielfach von einer unzureichenden Wissensbasis aus und produzierte oft nur polemische oder emotional gefärbte Beiträge, die zum Thema Ranking wenig beitrugen. ... Der hier beschriebene Test ist natürlich in keiner Weise erschöpfend oder repräsentativ. Dennoch gibt er, wie ich glaube, Anlass zu einiger Hoffnung. Er lässt vermuten, dass die "neuen" OPACs - zumindest was das Relevance Ranking betrifft - auf dem Weg in die richtige Richtung sind. Wie gut es wirklich gelingen wird, die Rankingleistung von Suchmaschinen wie Google, die unter völlig anderen Voraussetzungen arbeiten, einzuholen, wird aber erst die Zukunft zeigen.
- Source
- Mitteilungen der Vereinigung Österreichischer Bibliothekarinnen und Bibliothekare. 63(2010) H.1/2, S.25-37
-
Bilal, D.: Ranking, relevance judgment, and precision of information retrieval on children's queries : evaluation of Google, Yahoo!, Bing, Yahoo! Kids, and ask Kids (2012)
0.01
0.0077394643 = product of:
0.030957857 = sum of:
0.030957857 = weight(_text_:have in 1393) [ClassicSimilarity], result of:
0.030957857 = score(doc=1393,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.13935146 = fieldWeight in 1393, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.03125 = fieldNorm(doc=1393)
0.25 = coord(1/4)
- Abstract
- This study employed benchmarking and intellectual relevance judgment in evaluating Google, Yahoo!, Bing, Yahoo! Kids, and Ask Kids on 30 queries that children formulated to find information for specific tasks. Retrieved hits on given queries were benchmarked to Google's and Yahoo! Kids' top-five ranked hits retrieved. Relevancy of hits was judged on a graded scale; precision was calculated using the precision-at-ten metric (P@10). Yahoo! and Bing produced a similar percentage in hit overlap with Google (nearly 30%), but differed in the ranking of hits. Ask Kids retrieved 11% in hit overlap with Google versus 3% by Yahoo! Kids. The engines retrieved 26 hits across query clusters that overlapped with Yahoo! Kids' top-five ranked hits. Precision (P) that the engines produced across the queries was P = 0.48 for relevant hits, and P = 0.28 for partially relevant hits. Precision by Ask Kids was P = 0.44 for relevant hits versus P = 0.21 by Yahoo! Kids. Bing produced the highest total precision (TP) of relevant hits (TP = 0.86) across the queries, and Yahoo! Kids yielded the lowest (TP = 0.47). Average precision (AP) of relevant hits was AP = 0.56 by leading engines versus AP = 0.29 by small engines. In contrast, average precision of partially relevant hits was AP = 0.83 by small engines versus AP = 0.33 by leading engines. Average precision of relevant hits across the engines was highest on two-word queries and lowest on one-word queries. Google performed best on natural language queries; Bing did the same (P = 0.69) on two-word queries. The findings have implications for search engine ranking algorithms, relevance theory, search engine design, research design, and information literacy.
-
Hoenkamp, E.; Bruza, P.D.; Song, D.; Huang, Q.: ¬An effective approach to verbose queries using a limited dependencies language model (2009)
0.01
0.0077394643 = product of:
0.030957857 = sum of:
0.030957857 = weight(_text_:have in 3122) [ClassicSimilarity], result of:
0.030957857 = score(doc=3122,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.13935146 = fieldWeight in 3122, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.03125 = fieldNorm(doc=3122)
0.25 = coord(1/4)
- Abstract
- Intuitively, any 'bag of words' approach in IR should benefit from taking term dependencies into account. Unfortunately, for years the results of exploiting such dependencies have been mixed or inconclusive. To improve the situation, this paper shows how the natural language properties of the target documents can be used to transform and enrich the term dependencies to more useful statistics. This is done in three steps. The term co-occurrence statistics of queries and documents are each represented by a Markov chain. The paper proves that such a chain is ergodic, and therefore its asymptotic behavior is unique, stationary, and independent of the initial state. Next, the stationary distribution is taken to model queries and documents, rather than their initial distributions. Finally, ranking is achieved following the customary language modeling paradigm. The main contribution of this paper is to argue why the asymptotic behavior of the document model is a better representation then just the document's initial distribution. A secondary contribution is to investigate the practical application of this representation in case the queries become increasingly verbose. In the experiments (based on Lemur's search engine substrate) the default query model was replaced by the stable distribution of the query. Just modeling the query this way already resulted in significant improvements over a standard language model baseline. The results were on a par or better than more sophisticated algorithms that use fine-tuned parameters or extensive training. Moreover, the more verbose the query, the more effective the approach seems to become.
-
Ackermann, J.: Knuth-Morris-Pratt (2005)
0.01
0.0076582837 = product of:
0.030633135 = sum of:
0.030633135 = weight(_text_:und in 990) [ClassicSimilarity], result of:
0.030633135 = score(doc=990,freq=8.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.19603643 = fieldWeight in 990, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=990)
0.25 = coord(1/4)
- Abstract
- Im Rahmen des Seminars Suchmaschinen und Suchalgorithmen beschäftigt sich diese Arbeit mit dem Auffinden bestimmter Wörter oder Muster in Texten. Der Begriff "Text" wird hier in einem sehr allgemeinen Sinne als strukturierte Folge beliebiger Länge von Zeichen aus einem endlichen Alphabet verstanden. Somit fällt unter diesen Bereich ganz allgemein die Suche nach einem Muster in einer Sequenz von Zeichen. Beispiele hierfür sind neben der Suche von Wörtern in "literarischen" Texten, z.B. das Finden von Pixelfolgen in Bildern oder gar das Finden von Mustern in DNS-Strängen. Das Anwendungsgebiet für eine solche Suche ist weit gefächert. Man denke hier allein an Texteditoren, Literaturdatenbanken, digitale Lexika oder die besagte DNADatenbank. Betrachtet man allein das 1989 publizierte Oxford English Dictionary mit seinen etwa 616500 definierten Stichworten auf gedruckten 21728 Seiten, so gilt es, einen möglichst effizienten Algorithmus für die Suche in Texten zu nutzen. Der in der Arbeit zugrunde liegende Datentyp ist vom Typ String (Zeichenkette), wobei hier offen gelassen wird, wie der Datentyp programmtechnisch realisiert wird. Algorithmen zur Verarbeitung von Zeichenketten (string processing) umfassen ein bestimmtes Spektrum an Anwendungsgebieten [Ot96, S.617 f.], wie z.B. das Komprimieren, das Verschlüssen, das Analysieren (parsen), das Übersetzen von Texten sowie das Suchen in Texten, welches Thema dieses Seminars ist. Im Rahmen dieser Arbeit wird der Knuth-Morris-Pratt Algorithmus vorgestellt, der wie der ebenfalls in diesem Seminar vorgestellte Boyer-Moore Algorithmus einen effizienten Suchalgorithmus darstellt. Dabei soll ein gegebenes Suchwort oder Muster (pattern) in einer gegeben Zeichenkette erkannt werden (pattern matching). Gesucht werden dabei ein oder mehrere Vorkommen eines bestimmten Suchwortes (exact pattern matching). Der Knuth-Morris-Pratt Algorithmus wurde erstmals 1974 als Institutbericht der Stanford University beschrieben und erschien 1977 in der Fachzeitschrift Journal of Computing unter dem Titel "Fast Pattern Matching in Strings" [Kn77]. Der Algorithmus beschreibt eine Suche in Zeichenketten mit linearer Laufzeit. Der Name des Algorithmus setzt sich aus den Entwicklern des Algorithmus Donald E. Knuth, James H. Morris und Vaughan R. Pratt zusammen.
- Content
- Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/JanAckermann.pdf
-
Chakrabarti, S.; Dom, B.; Kumar, S.R.; Raghavan, P.; Rajagopalan, S.; Tomkins, A.; Kleinberg, J.M.; Gibson, D.: Neue Pfade durch den Internet-Dschungel : Die zweite Generation von Web-Suchmaschinen (1999)
0.01
0.0076582837 = product of:
0.030633135 = sum of:
0.030633135 = weight(_text_:und in 1003) [ClassicSimilarity], result of:
0.030633135 = score(doc=1003,freq=2.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.19603643 = fieldWeight in 1003, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=1003)
0.25 = coord(1/4)
- Content
- Ausnutzen der Hyperlinks für verbesserte Such- und Findeverfahren; Darstellung des HITS-Algorithmus
-
Maylein, L.; Langenstein, A.: Neues vom Relevanz-Ranking im HEIDI-Katalog der Universitätsbibliothek Heidelberg : Perspektiven für bibliothekarische Dienstleistungen (2013)
0.01
0.0076582837 = product of:
0.030633135 = sum of:
0.030633135 = weight(_text_:und in 1775) [ClassicSimilarity], result of:
0.030633135 = score(doc=1775,freq=2.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.19603643 = fieldWeight in 1775, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=1775)
0.25 = coord(1/4)
- Abstract
- Das Relevanz-Ranking im Katalog der Universitätsbibliothek Heidelberg HEIDI, bereits 2009 in einem Beitrag in dieser Zeitschrift beschrieben, wurde in den letzten Jahren durch neue Entwicklungen und Methoden stark verbessert. Der Aufsatz beschreibt die Realisierung der bisherigen Rankingmaßnahmen unter der neu eingesetzten Suchmaschinenplattform SOLR. Weiter werden verschiedene neue Möglichkeiten für Rankinganpassungen unter SOLR sowie deren Einsatz im HEIDI-Katalog dargestellt.
-
Khoo, C.S.G.; Wan, K.-W.: ¬A simple relevancy-ranking strategy for an interface to Boolean OPACs (2004)
0.01
0.006772031 = product of:
0.027088124 = sum of:
0.027088124 = weight(_text_:have in 3509) [ClassicSimilarity], result of:
0.027088124 = score(doc=3509,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.12193252 = fieldWeight in 3509, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.02734375 = fieldNorm(doc=3509)
0.25 = coord(1/4)
- Content
- "Most Web search engines accept natural language queries, perform some kind of fuzzy matching and produce ranked output, displaying first the documents that are most likely to be relevant. On the other hand, most library online public access catalogs (OPACs) an the Web are still Boolean retrieval systems that perform exact matching, and require users to express their search requests precisely in a Boolean search language and to refine their search statements to improve the search results. It is well-documented that users have difficulty searching Boolean OPACs effectively (e.g. Borgman, 1996; Ensor, 1992; Wallace, 1993). One approach to making OPACs easier to use is to develop a natural language search interface that acts as a middleware between the user's Web browser and the OPAC system. The search interface can accept a natural language query from the user and reformulate it as a series of Boolean search statements that are then submitted to the OPAC. The records retrieved by the OPAC are ranked by the search interface before forwarding them to the user's Web browser. The user, then, does not need to interact directly with the Boolean OPAC but with the natural language search interface or search intermediary. The search interface interacts with the OPAC system an the user's behalf. The advantage of this approach is that no modification to the OPAC or library system is required. Furthermore, the search interface can access multiple OPACs, acting as a meta search engine, and integrate search results from various OPACs before sending them to the user. The search interface needs to incorporate a method for converting the user's natural language query into a series of Boolean search statements, and for ranking the OPAC records retrieved. The purpose of this study was to develop a relevancyranking algorithm for a search interface to Boolean OPAC systems. This is part of an on-going effort to develop a knowledge-based search interface to OPACs called the E-Referencer (Khoo et al., 1998, 1999; Poo et al., 2000). E-Referencer v. 2 that has been implemented applies a repertoire of initial search strategies and reformulation strategies to retrieve records from OPACs using the Z39.50 protocol, and also assists users in mapping query keywords to the Library of Congress subject headings."
-
Austin, D.: How Google finds your needle in the Web's haystack : as we'll see, the trick is to ask the web itself to rank the importance of pages... (2006)
0.01
0.006772031 = product of:
0.027088124 = sum of:
0.027088124 = weight(_text_:have in 218) [ClassicSimilarity], result of:
0.027088124 = score(doc=218,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.12193252 = fieldWeight in 218, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.02734375 = fieldNorm(doc=218)
0.25 = coord(1/4)
- Abstract
- Imagine a library containing 25 billion documents but with no centralized organization and no librarians. In addition, anyone may add a document at any time without telling anyone. You may feel sure that one of the documents contained in the collection has a piece of information that is vitally important to you, and, being impatient like most of us, you'd like to find it in a matter of seconds. How would you go about doing it? Posed in this way, the problem seems impossible. Yet this description is not too different from the World Wide Web, a huge, highly-disorganized collection of documents in many different formats. Of course, we're all familiar with search engines (perhaps you found this article using one) so we know that there is a solution. This article will describe Google's PageRank algorithm and how it returns pages from the web's collection of 25 billion documents that match search criteria so well that "google" has become a widely used verb. Most search engines, including Google, continually run an army of computer programs that retrieve pages from the web, index the words in each document, and store this information in an efficient format. Each time a user asks for a web search using a search phrase, such as "search engine," the search engine determines all the pages on the web that contains the words in the search phrase. (Perhaps additional information such as the distance between the words "search" and "engine" will be noted as well.) Here is the problem: Google now claims to index 25 billion pages. Roughly 95% of the text in web pages is composed from a mere 10,000 words. This means that, for most searches, there will be a huge number of pages containing the words in the search phrase. What is needed is a means of ranking the importance of the pages that fit the search criteria so that the pages can be sorted with the most important pages at the top of the list. One way to determine the importance of pages is to use a human-generated ranking. For instance, you may have seen pages that consist mainly of a large number of links to other resources in a particular area of interest. Assuming the person maintaining this page is reliable, the pages referenced are likely to be useful. Of course, the list may quickly fall out of date, and the person maintaining the list may miss some important pages, either unintentionally or as a result of an unstated bias. Google's PageRank algorithm assesses the importance of web pages without human evaluation of the content. In fact, Google feels that the value of its service is largely in its ability to provide unbiased results to search queries; Google claims, "the heart of our software is PageRank." As we'll see, the trick is to ask the web itself to rank the importance of pages.
-
Marcus, S.: Textvergleich mit mehreren Mustern (2005)
0.01
0.0066322684 = product of:
0.026529074 = sum of:
0.026529074 = weight(_text_:und in 987) [ClassicSimilarity], result of:
0.026529074 = score(doc=987,freq=6.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.16977254 = fieldWeight in 987, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=987)
0.25 = coord(1/4)
- Abstract
- Das Gebiet des Pattern-Matching besitzt in vielen wissenschaftlichen Bereichen eine hohe Relevanz. Aufgrund unterschiedlicher Einsatzgebiete sind auch Umsetzung und Anwendung des Pattern-Matching sehr verschieden. Die allen Anwendungen des Pattern-Matching inhärente Aufgabe besteht darin, in einer Vielzahl von Eingabedaten bestimmte Muster wieder zu erkennen. Dies ist auch der deutschen Bezeichnung Mustererkennung zu entnehmen. In der Medizin findet Pattern-Matching zum Beispiel bei der Untersuchung von Chromosomensträngen auf bestimmte Folgen von Chromosomen Verwendung. Auf dem Gebiet der Bildverarbeitung können mit Hilfe des Pattern-Matching ganze Bilder verglichen oder einzelne Bildpunkte betrachtet werden, die durch ein Muster identifizierbar sind. Ein weiteres Einsatzgebiet des Pattern-Matching ist das Information-Retrieval, bei dem in gespeicherten Daten nach relevanten Informationen gesucht wird. Die Relevanz der zu suchenden Daten wird auch hier anhand eines Musters, zum Beispiel einem bestimmten Schlagwort, beurteilt. Ein vergleichbares Verfahren findet auch im Internet Anwendung. Internet-Benutzer, die mittels einer Suchmaschine nach bedeutsamen Informationen suchen, erhalten diese durch den Einsatz eines Pattern-Matching-Automaten. Die in diesem Zusammenhang an den Pattern-Matching-Automaten gestellten Anforderungen variieren mit der Suchanfrage, die an eine Suchmaschine gestellt wird. Eine solche Suchanfrage kann im einfachsten Fall aus genau einem Schlüsselwort bestehen. Im komplexeren Fall enthält die Anfrage mehrere Schlüsselwörter. Dabei muss für eine erfolgreiche Suche eine Konkatenation der in der Anfrage enthaltenen Wörter erfolgen. Zu Beginn dieser Arbeit wird in Kapitel 2 eine umfassende Einführung in die Thematik des Textvergleichs gegeben, wobei die Definition einiger grundlegender Begriffe vorgenommen wird. Anschließend werden in Kapitel 3 Verfahren zum Textvergleich mit mehreren Mustern vorgestellt. Dabei wird zunächst ein einfaches Vorgehen erläutert, um einen Einsteig in das Thema des Textvergleichs mit mehreren Mustern zu erleichtern. Danach wird eine komplexe Methode des Textvergleichs vorgestellt und anhand von Beispielen verdeutlicht.
- Content
- Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/SandraMarcus.pdf
-
Cross-language information retrieval (1998)
0.00
0.004837165 = product of:
0.01934866 = sum of:
0.01934866 = weight(_text_:have in 299) [ClassicSimilarity], result of:
0.01934866 = score(doc=299,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.087094665 = fieldWeight in 299, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.01953125 = fieldNorm(doc=299)
0.25 = coord(1/4)
- Footnote
- The retrieved output from a query including the phrase 'big rockets' may be, for instance, a sentence containing 'giant rocket' which is semantically ranked above 'military ocket'. David Hull (Xerox Research Centre, Grenoble) describes an implementation of a weighted Boolean model for Spanish-English CLIR. Users construct Boolean-type queries, weighting each term in the query, which is then translated by an on-line dictionary before being applied to the database. Comparisons with the performance of unweighted free-form queries ('vector space' models) proved encouraging. Two contributions consider the evaluation of CLIR systems. In order to by-pass the time-consuming and expensive process of assembling a standard collection of documents and of user queries against which the performance of an CLIR system is manually assessed, Páriac Sheridan et al (ETH Zurich) propose a method based on retrieving 'seed documents'. This involves identifying a unique document in a database (the 'seed document') and, for a number of queries, measuring how fast it is retrieved. The authors have also assembled a large database of multilingual news documents for testing purposes. By storing the (fairly short) documents in a structured form tagged with descriptor codes (e.g. for topic, country and area), the test suite is easily expanded while remaining consistent for the purposes of testing. Douglas Ouard and Bonne Dorr (University of Maryland) describe an evaluation methodology which appears to apply LSI techniques in order to filter and rank incoming documents designed for testing CLIR systems. The volume provides the reader an excellent overview of several projects in CLIR. It is well supported with references and is intended as a secondary text for researchers and practitioners. It highlights the need for a good, general tutorial introduction to the field."