-
White, R.W.; Jose, J.M.; Ruthven, I.: ¬An implicit feedback approach for interactive information retrieval (2006)
0.01
0.011609196 = product of:
0.046436783 = sum of:
0.046436783 = weight(_text_:have in 1964) [ClassicSimilarity], result of:
0.046436783 = score(doc=1964,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.20902719 = fieldWeight in 1964, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.046875 = fieldNorm(doc=1964)
0.25 = coord(1/4)
- Abstract
- Searchers can face problems finding the information they seek. One reason for this is that they may have difficulty devising queries to express their information needs. In this article, we describe an approach that uses unobtrusive monitoring of interaction to proactively support searchers. The approach chooses terms to better represent information needs by monitoring searcher interaction with different representations of top-ranked documents. Information needs are dynamic and can change as a searcher views information. The approach we propose gathers evidence on potential changes in these needs and uses this evidence to choose new retrieval strategies. We present an evaluation of how well our technique estimates information needs, how well it estimates changes in these needs and the appropriateness of the interface support it offers. The results are presented and the avenues for future research identified.
-
Klas, C.-P.; Fuhr, N.; Schaefer, A.: Evaluating strategic support for information access in the DAFFODIL system (2004)
0.01
0.011609196 = product of:
0.046436783 = sum of:
0.046436783 = weight(_text_:have in 3419) [ClassicSimilarity], result of:
0.046436783 = score(doc=3419,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.20902719 = fieldWeight in 3419, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.046875 = fieldNorm(doc=3419)
0.25 = coord(1/4)
- Abstract
- The digital library system Daffodil is targeted at strategic support of users during the information search process. For searching, exploring and managing digital library objects it provides user-customisable information seeking patterns over a federation of heterogeneous digital libraries. In this paper evaluation results with respect to retrieval effectiveness, efficiency and user satisfaction are presented. The analysis focuses on strategic support for the scientific work-flow. Daffodil supports the whole work-flow, from data source selection over information seeking to the representation, organisation and reuse of information. By embedding high level search functionality into the scientific work-flow, the user experiences better strategic system support due to a more systematic work process. These ideas have been implemented in Daffodil followed by a qualitative evaluation. The evaluation has been conducted with 28 participants, ranging from information seeking novices to experts. The results are promising, as they support the chosen model.
-
Ding, Y.; Yan, E.; Frazho, A.; Caverlee, J.: PageRank for ranking authors in co-citation networks (2009)
0.01
0.011609196 = product of:
0.046436783 = sum of:
0.046436783 = weight(_text_:have in 148) [ClassicSimilarity], result of:
0.046436783 = score(doc=148,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.20902719 = fieldWeight in 148, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.046875 = fieldNorm(doc=148)
0.25 = coord(1/4)
- Abstract
- This paper studies how varied damping factors in the PageRank algorithm influence the ranking of authors and proposes weighted PageRank algorithms. We selected the 108 most highly cited authors in the information retrieval (IR) area from the 1970s to 2008 to form the author co-citation network. We calculated the ranks of these 108 authors based on PageRank with the damping factor ranging from 0.05 to 0.95. In order to test the relationship between different measures, we compared PageRank and weighted PageRank results with the citation ranking, h-index, and centrality measures. We found that in our author co-citation network, citation rank is highly correlated with PageRank with different damping factors and also with different weighted PageRank algorithms; citation rank and PageRank are not significantly correlated with centrality measures; and h-index rank does not significantly correlate with centrality measures but does significantly correlate with other measures. The key factors that have impact on the PageRank of authors in the author co-citation network are being co-cited with important authors.
-
Zhang, W.; Yoshida, T.; Tang, X.: ¬A comparative study of TF*IDF, LSI and multi-words for text classification (2011)
0.01
0.011609196 = product of:
0.046436783 = sum of:
0.046436783 = weight(_text_:have in 2165) [ClassicSimilarity], result of:
0.046436783 = score(doc=2165,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.20902719 = fieldWeight in 2165, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.046875 = fieldNorm(doc=2165)
0.25 = coord(1/4)
- Abstract
- One of the main themes in text mining is text representation, which is fundamental and indispensable for text-based intellegent information processing. Generally, text representation inludes two tasks: indexing and weighting. This paper has comparatively studied TF*IDF, LSI and multi-word for text representation. We used a Chinese and an English document collection to respectively evaluate the three methods in information retreival and text categorization. Experimental results have demonstrated that in text categorization, LSI has better performance than other methods in both document collections. Also, LSI has produced the best performance in retrieving English documents. This outcome has shown that LSI has both favorable semantic and statistical quality and is different with the claim that LSI can not produce discriminative power for indexing.
-
Kanaeva, Z.: Ranking: Google und CiteSeer (2005)
0.01
0.01160647 = product of:
0.04642588 = sum of:
0.04642588 = weight(_text_:und in 4276) [ClassicSimilarity], result of:
0.04642588 = score(doc=4276,freq=6.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.29710194 = fieldWeight in 4276, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=4276)
0.25 = coord(1/4)
- Abstract
- Im Rahmen des klassischen Information Retrieval wurden verschiedene Verfahren für das Ranking sowie die Suche in einer homogenen strukturlosen Dokumentenmenge entwickelt. Die Erfolge der Suchmaschine Google haben gezeigt dass die Suche in einer zwar inhomogenen aber zusammenhängenden Dokumentenmenge wie dem Internet unter Berücksichtigung der Dokumentenverbindungen (Links) sehr effektiv sein kann. Unter den von der Suchmaschine Google realisierten Konzepten ist ein Verfahren zum Ranking von Suchergebnissen (PageRank), das in diesem Artikel kurz erklärt wird. Darüber hinaus wird auf die Konzepte eines Systems namens CiteSeer eingegangen, welches automatisch bibliographische Angaben indexiert (engl. Autonomous Citation Indexing, ACI). Letzteres erzeugt aus einer Menge von nicht vernetzten wissenschaftlichen Dokumenten eine zusammenhängende Dokumentenmenge und ermöglicht den Einsatz von Banking-Verfahren, die auf den von Google genutzten Verfahren basieren.
- Source
- Information - Wissenschaft und Praxis. 56(2005) H.2, S.87-92
-
Fuhr, N.: Rankingexperimente mit gewichteter Indexierung (1986)
0.01
0.011487424 = product of:
0.045949697 = sum of:
0.045949697 = weight(_text_:und in 3051) [ClassicSimilarity], result of:
0.045949697 = score(doc=3051,freq=2.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.29405463 = fieldWeight in 3051, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.09375 = fieldNorm(doc=3051)
0.25 = coord(1/4)
- Source
- Automatische Indexierung zwischen Forschung und Anwendung, Hrsg.: G. Lustig
-
Walz, J.: Analyse der Übertragbarkeit allgemeiner Rankingfaktoren von Web-Suchmaschinen auf Discovery-Systeme (2018)
0.01
0.011487424 = product of:
0.045949697 = sum of:
0.045949697 = weight(_text_:und in 744) [ClassicSimilarity], result of:
0.045949697 = score(doc=744,freq=8.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.29405463 = fieldWeight in 744, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=744)
0.25 = coord(1/4)
- Abstract
- Ziel: Ziel dieser Bachelorarbeit war es, die Übertragbarkeit der allgemeinen Rankingfaktoren, wie sie von Web-Suchmaschinen verwendet werden, auf Discovery-Systeme zu analysieren. Dadurch könnte das bisher hauptsächlich auf dem textuellen Abgleich zwischen Suchanfrage und Dokumenten basierende bibliothekarische Ranking verbessert werden. Methode: Hierfür wurden Faktoren aus den Gruppen Popularität, Aktualität, Lokalität, Technische Faktoren, sowie dem personalisierten Ranking diskutiert. Die entsprechenden Rankingfaktoren wurden nach ihrer Vorkommenshäufigkeit in der analysierten Literatur und der daraus abgeleiteten Wichtigkeit, ausgewählt. Ergebnis: Von den 23 untersuchten Rankingfaktoren sind 14 (61 %) direkt vom Ranking der Web-Suchmaschinen auf das Ranking der Discovery-Systeme übertragbar. Zu diesen zählen unter anderem das Klickverhalten, das Erstellungsdatum, der Nutzerstandort, sowie die Sprache. Sechs (26%) der untersuchten Faktoren sind dagegen nicht übertragbar (z.B. Aktualisierungsfrequenz und Ladegeschwindigkeit). Die Linktopologie, die Nutzungshäufigkeit, sowie die Aktualisierungsfrequenz sind mit entsprechenden Modifikationen übertragbar.
- Imprint
- Köln : Fakultät für Informations- und Kommunikationswissenschaften
-
Mandl, T.: Tolerantes Information Retrieval : Neuronale Netze zur Erhöhung der Adaptivität und Flexibilität bei der Informationssuche (2001)
0.01
0.0113267545 = product of:
0.045307018 = sum of:
0.045307018 = weight(_text_:und in 965) [ClassicSimilarity], result of:
0.045307018 = score(doc=965,freq=70.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.2899418 = fieldWeight in 965, product of:
8.3666 = tf(freq=70.0), with freq of:
70.0 = termFreq=70.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.015625 = fieldNorm(doc=965)
0.25 = coord(1/4)
- Abstract
- Ein wesentliches Bedürfnis im Rahmen der Mensch-Maschine-Interaktion ist die Suche nach Information. Um Information Retrieval (IR) Systeme kognitiv adäquat zu gestalten und sie an den Menschen anzupassen bieten sich Modelle des Soft Computing an. Ein umfassender state-of-the-art Bericht zu neuronalen Netzen im IR zeigt dass die meisten bestehenden Modelle das Potential neuronaler Netze nicht ausschöpfen. Das vorgestellte COSIMIR-Modell (Cognitive Similarity learning in Information Retrieval) basiert auf neuronalen Netzen und lernt, die Ähnlichkeit zwischen Anfrage und Dokument zu berechnen. Es trägt somit die kognitive Modellierung in den Kern eines IR Systems. Das Transformations-Netzwerk ist ein weiteres neuronales Netzwerk, das die Behandlung von Heterogenität anhand von Expertenurteilen lernt. Das COSIMIR-Modell und das Transformations-Netzwerk werden ausführlich diskutiert und anhand realer Datenmengen evaluiert
- Content
- Kapitel: 1 Einleitung - 2 Grundlagen des Information Retrieval - 3 Grundlagen neuronaler Netze - 4 Neuronale Netze im Information Retrieval - 5 Heterogenität und ihre Behandlung im Information Retrieval - 6 Das COSIMIR-Modell - 7 Experimente mit dem COSIMIR-Modell und dem Transformations-Netzwerk - 8 Fazit
- Footnote
- Rez. in: nfd - Information 54(2003) H.6, S.379-380 (U. Thiel): "Kannte G. Salton bei der Entwicklung des Vektorraummodells die kybernetisch orientierten Versuche mit assoziativen Speicherstrukturen? An diese und ähnliche Vermutungen, die ich vor einigen Jahren mit Reginald Ferber und anderen Kollegen diskutierte, erinnerte mich die Thematik des vorliegenden Buches. Immerhin lässt sich feststellen, dass die Vektorrepräsentation eine genial einfache Darstellung sowohl der im Information Retrieval (IR) als grundlegende Datenstruktur benutzten "inverted files" als auch der assoziativen Speichermatrizen darstellt, die sich im Laufe der Zeit Über Perzeptrons zu Neuronalen Netzen (NN) weiterentwickelten. Dieser formale Zusammenhang stimulierte in der Folge eine Reihe von Ansätzen, die Netzwerke im Retrieval zu verwenden, wobei sich, wie auch im vorliegenden Band, hybride Ansätze, die Methoden aus beiden Disziplinen kombinieren, als sehr geeignet erweisen. Aber der Reihe nach... Das Buch wurde vom Autor als Dissertation beim Fachbereich IV "Sprachen und Technik" der Universität Hildesheim eingereicht und resultiert aus einer Folge von Forschungsbeiträgen zu mehreren Projekten, an denen der Autor in der Zeit von 1995 bis 2000 an verschiedenen Standorten beteiligt war. Dies erklärt die ungewohnte Breite der Anwendungen, Szenarien und Domänen, in denen die Ergebnisse gewonnen wurden. So wird das in der Arbeit entwickelte COSIMIR Modell (COgnitive SIMilarity learning in Information Retrieval) nicht nur anhand der klassischen Cranfield-Kollektion evaluiert, sondern auch im WING-Projekt der Universität Regensburg im Faktenretrieval aus einer Werkstoffdatenbank eingesetzt. Weitere Versuche mit der als "Transformations-Netzwerk" bezeichneten Komponente, deren Aufgabe die Abbildung von Gewichtungsfunktionen zwischen zwei Termräumen ist, runden das Spektrum der Experimente ab. Aber nicht nur die vorgestellten Resultate sind vielfältig, auch der dem Leser angebotene "State-of-the-Art"-Überblick fasst in hoch informativer Breite Wesentliches aus den Gebieten IR und NN zusammen und beleuchtet die Schnittpunkte der beiden Bereiche. So werden neben den Grundlagen des Text- und Faktenretrieval die Ansätze zur Verbesserung der Adaptivität und zur Beherrschung von Heterogenität vorgestellt, während als Grundlagen Neuronaler Netze neben einer allgemeinen Einführung in die Grundbegriffe u.a. das Backpropagation-Modell, KohonenNetze und die Adaptive Resonance Theory (ART) geschildert werden. Einweiteres Kapitel stellt die bisherigen NN-orientierten Ansätze im IR vor und rundet den Abriss der relevanten Forschungslandschaft ab. Als Vorbereitung der Präsentation des COSIMIR-Modells schiebt der Autor an dieser Stelle ein diskursives Kapitel zum Thema Heterogenität im IR ein, wodurch die Ziele und Grundannahmen der Arbeit noch einmal reflektiert werden. Als Dimensionen der Heterogenität werden der Objekttyp, die Qualität der Objekte und ihrer Erschließung und die Mehrsprachigkeit genannt. Wenn auch diese Systematik im Wesentlichen die Akzente auf Probleme aus den hier tangierten Projekten legt, und weniger eine umfassende Aufbereitung z.B. der Literatur zum Problem der Relevanz anstrebt, ist sie dennoch hilfreich zum Verständnis der in den nachfolgenden Kapitel oft nur implizit angesprochenen Designentscheidungen bei der Konzeption der entwickelten Prototypen. Der Ansatz, Heterogenität durch Transformationen zu behandeln, wird im speziellen Kontext der NN konkretisiert, wobei andere Möglichkeiten, die z.B. Instrumente der Logik und Probabilistik einzusetzen, nur kurz diskutiert werden. Eine weitergehende Analyse hätte wohl auch den Rahmen der Arbeit zu weit gespannt,
da nun nach fast 200 Seiten der Hauptteil der Dissertation folgt - die Vorstellung und Bewertung des bereits erwähnten COSIMIR Modells. Das COSIMIR Modell "berechnet die Ähnlichkeit zwischen den zwei anliegenden Input-Vektoren" (P.194). Der Output des Netzwerks wird an einem einzigen Knoten abgegriffen, an dem sich ein sogenannten Relevanzwert einstellt, wenn die Berechnungen der Gewichtungen interner Knoten zum Abschluss kommen. Diese Gewichtungen hängen von den angelegten Inputvektoren, aus denen die Gewichte der ersten Knotenschicht ermittelt werden, und den im Netzwerk vorgegebenen Kantengewichten ab. Die Gewichtung von Kanten ist der Kernpunkt des neuronalen Ansatzes: In Analogie zum biologischen Urbild (Dendrit mit Synapsen) wächst das Gewicht der Kante mit jeder Aktivierung während einer Trainingsphase. Legt man in dieser Phase zwei Inputvektoren, z.B. Dokumentvektor und Ouery gleichzeitig mit dem Relevanzurteil als Wert des Outputknoten an, verteilen sich durch den BackpropagationProzess die Gewichte entlang der Pfade, die zwischen den beteiligten Knoten bestehen. Da alle Knoten miteinander verbunden sind, entstehen nach mehreren Trainingsbeispielen bereits deutlich unterschiedliche Kantengewichte, weil die aktiv beteiligten Kanten die Änderungen akkumulativ speichern. Eine Variation des Verfahrens benutzt das NN als "Transformationsnetzwerk", wobei die beiden Inputvektoren mit einer Dokumentrepräsentation und einem dazugehörigen Indexat (von einem Experten bereitgestellt) belegt werden. Neben der schon aufgezeigten Trainingsnotwendigkeit weisen die Neuronalen Netze eine weitere intrinsische Problematik auf: Je mehr äußere Knoten benötigt werden, desto mehr interne Kanten (und bei der Verwendung von Zwischenschichten auch Knoten) sind zu verwalten, deren Anzahl nicht linear wächst. Dieser algorithmische Befund setzt naiven Einsätzen der NN-Modelle in der Praxis schnell Grenzen, deshalb ist es umso verdienstvoller, dass der Autor einen innovativen Weg zur Lösung des Problems mit den Mitteln des IR vorschlagen kann. Er verwendet das Latent Semantic Indexing, welches Dokumentrepräsentationen aus einem hochdimensionalen Vektorraum in einen niederdimensionalen abbildet, um die Anzahl der Knoten deutlich zu reduzieren. Damit ist eine sehr schöne Synthese gelungen, welche die eingangs angedeuteten formalen Übereinstimmungen zwischen Vektorraummodellen im IR und den NN aufzeigt und ausnutzt.
Im abschließenden Kapitel des Buchs berichtet der Autor über eine Reihe von Experimenten, die im Kontext unterschiedlicher Anwendungen durchgeführt wurden. Die Evaluationen wurden sehr sorgfältig durchgeführt und werden kompetent kommentiert, so dass der Leser sich ein Bild von der Komplexität der Untersuchungen machen kann. Inhaltlich sind die Ergebnisse unterschiedlich, die Verwendung des NN-Ansatzes ist sehr abhängig von der Menge und Qualität des Trainingsmaterials (so sind die Ergebnisse auf der Cranfield-Kollektion wegen der geringen Anzahl von zur Verfügung stehenden Relevanzurteilen schlechter als die der traditionellen Verfahren). Das Experiment mit Werkstoffinformationen im Projekt WING ist eine eher traditionelle NN-Applikation: Aus Merkmalsvektoren soll auf die "Anwendungsähnlichkeit" von Werkstoffen geschlossen werden, was offenbar gut gelingt. Hier sind die konkurrierenden Verfahren aber weniger im IR zu vermuten, sondern eher im Gebiet des Data Mining. Die Versuche mit Textdaten sind Anregung, hier weitere, systematischere Untersuchungen vorzunehmen. So sollte z.B. nicht nur ein Vergleich mit klassischen One-shot IR-Verfahren durchgeführt werden, viel interessanter und aussagekräftiger ist die Gegenüberstellung von NN-Systemen und lernfähigen IR-Systemen, die z.B. über Relevance Feedback Wissen akkumulieren (vergleichbar den NN in der Trainingsphase). Am Ende könnte dann nicht nur ein einheitliches Modell stehen, sondern auch Erkenntnisse darüber, welches Lernverfahren wann vorzuziehen ist. Fazit: Das Buch ist ein hervorragendes Beispiel der "Schriften zur Informationswissenschaft", mit denen der HI (Hochschulverband für Informationswissenschaft) die Ergebnisse der informationswissenschaftlichen Forschung seit etlichen Jahren einem größerem Publikum vorstellt. Es bietet einen umfassenden Überblick zum dynamisch sich entwickelnden Gebiet der Neuronalen Netze im IR, die sich anschicken, ein "tolerantes Information Retrieval" zu ermöglichen."
-
Efthimiadis, E.N.: Interactive query expansion : a user-based evaluation in a relevance feedback environment (2000)
0.01
0.010945255 = product of:
0.04378102 = sum of:
0.04378102 = weight(_text_:have in 6701) [ClassicSimilarity], result of:
0.04378102 = score(doc=6701,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.19707271 = fieldWeight in 6701, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.03125 = fieldNorm(doc=6701)
0.25 = coord(1/4)
- Abstract
- A user-centered investigation of interactive query expansion within the context of a relevance feedback system is presented in this article. Data were collected from 25 searches using the INSPEC database. The data collection mechanisms included questionnaires, transaction logs, and relevance evaluations. The results discuss issues that relate to query expansion, retrieval effectiveness, the correspondence of the on-line-to-off-line relevance judgments, and the selection of terms for query expansion by users (interactive query expansion). The main conclusions drawn from the results of the study are that: (1) one-third of the terms presented to users in a list of candidate terms for query expansion was identified by the users as potentially useful for query expansion. (2) These terms were mainly judged as either variant expressions (synonyms) or alternative (related) terms to the initial query terms. However, a substantial portion of the selected terms were identified as representing new ideas. (3) The relationships identified between the five best terms selected by the users for query expansion and the initial query terms were that: (a) 34% of the query expansion terms have no relationship or other type of correspondence with a query term; (b) 66% of the remaining query expansion terms have a relationship to the query terms. These relationships were: narrower term (46%), broader term (3%), related term (17%). (4) The results provide evidence for the effectiveness of interactive query expansion. The initial search produced on average three highly relevant documents; the query expansion search produced on average nine further highly relevant documents. The conclusions highlight the need for more research on: interactive query expansion, the comparative evaluation of automatic vs. interactive query expansion, the study of weighted Webbased or Web-accessible retrieval systems in operational environments, and for user studies in searching ranked retrieval systems in general
-
Henzinger, M.R.: Link analysis in Web information retrieval (2000)
0.01
0.010945255 = product of:
0.04378102 = sum of:
0.04378102 = weight(_text_:have in 926) [ClassicSimilarity], result of:
0.04378102 = score(doc=926,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.19707271 = fieldWeight in 926, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.03125 = fieldNorm(doc=926)
0.25 = coord(1/4)
- Content
- The goal of information retrieval is to find all documents relevant for a user query in a collection of documents. Decades of research in information retrieval were successful in developing and refining techniques that are solely word-based (see e.g., [2]). With the advent of the web new sources of information became available, one of them being the hyperlinks between documents and records of user behavior. To be precise, hypertexts (i.e., collections of documents connected by hyperlinks) have existed and have been studied for a long time. What was new was the large number of hyperlinks created by independent individuals. Hyperlinks provide a valuable source of information for web information retrieval as we will show in this article. This area of information retrieval is commonly called link analysis. Why would one expect hyperlinks to be useful? Ahyperlink is a reference of a web page B that is contained in a web page A. When the hyperlink is clicked on in a web browser, the browser displays page B. This functionality alone is not helpful for web information retrieval. However, the way hyperlinks are typically used by authors of web pages can give them valuable information content. Typically, authors create links because they think they will be useful for the readers of the pages. Thus, links are usually either navigational aids that, for example, bring the reader back to the homepage of the site, or links that point to pages whose content augments the content of the current page. The second kind of links tend to point to high-quality pages that might be on the same topic as the page containing the link.
-
Berry, M.W.; Browne, M.: Understanding search engines : mathematical modeling and text retrieval (2005)
0.01
0.010945255 = product of:
0.04378102 = sum of:
0.04378102 = weight(_text_:have in 1007) [ClassicSimilarity], result of:
0.04378102 = score(doc=1007,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.19707271 = fieldWeight in 1007, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.03125 = fieldNorm(doc=1007)
0.25 = coord(1/4)
- Abstract
- The second edition of Understanding Search Engines: Mathematical Modeling and Text Retrieval follows the basic premise of the first edition by discussing many of the key design issues for building search engines and emphasizing the important role that applied mathematics can play in improving information retrieval. The authors discuss important data structures, algorithms, and software as well as user-centered issues such as interfaces, manual indexing, and document preparation. Significant changes bring the text up to date on current information retrieval methods: for example the addition of a new chapter on link-structure algorithms used in search engines such as Google. The chapter on user interface has been rewritten to specifically focus on search engine usability. In addition the authors have added new recommendations for further reading and expanded the bibliography, and have updated and streamlined the index to make it more reader friendly.
-
White, R.W.; Marchionini, G.: Examining the effectiveness of real-time query expansion (2007)
0.01
0.010945255 = product of:
0.04378102 = sum of:
0.04378102 = weight(_text_:have in 1913) [ClassicSimilarity], result of:
0.04378102 = score(doc=1913,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.19707271 = fieldWeight in 1913, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.03125 = fieldNorm(doc=1913)
0.25 = coord(1/4)
- Abstract
- Interactive query expansion (IQE) (c.f. [Efthimiadis, E. N. (1996). Query expansion. Annual Review of Information Systems and Technology, 31, 121-187]) is a potentially useful technique to help searchers formulate improved query statements, and ultimately retrieve better search results. However, IQE is seldom used in operational settings. Two possible explanations for this are that IQE is generally not integrated into searchers' established information-seeking behaviors (e.g., examining lists of documents), and it may not be offered at a time in the search when it is needed most (i.e., during the initial query formulation). These challenges can be addressed by coupling IQE more closely with familiar search activities, rather than as a separate functionality that searchers must learn. In this article we introduce and evaluate a variant of IQE known as Real-Time Query Expansion (RTQE). As a searcher enters their query in a text box at the interface, RTQE provides a list of suggested additional query terms, in effect offering query expansion options while the query is formulated. To investigate how the technique is used - and when it may be useful - we conducted a user study comparing three search interfaces: a baseline interface with no query expansion support; an interface that provides expansion options during query entry, and a third interface that provides options after queries have been submitted to a search system. The results show that offering RTQE leads to better quality initial queries, more engagement in the search, and an increase in the uptake of query expansion. However, the results also imply that care must be taken when implementing RTQE interactively. Our findings have broad implications for how IQE should be offered, and form part of our research on the development of techniques to support the increased use of query expansion.
-
Fuhr, N.: Modelle im Information Retrieval (2023)
0.01
0.010702777 = product of:
0.042811107 = sum of:
0.042811107 = weight(_text_:und in 1801) [ClassicSimilarity], result of:
0.042811107 = score(doc=1801,freq=10.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.27396923 = fieldWeight in 1801, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=1801)
0.25 = coord(1/4)
- Abstract
- Information-Retrieval-Modelle -(IR-Modelle) spezifizieren, wie zu einer gegebenen Anfrage die Antwortdokumente aus einer Dokumentenkollektion bestimmt werden. Ausgangsbasis jedes Modells sind dabei zunächst bestimmte Annahmen über die Wissensrepräsentation (s. Teil B Methoden und Systeme der Inhaltserschließung) von Fragen und Dokumenten. Hier bezeichnen wir die Elemente dieser Repräsentationen als Terme, wobei es aus der Sicht des Modells egal ist, wie diese Terme aus dem Dokument (und analog aus der von Benutzenden eingegebenen Anfrage) abgeleitet werden: Bei Texten werden hierzu häufig computerlinguistische Methoden eingesetzt, aber auch komplexere automatische oder manuelle Erschließungsverfahren können zur Anwendung kommen. Repräsentationen besitzen ferner eine bestimmte Struktur. Ein Dokument wird meist als Menge oder Multimenge von Termen aufgefasst, wobei im zweiten Fall das Mehrfachvorkommen berücksichtigt wird. Diese Dokumentrepräsentation wird wiederum auf eine sogenannte Dokumentbeschreibung abgebildet, in der die einzelnen Terme gewichtet sein können. Im Folgenden unterscheiden wir nur zwischen ungewichteter (Gewicht eines Terms ist entweder 0 oder 1) und gewichteter Indexierung (das Gewicht ist eine nichtnegative reelle Zahl). Analog dazu gibt es eine Fragerepräsentation; legt man eine natürlichsprachige Anfrage zugrunde, so kann man die o. g. Verfahren für Dokumenttexte anwenden. Alternativ werden auch grafische oder formale Anfragesprachen verwendet, wobei aus Sicht der Modelle insbesondere deren logische Struktur (etwa beim Booleschen Retrieval) relevant ist. Die Fragerepräsentation wird dann in eine Fragebeschreibung überführt.
- Source
- Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg
-
Stock, M.; Stock, W.G.: Internet-Suchwerkzeuge im Vergleich (IV) : Relevance Ranking nach "Popularität" von Webseiten: Google (2001)
0.01
0.009948404 = product of:
0.039793614 = sum of:
0.039793614 = weight(_text_:und in 6771) [ClassicSimilarity], result of:
0.039793614 = score(doc=6771,freq=6.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.25465882 = fieldWeight in 6771, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=6771)
0.25 = coord(1/4)
- Abstract
- In unserem Retrievaltest von Suchwerkzeugen im World Wide Web (Password 11/2000) schnitt die Suchmaschine Google am besten ab. Im Vergleich zu anderen Search Engines setzt Google kaum auf Informationslinguistik, sondern auf Algorithmen, die sich aus den Besonderheiten der Web-Dokumente ableiten lassen. Kernstück der informationsstatistischen Technik ist das "PageRank"- Verfahren (benannt nach dem Entwickler Larry Page), das aus der Hypertextstruktur des Web die "Popularität" von Seiten anhand ihrer ein- und ausgehenden Links berechnet. Google besticht durch das Angebot intuitiv verstehbarer Suchbildschirme sowie durch einige sehr nützliche "Kleinigkeiten" wie die Angabe des Rangs einer Seite, Highlighting, Suchen in der Seite, Suchen innerhalb eines Suchergebnisses usw., alles verstaut in einer eigenen Befehlsleiste innerhalb des Browsers. Ähnlich wie RealNames bietet Google mit dem Produkt "AdWords" den Aufkauf von Suchtermen an. Nach einer Reihe von nunmehr vier Password-Artikeln über InternetSuchwerkzeugen im Vergleich wollen wir abschließend zu einer Bewertung kommen. Wie ist der Stand der Technik bei Directories und Search Engines aus informationswissenschaftlicher Sicht einzuschätzen? Werden die "typischen" Internetnutzer, die ja in der Regel keine Information Professionals sind, adäquat bedient? Und können auch Informationsfachleute von den Suchwerkzeugen profitieren?
-
Keen, E.M.: Designing and testing an interactive ranked retrieval system for professional searchers (1994)
0.01
0.00967433 = product of:
0.03869732 = sum of:
0.03869732 = weight(_text_:have in 1134) [ClassicSimilarity], result of:
0.03869732 = score(doc=1134,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.17418933 = fieldWeight in 1134, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=1134)
0.25 = coord(1/4)
- Abstract
- Reports 3 explorations of ranked system design. 2 tests used a 'cystic fibrosis' test collection with 100 queries. Experiment 1 compared a Boolean with a ranked interactive system using a subject qualified trained searcher, and reporting recall and precision results. Experiment 2 compared 15 different ranked match algorithms in a batch mode using 2 test collections, and included some new proximate pairs and term weighting approaches. Experiment 3 is a design plan for an interactive ranked prototype offering mid search algorithm choices plus other manual search devices (such as obligatory and unwanted terms), as influenced by thinking aloud comments from experiment 1. Concludes that, in Boolean versus ranked using inverse collection frequency, the searcher inspected more records on ranked than Boolean and so achieved a higher recall but lower precision; however, the presentation order of the relevant records, was, on average, very similar in both systems. Concludes also that: query reformulation was quite strongly practised in ranked searching but does not appear to have been effective; the term pairs proximate weithing methods in experiment 2 enhanced precision on both test collections when used with inverse collection frequency weighting (ICF); and the design plan for an interactive prototype adds to a selection of match algorithms other devices, such as obligatory and unwanted term marking, evidence for this being found from think aloud comments
-
Maron, M.E.; Kuhns, I.L.: On relevance, probabilistic indexing and information retrieval (1960)
0.01
0.00967433 = product of:
0.03869732 = sum of:
0.03869732 = weight(_text_:have in 2928) [ClassicSimilarity], result of:
0.03869732 = score(doc=2928,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.17418933 = fieldWeight in 2928, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=2928)
0.25 = coord(1/4)
- Abstract
- Reports on a novel technique for literature indexing and searching in a mechanized library system. The notion of relevance is taken as the key concept in the theory of information retrieval and a comparative concept of relevance is explicated in terms of the theory of probability. The resulting technique called 'Probabilistic indexing' allows a computing machine, given a request for information, to make a statistical inference and derive a number (called the 'relevance number') for each document, which is a measure of the probability that the document will satisfy the given request. The result of a search is an ordered list of those documents which satisfy the request ranked according to their probable relevance. The paper goes on to show that whereas in a conventional library system the cross-referencing ('see' and 'see also') is based soley on the 'semantic closeness' between index terms, statistical measures of closeness between index terms can be defined and computed. Thus, given an arbitrary request consisting of one (or many) index term(s), a machine can eleborate on it to increase the probability of selecting relevant documents that would not otherwise have been selected. Finally, the paper suggest an interpretation of the whole library problem as one where the request is considered as a clue on the basis of which the library system makes a concatenated statistical inference in order to provide as an output an ordered list of those documents which most probably satisfy the information needs of the user
-
Efthimiadis, E.N.: User choices : a new yardstick for the evaluation of ranking algorithms for interactive query expansion (1995)
0.01
0.00967433 = product of:
0.03869732 = sum of:
0.03869732 = weight(_text_:have in 6697) [ClassicSimilarity], result of:
0.03869732 = score(doc=6697,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.17418933 = fieldWeight in 6697, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=6697)
0.25 = coord(1/4)
- Abstract
- The performance of 8 ranking algorithms was evaluated with respect to their effectiveness in ranking terms for query expansion. The evaluation was conducted within an investigation of interactive query expansion and relevance feedback in a real operational environment. Focuses on the identification of algorithms that most effectively take cognizance of user preferences. user choices (i.e. the terms selected by the searchers for the query expansion search) provided the yardstick for the evaluation of the 8 ranking algorithms. This methodology introduces a user oriented approach in evaluating ranking algorithms for query expansion in contrast to the standard, system oriented approaches. Similarities in the performance of the 8 algorithms and the ways these algorithms rank terms were the main focus of this evaluation. The findings demonstrate that the r-lohi, wpq, enim, and porter algorithms have similar performance in bringing good terms to the top of a ranked list of terms for query expansion. However, further evaluation of the algorithms in different (e.g. full text) environments is needed before these results can be generalized beyond the context of the present study
-
Meghabghab, G.: Google's Web page ranking applied to different topological Web graph structures (2001)
0.01
0.00967433 = product of:
0.03869732 = sum of:
0.03869732 = weight(_text_:have in 28) [ClassicSimilarity], result of:
0.03869732 = score(doc=28,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.17418933 = fieldWeight in 28, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=28)
0.25 = coord(1/4)
- Abstract
- This research is part of the ongoing study to better understand web page ranking on the web. It looks at a web page as a graph structure or a web graph, and tries to classify different web graphs in the new coordinate space: (out-degree, in-degree). The out-degree coordinate od is defined as the number of outgoing web pages from a given web page. The in-degree id coordinate is the number of web pages that point to a given web page. In this new coordinate space a metric is built to classify how close or far different web graphs are. Google's web ranking algorithm (Brin & Page, 1998) on ranking web pages is applied in this new coordinate space. The results of the algorithm has been modified to fit different topological web graph structures. Also the algorithm was not successful in the case of general web graphs and new ranking web algorithms have to be considered. This study does not look at enhancing web ranking by adding any contextual information. It only considers web links as a source to web page ranking. The author believes that understanding the underlying web page as a graph will help design better ranking web algorithms, enhance retrieval and web performance, and recommends using graphs as a part of visual aid for browsing engine designers
-
Kang, I.-H.; Kim, G.C.: Integration of multiple evidences based on a query type for web search (2004)
0.01
0.00967433 = product of:
0.03869732 = sum of:
0.03869732 = weight(_text_:have in 3568) [ClassicSimilarity], result of:
0.03869732 = score(doc=3568,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.17418933 = fieldWeight in 3568, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=3568)
0.25 = coord(1/4)
- Abstract
- The massive and heterogeneous Web exacerbates IR problems and short user queries make them worse. The contents of web pages are not enough to find answer pages. PageRank compensates for the insufficiencies of content information. The content information and PageRank are combined to get better results. However, static combination of multiple evidences may lower the retrieval performance. We have to use different strategies to meet the need of a user. We can classify user queries as three categories according to users' intent, the topic relevance task, the homepage finding task, and the service finding task. In this paper, we present a user query classification method. The difference of distribution, mutual information, the usage rate as anchor texts and the POS information are used for the classification. After we classified a user query, we apply different algorithms and information for the better results. For the topic relevance task, we emphasize the content information, on the other hand, for the homepage finding task, we emphasize the Link information and the URL information. We could get the best performance when our proposed classification method with the OKAPI scoring algorithm was used.
-
López-Pujalte, C.; Guerrero-Bote, V.P.; Moya-Anegón, F. de: Order-based fitness functions for genetic algorithms applied to relevance feedback (2003)
0.01
0.00967433 = product of:
0.03869732 = sum of:
0.03869732 = weight(_text_:have in 154) [ClassicSimilarity], result of:
0.03869732 = score(doc=154,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.17418933 = fieldWeight in 154, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=154)
0.25 = coord(1/4)
- Abstract
- Lopez-Pujalte and Guerrero-Bote test a relevance feedback genetic algorithm while varying its order based fitness functions and generating a function based upon the Ide dec-hi method as a base line. Using the non-zero weighted term types assigned to the query, and to the initially retrieved set of documents, as genes, a chromosome of equal length is created for each. The algorithm is provided with the chromosomes for judged relevant documents, for judged irrelevant documents, and for the irrelevant documents with their terms negated. The algorithm uses random selection of all possible genes, but gives greater likelihood to those with higher fitness values. When the fittest chromosome of a previous population is eliminated it is restored while the least fittest of the new population is eliminated in its stead. A crossover probability of .8 and a mutation probability of .2 were used with 20 generations. Three fitness functions were utilized; the Horng and Yeh function which takes into account the position of relevant documents, and two new functions, one based on accumulating the cosine similarity for retrieved documents, the other on stored fixed-recall-interval precessions. The Cranfield collection was used with the first 15 documents retrieved from 33 queries chosen to have at least 3 relevant documents in the first 15 and at least 5 relevant documents not initially retrieved. Precision was calculated at fixed recall levels using the residual collection method which removes viewed documents. One of the three functions improved the original retrieval by127 percent, while the Ide dec-hi method provided a 120 percent improvement.