-
French, J.C.; Powell, A.L.; Schulman, E.: Using clustering strategies for creating authority files (2000)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 5811) [ClassicSimilarity], result of:
0.10035263 = score(doc=5811,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 5811, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=5811)
0.25 = coord(1/4)
- Abstract
- As more online databases are integrated into digital libraries, the issue of quality control of the data becomes increasingly important, especially as it relates to the effective retrieval of information. Authority work, the need to discover and reconcile variant forms of strings in bibliographical entries, will become more critical in the future. Spelling variants, misspellings, and transliteration differences will all increase the difficulty of retrieving information. We investigate a number of approximate string matching techniques that have traditionally been used to help with this problem. We then introduce the notion of approximate word matching and show how it can be used to improve detection and categorization of variant forms. We demonstrate the utility of these approaches using data from the Astrophysics Data System and show how we can reduce the human effort involved in the creation of authority files
-
Bodoff, D.; Enache, D.; Kambil, A.; Simon, G.; Yukhimets, A.: ¬A unified maximum likelihood approach to document retrieval (2001)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 1174) [ClassicSimilarity], result of:
0.10035263 = score(doc=1174,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 1174, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=1174)
0.25 = coord(1/4)
- Abstract
- Empirical work shows significant benefits from using relevance feedback data to improve information retrieval (IR) performance. Still, one fundamental difficulty has limited the ability to fully exploit this valuable data. The problem is that it is not clear whether the relevance feedback data should be used to train the system about what the users really mean, or about what the documents really mean. In this paper, we resolve the question using a maximum likelihood framework. We show how all the available data can be used to simultaneously estimate both documents and queries in proportions that are optimal in a maximum likelihood sense. The resulting algorithm is directly applicable to many approaches to IR, and the unified framework can help explain previously reported results as well as guidethe search for new methods that utilize feedback data in IR
-
Käki, M.: fKWIC: frequency-based Keyword-in-Context Index for filtering Web search results (2006)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 112) [ClassicSimilarity], result of:
0.10035263 = score(doc=112,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 112, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=112)
0.25 = coord(1/4)
- Abstract
- Enormous Web search engine databases combined with short search queries result in large result sets that are often difficult to access. Result ranking works fairly well, but users need help when it fails. For these situations, we propose a filtering interface that is inspired by keyword-in-context (KWIC) indices. The user interface lists the most frequent keyword contexts (fKWIC). When a context is selected, the corresponding results are displayed in the result list, allowing users to concentrate on the specific context. We compared the keyword context index user interface to the rank order result listing in an experiment with 36 participants. The results show that the proposed user interface was 29% faster in finding relevant results, and the precision of the selected results was 19% higher. In addition, participants showed positive attitudes toward the system.
-
Jindal, V.; Bawa, S.; Batra, S.: ¬A review of ranking approaches for semantic search on Web (2014)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 3799) [ClassicSimilarity], result of:
0.10035263 = score(doc=3799,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 3799, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=3799)
0.25 = coord(1/4)
- Abstract
- With ever increasing information being available to the end users, search engines have become the most powerful tools for obtaining useful information scattered on the Web. However, it is very common that even most renowned search engines return result sets with not so useful pages to the user. Research on semantic search aims to improve traditional information search and retrieval methods where the basic relevance criteria rely primarily on the presence of query keywords within the returned pages. This work is an attempt to explore different relevancy ranking approaches based on semantics which are considered appropriate for the retrieval of relevant information. In this paper, various pilot projects and their corresponding outcomes have been investigated based on methodologies adopted and their most distinctive characteristics towards ranking. An overview of selected approaches and their comparison by means of the classification criteria has been presented. With the help of this comparison, some common concepts and outstanding features have been identified.
-
Meghabghab, G.: Google's Web page ranking applied to different topological Web graph structures (2001)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 28) [ClassicSimilarity], result of:
0.083627194 = score(doc=28,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 28, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=28)
0.25 = coord(1/4)
- Abstract
- This research is part of the ongoing study to better understand web page ranking on the web. It looks at a web page as a graph structure or a web graph, and tries to classify different web graphs in the new coordinate space: (out-degree, in-degree). The out-degree coordinate od is defined as the number of outgoing web pages from a given web page. The in-degree id coordinate is the number of web pages that point to a given web page. In this new coordinate space a metric is built to classify how close or far different web graphs are. Google's web ranking algorithm (Brin & Page, 1998) on ranking web pages is applied in this new coordinate space. The results of the algorithm has been modified to fit different topological web graph structures. Also the algorithm was not successful in the case of general web graphs and new ranking web algorithms have to be considered. This study does not look at enhancing web ranking by adding any contextual information. It only considers web links as a source to web page ranking. The author believes that understanding the underlying web page as a graph will help design better ranking web algorithms, enhance retrieval and web performance, and recommends using graphs as a part of visual aid for browsing engine designers
-
Dominich, S.: Mathematical foundations of information retrieval (2001)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 2753) [ClassicSimilarity], result of:
0.083627194 = score(doc=2753,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 2753, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=2753)
0.25 = coord(1/4)
- Abstract
- This book offers a comprehensive and consistent mathematical approach to information retrieval (IR) without which no implementation is possible, and sheds an entirely new light upon the structure of IR models. It contains the descriptions of all IR models in a unified formal style and language, along with examples for each, thus offering a comprehensive overview of them. The book also creates mathematical foundations and a consistent mathematical theory (including all mathematical results achieved so far) of IR as a stand-alone mathematical discipline, which thus can be read and taught independently. Also, the book contains all necessary mathematical knowledge on which IR relies, to help the reader avoid searching different sources. The book will be of interest to computer or information scientists, librarians, mathematicians, undergraduate students and researchers whose work involves information retrieval.
-
Bhansali, D.; Desai, H.; Deulkar, K.: ¬A study of different ranking approaches for semantic search (2015)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 3696) [ClassicSimilarity], result of:
0.083627194 = score(doc=3696,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 3696, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=3696)
0.25 = coord(1/4)
- Abstract
- Search Engines have become an integral part of our day to day life. Our reliance on search engines increases with every passing day. With the amount of data available on Internet increasing exponentially, it becomes important to develop new methods and tools that help to return results relevant to the queries and reduce the time spent on searching. The results should be diverse but at the same time should return results focused on the queries asked. Relation Based Page Rank [4] algorithms are considered to be the next frontier in improvement of Semantic Web Search. The probability of finding relevance in the search results as posited by the user while entering the query is used to measure the relevance. However, its application is limited by the complexity of determining relation between the terms and assigning explicit meaning to each term. Trust Rank is one of the most widely used ranking algorithms for semantic web search. Few other ranking algorithms like HITS algorithm, PageRank algorithm are also used for Semantic Web Searching. In this paper, we will provide a comparison of few ranking approaches.
-
Karisani, P.; Rahgozar, M.; Oroumchian, F.: Transforming LSA space dimensions into a rubric for an automatic assessment and feedback system (2016)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 3970) [ClassicSimilarity], result of:
0.083627194 = score(doc=3970,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 3970, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=3970)
0.25 = coord(1/4)
- Abstract
- Pseudo-relevance feedback is the basis of a category of automatic query modification techniques. Pseudo-relevance feedback methods assume the initial retrieved set of documents to be relevant. Then they use these documents to extract more relevant terms for the query or just re-weigh the user's original query. In this paper, we propose a straightforward, yet effective use of pseudo-relevance feedback method in detecting more informative query terms and re-weighting them. The query-by-query analysis of our results indicates that our method is capable of identifying the most important keywords even in short queries. Our main idea is that some of the top documents may contain a closer context to the user's information need than the others. Therefore, re-examining the similarity of those top documents and weighting this set based on their context could help in identifying and re-weighting informative query terms. Our experimental results in standard English and Persian test collections show that our method improves retrieval performance, in terms of MAP criterion, up to 7% over traditional query term re-weighting methods.
-
Jiang, X.; Sun, X.; Yang, Z.; Zhuge, H.; Lapshinova-Koltunski, E.; Yao, J.: Exploiting heterogeneous scientific literature networks to combat ranking bias : evidence from the computational linguistics area (2016)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 4017) [ClassicSimilarity], result of:
0.083627194 = score(doc=4017,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 4017, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=4017)
0.25 = coord(1/4)
- Abstract
- It is important to help researchers find valuable papers from a large literature collection. To this end, many graph-based ranking algorithms have been proposed. However, most of these algorithms suffer from the problem of ranking bias. Ranking bias hurts the usefulness of a ranking algorithm because it returns a ranking list with an undesirable time distribution. This paper is a focused study on how to alleviate ranking bias by leveraging the heterogeneous network structure of the literature collection. We propose a new graph-based ranking algorithm, MutualRank, that integrates mutual reinforcement relationships among networks of papers, researchers, and venues to achieve a more synthetic, accurate, and less-biased ranking than previous methods. MutualRank provides a unified model that involves both intra- and inter-network information for ranking papers, researchers, and venues simultaneously. We use the ACL Anthology Network as the benchmark data set and construct the gold standard from computer linguistics course websites of well-known universities and two well-known textbooks. The experimental results show that MutualRank greatly outperforms the state-of-the-art competitors, including PageRank, HITS, CoRank, Future Rank, and P-Rank, in ranking papers in both improving ranking effectiveness and alleviating ranking bias. Rankings of researchers and venues by MutualRank are also quite reasonable.
-
Mandl, T.: Web- und Multimedia-Dokumente : Neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen (2003)
0.02
0.018216114 = product of:
0.07286446 = sum of:
0.07286446 = weight(_text_:und in 2734) [ClassicSimilarity], result of:
0.07286446 = score(doc=2734,freq=12.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.48018923 = fieldWeight in 2734, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=2734)
0.25 = coord(1/4)
- Abstract
- Die Menge an Daten im Internet steigt weiter rapide an. Damit wächst auch der Bedarf an qualitativ hochwertigen Information Retrieval Diensten zur Orientierung und problemorientierten Suche. Die Entscheidung für die Benutzung oder Beschaffung von Information Retrieval Software erfordert aussagekräftige Evaluierungsergebnisse. Dieser Beitrag stellt neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen vor und zeigt den Trend zu Spezialisierung und Diversifizierung von Evaluierungsstudien, die den Realitätsgrad derErgebnisse erhöhen. DerSchwerpunkt liegt auf dem Retrieval von Fachtexten, Internet-Seiten und Multimedia-Objekten.
- Source
- Information - Wissenschaft und Praxis. 54(2003) H.4, S.203-210
-
Nagelschmidt, M.: Verfahren zur Anfragemodifikation im Information Retrieval (2008)
0.02
0.017637676 = product of:
0.0705507 = sum of:
0.0705507 = weight(_text_:und in 3774) [ClassicSimilarity], result of:
0.0705507 = score(doc=3774,freq=20.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.4649412 = fieldWeight in 3774, product of:
4.472136 = tf(freq=20.0), with freq of:
20.0 = termFreq=20.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=3774)
0.25 = coord(1/4)
- Abstract
- Für das Modifizieren von Suchanfragen kennt das Information Retrieval vielfältige Möglichkeiten. Nach einer einleitenden Darstellung der Wechselwirkung zwischen Informationsbedarf und Suchanfrage wird eine konzeptuelle und typologische Annäherung an Verfahren zur Anfragemodifikation gegeben. Im Anschluss an eine kurze Charakterisierung des Fakten- und des Information Retrieval, sowie des Vektorraum- und des probabilistischen Modells, werden intellektuelle, automatische und interaktive Modifikationsverfahren vorgestellt. Neben klassischen intellektuellen Verfahren, wie der Blockstrategie und der "Citation Pearl Growing"-Strategie, umfasst die Darstellung der automatischen und interaktiven Verfahren Modifikationsmöglichkeiten auf den Ebenen der Morphologie, der Syntax und der Semantik von Suchtermen. Darüber hinaus werden das Relevance Feedback, der Nutzen informetrischer Analysen und die Idee eines assoziativen Retrievals auf der Basis von Clustering- und terminologischen Techniken, sowie zitationsanalytischen Verfahren verfolgt. Ein Eindruck für die praktischen Gestaltungsmöglichkeiten der behandelten Verfahren soll abschließend durch fünf Anwendungsbeispiele vermittelt werden.
-
White, R.W.; Marchionini, G.: Examining the effectiveness of real-time query expansion (2007)
0.02
0.01672544 = product of:
0.06690176 = sum of:
0.06690176 = weight(_text_:help in 1913) [ClassicSimilarity], result of:
0.06690176 = score(doc=1913,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.20788372 = fieldWeight in 1913, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.03125 = fieldNorm(doc=1913)
0.25 = coord(1/4)
- Abstract
- Interactive query expansion (IQE) (c.f. [Efthimiadis, E. N. (1996). Query expansion. Annual Review of Information Systems and Technology, 31, 121-187]) is a potentially useful technique to help searchers formulate improved query statements, and ultimately retrieve better search results. However, IQE is seldom used in operational settings. Two possible explanations for this are that IQE is generally not integrated into searchers' established information-seeking behaviors (e.g., examining lists of documents), and it may not be offered at a time in the search when it is needed most (i.e., during the initial query formulation). These challenges can be addressed by coupling IQE more closely with familiar search activities, rather than as a separate functionality that searchers must learn. In this article we introduce and evaluate a variant of IQE known as Real-Time Query Expansion (RTQE). As a searcher enters their query in a text box at the interface, RTQE provides a list of suggested additional query terms, in effect offering query expansion options while the query is formulated. To investigate how the technique is used - and when it may be useful - we conducted a user study comparing three search interfaces: a baseline interface with no query expansion support; an interface that provides expansion options during query entry, and a third interface that provides options after queries have been submitted to a search system. The results show that offering RTQE leads to better quality initial queries, more engagement in the search, and an increase in the uptake of query expansion. However, the results also imply that care must be taken when implementing RTQE interactively. Our findings have broad implications for how IQE should be offered, and form part of our research on the development of techniques to support the increased use of query expansion.
-
Fuhr, N.: Zur Überwindung der Diskrepanz zwischen Retrievalforschung und -praxis (1990)
0.02
0.016628962 = product of:
0.06651585 = sum of:
0.06651585 = weight(_text_:und in 6624) [ClassicSimilarity], result of:
0.06651585 = score(doc=6624,freq=10.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.4383508 = fieldWeight in 6624, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=6624)
0.25 = coord(1/4)
- Abstract
- In diesem Beitrag werden einige Forschungsergebnisse des Information Retrieval vorgestellt, die unmittelbar zur Verbesserung der Retrievalqualität für bereits existierende Datenbanken eingesetzt werden können: Linguistische Algorithmen zur Grund- und Stammformreduktion unterstützen die Suche nach Flexions- und Derivationsformen von Suchtermen. Rankingalgorithmen, die Frage- und Dokumentterme gewichten, führen zu signifikant besseren Retrievalergebnissen als beim Booleschen Retrieval. Durch Relevance Feedback können die Retrievalqualität weiter gesteigert und außerdem der Benutzer bei der sukzessiven Modifikation seiner Frageformulierung unterstützt werden. Es wird eine benutzerfreundliche Bedienungsoberfläche für ein System vorgestellt, das auf diesen Konzepten basiert.
-
Tober, M.; Hennig, L.; Furch, D.: SEO Ranking-Faktoren und Rang-Korrelationen 2014 : Google Deutschland (2014)
0.02
0.016628962 = product of:
0.06651585 = sum of:
0.06651585 = weight(_text_:und in 2484) [ClassicSimilarity], result of:
0.06651585 = score(doc=2484,freq=10.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.4383508 = fieldWeight in 2484, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=2484)
0.25 = coord(1/4)
- Abstract
- Dieses Whitepaper beschäftigt sich mit der Definition und Bewertung von Faktoren, die eine hohe Rangkorrelation-Koeffizienz mit organischen Suchergebnissen aufweisen und dient dem Zweck der tieferen Analyse von Suchmaschinen-Algorithmen. Die Datenerhebung samt Auswertung bezieht sich auf Ranking-Faktoren für Google-Deutschland im Jahr 2014. Zusätzlich wurden die Korrelationen und Faktoren unter anderem anhand von Durchschnitts- und Medianwerten sowie Entwicklungstendenzen zu den Vorjahren hinsichtlich ihrer Relevanz für vordere Suchergebnis-Positionen interpretiert.
-
Behnert, C.; Borst, T.: Neue Formen der Relevanz-Sortierung in bibliothekarischen Informationssystemen : das DFG-Projekt LibRank (2015)
0.02
0.016628962 = product of:
0.06651585 = sum of:
0.06651585 = weight(_text_:und in 392) [ClassicSimilarity], result of:
0.06651585 = score(doc=392,freq=10.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.4383508 = fieldWeight in 392, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=392)
0.25 = coord(1/4)
- Abstract
- Das von der DFG geförderte Projekt LibRank erforscht neue Rankingverfahren für bibliothekarische Informationssysteme, die aufbauend auf Erkenntnissen aus dem Bereich Websuche qualitätsinduzierende Faktoren wie z. B. Aktualität, Popularität und Verfügbarkeit von einzelnen Medien berücksichtigen. Die konzipierten Verfahren werden im Kontext eines in den Wirtschaftswissenschaften häufig genutzten Rechercheportals (EconBiz) entwickelt und in einem Testsystem systematisch evaluiert. Es werden Rankingfaktoren, die für den Bibliotheksbereich von besonderem Interesse sind, vorgestellt und exemplarisch Probleme und Herausforderungen aufgezeigt.
- Source
- Bibliothek: Forschung und Praxis. 39(2015) H.3, S.384-393
-
Dreßler, H.: Fuzzy Information Retrieval (2008)
0.02
0.016100923 = product of:
0.06440369 = sum of:
0.06440369 = weight(_text_:und in 3300) [ClassicSimilarity], result of:
0.06440369 = score(doc=3300,freq=6.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.42443132 = fieldWeight in 3300, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.078125 = fieldNorm(doc=3300)
0.25 = coord(1/4)
- Abstract
- Nach einer Erläuterung der Grundlagen der Fuzzylogik wird das Prinzip der unscharfen Suche dargestellt und die Unterschiede zum herkömmlichen Information Retrieval beschrieben. Am Beispiel der Suche nach Steinen für ein Mauerwerk wird gezeigt, wie eine unscharfe Suche in der D&WFuzzydatenbank erfolgreich durchgeführt werden kann und zu eindeutigen Ergebnissen führt.
- Source
- Information - Wissenschaft und Praxis. 59(2008) H.6/7, S.351-352
-
Elsweiler, D.; Kruschwitz, U.: Interaktives Information Retrieval (2023)
0.01
0.014873395 = product of:
0.05949358 = sum of:
0.05949358 = weight(_text_:und in 1798) [ClassicSimilarity], result of:
0.05949358 = score(doc=1798,freq=8.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.39207286 = fieldWeight in 1798, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=1798)
0.25 = coord(1/4)
- Abstract
- Interaktives Information Retrieval (IIR) zielt darauf ab, die komplexen Interaktionen zwischen Nutzer*innen und Systemen im IR zu verstehen. Es gibt umfangreiche Literatur zu Themen wie der formalen Modellierung des Suchverhaltens, der Simulation der Interaktion, den interaktiven Funktionen zur Unterstützung des Suchprozesses und der Evaluierung interaktiver Suchsysteme. Dabei ist die interaktive Unterstützung nicht allein auf die Suche beschränkt, sondern hat ebenso die Hilfe bei Navigation und Exploration zum Ziel.
- Source
- Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg
-
Lanvent, A.: Know-how - Suchverfahren : Intelligente Suchmaschinen erzielen mit assoziativen und linguistischen Verfahren beste Ergebnisse. (2004)
0.01
0.014698064 = product of:
0.058792256 = sum of:
0.058792256 = weight(_text_:und in 3988) [ClassicSimilarity], result of:
0.058792256 = score(doc=3988,freq=20.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.38745102 = fieldWeight in 3988, product of:
4.472136 = tf(freq=20.0), with freq of:
20.0 = termFreq=20.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=3988)
0.25 = coord(1/4)
- Content
- "Die einfachste Form der Volltextsuche ist die Phrasensuche. Hierbei gilt es, den eingegebenen Text in der exakten Schreibweise in sämtlichen relevanten Dokumenten zu finden. Anhand von Joker-Zeichen wie Stern und Fragezeichen kann der Anwender diese Art der Suche erweitern. Boole'sche Parameter verknüpfen einen, zwei oder mehrere Begriffe zu einem Suchstring. Die häufigsten Parameter lauten UND, ODER und NICHT. So lassen sich auch komplexe Anfragen starten, etwa sollen alle Dokumente gefunden werden, die die Begriffe »Schröder« oder »Schroeder«, aber nicht »Bundeskanzler« enthalten. Kennt der Anwender nicht die exakte Schreibweise oder kommen unterschiedliche Ausprägungen eines Wortes in den gesuchten Dokumenten vor, wie Deklinationen, muss er auf fehlertolerante oder linguistische Verfahren zurückgreifen. Einige Tools wie etwa Dt Search und Findword arbeiten mit Wörterbüchern, die auch Flexionen enthalten. Sucht der Nutzer etwa nach »Baum«, findet das Tool auch »Bäume« oder etwa »Baumstamm«. Bei der phonetischen Suche setzen Programme wie Documind Pro und Findword auf einen Algorithmus, der nach dem ähnlichen Klang der Wörter recherchiert. Solche Verfahren sind demnach sprachenabhängig. Sie nehmen den Suchstring »Meier« zum Anlass, auch »Mayer« oder »Meier« nachzuschlagen. Fuzzy Logic ist ein verwandtes Verfahren, das alternative Schreibweisen oder Tippfehler verzeiht. Dieses Verfahren berücksichtigt auch Abweichungen und stellt dabei fest, dass ein bestimmter Begriff zu einem Wortstamm gehört. Eine solche Methode liefert eine größere Trefferliste und findet bei Eingabe von »Microsoft« auch Dokumente mit »Mircosoft« und »Microaoft«. Die Königsdisziplin ist die Assoziative Suche, die die Recherche nach Eingabe eines beliebigen Satzes in der natürlichen Sprache startet. Das Suchkommando »Die Meistertitel von Borussia Mönchengladbach« findet im Idealfall Texte zu den Themen Fußball, Bundesliga und Netzer."
-
Effektive Information Retrieval Verfahren in Theorie und Praxis : ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005 (2006)
0.01
0.014401103 = product of:
0.057604413 = sum of:
0.057604413 = weight(_text_:und in 973) [ClassicSimilarity], result of:
0.057604413 = score(doc=973,freq=120.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.37962294 = fieldWeight in 973, product of:
10.954452 = tf(freq=120.0), with freq of:
120.0 = termFreq=120.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.015625 = fieldNorm(doc=973)
0.25 = coord(1/4)
- Abstract
- Information Retrieval hat sich zu einer Schlüsseltechnologie in der Wissensgesellschaft entwickelt. Die Anzahl der täglichen Anfragen an Internet-Suchmaschinen bildet nur einen Indikator für die große Bedeutung dieses Themas. Der Sammelbandband informiert über Themen wie Information Retrieval-Grundlagen, Retrieval Systeme, Digitale Bibliotheken, Evaluierung und Multilinguale Systeme, beschreibt Anwendungsszenarien und setzt sich mit neuen Herausforderungen an das Information Retrieval auseinander. Die Beiträge behandeln aktuelle Themen und neue Herausforderungen an das Information Retrieval. Die intensive Beteiligung der Informationswissenschaft der Universität Hildesheim am Cross Language Evaluation Forum (CLEF), einer europäischen Evaluierungsinitiative zur Erforschung mehrsprachiger Retrieval Systeme, berührt mehrere der Beiträge. Ebenso spielen Anwendungsszenarien und die Auseinandersetzung mit aktuellen und praktischen Fragestellungen eine große Rolle.
- Content
- Inhalt: Jan-Hendrik Scheufen: RECOIN: Modell offener Schnittstellen für Information-Retrieval-Systeme und -Komponenten Markus Nick, Klaus-Dieter Althoff: Designing Maintainable Experience-based Information Systems Gesine Quint, Steffen Weichert: Die benutzerzentrierte Entwicklung des Produkt- Retrieval-Systems EIKON der Blaupunkt GmbH Claus-Peter Klas, Sascha Kriewel, André Schaefer, Gudrun Fischer: Das DAFFODIL System - Strategische Literaturrecherche in Digitalen Bibliotheken Matthias Meiert: Entwicklung eines Modells zur Integration digitaler Dokumente in die Universitätsbibliothek Hildesheim Daniel Harbig, René Schneider: Ontology Learning im Rahmen von MyShelf Michael Kluck, Marco Winter: Topic-Entwicklung und Relevanzbewertung bei GIRT: ein Werkstattbericht Thomas Mandl: Neue Entwicklungen bei den Evaluierungsinitiativen im Information Retrieval Joachim Pfister: Clustering von Patent-Dokumenten am Beispiel der Datenbanken des Fachinformationszentrums Karlsruhe Ralph Kölle, Glenn Langemeier, Wolfgang Semar: Programmieren lernen in kollaborativen Lernumgebungen Olga Tartakovski, Margaryta Shramko: Implementierung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten Nina Kummer: Indexierungstechniken für das japanische Retrieval Suriya Na Nhongkai, Hans-Joachim Bentz: Bilinguale Suche mittels Konzeptnetzen Robert Strötgen, Thomas Mandl, René Schneider: Entwicklung und Evaluierung eines Question Answering Systems im Rahmen des Cross Language Evaluation Forum (CLEF) Niels Jensen: Evaluierung von mehrsprachigem Web-Retrieval: Experimente mit dem EuroGOV-Korpus im Rahmen des Cross Language Evaluation Forum (CLEF)
- Footnote
- Rez. in: Information - Wissenschaft und Praxis 57(2006) H.5, S.290-291 (C. Schindler): "Weniger als ein Jahr nach dem "Vierten Hildesheimer Evaluierungs- und Retrievalworkshop" (HIER 2005) im Juli 2005 ist der dazugehörige Tagungsband erschienen. Eingeladen hatte die Hildesheimer Informationswissenschaft um ihre Forschungsergebnisse und die einiger externer Experten zum Thema Information Retrieval einem Fachpublikum zu präsentieren und zur Diskussion zu stellen. Unter dem Titel "Effektive Information Retrieval Verfahren in Theorie und Praxis" sind nahezu sämtliche Beiträge des Workshops in dem nun erschienenen, 15 Beiträge umfassenden Band gesammelt. Mit dem Schwerpunkt Information Retrieval (IR) wird ein Teilgebiet der Informationswissenschaft vorgestellt, das schon immer im Zentrum informationswissenschaftlicher Forschung steht. Ob durch den Leistungsanstieg von Prozessoren und Speichermedien, durch die Verbreitung des Internet über nationale Grenzen hinweg oder durch den stetigen Anstieg der Wissensproduktion, festzuhalten ist, dass in einer zunehmend wechselseitig vernetzten Welt die Orientierung und das Auffinden von Dokumenten in großen Wissensbeständen zu einer zentralen Herausforderung geworden sind. Aktuelle Verfahrensweisen zu diesem Thema, dem Information Retrieval, präsentiert der neue Band anhand von praxisbezogenen Projekten und theoretischen Diskussionen. Das Kernthema Information Retrieval wird in dem Sammelband in die Bereiche Retrieval-Systeme, Digitale Bibliothek, Evaluierung und Multilinguale Systeme untergliedert. Die Artikel der einzelnen Sektionen sind insgesamt recht heterogen und bieten daher keine Überschneidungen inhaltlicher Art. Jedoch ist eine vollkommene thematische Abdeckung der unterschiedlichen Bereiche ebenfalls nicht gegeben, was bei der Präsentation von Forschungsergebnissen eines Institutes und seiner Kooperationspartner auch nur bedingt erwartet werden kann. So lässt sich sowohl in der Gliederung als auch in den einzelnen Beiträgen eine thematische Verdichtung erkennen, die das spezielle Profil und die Besonderheit der Hildesheimer Informationswissenschaft im Feld des Information Retrieval wiedergibt. Teil davon ist die mehrsprachige und interdisziplinäre Ausrichtung, die die Schnittstellen zwischen Informationswissenschaft, Sprachwissenschaft und Informatik in ihrer praxisbezogenen und internationalen Forschung fokussiert.
Im ersten Kapitel "Retrieval-Systeme" werden verschiedene Information RetrievalSysteme präsentiert und Verfahren zu deren Gestaltung diskutiert. Jan-Hendrik Scheufen stellt das Meta-Framework RECOIN zur Information Retrieval Forschung vor, das sich durch eine flexible Handhabung unterschiedlichster Applikationen auszeichnet und dadurch eine zentrierte Protokollierung und Steuerung von Retrieval-Prozessen ermöglicht. Dieses Konzept eines offenen, komponentenbasierten Systems wurde in Form eines Plug-Ins für die javabasierte Open-Source-Plattform Eclipse realisiert. Markus Nick und Klaus-Dieter Althoff erläutern in ihrem Beitrag, der übrigens der einzige englischsprachige Text im Buch ist, das Verfahren DILLEBIS zur Erhaltung und Pflege (Maintenance) von erfahrungsbasierten Informationssystemen. Sie bezeichnen dieses Verfahren als Maintainable Experience-based Information System und plädieren für eine Ausrichtung von erfahrungsbasierten Systemen entsprechend diesem Modell. Gesine Quint und Steffen Weichert stellen dagegen in ihrem Beitrag die benutzerzentrierte Entwicklung des Produkt-Retrieval-Systems EIKON vor, das in Kooperation mit der Blaupunkt GmbH realisiert wurde. In einem iterativen Designzyklus erfolgte die Gestaltung von gruppenspezifischen Interaktionsmöglichkeiten für ein Car-Multimedia-Zubehör-System. Im zweiten Kapitel setzen sich mehrere Autoren dezidierter mit dem Anwendungsgebiet "Digitale Bibliothek" auseinander. Claus-Peter Klas, Sascha Kriewel, Andre Schaefer und Gudrun Fischer von der Universität Duisburg-Essen stellen das System DAFFODIL vor, das durch eine Vielzahl an Werkzeugen zur strategischen Unterstützung bei Literaturrecherchen in digitalen Bibliotheken dient. Zusätzlich ermöglicht die Protokollierung sämtlicher Ereignisse den Einsatz des Systems als Evaluationsplattform. Der Aufsatz von Matthias Meiert erläutert die Implementierung von elektronischen Publikationsprozessen an Hochschulen am Beispiel von Abschlussarbeiten des Studienganges Internationales Informationsmanagement der Universität Hildesheim. Neben Rahmenbedingungen werden sowohl der Ist-Zustand als auch der Soll-Zustand des wissenschaftlichen elektronischen Publizierens in Form von gruppenspezifischen Empfehlungen dargestellt. Daniel Harbig und Rene Schneider beschreiben in ihrem Aufsatz zwei Verfahrensweisen zum maschinellen Erlernen von Ontologien, angewandt am virtuellen Bibliotheksregal MyShelf. Nach der Evaluation dieser beiden Ansätze plädieren die Autoren für ein semi-automatisiertes Verfahren zur Erstellung von Ontologien.
"Evaluierung", das Thema des dritten Kapitels, ist in seiner Breite nicht auf das Information Retrieval beschränkt sondern beinhaltet ebenso einzelne Aspekte der Bereiche Mensch-Maschine-Interaktion sowie des E-Learning. Michael Muck und Marco Winter von der Stiftung Wissenschaft und Politik sowie dem Informationszentrum Sozialwissenschaften thematisieren in ihrem Beitrag den Einfluss der Fragestellung (Topic) auf die Bewertung von Relevanz und zeigen Verfahrensweisen für die Topic-Erstellung auf, die beim Cross Language Evaluation Forum (CLEF) Anwendung finden. Im darauf folgenden Aufsatz stellt Thomas Mandl verschiedene Evaluierungsinitiativen im Information Retrieval und aktuelle Entwicklungen dar. Joachim Pfister erläutert in seinem Beitrag das automatisierte Gruppieren, das sogenannte Clustering, von Patent-Dokumenten in den Datenbanken des Fachinformationszentrums Karlsruhe und evaluiert unterschiedliche Clusterverfahren auf Basis von Nutzerbewertungen. Ralph Kölle, Glenn Langemeier und Wolfgang Semar widmen sich dem kollaborativen Lernen unter den speziellen Bedingungen des Programmierens. Dabei werden das System VitaminL zur synchronen Bearbeitung von Programmieraufgaben und das Kennzahlensystem K-3 für die Bewertung kollaborativer Zusammenarbeit in einer Lehrveranstaltung angewendet. Der aktuelle Forschungsschwerpunkt der Hildesheimer Informationswissenschaft zeichnet sich im vierten Kapitel unter dem Thema "Multilinguale Systeme" ab. Hier finden sich die meisten Beiträge des Tagungsbandes wieder. Olga Tartakovski und Margaryta Shramko beschreiben und prüfen das System Langldent, das die Sprache von mono- und multilingualen Texten identifiziert. Die Eigenheiten der japanischen Schriftzeichen stellt Nina Kummer dar und vergleicht experimentell die unterschiedlichen Techniken der Indexierung. Suriya Na Nhongkai und Hans-Joachim Bentz präsentieren und prüfen eine bilinguale Suche auf Basis von Konzeptnetzen, wobei die Konzeptstruktur das verbindende Elemente der beiden Textsammlungen darstellt. Das Entwickeln und Evaluieren eines mehrsprachigen Question-Answering-Systems im Rahmen des Cross Language Evaluation Forum (CLEF), das die alltagssprachliche Formulierung von konkreten Fragestellungen ermöglicht, wird im Beitrag von Robert Strötgen, Thomas Mandl und Rene Schneider thematisiert. Den Schluss bildet der Aufsatz von Niels Jensen, der ein mehrsprachiges Web-Retrieval-System ebenfalls im Zusammenhang mit dem CLEF anhand des multilingualen EuroGOVKorpus evaluiert.
Abschließend lässt sich sagen, dass der Tagungsband einen gelungenen Überblick über die Information Retrieval Projekte der Hildesheimer Informationswissenschaft und ihrer Kooperationspartner gibt. Die einzelnen Beiträge sind sehr anregend und auf einem hohen Niveau angesiedelt. Ein kleines Hindernis für den Leser stellt die inhaltliche und strukturelle Orientierung innerhalb des Bandes dar. Der Bezug der einzelnen Artikel zum Thema des Kapitels wird zwar im Vorwort kurz erläutert. Erschwert wird die Orientierung im Buch jedoch durch fehlende Kapitelüberschriften am Anfang der einzelnen Sektionen. Außerdem ist zu erwähnen, dass einer der Artikel einen anderen Titel als im Inhaltsverzeichnis angekündigt trägt. Sieht der Leser von diesen formalen Mängeln ab, wird er reichlich mit praxisbezogenen und theoretisch fundierten Projektdarstellungen und Forschungsergebnissen belohnt. Dies insbesondere, da nicht nur aktuelle Themen der Informationswissenschaft aufgegriffen, sondern ebenso weiterentwickelt und durch die speziellen interdisziplinären und internationalen Bedingungen in Hildesheim geformt werden. Dabei zeigt sich anhand der verschiedenen Projekte, wie gut die Hildesheimer Informationswissenschaft in die Community überregionaler Informationseinrichtungen und anderer deutscher informationswissenschaftlicher Forschungsgruppen eingebunden ist. Damit hat der Workshop bei einer weiteren Öffnung der Expertengruppe das Potential zu einer eigenständigen Institution im Bereich des Information Retrieval zu werden. In diesem Sinne lässt sich auf weitere fruchtbare Workshops und deren Veröffentlichungen hoffen. Ein nächster Workshop der Universität Hildesheim zum Thema Information Retrieval, organisiert mit der Fachgruppe Information Retrieval der Gesellschaft für Informatik, kündigt sich bereits für den 9. bis 13- Oktober 2006 an."
-
Lanvent, A.: Praxis - Windows-Suche und Indexdienst : Auch Windows kann bei der Suche den Turbo einlegen: mit dem Indexdienst (2004)
0.01
0.013943807 = product of:
0.05577523 = sum of:
0.05577523 = weight(_text_:und in 4316) [ClassicSimilarity], result of:
0.05577523 = score(doc=4316,freq=18.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.36756828 = fieldWeight in 4316, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=4316)
0.25 = coord(1/4)
- Content
- "Für eine 4-GByte-Festplatte mit mehreren Partitionen sucht Windows XP im Volltextmodus weit über zwei Stunden. Der Indexdienst verkürzt diese Recherchedauer drastisch um mehr als eine Stunde. Im Gegensatz zu den Indizes der kommerziellen Suchwerkzeuge erfasst der Windows-Indexdienst nur Text-, HTML- und OfficeDateien über entsprechend integrierte Dokumentfilter. Da er weder ZIP-Files noch PDFs erkennt und auch keine E-Mails scannt, ist er mit komplexen Anfragen schnell überfordert. Standardmäßig ist der Indexdienst zwar installiert, aber nicht aktiviert. Das erledigt der Anwender über Start/Arbeitsplatz und den Befehl Verwalten aus dem Kontextmenü. In der Computerverwaltung aktiviert der Benutzer den Eintrag Indexdienst und wählt Starten aus dem Kontextmenü. Die zu indizierenden Elemente verwaltet Windows über so genannte Kataloge, mit deren Hilfe der User bestimmt, welche Dateitypen aus welchen Ordnern indiziert werden sollen. Zwar kann der Anwender neben dem Katalog System weitere Kataloge einrichten. Ausreichend ist es aber in den meisten Fällen, dem Katalog System weitere Indizierungsordner über die Befehle Neu/Verzeichnis hinzuzufügen. Klickt der Benutzer dann einen der Indizierungsordner mit der rechten Maustaste an und wählt Alle Tasks/Erneut prüfen (Vollständig), beginnt der mitunter langwierige Indizierungsprozess. Über den Eigenschaften-Dialog lässt sich allerdings der Leistungsverbrauch drosseln. Eine inkrementelle Indizierung, bei der Windows nur neue Elemente im jeweiligen Verzeichnis unter die Lupe nimmt, erreicht der Nutzer über Alle Tasks/Erneut prüfen (inkrementell). Einschalten lässt sich der Indexdienst auch über die Eigenschaften eines Ordners und den Befehl Erweitert/ln-halt für schnelle Dateisuche indizieren. Auskunft über die dem Indexdienst zugeordneten Ordner und Laufwerke erhalten Sie, wenn Sie die WindowsSuche starten und Weitere Optionen/ Andere Suchoptionen/Bevorzugte Einstellungen ändern/Indexdienst verwenden anklicken."