Search (51 results, page 1 of 3)

Soulier, L.; Jabeur, L.B.; Tamine, L.; Bahsoun, W.: On ranking relevant entities in heterogeneous networks using a language-based model (2013) 0.04
```
0.03803629 = product of:
  0.15214516 = sum of:
    0.15214516 = weight(_text_:hand in 1664) [ClassicSimilarity], result of:
      0.15214516 = score(doc=1664,freq=4.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.42008662 = fieldWeight in 1664, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0390625 = fieldNorm(doc=1664)
  0.25 = coord(1/4)
```
Abstract

A new challenge, accessing multiple relevant entities, arises from the availability of linked heterogeneous data. In this article, we address more specifically the problem of accessing relevant entities, such as publications and authors within a bibliographic network, given an information need. We propose a novel algorithm, called BibRank, that estimates a joint relevance of documents and authors within a bibliographic network. This model ranks each type of entity using a score propagation algorithm with respect to the query topic and the structure of the underlying bi-type information entity network. Evidence sources, namely content-based and network-based scores, are both used to estimate the topical similarity between connected entities. For this purpose, authorship relationships are analyzed through a language model-based score on the one hand and on the other hand, non topically related entities of the same type are detected through marginal citations. The article reports the results of experiments using the Bibrank algorithm for an information retrieval task. The CiteSeerX bibliographic data set forms the basis for the topical query automatic generation and evaluation. We show that a statistically significant improvement over closely related ranking models is achieved.
Sakai, T.: On the reliability of information retrieval metrics based on graded relevance (2007) 0.03
```
0.03227486 = product of:
  0.12909944 = sum of:
    0.12909944 = weight(_text_:hand in 1910) [ClassicSimilarity], result of:
      0.12909944 = score(doc=1910,freq=2.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.3564553 = fieldWeight in 1910, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.046875 = fieldNorm(doc=1910)
  0.25 = coord(1/4)
```
Abstract

This paper compares 14 information retrieval metrics based on graded relevance, together with 10 traditional metrics based on binary relevance, in terms of stability, sensitivity and resemblance of system rankings. More specifically, we compare these metrics using the Buckley/Voorhees stability method, the Voorhees/Buckley swap method and Kendall's rank correlation, with three data sets comprising test collections and submitted runs from NTCIR. Our experiments show that (Average) Normalised Discounted Cumulative Gain at document cut-off l are the best among the rank-based graded-relevance metrics, provided that l is large. On the other hand, if one requires a recall-based graded-relevance metric that is highly correlated with Average Precision, then Q-measure is the best choice. Moreover, these best graded-relevance metrics are at least as stable and sensitive as Average Precision, and are fairly robust to the choice of gain values.
Efron, M.: Query expansion and dimensionality reduction : Notions of optimality in Rocchio relevance feedback and latent semantic indexing (2008) 0.03
```
0.03227486 = product of:
  0.12909944 = sum of:
    0.12909944 = weight(_text_:hand in 3020) [ClassicSimilarity], result of:
      0.12909944 = score(doc=3020,freq=2.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.3564553 = fieldWeight in 3020, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.046875 = fieldNorm(doc=3020)
  0.25 = coord(1/4)
```
Abstract

Rocchio relevance feedback and latent semantic indexing (LSI) are well-known extensions of the vector space model for information retrieval (IR). This paper analyzes the statistical relationship between these extensions. The analysis focuses on each method's basis in least-squares optimization. Noting that LSI and Rocchio relevance feedback both alter the vector space model in a way that is in some sense least-squares optimal, we ask: what is the relationship between LSI's and Rocchio's notions of optimality? What does this relationship imply for IR? Using an analytical approach, we argue that Rocchio relevance feedback is optimal if we understand retrieval as a simplified classification problem. On the other hand, LSI's motivation comes to the fore if we understand it as a biased regression technique, where projection onto a low-dimensional orthogonal subspace of the documents reduces model variance.
Efron, M.: Linear time series models for term weighting in information retrieval (2010) 0.03
```
0.03227486 = product of:
  0.12909944 = sum of:
    0.12909944 = weight(_text_:hand in 675) [ClassicSimilarity], result of:
      0.12909944 = score(doc=675,freq=2.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.3564553 = fieldWeight in 675, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.046875 = fieldNorm(doc=675)
  0.25 = coord(1/4)
```
Abstract

Common measures of term importance in information retrieval (IR) rely on counts of term frequency; rare terms receive higher weight in document ranking than common terms receive. However, realistic scenarios yield additional information about terms in a collection. Of interest in this article is the temporal behavior of terms as a collection changes over time. We propose capturing each term's collection frequency at discrete time intervals over the lifespan of a corpus and analyzing the resulting time series. We hypothesize the collection frequency of a weakly discriminative term x at time t is predictable by a linear model of the term's prior observations. On the other hand, a linear time series model for a strong discriminators' collection frequency will yield a poor fit to the data. Operationalizing this hypothesis, we induce three time-based measures of term importance and test these against state-of-the-art term weighting models.
Kang, I.-H.; Kim, G.C.: Integration of multiple evidences based on a query type for web search (2004) 0.03
```
0.026895715 = product of:
  0.10758286 = sum of:
    0.10758286 = weight(_text_:hand in 3568) [ClassicSimilarity], result of:
      0.10758286 = score(doc=3568,freq=2.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.29704607 = fieldWeight in 3568, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0390625 = fieldNorm(doc=3568)
  0.25 = coord(1/4)
```
Abstract

The massive and heterogeneous Web exacerbates IR problems and short user queries make them worse. The contents of web pages are not enough to find answer pages. PageRank compensates for the insufficiencies of content information. The content information and PageRank are combined to get better results. However, static combination of multiple evidences may lower the retrieval performance. We have to use different strategies to meet the need of a user. We can classify user queries as three categories according to users' intent, the topic relevance task, the homepage finding task, and the service finding task. In this paper, we present a user query classification method. The difference of distribution, mutual information, the usage rate as anchor texts and the POS information are used for the classification. After we classified a user query, we apply different algorithms and information for the better results. For the topic relevance task, we emphasize the content information, on the other hand, for the homepage finding task, we emphasize the Link information and the URL information. We could get the best performance when our proposed classification method with the OKAPI scoring algorithm was used.
Dang, E.K.F.; Luk, R.W.P.; Allan, J.: Beyond bag-of-words : bigram-enhanced context-dependent term weights (2014) 0.03
```
0.026895715 = product of:
  0.10758286 = sum of:
    0.10758286 = weight(_text_:hand in 2283) [ClassicSimilarity], result of:
      0.10758286 = score(doc=2283,freq=2.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.29704607 = fieldWeight in 2283, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0390625 = fieldNorm(doc=2283)
  0.25 = coord(1/4)
```
Abstract

While term independence is a widely held assumption in most of the established information retrieval approaches, it is clearly not true and various works in the past have investigated a relaxation of the assumption. One approach is to use n-grams in document representation instead of unigrams. However, the majority of early works on n-grams obtained only modest performance improvement. On the other hand, the use of information based on supporting terms or "contexts" of queries has been found to be promising. In particular, recent studies showed that using new context-dependent term weights improved the performance of relevance feedback (RF) retrieval compared with using traditional bag-of-words BM25 term weights. Calculation of the new term weights requires an estimation of the local probability of relevance of each query term occurrence. In previous studies, the estimation of this probability was based on unigrams that occur in the neighborhood of a query term. We explore an integration of the n-gram and context approaches by computing context-dependent term weights based on a mixture of unigrams and bigrams. Extensive experiments are performed using the title queries of the Text Retrieval Conference (TREC)-6, TREC-7, TREC-8, and TREC-2005 collections, for RF with relevance judgment of either the top 10 or top 20 documents of an initial retrieval. We identify some crucial elements needed in the use of bigrams in our methods, such as proper inverse document frequency (IDF) weighting of the bigrams and noise reduction by pruning bigrams with large document frequency values. We show that enhancing context-dependent term weights with bigrams is effective in further improving retrieval performance.
González-Ibáñez, R.; Esparza-Villamán, A.; Vargas-Godoy, J.C.; Shah, C.: ¬A comparison of unimodal and multimodal models for implicit detection of relevance in interactive IR (2019) 0.03
```
0.026895715 = product of:
  0.10758286 = sum of:
    0.10758286 = weight(_text_:hand in 417) [ClassicSimilarity], result of:
      0.10758286 = score(doc=417,freq=2.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.29704607 = fieldWeight in 417, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0390625 = fieldNorm(doc=417)
  0.25 = coord(1/4)
```
Abstract

Implicit detection of relevance has been approached by many during the last decade. From the use of individual measures to the use of multiple features from different sources (multimodality), studies have shown the feasibility to automatically detect whether a document is relevant. Despite promising results, it is not clear yet to what extent multimodality constitutes an effective approach compared to unimodality. In this article, we hypothesize that it is possible to build unimodal models capable of outperforming multimodal models in the detection of perceived relevance. To test this hypothesis, we conducted three experiments to compare unimodal and multimodal classification models built using a combination of 24 features. Our classification experiments showed that a univariate unimodal model based on the left-click feature supports our hypothesis. On the other hand, our prediction experiment suggests that multimodality slightly improves early classification compared to the best unimodal models. Based on our results, we argue that the feasibility for practical applications of state-of-the-art multimodal approaches may be strongly constrained by technology, cultural, ethical, and legal aspects, in which case unimodality may offer a better alternative today for supporting relevance detection in interactive information retrieval systems.
Khoo, C.S.G.; Wan, K.-W.: ¬A simple relevancy-ranking strategy for an interface to Boolean OPACs (2004) 0.03
```
0.0266254 = product of:
  0.1065016 = sum of:
    0.1065016 = weight(_text_:hand in 3509) [ClassicSimilarity], result of:
      0.1065016 = score(doc=3509,freq=4.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.29406062 = fieldWeight in 3509, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.02734375 = fieldNorm(doc=3509)
  0.25 = coord(1/4)
```
Abstract

A relevancy-ranking algorithm for a natural language interface to Boolean online public access catalogs (OPACs) was formulated and compared with that currently used in a knowledge-based search interface called the E-Referencer, being developed by the authors. The algorithm makes use of seven weIl-known ranking criteria: breadth of match, section weighting, proximity of query words, variant word forms (stemming), document frequency, term frequency and document length. The algorithm converts a natural language query into a series of increasingly broader Boolean search statements. In a small experiment with ten subjects in which the algorithm was simulated by hand, the algorithm obtained good results with a mean overall precision of 0.42 and mean average precision of 0.62, representing a 27 percent improvement in precision and 41 percent improvement in average precision compared to the E-Referencer. The usefulness of each step in the algorithm was analyzed and suggestions are made for improving the algorithm.

Content

"Most Web search engines accept natural language queries, perform some kind of fuzzy matching and produce ranked output, displaying first the documents that are most likely to be relevant. On the other hand, most library online public access catalogs (OPACs) an the Web are still Boolean retrieval systems that perform exact matching, and require users to express their search requests precisely in a Boolean search language and to refine their search statements to improve the search results. It is well-documented that users have difficulty searching Boolean OPACs effectively (e.g. Borgman, 1996; Ensor, 1992; Wallace, 1993). One approach to making OPACs easier to use is to develop a natural language search interface that acts as a middleware between the user's Web browser and the OPAC system. The search interface can accept a natural language query from the user and reformulate it as a series of Boolean search statements that are then submitted to the OPAC. The records retrieved by the OPAC are ranked by the search interface before forwarding them to the user's Web browser. The user, then, does not need to interact directly with the Boolean OPAC but with the natural language search interface or search intermediary. The search interface interacts with the OPAC system an the user's behalf. The advantage of this approach is that no modification to the OPAC or library system is required. Furthermore, the search interface can access multiple OPACs, acting as a meta search engine, and integrate search results from various OPACs before sending them to the user. The search interface needs to incorporate a method for converting the user's natural language query into a series of Boolean search statements, and for ranking the OPAC records retrieved. The purpose of this study was to develop a relevancyranking algorithm for a search interface to Boolean OPAC systems. This is part of an on-going effort to develop a knowledge-based search interface to OPACs called the E-Referencer (Khoo et al., 1998, 1999; Poo et al., 2000). E-Referencer v. 2 that has been implemented applies a repertoire of initial search strategies and reformulation strategies to retrieve records from OPACs using the Z39.50 protocol, and also assists users in mapping query keywords to the Library of Congress subject headings."
Dadashkarimia, J.; Shakery, A.; Failia, H.; Zamani, H.: ¬An expectation-maximization algorithm for query translation based on pseudo-relevant documents (2017) 0.02
```
0.021516573 = product of:
  0.08606629 = sum of:
    0.08606629 = weight(_text_:hand in 4296) [ClassicSimilarity], result of:
      0.08606629 = score(doc=4296,freq=2.0), product of:
        0.36217567 = queryWeight, product of:
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.0673551 = queryNorm
        0.23763686 = fieldWeight in 4296, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          5.3771086 = idf(docFreq=557, maxDocs=44421)
          0.03125 = fieldNorm(doc=4296)
  0.25 = coord(1/4)
```
Abstract

Query translation in cross-language information retrieval (CLIR) can be done by employing dictionaries, aligned corpora, or machine translators. Scarcity of aligned corpora for various domains in many language pairs intensifies the importance of dictionary-based CLIR which motivates us to use only a bilingual dictionary and two independent collections in source and target languages for query translation. We exploit pseudo-relevant documents for a given query in the source language and pseudo-relevant documents for a translation of the query in the target language with a proposed expectation-maximization algorithm for improving query translation. The proposed method (called EM4QT) assumes that each target term either is translated from the source pseudo-relevant documents or has come from a noisy collection. Since EM4QT does not directly consider term coherency, which is defined as fluency of the target translation, we investigate a crucial question: can EM4QT be improved using either coherency-based methods or token-to-token translation ones? To address this question, we combine different translation models via simple linear interpolation and a proposed divergence minimization method. Evaluations over four CLEF collections in Persian, French, Spanish, and German indicate that EM4QT significantly outperforms competitive baselines in all the collections. Our experiments also reveal that since EM4QT indirectly considers term coherency, combining the method with coherency-based models cannot significantly improve the retrieval performance. On the other hand, investigating the query-by-query results supports the view that EM4QT usually gives a relatively high weight to one translation and its combination with the proposed token-to-token translation model, which is obtained by running EM4QT for each query term separately, soothes the effect and reaches better results for many queries. Comparing the method with a competitive word-embedding baseline reveals the superiority of the proposed model.
Mandl, T.: Web- und Multimedia-Dokumente : Neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen (2003) 0.02
```
0.017933484 = product of:
  0.07173394 = sum of:
    0.07173394 = weight(_text_:und in 2734) [ClassicSimilarity], result of:
      0.07173394 = score(doc=2734,freq=12.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.48018923 = fieldWeight in 2734, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0625 = fieldNorm(doc=2734)
  0.25 = coord(1/4)
```
Abstract

Die Menge an Daten im Internet steigt weiter rapide an. Damit wächst auch der Bedarf an qualitativ hochwertigen Information Retrieval Diensten zur Orientierung und problemorientierten Suche. Die Entscheidung für die Benutzung oder Beschaffung von Information Retrieval Software erfordert aussagekräftige Evaluierungsergebnisse. Dieser Beitrag stellt neuere Entwicklungen bei der Evaluierung von Information Retrieval Systemen vor und zeigt den Trend zu Spezialisierung und Diversifizierung von Evaluierungsstudien, die den Realitätsgrad derErgebnisse erhöhen. DerSchwerpunkt liegt auf dem Retrieval von Fachtexten, Internet-Seiten und Multimedia-Objekten.

Source

Information - Wissenschaft und Praxis. 54(2003) H.4, S.203-210
Nagelschmidt, M.: Verfahren zur Anfragemodifikation im Information Retrieval (2008) 0.02
```
0.017364021 = product of:
  0.069456086 = sum of:
    0.069456086 = weight(_text_:und in 3774) [ClassicSimilarity], result of:
      0.069456086 = score(doc=3774,freq=20.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.4649412 = fieldWeight in 3774, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=3774)
  0.25 = coord(1/4)
```
Abstract

Für das Modifizieren von Suchanfragen kennt das Information Retrieval vielfältige Möglichkeiten. Nach einer einleitenden Darstellung der Wechselwirkung zwischen Informationsbedarf und Suchanfrage wird eine konzeptuelle und typologische Annäherung an Verfahren zur Anfragemodifikation gegeben. Im Anschluss an eine kurze Charakterisierung des Fakten- und des Information Retrieval, sowie des Vektorraum- und des probabilistischen Modells, werden intellektuelle, automatische und interaktive Modifikationsverfahren vorgestellt. Neben klassischen intellektuellen Verfahren, wie der Blockstrategie und der "Citation Pearl Growing"-Strategie, umfasst die Darstellung der automatischen und interaktiven Verfahren Modifikationsmöglichkeiten auf den Ebenen der Morphologie, der Syntax und der Semantik von Suchtermen. Darüber hinaus werden das Relevance Feedback, der Nutzen informetrischer Analysen und die Idee eines assoziativen Retrievals auf der Basis von Clustering- und terminologischen Techniken, sowie zitationsanalytischen Verfahren verfolgt. Ein Eindruck für die praktischen Gestaltungsmöglichkeiten der behandelten Verfahren soll abschließend durch fünf Anwendungsbeispiele vermittelt werden.
Fuhr, N.: Zur Überwindung der Diskrepanz zwischen Retrievalforschung und -praxis (1990) 0.02
```
0.016370956 = product of:
  0.06548382 = sum of:
    0.06548382 = weight(_text_:und in 6624) [ClassicSimilarity], result of:
      0.06548382 = score(doc=6624,freq=10.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.4383508 = fieldWeight in 6624, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0625 = fieldNorm(doc=6624)
  0.25 = coord(1/4)
```
Abstract

In diesem Beitrag werden einige Forschungsergebnisse des Information Retrieval vorgestellt, die unmittelbar zur Verbesserung der Retrievalqualität für bereits existierende Datenbanken eingesetzt werden können: Linguistische Algorithmen zur Grund- und Stammformreduktion unterstützen die Suche nach Flexions- und Derivationsformen von Suchtermen. Rankingalgorithmen, die Frage- und Dokumentterme gewichten, führen zu signifikant besseren Retrievalergebnissen als beim Booleschen Retrieval. Durch Relevance Feedback können die Retrievalqualität weiter gesteigert und außerdem der Benutzer bei der sukzessiven Modifikation seiner Frageformulierung unterstützt werden. Es wird eine benutzerfreundliche Bedienungsoberfläche für ein System vorgestellt, das auf diesen Konzepten basiert.
Tober, M.; Hennig, L.; Furch, D.: SEO Ranking-Faktoren und Rang-Korrelationen 2014 : Google Deutschland (2014) 0.02
```
0.016370956 = product of:
  0.06548382 = sum of:
    0.06548382 = weight(_text_:und in 2484) [ClassicSimilarity], result of:
      0.06548382 = score(doc=2484,freq=10.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.4383508 = fieldWeight in 2484, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0625 = fieldNorm(doc=2484)
  0.25 = coord(1/4)
```
Abstract

Dieses Whitepaper beschäftigt sich mit der Definition und Bewertung von Faktoren, die eine hohe Rangkorrelation-Koeffizienz mit organischen Suchergebnissen aufweisen und dient dem Zweck der tieferen Analyse von Suchmaschinen-Algorithmen. Die Datenerhebung samt Auswertung bezieht sich auf Ranking-Faktoren für Google-Deutschland im Jahr 2014. Zusätzlich wurden die Korrelationen und Faktoren unter anderem anhand von Durchschnitts- und Medianwerten sowie Entwicklungstendenzen zu den Vorjahren hinsichtlich ihrer Relevanz für vordere Suchergebnis-Positionen interpretiert.
Behnert, C.; Borst, T.: Neue Formen der Relevanz-Sortierung in bibliothekarischen Informationssystemen : das DFG-Projekt LibRank (2015) 0.02
```
0.016370956 = product of:
  0.06548382 = sum of:
    0.06548382 = weight(_text_:und in 392) [ClassicSimilarity], result of:
      0.06548382 = score(doc=392,freq=10.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.4383508 = fieldWeight in 392, product of:
          3.1622777 = tf(freq=10.0), with freq of:
            10.0 = termFreq=10.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0625 = fieldNorm(doc=392)
  0.25 = coord(1/4)
```
Abstract

Das von der DFG geförderte Projekt LibRank erforscht neue Rankingverfahren für bibliothekarische Informationssysteme, die aufbauend auf Erkenntnissen aus dem Bereich Websuche qualitätsinduzierende Faktoren wie z. B. Aktualität, Popularität und Verfügbarkeit von einzelnen Medien berücksichtigen. Die konzipierten Verfahren werden im Kontext eines in den Wirtschaftswissenschaften häufig genutzten Rechercheportals (EconBiz) entwickelt und in einem Testsystem systematisch evaluiert. Es werden Rankingfaktoren, die für den Bibliotheksbereich von besonderem Interesse sind, vorgestellt und exemplarisch Probleme und Herausforderungen aufgezeigt.

Source

Bibliothek: Forschung und Praxis. 39(2015) H.3, S.384-393

Dreßler, H.: Fuzzy Information Retrieval (2008) 0.02

0.01585111 = product of:
  0.06340444 = sum of:
    0.06340444 = weight(_text_:und in 3300) [ClassicSimilarity], result of:
      0.06340444 = score(doc=3300,freq=6.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.42443132 = fieldWeight in 3300, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.078125 = fieldNorm(doc=3300)
  0.25 = coord(1/4)

Abstract: Nach einer Erläuterung der Grundlagen der Fuzzylogik wird das Prinzip der unscharfen Suche dargestellt und die Unterschiede zum herkömmlichen Information Retrieval beschrieben. Am Beispiel der Suche nach Steinen für ein Mauerwerk wird gezeigt, wie eine unscharfe Suche in der D&WFuzzydatenbank erfolgreich durchgeführt werden kann und zu eindeutigen Ergebnissen führt.
Source: Information - Wissenschaft und Praxis. 59(2008) H.6/7, S.351-352

Elsweiler, D.; Kruschwitz, U.: Interaktives Information Retrieval (2023) 0.01
```
0.014642628 = product of:
  0.05857051 = sum of:
    0.05857051 = weight(_text_:und in 1798) [ClassicSimilarity], result of:
      0.05857051 = score(doc=1798,freq=8.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.39207286 = fieldWeight in 1798, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0625 = fieldNorm(doc=1798)
  0.25 = coord(1/4)
```
Abstract

Interaktives Information Retrieval (IIR) zielt darauf ab, die komplexen Interaktionen zwischen Nutzer*innen und Systemen im IR zu verstehen. Es gibt umfangreiche Literatur zu Themen wie der formalen Modellierung des Suchverhaltens, der Simulation der Interaktion, den interaktiven Funktionen zur Unterstützung des Suchprozesses und der Evaluierung interaktiver Suchsysteme. Dabei ist die interaktive Unterstützung nicht allein auf die Suche beschränkt, sondern hat ebenso die Hilfe bei Navigation und Exploration zum Ziel.

Source

Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg
Lanvent, A.: Know-how - Suchverfahren : Intelligente Suchmaschinen erzielen mit assoziativen und linguistischen Verfahren beste Ergebnisse. (2004) 0.01
```
0.0144700175 = product of:
  0.05788007 = sum of:
    0.05788007 = weight(_text_:und in 3988) [ClassicSimilarity], result of:
      0.05788007 = score(doc=3988,freq=20.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.38745102 = fieldWeight in 3988, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0390625 = fieldNorm(doc=3988)
  0.25 = coord(1/4)
```
Content

"Die einfachste Form der Volltextsuche ist die Phrasensuche. Hierbei gilt es, den eingegebenen Text in der exakten Schreibweise in sämtlichen relevanten Dokumenten zu finden. Anhand von Joker-Zeichen wie Stern und Fragezeichen kann der Anwender diese Art der Suche erweitern. Boole'sche Parameter verknüpfen einen, zwei oder mehrere Begriffe zu einem Suchstring. Die häufigsten Parameter lauten UND, ODER und NICHT. So lassen sich auch komplexe Anfragen starten, etwa sollen alle Dokumente gefunden werden, die die Begriffe »Schröder« oder »Schroeder«, aber nicht »Bundeskanzler« enthalten. Kennt der Anwender nicht die exakte Schreibweise oder kommen unterschiedliche Ausprägungen eines Wortes in den gesuchten Dokumenten vor, wie Deklinationen, muss er auf fehlertolerante oder linguistische Verfahren zurückgreifen. Einige Tools wie etwa Dt Search und Findword arbeiten mit Wörterbüchern, die auch Flexionen enthalten. Sucht der Nutzer etwa nach »Baum«, findet das Tool auch »Bäume« oder etwa »Baumstamm«. Bei der phonetischen Suche setzen Programme wie Documind Pro und Findword auf einen Algorithmus, der nach dem ähnlichen Klang der Wörter recherchiert. Solche Verfahren sind demnach sprachenabhängig. Sie nehmen den Suchstring »Meier« zum Anlass, auch »Mayer« oder »Meier« nachzuschlagen. Fuzzy Logic ist ein verwandtes Verfahren, das alternative Schreibweisen oder Tippfehler verzeiht. Dieses Verfahren berücksichtigt auch Abweichungen und stellt dabei fest, dass ein bestimmter Begriff zu einem Wortstamm gehört. Eine solche Methode liefert eine größere Trefferliste und findet bei Eingabe von »Microsoft« auch Dokumente mit »Mircosoft« und »Microaoft«. Die Königsdisziplin ist die Assoziative Suche, die die Recherche nach Eingabe eines beliebigen Satzes in der natürlichen Sprache startet. Das Suchkommando »Die Meistertitel von Borussia Mönchengladbach« findet im Idealfall Texte zu den Themen Fußball, Bundesliga und Netzer."
Effektive Information Retrieval Verfahren in Theorie und Praxis : ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005 (2006) 0.01
```
0.014177665 = product of:
  0.05671066 = sum of:
    0.05671066 = weight(_text_:und in 973) [ClassicSimilarity], result of:
      0.05671066 = score(doc=973,freq=120.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.37962294 = fieldWeight in 973, product of:
          10.954452 = tf(freq=120.0), with freq of:
            120.0 = termFreq=120.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.015625 = fieldNorm(doc=973)
  0.25 = coord(1/4)
```
Abstract

Information Retrieval hat sich zu einer Schlüsseltechnologie in der Wissensgesellschaft entwickelt. Die Anzahl der täglichen Anfragen an Internet-Suchmaschinen bildet nur einen Indikator für die große Bedeutung dieses Themas. Der Sammelbandband informiert über Themen wie Information Retrieval-Grundlagen, Retrieval Systeme, Digitale Bibliotheken, Evaluierung und Multilinguale Systeme, beschreibt Anwendungsszenarien und setzt sich mit neuen Herausforderungen an das Information Retrieval auseinander. Die Beiträge behandeln aktuelle Themen und neue Herausforderungen an das Information Retrieval. Die intensive Beteiligung der Informationswissenschaft der Universität Hildesheim am Cross Language Evaluation Forum (CLEF), einer europäischen Evaluierungsinitiative zur Erforschung mehrsprachiger Retrieval Systeme, berührt mehrere der Beiträge. Ebenso spielen Anwendungsszenarien und die Auseinandersetzung mit aktuellen und praktischen Fragestellungen eine große Rolle.

Content

Inhalt: Jan-Hendrik Scheufen: RECOIN: Modell offener Schnittstellen für Information-Retrieval-Systeme und -Komponenten Markus Nick, Klaus-Dieter Althoff: Designing Maintainable Experience-based Information Systems Gesine Quint, Steffen Weichert: Die benutzerzentrierte Entwicklung des Produkt- Retrieval-Systems EIKON der Blaupunkt GmbH Claus-Peter Klas, Sascha Kriewel, André Schaefer, Gudrun Fischer: Das DAFFODIL System - Strategische Literaturrecherche in Digitalen Bibliotheken Matthias Meiert: Entwicklung eines Modells zur Integration digitaler Dokumente in die Universitätsbibliothek Hildesheim Daniel Harbig, René Schneider: Ontology Learning im Rahmen von MyShelf Michael Kluck, Marco Winter: Topic-Entwicklung und Relevanzbewertung bei GIRT: ein Werkstattbericht Thomas Mandl: Neue Entwicklungen bei den Evaluierungsinitiativen im Information Retrieval Joachim Pfister: Clustering von Patent-Dokumenten am Beispiel der Datenbanken des Fachinformationszentrums Karlsruhe Ralph Kölle, Glenn Langemeier, Wolfgang Semar: Programmieren lernen in kollaborativen Lernumgebungen Olga Tartakovski, Margaryta Shramko: Implementierung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten Nina Kummer: Indexierungstechniken für das japanische Retrieval Suriya Na Nhongkai, Hans-Joachim Bentz: Bilinguale Suche mittels Konzeptnetzen Robert Strötgen, Thomas Mandl, René Schneider: Entwicklung und Evaluierung eines Question Answering Systems im Rahmen des Cross Language Evaluation Forum (CLEF) Niels Jensen: Evaluierung von mehrsprachigem Web-Retrieval: Experimente mit dem EuroGOV-Korpus im Rahmen des Cross Language Evaluation Forum (CLEF)

Footnote

Rez. in: Information - Wissenschaft und Praxis 57(2006) H.5, S.290-291 (C. Schindler): "Weniger als ein Jahr nach dem "Vierten Hildesheimer Evaluierungs- und Retrievalworkshop" (HIER 2005) im Juli 2005 ist der dazugehörige Tagungsband erschienen. Eingeladen hatte die Hildesheimer Informationswissenschaft um ihre Forschungsergebnisse und die einiger externer Experten zum Thema Information Retrieval einem Fachpublikum zu präsentieren und zur Diskussion zu stellen. Unter dem Titel "Effektive Information Retrieval Verfahren in Theorie und Praxis" sind nahezu sämtliche Beiträge des Workshops in dem nun erschienenen, 15 Beiträge umfassenden Band gesammelt. Mit dem Schwerpunkt Information Retrieval (IR) wird ein Teilgebiet der Informationswissenschaft vorgestellt, das schon immer im Zentrum informationswissenschaftlicher Forschung steht. Ob durch den Leistungsanstieg von Prozessoren und Speichermedien, durch die Verbreitung des Internet über nationale Grenzen hinweg oder durch den stetigen Anstieg der Wissensproduktion, festzuhalten ist, dass in einer zunehmend wechselseitig vernetzten Welt die Orientierung und das Auffinden von Dokumenten in großen Wissensbeständen zu einer zentralen Herausforderung geworden sind. Aktuelle Verfahrensweisen zu diesem Thema, dem Information Retrieval, präsentiert der neue Band anhand von praxisbezogenen Projekten und theoretischen Diskussionen. Das Kernthema Information Retrieval wird in dem Sammelband in die Bereiche Retrieval-Systeme, Digitale Bibliothek, Evaluierung und Multilinguale Systeme untergliedert. Die Artikel der einzelnen Sektionen sind insgesamt recht heterogen und bieten daher keine Überschneidungen inhaltlicher Art. Jedoch ist eine vollkommene thematische Abdeckung der unterschiedlichen Bereiche ebenfalls nicht gegeben, was bei der Präsentation von Forschungsergebnissen eines Institutes und seiner Kooperationspartner auch nur bedingt erwartet werden kann. So lässt sich sowohl in der Gliederung als auch in den einzelnen Beiträgen eine thematische Verdichtung erkennen, die das spezielle Profil und die Besonderheit der Hildesheimer Informationswissenschaft im Feld des Information Retrieval wiedergibt. Teil davon ist die mehrsprachige und interdisziplinäre Ausrichtung, die die Schnittstellen zwischen Informationswissenschaft, Sprachwissenschaft und Informatik in ihrer praxisbezogenen und internationalen Forschung fokussiert.
Im ersten Kapitel "Retrieval-Systeme" werden verschiedene Information RetrievalSysteme präsentiert und Verfahren zu deren Gestaltung diskutiert. Jan-Hendrik Scheufen stellt das Meta-Framework RECOIN zur Information Retrieval Forschung vor, das sich durch eine flexible Handhabung unterschiedlichster Applikationen auszeichnet und dadurch eine zentrierte Protokollierung und Steuerung von Retrieval-Prozessen ermöglicht. Dieses Konzept eines offenen, komponentenbasierten Systems wurde in Form eines Plug-Ins für die javabasierte Open-Source-Plattform Eclipse realisiert. Markus Nick und Klaus-Dieter Althoff erläutern in ihrem Beitrag, der übrigens der einzige englischsprachige Text im Buch ist, das Verfahren DILLEBIS zur Erhaltung und Pflege (Maintenance) von erfahrungsbasierten Informationssystemen. Sie bezeichnen dieses Verfahren als Maintainable Experience-based Information System und plädieren für eine Ausrichtung von erfahrungsbasierten Systemen entsprechend diesem Modell. Gesine Quint und Steffen Weichert stellen dagegen in ihrem Beitrag die benutzerzentrierte Entwicklung des Produkt-Retrieval-Systems EIKON vor, das in Kooperation mit der Blaupunkt GmbH realisiert wurde. In einem iterativen Designzyklus erfolgte die Gestaltung von gruppenspezifischen Interaktionsmöglichkeiten für ein Car-Multimedia-Zubehör-System. Im zweiten Kapitel setzen sich mehrere Autoren dezidierter mit dem Anwendungsgebiet "Digitale Bibliothek" auseinander. Claus-Peter Klas, Sascha Kriewel, Andre Schaefer und Gudrun Fischer von der Universität Duisburg-Essen stellen das System DAFFODIL vor, das durch eine Vielzahl an Werkzeugen zur strategischen Unterstützung bei Literaturrecherchen in digitalen Bibliotheken dient. Zusätzlich ermöglicht die Protokollierung sämtlicher Ereignisse den Einsatz des Systems als Evaluationsplattform. Der Aufsatz von Matthias Meiert erläutert die Implementierung von elektronischen Publikationsprozessen an Hochschulen am Beispiel von Abschlussarbeiten des Studienganges Internationales Informationsmanagement der Universität Hildesheim. Neben Rahmenbedingungen werden sowohl der Ist-Zustand als auch der Soll-Zustand des wissenschaftlichen elektronischen Publizierens in Form von gruppenspezifischen Empfehlungen dargestellt. Daniel Harbig und Rene Schneider beschreiben in ihrem Aufsatz zwei Verfahrensweisen zum maschinellen Erlernen von Ontologien, angewandt am virtuellen Bibliotheksregal MyShelf. Nach der Evaluation dieser beiden Ansätze plädieren die Autoren für ein semi-automatisiertes Verfahren zur Erstellung von Ontologien.
"Evaluierung", das Thema des dritten Kapitels, ist in seiner Breite nicht auf das Information Retrieval beschränkt sondern beinhaltet ebenso einzelne Aspekte der Bereiche Mensch-Maschine-Interaktion sowie des E-Learning. Michael Muck und Marco Winter von der Stiftung Wissenschaft und Politik sowie dem Informationszentrum Sozialwissenschaften thematisieren in ihrem Beitrag den Einfluss der Fragestellung (Topic) auf die Bewertung von Relevanz und zeigen Verfahrensweisen für die Topic-Erstellung auf, die beim Cross Language Evaluation Forum (CLEF) Anwendung finden. Im darauf folgenden Aufsatz stellt Thomas Mandl verschiedene Evaluierungsinitiativen im Information Retrieval und aktuelle Entwicklungen dar. Joachim Pfister erläutert in seinem Beitrag das automatisierte Gruppieren, das sogenannte Clustering, von Patent-Dokumenten in den Datenbanken des Fachinformationszentrums Karlsruhe und evaluiert unterschiedliche Clusterverfahren auf Basis von Nutzerbewertungen. Ralph Kölle, Glenn Langemeier und Wolfgang Semar widmen sich dem kollaborativen Lernen unter den speziellen Bedingungen des Programmierens. Dabei werden das System VitaminL zur synchronen Bearbeitung von Programmieraufgaben und das Kennzahlensystem K-3 für die Bewertung kollaborativer Zusammenarbeit in einer Lehrveranstaltung angewendet. Der aktuelle Forschungsschwerpunkt der Hildesheimer Informationswissenschaft zeichnet sich im vierten Kapitel unter dem Thema "Multilinguale Systeme" ab. Hier finden sich die meisten Beiträge des Tagungsbandes wieder. Olga Tartakovski und Margaryta Shramko beschreiben und prüfen das System Langldent, das die Sprache von mono- und multilingualen Texten identifiziert. Die Eigenheiten der japanischen Schriftzeichen stellt Nina Kummer dar und vergleicht experimentell die unterschiedlichen Techniken der Indexierung. Suriya Na Nhongkai und Hans-Joachim Bentz präsentieren und prüfen eine bilinguale Suche auf Basis von Konzeptnetzen, wobei die Konzeptstruktur das verbindende Elemente der beiden Textsammlungen darstellt. Das Entwickeln und Evaluieren eines mehrsprachigen Question-Answering-Systems im Rahmen des Cross Language Evaluation Forum (CLEF), das die alltagssprachliche Formulierung von konkreten Fragestellungen ermöglicht, wird im Beitrag von Robert Strötgen, Thomas Mandl und Rene Schneider thematisiert. Den Schluss bildet der Aufsatz von Niels Jensen, der ein mehrsprachiges Web-Retrieval-System ebenfalls im Zusammenhang mit dem CLEF anhand des multilingualen EuroGOVKorpus evaluiert.
Abschließend lässt sich sagen, dass der Tagungsband einen gelungenen Überblick über die Information Retrieval Projekte der Hildesheimer Informationswissenschaft und ihrer Kooperationspartner gibt. Die einzelnen Beiträge sind sehr anregend und auf einem hohen Niveau angesiedelt. Ein kleines Hindernis für den Leser stellt die inhaltliche und strukturelle Orientierung innerhalb des Bandes dar. Der Bezug der einzelnen Artikel zum Thema des Kapitels wird zwar im Vorwort kurz erläutert. Erschwert wird die Orientierung im Buch jedoch durch fehlende Kapitelüberschriften am Anfang der einzelnen Sektionen. Außerdem ist zu erwähnen, dass einer der Artikel einen anderen Titel als im Inhaltsverzeichnis angekündigt trägt. Sieht der Leser von diesen formalen Mängeln ab, wird er reichlich mit praxisbezogenen und theoretisch fundierten Projektdarstellungen und Forschungsergebnissen belohnt. Dies insbesondere, da nicht nur aktuelle Themen der Informationswissenschaft aufgegriffen, sondern ebenso weiterentwickelt und durch die speziellen interdisziplinären und internationalen Bedingungen in Hildesheim geformt werden. Dabei zeigt sich anhand der verschiedenen Projekte, wie gut die Hildesheimer Informationswissenschaft in die Community überregionaler Informationseinrichtungen und anderer deutscher informationswissenschaftlicher Forschungsgruppen eingebunden ist. Damit hat der Workshop bei einer weiteren Öffnung der Expertengruppe das Potential zu einer eigenständigen Institution im Bereich des Information Retrieval zu werden. In diesem Sinne lässt sich auf weitere fruchtbare Workshops und deren Veröffentlichungen hoffen. Ein nächster Workshop der Universität Hildesheim zum Thema Information Retrieval, organisiert mit der Fachgruppe Information Retrieval der Gesellschaft für Informatik, kündigt sich bereits für den 9. bis 13- Oktober 2006 an."
Lanvent, A.: Praxis - Windows-Suche und Indexdienst : Auch Windows kann bei der Suche den Turbo einlegen: mit dem Indexdienst (2004) 0.01
```
0.013727463 = product of:
  0.05490985 = sum of:
    0.05490985 = weight(_text_:und in 4316) [ClassicSimilarity], result of:
      0.05490985 = score(doc=4316,freq=18.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.36756828 = fieldWeight in 4316, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0390625 = fieldNorm(doc=4316)
  0.25 = coord(1/4)
```
Content

"Für eine 4-GByte-Festplatte mit mehreren Partitionen sucht Windows XP im Volltextmodus weit über zwei Stunden. Der Indexdienst verkürzt diese Recherchedauer drastisch um mehr als eine Stunde. Im Gegensatz zu den Indizes der kommerziellen Suchwerkzeuge erfasst der Windows-Indexdienst nur Text-, HTML- und OfficeDateien über entsprechend integrierte Dokumentfilter. Da er weder ZIP-Files noch PDFs erkennt und auch keine E-Mails scannt, ist er mit komplexen Anfragen schnell überfordert. Standardmäßig ist der Indexdienst zwar installiert, aber nicht aktiviert. Das erledigt der Anwender über Start/Arbeitsplatz und den Befehl Verwalten aus dem Kontextmenü. In der Computerverwaltung aktiviert der Benutzer den Eintrag Indexdienst und wählt Starten aus dem Kontextmenü. Die zu indizierenden Elemente verwaltet Windows über so genannte Kataloge, mit deren Hilfe der User bestimmt, welche Dateitypen aus welchen Ordnern indiziert werden sollen. Zwar kann der Anwender neben dem Katalog System weitere Kataloge einrichten. Ausreichend ist es aber in den meisten Fällen, dem Katalog System weitere Indizierungsordner über die Befehle Neu/Verzeichnis hinzuzufügen. Klickt der Benutzer dann einen der Indizierungsordner mit der rechten Maustaste an und wählt Alle Tasks/Erneut prüfen (Vollständig), beginnt der mitunter langwierige Indizierungsprozess. Über den Eigenschaften-Dialog lässt sich allerdings der Leistungsverbrauch drosseln. Eine inkrementelle Indizierung, bei der Windows nur neue Elemente im jeweiligen Verzeichnis unter die Lupe nimmt, erreicht der Nutzer über Alle Tasks/Erneut prüfen (inkrementell). Einschalten lässt sich der Indexdienst auch über die Eigenschaften eines Ordners und den Befehl Erweitert/ln-halt für schnelle Dateisuche indizieren. Auskunft über die dem Indexdienst zugeordneten Ordner und Laufwerke erhalten Sie, wenn Sie die WindowsSuche starten und Weitere Optionen/ Andere Suchoptionen/Bevorzugte Einstellungen ändern/Indexdienst verwenden anklicken."
Fichtner, K.: Boyer-Moore Suchalgorithmus (2005) 0.01
```
0.013450113 = product of:
  0.053800453 = sum of:
    0.053800453 = weight(_text_:und in 989) [ClassicSimilarity], result of:
      0.053800453 = score(doc=989,freq=12.0), product of:
        0.14938681 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0673551 = queryNorm
        0.36014193 = fieldWeight in 989, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=989)
  0.25 = coord(1/4)
```
Abstract

Die Masse der Suchalgorithmen lässt sich in zwei grundlegend verschiedene Teilbereiche untergliedern. Auf der einen Seite stehen Algorithmen, die auf komplexen Datenstrukturen (häufig baumartig) ganze Datensätze unter Verwendung eines Indizes finden. Als geläufiger Vertreter sei hier die binäre Suche auf sortierten Arrays oder in binären Bäumen genannt. Die andere Gruppe, der sich diese Ausarbeitung widmet, dient dazu, Entsprechungen von Mustern in gegebenen Zeichenketten zu finden. Auf den folgenden Seiten werden nun zunächst einige Begriffe eingeführt, die für das weitere Verständnis und einen Vergleich verschiedener Suchalgorithmen nötig sind. Weiterhin wird ein naiver Suchalgorithmus dargestellt und mit der Idee von Boyer und Moore verglichen. Hierzu wird ihr Algorithmus zunächst informal beschrieben, dann mit Blick auf eine Implementation näher erläutert und anschließend einer Effizienzanalyse - sowohl empirisch als auch theoretisch - unterzogen. Abschließend findet eine kurze Bewertung mit Bezug auf Schwachstellen, Vorzüge und Verbesserungsmöglichkeiten statt, im Zuge derer einige prominente Modifikationen des Boyer-Moore Algorithmus vorgestellt werden.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/KristoferFichtner.pdf

Search (51 results, page 1 of 3)

Authors

Years

Languages

Types

Themes

Subjects

Classifications