Search (91 results, page 3 of 5)

Tsai, C.-F.; Hu, Y.-H.; Chen, Z.-Y.: Factors affecting rocchio-based pseudorelevance feedback in image retrieval (2015) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 2607) [ClassicSimilarity], result of:
      0.06594159 = score(doc=2607,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 2607, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=2607)
  0.25 = coord(1/4)
```
Abstract

Pseudorelevance feedback (PRF) was proposed to solve the limitation of relevance feedback (RF), which is based on the user-in-the-loop process. In PRF, the top-k retrieved images are regarded as PRF. Although the PRF set contains noise, PRF has proven effective for automatically improving the overall retrieval result. To implement PRF, the Rocchio algorithm has been considered as a reasonable and well-established baseline. However, the performance of Rocchio-based PRF is subject to various representation choices (or factors). In this article, we examine these factors that affect the performance of Rocchio-based PRF, including image-feature representation, the number of top-ranked images, the weighting parameters of Rocchio, and similarity measure. We offer practical insights on how to optimize the performance of Rocchio-based PRF by choosing appropriate representation choices. Our extensive experiments on NUS-WIDE-LITE and Caltech 101 + Corel 5000 data sets show that the optimal feature representation is color moment + wavelet texture in terms of retrieval efficiency and effectiveness. Other representation choices are that using top-20 ranked images as pseudopositive and pseudonegative feedback sets with the equal weight (i.e., 0.5) by the correlation and cosine distance functions can produce the optimal retrieval result.
Bhansali, D.; Desai, H.; Deulkar, K.: ¬A study of different ranking approaches for semantic search (2015) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 3696) [ClassicSimilarity], result of:
      0.06594159 = score(doc=3696,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 3696, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=3696)
  0.25 = coord(1/4)
```
Abstract

Search Engines have become an integral part of our day to day life. Our reliance on search engines increases with every passing day. With the amount of data available on Internet increasing exponentially, it becomes important to develop new methods and tools that help to return results relevant to the queries and reduce the time spent on searching. The results should be diverse but at the same time should return results focused on the queries asked. Relation Based Page Rank [4] algorithms are considered to be the next frontier in improvement of Semantic Web Search. The probability of finding relevance in the search results as posited by the user while entering the query is used to measure the relevance. However, its application is limited by the complexity of determining relation between the terms and assigning explicit meaning to each term. Trust Rank is one of the most widely used ranking algorithms for semantic web search. Few other ranking algorithms like HITS algorithm, PageRank algorithm are also used for Semantic Web Searching. In this paper, we will provide a comparison of few ranking approaches.
Liu, X.; Zheng, W.; Fang, H.: ¬An exploration of ranking models and feedback method for related entity finding (2013) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 3714) [ClassicSimilarity], result of:
      0.06594159 = score(doc=3714,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 3714, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=3714)
  0.25 = coord(1/4)
```
Abstract

Most existing search engines focus on document retrieval. However, information needs are certainly not limited to finding relevant documents. Instead, a user may want to find relevant entities such as persons and organizations. In this paper, we study the problem of related entity finding. Our goal is to rank entities based on their relevance to a structured query, which specifies an input entity, the type of related entities and the relation between the input and related entities. We first discuss a general probabilistic framework, derive six possible retrieval models to rank the related entities, and then compare these models both analytically and empirically. To further improve performance, we study the problem of feedback in the context of related entity finding. Specifically, we propose a mixture model based feedback method that can utilize the pseudo feedback entities to estimate an enriched model for the relation between the input and related entities. Experimental results over two standard TREC collections show that the derived relation generation model combined with a relation feedback method performs better than other models.
Ye, Z.; Huang, J.X.: ¬A learning to rank approach for quality-aware pseudo-relevance feedback (2016) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 3855) [ClassicSimilarity], result of:
      0.06594159 = score(doc=3855,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 3855, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=3855)
  0.25 = coord(1/4)
```
Abstract

Pseudo relevance feedback (PRF) has shown to be effective in ad hoc information retrieval. In traditional PRF methods, top-ranked documents are all assumed to be relevant and therefore treated equally in the feedback process. However, the performance gain brought by each document is different as showed in our preliminary experiments. Thus, it is more reasonable to predict the performance gain brought by each candidate feedback document in the process of PRF. We define the quality level (QL) and then use this information to adjust the weights of feedback terms in these documents. Unlike previous work, we do not make any explicit relevance assumption and we go beyond just selecting "good" documents for PRF. We propose a quality-based PRF framework, in which two quality-based assumptions are introduced. Particularly, two different strategies, relevance-based QL (RelPRF) and improvement-based QL (ImpPRF) are presented to estimate the QL of each feedback document. Based on this, we select a set of heterogeneous document-level features and apply a learning approach to evaluate the QL of each feedback document. Extensive experiments on standard TREC (Text REtrieval Conference) test collections show that our proposed model performs robustly and outperforms strong baselines significantly.
Xu, B.; Lin, H.; Lin, Y.: Assessment of learning to rank methods for query expansion (2016) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 3929) [ClassicSimilarity], result of:
      0.06594159 = score(doc=3929,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 3929, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=3929)
  0.25 = coord(1/4)
```
Abstract

Pseudo relevance feedback, as an effective query expansion method, can significantly improve information retrieval performance. However, the method may negatively impact the retrieval performance when some irrelevant terms are used in the expanded query. Therefore, it is necessary to refine the expansion terms. Learning to rank methods have proven effective in information retrieval to solve ranking problems by ranking the most relevant documents at the top of the returned list, but few attempts have been made to employ learning to rank methods for term refinement in pseudo relevance feedback. This article proposes a novel framework to explore the feasibility of using learning to rank to optimize pseudo relevance feedback by means of reranking the candidate expansion terms. We investigate some learning approaches to choose the candidate terms and introduce some state-of-the-art learning to rank methods to refine the expansion terms. In addition, we propose two term labeling strategies and examine the usefulness of various term features to optimize the framework. Experimental results with three TREC collections show that our framework can effectively improve retrieval performance.
Jiang, X.; Sun, X.; Yang, Z.; Zhuge, H.; Lapshinova-Koltunski, E.; Yao, J.: Exploiting heterogeneous scientific literature networks to combat ranking bias : evidence from the computational linguistics area (2016) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 4017) [ClassicSimilarity], result of:
      0.06594159 = score(doc=4017,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 4017, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=4017)
  0.25 = coord(1/4)
```
Abstract

It is important to help researchers find valuable papers from a large literature collection. To this end, many graph-based ranking algorithms have been proposed. However, most of these algorithms suffer from the problem of ranking bias. Ranking bias hurts the usefulness of a ranking algorithm because it returns a ranking list with an undesirable time distribution. This paper is a focused study on how to alleviate ranking bias by leveraging the heterogeneous network structure of the literature collection. We propose a new graph-based ranking algorithm, MutualRank, that integrates mutual reinforcement relationships among networks of papers, researchers, and venues to achieve a more synthetic, accurate, and less-biased ranking than previous methods. MutualRank provides a unified model that involves both intra- and inter-network information for ranking papers, researchers, and venues simultaneously. We use the ACL Anthology Network as the benchmark data set and construct the gold standard from computer linguistics course websites of well-known universities and two well-known textbooks. The experimental results show that MutualRank greatly outperforms the state-of-the-art competitors, including PageRank, HITS, CoRank, Future Rank, and P-Rank, in ranking papers in both improving ranking effectiveness and alleviating ranking bias. Rankings of researchers and venues by MutualRank are also quite reasonable.
Zhu, J.; Han, L.; Gou, Z.; Yuan, X.: ¬A fuzzy clustering-based denoising model for evaluating uncertainty in collaborative filtering recommender systems (2018) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 460) [ClassicSimilarity], result of:
      0.06594159 = score(doc=460,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 460, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=460)
  0.25 = coord(1/4)
```
Abstract

Recommender systems are effective in predicting the most suitable products for users, such as movies and books. To facilitate personalized recommendations, the quality of item ratings should be guaranteed. However, a few ratings might not be accurate enough due to the uncertainty of user behavior and are referred to as natural noise. In this article, we present a novel fuzzy clustering-based method for detecting noisy ratings. The entropy of a subset of the original ratings dataset is used to indicate the data-driven uncertainty, and evaluation metrics are adopted to represent the prediction-driven uncertainty. After the repetition of resampling and the execution of a recommendation algorithm, the entropy and evaluation metrics vectors are obtained and are empirically categorized to identify the proportion of the potential noise. Then, the fuzzy C-means-based denoising (FCMD) algorithm is performed to verify the natural noise under the assumption that natural noise is primarily the result of the exceptional behavior of users. Finally, a case study is performed using two real-world datasets. The experimental results show that our proposal outperforms previous proposals and has an advantage in dealing with natural noise.
Jacucci, G.; Barral, O.; Daee, P.; Wenzel, M.; Serim, B.; Ruotsalo, T.; Pluchino, P.; Freeman, J.; Gamberini, L.; Kaski, S.; Blankertz, B.: Integrating neurophysiologic relevance feedback in intent modeling for information retrieval (2019) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 356) [ClassicSimilarity], result of:
      0.06594159 = score(doc=356,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 356, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=356)
  0.25 = coord(1/4)
```
Abstract

The use of implicit relevance feedback from neurophysiology could deliver effortless information retrieval. However, both computing neurophysiologic responses and retrieving documents are characterized by uncertainty because of noisy signals and incomplete or inconsistent representations of the data. We present the first-of-its-kind, fully integrated information retrieval system that makes use of online implicit relevance feedback generated from brain activity as measured through electroencephalography (EEG), and eye movements. The findings of the evaluation experiment (N = 16) show that we are able to compute online neurophysiology-based relevance feedback with performance significantly better than chance in complex data domains and realistic search tasks. We contribute by demonstrating how to integrate in interactive intent modeling this inherently noisy implicit relevance feedback combined with scarce explicit feedback. Although experimental measures of task performance did not allow us to demonstrate how the classification outcomes translated into search task performance, the experiment proved that our approach is able to generate relevance feedback from brain signals and eye movements in a realistic scenario, thus providing promising implications for future work in neuroadaptive information retrieval (IR).
Pan, M.; Huang, J.X.; He, T.; Mao, Z.; Ying, Z.; Tu, X.: ¬A simple kernel co-occurrence-based enhancement for pseudo-relevance feedback (2020) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 678) [ClassicSimilarity], result of:
      0.06594159 = score(doc=678,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 678, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=678)
  0.25 = coord(1/4)
```
Abstract

Pseudo-relevance feedback is a well-studied query expansion technique in which it is assumed that the top-ranked documents in an initial set of retrieval results are relevant and expansion terms are then extracted from those documents. When selecting expansion terms, most traditional models do not simultaneously consider term frequency and the co-occurrence relationships between candidate terms and query terms. Intuitively, however, a term that has a higher co-occurrence with a query term is more likely to be related to the query topic. In this article, we propose a kernel co-occurrence-based framework to enhance retrieval performance by integrating term co-occurrence information into the Rocchio model and a relevance language model (RM3). Specifically, a kernel co-occurrence-based Rocchio method (KRoc) and a kernel co-occurrence-based RM3 method (KRM3) are proposed. In our framework, co-occurrence information is incorporated into both the factor of the term discrimination power and the factor of the within-document term weight to boost retrieval performance. The results of a series of experiments show that our proposed methods significantly outperform the corresponding strong baselines over all data sets in terms of the mean average precision and over most data sets in terms of P@10. A direct comparison of standard Text Retrieval Conference data sets indicates that our proposed methods are at least comparable to state-of-the-art approaches.
Krasakis, A.M.; Yates, A.; Kanoulas, E.: Corpus-informed Retrieval Augmented Generation of Clarifying Questions (2024) 0.02
```
0.016485397 = product of:
  0.06594159 = sum of:
    0.06594159 = weight(_text_:however in 2369) [ClassicSimilarity], result of:
      0.06594159 = score(doc=2369,freq=2.0), product of:
        0.28742972 = queryWeight, product of:
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.06921162 = queryNorm
        0.22941813 = fieldWeight in 2369, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          4.1529117 = idf(docFreq=1897, maxDocs=44421)
          0.0390625 = fieldNorm(doc=2369)
  0.25 = coord(1/4)
```
Abstract

This study aims to develop models that generate corpus informed clarifying questions for web search, in a way that ensures the questions align with the available information in the retrieval corpus. We demonstrate the effectiveness of Retrieval Augmented Language Models (RAG) in this process, emphasising their ability to (i) jointly model the user query and retrieval corpus to pinpoint the uncertainty and ask for clarifications end-to-end and (ii) model more evidence documents, which can be used towards increasing the breadth of the questions asked. However, we observe that in current datasets search intents are largely unsupported by the corpus, which is problematic both for training and evaluation. This causes question generation models to ``hallucinate'', ie. suggest intents that are not in the corpus, which can have detrimental effects in performance. To address this, we propose dataset augmentation methods that align the ground truth clarifications with the retrieval corpus. Additionally, we explore techniques to enhance the relevance of the evidence pool during inference, but find that identifying ground truth intents within the corpus remains challenging. Our analysis suggests that this challenge is partly due to the bias of current datasets towards clarification taxonomies and calls for data that can support generating corpus-informed clarifications.

Dreßler, H.: Fuzzy Information Retrieval (2008) 0.02

0.016288018 = product of:
  0.06515207 = sum of:
    0.06515207 = weight(_text_:und in 3300) [ClassicSimilarity], result of:
      0.06515207 = score(doc=3300,freq=6.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.42443132 = fieldWeight in 3300, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.078125 = fieldNorm(doc=3300)
  0.25 = coord(1/4)

Abstract: Nach einer Erläuterung der Grundlagen der Fuzzylogik wird das Prinzip der unscharfen Suche dargestellt und die Unterschiede zum herkömmlichen Information Retrieval beschrieben. Am Beispiel der Suche nach Steinen für ein Mauerwerk wird gezeigt, wie eine unscharfe Suche in der D&WFuzzydatenbank erfolgreich durchgeführt werden kann und zu eindeutigen Ergebnissen führt.
Source: Information - Wissenschaft und Praxis. 59(2008) H.6/7, S.351-352

Elsweiler, D.; Kruschwitz, U.: Interaktives Information Retrieval (2023) 0.02
```
0.015046226 = product of:
  0.060184903 = sum of:
    0.060184903 = weight(_text_:und in 1798) [ClassicSimilarity], result of:
      0.060184903 = score(doc=1798,freq=8.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.39207286 = fieldWeight in 1798, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0625 = fieldNorm(doc=1798)
  0.25 = coord(1/4)
```
Abstract

Interaktives Information Retrieval (IIR) zielt darauf ab, die komplexen Interaktionen zwischen Nutzer*innen und Systemen im IR zu verstehen. Es gibt umfangreiche Literatur zu Themen wie der formalen Modellierung des Suchverhaltens, der Simulation der Interaktion, den interaktiven Funktionen zur Unterstützung des Suchprozesses und der Evaluierung interaktiver Suchsysteme. Dabei ist die interaktive Unterstützung nicht allein auf die Suche beschränkt, sondern hat ebenso die Hilfe bei Navigation und Exploration zum Ziel.

Source

Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg
Lanvent, A.: Know-how - Suchverfahren : Intelligente Suchmaschinen erzielen mit assoziativen und linguistischen Verfahren beste Ergebnisse. (2004) 0.01
```
0.014868858 = product of:
  0.059475433 = sum of:
    0.059475433 = weight(_text_:und in 3988) [ClassicSimilarity], result of:
      0.059475433 = score(doc=3988,freq=20.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.38745102 = fieldWeight in 3988, product of:
          4.472136 = tf(freq=20.0), with freq of:
            20.0 = termFreq=20.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0390625 = fieldNorm(doc=3988)
  0.25 = coord(1/4)
```
Content

"Die einfachste Form der Volltextsuche ist die Phrasensuche. Hierbei gilt es, den eingegebenen Text in der exakten Schreibweise in sämtlichen relevanten Dokumenten zu finden. Anhand von Joker-Zeichen wie Stern und Fragezeichen kann der Anwender diese Art der Suche erweitern. Boole'sche Parameter verknüpfen einen, zwei oder mehrere Begriffe zu einem Suchstring. Die häufigsten Parameter lauten UND, ODER und NICHT. So lassen sich auch komplexe Anfragen starten, etwa sollen alle Dokumente gefunden werden, die die Begriffe »Schröder« oder »Schroeder«, aber nicht »Bundeskanzler« enthalten. Kennt der Anwender nicht die exakte Schreibweise oder kommen unterschiedliche Ausprägungen eines Wortes in den gesuchten Dokumenten vor, wie Deklinationen, muss er auf fehlertolerante oder linguistische Verfahren zurückgreifen. Einige Tools wie etwa Dt Search und Findword arbeiten mit Wörterbüchern, die auch Flexionen enthalten. Sucht der Nutzer etwa nach »Baum«, findet das Tool auch »Bäume« oder etwa »Baumstamm«. Bei der phonetischen Suche setzen Programme wie Documind Pro und Findword auf einen Algorithmus, der nach dem ähnlichen Klang der Wörter recherchiert. Solche Verfahren sind demnach sprachenabhängig. Sie nehmen den Suchstring »Meier« zum Anlass, auch »Mayer« oder »Meier« nachzuschlagen. Fuzzy Logic ist ein verwandtes Verfahren, das alternative Schreibweisen oder Tippfehler verzeiht. Dieses Verfahren berücksichtigt auch Abweichungen und stellt dabei fest, dass ein bestimmter Begriff zu einem Wortstamm gehört. Eine solche Methode liefert eine größere Trefferliste und findet bei Eingabe von »Microsoft« auch Dokumente mit »Mircosoft« und »Microaoft«. Die Königsdisziplin ist die Assoziative Suche, die die Recherche nach Eingabe eines beliebigen Satzes in der natürlichen Sprache startet. Das Suchkommando »Die Meistertitel von Borussia Mönchengladbach« findet im Idealfall Texte zu den Themen Fußball, Bundesliga und Netzer."
Effektive Information Retrieval Verfahren in Theorie und Praxis : ausgewählte und erweiterte Beiträge des Vierten Hildesheimer Evaluierungs- und Retrievalworkshop (HIER 2005), Hildesheim, 20.7.2005 (2006) 0.01
```
0.014568446 = product of:
  0.058273785 = sum of:
    0.058273785 = weight(_text_:und in 973) [ClassicSimilarity], result of:
      0.058273785 = score(doc=973,freq=120.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.37962294 = fieldWeight in 973, product of:
          10.954452 = tf(freq=120.0), with freq of:
            120.0 = termFreq=120.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.015625 = fieldNorm(doc=973)
  0.25 = coord(1/4)
```
Abstract

Information Retrieval hat sich zu einer Schlüsseltechnologie in der Wissensgesellschaft entwickelt. Die Anzahl der täglichen Anfragen an Internet-Suchmaschinen bildet nur einen Indikator für die große Bedeutung dieses Themas. Der Sammelbandband informiert über Themen wie Information Retrieval-Grundlagen, Retrieval Systeme, Digitale Bibliotheken, Evaluierung und Multilinguale Systeme, beschreibt Anwendungsszenarien und setzt sich mit neuen Herausforderungen an das Information Retrieval auseinander. Die Beiträge behandeln aktuelle Themen und neue Herausforderungen an das Information Retrieval. Die intensive Beteiligung der Informationswissenschaft der Universität Hildesheim am Cross Language Evaluation Forum (CLEF), einer europäischen Evaluierungsinitiative zur Erforschung mehrsprachiger Retrieval Systeme, berührt mehrere der Beiträge. Ebenso spielen Anwendungsszenarien und die Auseinandersetzung mit aktuellen und praktischen Fragestellungen eine große Rolle.

Content

Inhalt: Jan-Hendrik Scheufen: RECOIN: Modell offener Schnittstellen für Information-Retrieval-Systeme und -Komponenten Markus Nick, Klaus-Dieter Althoff: Designing Maintainable Experience-based Information Systems Gesine Quint, Steffen Weichert: Die benutzerzentrierte Entwicklung des Produkt- Retrieval-Systems EIKON der Blaupunkt GmbH Claus-Peter Klas, Sascha Kriewel, André Schaefer, Gudrun Fischer: Das DAFFODIL System - Strategische Literaturrecherche in Digitalen Bibliotheken Matthias Meiert: Entwicklung eines Modells zur Integration digitaler Dokumente in die Universitätsbibliothek Hildesheim Daniel Harbig, René Schneider: Ontology Learning im Rahmen von MyShelf Michael Kluck, Marco Winter: Topic-Entwicklung und Relevanzbewertung bei GIRT: ein Werkstattbericht Thomas Mandl: Neue Entwicklungen bei den Evaluierungsinitiativen im Information Retrieval Joachim Pfister: Clustering von Patent-Dokumenten am Beispiel der Datenbanken des Fachinformationszentrums Karlsruhe Ralph Kölle, Glenn Langemeier, Wolfgang Semar: Programmieren lernen in kollaborativen Lernumgebungen Olga Tartakovski, Margaryta Shramko: Implementierung eines Werkzeugs zur Sprachidentifikation in mono- und multilingualen Texten Nina Kummer: Indexierungstechniken für das japanische Retrieval Suriya Na Nhongkai, Hans-Joachim Bentz: Bilinguale Suche mittels Konzeptnetzen Robert Strötgen, Thomas Mandl, René Schneider: Entwicklung und Evaluierung eines Question Answering Systems im Rahmen des Cross Language Evaluation Forum (CLEF) Niels Jensen: Evaluierung von mehrsprachigem Web-Retrieval: Experimente mit dem EuroGOV-Korpus im Rahmen des Cross Language Evaluation Forum (CLEF)

Footnote

Rez. in: Information - Wissenschaft und Praxis 57(2006) H.5, S.290-291 (C. Schindler): "Weniger als ein Jahr nach dem "Vierten Hildesheimer Evaluierungs- und Retrievalworkshop" (HIER 2005) im Juli 2005 ist der dazugehörige Tagungsband erschienen. Eingeladen hatte die Hildesheimer Informationswissenschaft um ihre Forschungsergebnisse und die einiger externer Experten zum Thema Information Retrieval einem Fachpublikum zu präsentieren und zur Diskussion zu stellen. Unter dem Titel "Effektive Information Retrieval Verfahren in Theorie und Praxis" sind nahezu sämtliche Beiträge des Workshops in dem nun erschienenen, 15 Beiträge umfassenden Band gesammelt. Mit dem Schwerpunkt Information Retrieval (IR) wird ein Teilgebiet der Informationswissenschaft vorgestellt, das schon immer im Zentrum informationswissenschaftlicher Forschung steht. Ob durch den Leistungsanstieg von Prozessoren und Speichermedien, durch die Verbreitung des Internet über nationale Grenzen hinweg oder durch den stetigen Anstieg der Wissensproduktion, festzuhalten ist, dass in einer zunehmend wechselseitig vernetzten Welt die Orientierung und das Auffinden von Dokumenten in großen Wissensbeständen zu einer zentralen Herausforderung geworden sind. Aktuelle Verfahrensweisen zu diesem Thema, dem Information Retrieval, präsentiert der neue Band anhand von praxisbezogenen Projekten und theoretischen Diskussionen. Das Kernthema Information Retrieval wird in dem Sammelband in die Bereiche Retrieval-Systeme, Digitale Bibliothek, Evaluierung und Multilinguale Systeme untergliedert. Die Artikel der einzelnen Sektionen sind insgesamt recht heterogen und bieten daher keine Überschneidungen inhaltlicher Art. Jedoch ist eine vollkommene thematische Abdeckung der unterschiedlichen Bereiche ebenfalls nicht gegeben, was bei der Präsentation von Forschungsergebnissen eines Institutes und seiner Kooperationspartner auch nur bedingt erwartet werden kann. So lässt sich sowohl in der Gliederung als auch in den einzelnen Beiträgen eine thematische Verdichtung erkennen, die das spezielle Profil und die Besonderheit der Hildesheimer Informationswissenschaft im Feld des Information Retrieval wiedergibt. Teil davon ist die mehrsprachige und interdisziplinäre Ausrichtung, die die Schnittstellen zwischen Informationswissenschaft, Sprachwissenschaft und Informatik in ihrer praxisbezogenen und internationalen Forschung fokussiert.
Im ersten Kapitel "Retrieval-Systeme" werden verschiedene Information RetrievalSysteme präsentiert und Verfahren zu deren Gestaltung diskutiert. Jan-Hendrik Scheufen stellt das Meta-Framework RECOIN zur Information Retrieval Forschung vor, das sich durch eine flexible Handhabung unterschiedlichster Applikationen auszeichnet und dadurch eine zentrierte Protokollierung und Steuerung von Retrieval-Prozessen ermöglicht. Dieses Konzept eines offenen, komponentenbasierten Systems wurde in Form eines Plug-Ins für die javabasierte Open-Source-Plattform Eclipse realisiert. Markus Nick und Klaus-Dieter Althoff erläutern in ihrem Beitrag, der übrigens der einzige englischsprachige Text im Buch ist, das Verfahren DILLEBIS zur Erhaltung und Pflege (Maintenance) von erfahrungsbasierten Informationssystemen. Sie bezeichnen dieses Verfahren als Maintainable Experience-based Information System und plädieren für eine Ausrichtung von erfahrungsbasierten Systemen entsprechend diesem Modell. Gesine Quint und Steffen Weichert stellen dagegen in ihrem Beitrag die benutzerzentrierte Entwicklung des Produkt-Retrieval-Systems EIKON vor, das in Kooperation mit der Blaupunkt GmbH realisiert wurde. In einem iterativen Designzyklus erfolgte die Gestaltung von gruppenspezifischen Interaktionsmöglichkeiten für ein Car-Multimedia-Zubehör-System. Im zweiten Kapitel setzen sich mehrere Autoren dezidierter mit dem Anwendungsgebiet "Digitale Bibliothek" auseinander. Claus-Peter Klas, Sascha Kriewel, Andre Schaefer und Gudrun Fischer von der Universität Duisburg-Essen stellen das System DAFFODIL vor, das durch eine Vielzahl an Werkzeugen zur strategischen Unterstützung bei Literaturrecherchen in digitalen Bibliotheken dient. Zusätzlich ermöglicht die Protokollierung sämtlicher Ereignisse den Einsatz des Systems als Evaluationsplattform. Der Aufsatz von Matthias Meiert erläutert die Implementierung von elektronischen Publikationsprozessen an Hochschulen am Beispiel von Abschlussarbeiten des Studienganges Internationales Informationsmanagement der Universität Hildesheim. Neben Rahmenbedingungen werden sowohl der Ist-Zustand als auch der Soll-Zustand des wissenschaftlichen elektronischen Publizierens in Form von gruppenspezifischen Empfehlungen dargestellt. Daniel Harbig und Rene Schneider beschreiben in ihrem Aufsatz zwei Verfahrensweisen zum maschinellen Erlernen von Ontologien, angewandt am virtuellen Bibliotheksregal MyShelf. Nach der Evaluation dieser beiden Ansätze plädieren die Autoren für ein semi-automatisiertes Verfahren zur Erstellung von Ontologien.
"Evaluierung", das Thema des dritten Kapitels, ist in seiner Breite nicht auf das Information Retrieval beschränkt sondern beinhaltet ebenso einzelne Aspekte der Bereiche Mensch-Maschine-Interaktion sowie des E-Learning. Michael Muck und Marco Winter von der Stiftung Wissenschaft und Politik sowie dem Informationszentrum Sozialwissenschaften thematisieren in ihrem Beitrag den Einfluss der Fragestellung (Topic) auf die Bewertung von Relevanz und zeigen Verfahrensweisen für die Topic-Erstellung auf, die beim Cross Language Evaluation Forum (CLEF) Anwendung finden. Im darauf folgenden Aufsatz stellt Thomas Mandl verschiedene Evaluierungsinitiativen im Information Retrieval und aktuelle Entwicklungen dar. Joachim Pfister erläutert in seinem Beitrag das automatisierte Gruppieren, das sogenannte Clustering, von Patent-Dokumenten in den Datenbanken des Fachinformationszentrums Karlsruhe und evaluiert unterschiedliche Clusterverfahren auf Basis von Nutzerbewertungen. Ralph Kölle, Glenn Langemeier und Wolfgang Semar widmen sich dem kollaborativen Lernen unter den speziellen Bedingungen des Programmierens. Dabei werden das System VitaminL zur synchronen Bearbeitung von Programmieraufgaben und das Kennzahlensystem K-3 für die Bewertung kollaborativer Zusammenarbeit in einer Lehrveranstaltung angewendet. Der aktuelle Forschungsschwerpunkt der Hildesheimer Informationswissenschaft zeichnet sich im vierten Kapitel unter dem Thema "Multilinguale Systeme" ab. Hier finden sich die meisten Beiträge des Tagungsbandes wieder. Olga Tartakovski und Margaryta Shramko beschreiben und prüfen das System Langldent, das die Sprache von mono- und multilingualen Texten identifiziert. Die Eigenheiten der japanischen Schriftzeichen stellt Nina Kummer dar und vergleicht experimentell die unterschiedlichen Techniken der Indexierung. Suriya Na Nhongkai und Hans-Joachim Bentz präsentieren und prüfen eine bilinguale Suche auf Basis von Konzeptnetzen, wobei die Konzeptstruktur das verbindende Elemente der beiden Textsammlungen darstellt. Das Entwickeln und Evaluieren eines mehrsprachigen Question-Answering-Systems im Rahmen des Cross Language Evaluation Forum (CLEF), das die alltagssprachliche Formulierung von konkreten Fragestellungen ermöglicht, wird im Beitrag von Robert Strötgen, Thomas Mandl und Rene Schneider thematisiert. Den Schluss bildet der Aufsatz von Niels Jensen, der ein mehrsprachiges Web-Retrieval-System ebenfalls im Zusammenhang mit dem CLEF anhand des multilingualen EuroGOVKorpus evaluiert.
Abschließend lässt sich sagen, dass der Tagungsband einen gelungenen Überblick über die Information Retrieval Projekte der Hildesheimer Informationswissenschaft und ihrer Kooperationspartner gibt. Die einzelnen Beiträge sind sehr anregend und auf einem hohen Niveau angesiedelt. Ein kleines Hindernis für den Leser stellt die inhaltliche und strukturelle Orientierung innerhalb des Bandes dar. Der Bezug der einzelnen Artikel zum Thema des Kapitels wird zwar im Vorwort kurz erläutert. Erschwert wird die Orientierung im Buch jedoch durch fehlende Kapitelüberschriften am Anfang der einzelnen Sektionen. Außerdem ist zu erwähnen, dass einer der Artikel einen anderen Titel als im Inhaltsverzeichnis angekündigt trägt. Sieht der Leser von diesen formalen Mängeln ab, wird er reichlich mit praxisbezogenen und theoretisch fundierten Projektdarstellungen und Forschungsergebnissen belohnt. Dies insbesondere, da nicht nur aktuelle Themen der Informationswissenschaft aufgegriffen, sondern ebenso weiterentwickelt und durch die speziellen interdisziplinären und internationalen Bedingungen in Hildesheim geformt werden. Dabei zeigt sich anhand der verschiedenen Projekte, wie gut die Hildesheimer Informationswissenschaft in die Community überregionaler Informationseinrichtungen und anderer deutscher informationswissenschaftlicher Forschungsgruppen eingebunden ist. Damit hat der Workshop bei einer weiteren Öffnung der Expertengruppe das Potential zu einer eigenständigen Institution im Bereich des Information Retrieval zu werden. In diesem Sinne lässt sich auf weitere fruchtbare Workshops und deren Veröffentlichungen hoffen. Ein nächster Workshop der Universität Hildesheim zum Thema Information Retrieval, organisiert mit der Fachgruppe Information Retrieval der Gesellschaft für Informatik, kündigt sich bereits für den 9. bis 13- Oktober 2006 an."
Lanvent, A.: Praxis - Windows-Suche und Indexdienst : Auch Windows kann bei der Suche den Turbo einlegen: mit dem Indexdienst (2004) 0.01
```
0.014105836 = product of:
  0.056423344 = sum of:
    0.056423344 = weight(_text_:und in 4316) [ClassicSimilarity], result of:
      0.056423344 = score(doc=4316,freq=18.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.36756828 = fieldWeight in 4316, product of:
          4.2426405 = tf(freq=18.0), with freq of:
            18.0 = termFreq=18.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0390625 = fieldNorm(doc=4316)
  0.25 = coord(1/4)
```
Content

"Für eine 4-GByte-Festplatte mit mehreren Partitionen sucht Windows XP im Volltextmodus weit über zwei Stunden. Der Indexdienst verkürzt diese Recherchedauer drastisch um mehr als eine Stunde. Im Gegensatz zu den Indizes der kommerziellen Suchwerkzeuge erfasst der Windows-Indexdienst nur Text-, HTML- und OfficeDateien über entsprechend integrierte Dokumentfilter. Da er weder ZIP-Files noch PDFs erkennt und auch keine E-Mails scannt, ist er mit komplexen Anfragen schnell überfordert. Standardmäßig ist der Indexdienst zwar installiert, aber nicht aktiviert. Das erledigt der Anwender über Start/Arbeitsplatz und den Befehl Verwalten aus dem Kontextmenü. In der Computerverwaltung aktiviert der Benutzer den Eintrag Indexdienst und wählt Starten aus dem Kontextmenü. Die zu indizierenden Elemente verwaltet Windows über so genannte Kataloge, mit deren Hilfe der User bestimmt, welche Dateitypen aus welchen Ordnern indiziert werden sollen. Zwar kann der Anwender neben dem Katalog System weitere Kataloge einrichten. Ausreichend ist es aber in den meisten Fällen, dem Katalog System weitere Indizierungsordner über die Befehle Neu/Verzeichnis hinzuzufügen. Klickt der Benutzer dann einen der Indizierungsordner mit der rechten Maustaste an und wählt Alle Tasks/Erneut prüfen (Vollständig), beginnt der mitunter langwierige Indizierungsprozess. Über den Eigenschaften-Dialog lässt sich allerdings der Leistungsverbrauch drosseln. Eine inkrementelle Indizierung, bei der Windows nur neue Elemente im jeweiligen Verzeichnis unter die Lupe nimmt, erreicht der Nutzer über Alle Tasks/Erneut prüfen (inkrementell). Einschalten lässt sich der Indexdienst auch über die Eigenschaften eines Ordners und den Befehl Erweitert/ln-halt für schnelle Dateisuche indizieren. Auskunft über die dem Indexdienst zugeordneten Ordner und Laufwerke erhalten Sie, wenn Sie die WindowsSuche starten und Weitere Optionen/ Andere Suchoptionen/Bevorzugte Einstellungen ändern/Indexdienst verwenden anklicken."
Fichtner, K.: Boyer-Moore Suchalgorithmus (2005) 0.01
```
0.013820842 = product of:
  0.055283368 = sum of:
    0.055283368 = weight(_text_:und in 989) [ClassicSimilarity], result of:
      0.055283368 = score(doc=989,freq=12.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.36014193 = fieldWeight in 989, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=989)
  0.25 = coord(1/4)
```
Abstract

Die Masse der Suchalgorithmen lässt sich in zwei grundlegend verschiedene Teilbereiche untergliedern. Auf der einen Seite stehen Algorithmen, die auf komplexen Datenstrukturen (häufig baumartig) ganze Datensätze unter Verwendung eines Indizes finden. Als geläufiger Vertreter sei hier die binäre Suche auf sortierten Arrays oder in binären Bäumen genannt. Die andere Gruppe, der sich diese Ausarbeitung widmet, dient dazu, Entsprechungen von Mustern in gegebenen Zeichenketten zu finden. Auf den folgenden Seiten werden nun zunächst einige Begriffe eingeführt, die für das weitere Verständnis und einen Vergleich verschiedener Suchalgorithmen nötig sind. Weiterhin wird ein naiver Suchalgorithmus dargestellt und mit der Idee von Boyer und Moore verglichen. Hierzu wird ihr Algorithmus zunächst informal beschrieben, dann mit Blick auf eine Implementation näher erläutert und anschließend einer Effizienzanalyse - sowohl empirisch als auch theoretisch - unterzogen. Abschließend findet eine kurze Bewertung mit Bezug auf Schwachstellen, Vorzüge und Verbesserungsmöglichkeiten statt, im Zuge derer einige prominente Modifikationen des Boyer-Moore Algorithmus vorgestellt werden.

Content

Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/KristoferFichtner.pdf
Mayr, P.: Bradfordizing als Re-Ranking-Ansatz in Literaturinformationssystemen (2011) 0.01
```
0.013820842 = product of:
  0.055283368 = sum of:
    0.055283368 = weight(_text_:und in 292) [ClassicSimilarity], result of:
      0.055283368 = score(doc=292,freq=12.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.36014193 = fieldWeight in 292, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=292)
  0.25 = coord(1/4)
```
Abstract

In diesem Artikel wird ein Re-Ranking-Ansatz für Suchsysteme vorgestellt, der die Recherche nach wissenschaftlicher Literatur messbar verbessern kann. Das nichttextorientierte Rankingverfahren Bradfordizing wird eingeführt und anschließend im empirischen Teil des Artikels bzgl. der Effektivität für typische fachbezogene Recherche-Topics evaluiert. Dem Bradford Law of Scattering (BLS), auf dem Bradfordizing basiert, liegt zugrunde, dass sich die Literatur zu einem beliebigen Fachgebiet bzw. -thema in Zonen unterschiedlicher Dokumentenkonzentration verteilt. Dem Kernbereich mit hoher Konzentration der Literatur folgen Bereiche mit mittlerer und geringer Konzentration. Bradfordizing sortiert bzw. rankt eine Dokumentmenge damit nach den sogenannten Kernzeitschriften. Der Retrievaltest mit 164 intellektuell bewerteten Fragestellungen in Fachdatenbanken aus den Bereichen Sozial- und Politikwissenschaften, Wirtschaftswissenschaften, Psychologie und Medizin zeigt, dass die Dokumente der Kernzeitschriften signifikant häufiger relevant bewertet werden als Dokumente der zweiten Dokumentzone bzw. den Peripherie-Zeitschriften. Die Implementierung von Bradfordizing und weiteren Re-Rankingverfahren liefert unmittelbare Mehrwerte für den Nutzer.

Source

Information - Wissenschaft und Praxis. 62(2011) H.1, S.3-10
Mayr, P.: Bradfordizing mit Katalogdaten : Alternative Sicht auf Suchergebnisse und Publikationsquellen durch Re-Ranking (2010) 0.01
```
0.013820842 = product of:
  0.055283368 = sum of:
    0.055283368 = weight(_text_:und in 301) [ClassicSimilarity], result of:
      0.055283368 = score(doc=301,freq=12.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.36014193 = fieldWeight in 301, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=301)
  0.25 = coord(1/4)
```
Abstract

Nutzer erwarten für Literaturrecherchen in wissenschaftlichen Suchsystemen einen möglichst hohen Anteil an relevanten und qualitativen Dokumenten in den Trefferergebnissen. Insbesondere die Reihenfolge und Struktur der gelisteten Ergebnisse (Ranking) spielt, neben dem direkten Volltextzugriff auf die Dokumente, für viele Nutzer inzwischen eine entscheidende Rolle. Abgegrenzt wird Ranking oder Relevance Ranking von sogenannten Sortierungen zum Beispiel nach dem Erscheinungsjahr der Publikation, obwohl hier die Grenze zu »nach inhaltlicher Relevanz« gerankten Listen konzeptuell nicht sauber zu ziehen ist. Das Ranking von Dokumenten führt letztlich dazu, dass sich die Benutzer fokussiert mit den oberen Treffermengen eines Suchergebnisses beschäftigen. Der mittlere und untere Bereich eines Suchergebnisses wird häufig nicht mehr in Betracht gezogen. Aufgrund der Vielzahl an relevanten und verfügbaren Informationsquellen ist es daher notwendig, Kernbereiche in den Suchräumen zu identifizieren und diese anschließend dem Nutzer hervorgehoben zu präsentieren. Phillipp Mayr fasst hier die Ergebnisse seiner Dissertation zum Thema »Re-Ranking auf Basis von Bradfordizing für die verteilte Suche in Digitalen Bibliotheken« zusammen.
Mayr, P.: Re-Ranking auf Basis von Bradfordizing für die verteilte Suche in Digitalen Bibliotheken (2009) 0.01
```
0.013562485 = product of:
  0.05424994 = sum of:
    0.05424994 = weight(_text_:und in 302) [ClassicSimilarity], result of:
      0.05424994 = score(doc=302,freq=26.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.3534097 = fieldWeight in 302, product of:
          5.0990195 = tf(freq=26.0), with freq of:
            26.0 = termFreq=26.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.03125 = fieldNorm(doc=302)
  0.25 = coord(1/4)
```
Abstract

Trotz großer Dokumentmengen für datenbankübergreifende Literaturrecherchen erwarten akademische Nutzer einen möglichst hohen Anteil an relevanten und qualitativen Dokumenten in den Trefferergebnissen. Insbesondere die Reihenfolge und Struktur der gelisteten Ergebnisse (Ranking) spielt, neben dem direkten Volltextzugriff auf die Dokumente, inzwischen eine entscheidende Rolle beim Design von Suchsystemen. Nutzer erwarten weiterhin flexible Informationssysteme, die es unter anderem zulassen, Einfluss auf das Ranking der Dokumente zu nehmen bzw. alternative Rankingverfahren zu verwenden. In dieser Arbeit werden zwei Mehrwertverfahren für Suchsysteme vorgestellt, die die typischen Probleme bei der Recherche nach wissenschaftlicher Literatur behandeln und damit die Recherchesituation messbar verbessern können. Die beiden Mehrwertdienste semantische Heterogenitätsbehandlung am Beispiel Crosskonkordanzen und Re-Ranking auf Basis von Bradfordizing, die in unterschiedlichen Phasen der Suche zum Einsatz kommen, werden hier ausführlich beschrieben und im empirischen Teil der Arbeit bzgl. der Effektivität für typische fachbezogene Recherchen evaluiert. Vorrangiges Ziel der Promotion ist es, zu untersuchen, ob das hier vorgestellte alternative Re-Rankingverfahren Bradfordizing im Anwendungsbereich bibliographischer Datenbanken zum einen operabel ist und zum anderen voraussichtlich gewinnbringend in Informationssystemen eingesetzt und dem Nutzer angeboten werden kann. Für die Tests wurden Fragestellungen und Daten aus zwei Evaluationsprojekten (CLEF und KoMoHe) verwendet. Die intellektuell bewerteten Dokumente stammen aus insgesamt sieben wissenschaftlichen Fachdatenbanken der Fächer Sozialwissenschaften, Politikwissenschaft, Wirtschaftswissenschaften, Psychologie und Medizin. Die Evaluation der Crosskonkordanzen (insgesamt 82 Fragestellungen) zeigt, dass sich die Retrievalergebnisse signifikant für alle Crosskonkordanzen verbessern; es zeigt sich zudem, dass interdisziplinäre Crosskonkordanzen den stärksten (positiven) Effekt auf die Suchergebnisse haben. Die Evaluation des Re-Ranking nach Bradfordizing (insgesamt 164 Fragestellungen) zeigt, dass die Dokumente der Kernzone (Kernzeitschriften) für die meisten Testreihen eine signifikant höhere Precision als Dokumente der Zone 2 und Zone 3 (Peripheriezeitschriften) ergeben. Sowohl für Zeitschriften als auch für Monographien kann dieser Relevanzvorteil nach Bradfordizing auf einer sehr breiten Basis von Themen und Fragestellungen an zwei unabhängigen Dokumentkorpora empirisch nachgewiesen werden.

Imprint

Berlin : Humboldt-Universität zu Berlin / Institut für Bibliotheks- und Informationswissenschaft

Koopman, R.: ¬Ein OPAC mit Gewichtungsalgorithmen : Der PICA Micro OPC (1996) 0.01

0.013299111 = product of:
  0.053196445 = sum of:
    0.053196445 = weight(_text_:und in 4182) [ClassicSimilarity], result of:
      0.053196445 = score(doc=4182,freq=4.0), product of:
        0.15350439 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.06921162 = queryNorm
        0.34654674 = fieldWeight in 4182, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.078125 = fieldNorm(doc=4182)
  0.25 = coord(1/4)

Imprint: Düsseldorf : Universitäts- und Landesbibliothek
Series: Schriften der Universitäts- und Landesbibliothek Düsseldorf; Bd.25

Search (91 results, page 3 of 5)

Authors

Years

Languages

Types

Themes

Subjects

Classifications