-
Kasprzik, A.; Kett, J.: Vorschläge für eine Weiterentwicklung der Sacherschließung und Schritte zur fortgesetzten strukturellen Aufwertung der GND (2018)
0.02
0.015874784 = product of:
0.06349914 = sum of:
0.06349914 = weight(_text_:und in 599) [ClassicSimilarity], result of:
0.06349914 = score(doc=599,freq=22.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.4063621 = fieldWeight in 599, product of:
4.690416 = tf(freq=22.0), with freq of:
22.0 = termFreq=22.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=599)
0.25 = coord(1/4)
- Abstract
- Aufgrund der fortgesetzten Publikationsflut stellt sich immer dringender die Frage, wie die Schwellen für die Titel- und Normdatenpflege gesenkt werden können - sowohl für die intellektuelle als auch die automatisierte Sacherschließung. Zu einer Verbesserung der Daten- und Arbeitsqualität in der Sacherschließung kann beigetragen werden a) durch eine flexible Visualisierung der Gemeinsamen Normdatei (GND) und anderer Wissensorganisationssysteme, so dass deren Graphstruktur intuitiv erfassbar wird, und b) durch eine investigative Analyse ihrer aktuellen Struktur und die Entwicklung angepasster automatisierter Methoden zur Ermittlung und Korrektur fehlerhafter Muster. Die Deutsche Nationalbibliothek (DNB) prüft im Rahmen des GND-Entwicklungsprogramms 2017-2021, welche Bedingungen für eine fruchtbare community-getriebene Open-Source-Entwicklung entsprechender Werkzeuge gegeben sein müssen. Weiteres Potential steckt in einem langfristigen Übergang zu einer Darstellung von Titel- und Normdaten in Beschreibungssprachen im Sinne des Semantic Web (RDF; OWL, SKOS). So profitiert die GND von der Interoperabilität mit anderen kontrollierten Vokabularen und von einer erleichterten Interaktion mit anderen Fach-Communities und kann umgekehrt auch außerhalb des Bibliothekswesens zu einem noch attraktiveren Wissensorganisationssystem werden. Darüber hinaus bieten die Ansätze aus dem Semantic Web die Möglichkeit, stärker formalisierte, strukturierende Satellitenvokabulare rund um die GND zu entwickeln. Daraus ergeben sich nicht zuletzt auch neue Perspektiven für die automatisierte Sacherschließung. Es wäre lohnend, näher auszuloten, wie und inwieweit semantisch-logische Verfahren den bestehenden Methodenmix bereichern können.
-
Mandalka, M.: Open semantic search zum unabhängigen und datenschutzfreundlichen Erschliessen von Dokumenten (2015)
0.02
0.015729807 = product of:
0.06291923 = sum of:
0.06291923 = weight(_text_:und in 3133) [ClassicSimilarity], result of:
0.06291923 = score(doc=3133,freq=60.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.40265095 = fieldWeight in 3133, product of:
7.745967 = tf(freq=60.0), with freq of:
60.0 = termFreq=60.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0234375 = fieldNorm(doc=3133)
0.25 = coord(1/4)
- Abstract
- Ob grösserer Leak oder Zusammenwürfeln oder (wieder) Erschliessen umfangreicherer (kollaborativer) Recherche(n) oder Archive: Immer öfter müssen im Journalismus größere Datenberge und Dokumentenberge erschlossen werden. In eine Suchmaschine integrierte Analyse-Tools helfen (halb)automatisch.
- Content
- "Open Semantic Desktop Search Zur Tagung des Netzwerk Recherche ist die Desktop Suchmaschine Open Semantic Desktop Search zum unabhängigen und datenschutzfreundlichen Erschliessen und Analysieren von Dokumentenbergen nun erstmals auch als deutschsprachige Version verfügbar. Dank mächtiger Open Source Basis kann die auf Debian GNU/Linux und Apache Solr basierende freie Software als unter Linux, Windows oder Mac lauffähige virtuelle Maschine kostenlos heruntergeladen, genutzt, weitergegeben und weiterentwickelt werden. Dokumentenberge erschliessen Ob grösserer Leak oder Zusammenwürfeln oder (wieder) Erschliessen umfangreicherer (kollaborativer) Recherche(n) oder Archive: Hin und wieder müssen größere Datenberge bzw. Dokumentenberge erschlossen werden, die so viele Dokumente enthalten, dass Mensch diese Masse an Dokumenten nicht mehr alle nacheinander durchschauen und einordnen kann. Auch bei kontinuierlicher Recherche zu Fachthemen sammeln sich mit der Zeit größere Mengen digitalisierter oder digitaler Dokumente zu grösseren Datenbergen an, die immer weiter wachsen und deren Informationen mit einer Suchmaschine für das Archiv leichter auffindbar bleiben. Moderne Tools zur Datenanalyse in Verbindung mit Enterprise Search Suchlösungen und darauf aufbauender Recherche-Tools helfen (halb)automatisch.
Unabhängiges Durchsuchen und Analysieren grosser Datenmengen Damit können investigativ arbeitende Journalisten selbstständig und auf eigener Hardware datenschutzfreundlich hunderte, tausende, hunderttausende oder gar Millionen von Dokumenten oder hunderte Megabyte, Gigabytes oder gar einige Terabytes an Daten mit Volltextsuche durchsuchbar machen. Automatische Datenanreicherung und Erschliessung mittels Hintergrundwissen Zudem wird anhand von konfigurierbaren Hintergrundwissen automatisch eine interaktive Navigation zu in Dokumenten enthaltenen Namen von Bundestagsabgeordneten oder Orten in Deutschland generiert oder anhand Textmustern strukturierte Informationen wie Geldbeträge extrahiert. Mittels Named Entities Manager für Personen, Organisationen, Begriffe und Orte können eigene Rechercheschwerpunkte konfiguriert werden, aus denen dann automatisch eine interaktive Navigation (Facettensuche) und aggregierte Übersichten generiert werden. Automatische Datenvisualisierung Diese lassen sich auch visualisieren: So z.B. die zeitliche Verteilung von Suchergebnissen als Trand Diagramm oder durch gleichzeitige Nennung in Dokumenten abgeleitete Verbindungen als Netzwerk bzw. Graph.
Automatische Texterkennung (OCR) Dokumente, die nicht im Textformat, sondern als Grafiken vorliegen, wie z.B. Scans werden automatisch durch automatische Texterkennung (OCR) angereichert und damit auch der extrahierte Text durchsuchbar. Auch für eingebettete Bilddateien bzw. Scans innerhalb von PDF-Dateien. Unscharfe Suche mit Listen Ansonsten ist auch das Recherche-Tool bzw. die Such-Applikation "Suche mit Listen" integriert, mit denen sich schnell und komfortabel abgleichen lässt, ob es zu den einzelnen Einträgen in Listen jeweils Treffer in der durchsuchbaren Dokumentensammlung gibt. Mittels unscharfer Suche findet das Tool auch Ergebnisse, die in fehlerhaften oder unterschiedlichen Schreibweisen vorliegen. Semantische Suche und Textmining Im Recherche, Textanalyse und Document Mining Tutorial zu den enthaltenen Recherche-Tools und verschiedenen kombinierten Methoden zur Datenanalyse, Anreicherung und Suche wird ausführlicher beschrieben, wie auch eine große heterogene und unstrukturierte Dokumentensammlung bzw. eine grosse Anzahl von Dokumenten in verschiedenen Formaten leicht durchsucht und analysiert werden kann.
Virtuelle Maschine für mehr Plattformunabhängigkeit Die nun auch deutschsprachig verfügbare und mit deutschen Daten wie Ortsnamen oder Bundestagsabgeordneten vorkonfigurierte virtuelle Maschine Open Semantic Desktop Search ermöglicht nun auch auf einzelnen Desktop Computern oder Notebooks mit Windows oder iOS (Mac) die Suche und Analyse von Dokumenten mit der Suchmaschine Open Semantic Search. Als virtuelle Maschine (VM) lässt sich die Suchmaschine Open Semantic Search nicht nur für besonders sensible Dokumente mit dem verschlüsselten Live-System InvestigateIX als abgeschottetes System auf verschlüsselten externen Datenträgern installieren, sondern als virtuelle Maschine für den Desktop auch einfach unter Windows oder auf einem Mac in eine bzgl. weiterer Software und Daten bereits existierende Systemumgebung integrieren, ohne hierzu auf einen (für gemeinsame Recherchen im Team oder für die Redaktion auch möglichen) Suchmaschinen Server angewiesen zu sein. Datenschutz & Unabhängigkeit: Grössere Unabhängigkeit von zentralen IT-Infrastrukturen für unabhängigen investigativen Datenjournalismus Damit ist investigative Recherche weitmöglichst unabhängig möglich: ohne teure, zentrale und von Administratoren abhängige Server, ohne von der Dokumentenanzahl abhängige teure Software-Lizenzen, ohne Internet und ohne spionierende Cloud-Dienste. Datenanalyse und Suche finden auf dem eigenen Computer statt, nicht wie bei vielen anderen Lösungen in der sogenannten Cloud."
- Source
- http://www.linux-community.de/Internal/Nachrichten/Open-Semantic-Search-zum-unabhaengigen-und-datenschutzfreundlichen-Erschliessen-von-Dokumenten
-
Celik, I.; Abel, F.; Siehndel, P.: Adaptive faceted search on Twitter (2011)
0.02
0.015478929 = product of:
0.061915714 = sum of:
0.061915714 = weight(_text_:have in 3221) [ClassicSimilarity], result of:
0.061915714 = score(doc=3221,freq=2.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2787029 = fieldWeight in 3221, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0625 = fieldNorm(doc=3221)
0.25 = coord(1/4)
- Abstract
- In the last few years, Twitter has become a powerful tool for publishing and discussing information. Yet, content exploration in Twitter requires substantial efforts and users often have to scan information streams by hand. In this paper, we approach this problem by means of faceted search. We propose strategies for inferring facets and facet values on Twitter by enriching the semantics of individual Twitter messages and present di erent methods, including personalized and context-adaptive methods, for making faceted search on Twitter more effective.
-
Gödert, W.: Navigation und Konzepte für ein interaktives Retrieval im OPAC : Oder: Von der Informationserschließung zur Wissenserkundung (2004)
0.02
0.015316567 = product of:
0.06126627 = sum of:
0.06126627 = weight(_text_:und in 3491) [ClassicSimilarity], result of:
0.06126627 = score(doc=3491,freq=8.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.39207286 = fieldWeight in 3491, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=3491)
0.25 = coord(1/4)
- Abstract
- In diesem Beitrag werden nach einem kurzen historischen Abriss der OPAC-Entwicklung die Prinzipien und Möglichkeiten zur Gestaltung von Interaktionsvorgängen zur inhaltlichen Suche diskutiert. Es wird dabei ein Plädoyer abgegeben, die OPACs nicht allein als Findeinstrumente für bibliografische Daten sondern auch als Systeme zur Wissenserkundung zu begreifen und die Interaktionsvorgänge darauf abzustimmen
- Source
- Mitteilungen der Vereinigung Österreichischer Bibliothekarinnen und Bibliothekare. 57(2004) H.1, S.70-80
-
Imhof, A.: RSWK/SWD und Faceted Browsing : neue Möglichkeiten einer inhaltlich-intuitiven Navigation (2006)
0.02
0.015316567 = product of:
0.06126627 = sum of:
0.06126627 = weight(_text_:und in 946) [ClassicSimilarity], result of:
0.06126627 = score(doc=946,freq=32.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.39207286 = fieldWeight in 946, product of:
5.656854 = tf(freq=32.0), with freq of:
32.0 = termFreq=32.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=946)
0.25 = coord(1/4)
- Abstract
- Das deutschsprachige Bibliothekswesen verfügt mit den "Regeln für den Schlagwortkatalog" (RSWK) unter Verwendung der "Schlagwortnormdatei" (SWD) über ein Instrumentarium, welches zusammen mit einem "Faceted Browsing" das bisher bestehende Angebot für ein Information Retrieval optimal ergänzen kann. Die Verbindung zwischen Standardvokabular (SWD) und Kettenbildung (RSWK) einerseits und eine nach Facetten-Eigenschaften gegliederte Navigation andererseits unterstützt bestmöglich eine inhaltlich bezogene Recherche. Die Stärken und Schwächen der RSWK/SWD werden erörtert und auch Klassifikationen (DDC und RVK) als mögliche Facetten diskutiert.
- Content
- "Die kontinuierliche Optimierung der Informationsversorgung ist ein von allen Seiten unterstütztes Ziel in Forschung und Lehre. Neben der Verfügbarkeit an Literatur ist das Organisieren derselben, aber auch das Suchen, Finden und Erhalten von Informationen angesprochen. Die Anstrengungen der vergangenen Jahre für eine verbesserte Literaturrecherche haben in der Bibliothekswelt bereits zu einigen Erfolgen geführt. Inzwischen ist es selbstverständlich geworden, über das Internet in deutschen und internationalen Online-Katalogen nach relevanter Literatur zu suchen. Weiterführende Dienste wie Dokumentenlieferung oder direkte Verlinkung zu elektronischen Volltexten sind dabei nahtlos eingebunden. Die Weiterentwicklung bibliothekarischer Dienstleistungen werden ohne Unterbrechung vorangetrieben, zumal freie Suchmaschinen wie Google im "Information Retrieval", insbesondere durch Google-Scholar und Google-Buchsuche, einen beträchtlichen Konkurrenzdruck auf die Bibliotheken ausüben. Dabei drängt sich insgesamt der Eindruck auf, dass die Bibliotheken gegenüber den freien Suchmaschinen deren Entwicklungen hinterherlaufen. Ohne es als solches wahrzunehmen, verfügen die Bibliotheken im deutschsprachigen Raum jedoch über ein Instrument, mit dem sie im Wettbewerb mit Google um die Nutzerinnen wieder ihre Vorzüge herausstellen können. Es existiert längst ein Konzept, mit dessen Hilfe die Literaturrecherche inhaltlich-intuitiv gestaltet und damit ein Vorteil der Bibliotheksrecherche gegenüber kommerziellen Suchmaschinen herausgearbeitet werden kann. Das Konzept heißt "Regeln für den Schlagwortkatalog" (RSWK)' und bietet im Zusammenhang mit dem mittlerweile nicht mehr ganz so neuen Navigationskonzept "Faceted Browsing" ungeahnte Möglichkeiten eines intuitiven Recherschewerkzeuges, das Literatur gezielt inhaltlich entdecken lässt.
... Zusammenfassung Abschließend kann festgehalten werden, dass die RSWK/SWD für sich betrachtet in der bislang eingesetzten Form nicht ihre volle Wirkung im Information Retrieval erreicht. Das Faceted Browsing, für das bisher alle möglichen und unmöglichen Metadaten verwendet werden, ist zwar ein geeignetes Feature, liefert aber immer noch nicht den spürbaren Nutzungsgewinn. Die SWD, die leider noch nicht alle Wissenschaftsbereiche umfasst, und die unvollständige Erschließung mit RSWK/SWD ist zum jetzigen Zeitpunkt nicht vollends befriedigend. Doch ein Arrangement mit den Unzulänglichkeiten bis zur kontinuierlich verlaufenden Optimierung dieser Situation lohnt sich. Die RSWK/SWD und das Faceted Browsing spielen erst gemeinsam ihre Stärken richtig aus. Standardisiertes Vokabular (SWD) in einen Sinnzusammenhang gestellt (RSWK) bildet alle relevanten Eigenschaften eines Textes in kurzer, maschinenlesbarer Form (Faceted Browsing) ab. Auf diese Weise erhalten wir eine inhaltlich-intuitive Navigation über Bibliotheksbestände und weitere Literatur."
-
Caro Castro, C.; Travieso Rodríguez, C.: Ariadne's thread : knowledge structures for browsing in OPAC's (2003)
0.02
0.015142721 = product of:
0.060570884 = sum of:
0.060570884 = weight(_text_:have in 3768) [ClassicSimilarity], result of:
0.060570884 = score(doc=3768,freq=10.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2726494 = fieldWeight in 3768, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.02734375 = fieldNorm(doc=3768)
0.25 = coord(1/4)
- Abstract
- Subject searching is the most common but also the most conflictive searching for end user. The aim of this paper is to check how users expressions match subject headings and to prove if knowledge structure used in online catalogs enhances searching effectiveness. A bibliographic revision about difficulties in subject access and proposed methods to improve it is also presented. For the empirical analysis, transaction logs from two university libraries, online catalogs (CISNE and FAMA) were collected. Results show that more than a quarter of user queries are effective due to an alphabetical subject index approach and browsing through hypertextual links. 1. Introduction Since the 1980's, online public access catalogs (OPAC's) have become usual way to access bibliographic information. During the last two decades the technological development has helped to extend their use, making feasible the access for a whole of users that is getting more and more extensive and heterogeneous, and also to incorporate information resources in electronic formats and to interconnect systems. However, technology seems to have developed faster than our knowledge about the tasks where it has been applied and than the evolution of our capacities for adapting to it. The conceptual model of OPAC has been hardly modified recently, and for interacting with them, users still need to combine the same skills and basic knowledge than at the beginning of its introduction (Borgman, 1986, 2000): a) conceptual knowledge to translate the information need into an appropriate query because of a well-designed mental model of the system, b) semantic and syntactic knowledge to be able to implement that query (access fields, searching type, Boolean logic, etc.) and c) basic technical skills in computing. At present many users have the essential technical skills to make use, with more or less expertise, of a computer. This number is substantially reduced when it is referred to the conceptual, semantic and syntactic knowledge that is necessary to achieve a moderately satisfactory search. An added difficulty arises in subject searching, as users should concrete their unknown information needs in terms that the information retrieval system can understand. Many researches have focused an unskilled searchers' difficulties to enter an effective query. The mental models influence, users assumption about characteristics, structure, contents and operation of the system they interact with have been analysed (Dillon, 2000; Dimitroff, 2000). Another issue that implies difficulties is vocabulary: how to find the right terms to implement a query and to modify it as the case may be. Terminology and expressions characteristics used in searching (Bates, 1993), the match between user terms and the subject headings from the catalog (Carlyle, 1989; Drabensttot, 1996; Drabensttot & Vizine-Goetz, 1994), the incidence of spelling errors (Drabensttot and Weller, 1996; Ferl and Millsap, 1996; Walker and Jones, 1987), users problems
-
Schek, M.: Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs (2006)
0.01
0.014830203 = product of:
0.05932081 = sum of:
0.05932081 = weight(_text_:und in 43) [ClassicSimilarity], result of:
0.05932081 = score(doc=43,freq=30.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.37962294 = fieldWeight in 43, product of:
5.477226 = tf(freq=30.0), with freq of:
30.0 = termFreq=30.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=43)
0.25 = coord(1/4)
- Abstract
- Die Süddeutsche Zeitung (SZ) verfügt seit ihrer Gründung 1945 über ein Pressearchiv, das die Texte der eigenen Redakteure und zahlreicher nationaler und internationaler Publikationen dokumentiert und für Recherchezwecke bereitstellt. Die DIZ-Pressedatenbank (www.medienport.de) ermöglicht die browserbasierte Recherche für Redakteure und externe Kunden im Intra- und Internet und die kundenspezifischen Content Feeds für Verlage, Rundfunkanstalten und Portale. Die DIZ-Pressedatenbank enthält z. Zt. 7,8 Millionen Artikel, die jeweils als HTML oder PDF abrufbar sind. Täglich kommen ca. 3.500 Artikel hinzu, von denen ca. 1.000 durch Dokumentare inhaltlich erschlossen werden. Die Informationserschließung erfolgt im DIZ nicht durch die Vergabe von Schlagwörtern am Dokument, sondern durch die Verlinkung der Artikel mit "virtuellen Mappen", den Dossiers. Insgesamt enthält die DIZ-Pressedatenbank ca. 90.000 Dossiers, die untereinander zum "DIZ-Wissensnetz" verlinkt sind. DIZ definiert das Wissensnetz als Alleinstellungsmerkmal und wendet beträchtliche personelle Ressourcen für die Aktualisierung und Qualitätssicherung der Dossiers auf. Im Zuge der Medienkrise mussten sich DIZ der Herausforderung stellen, bei sinkenden Lektoratskapazitäten die Qualität der Informationserschließung im Input zu erhalten. Auf der Outputseite gilt es, eine anspruchsvolle Zielgruppe - u.a. die Redakteure der Süddeutschen Zeitung - passgenau und zeitnah mit den Informationen zu versorgen, die sie für ihre tägliche Arbeit benötigt. Bezogen auf die Ausgangssituation in der Dokumentation der Süddeutschen Zeitung identifizierte DIZ drei Ansatzpunkte, wie die Aufwände auf der Inputseite (Lektorat) zu optimieren sind und gleichzeitig auf der Outputseite (Recherche) das Wissensnetz besser zu vermarkten ist: - (Teil-)Automatische Klassifizierung von Pressetexten (Vorschlagwesen) - Visualisierung des Wissensnetzes - Neue Retrievalmöglichkeiten (Ähnlichkeitssuche, Clustering) Im Bereich "Visualisierung" setzt DIZ auf den Net-Navigator von intelligent views, eine interaktive Visualisierung allgemeiner Graphen, basierend auf einem physikalischen Modell. In den Bereichen automatische Klassifizierung, Ähnlichkeitssuche und Clustering hat DIZ sich für das Produkt nextBot der Firma Brainbot entschieden.
- Source
- Spezialbibliotheken zwischen Auftrag und Ressourcen: 6.-9. September 2005 in München, 30. Arbeits- und Fortbildungstagung der ASpB e.V. / Sektion 5 im Deutschen Bibliotheksverband. Red.: M. Brauer
-
Context: nature, impact, and role : 5th International Conference on Conceptions of Library and Information Science, CoLIS 2005, Glasgow 2005; Proceedings (2005)
0.01
0.014752761 = product of:
0.059011046 = sum of:
0.059011046 = weight(_text_:und in 167) [ClassicSimilarity], result of:
0.059011046 = score(doc=167,freq=76.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.37764058 = fieldWeight in 167, product of:
8.717798 = tf(freq=76.0), with freq of:
76.0 = termFreq=76.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=167)
0.25 = coord(1/4)
- Classification
- SS 4800 [Informatik # Enzyklopädien und Handbücher. Kongreßberichte Schriftenreihe. Tafeln und Formelsammlungen # Schriftenreihen (indiv. Sign.) # Lecture notes in computer science]
- Content
- Das Buch ist in die Abschnitte Invited Papers (1 Beitrag, 1 Abstract), Representing Context (3 Beiträge), Context and Relevance in Information Seeking (3), Context and Information (3), Contextualised Information Seeking (3), Agendas for Context (3), Context and Documents (2) und Workshops (2 Ankündigungstexte) gegliedert und enthält ein simples Autoren-, jedoch kein Sachregister. Die Autoren der Beiträge stammen mit einigen Ausnahmen (Italien, Frankreich, Russland) aus den angelsächsischen und skandinavischen Ländern.
- Footnote
- Rez. in: Mitt. VÖB 59(2006) H.3, S.100-103 (O. Oberhauser): "Dieses als Band 3507 der bekannten, seit 1973 erscheinenden Springer-Serie Lecture Notes in Computer Science (LNCS) publizierte Buch versammelt die Vorträge der 5. Tagung "Conceptions of Library and Information Science". CoLIS hat sich in den letzten anderthalb Jahrzehnten als internationales Forum für die Präsentation und Rezeption von Forschung auf den Fachgebieten Informatik und Informationswissenschaft etabliert. Auf die 1992 in Tampere (Finnland) anlässlich des damals 20jährigen Bestehens des dortigen Instituts für Informationswissenschaft abgehaltene erste Tagung folgten weitere in Kopenhagen (1996), Dubrovnik (1999) und Seattle, WA (2002). Die zuletzt an der Strathclyde University in Glasgow (2005) veranstaltete Konferenz war dem Thema "Context" im Rahmen der informationsbezogenen Forschung gewidmet, einem komplexen, dynamischen und multidimensionalen Begriff von grosser Bedeutung für das Verhalten und die Interaktion von Mensch und Maschine. . . .
Am interessantesten und wichtigsten erschien mir der Grundsatzartikel von Peter Ingwersen und Kalervo Järvelin (Kopenhagen/Tampere), The sense of information: Understanding the cognitive conditional information concept in relation to information acquisition (S. 7-19). Hier versuchen die Autoren, den ursprünglich von Ingwersen1 vorgeschlagenen und damals ausschliesslich im Zusammenhang mit dem interaktiven Information Retrieval verwendeten Begriff "conditional cognitive information" anhand eines erweiterten Modells nicht nur auf das Gesamtgebiet von "information seeking and retrieval" (IS&R) auszuweiten, sondern auch auf den menschlichen Informationserwerb aus der Sinneswahrnehmung, wie z.B. im Alltag oder im Rahmen der wissenschaftlichen Erkenntnistätigkeit. Dabei werden auch alternative Informationsbegriffe sowie die Beziehung von Information und Bedeutung diskutiert. Einen ebenfalls auf Ingwersen zurückgehenden Ansatz thematisiert der Beitrag von Birger Larsen (Kopenhagen), indem er sich mit dessen vor über 10 Jahren veröffentlichten2 Principle of Polyrepresentation befasst. Dieses beruht auf der Hypothese, wonach die Überlappung zwischen unterschiedlichen kognitiven Repräsentationen - nämlich jenen der Situation des Informationssuchenden und der Dokumente - zur Reduktion der einer Retrievalsituation anhaftenden Unsicherheit und damit zur Verbesserung der Performance des IR-Systems genutzt werden könne. Das Prinzip stellt die Dokumente, ihre Autoren und Indexierer, aber auch die sie zugänglich machende IT-Lösung in einen umfassenden und kohärenten theoretischen Bezugsrahmen, der die benutzerorientierte Forschungsrichtung "Information-Seeking" mit der systemorientierten IR-Forschung zu integrieren trachtet. Auf der Basis theoretischer Überlegungen sowie der (wenigen) dazu vorliegenden empirischen Studien hält Larsen das Model, das von Ingwersen sowohl für "exact match-IR" als auch für "best match-IR" intendiert war, allerdings schon in seinen Grundzügen für "Boolean" (d.h. "exact match"-orientiert) und schlägt ein "polyrepresentation continuum" als Verbesserungsmöglichkeit vor.
Mehrere Beiträge befassen sich mit dem Problem der Relevanz. Erica Cosijn und Theo Bothma (Pretoria) argumentieren, dass für das Benutzerverhalten neben der thematischen Relevanz auch verschiedene andere Relevanzdimensionen eine Rolle spielen und schlagen auf der Basis eines (abermals auf Ingwersen zurückgehenden) erweiterten Relevanzmodells vor, dass IR-Systeme die Möglichkeit zur Abgabe auch kognitiver, situativer und sozio-kognitiver Relevanzurteile bieten sollten. Elaine Toms et al. (Kanada) berichten von einer Studie, in der versucht wurde, die schon vor 30 Jahren von Tefko Saracevic3 erstellten fünf Relevanzdimensionen (kognitiv, motivational, situativ, thematisch und algorithmisch) zu operationalisieren und anhand von Recherchen mit einer Web-Suchmaschine zu untersuchen. Die Ergebnisse zeigten, dass sich diese fünf Dimensionen in drei Typen vereinen lassen, die Benutzer, System und Aufgabe repräsentieren. Von einer völlig anderen Seite nähern sich Olof Sundin und Jenny Johannison (Boras, Schweden) der Relevanzthematik, indem sie einen kommunikationsorientierten, neo-pragmatistischen Ansatz (nach Richard Rorty) wählen, um Informationssuche und Relevanz zu analysieren, und dabei auch auf das Werk von Michel Foucault zurückgreifen. Weitere interessante Artikel befassen sich mit Bradford's Law of Scattering (Hjørland & Nicolaisen), Information Sharing and Timing (Widén-Wulff & Davenport), Annotations as Context for Searching Documents (Agosti & Ferro), sowie dem Nutzen von neuen Informationsquellen wie Web Links, Newsgroups und Blogs für die sozial- und informationswissenschaftliche Forschung (Thelwall & Wouters). In Summe liegt hier ein interessantes und anspruchsvolles Buch vor - inhaltlich natürlich nicht gerade einheitlich und geschlossen, doch dies darf man bei einem Konferenzband ohnedies nicht erwarten. Manche der abgedruckten Beiträge sind sicher nicht einfach zu lesen, lohnen aber die Mühe. Auch für Praktiker aus Bibliothek und Information ist einiges dabei, sofern sie sich für die wissenschaftliche Basis ihrer Tätigkeit interessieren. Fachlich einschlägige Spezial- und grössere Allgemeinbibliotheken sollten das Werk daher unbedingt führen.
Context: Nature, Impact and Role ist ein typischer LNCS-Softcover-Band in sauberem TeX-Design und mutet mit knapp 50 Euro zwar nicht als wohlfeil an, liegt aber angesichts heutiger Buchpreise im Rahmen. Die Zahl der Tippfehler hält sich in Grenzen, ist jedoch gelegentlich peinlich (z.B. wenn man auf S. 2, noch dazu im Fettdruck, "Tractaus" anstelle von "Tractatus" lesen muss). Als Kuriosum am Rande sei erwähnt, dass die einleitend abgedruckte Namensliste des CoLIS-Programmkomitees, immerhin rund 50 Personen, vom Computer fein säuberlich sortiert wurde - dies allerdings nach dem Alphabet der Vornamen der Komiteemitglieder, was offenbar weder den Herausgebern noch dem Verlag aufgefallen ist."
- RVK
- SS 4800 [Informatik # Enzyklopädien und Handbücher. Kongreßberichte Schriftenreihe. Tafeln und Formelsammlungen # Schriftenreihen (indiv. Sign.) # Lecture notes in computer science]
-
Revolutionäre neue Suchvariante mit neuem grafischen Assoziativ-OPAC : Spidersearch von BOND
0.01
0.0143592805 = product of:
0.057437122 = sum of:
0.057437122 = weight(_text_:und in 2088) [ClassicSimilarity], result of:
0.057437122 = score(doc=2088,freq=18.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.36756828 = fieldWeight in 2088, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=2088)
0.25 = coord(1/4)
- Abstract
- "Ergonomisch" suchen! Ähnlich wie beim Surfen durch Webseiten, so navigiert der Leser mit SpiderSearch per Mausklick durch den Medienbestand der Bibliothek und erschließt diesen damit spielerisch. Wie kann man sich das vorstellen? SpiderSearch ist ein Zusatzmodul zum bewährten BOND-WebOPAC. Der Benutzer gibt, wie im normalen WebOPAC, sein gesuchtes Stichwort ein. Sofort setzt SpiderSearch den Begriff in das Zentrum einer grafischen Ergebnisoberfläche. Gleichzeitig bereitet SpiderSearch ein "semantisches Netz" mit "sinnvollen" Begriffen für die weitere Suche auf und stellt diese dem Leser in animierter visuell ansprechender Form zur Verfügung. Diese Begriffe (Assoziative) sind auf unterschiedliche Arten mit dem gesuchten Zentralbegriff verwandt. Sei es eine Wortverwandtschaft wie "Bibliothek" und "Bibliothekarin", eine Sinnverwandtschaft wie "Bibliothek" und "lesen" oder ein anderer sprachwissenschaftlicher Zusammenhang wie z.B. "Bibliothek" und "Ruhe". Die unterschiedlichen Verwandtschaftsarten werden durch unterschiedliche Farben und Größen deutlich. Zum Verfeinern kann der Benutzer einfach einen der verwandten Begriffe anklicken und die Suche wird um diesen Suchbegriff erweitert. So wird der Leser in seiner weiteren Suche quasi durch dieses "Netz" geführt. Eine revolutionäre Art der Suche, mit der die Bibliotheksbenutzer ihre eigenen Informationsnetze spinnen und einfach und sehr anschaulich den Medienbestand noch optimaler erschließen können.
-
BOND: Assoziativ-OPAC SpiderSearch (2003)
0.01
0.0143592805 = product of:
0.057437122 = sum of:
0.057437122 = weight(_text_:und in 2795) [ClassicSimilarity], result of:
0.057437122 = score(doc=2795,freq=18.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.36756828 = fieldWeight in 2795, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=2795)
0.25 = coord(1/4)
- Abstract
- Der Hersteller von Bibliothekssoftware BOND erweitert sein Produktangebot um eine innovative Neuheit, den Assoziativ-OPAC SpiderSearch. Dieser graphische Web-OPAC sucht zu einem Stichwort Assoziative, d.h. sinn- oder sprachwissenschaftlich verwandte Begriffe. Diese baut er spinnennetzartig um den zentralen Suchbegriff herum auf. Anhand der ihm angebotenen Assoziative kann sich der Leser sehr einfach und anschaulich durch den Medienbestand der Bibliothek klicken. So findet er schnell und komfortabel relevante Medien, die mit herkömmlichen Suchverfahren nur schwer recherchierbar wären. Mühsame Überlegungen über verwandte Suchbegriffe und angrenzende Themengebiete bleiben dem Benutzer erspart. Dies übernimmt SpiderSearch und navigiert den Benutzer ähnlich wie beim Surfen durch Webseiten durch sämtliche Themen, die mit dem Suchbegriff in Zusammenhang stehen. Auch aufwändiges Durchblättern einer riesigen Suchergebnisliste ist nicht nötig. Durch die im semantischen Netz vorgeschlagenen Begriffe, kann der Benutzer sein Thema genau eingrenzen und erhält in seiner Trefferliste nur passende Medien. Diese ordnet SpiderSearch nach ihrer Relevanz, so dass der Leser die benötigte Literatur einfach und komfortabel findet. Wie auch im normalen Web-OPAC enthält die Trefferliste Angaben zu Titel, Standort und Verfügbarkeit des Mediums. Zur einfachen Zuordnung der Medienart ist jedem Medium ein entsprechendes Symbol zugewiesen. Per Mausklick erhält der Benutzer Detailangaben zum Medium und optional eine Ansicht des Buchcovers. SpiderSearch ist ein Zusatzmodul zur Software BIBLIOTHECA2000 von BOND und setzt auf den Web-OPAL auf. Vor allem bei Öffentlichen Bibliotheken stößt SpiderSearch auf großes Interesse. Erste Anwender bieten Ihren Lesern bereits dieses neue Sucherlebnis.
-
Horch, A.; Kett, H.; Weisbecker, A.: Semantische Suchsysteme für das Internet : Architekturen und Komponenten semantischer Suchmaschinen (2013)
0.01
0.0143592805 = product of:
0.057437122 = sum of:
0.057437122 = weight(_text_:und in 63) [ClassicSimilarity], result of:
0.057437122 = score(doc=63,freq=18.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.36756828 = fieldWeight in 63, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=63)
0.25 = coord(1/4)
- Abstract
- In der heutigen Zeit nimmt die Flut an Informationen exponentiell zu. In dieser »Informationsexplosion« entsteht täglich eine unüberschaubare Menge an neuen Informationen im Web: Beispielsweise 430 deutschsprachige Artikel bei Wikipedia, 2,4 Mio. Tweets bei Twitter und 12,2 Mio. Kommentare bei Facebook. Während in Deutschland vor einigen Jahren noch Google als nahezu einzige Suchmaschine beim Zugriff auf Informationen im Web genutzt wurde, nehmen heute die u.a. in Social Media veröffentlichten Meinungen und damit die Vorauswahl sowie Bewertung von Informationen einzelner Experten und Meinungsführer an Bedeutung zu. Aber wie können themenspezifische Informationen nun effizient für konkrete Fragestellungen identifiziert und bedarfsgerecht aufbereitet und visualisiert werden? Diese Studie gibt einen Überblick über semantische Standards und Formate, die Prozesse der semantischen Suche, Methoden und Techniken semantischer Suchsysteme, Komponenten zur Entwicklung semantischer Suchmaschinen sowie den Aufbau bestehender Anwendungen. Die Studie erläutert den prinzipiellen Aufbau semantischer Suchsysteme und stellt Methoden der semantischen Suche vor. Zudem werden Softwarewerkzeuge vorgestellt, mithilfe derer einzelne Funktionalitäten von semantischen Suchmaschinen realisiert werden können. Abschließend erfolgt die Betrachtung bestehender semantischer Suchmaschinen zur Veranschaulichung der Unterschiede der Systeme im Aufbau sowie in der Funktionalität.
-
Gradmann, S.; Olensky, M.: Semantische Kontextualisierung von Museumsbeständen in Europeana (2013)
0.01
0.014069166 = product of:
0.056276664 = sum of:
0.056276664 = weight(_text_:und in 1939) [ClassicSimilarity], result of:
0.056276664 = score(doc=1939,freq=12.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.36014193 = fieldWeight in 1939, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=1939)
0.25 = coord(1/4)
- Abstract
- Europeana ist eine Initiative der Europäischen Kommission, die 2005 den Aufbau einer "Europäischen digitalen Bibliothek" als Teil ihrer i2010 Agenda ankündigte. Europeana soll ein gemeinsamer multilingualer Zugangspunkt zu Europas digitalem Kulturerbe und gleichzeitig mehr als "nur" eine digitale Bibliothek werden: eine offene Schnittstelle (API) für Wissenschaftsanwendungen, die ein Netzwerk von Objektsurrogaren darstellt, die semantikbasiertes Objektretrieval und - verwendung ermöglichen. Einerseits ist die semantische Kontextualisierung der digitalen Objekte eine unabdingbare Voraussetzung für effektives Information Retrieval, da aufgrund der Beschaffenheit der Öbjekte (bildlich, multimedial) deskriptive Metadaten meist nicht ausreichen, auf der anderen Seite bildet sie die Grundlage für neues Wissen. Kern geisteswissenschaftlicher Arbeit ist immer schon die Reaggregation und Interpretation kultureller Artefakte gewesen und Europeana ermöglicht nun mit (teil-)automatisierbaren, semantikbasierten Öperationen über große kulturelle Quellcorpora völlig neue Perspektiven für die digital humanities. Folglich hat Europeans das Potenzial eine Schlüsselressource der Geistes- und Kulturwissenschaften und damit Teil deren zukünftiger digitaler Arbeitsumgebungen zu werden.
-
Gillitzer, B.: Yewno (2017)
0.01
0.013806167 = product of:
0.05522467 = sum of:
0.05522467 = weight(_text_:und in 4447) [ClassicSimilarity], result of:
0.05522467 = score(doc=4447,freq=26.0), product of:
0.15626246 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.07045517 = queryNorm
0.3534097 = fieldWeight in 4447, product of:
5.0990195 = tf(freq=26.0), with freq of:
26.0 = termFreq=26.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=4447)
0.25 = coord(1/4)
- Abstract
- Yewno findet Themen und Konzepte (Suchbegriffe und ihre Abstraktionen) in englischsprachigen digitalen Texten mit Methoden des maschinellen Lernens und der künstlichen Intelligenz. Als Ergebnis Ihrer Suchanfrage werden die Konzepte, die Ihre Anfrage betreffen, in vielfältigen sachlichen Beziehungen als graphisches Netzwerk präsentiert, über das Sie einfach navigieren können. Auch versteckte thematische Beziehungen werden hier sichtbar gemacht, die vom Bekannten zu neuen Entdeckungen führen. Im Rahmen einer Pilotphase können Sie über einen interdisziplinären Ausschnitt aus aktuellen englischsprachigen Fachzeitschriften verschiedenster Fachgebiete recherchieren. Die zu den Themen gehörigen Artikel werden in Ausschnitten unmittelbar angezeigt und können in den meisten Fällen direkt als Volltext aufgerufen werden.
"Die Bayerische Staatsbibliothek testet den semantischen "Discovery Service" Yewno als zusätzliche thematische Suchmaschine für digitale Volltexte. Der Service ist unter folgendem Link erreichbar: https://www.bsb-muenchen.de/recherche-und-service/suchen-und-finden/yewno/. Das Identifizieren von Themen, um die es in einem Text geht, basiert bei Yewno alleine auf Methoden der künstlichen Intelligenz und des maschinellen Lernens. Dabei werden sie nicht - wie bei klassischen Katalogsystemen - einem Text als Ganzem zugeordnet, sondern der jeweiligen Textstelle. Die Eingabe eines Suchwortes bzw. Themas, bei Yewno "Konzept" genannt, führt umgehend zu einer grafischen Darstellung eines semantischen Netzwerks relevanter Konzepte und ihrer inhaltlichen Zusammenhänge. So ist ein Navigieren über thematische Beziehungen bis hin zu den Fundstellen im Text möglich, die dann in sogenannten Snippets angezeigt werden. In der Test-Anwendung der Bayerischen Staatsbibliothek durchsucht Yewno aktuell 40 Millionen englischsprachige Dokumente aus Publikationen namhafter Wissenschaftsverlage wie Cambridge University Press, Oxford University Press, Wiley, Sage und Springer, sowie Dokumente, die im Open Access verfügbar sind. Nach der dreimonatigen Testphase werden zunächst die Rückmeldungen der Nutzer ausgewertet. Ob und wann dann der Schritt von der klassischen Suchmaschine zum semantischen "Discovery Service" kommt und welche Bedeutung Anwendungen wie Yewno in diesem Zusammenhang einnehmen werden, ist heute noch nicht abzusehen. Die Software Yewno wurde vom gleichnamigen Startup in Zusammenarbeit mit der Stanford University entwickelt, mit der auch die Bayerische Staatsbibliothek eng kooperiert. [Inetbib-Posting vom 22.02.2017].
- Source
- https://www.bsb-muenchen.de/recherche-und-service/suchen-und-finden/yewno/
-
Koike, A.; Takagi, T.: Knowledge discovery based on an implicit and explicit conceptual network (2007)
0.01
0.013681569 = product of:
0.054726277 = sum of:
0.054726277 = weight(_text_:have in 1085) [ClassicSimilarity], result of:
0.054726277 = score(doc=1085,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2463409 = fieldWeight in 1085, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=1085)
0.25 = coord(1/4)
- Abstract
- The amount of knowledge accumulated in published scientific papers has increased due to the continuing progress being made in scientific research. Since numerous papers have only reported fragments of scientific facts, there are possibilities for discovering new knowledge by connecting these facts. We therefore developed a system called BioTermNet to draft a conceptual network with hybrid methods of information extraction and information retrieval. Two concepts are regarded as related in this system if (a) their relationship is clearly described in MEDLINE abstracts or (b) they have distinctively co-occurred in abstracts. PRIME data, including protein interactions and functions extracted by NLP techniques, are used in the former, and the Singhalmeasure for information retrieval is used in the latter. Relationships that are not clearly or directly described in an abstract can be extracted by connecting multiple concepts. To evaluate how well this system performs, Swanson's association between Raynaud's disease and fish oil and that between migraine and magnesium were tested with abstracts that had been published before the discovery of these associations. The result was that when start and end concepts were given, plausible and understandable intermediate concepts connecting them could be detected. When only the start concept was given, not only the focused concept (magnesium and fish oil) but also other probable concepts could be detected as related concept candidates. Finally, this system was applied to find diseases related to the BRCA1 gene. Some other new potentially related diseases were detected along with diseases whose relations to BRCA1 were already known.
-
Prasad, A.R.D.; Madalli, D.P.: Faceted infrastructure for semantic digital libraries (2008)
0.01
0.013681569 = product of:
0.054726277 = sum of:
0.054726277 = weight(_text_:have in 2905) [ClassicSimilarity], result of:
0.054726277 = score(doc=2905,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2463409 = fieldWeight in 2905, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=2905)
0.25 = coord(1/4)
- Abstract
- Purpose - The paper aims to argue that digital library retrieval should be based on semantic representations and propose a semantic infrastructure for digital libraries. Design/methodology/approach - The approach taken is formal model based on subject representation for digital libraries. Findings - Search engines and search techniques have fallen short of user expectations as they do not give context based retrieval. Deploying semantic web technologies would lead to efficient and more precise representation of digital library content and hence better retrieval. Though digital libraries often have metadata of information resources which can be accessed through OAI-PMH, much remains to be accomplished in making digital libraries semantic web compliant. This paper presents a semantic infrastructure for digital libraries, that will go a long way in providing them and web based information services with products highly customised to users needs. Research limitations/implications - Here only a model for semantic infrastructure is proposed. This model is proposed after studying current user-centric, top-down models adopted in digital library service architectures. Originality/value - This paper gives a generic model for building semantic infrastructure for digital libraries. Faceted ontologies for digital libraries is just one approach. But the same may be adopted by groups working with different approaches in building ontologies to realise efficient retrieval in digital libraries.
-
Bergamaschi, S.; Domnori, E.; Guerra, F.; Rota, S.; Lado, R.T.; Velegrakis, Y.: Understanding the semantics of keyword queries on relational data without accessing the instance (2012)
0.01
0.013681569 = product of:
0.054726277 = sum of:
0.054726277 = weight(_text_:have in 1431) [ClassicSimilarity], result of:
0.054726277 = score(doc=1431,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2463409 = fieldWeight in 1431, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=1431)
0.25 = coord(1/4)
- Abstract
- The birth of the Web has brought an exponential growth to the amount of the information that is freely available to the Internet population, overloading users and entangling their efforts to satisfy their information needs. Web search engines such Google, Yahoo, or Bing have become popular mainly due to the fact that they offer an easy-to-use query interface (i.e., based on keywords) and an effective and efficient query execution mechanism. The majority of these search engines do not consider information stored on the deep or hidden Web [9,28], despite the fact that the size of the deep Web is estimated to be much bigger than the surface Web [9,47]. There have been a number of systems that record interactions with the deep Web sources or automatically submit queries them (mainly through their Web form interfaces) in order to index their context. Unfortunately, this technique is only partially indexing the data instance. Moreover, it is not possible to take advantage of the query capabilities of data sources, for example, of the relational query features, because their interface is often restricted from the Web form. Besides, Web search engines focus on retrieving documents and not on querying structured sources, so they are unable to access information based on concepts.
-
Jiang, Y.; Zhang, X.; Tang, Y.; Nie, R.: Feature-based approaches to semantic similarity assessment of concepts using Wikipedia (2015)
0.01
0.013681569 = product of:
0.054726277 = sum of:
0.054726277 = weight(_text_:have in 3682) [ClassicSimilarity], result of:
0.054726277 = score(doc=3682,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2463409 = fieldWeight in 3682, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=3682)
0.25 = coord(1/4)
- Abstract
- Semantic similarity assessment between concepts is an important task in many language related applications. In the past, several approaches to assess similarity by evaluating the knowledge modeled in an (or multiple) ontology (or ontologies) have been proposed. However, there are some limitations such as the facts of relying on predefined ontologies and fitting non-dynamic domains in the existing measures. Wikipedia provides a very large domain-independent encyclopedic repository and semantic network for computing semantic similarity of concepts with more coverage than usual ontologies. In this paper, we propose some novel feature based similarity assessment methods that are fully dependent on Wikipedia and can avoid most of the limitations and drawbacks introduced above. To implement similarity assessment based on feature by making use of Wikipedia, firstly a formal representation of Wikipedia concepts is presented. We then give a framework for feature based similarity based on the formal representation of Wikipedia concepts. Lastly, we investigate several feature based approaches to semantic similarity measures resulting from instantiations of the framework. The evaluation, based on several widely used benchmarks and a benchmark developed in ourselves, sustains the intuitions with respect to human judgements. Overall, several methods proposed in this paper have good human correlation and constitute some effective ways of determining similarity between Wikipedia concepts.
-
Buccio, E. Di; Melucci, M.; Moro, F.: Detecting verbose queries and improving information retrieval (2014)
0.01
0.013681569 = product of:
0.054726277 = sum of:
0.054726277 = weight(_text_:have in 3695) [ClassicSimilarity], result of:
0.054726277 = score(doc=3695,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2463409 = fieldWeight in 3695, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=3695)
0.25 = coord(1/4)
- Abstract
- Although most of the queries submitted to search engines are composed of a few keywords and have a length that ranges from three to six words, more than 15% of the total volume of the queries are verbose, introduce ambiguity and cause topic drifts. We consider verbosity a different property of queries from length since a verbose query is not necessarily long, it might be succinct and a short query might be verbose. This paper proposes a methodology to automatically detect verbose queries and conditionally modify queries. The methodology proposed in this paper exploits state-of-the-art classification algorithms, combines concepts from a large linguistic database and uses a topic gisting algorithm we designed for verbose query modification purposes. Our experimental results have been obtained using the TREC Robust track collection, thirty topics classified by difficulty degree, four queries per topic classified by verbosity and length, and human assessment of query verbosity. Our results suggest that the methodology for query modification conditioned to query verbosity detection and topic gisting is significantly effective and that query modification should be refined when topic difficulty and query verbosity are considered since these two properties interact and query verbosity is not straightforwardly related to query length.
-
Jiang, Y.; Bai, W.; Zhang, X.; Hu, J.: Wikipedia-based information content and semantic similarity computation (2017)
0.01
0.013681569 = product of:
0.054726277 = sum of:
0.054726277 = weight(_text_:have in 3877) [ClassicSimilarity], result of:
0.054726277 = score(doc=3877,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2463409 = fieldWeight in 3877, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=3877)
0.25 = coord(1/4)
- Abstract
- The Information Content (IC) of a concept is a fundamental dimension in computational linguistics. It enables a better understanding of concept's semantics. In the past, several approaches to compute IC of a concept have been proposed. However, there are some limitations such as the facts of relying on corpora availability, manual tagging, or predefined ontologies and fitting non-dynamic domains in the existing methods. Wikipedia provides a very large domain-independent encyclopedic repository and semantic network for computing IC of concepts with more coverage than usual ontologies. In this paper, we propose some novel methods to IC computation of a concept to solve the shortcomings of existing approaches. The presented methods focus on the IC computation of a concept (i.e., Wikipedia category) drawn from the Wikipedia category structure. We propose several new IC-based measures to compute the semantic similarity between concepts. The evaluation, based on several widely used benchmarks and a benchmark developed in ourselves, sustains the intuitions with respect to human judgments. Overall, some methods proposed in this paper have a good human correlation and constitute some effective ways of determining IC values for concepts and semantic similarity between concepts.
-
Xu, B.; Lin, H.; Lin, Y.: Assessment of learning to rank methods for query expansion (2016)
0.01
0.013681569 = product of:
0.054726277 = sum of:
0.054726277 = weight(_text_:have in 3929) [ClassicSimilarity], result of:
0.054726277 = score(doc=3929,freq=4.0), product of:
0.22215667 = queryWeight, product of:
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.07045517 = queryNorm
0.2463409 = fieldWeight in 3929, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
3.1531634 = idf(docFreq=5157, maxDocs=44421)
0.0390625 = fieldNorm(doc=3929)
0.25 = coord(1/4)
- Abstract
- Pseudo relevance feedback, as an effective query expansion method, can significantly improve information retrieval performance. However, the method may negatively impact the retrieval performance when some irrelevant terms are used in the expanded query. Therefore, it is necessary to refine the expansion terms. Learning to rank methods have proven effective in information retrieval to solve ranking problems by ranking the most relevant documents at the top of the returned list, but few attempts have been made to employ learning to rank methods for term refinement in pseudo relevance feedback. This article proposes a novel framework to explore the feasibility of using learning to rank to optimize pseudo relevance feedback by means of reranking the candidate expansion terms. We investigate some learning approaches to choose the candidate terms and introduce some state-of-the-art learning to rank methods to refine the expansion terms. In addition, we propose two term labeling strategies and examine the usefulness of various term features to optimize the framework. Experimental results with three TREC collections show that our framework can effectively improve retrieval performance.