-
Nohr, H.: Grundlagen der automatischen Indexierung : ein Lehrbuch (2003)
0.09
0.09158384 = product of:
0.18316768 = sum of:
0.12244319 = weight(_text_:jedes in 2767) [ClassicSimilarity], result of:
0.12244319 = score(doc=2767,freq=2.0), product of:
0.43985796 = queryWeight, product of:
6.2987905 = idf(docFreq=221, maxDocs=44421)
0.06983213 = queryNorm
0.27836984 = fieldWeight in 2767, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
6.2987905 = idf(docFreq=221, maxDocs=44421)
0.03125 = fieldNorm(doc=2767)
0.060724486 = weight(_text_:und in 2767) [ClassicSimilarity], result of:
0.060724486 = score(doc=2767,freq=32.0), product of:
0.15488061 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06983213 = queryNorm
0.39207286 = fieldWeight in 2767, product of:
5.656854 = tf(freq=32.0), with freq of:
32.0 = termFreq=32.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=2767)
0.5 = coord(2/4)
- Footnote
- Rez. in: nfd 54(2003) H.5, S.314 (W. Ratzek): "Um entscheidungsrelevante Daten aus der ständig wachsenden Flut von mehr oder weniger relevanten Dokumenten zu extrahieren, müssen Unternehmen, öffentliche Verwaltung oder Einrichtungen der Fachinformation effektive und effiziente Filtersysteme entwickeln, einsetzen und pflegen. Das vorliegende Lehrbuch von Holger Nohr bietet erstmalig eine grundlegende Einführung in das Thema "automatische Indexierung". Denn: "Wie man Information sammelt, verwaltet und verwendet, wird darüber entscheiden, ob man zu den Gewinnern oder Verlierern gehört" (Bill Gates), heißt es einleitend. Im ersten Kapitel "Einleitung" stehen die Grundlagen im Mittelpunkt. Die Zusammenhänge zwischen Dokumenten-Management-Systeme, Information Retrieval und Indexierung für Planungs-, Entscheidungs- oder Innovationsprozesse, sowohl in Profit- als auch Non-Profit-Organisationen werden beschrieben. Am Ende des einleitenden Kapitels geht Nohr auf die Diskussion um die intellektuelle und automatische Indexierung ein und leitet damit über zum zweiten Kapitel "automatisches Indexieren. Hier geht der Autor überblickartig unter anderem ein auf - Probleme der automatischen Sprachverarbeitung und Indexierung - verschiedene Verfahren der automatischen Indexierung z.B. einfache Stichwortextraktion / Volltextinvertierung, - statistische Verfahren, Pattern-Matching-Verfahren. Die "Verfahren der automatischen Indexierung" behandelt Nohr dann vertiefend und mit vielen Beispielen versehen im umfangreichsten dritten Kapitel. Das vierte Kapitel "Keyphrase Extraction" nimmt eine Passpartout-Status ein: "Eine Zwischenstufe auf dem Weg von der automatischen Indexierung hin zur automatischen Generierung textueller Zusammenfassungen (Automatic Text Summarization) stellen Ansätze dar, die Schlüsselphrasen aus Dokumenten extrahieren (Keyphrase Extraction). Die Grenzen zwischen den automatischen Verfahren der Indexierung und denen des Text Summarization sind fließend." (S. 91). Am Beispiel NCR"s Extractor/Copernic Summarizer beschreibt Nohr die Funktionsweise.
Im fünften Kapitel "Information Extraction" geht Nohr auf eine Problemstellung ein, die in der Fachwelt eine noch stärkere Betonung verdiente: "Die stetig ansteigende Zahl elektronischer Dokumente macht neben einer automatischen Erschließung auch eine automatische Gewinnung der relevanten Informationen aus diesen Dokumenten wünschenswert, um diese z.B. für weitere Bearbeitungen oder Auswertungen in betriebliche Informationssysteme übernehmen zu können." (S. 103) "Indexierung und Retrievalverfahren" als voneinander abhängige Verfahren werden im sechsten Kapitel behandelt. Hier stehen Relevance Ranking und Relevance Feedback sowie die Anwendung informationslinguistischer Verfahren in der Recherche im Mittelpunkt. Die "Evaluation automatischer Indexierung" setzt den thematischen Schlusspunkt. Hier geht es vor allem um die Oualität einer Indexierung, um gängige Retrievalmaße in Retrievaltest und deren Einssatz. Weiterhin ist hervorzuheben, dass jedes Kapitel durch die Vorgabe von Lernzielen eingeleitet wird und zu den jeweiligen Kapiteln (im hinteren Teil des Buches) einige Kontrollfragen gestellt werden. Die sehr zahlreichen Beispiele aus der Praxis, ein Abkürzungsverzeichnis und ein Sachregister erhöhen den Nutzwert des Buches. Die Lektüre förderte beim Rezensenten das Verständnis für die Zusammenhänge von BID-Handwerkzeug, Wirtschaftsinformatik (insbesondere Data Warehousing) und Künstlicher Intelligenz. Die "Grundlagen der automatischen Indexierung" sollte auch in den bibliothekarischen Studiengängen zur Pflichtlektüre gehören. Holger Nohrs Lehrbuch ist auch für den BID-Profi geeignet, um die mehr oder weniger fundierten Kenntnisse auf dem Gebiet "automatisches Indexieren" schnell, leicht verständlich und informativ aufzufrischen."
-
Kaiser, A.: Computer-unterstütztes Indexieren in Intelligenten Information Retrieval Systemen : Ein Relevanz-Feedback orientierter Ansatz zur Informationserschließung in unformatierten Datenbanken (1993)
0.07
0.07137571 = product of:
0.14275143 = sum of:
0.09183239 = weight(_text_:jedes in 284) [ClassicSimilarity], result of:
0.09183239 = score(doc=284,freq=2.0), product of:
0.43985796 = queryWeight, product of:
6.2987905 = idf(docFreq=221, maxDocs=44421)
0.06983213 = queryNorm
0.20877738 = fieldWeight in 284, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
6.2987905 = idf(docFreq=221, maxDocs=44421)
0.0234375 = fieldNorm(doc=284)
0.05091903 = weight(_text_:und in 284) [ClassicSimilarity], result of:
0.05091903 = score(doc=284,freq=40.0), product of:
0.15488061 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06983213 = queryNorm
0.3287631 = fieldWeight in 284, product of:
6.3245554 = tf(freq=40.0), with freq of:
40.0 = termFreq=40.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0234375 = fieldNorm(doc=284)
0.5 = coord(2/4)
- Abstract
- Information ist in unserer Zeit zu einem sehr wichtigen Gut geworden. Sie ist Grundlage jeglicher seriösen Entscheidungsfindung. Die Informationsflut ist in den letzten Jahren stark angestiegen und auch in absehbarer Zeit wird die Menge der Informationen weiter anwachsen. Daher wird es immer wichtiger, sich ''Information über Information'' zu organisieren. Es ist nicht möglich, über alle Bereiche, mit denen man konfrontiert wird, im letzten Detail informiert zu sein. Notwendig und wichtig ist es aber zu wissen, wo man sich informieren kann. Relevante Informationen müssen möglichst rasch gefunden werden können. Im praktischen, EDV-unterstützten Einsatz findet man zu diesem Zweck Informationssysteme verschiedenster Art. Das Spektrum reicht dabei von Management-Informationssystemen, über Expertensysteme bis zu Datenbanksystemen und Information Retrieval Systemen (IR-Systemen). Obwohl die einzelnen Typen dieser informationsverarbeitenden Systeme für unterschiedliche Anwendergruppen und unterschiedliche Aufgabenarten konzipiert sind, ergeben sich beim Entwurf der Systeme doch sehr ähnlich gelagerte Problemkreise und Fragestellungen. * Die Darstellung und die Organisation von bestehendem Wissen und bekannten Fakten im Informationssystem (Informationserschließung). * Das (Wieder)finden relevanter Informationen aus dem Informationssystem und das Führen des Benutzers durch das Informationssystem. Ein Information Retrieval System beinhaltet unstrukturierte bibliographische oder textuelle Dokumente und unterscheidet sich dadurch wesentlich von Datenbanksystemen, die für gewöhnlich strukturierte Daten enthalten.
Konventionelle, formatierte Datenbanken sind heute in der Praxis bereits weit verbreitet. Dies nicht zuletzt auch deshalb, weil unter anderem die standardisierte Abfragesprache SQL existiert und insbesondere bei relationalen Datenbanksystemen die Forschung intensiv an Verbesserungen in Aufbau und Performance der Systeme arbeitet. Die Verbreitung und Akzeptanz von unformatierten Datenbanken, Information Retrieval Systemen, ist hingegen bei weitem nicht so weit gediehen. Ein Grund dafür ist in der mangelnden Benutzerfreundlichkeit der IR-Systeme und in unzulänglichen Methoden der Informationserschließung zu suchen. Mit der vorliegenden Arbeit soll eine Methode zur Informationserschliessung in Information Retrieval Systemen entwickelt werden, die die Bedürfnisse des Benutzers in den Mittelpunkt stellt und so einen Beitrag dazu leistet, die Akzeptanz und Verbreitung von Information Retrieval Systemen, insbesondere für den Bürobereich, zu erhöhen. Die Fragestellung lautet somit: Ist es möglich, den Benutzer bereits im Stadium der Indexierung von Dokumenten in verstärktem Maße miteinzubeziehen, ohne dabei aber auf die maschinelle Unterstützung völlig zu verzichten, wie dies bei der manuellen Indexierung der Fall ist. Jedes Retrievalsystem kann als ein System beschrieben werden, das aus einer Menge von Dokumenten und einer Menge von Suchfragen besteht und das einen Mechanismus enthält, der die für eine Suchanfrage relevanten Dokumente bestimmt.
Dazu sind folgende Teile eines IR-Systems notwendig: * Informationserschließung Eine Komponente zur Erschließung und Darstellung der gespeicherten Informationen. Dieser Teil dient dazu, den Inhalt der Dokumente zu beschreiben und so darzustellen, daß aufgrund dieser Merkmale ein Dokument gefunden werden kann. Eine Möglichkeit dazu besteht darin, den Dokumenten inhaltsbeschreibende Deskriptoren zuzuordnen. Durch den Prozeß der Indexierung werden die Dokumente in eine Indexierungssprache übersetzt. * Query-Language (Abfragesprache) Eine Komponente zur Formulierung der Suchanfragen des Benutzers. Dieser Teil dient dazu, die Suchanfrage des Benutzers so zu verarbeiten, daß mit der aus der Frage gewonnenen Information über die Bedürfnisse des Benutzers die passenden Dokumente gefunden werden können. * Informationsausgabe - Informationsaufbereitung Eine Komponente zur Ausgabe der auf Grund der Suchanfrage gefundenen Informationen. Dieser Teil stellt das Ergebnis der Suchanfrage dem Benutzer zur Verfügung.
Es würde den Rahmen der Arbeit sprengen, alle Komponenten eines Information Retrieval Systems zu untersuchen. Daher wird ein Schwerpunkt auf die Informationserschließung gelegt. Dabei wird die (semi)automatische Indexierung von Dokumenten zum Zwecke des Information Retrievals, also der Vorgang der Übersetzung der Dokumente in eine Indexierungssprache genauer behandelt. Dieser Schwerpunkt wurde unter anderem deshalb gewählt, weil meiner Ansicht nach die festzustellende mangelnde Akzeptanz von Information Retrieval Systemen auch damit zu begründen ist, daß die in der Praxis eingesetzten Indexierungskomponenten der Systeme zur Zeit noch nicht den Leistungsumfang erbringen, den der Benutzer von einem ''Intelligenten Information Retrieval System'' erwartet. Ziel der Arbeit ist es, ein Modell zur automatischen Indexierung schrittweise zu entwickeln, das den Benutzer in stärkerem Maße in die Indexierung mit einbezieht, als dies bei den in Literatur und Praxis beschriebenen Verfahren der Fall ist.
-
Tavakolizadeh-Ravari, M.: Analysis of the long term dynamics in thesaurus developments and its consequences (2017)
0.06
0.060336664 = product of:
0.12067333 = sum of:
0.048006922 = weight(_text_:und in 4081) [ClassicSimilarity], result of:
0.048006922 = score(doc=4081,freq=20.0), product of:
0.15488061 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06983213 = queryNorm
0.3099608 = fieldWeight in 4081, product of:
4.472136 = tf(freq=20.0), with freq of:
20.0 = termFreq=20.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=4081)
0.07266641 = weight(_text_:headings in 4081) [ClassicSimilarity], result of:
0.07266641 = score(doc=4081,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.21444786 = fieldWeight in 4081, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.03125 = fieldNorm(doc=4081)
0.5 = coord(2/4)
- Abstract
- Die Arbeit analysiert die dynamische Entwicklung und den Gebrauch von Thesaurusbegriffen. Zusätzlich konzentriert sie sich auf die Faktoren, die die Zahl von Indexbegriffen pro Dokument oder Zeitschrift beeinflussen. Als Untersuchungsobjekt dienten der MeSH und die entsprechende Datenbank "MEDLINE". Die wichtigsten Konsequenzen sind: 1. Der MeSH-Thesaurus hat sich durch drei unterschiedliche Phasen jeweils logarithmisch entwickelt. Solch einen Thesaurus sollte folgenden Gleichung folgen: "T = 3.076,6 Ln (d) - 22.695 + 0,0039d" (T = Begriffe, Ln = natürlicher Logarithmus und d = Dokumente). Um solch einen Thesaurus zu konstruieren, muss man demnach etwa 1.600 Dokumente von unterschiedlichen Themen des Bereiches des Thesaurus haben. Die dynamische Entwicklung von Thesauri wie MeSH erfordert die Einführung eines neuen Begriffs pro Indexierung von 256 neuen Dokumenten. 2. Die Verteilung der Thesaurusbegriffe erbrachte drei Kategorien: starke, normale und selten verwendete Headings. Die letzte Gruppe ist in einer Testphase, während in der ersten und zweiten Kategorie die neu hinzukommenden Deskriptoren zu einem Thesauruswachstum führen. 3. Es gibt ein logarithmisches Verhältnis zwischen der Zahl von Index-Begriffen pro Aufsatz und dessen Seitenzahl für die Artikeln zwischen einer und einundzwanzig Seiten. 4. Zeitschriftenaufsätze, die in MEDLINE mit Abstracts erscheinen erhalten fast zwei Deskriptoren mehr. 5. Die Findablity der nicht-englisch sprachigen Dokumente in MEDLINE ist geringer als die englische Dokumente. 6. Aufsätze der Zeitschriften mit einem Impact Factor 0 bis fünfzehn erhalten nicht mehr Indexbegriffe als die der anderen von MEDINE erfassten Zeitschriften. 7. In einem Indexierungssystem haben unterschiedliche Zeitschriften mehr oder weniger Gewicht in ihrem Findability. Die Verteilung der Indexbegriffe pro Seite hat gezeigt, dass es bei MEDLINE drei Kategorien der Publikationen gibt. Außerdem gibt es wenige stark bevorzugten Zeitschriften."
- Footnote
- Dissertation, Humboldt-Universität zu Berlin - Institut für Bibliotheks- und Informationswissenschaft.
- Imprint
- Berlin : Humboldt-Universität zu Berlin / Institut für Bibliotheks- und Informationswissenschaft
- Theme
- Konzeption und Anwendung des Prinzips Thesaurus
-
Plaunt, C.; Norgard, B.A.: ¬An association-based method for automatic indexing with a controlled vocabulary (1998)
0.06
0.055623632 = product of:
0.22249453 = sum of:
0.22249453 = weight(_text_:headings in 2794) [ClassicSimilarity], result of:
0.22249453 = score(doc=2794,freq=12.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.6566098 = fieldWeight in 2794, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0390625 = fieldNorm(doc=2794)
0.25 = coord(1/4)
- Abstract
- In this article, we describe and test a two-stage algorithm based on a lexical collocation technique which maps from the lexical clues contained in a document representation into a controlled vocabulary list of subject headings. Using a collection of 4.626 INSPEC documents, we create a 'dictionary' of associations between the lexical items contained in the titles, authors, and abstracts, and controlled vocabulary subject headings assigned to those records by human indexers using a likelihood ratio statistic as the measure of association. In the deployment stage, we use the dictiony to predict which of the controlled vocabulary subject headings best describe new documents when they are presented to the system. Our evaluation of this algorithm, in which we compare the automatically assigned subject headings to the subject headings assigned to the test documents by human catalogers, shows that we can obtain results comparable to, and consistent with, human cataloging. In effect we have cast this as a classic partial match information retrieval problem. We consider the problem to be one of 'retrieving' (or assigning) the most probably 'relevant' (or correct) controlled vocabulary subject headings to a document based on the clues contained in that document
-
Olsgaard, J.N.; Evans, E.J.: Improving keyword indexing (1981)
0.05
0.045416504 = product of:
0.18166602 = sum of:
0.18166602 = weight(_text_:headings in 5064) [ClassicSimilarity], result of:
0.18166602 = score(doc=5064,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.53611964 = fieldWeight in 5064, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.078125 = fieldNorm(doc=5064)
0.25 = coord(1/4)
- Abstract
- This communication examines some of the most frequently cited critisms of keyword indexing. These critisms include (1) absence of general subject headings, (2) limited entry points, and (3) irrelevant indexing. Some solutions are suggested to meet these critisms.
-
Junger, U.: Can indexing be automated? : the example of the Deutsche Nationalbibliothek (2012)
0.04
0.044960048 = product of:
0.17984019 = sum of:
0.17984019 = weight(_text_:headings in 2717) [ClassicSimilarity], result of:
0.17984019 = score(doc=2717,freq=4.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.5307314 = fieldWeight in 2717, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=2717)
0.25 = coord(1/4)
- Abstract
- The German subject headings authority file (Schlagwortnormdatei/SWD) provides a broad controlled vocabulary for indexing documents of all subjects. Traditionally used for intellectual subject cataloguing primarily of books the Deutsche Nationalbibliothek (DNB, German National Library) has been working on developping and implementing procedures for automated assignment of subject headings for online publications. This project, its results and problems are sketched in the paper.
-
Short, M.: Text mining and subject analysis for fiction; or, using machine learning and information extraction to assign subject headings to dime novels (2019)
0.04
0.044960048 = product of:
0.17984019 = sum of:
0.17984019 = weight(_text_:headings in 481) [ClassicSimilarity], result of:
0.17984019 = score(doc=481,freq=4.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.5307314 = fieldWeight in 481, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=481)
0.25 = coord(1/4)
- Abstract
- This article describes multiple experiments in text mining at Northern Illinois University that were undertaken to improve the efficiency and accuracy of cataloging. It focuses narrowly on subject analysis of dime novels, a format of inexpensive fiction that was popular in the United States between 1860 and 1915. NIU holds more than 55,000 dime novels in its collections, which it is in the process of comprehensively digitizing. Classification, keyword extraction, named-entity recognition, clustering, and topic modeling are discussed as means of assigning subject headings to improve their discoverability by researchers and to increase the productivity of digitization workflows.
-
Willis, C.; Losee, R.M.: ¬A random walk on an ontology : using thesaurus structure for automatic subject indexing (2013)
0.04
0.043923765 = product of:
0.08784753 = sum of:
0.015181121 = weight(_text_:und in 2016) [ClassicSimilarity], result of:
0.015181121 = score(doc=2016,freq=2.0), product of:
0.15488061 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06983213 = queryNorm
0.098018214 = fieldWeight in 2016, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=2016)
0.07266641 = weight(_text_:headings in 2016) [ClassicSimilarity], result of:
0.07266641 = score(doc=2016,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.21444786 = fieldWeight in 2016, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.03125 = fieldNorm(doc=2016)
0.5 = coord(2/4)
- Abstract
- Relationships between terms and features are an essential component of thesauri, ontologies, and a range of controlled vocabularies. In this article, we describe ways to identify important concepts in documents using the relationships in a thesaurus or other vocabulary structures. We introduce a methodology for the analysis and modeling of the indexing process based on a weighted random walk algorithm. The primary goal of this research is the analysis of the contribution of thesaurus structure to the indexing process. The resulting models are evaluated in the context of automatic subject indexing using four collections of documents pre-indexed with 4 different thesauri (AGROVOC [UN Food and Agriculture Organization], high-energy physics taxonomy [HEP], National Agricultural Library Thesaurus [NALT], and medical subject headings [MeSH]). We also introduce a thesaurus-centric matching algorithm intended to improve the quality of candidate concepts. In all cases, the weighted random walk improves automatic indexing performance over matching alone with an increase in average precision (AP) of 9% for HEP, 11% for MeSH, 35% for NALT, and 37% for AGROVOC. The results of the analysis support our hypothesis that subject indexing is in part a browsing process, and that using the vocabulary and its structure in a thesaurus contributes to the indexing process. The amount that the vocabulary structure contributes was found to differ among the 4 thesauri, possibly due to the vocabulary used in the corresponding thesauri and the structural relationships between the terms. Each of the thesauri and the manual indexing associated with it is characterized using the methods developed here.
- Theme
- Konzeption und Anwendung des Prinzips Thesaurus
-
Abdul, H.; Khoo, C.: Automatic indexing of medical literature using phrase matching : an exploratory study
0.04
0.036333203 = product of:
0.14533281 = sum of:
0.14533281 = weight(_text_:headings in 3669) [ClassicSimilarity], result of:
0.14533281 = score(doc=3669,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.4288957 = fieldWeight in 3669, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0625 = fieldNorm(doc=3669)
0.25 = coord(1/4)
- Abstract
- Reports the 1st part of a study to apply the technique of phrase matching to the automatic assignment of MeSH subject headings and subheadings to abstracts of periodical articles.
-
Losee, R.M.: ¬A Gray code based ordering for documents on shelves : classification for browsing and retrieval (1992)
0.03
0.031791553 = product of:
0.12716621 = sum of:
0.12716621 = weight(_text_:headings in 2334) [ClassicSimilarity], result of:
0.12716621 = score(doc=2334,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.37528375 = fieldWeight in 2334, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=2334)
0.25 = coord(1/4)
- Abstract
- A document classifier places documents together in a linear arrangement for browsing or high-speed access by human or computerised information retrieval systems. Requirements for document classification and browsing systems are developed from similarity measures, distance measures, and the notion of subject aboutness. A requirement that documents be arranged in decreasing order of similarity as the distance from a given document increases can often not be met. Based on these requirements, information-theoretic considerations, and the Gray code, a classification system is proposed that can classifiy documents without human intervention. A measure of classifier performance is developed, and used to evaluate experimental results comparing the distance between subject headings assigned to documents given classifications from the proposed system and the Library of Congress Classification (LCC) system
-
Shafer, K.: Scorpion Project explores using Dewey to organize the Web (1996)
0.03
0.031791553 = product of:
0.12716621 = sum of:
0.12716621 = weight(_text_:headings in 6818) [ClassicSimilarity], result of:
0.12716621 = score(doc=6818,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.37528375 = fieldWeight in 6818, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=6818)
0.25 = coord(1/4)
- Abstract
- As the amount of accessible information on the WWW increases, so will the cost of accessing it, even if search servcies remain free, due to the increasing amount of time users will have to spend to find needed items. Considers what the seemingly unorganized Web and the organized world of libraries can offer each other. The OCLC Scorpion Project is attempting to combine indexing and cataloguing, specifically focusing on building tools for automatic subject recognition using the technqiues of library science and information retrieval. If subject headings or concept domains can be automatically assigned to electronic items, improved filtering tools for searching can be produced
-
Junger, U.: Can indexing be automated? : the example of the Deutsche Nationalbibliothek (2014)
0.03
0.031791553 = product of:
0.12716621 = sum of:
0.12716621 = weight(_text_:headings in 2969) [ClassicSimilarity], result of:
0.12716621 = score(doc=2969,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.37528375 = fieldWeight in 2969, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=2969)
0.25 = coord(1/4)
- Abstract
- The German Integrated Authority File (Gemeinsame Normdatei, GND), provides a broad controlled vocabulary for indexing documents on all subjects. Traditionally used for intellectual subject cataloging primarily for books, the Deutsche Nationalbibliothek (DNB, German National Library) has been working on developing and implementing procedures for automated assignment of subject headings for online publications. This project, its results, and problems are outlined in this article.
-
Moulaison-Sandy, H.; Adkins, D.; Bossaller, J.; Cho, H.: ¬An automated approach to describing fiction : a methodology to use book reviews to identify affect (2021)
0.03
0.031791553 = product of:
0.12716621 = sum of:
0.12716621 = weight(_text_:headings in 1711) [ClassicSimilarity], result of:
0.12716621 = score(doc=1711,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.37528375 = fieldWeight in 1711, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=1711)
0.25 = coord(1/4)
- Abstract
- Subject headings and genre terms are notoriously difficult to apply, yet are important for fiction. The current project functions as a proof of concept, using a text-mining methodology to identify affective information (emotion and tone) about fiction titles from professional book reviews as a potential first step in automating the subject analysis process. Findings are presented and discussed, comparing results to the range of aboutness and isness information in library cataloging records. The methodology is likewise presented, and how future work might expand on the current project to enhance catalog records through text-mining is explored.
-
Chou, C.; Chu, T.: ¬An analysis of BERT (NLP) for assisted subject indexing for Project Gutenberg (2022)
0.03
0.031791553 = product of:
0.12716621 = sum of:
0.12716621 = weight(_text_:headings in 2141) [ClassicSimilarity], result of:
0.12716621 = score(doc=2141,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.37528375 = fieldWeight in 2141, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=2141)
0.25 = coord(1/4)
- Abstract
- In light of AI (Artificial Intelligence) and NLP (Natural language processing) technologies, this article examines the feasibility of using AI/NLP models to enhance the subject indexing of digital resources. While BERT (Bidirectional Encoder Representations from Transformers) models are widely used in scholarly communities, the authors assess whether BERT models can be used in machine-assisted indexing in the Project Gutenberg collection, through suggesting Library of Congress subject headings filtered by certain Library of Congress Classification subclass labels. The findings of this study are informative for further research on BERT models to assist with automatic subject indexing for digital library collections.
-
Gil-Leiva, I.: SISA-automatic indexing system for scientific articles : experiments with location heuristics rules versus TF-IDF rules (2017)
0.03
0.027249902 = product of:
0.10899961 = sum of:
0.10899961 = weight(_text_:headings in 4622) [ClassicSimilarity], result of:
0.10899961 = score(doc=4622,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.32167178 = fieldWeight in 4622, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.046875 = fieldNorm(doc=4622)
0.25 = coord(1/4)
- Abstract
- Indexing is contextualized and a brief description is provided of some of the most used automatic indexing systems. We describe SISA, a system which uses location heuristics rules, statistical rules like term frequency (TF) or TF-IDF to obtain automatic or semi-automatic indexing, depending on the user's preference. The aim of this research is to ascertain which rules (location heuristics rules or TF-IDF rules) provide the best indexing terms. SISA is used to obtain the automatic indexing of 200 scientific articles on fruit growing written in Portuguese. It uses, on the one hand, location heuristics rules founded on the value of certain parts of the articles for indexing such as titles, abstracts, keywords, headings, first paragraph, conclusions and references and, on the other, TF-IDF rules. The indexing is then evaluated to ascertain retrieval performance through recall, precision and f-measure. Automatic indexing of the articles with location heuristics rules provided the best results with the evaluation measures.
-
Thönssen, B.: Automatische Indexierung und Schnittstellen zu Thesauri (1988)
0.02
0.02324125 = product of:
0.092965 = sum of:
0.092965 = weight(_text_:und in 29) [ClassicSimilarity], result of:
0.092965 = score(doc=29,freq=12.0), product of:
0.15488061 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06983213 = queryNorm
0.60023654 = fieldWeight in 29, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.078125 = fieldNorm(doc=29)
0.25 = coord(1/4)
- Abstract
- Über eine Schnittstelle zwischen Programmen zur automatischen Indexierung (PRIMUS-IDX) und zur maschinellen Thesaurusverwaltung (INDEX) sollen große Textmengen schnell, kostengünstig und konsistent erschlossen und verbesserte Recherchemöglichkeiten geschaffen werden. Zielvorstellung ist ein Verfahren, das auf PCs ablauffähig ist und speziell deutschsprachige Texte bearbeiten kann
- Theme
- Konzeption und Anwendung des Prinzips Thesaurus
-
Hauer, M.: Neue Qualitäten in Bibliotheken : Durch Content-Ergänzung, maschinelle Indexierung und modernes Information Retrieval können Recherchen in Bibliothekskatalogen deutlich verbessert werden (2004)
0.02
0.02277168 = product of:
0.09108672 = sum of:
0.09108672 = weight(_text_:und in 1886) [ClassicSimilarity], result of:
0.09108672 = score(doc=1886,freq=18.0), product of:
0.15488061 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06983213 = queryNorm
0.58810925 = fieldWeight in 1886, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=1886)
0.25 = coord(1/4)
- Abstract
- Seit Frühjahr 2004 ist Dandelon.com als neues, offenes, internationales Wissenschaftsportal in Betrieb. Erste Retrieval-Tests bescheinigen deutlich bessere Suchergebnisse als in herkömmlichen OPACs oder Verbundsystemen. Seine Daten stammen aus intelligentCAPTURE und Bibliothekskatalogen. intelligentCAPTURE erfasst Content über Scanning oder File-Import oder Web-Spidering und indexiert nach morphosyntaktischen und semantischen Verfahren. Aufbereiteter Content und Indexate gehen an Bibliothekssysteme und an dandelon.com. Dandelon.com ist kostenlos zugänglich für Endbenutzer und ist zugleich Austauschzentrale und Katalogerweiterung für angeschlossene Bibliotheken. Neue Inhalte können so kostengünstig und performant erschlossen werden.
-
Vledutz-Stokolov, N.: Concept recognition in an automatic text-processing system for the life sciences (1987)
0.02
0.022708252 = product of:
0.09083301 = sum of:
0.09083301 = weight(_text_:headings in 2848) [ClassicSimilarity], result of:
0.09083301 = score(doc=2848,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.26805982 = fieldWeight in 2848, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0390625 = fieldNorm(doc=2848)
0.25 = coord(1/4)
- Abstract
- This article describes a natural-language text-processing system designed as an automatic aid to subject indexing at BIOSIS. The intellectual procedure the system should model is a deep indexing with a controlled vocabulary of biological concepts - Concept Headings (CHs). On the average, ten CHs are assigned to each article by BIOSIS indexers. The automatic procedure consists of two stages: (1) translation of natural-language biological titles into title-semantic representations which are in the constructed formalized language of Concept Primitives, and (2) translation of the latter representations into the language of CHs. The first stage is performed by matching the titles agianst the system's Semantic Vocabulary (SV). The SV currently contains approximately 15.000 biological natural-language terms and their translations in the language of Concept Primitives. Tor the ambiguous terms, the SV contains the algorithmical rules of term disambiguation, ruels based on semantic analysis of the contexts. The second stage of the automatic procedure is performed by matching the title representations against the CH definitions, formulated as Boolean search strategies in the language of Concept Primitives. Three experiments performed with the system and their results are decribed. The most typical problems the system encounters, the problems of lexical and situational ambiguities, are discussed. The disambiguation techniques employed are described and demonstrated in many examples
-
Golub, K.; Lykke, M.; Tudhope, D.: Enhancing social tagging with automated keywords from the Dewey Decimal Classification (2014)
0.02
0.022708252 = product of:
0.09083301 = sum of:
0.09083301 = weight(_text_:headings in 3918) [ClassicSimilarity], result of:
0.09083301 = score(doc=3918,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.26805982 = fieldWeight in 3918, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0390625 = fieldNorm(doc=3918)
0.25 = coord(1/4)
- Abstract
- Purpose - The purpose of this paper is to explore the potential of applying the Dewey Decimal Classification (DDC) as an established knowledge organization system (KOS) for enhancing social tagging, with the ultimate purpose of improving subject indexing and information retrieval. Design/methodology/approach - Over 11.000 Intute metadata records in politics were used. Totally, 28 politics students were each given four tasks, in which a total of 60 resources were tagged in two different configurations, one with uncontrolled social tags only and another with uncontrolled social tags as well as suggestions from a controlled vocabulary. The controlled vocabulary was DDC comprising also mappings from the Library of Congress Subject Headings. Findings - The results demonstrate the importance of controlled vocabulary suggestions for indexing and retrieval: to help produce ideas of which tags to use, to make it easier to find focus for the tagging, to ensure consistency and to increase the number of access points in retrieval. The value and usefulness of the suggestions proved to be dependent on the quality of the suggestions, both as to conceptual relevance to the user and as to appropriateness of the terminology. Originality/value - No research has investigated the enhancement of social tagging with suggestions from the DDC, an established KOS, in a user trial, comparing social tagging only and social tagging enhanced with the suggestions. This paper is a final reflection on all aspects of the study.
-
Humphrey, S.M.; Névéol, A.; Browne, A.; Gobeil, J.; Ruch, P.; Darmoni, S.J.: Comparing a rule-based versus statistical system for automatic categorization of MEDLINE documents according to biomedical specialty (2009)
0.02
0.022708252 = product of:
0.09083301 = sum of:
0.09083301 = weight(_text_:headings in 287) [ClassicSimilarity], result of:
0.09083301 = score(doc=287,freq=2.0), product of:
0.3388535 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06983213 = queryNorm
0.26805982 = fieldWeight in 287, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0390625 = fieldNorm(doc=287)
0.25 = coord(1/4)
- Abstract
- Automatic document categorization is an important research problem in Information Science and Natural Language Processing. Many applications, including, Word Sense Disambiguation and Information Retrieval in large collections, can benefit from such categorization. This paper focuses on automatic categorization of documents from the biomedical literature into broad discipline-based categories. Two different systems are described and contrasted: CISMeF, which uses rules based on human indexing of the documents by the Medical Subject Headings (MeSH) controlled vocabulary in order to assign metaterms (MTs), and Journal Descriptor Indexing (JDI), based on human categorization of about 4,000 journals and statistical associations between journal descriptors (JDs) and textwords in the documents. We evaluate and compare the performance of these systems against a gold standard of humanly assigned categories for 100 MEDLINE documents, using six measures selected from trec_eval. The results show that for five of the measures performance is comparable, and for one measure JDI is superior. We conclude that these results favor JDI, given the significantly greater intellectual overhead involved in human indexing and maintaining a rule base for mapping MeSH terms to MTs. We also note a JDI method that associates JDs with MeSH indexing rather than textwords, and it may be worthwhile to investigate whether this JDI method (statistical) and CISMeF (rule-based) might be combined and then evaluated showing they are complementary to one another.