-
Leroy, G.; Miller, T.; Rosemblat, G.; Browne, A.: ¬A balanced approach to health information evaluation : a vocabulary-based naïve Bayes classifier and readability formulas (2008)
0.07
0.06601483 = product of:
0.2640593 = sum of:
0.2640593 = weight(_text_:judge in 2998) [ClassicSimilarity], result of:
0.2640593 = score(doc=2998,freq=2.0), product of:
0.5152282 = queryWeight, product of:
7.731176 = idf(docFreq=52, maxDocs=44421)
0.06664293 = queryNorm
0.5125094 = fieldWeight in 2998, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
7.731176 = idf(docFreq=52, maxDocs=44421)
0.046875 = fieldNorm(doc=2998)
0.25 = coord(1/4)
- Abstract
- Since millions seek health information online, it is vital for this information to be comprehensible. Most studies use readability formulas, which ignore vocabulary, and conclude that online health information is too difficult. We developed a vocabularly-based, naïve Bayes classifier to distinguish between three difficulty levels in text. It proved 98% accurate in a 250-document evaluation. We compared our classifier with readability formulas for 90 new documents with different origins and asked representative human evaluators, an expert and a consumer, to judge each document. Average readability grade levels for educational and commercial pages was 10th grade or higher, too difficult according to current literature. In contrast, the classifier showed that 70-90% of these pages were written at an intermediate, appropriate level indicating that vocabulary usage is frequently appropriate in text considered too difficult by readability formula evaluations. The expert considered the pages more difficult for a consumer than the consumer did.
-
Frank, E.; Paynter, G.W.: Predicting Library of Congress Classifications from Library of Congress Subject Headings (2004)
0.04
0.03677721 = product of:
0.14710884 = sum of:
0.14710884 = weight(_text_:headings in 3218) [ClassicSimilarity], result of:
0.14710884 = score(doc=3218,freq=4.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.4549126 = fieldWeight in 3218, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.046875 = fieldNorm(doc=3218)
0.25 = coord(1/4)
- Abstract
- This paper addresses the problem of automatically assigning a Library of Congress Classification (LCC) to a work given its set of Library of Congress Subject Headings (LCSH). LCCs are organized in a tree: The root node of this hierarchy comprises all possible topics, and leaf nodes correspond to the most specialized topic areas defined. We describe a procedure that, given a resource identified by its LCSH, automatically places that resource in the LCC hierarchy. The procedure uses machine learning techniques and training data from a large library catalog to learn a model that maps from sets of LCSH to classifications from the LCC tree. We present empirical results for our technique showing its accuracy an an independent collection of 50,000 LCSH/LCC pairs.
-
Godby, C. J.; Stuler, J.: ¬The Library of Congress Classification as a knowledge base for automatic subject categorization (2001)
0.03
0.034673885 = product of:
0.13869554 = sum of:
0.13869554 = weight(_text_:headings in 2567) [ClassicSimilarity], result of:
0.13869554 = score(doc=2567,freq=2.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.4288957 = fieldWeight in 2567, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0625 = fieldNorm(doc=2567)
0.25 = coord(1/4)
- Abstract
- This paper describes a set of experiments in adapting a subset of the Library of Congress Classification for use as a database for automatic classification. A high degree of concept integrity was obtained when subject headings were mapped from OCLC's WorldCat database and filtered using the log-likelihood statistic
-
Ahmed, M.; Mukhopadhyay, M.; Mukhopadhyay, P.: Automated knowledge organization : AI ML based subject indexing system for libraries (2023)
0.03
0.030647675 = product of:
0.1225907 = sum of:
0.1225907 = weight(_text_:headings in 1979) [ClassicSimilarity], result of:
0.1225907 = score(doc=1979,freq=4.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.37909386 = fieldWeight in 1979, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0390625 = fieldNorm(doc=1979)
0.25 = coord(1/4)
- Abstract
- The research study as reported here is an attempt to explore the possibilities of an AI/ML-based semi-automated indexing system in a library setup to handle large volumes of documents. It uses the Python virtual environment to install and configure an open source AI environment (named Annif) to feed the LOD (Linked Open Data) dataset of Library of Congress Subject Headings (LCSH) as a standard KOS (Knowledge Organisation System). The framework deployed the Turtle format of LCSH after cleaning the file with Skosify, applied an array of backend algorithms (namely TF-IDF, Omikuji, and NN-Ensemble) to measure relative performance, and selected Snowball as an analyser. The training of Annif was conducted with a large set of bibliographic records populated with subject descriptors (MARC tag 650$a) and indexed by trained LIS professionals. The training dataset is first treated with MarcEdit to export it in a format suitable for OpenRefine, and then in OpenRefine it undergoes many steps to produce a bibliographic record set suitable to train Annif. The framework, after training, has been tested with a bibliographic dataset to measure indexing efficiencies, and finally, the automated indexing framework is integrated with data wrangling software (OpenRefine) to produce suggested headings on a mass scale. The entire framework is based on open-source software, open datasets, and open standards.
-
Dubin, D.: Dimensions and discriminability (1998)
0.03
0.030339649 = product of:
0.121358596 = sum of:
0.121358596 = weight(_text_:headings in 3338) [ClassicSimilarity], result of:
0.121358596 = score(doc=3338,freq=2.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.37528375 = fieldWeight in 3338, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=3338)
0.25 = coord(1/4)
- Abstract
- Visualization interfaces can improve subject access by highlighting the inclusion of document representation components in similarity and discrimination relationships. Within a set of retrieved documents, what kinds of groupings can index terms and subject headings make explicit? The role of controlled vocabulary in classifying search output is examined
-
Godby, C.J.; Stuler, J.: ¬The Library of Congress Classification as a knowledge base for automatic subject categorization : subject access issues (2003)
0.03
0.030339649 = product of:
0.121358596 = sum of:
0.121358596 = weight(_text_:headings in 4962) [ClassicSimilarity], result of:
0.121358596 = score(doc=4962,freq=2.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.37528375 = fieldWeight in 4962, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0546875 = fieldNorm(doc=4962)
0.25 = coord(1/4)
- Abstract
- This paper describes a set of experiments in adapting a subset of the Library of Congress Classification for use as a database for automatic classification. A high degree of concept integrity was obtained when subject headings were mapped from OCLC's WorldCat database and filtered using the log-likelihood statistic.
-
Larson, R.R.: Experiments in automatic Library of Congress Classification (1992)
0.03
0.026005413 = product of:
0.10402165 = sum of:
0.10402165 = weight(_text_:headings in 1053) [ClassicSimilarity], result of:
0.10402165 = score(doc=1053,freq=2.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.32167178 = fieldWeight in 1053, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.046875 = fieldNorm(doc=1053)
0.25 = coord(1/4)
- Abstract
- This article presents the results of research into the automatic selection of Library of Congress Classification numbers based on the titles and subject headings in MARC records. The method used in this study was based on partial match retrieval techniques using various elements of new recors (i.e., those to be classified) as "queries", and a test database of classification clusters generated from previously classified MARC records. Sixty individual methods for automatic classification were tested on a set of 283 new records, using all combinations of four different partial match methods, five query types, and three representations of search terms. The results indicate that if the best method for a particular case can be determined, then up to 86% of the new records may be correctly classified. The single method with the best accuracy was able to select the correct classification for about 46% of the new records.
-
Wu, M.; Liu, Y.-H.; Brownlee, R.; Zhang, X.: Evaluating utility and automatic classification of subject metadata from Research Data Australia (2021)
0.03
0.026005413 = product of:
0.10402165 = sum of:
0.10402165 = weight(_text_:headings in 1454) [ClassicSimilarity], result of:
0.10402165 = score(doc=1454,freq=2.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.32167178 = fieldWeight in 1454, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.046875 = fieldNorm(doc=1454)
0.25 = coord(1/4)
- Abstract
- In this paper, we present a case study of how well subject metadata (comprising headings from an international classification scheme) has been deployed in a national data catalogue, and how often data seekers use subject metadata when searching for data. Through an analysis of user search behaviour as recorded in search logs, we find evidence that users utilise the subject metadata for data discovery. Since approximately half of the records ingested by the catalogue did not include subject metadata at the time of harvest, we experimented with automatic subject classification approaches in order to enrich these records and to provide additional support for user search and data discovery. Our results show that automatic methods work well for well represented categories of subject metadata, and these categories tend to have features that can distinguish themselves from the other categories. Our findings raise implications for data catalogue providers; they should invest more effort to enhance the quality of data records by providing an adequate description of these records for under-represented subject categories.
-
Panyr, J.: Automatische Klassifikation und Information Retrieval : Anwendung und Entwicklung komplexer Verfahren in Information-Retrieval-Systemen und ihre Evaluierung (1986)
0.02
0.02173171 = product of:
0.08692684 = sum of:
0.08692684 = weight(_text_:und in 31) [ClassicSimilarity], result of:
0.08692684 = score(doc=31,freq=8.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.58810925 = fieldWeight in 31, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.09375 = fieldNorm(doc=31)
0.25 = coord(1/4)
- Series
- Sprache und Information; Bd.12
-
Humphrey, S.M.; Névéol, A.; Browne, A.; Gobeil, J.; Ruch, P.; Darmoni, S.J.: Comparing a rule-based versus statistical system for automatic categorization of MEDLINE documents according to biomedical specialty (2009)
0.02
0.021671178 = product of:
0.08668471 = sum of:
0.08668471 = weight(_text_:headings in 287) [ClassicSimilarity], result of:
0.08668471 = score(doc=287,freq=2.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.26805982 = fieldWeight in 287, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0390625 = fieldNorm(doc=287)
0.25 = coord(1/4)
- Abstract
- Automatic document categorization is an important research problem in Information Science and Natural Language Processing. Many applications, including, Word Sense Disambiguation and Information Retrieval in large collections, can benefit from such categorization. This paper focuses on automatic categorization of documents from the biomedical literature into broad discipline-based categories. Two different systems are described and contrasted: CISMeF, which uses rules based on human indexing of the documents by the Medical Subject Headings (MeSH) controlled vocabulary in order to assign metaterms (MTs), and Journal Descriptor Indexing (JDI), based on human categorization of about 4,000 journals and statistical associations between journal descriptors (JDs) and textwords in the documents. We evaluate and compare the performance of these systems against a gold standard of humanly assigned categories for 100 MEDLINE documents, using six measures selected from trec_eval. The results show that for five of the measures performance is comparable, and for one measure JDI is superior. We conclude that these results favor JDI, given the significantly greater intellectual overhead involved in human indexing and maintaining a rule base for mapping MeSH terms to MTs. We also note a JDI method that associates JDs with MeSH indexing rather than textwords, and it may be worthwhile to investigate whether this JDI method (statistical) and CISMeF (rule-based) might be combined and then evaluated showing they are complementary to one another.
-
Wartena, C.; Sommer, M.: Automatic classification of scientific records using the German Subject Heading Authority File (SWD) (2012)
0.02
0.021671178 = product of:
0.08668471 = sum of:
0.08668471 = weight(_text_:headings in 1472) [ClassicSimilarity], result of:
0.08668471 = score(doc=1472,freq=2.0), product of:
0.32337824 = queryWeight, product of:
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.06664293 = queryNorm
0.26805982 = fieldWeight in 1472, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.8524013 = idf(docFreq=942, maxDocs=44421)
0.0390625 = fieldNorm(doc=1472)
0.25 = coord(1/4)
- Abstract
- The following paper deals with an automatic text classification method which does not require training documents. For this method the German Subject Heading Authority File (SWD), provided by the linked data service of the German National Library is used. Recently the SWD was enriched with notations of the Dewey Decimal Classification (DDC). In consequence it became possible to utilize the subject headings as textual representations for the notations of the DDC. Basically, we we derive the classification of a text from the classification of the words in the text given by the thesaurus. The method was tested by classifying 3826 OAI-Records from 7 different repositories. Mean reciprocal rank and recall were chosen as evaluation measure. Direct comparison to a machine learning method has shown that this method is definitely competitive. Thus we can conclude that the enriched version of the SWD provides high quality information with a broad coverage for classification of German scientific articles.
-
Bock, H.-H.: Automatische Klassifikation : theoretische und praktische Methoden zur Gruppierung und Strukturierung von Daten (Cluster-Analyse) (1974)
0.02
0.020488854 = product of:
0.08195542 = sum of:
0.08195542 = weight(_text_:und in 762) [ClassicSimilarity], result of:
0.08195542 = score(doc=762,freq=4.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.5544748 = fieldWeight in 762, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.125 = fieldNorm(doc=762)
0.25 = coord(1/4)
-
Schek, M.: Automatische Klassifizierung und Visualisierung im Archiv der Süddeutschen Zeitung (2005)
0.02
0.01953631 = product of:
0.07814524 = sum of:
0.07814524 = weight(_text_:und in 5884) [ClassicSimilarity], result of:
0.07814524 = score(doc=5884,freq=76.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.5286968 = fieldWeight in 5884, product of:
8.717798 = tf(freq=76.0), with freq of:
76.0 = termFreq=76.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.02734375 = fieldNorm(doc=5884)
0.25 = coord(1/4)
- Abstract
- Die Süddeutsche Zeitung (SZ) verfügt seit ihrer Gründung 1945 über ein Pressearchiv, das die Texte der eigenen Redakteure und zahlreicher nationaler und internationaler Publikationen dokumentiert und auf Anfrage für Recherchezwecke bereitstellt. Die Einführung der EDV begann Anfang der 90er Jahre mit der digitalen Speicherung zunächst der SZ-Daten. Die technische Weiterentwicklung ab Mitte der 90er Jahre diente zwei Zielen: (1) dem vollständigen Wechsel von der Papierablage zur digitalen Speicherung und (2) dem Wandel von einer verlagsinternen Dokumentations- und Auskunftsstelle zu einem auch auf dem Markt vertretenen Informationsdienstleister. Um die dabei entstehenden Aufwände zu verteilen und gleichzeitig Synergieeffekte zwischen inhaltlich verwandten Archiven zu erschließen, gründeten der Süddeutsche Verlag und der Bayerische Rundfunk im Jahr 1998 die Dokumentations- und Informationszentrum (DIZ) München GmbH, in der die Pressearchive der beiden Gesellschafter und das Bildarchiv des Süddeutschen Verlags zusammengeführt wurden. Die gemeinsam entwickelte Pressedatenbank ermöglichte das standortübergreifende Lektorat, die browserbasierte Recherche für Redakteure und externe Kunden im Intraund Internet und die kundenspezifischen Content Feeds für Verlage, Rundfunkanstalten und Portale. Die DIZPressedatenbank enthält zur Zeit 6,9 Millionen Artikel, die jeweils als HTML oder PDF abrufbar sind. Täglich kommen ca. 3.500 Artikel hinzu, von denen ca. 1.000 lektoriert werden. Das Lektorat erfolgt im DIZ nicht durch die Vergabe von Schlagwörtern am Dokument, sondern durch die Verlinkung der Artikel mit "virtuellen Mappen", den Dossiers. Diese stellen die elektronische Repräsentation einer Papiermappe dar und sind das zentrale Erschließungsobjekt. Im Gegensatz zu statischen Klassifikationssystemen ist die Dossierstruktur dynamisch und aufkommensabhängig, d.h. neue Dossiers werden hauptsächlich anhand der aktuellen Berichterstattung erstellt. Insgesamt enthält die DIZ-Pressedatenbank ca. 90.000 Dossiers, davon sind 68.000 Sachthemen (Topics), Personen und Institutionen. Die Dossiers sind untereinander zum "DIZ-Wissensnetz" verlinkt.
DIZ definiert das Wissensnetz als Alleinstellungsmerkmal und wendet beträchtliche personelle Ressourcen für die Aktualisierung und Oualitätssicherung der Dossiers auf. Nach der Umstellung auf den komplett digitalisierten Workflow im April 2001 identifizierte DIZ vier Ansatzpunkte, wie die Aufwände auf der Inputseite (Lektorat) zu optimieren sind und gleichzeitig auf der Outputseite (Recherche) das Wissensnetz besser zu vermarkten ist: 1. (Teil-)Automatische Klassifizierung von Pressetexten (Vorschlagwesen) 2. Visualisierung des Wissensnetzes (Topic Mapping) 3. (Voll-)Automatische Klassifizierung und Optimierung des Wissensnetzes 4. Neue Retrievalmöglichkeiten (Clustering, Konzeptsuche) Die Projekte 1 und 2 "Automatische Klassifizierung und Visualisierung" starteten zuerst und wurden beschleunigt durch zwei Entwicklungen: - Der Bayerische Rundfunk (BR), ursprünglich Mitbegründer und 50%-Gesellschafter der DIZ München GmbH, entschloss sich aus strategischen Gründen, zum Ende 2003 aus der Kooperation auszusteigen. - Die Medienkrise, hervorgerufen durch den massiven Rückgang der Anzeigenerlöse, erforderte auch im Süddeutschen Verlag massive Einsparungen und die Suche nach neuen Erlösquellen. Beides führte dazu, dass die Kapazitäten im Bereich Pressedokumentation von ursprünglich rund 20 (nur SZ, ohne BR-Anteil) auf rund 13 zum 1. Januar 2004 sanken und gleichzeitig die Aufwände für die Pflege des Wissensnetzes unter verstärkten Rechtfertigungsdruck gerieten. Für die Projekte 1 und 2 ergaben sich daraus drei quantitative und qualitative Ziele: - Produktivitätssteigerung im Lektorat - Konsistenzverbesserung im Lektorat - Bessere Vermarktung und intensivere Nutzung der Dossiers in der Recherche Alle drei genannten Ziele konnten erreicht werden, wobei insbesondere die Produktivität im Lektorat gestiegen ist. Die Projekte 1 und 2 "Automatische Klassifizierung und Visualisierung" sind seit Anfang 2004 erfolgreich abgeschlossen. Die Folgeprojekte 3 und 4 laufen seit Mitte 2004 und sollen bis Mitte 2005 abgeschlossen sein. Im folgenden wird in Abschnitt 2 die Produktauswahl und Arbeitsweise der Automatischen Klassifizierung beschrieben. Abschnitt 3 schildert den Einsatz der Wissensnetz-Visualisierung in Lektorat und Recherche. Abschnitt 4 fasst die Ergebnisse der Projekte 1 und 2 zusammen und gibt einen Ausblick auf die Ziele der Projekte 3 und 4.
-
Panyr, J.: Automatische Indexierung und Klassifikation (1983)
0.02
0.017743869 = product of:
0.070975475 = sum of:
0.070975475 = weight(_text_:und in 761) [ClassicSimilarity], result of:
0.070975475 = score(doc=761,freq=12.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.48018923 = fieldWeight in 761, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=761)
0.25 = coord(1/4)
- Abstract
- Im Beitrag wird zunächst eine terminologische Klärung und Gliederung für drei Indexierungsmethoden und weitere Begriffe, die Konsistenzprobleme bei intellektueller Indexierung betreffen, unternommen. Zur automatichen Indexierung werden Extraktionsmethoden erläutert und zur Automatischen Klassifikation (Clustering) und Indexierung zwei Anwendungen vorgestellt. Eine enge Kooperation zwischen den Befürwortern der intellektuellen und den Entwicklern von automatischen Indexierungsverfahren wird empfohlen
-
Bock, H.-H.: Datenanalyse zur Strukturierung und Ordnung von Information (1989)
0.02
0.016769873 = product of:
0.06707949 = sum of:
0.06707949 = weight(_text_:und in 141) [ClassicSimilarity], result of:
0.06707949 = score(doc=141,freq=14.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.4538307 = fieldWeight in 141, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=141)
0.25 = coord(1/4)
- Abstract
- Aufgabe der Datenanalyse ist es, Daten zu ordnen, übersichtlich darzustellen, verborgene und natürlich Strukturen zu entdecken, die diesbezüglich wesentlichen Eigenschaften herauszukristallisieren und zweckmäßige Modelle zur Beschreibung von Daten aufzustellen. Es wird ein Einblick in die Methoden und Prinzipien der Datenanalyse vermittelt. Anhand typischer Beispiele wird gezeigt, welche Daten analysiert, welche Strukturen betrachtet, welche Darstellungs- bzw. Ordnungsmethoden verwendet, welche Zielsetzungen verfolgt und welche Bewertungskriterien dabei angewendet werden können. Diskutiert wird auch die angemessene Verwendung der unterschiedlichen Methoden, wobei auf die gefahr und Art von Fehlinterpretationen hingewiesen wird
- Source
- Klassifikation und Ordnung. Tagungsband 12. Jahrestagung der Gesellschaft für Klassifikation, Darmstadt 17.-19.3.1988. Hrsg.: R. Wille
-
Walther, R.: Möglichkeiten und Grenzen automatischer Klassifikationen von Web-Dokumenten (2001)
0.02
0.016769873 = product of:
0.06707949 = sum of:
0.06707949 = weight(_text_:und in 2562) [ClassicSimilarity], result of:
0.06707949 = score(doc=2562,freq=14.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.4538307 = fieldWeight in 2562, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=2562)
0.25 = coord(1/4)
- Abstract
- Automatische Klassifikationen von Web- und andern Textdokumenten ermöglichen es, betriebsinterne und externe Informationen geordnet zugänglich zu machen. Die Forschung zur automatischen Klassifikation hat sich in den letzten Jahren intensiviert. Das Resultat sind verschiedenen Methoden, die heute in der Praxis einzeln oder kombiniert für die Klassifikation im Einsatz sind. In der vorliegenden Lizenziatsarbeit werden neben allgemeinen Grundsätzen einige Methoden zur automatischen Klassifikation genauer betrachtet und ihre Möglichkeiten und Grenzen erörtert. Daneben erfolgt die Präsentation der Resultate aus einer Umfrage bei Anbieterrfirmen von Softwarelösungen zur automatische Klassifikation von Text-Dokumenten. Die Ausführungen dienen der myax internet AG als Basis, ein eigenes Klassifikations-Produkt zu entwickeln
- Footnote
- Lizenziatsarbeit an der Rechts- und Wirtschaftswissenschaftlichen Fakultät der Universität Bern, Institut für Wirtschaftsinformatik (Prof. G. Knolmayer)
- Imprint
- Bern : Rechts- und Wirtschaftswissenschaftlichen Fakultät
-
Sommer, M.: Automatische Generierung von DDC-Notationen für Hochschulveröffentlichungen (2012)
0.02
0.015366641 = product of:
0.061466563 = sum of:
0.061466563 = weight(_text_:und in 1587) [ClassicSimilarity], result of:
0.061466563 = score(doc=1587,freq=16.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.41585606 = fieldWeight in 1587, product of:
4.0 = tf(freq=16.0), with freq of:
16.0 = termFreq=16.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=1587)
0.25 = coord(1/4)
- Abstract
- Das Thema dieser Bachelorarbeit ist die automatische Generierung von Notationen der Dewey-Dezimalklassifikation für Metadaten. Die Metadaten sind im Dublin-Core-Format und stammen vom Server für wissenschaftliche Schriften der Hochschule Hannover. Zu Beginn erfolgt eine allgemeine Einführung über die Methoden und Hauptanwendungsbereiche des automatischen Klassifizierens. Danach werden die Dewey-Dezimalklassifikation und der Prozess der Metadatengewinnung beschrieben. Der theoretische Teil endet mit der Beschreibung von zwei Projekten. In dem ersten Projekt wurde ebenfalls versucht Metadaten mit Notationen der Dewey-Dezimalklassifikation anzureichern. Das Ergebnis des zweiten Projekts ist eine Konkordanz zwischen der Schlagwortnormdatei und der Dewey-Dezimalklassifikation. Diese Konkordanz wurde im praktischen Teil dieser Arbeit dazu benutzt um automatisch Notationen der Dewey-Dezimalklassifikation zu vergeben.
- Content
- Vgl. unter: http://opus.bsz-bw.de/fhhv/volltexte/2012/397/pdf/Bachelorarbeit_final_Korrektur01.pdf. Bachelorarbeit, Hochschule Hannover, Fakultät III - Medien, Information und Design, Abteilung Information und Kommunikation, Studiengang Informationsmanagement
- Imprint
- Hannover : Hochschule Hannover, Fakultät III - Medien, Information und Design, Abteilung Information und Kommunikation
-
Kasprzik, A.: Automatisierte und semiautomatisierte Klassifizierung : eine Analyse aktueller Projekte (2014)
0.02
0.015366641 = product of:
0.061466563 = sum of:
0.061466563 = weight(_text_:und in 3470) [ClassicSimilarity], result of:
0.061466563 = score(doc=3470,freq=16.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.41585606 = fieldWeight in 3470, product of:
4.0 = tf(freq=16.0), with freq of:
16.0 = termFreq=16.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=3470)
0.25 = coord(1/4)
- Abstract
- Das sprunghafte Anwachsen der Menge digital verfügbarer Dokumente gepaart mit dem Zeit- und Personalmangel an wissenschaftlichen Bibliotheken legt den Einsatz von halb- oder vollautomatischen Verfahren für die verbale und klassifikatorische Inhaltserschließung nahe. Nach einer kurzen allgemeinen Einführung in die gängige Methodik beleuchtet dieser Artikel eine Reihe von Projekten zur automatisierten Klassifizierung aus dem Zeitraum 2007-2012 und aus dem deutschsprachigen Raum. Ein Großteil der vorgestellten Projekte verwendet Methoden des Maschinellen Lernens aus der Künstlichen Intelligenz, arbeitet meist mit angepassten Versionen einer kommerziellen Software und bezieht sich in der Regel auf die Dewey Decimal Classification (DDC). Als Datengrundlage dienen Metadatensätze, Abstracs, Inhaltsverzeichnisse und Volltexte in diversen Datenformaten. Die abschließende Analyse enthält eine Anordnung der Projekte nach einer Reihe von verschiedenen Kriterien und eine Zusammenfassung der aktuellen Lage und der größten Herausfordungen für automatisierte Klassifizierungsverfahren.
-
Reiner, U.: VZG-Projekt Colibri : Bewertung von automatisch DDC-klassifizierten Titeldatensätzen der Deutschen Nationalbibliothek (DNB) (2009)
0.02
0.015015821 = product of:
0.060063284 = sum of:
0.060063284 = weight(_text_:und in 3675) [ClassicSimilarity], result of:
0.060063284 = score(doc=3675,freq=22.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.4063621 = fieldWeight in 3675, product of:
4.690416 = tf(freq=22.0), with freq of:
22.0 = termFreq=22.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0390625 = fieldNorm(doc=3675)
0.25 = coord(1/4)
- Abstract
- Das VZG-Projekt Colibri/DDC beschäftigt sich seit 2003 mit automatischen Verfahren zur Dewey-Dezimalklassifikation (Dewey Decimal Classification, kurz DDC). Ziel des Projektes ist eine einheitliche DDC-Erschließung von bibliografischen Titeldatensätzen und eine Unterstützung der DDC-Expert(inn)en und DDC-Laien, z. B. bei der Analyse und Synthese von DDC-Notationen und deren Qualitätskontrolle und der DDC-basierten Suche. Der vorliegende Bericht konzentriert sich auf die erste größere automatische DDC-Klassifizierung und erste automatische und intellektuelle Bewertung mit der Klassifizierungskomponente vc_dcl1. Grundlage hierfür waren die von der Deutschen Nationabibliothek (DNB) im November 2007 zur Verfügung gestellten 25.653 Titeldatensätze (12 Wochen-/Monatslieferungen) der Deutschen Nationalbibliografie der Reihen A, B und H. Nach Erläuterung der automatischen DDC-Klassifizierung und automatischen Bewertung in Kapitel 2 wird in Kapitel 3 auf den DNB-Bericht "Colibri_Auswertung_DDC_Endbericht_Sommer_2008" eingegangen. Es werden Sachverhalte geklärt und Fragen gestellt, deren Antworten die Weichen für den Verlauf der weiteren Klassifizierungstests stellen werden. Über das Kapitel 3 hinaus führende weitergehende Betrachtungen und Gedanken zur Fortführung der automatischen DDC-Klassifizierung werden in Kapitel 4 angestellt. Der Bericht dient dem vertieften Verständnis für die automatischen Verfahren.
-
Greiner, G.: Intellektuelles und automatisches Klassifizieren (1981)
0.01
0.014487808 = product of:
0.05795123 = sum of:
0.05795123 = weight(_text_:und in 1102) [ClassicSimilarity], result of:
0.05795123 = score(doc=1102,freq=2.0), product of:
0.1478073 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06664293 = queryNorm
0.39207286 = fieldWeight in 1102, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.125 = fieldNorm(doc=1102)
0.25 = coord(1/4)