Search (189 results, page 1 of 10)

  • × theme_ss:"Automatisches Indexieren"
  1. Beckmann, R.; Hinrichs, I.; Janßen, M.; Milmeister, G.; Schäuble, P.: ¬Der Digitale Assistent DA-3 : Eine Plattform für die Inhaltserschließung (2019) 0.09
    0.09305955 = product of:
      0.1861191 = sum of:
        0.123724185 = weight(_text_:jahre in 408) [ClassicSimilarity], result of:
          0.123724185 = score(doc=408,freq=2.0), product of:
            0.36739168 = queryWeight, product of:
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.07232031 = queryNorm
            0.3367637 = fieldWeight in 408, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.046875 = fieldNorm(doc=408)
        0.062394906 = weight(_text_:und in 408) [ClassicSimilarity], result of:
          0.062394906 = score(doc=408,freq=14.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.38899773 = fieldWeight in 408, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.046875 = fieldNorm(doc=408)
      0.5 = coord(2/4)
    
    Abstract
    Der "Digitale Assistent" DA-3 ist ein webbasiertes Tool zur maschinellen Unterstützung der intellektuellen verbalen und klassifikatorischen Inhaltserschließung. Im Frühjahr 2016 wurde einer breiteren Fachöffentlichkeit die zunächst für den Einsatz im IBS|BW-Konsortium konzipierte Vorgängerversion DA-2 vorgestellt. Die Community nahm die Entwicklung vor dem Hintergrund der strategischen Diskussionen um zukunftsfähige Verfahren der Inhaltserschließung mit großem Interesse auf. Inzwischen wird das Tool in einem auf drei Jahre angelegten Kooperationsprojekt zwischen der Firma Eurospider Information Technology, dem IBS|BW-Konsortium, der Staatsbibliothek zu Berlin und den beiden Verbundzentralen VZG und BSZ zu einem zentralen und leistungsstarken Service weiterentwickelt. Die ersten Anwenderbibliotheken in SWB und GBV setzen den DA-3 während dieser Projektphase bereits erfolgreich ein, am Ende ist die Überführung in den Routinebetrieb vorgesehen. Der Beitrag beschreibt den derzeitigen Stand und Nutzen des Projekts im Kontext der aktuellen Rahmenbedingungen, stellt ausführlich die Funktionalitäten des DA-3 vor, gibt einen kleinen Einblick hinter die Kulissen der Projektpartner und einen Ausblick auf kommende Entwicklungsschritte.
  2. Wiesenmüller, H.: DNB-Sacherschließung : Neues für die Reihen A und B (2019) 0.09
    0.08544515 = product of:
      0.1708903 = sum of:
        0.123724185 = weight(_text_:jahre in 212) [ClassicSimilarity], result of:
          0.123724185 = score(doc=212,freq=2.0), product of:
            0.36739168 = queryWeight, product of:
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.07232031 = queryNorm
            0.3367637 = fieldWeight in 212, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.046875 = fieldNorm(doc=212)
        0.047166113 = weight(_text_:und in 212) [ClassicSimilarity], result of:
          0.047166113 = score(doc=212,freq=8.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.29405463 = fieldWeight in 212, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.046875 = fieldNorm(doc=212)
      0.5 = coord(2/4)
    
    Abstract
    "Alle paar Jahre wird die Bibliothekscommunity mit Veränderungen in der inhaltlichen Erschließung durch die Deutsche Nationalbibliothek konfrontiert. Sicher werden sich viele noch an die Einschnitte des Jahres 2014 für die Reihe A erinnern: Seither werden u.a. Ratgeber, Sprachwörterbücher, Reiseführer und Kochbücher nicht mehr mit Schlagwörtern erschlossen (vgl. das DNB-Konzept von 2014). Das Jahr 2017 brachte die Einführung der maschinellen Indexierung für die Reihen B und H bei gleichzeitigem Verlust der DDC-Tiefenerschließung (vgl. DNB-Informationen von 2017). Virulent war seither die Frage, was mit der Reihe A passieren würde. Seit wenigen Tagen kann man dies nun auf der Website der DNB nachlesen. (Nebenbei: Es ist zu befürchten, dass viele Links in diesem Blog-Beitrag in absehbarer Zeit nicht mehr funktionieren werden, da ein Relaunch der DNB-Website angekündigt ist. Wie beim letzten Mal wird es vermutlich auch diesmal keine Weiterleitungen von den alten auf die neuen URLs geben.)"
    Source
    https://www.basiswissen-rda.de/dnb-sacherschliessung-reihen-a-und-b/
  3. Mittelbach, J.; Probst, M.: Möglichkeiten und Grenzen maschineller Indexierung in der Sacherschließung : Strategien für das Bibliothekssystem der Freien Universität Berlin (2006) 0.08
    0.08103056 = product of:
      0.16206113 = sum of:
        0.10310349 = weight(_text_:jahre in 2411) [ClassicSimilarity], result of:
          0.10310349 = score(doc=2411,freq=2.0), product of:
            0.36739168 = queryWeight, product of:
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.07232031 = queryNorm
            0.28063643 = fieldWeight in 2411, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.0390625 = fieldNorm(doc=2411)
        0.05895764 = weight(_text_:und in 2411) [ClassicSimilarity], result of:
          0.05895764 = score(doc=2411,freq=18.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.36756828 = fieldWeight in 2411, product of:
              4.2426405 = tf(freq=18.0), with freq of:
                18.0 = termFreq=18.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0390625 = fieldNorm(doc=2411)
      0.5 = coord(2/4)
    
    Abstract
    Automatische Indexierung wird zunehmend als sinnvolle Möglichkeit erkannt, Daten für Informationsretrievalsysteme zu erzeugen und somit die Auffindbarkeit von Do-kumenten zu erhöhen. Die dafür geeigneten Methoden sind seit geraumer Zeit bekannt und umfassen statistische bzw. computerlinguistische Sprachanalysetechniken, die im Gegensatz zur gebräuchlichen Freitextinvertierung entscheidende Vor-teile hinsichtlich des Retrievals bieten. So bilden erst die Wortformenreduzierung und die semantische Zerlegung sowie die Gewichtung der ermittelten Indexterme die Grundlagen für die gezielte sachliche Suche im Online-Katalog. Entsprechende Ver-fahren, die sich für Bibliotheken eignen, stehen seit Mitte der neunziger Jahre auch für den praktischen Einsatz bereit und werden - nicht zuletzt aufgrund steigender Akzeptanz - ständig weiterentwickelt. Dabei geht es nicht nur um die Steigerung der allgemeinen Leistungsfähigkeit von maschinellen Indexierungssystemen, sondern auch um ihre Fähigkeit, die im Bibliothekswesen verfügbare, sehr heterogene Daten-grundlage optimal zu nutzen. Wichtige Kriterien sind zudem eine vertretbare Fehler-quote, die Integrierbarkeit in die Geschäftsgänge und die Darstellbarkeit der anfal-lenden Datenmengen in entsprechenden Datenrepräsentationsmodellen. Im Fokus der Untersuchung stehen die allgemeine Betrachtung der Vor- und Nachteile der beiden gängigen Indexierungssysteme MILOS und intelligentCAPTURE sowie die Möglichkeiten und Grenzen ihres Einsatzes im Bibliothekssystem der Freien Universität Berlin. Diese Veröffentlichung geht zurück auf eine Master-Arbeit im postgradualen Fernstudiengang Master of Arts (Library and Information Science) an der Humboldt-Universität zu Berlin. Online-Version: http://www.ib.hu-berlin.de/~kumlau/handreichungen/h183/
  4. Hauer, M: Silicon Valley Vorarlberg : Maschinelle Indexierung und semantisches Retrieval verbessert den Katalog der Vorarlberger Landesbibliothek (2004) 0.08
    0.07754962 = product of:
      0.15509924 = sum of:
        0.10310349 = weight(_text_:jahre in 3489) [ClassicSimilarity], result of:
          0.10310349 = score(doc=3489,freq=2.0), product of:
            0.36739168 = queryWeight, product of:
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.07232031 = queryNorm
            0.28063643 = fieldWeight in 3489, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.0390625 = fieldNorm(doc=3489)
        0.051995754 = weight(_text_:und in 3489) [ClassicSimilarity], result of:
          0.051995754 = score(doc=3489,freq=14.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.32416478 = fieldWeight in 3489, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0390625 = fieldNorm(doc=3489)
      0.5 = coord(2/4)
    
    Abstract
    10 Jahre Internet haben die WeIt um die Bibliotheken herum stark geändert. Der Web-OPAC war eine Antwort der Bibliotheken. Doch reicht ein Web-OPAC im Zeitalter des Internets noch aus? Außer Web ist es doch der alte Katalog. Ca. 90% aller Bibliotheksrecherchen durch Benutzer sind Themenrecherchen. Ein Anteil dieser Recherchen bringt kein Ergebnis. Es kann leicht gemessen werden, dass null Medien gefunden wurden. Die Gründe hierfür wurden auch immer wieder untersucht: Plural- anstelle Singularformen, zu spezifische Suchbegriffe, Schreib- oder Bedienungsfehler. Zu wenig untersucht sind aber die Recherchen, die nicht mit einer Ausleihe enden, denn auch dann kann man in vielen Fällen von einem Retrieval-Mangel ausgehen. Schließlich: Von den ausgeliehenen Büchern werden nach Einschätzung vieler Bibliothekare 80% nicht weiter als bis zum Inhaltsverzeichnis gelesen (außer in Präsenzbibliotheken) - und erst nach Wochen zurückgegeben. Ein Politiker würde dies neudeutsch als "ein Vermittlungsproblem" bezeichnen. Ein Controller als nicht hinreichende Kapitalnutzung. Einfacher machen es sich immer mehr Studenten und Wissenschaftler, ihr Wissensaustausch vollzieht sich zunehmend an anderen Orten. Bibliotheken (als Funktion) sind unverzichtbar für die wissenschaftliche Kommunikation. Deshalb geht es darum, Wege zu finden und auch zu beschreiten, welche die Schätze von Bibliotheken (als Institution) effizienter an die Zielgruppe bringen. Der Einsatz von Information Retrieval-Technologie, neue Erschließungsmethoden und neuer Content sind Ansätze dazu. Doch die bisherigen Verbundstrukturen und Abhängigkeit haben das hier vorgestellte innovative Projekt keineswegs gefördert. Innovation entsteht wie die Innvoationsforschung zeigt eigentlich immer an der Peripherie: in Bregenz fing es an.
    Source
    Mitteilungen der Vereinigung Österreichischer Bibliothekarinnen und Bibliothekare. 57(2004) H.3/4, S.33-38
  5. Groß, T.; Faden, M.: Automatische Indexierung elektronischer Dokumente an der Deutschen Zentralbibliothek für Wirtschaftswissenschaften : Bericht über die Jahrestagung der Internationalen Buchwissenschaftlichen Gesellschaft (2010) 0.07
    0.0695847 = product of:
      0.1391694 = sum of:
        0.082482785 = weight(_text_:jahre in 51) [ClassicSimilarity], result of:
          0.082482785 = score(doc=51,freq=2.0), product of:
            0.36739168 = queryWeight, product of:
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.07232031 = queryNorm
            0.22450913 = fieldWeight in 51, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.03125 = fieldNorm(doc=51)
        0.056686617 = weight(_text_:und in 51) [ClassicSimilarity], result of:
          0.056686617 = score(doc=51,freq=26.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.3534097 = fieldWeight in 51, product of:
              5.0990195 = tf(freq=26.0), with freq of:
                26.0 = termFreq=26.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.03125 = fieldNorm(doc=51)
      0.5 = coord(2/4)
    
    Abstract
    Die zunehmende Verfügbarmachung digitaler Informationen in den letzten Jahren sowie die Aussicht auf ein weiteres Ansteigen der sogenannten Datenflut kumulieren in einem grundlegenden, sich weiter verstärkenden Informationsstrukturierungsproblem. Die stetige Zunahme von digitalen Informationsressourcen im World Wide Web sichert zwar jederzeit und ortsungebunden den Zugriff auf verschiedene Informationen; offen bleibt der strukturierte Zugang, insbesondere zu wissenschaftlichen Ressourcen. Angesichts der steigenden Anzahl elektronischer Inhalte und vor dem Hintergrund stagnierender bzw. knapper werdender personeller Ressourcen in der Sacherschließun schafft keine Bibliothek bzw. kein Bibliotheksverbund es mehr, weder aktuell noch zukünftig, alle digitalen Daten zu erfassen, zu strukturieren und zueinander in Beziehung zu setzen. In der Informationsgesellschaft des 21. Jahrhunderts wird es aber zunehmend wichtiger, die in der Flut verschwundenen wissenschaftlichen Informationen zeitnah, angemessen und vollständig zu strukturieren und somit als Basis für eine Wissensgenerierung wieder nutzbar zu machen. Eine normierte Inhaltserschließung digitaler Informationsressourcen ist deshalb für die Deutsche Zentralbibliothek für Wirtschaftswissenschaften (ZBW) als wichtige Informationsinfrastruktureinrichtung in diesem Bereich ein entscheidender und auch erfolgskritischer Aspekt im Wettbewerb mit anderen Informationsdienstleistern. Weil die traditionelle intellektuelle Sacherschließung aber nicht beliebig skalierbar ist - mit dem Anstieg der Zahl an Online-Dokumenten steigt proportional auch der personelle Ressourcenbedarf an Fachreferenten, wenn ein gewisser Qualitätsstandard gehalten werden soll - bedarf es zukünftig anderer Sacherschließungsverfahren. Automatisierte Verschlagwortungsmethoden werden dabei als einzige Möglichkeit angesehen, die bibliothekarische Sacherschließung auch im digitalen Zeitalter zukunftsfest auszugestalten. Zudem können maschinelle Ansätze dazu beitragen, die Heterogenitäten (Indexierungsinkonsistenzen) zwischen den einzelnen Sacherschließer zu nivellieren, und somit zu einer homogeneren Erschließung des Bibliotheksbestandes beitragen.
    Mit der Anfang 2010 begonnen Implementierung und Ergebnisevaluierung des automatischen Indexierungsverfahrens "Decisiv Categorization" der Firma Recommind soll das hier skizzierte Informationsstrukturierungsproblem in zwei Schritten gelöst werden. Kurz- bis mittelfristig soll die intellektuelle Indexierung durch ein semiautomatisches Verfahren6 unterstützt werden. Mittel- bis langfristig soll das maschinelle Verfahren, aufbauend auf einem entsprechenden Training, in die Lage versetzt werden, sowohl im Hause vorliegende Dokumente vollautomatisch zu indexieren als auch ZBW-fremde digitale Informationsressourcen zu verschlagworten bzw. zu klassifizieren, um sie in einem gemeinsamen Suchraum auffindbar machen zu können. Im Anschluss an diese Einleitung werden die ersten Ansätze maschineller Sacherschließung an der ZBW (2001-2004) und deren Ergebnisse und Problemlagen aufgezeigt. Danach werden die Rahmenbedingungen (Projektauftrag und -ziel) für eine Wiederaufnahme des Vorhabens im Jahre 2009 aufgezeigt, gefolgt von einer Darstellung der Funktionsweise der Recommind-Technologie und deren Einsatz im Rahmen der Sacherschließung von Online-Dokumenten mit einem Thesaurus. Schwerpunkt dieser Abhandlung bilden im Anschluss daran die Evaluierungsmöglichkeiten automatischer Indexierungsansätze sowie die aktuellen Ergebnisse und zentralen Erkenntnisse des Einsatzes im Kontext der ZBW. Das Fazit beschreibt die entsprechenden Schlussfolgerungen aus den erzielten Ergebnissen sowie den Ausblick auf das weitere Vorgehen.
  6. Tavakolizadeh-Ravari, M.: Analysis of the long term dynamics in thesaurus developments and its consequences (2017) 0.06
    0.062486514 = product of:
      0.12497303 = sum of:
        0.049717452 = weight(_text_:und in 4081) [ClassicSimilarity], result of:
          0.049717452 = score(doc=4081,freq=20.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.3099608 = fieldWeight in 4081, product of:
              4.472136 = tf(freq=20.0), with freq of:
                20.0 = termFreq=20.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.03125 = fieldNorm(doc=4081)
        0.07525558 = weight(_text_:headings in 4081) [ClassicSimilarity], result of:
          0.07525558 = score(doc=4081,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.21444786 = fieldWeight in 4081, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.03125 = fieldNorm(doc=4081)
      0.5 = coord(2/4)
    
    Abstract
    Die Arbeit analysiert die dynamische Entwicklung und den Gebrauch von Thesaurusbegriffen. Zusätzlich konzentriert sie sich auf die Faktoren, die die Zahl von Indexbegriffen pro Dokument oder Zeitschrift beeinflussen. Als Untersuchungsobjekt dienten der MeSH und die entsprechende Datenbank "MEDLINE". Die wichtigsten Konsequenzen sind: 1. Der MeSH-Thesaurus hat sich durch drei unterschiedliche Phasen jeweils logarithmisch entwickelt. Solch einen Thesaurus sollte folgenden Gleichung folgen: "T = 3.076,6 Ln (d) - 22.695 + 0,0039d" (T = Begriffe, Ln = natürlicher Logarithmus und d = Dokumente). Um solch einen Thesaurus zu konstruieren, muss man demnach etwa 1.600 Dokumente von unterschiedlichen Themen des Bereiches des Thesaurus haben. Die dynamische Entwicklung von Thesauri wie MeSH erfordert die Einführung eines neuen Begriffs pro Indexierung von 256 neuen Dokumenten. 2. Die Verteilung der Thesaurusbegriffe erbrachte drei Kategorien: starke, normale und selten verwendete Headings. Die letzte Gruppe ist in einer Testphase, während in der ersten und zweiten Kategorie die neu hinzukommenden Deskriptoren zu einem Thesauruswachstum führen. 3. Es gibt ein logarithmisches Verhältnis zwischen der Zahl von Index-Begriffen pro Aufsatz und dessen Seitenzahl für die Artikeln zwischen einer und einundzwanzig Seiten. 4. Zeitschriftenaufsätze, die in MEDLINE mit Abstracts erscheinen erhalten fast zwei Deskriptoren mehr. 5. Die Findablity der nicht-englisch sprachigen Dokumente in MEDLINE ist geringer als die englische Dokumente. 6. Aufsätze der Zeitschriften mit einem Impact Factor 0 bis fünfzehn erhalten nicht mehr Indexbegriffe als die der anderen von MEDINE erfassten Zeitschriften. 7. In einem Indexierungssystem haben unterschiedliche Zeitschriften mehr oder weniger Gewicht in ihrem Findability. Die Verteilung der Indexbegriffe pro Seite hat gezeigt, dass es bei MEDLINE drei Kategorien der Publikationen gibt. Außerdem gibt es wenige stark bevorzugten Zeitschriften."
    Footnote
    Dissertation, Humboldt-Universität zu Berlin - Institut für Bibliotheks- und Informationswissenschaft.
    Imprint
    Berlin : Humboldt-Universität zu Berlin / Institut für Bibliotheks- und Informationswissenschaft
    Theme
    Konzeption und Anwendung des Prinzips Thesaurus
  7. Hauer, M.: Tiefenindexierung im Bibliothekskatalog : 17 Jahre intelligentCAPTURE (2019) 0.06
    0.061862092 = product of:
      0.24744837 = sum of:
        0.24744837 = weight(_text_:jahre in 629) [ClassicSimilarity], result of:
          0.24744837 = score(doc=629,freq=2.0), product of:
            0.36739168 = queryWeight, product of:
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.07232031 = queryNorm
            0.6735274 = fieldWeight in 629, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.080062 = idf(docFreq=750, maxDocs=44421)
              0.09375 = fieldNorm(doc=629)
      0.25 = coord(1/4)
    
  8. Plaunt, C.; Norgard, B.A.: ¬An association-based method for automatic indexing with a controlled vocabulary (1998) 0.06
    0.057605553 = product of:
      0.23042221 = sum of:
        0.23042221 = weight(_text_:headings in 2794) [ClassicSimilarity], result of:
          0.23042221 = score(doc=2794,freq=12.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.6566098 = fieldWeight in 2794, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0390625 = fieldNorm(doc=2794)
      0.25 = coord(1/4)
    
    Abstract
    In this article, we describe and test a two-stage algorithm based on a lexical collocation technique which maps from the lexical clues contained in a document representation into a controlled vocabulary list of subject headings. Using a collection of 4.626 INSPEC documents, we create a 'dictionary' of associations between the lexical items contained in the titles, authors, and abstracts, and controlled vocabulary subject headings assigned to those records by human indexers using a likelihood ratio statistic as the measure of association. In the deployment stage, we use the dictiony to predict which of the controlled vocabulary subject headings best describe new documents when they are presented to the system. Our evaluation of this algorithm, in which we compare the automatically assigned subject headings to the subject headings assigned to the test documents by human catalogers, shows that we can obtain results comparable to, and consistent with, human cataloging. In effect we have cast this as a classic partial match information retrieval problem. We consider the problem to be one of 'retrieving' (or assigning) the most probably 'relevant' (or correct) controlled vocabulary subject headings to a document based on the clues contained in that document
  9. Olsgaard, J.N.; Evans, E.J.: Improving keyword indexing (1981) 0.05
    0.047034737 = product of:
      0.18813895 = sum of:
        0.18813895 = weight(_text_:headings in 5064) [ClassicSimilarity], result of:
          0.18813895 = score(doc=5064,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.53611964 = fieldWeight in 5064, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.078125 = fieldNorm(doc=5064)
      0.25 = coord(1/4)
    
    Abstract
    This communication examines some of the most frequently cited critisms of keyword indexing. These critisms include (1) absence of general subject headings, (2) limited entry points, and (3) irrelevant indexing. Some solutions are suggested to meet these critisms.
  10. Junger, U.: Can indexing be automated? : the example of the Deutsche Nationalbibliothek (2012) 0.05
    0.046562016 = product of:
      0.18624806 = sum of:
        0.18624806 = weight(_text_:headings in 2717) [ClassicSimilarity], result of:
          0.18624806 = score(doc=2717,freq=4.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.5307314 = fieldWeight in 2717, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0546875 = fieldNorm(doc=2717)
      0.25 = coord(1/4)
    
    Abstract
    The German subject headings authority file (Schlagwortnormdatei/SWD) provides a broad controlled vocabulary for indexing documents of all subjects. Traditionally used for intellectual subject cataloguing primarily of books the Deutsche Nationalbibliothek (DNB, German National Library) has been working on developping and implementing procedures for automated assignment of subject headings for online publications. This project, its results and problems are sketched in the paper.
  11. Short, M.: Text mining and subject analysis for fiction; or, using machine learning and information extraction to assign subject headings to dime novels (2019) 0.05
    0.046562016 = product of:
      0.18624806 = sum of:
        0.18624806 = weight(_text_:headings in 481) [ClassicSimilarity], result of:
          0.18624806 = score(doc=481,freq=4.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.5307314 = fieldWeight in 481, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0546875 = fieldNorm(doc=481)
      0.25 = coord(1/4)
    
    Abstract
    This article describes multiple experiments in text mining at Northern Illinois University that were undertaken to improve the efficiency and accuracy of cataloging. It focuses narrowly on subject analysis of dime novels, a format of inexpensive fiction that was popular in the United States between 1860 and 1915. NIU holds more than 55,000 dime novels in its collections, which it is in the process of comprehensively digitizing. Classification, keyword extraction, named-entity recognition, clustering, and topic modeling are discussed as means of assigning subject headings to improve their discoverability by researchers and to increase the productivity of digitization workflows.
  12. Willis, C.; Losee, R.M.: ¬A random walk on an ontology : using thesaurus structure for automatic subject indexing (2013) 0.05
    0.04548881 = product of:
      0.09097762 = sum of:
        0.015722038 = weight(_text_:und in 2016) [ClassicSimilarity], result of:
          0.015722038 = score(doc=2016,freq=2.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.098018214 = fieldWeight in 2016, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.03125 = fieldNorm(doc=2016)
        0.07525558 = weight(_text_:headings in 2016) [ClassicSimilarity], result of:
          0.07525558 = score(doc=2016,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.21444786 = fieldWeight in 2016, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.03125 = fieldNorm(doc=2016)
      0.5 = coord(2/4)
    
    Abstract
    Relationships between terms and features are an essential component of thesauri, ontologies, and a range of controlled vocabularies. In this article, we describe ways to identify important concepts in documents using the relationships in a thesaurus or other vocabulary structures. We introduce a methodology for the analysis and modeling of the indexing process based on a weighted random walk algorithm. The primary goal of this research is the analysis of the contribution of thesaurus structure to the indexing process. The resulting models are evaluated in the context of automatic subject indexing using four collections of documents pre-indexed with 4 different thesauri (AGROVOC [UN Food and Agriculture Organization], high-energy physics taxonomy [HEP], National Agricultural Library Thesaurus [NALT], and medical subject headings [MeSH]). We also introduce a thesaurus-centric matching algorithm intended to improve the quality of candidate concepts. In all cases, the weighted random walk improves automatic indexing performance over matching alone with an increase in average precision (AP) of 9% for HEP, 11% for MeSH, 35% for NALT, and 37% for AGROVOC. The results of the analysis support our hypothesis that subject indexing is in part a browsing process, and that using the vocabulary and its structure in a thesaurus contributes to the indexing process. The amount that the vocabulary structure contributes was found to differ among the 4 thesauri, possibly due to the vocabulary used in the corresponding thesauri and the structural relationships between the terms. Each of the thesauri and the manual indexing associated with it is characterized using the methods developed here.
    Theme
    Konzeption und Anwendung des Prinzips Thesaurus
  13. Abdul, H.; Khoo, C.: Automatic indexing of medical literature using phrase matching : an exploratory study 0.04
    0.03762779 = product of:
      0.15051116 = sum of:
        0.15051116 = weight(_text_:headings in 3669) [ClassicSimilarity], result of:
          0.15051116 = score(doc=3669,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.4288957 = fieldWeight in 3669, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0625 = fieldNorm(doc=3669)
      0.25 = coord(1/4)
    
    Abstract
    Reports the 1st part of a study to apply the technique of phrase matching to the automatic assignment of MeSH subject headings and subheadings to abstracts of periodical articles.
  14. Losee, R.M.: ¬A Gray code based ordering for documents on shelves : classification for browsing and retrieval (1992) 0.03
    0.032924317 = product of:
      0.13169727 = sum of:
        0.13169727 = weight(_text_:headings in 2334) [ClassicSimilarity], result of:
          0.13169727 = score(doc=2334,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.37528375 = fieldWeight in 2334, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0546875 = fieldNorm(doc=2334)
      0.25 = coord(1/4)
    
    Abstract
    A document classifier places documents together in a linear arrangement for browsing or high-speed access by human or computerised information retrieval systems. Requirements for document classification and browsing systems are developed from similarity measures, distance measures, and the notion of subject aboutness. A requirement that documents be arranged in decreasing order of similarity as the distance from a given document increases can often not be met. Based on these requirements, information-theoretic considerations, and the Gray code, a classification system is proposed that can classifiy documents without human intervention. A measure of classifier performance is developed, and used to evaluate experimental results comparing the distance between subject headings assigned to documents given classifications from the proposed system and the Library of Congress Classification (LCC) system
  15. Shafer, K.: Scorpion Project explores using Dewey to organize the Web (1996) 0.03
    0.032924317 = product of:
      0.13169727 = sum of:
        0.13169727 = weight(_text_:headings in 6818) [ClassicSimilarity], result of:
          0.13169727 = score(doc=6818,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.37528375 = fieldWeight in 6818, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0546875 = fieldNorm(doc=6818)
      0.25 = coord(1/4)
    
    Abstract
    As the amount of accessible information on the WWW increases, so will the cost of accessing it, even if search servcies remain free, due to the increasing amount of time users will have to spend to find needed items. Considers what the seemingly unorganized Web and the organized world of libraries can offer each other. The OCLC Scorpion Project is attempting to combine indexing and cataloguing, specifically focusing on building tools for automatic subject recognition using the technqiues of library science and information retrieval. If subject headings or concept domains can be automatically assigned to electronic items, improved filtering tools for searching can be produced
  16. Junger, U.: Can indexing be automated? : the example of the Deutsche Nationalbibliothek (2014) 0.03
    0.032924317 = product of:
      0.13169727 = sum of:
        0.13169727 = weight(_text_:headings in 2969) [ClassicSimilarity], result of:
          0.13169727 = score(doc=2969,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.37528375 = fieldWeight in 2969, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0546875 = fieldNorm(doc=2969)
      0.25 = coord(1/4)
    
    Abstract
    The German Integrated Authority File (Gemeinsame Normdatei, GND), provides a broad controlled vocabulary for indexing documents on all subjects. Traditionally used for intellectual subject cataloging primarily for books, the Deutsche Nationalbibliothek (DNB, German National Library) has been working on developing and implementing procedures for automated assignment of subject headings for online publications. This project, its results, and problems are outlined in this article.
  17. Moulaison-Sandy, H.; Adkins, D.; Bossaller, J.; Cho, H.: ¬An automated approach to describing fiction : a methodology to use book reviews to identify affect (2021) 0.03
    0.032924317 = product of:
      0.13169727 = sum of:
        0.13169727 = weight(_text_:headings in 1711) [ClassicSimilarity], result of:
          0.13169727 = score(doc=1711,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.37528375 = fieldWeight in 1711, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0546875 = fieldNorm(doc=1711)
      0.25 = coord(1/4)
    
    Abstract
    Subject headings and genre terms are notoriously difficult to apply, yet are important for fiction. The current project functions as a proof of concept, using a text-mining methodology to identify affective information (emotion and tone) about fiction titles from professional book reviews as a potential first step in automating the subject analysis process. Findings are presented and discussed, comparing results to the range of aboutness and isness information in library cataloging records. The methodology is likewise presented, and how future work might expand on the current project to enhance catalog records through text-mining is explored.
  18. Chou, C.; Chu, T.: ¬An analysis of BERT (NLP) for assisted subject indexing for Project Gutenberg (2022) 0.03
    0.032924317 = product of:
      0.13169727 = sum of:
        0.13169727 = weight(_text_:headings in 2141) [ClassicSimilarity], result of:
          0.13169727 = score(doc=2141,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.37528375 = fieldWeight in 2141, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.0546875 = fieldNorm(doc=2141)
      0.25 = coord(1/4)
    
    Abstract
    In light of AI (Artificial Intelligence) and NLP (Natural language processing) technologies, this article examines the feasibility of using AI/NLP models to enhance the subject indexing of digital resources. While BERT (Bidirectional Encoder Representations from Transformers) models are widely used in scholarly communities, the authors assess whether BERT models can be used in machine-assisted indexing in the Project Gutenberg collection, through suggesting Library of Congress subject headings filtered by certain Library of Congress Classification subclass labels. The findings of this study are informative for further research on BERT models to assist with automatic subject indexing for digital library collections.
  19. Gil-Leiva, I.: SISA-automatic indexing system for scientific articles : experiments with location heuristics rules versus TF-IDF rules (2017) 0.03
    0.028220842 = product of:
      0.11288337 = sum of:
        0.11288337 = weight(_text_:headings in 4622) [ClassicSimilarity], result of:
          0.11288337 = score(doc=4622,freq=2.0), product of:
            0.35092717 = queryWeight, product of:
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.07232031 = queryNorm
            0.32167178 = fieldWeight in 4622, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              4.8524013 = idf(docFreq=942, maxDocs=44421)
              0.046875 = fieldNorm(doc=4622)
      0.25 = coord(1/4)
    
    Abstract
    Indexing is contextualized and a brief description is provided of some of the most used automatic indexing systems. We describe SISA, a system which uses location heuristics rules, statistical rules like term frequency (TF) or TF-IDF to obtain automatic or semi-automatic indexing, depending on the user's preference. The aim of this research is to ascertain which rules (location heuristics rules or TF-IDF rules) provide the best indexing terms. SISA is used to obtain the automatic indexing of 200 scientific articles on fruit growing written in Portuguese. It uses, on the one hand, location heuristics rules founded on the value of certain parts of the articles for indexing such as titles, abstracts, keywords, headings, first paragraph, conclusions and references and, on the other, TF-IDF rules. The indexing is then evaluated to ascertain retrieval performance through recall, precision and f-measure. Automatic indexing of the articles with location heuristics rules provided the best results with the evaluation measures.
  20. Thönssen, B.: Automatische Indexierung und Schnittstellen zu Thesauri (1988) 0.02
    0.024069358 = product of:
      0.09627743 = sum of:
        0.09627743 = weight(_text_:und in 29) [ClassicSimilarity], result of:
          0.09627743 = score(doc=29,freq=12.0), product of:
            0.16039915 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.07232031 = queryNorm
            0.60023654 = fieldWeight in 29, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.078125 = fieldNorm(doc=29)
      0.25 = coord(1/4)
    
    Abstract
    Über eine Schnittstelle zwischen Programmen zur automatischen Indexierung (PRIMUS-IDX) und zur maschinellen Thesaurusverwaltung (INDEX) sollen große Textmengen schnell, kostengünstig und konsistent erschlossen und verbesserte Recherchemöglichkeiten geschaffen werden. Zielvorstellung ist ein Verfahren, das auf PCs ablauffähig ist und speziell deutschsprachige Texte bearbeiten kann
    Theme
    Konzeption und Anwendung des Prinzips Thesaurus

Years

Languages

  • d 162
  • e 25
  • a 1
  • m 1
  • nl 1
  • More… Less…

Types

  • a 137
  • x 31
  • el 23
  • m 11
  • s 5
  • d 1
  • h 1
  • p 1
  • r 1
  • More… Less…