Search (188 results, page 8 of 10)

Grün, S.: Mehrwortbegriffe und Latent Semantic Analysis : Bewertung automatisch extrahierter Mehrwortgruppen mit LSA (2017) 0.01
```
0.010752154 = product of:
  0.043008614 = sum of:
    0.043008614 = weight(_text_:und in 4954) [ClassicSimilarity], result of:
      0.043008614 = score(doc=4954,freq=12.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.30011827 = fieldWeight in 4954, product of:
          3.4641016 = tf(freq=12.0), with freq of:
            12.0 = termFreq=12.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0390625 = fieldNorm(doc=4954)
  0.25 = coord(1/4)
```
Abstract

Die vorliegende Studie untersucht das Potenzial von Mehrwortbegriffen für das Information Retrieval. Zielsetzung der Arbeit ist es, intellektuell positiv bewertete Kandidaten mithilfe des Latent Semantic Analysis (LSA) Verfahren höher zu gewichten, als negativ bewertete Kandidaten. Die positiven Kandidaten sollen demnach bei einem Ranking im Information Retrieval bevorzugt werden. Als Kollektion wurde eine Version der sozialwissenschaftlichen GIRT-Datenbank (German Indexing and Retrieval Testdatabase) eingesetzt. Um Kandidaten für Mehrwortbegriffe zu identifizieren wurde die automatische Indexierung Lingo verwendet. Die notwendigen Kernfunktionalitäten waren Lemmatisierung, Identifizierung von Komposita, algorithmische Mehrworterkennung sowie Gewichtung von Indextermen durch das LSA-Modell. Die durch Lingo erkannten und LSAgewichteten Mehrwortkandidaten wurden evaluiert. Zuerst wurde dazu eine intellektuelle Auswahl von positiven und negativen Mehrwortkandidaten vorgenommen. Im zweiten Schritt der Evaluierung erfolgte die Berechnung der Ausbeute, um den Anteil der positiven Mehrwortkandidaten zu erhalten. Im letzten Schritt der Evaluierung wurde auf der Basis der R-Precision berechnet, wie viele positiv bewerteten Mehrwortkandidaten es an der Stelle k des Rankings geschafft haben. Die Ausbeute der positiven Mehrwortkandidaten lag bei durchschnittlich ca. 39%, während die R-Precision einen Durchschnittswert von 54% erzielte. Das LSA-Modell erzielt ein ambivalentes Ergebnis mit positiver Tendenz.

Footnote

Masterarbeit, Studiengang Informationswissenschaft und Sprachtechnologie, Institut für Sprache und Information, Philosophische Fakultät, Heinrich-Heine-Universität Düsseldorf

Imprint

Düsseldorf : Heinrich-Heine-Universität / Philosophische Fakultät / Institut für Sprache und Information
Gödert, W.; Lepsky, K.: Semantische Umfeldsuche im Information Retrieval (1998) 0.01
```
0.010644089 = product of:
  0.042576358 = sum of:
    0.042576358 = weight(_text_:und in 1606) [ClassicSimilarity], result of:
      0.042576358 = score(doc=1606,freq=6.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29710194 = fieldWeight in 1606, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0546875 = fieldNorm(doc=1606)
  0.25 = coord(1/4)
```
Abstract

Sachliche Suchen in bibliothekarischen Online-Katalogen enden häufig mit unbefriedigenden Ergebnissen. Als eine Ursache dafür kann angesehen werden, daß die Gestaltung des Suchprozesses das semantische Umfeld einer Suchanfrage nicht mit einbezieht, daß in Übertragung der Verhältnisse in konventionellen Katalogen am Paradigma des Wort-Matching zwischen Suchwort und Indexat festgehalten wird. Es wird statt dessen das Konzept einer semantischen Umfeldsuche entwickelt und gezeigt, welche Rolle die Verwendung strukturierten Vokabulars dafür spielen kann. Insbesondere wird dargestellt, welche Möglichkeiten Verfahren der wörterbuchgestützten maschinellen Indexierung in diesem Zusammenhang spielen können. Die Ausführungen werden durch Beispiele illustriert

Source

Zeitschrift für Bibliothekswesen und Bibliographie. 45(1998) H.4, S.401-423
Lepsky, K.: Automatische Indexierung des Reallexikons zur Deutschen Kunstgeschichte (2006) 0.01
```
0.010644089 = product of:
  0.042576358 = sum of:
    0.042576358 = weight(_text_:und in 80) [ClassicSimilarity], result of:
      0.042576358 = score(doc=80,freq=24.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29710194 = fieldWeight in 80, product of:
          4.8989797 = tf(freq=24.0), with freq of:
            24.0 = termFreq=24.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.02734375 = fieldNorm(doc=80)
  0.25 = coord(1/4)
```
Abstract

Digitalisierungsvorhaben sorgen für eine immer größere Verfügbarkeit von Inhalten bislang ausschließlich gedruckt vorliegender Werke, zunehmend auch von ganzen Büchern. Projekte wie "Google Print" versprechen die völlige elektronische Verfügbarkeit von Informationen nahezu unabhängig von Zeit und Ort und sorgen dafür, dass die Hüter der konventionellen Information, die Bibliotheken, in Angst und Schrecken versetzt werden angesichts des befürchteten Verlusts ihrer traditionellen Rolle. Die Debatte kreist dabei eher selten um die Frage, welcher Nutzen sich konkret aus dem elektronischen Volltext ergibt: Der Nutzen steht schlichtweg außer Frage, Volltexte gelten prinzipiell als nützlich. Das ist insofern zu optimistisch, als die reine Verfügbarkeit von Information noch lange nicht fir deren sinnvolle Verwertung sorgt - die bloße Verfügbarkeit des Volltexts von Kants "Kritik der reinen Vernunft" enthebt nicht der Notwendigkeit, das Werk zu lesen und verstehen zu wollen. Lesen wird man besser auch nicht am Bildschirm sondern in der (neu-deutsch) "PrintAusgabe". Elektronische Volltexte von Büchern dienen nicht der Lektüre. Falls ihr Sinn nicht ohnehin ein rein verkaufsfördernder ist (das "Publishers Program" von Google Print erweckt in der Tat diesen Eindruck), bleibt ihr potenzieller Nutzen als Nachschlageinstrument. Nur der Volltext bietet die Möglichkeit, Informationen in einem Werk zu finden, die nicht explizit erschlossen wurden, durch ein Inhaltsverzeichnis etwa oder, eine noch günstigere Ausgangslage, durch ein Sachregister. Allerdings sind die meisten Werke nicht für einen solchen Zweck verfasst worden, d.h. es ist nicht zu erwarten, dass ein Werk über die "Geschichte des Römischen Reiches" im Volltextzugriff zu einem Lexikon zur Geschichte des Römischen Reiches wird. Entspricht also die hinter Google Print und zahllosen anderen Digitalisierungsinitiativen stehende Auffassung einem doch sehr naiven Bild von der Nützlichkeit gedruckter Information?
Seriöse Information darf erwarten, wer renommierte Nachschlagewerke befragt. Zumindest für die über die Primärordnung (Stichwort/Lemma) erschlossenen Sachverhalte ist für Buchausgaben ein gezielter Zugriff möglich, Verweisungen zwischen Artikeln sorgen für weitere Einstiege. Anzunehmen ist, dass sich der Nutzen von Nachschlagewerken in elektronischer Form noch deutlich erhöhen lässt: Produkte wie z.B. "Brockhaus multimedial" oder "Encyclopedia Britannica" sorgen mit leistungsfähigen Techniken über den wahlfreien Volltextzugriff hinaus für zahlreiche Navigations- und Recherchemöglichkeiten. Es liegt daher nahe, über eine Digitalisierung konventionell vorliegender Nachschlagewerke auch deren Anwendung zu verbessern, die im Print möglichen Zugriffsmöglichkeiten deutlich zu erweitern. Beispiele für diesen Ansatz sind die Digitalisierung der "Oekonomischen Encyklopädie" von Johann Georg Krünitz, die mit hohem Aufwand nicht maschinell (Scanning und OCR) sondern manuell realisiert wurde oder auch die im "Projekt Runeberg' , vorgenommenen zahlreichen Digitalisierungen u.a. auch von Nachschlagewerken. Ob die einfache Volltextindexierung derartig umfangreicher und - weil bereits als Nachschlagewerk konzipiert - gleichzeitig extrem verdichteter Quellen für einen größtmöglichen Nutzen der elektronischen Version ausreicht, darf zu Recht bezweifelt werden. In kommerziellen Produkten sorgen daher zusätzliche Techniken für einerseits thematisch gezielte Zugriffe auch über Nicht-Stichwörter, andererseits für Querverbindungen zu möglicherweise weiteren Artikeln von Interesse ("Wissensnetz" des Brockhaus, "Knowledge Navigator" der Britannica). Es darf angenommen werden, dass derartige Techniken dabei auf Informationen aufsetzen können (Strukturierung der Artikel, gekennzeichnete (getaggte) Personennamen, Querverweise etc.), die in den zu verarbeitenden Artikeln in nutzbarer Form vorliegen. Für digitalisierte Druckausgaben kommen derartige Verfahren nicht in Frage, weil lediglich flache, noch dazu in der Regel mit OCR-Fehlern behaftete Texte vorliegen. Die Zugriffsmöglichkeiten bewegen sich daher zwischen der 1:1-Umsetzung der Druckausgabe, d.h. dem Primärzugriff über Stichwort, und der Volltextsuche auf den vollständigen Lexikontext. Beides ist angesichts der im elektronischen Volltext liegenden Möglichkeiten sicher nicht die Methode der Wahl. Für die Digitalisierung des "Reallexikons zur Deutschen Kunstgeschichte" im Rahmen des von der Deutschen Forschungsgemeinschaft geförderten Projekts "RDKWeb" wird daher versucht, mit den Mitteln der Automatischen Indexierung eine Lösung zu erzielen, die über eine reine Volltextsuchmöglichkeit hinaus Suchunterstützungen bietet, die sich an den Fähigkeiten kommerzieller Produkte orientieren (nicht messen!).

Source

Information und Sprache: Beiträge zu Informationswissenschaft, Computerlinguistik, Bibliothekswesen und verwandten Fächern. Festschrift für Harald H. Zimmermann. Herausgegeben von Ilse Harms, Heinz-Dirk Luckhardt und Hans W. Giessen
Franke-Maier, M.: Anforderungen an die Qualität der Inhaltserschließung im Spannungsfeld von intellektuell und automatisch erzeugten Metadaten (2018) 0.01
```
0.010644089 = product of:
  0.042576358 = sum of:
    0.042576358 = weight(_text_:und in 344) [ClassicSimilarity], result of:
      0.042576358 = score(doc=344,freq=6.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29710194 = fieldWeight in 344, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0546875 = fieldNorm(doc=344)
  0.25 = coord(1/4)
```
Abstract

Spätestens seit dem Deutschen Bibliothekartag 2018 hat sich die Diskussion zu den automatischen Verfahren der Inhaltserschließung der Deutschen Nationalbibliothek von einer politisch geführten Diskussion in eine Qualitätsdiskussion verwandelt. Der folgende Beitrag beschäftigt sich mit Fragen der Qualität von Inhaltserschließung in digitalen Zeiten, wo heterogene Erzeugnisse unterschiedlicher Verfahren aufeinandertreffen und versucht, wichtige Anforderungen an Qualität zu definieren. Dieser Tagungsbeitrag fasst die vom Autor als Impulse vorgetragenen Ideen beim Workshop der FAG "Erschließung und Informationsvermittlung" des GBV am 29. August 2018 in Kiel zusammen. Der Workshop fand im Rahmen der 22. Verbundkonferenz des GBV statt.
Lepsky, K.: Automatisches Indexieren (2023) 0.01
```
0.010644089 = product of:
  0.042576358 = sum of:
    0.042576358 = weight(_text_:und in 1782) [ClassicSimilarity], result of:
      0.042576358 = score(doc=1782,freq=6.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29710194 = fieldWeight in 1782, product of:
          2.4494898 = tf(freq=6.0), with freq of:
            6.0 = termFreq=6.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0546875 = fieldNorm(doc=1782)
  0.25 = coord(1/4)
```
Abstract

Unter Indexierung versteht man die Zuordnung von inhaltskennzeichnenden Ausdrücken (Indextermen, Indexaten, Erschließungsmerkmalen) zu Dokumenten. Über die zugeteilten Indexterme soll ein gezieltes Auffinden der Dokumente ermöglicht werden. Indexterme können inhaltsbeschreibende Merkmale wie Notationen, Deskriptoren, kontrollierte oder freie Schlagwörter sein; es kann sich auch um reine Stichwörter handeln, die aus dem Text des Dokuments gewonnen werden. Eine Indexierung kann intellektuell, computerunterstützt oder automatisch erfolgen. Computerunterstützte Indexierungsverfahren kombinieren die intellektuelle Indexierung mit automatischen Vorarbeiten. Bei der automatischen Indexierung werden die Indexterme automatisch aus dem Dokumenttext ermittelt und dem Dokument zugeordnet. Automatische Indexierung bedient sich für die Verarbeitung der Zeichenketten im Dokument linguistischer und statistischer Verfahren.

Source

Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg

Salton, G.: Future prospects for text-based information retrieval (1990) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 2326) [ClassicSimilarity], result of:
      0.04213966 = score(doc=2326,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 2326, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=2326)
  0.25 = coord(1/4)

Source: Pragmatische Aspekte beim Entwurf und Betrieb von Informationssystemen: Proc. des 1. Int. Symposiums für Informationswissenschaft, Universität Konstanz, 17.-19.10.1990. Hrsg.: J. Herget u. R. Kuhlen

Werner, H.: Indexierung auf linguistischer Grundlage am Beispiel von JUDO-DS(1) (1982) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 3016) [ClassicSimilarity], result of:
      0.04213966 = score(doc=3016,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 3016, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=3016)
  0.25 = coord(1/4)

Source: Deutscher Dokumentartag 1981, Mainz, 5.-8.10.1981: Kleincomputer in Information und Dokumentation. Bearb.: H. Strohl-Goebel

Lepsky, K.; Zimmermann, H.H.: Katalogerweiterung durch Scanning und Automatische Dokumenterschließung : Das DFG-Projekt KASCADE (1998) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 3937) [ClassicSimilarity], result of:
      0.04213966 = score(doc=3937,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 3937, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=3937)
  0.25 = coord(1/4)

Lustig, G.: Methoden der automatischen Indexierung (1970) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 4998) [ClassicSimilarity], result of:
      0.04213966 = score(doc=4998,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 4998, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=4998)
  0.25 = coord(1/4)

Source: Sprachliche Ansätze im Informations- und Dokumentationsbereich. Referate der Arbeitstagung des Komitees Automation der Dokumentation des DGD am 24.-25.2.1970 in Frankfurt

Zimmermann, H.H.: Wortrelationierung in der Sprachtechnik : Stilhilfen, Retrievalhilfen, Übersetzungshilfen (1992) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 1440) [ClassicSimilarity], result of:
      0.04213966 = score(doc=1440,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 1440, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=1440)
  0.25 = coord(1/4)

Source: Kognitive Ansätze zum Ordnen und Darstellen von Wissen. 2. Tagung der Deutschen ISKO Sektion einschl. der Vorträge des Workshops "Thesauri als Werkzeuge der Sprachtechnologie", Weilburg, 15.-18.10.1991

Schäuble, P.: Kostengünstige Konversion großer Bibliothekskataloge (1996) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 4300) [ClassicSimilarity], result of:
      0.04213966 = score(doc=4300,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 4300, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=4300)
  0.25 = coord(1/4)

Content: Kurzbericht über eine Konversion von Katalogkarten mit Automatischer Indexierung und grafischer Abbildung der Katalogkarten im Retrievalsystem

Lepsky, K.: Sacherschließung ohne RSWK? : Neue Praxis an der Universitäts- und Landesbibliothek Düsseldorf (1998) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 2468) [ClassicSimilarity], result of:
      0.04213966 = score(doc=2468,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 2468, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=2468)
  0.25 = coord(1/4)

Maas, J.: Anforderungsanalyse für den Einsatz eines (semi)automatischen Indexierungsverfahrens in der Textdokumentation des ZDF (2002) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 2785) [ClassicSimilarity], result of:
      0.04213966 = score(doc=2785,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 2785, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=2785)
  0.25 = coord(1/4)

Imprint: Potsdam : Fachhochschule, Institut für Information und Dokumentation

Nicoletti, M.: Automatische Indexierung (2001) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 326) [ClassicSimilarity], result of:
      0.04213966 = score(doc=326,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 326, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=326)
  0.25 = coord(1/4)

Content: Inhalt: 1. Aufgabe - 2. Ermittlung von Mehrwortgruppen - 2.1 Definition - 3. Kennzeichnung der Mehrwortgruppen - 4. Grundformen - 5. Term- und Dokumenthäufigkeit --- Termgewichtung - 6. Steuerungsinstrument Schwellenwert - 7. Invertierter Index. Vgl. unter: http://www.grin.com/de/e-book/104966/automatische-indexierung.

Wolfram Language erkennt Bilder (2015) 0.01
```
0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 2872) [ClassicSimilarity], result of:
      0.04213966 = score(doc=2872,freq=8.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 2872, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=2872)
  0.25 = coord(1/4)
```
Abstract

Wolfram Research hat seine Cloud-basierte Programmiersprache Wolfram Language um eine Funktion zur Bilderkennung erweitert. Der Hersteller des Computeralgebrasystems Mathematica und Betreiber der Wissens-Suchmaschine Wolfram Alpha hat seinem System die Erkennung von Bildern beigebracht. Mit der Funktion ImageIdentify bekommt man in Wolfram Language jetzt zu einem Bild eine symbolische Beschreibung des Inhalts, die sich in der Sprache danach sogar weiterverarbeiten lässt. Als Demo dieser Funktion dient die Website The Wolfram Language Image Identification Project: Dort kann man ein beliebiges Bild hochladen und sich das Ergebnis anschauen. Die Website speichert einen Thumbnail des hochgeladenen Bildes, sodass man einen Link zu der Ergebnisseite weitergeben kann. Wie so oft bei künstlicher Intelligenz sind die Ergebnisse manchmal lustig daneben, oft aber auch überraschend gut. Die Funktion arbeitet mit einem neuronalen Netz, das mit einigen -zig Millionen Bildern trainiert wurde und etwa 10.000 Objekte identifizieren kann.

Content

Vgl.: http://www.imageidentify.com. Eine ausführlichere Erklärung der Funktionsweise und Hintergründe findet sich in Stephen Wolframs Blog-Eintrag: "Wolfram Language Artificial Intelligence: The Image Identification Project" unter: http://blog.stephenwolfram.com/2015/05/wolfram-language-artificial-intelligence-the-image-identification-project/. Vgl. auch: https://news.ycombinator.com/item?id=8621658.

Fuhr, N.: Rankingexperimente mit gewichteter Indexierung (1986) 0.01

0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 3051) [ClassicSimilarity], result of:
      0.04213966 = score(doc=3051,freq=2.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 3051, product of:
          1.4142135 = tf(freq=2.0), with freq of:
            2.0 = termFreq=2.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.09375 = fieldNorm(doc=3051)
  0.25 = coord(1/4)

Source: Automatische Indexierung zwischen Forschung und Anwendung, Hrsg.: G. Lustig

Wiesenmüller, H.: DNB-Sacherschließung : Neues für die Reihen A und B (2019) 0.01
```
0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 212) [ClassicSimilarity], result of:
      0.04213966 = score(doc=212,freq=8.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 212, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=212)
  0.25 = coord(1/4)
```
Abstract

"Alle paar Jahre wird die Bibliothekscommunity mit Veränderungen in der inhaltlichen Erschließung durch die Deutsche Nationalbibliothek konfrontiert. Sicher werden sich viele noch an die Einschnitte des Jahres 2014 für die Reihe A erinnern: Seither werden u.a. Ratgeber, Sprachwörterbücher, Reiseführer und Kochbücher nicht mehr mit Schlagwörtern erschlossen (vgl. das DNB-Konzept von 2014). Das Jahr 2017 brachte die Einführung der maschinellen Indexierung für die Reihen B und H bei gleichzeitigem Verlust der DDC-Tiefenerschließung (vgl. DNB-Informationen von 2017). Virulent war seither die Frage, was mit der Reihe A passieren würde. Seit wenigen Tagen kann man dies nun auf der Website der DNB nachlesen. (Nebenbei: Es ist zu befürchten, dass viele Links in diesem Blog-Beitrag in absehbarer Zeit nicht mehr funktionieren werden, da ein Relaunch der DNB-Website angekündigt ist. Wie beim letzten Mal wird es vermutlich auch diesmal keine Weiterleitungen von den alten auf die neuen URLs geben.)"

Source

https://www.basiswissen-rda.de/dnb-sacherschliessung-reihen-a-und-b/
Busch, D.: Domänenspezifische hybride automatische Indexierung von bibliographischen Metadaten (2019) 0.01
```
0.010534915 = product of:
  0.04213966 = sum of:
    0.04213966 = weight(_text_:und in 628) [ClassicSimilarity], result of:
      0.04213966 = score(doc=628,freq=8.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.29405463 = fieldWeight in 628, product of:
          2.828427 = tf(freq=8.0), with freq of:
            8.0 = termFreq=8.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.046875 = fieldNorm(doc=628)
  0.25 = coord(1/4)
```
Abstract

Im Fraunhofer-Informationszentrum Raum und Bau (IRB) wird Fachliteratur im Bereich Planen und Bauen bibliographisch erschlossen. Die daraus resultierenden Dokumente (Metadaten-Einträge) werden u.a. bei der Produktion der bibliographischen Datenbanken des IRB verwendet. In Abb. 1 ist ein Dokument dargestellt, das einen Zeitschriftenartikel beschreibt. Die Dokumente werden mit Deskriptoren von einer Nomenklatur (Schlagwortliste IRB) indexiert. Ein Deskriptor ist "eine Benennung., die für sich allein verwendbar, eindeutig zur Inhaltskennzeichnung geeignet und im betreffenden Dokumentationssystem zugelassen ist". Momentan wird die Indexierung intellektuell von menschlichen Experten durchgeführt. Die intellektuelle Indexierung ist zeitaufwendig und teuer. Eine Lösung des Problems besteht in der automatischen Indexierung, bei der die Zuordnung von Deskriptoren durch ein Computerprogramm erfolgt. Solche Computerprogramme werden im Folgenden auch als Klassifikatoren bezeichnet. In diesem Beitrag geht es um ein System zur automatischen Indexierung von deutschsprachigen Dokumenten im Bereich Bauwesen mit Deskriptoren aus der Schlagwortliste IRB.
Lohmann, H.: KASCADE: Dokumentanreicherung und automatische Inhaltserschließung : Projektbericht und Ergebnisse des Retrievaltests (2000) 0.01
```
0.0101909395 = product of:
  0.040763758 = sum of:
    0.040763758 = weight(_text_:und in 1494) [ClassicSimilarity], result of:
      0.040763758 = score(doc=1494,freq=22.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.28445345 = fieldWeight in 1494, product of:
          4.690416 = tf(freq=22.0), with freq of:
            22.0 = termFreq=22.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.02734375 = fieldNorm(doc=1494)
  0.25 = coord(1/4)
```
Abstract

Der Test hat gezeigt, dass die Ergänzung der bibliothekarischen Titelaufnahme um zusätzliche inhaltsrelevante Daten zu einer beeindruckenden Verbesserung der Suchergebnisse führt. Die Dokumentanreicherung sollte daher als Ziel bibliothekarischer Bemühungen um eine Verbesserung des OPAC-Retrievals weiterverfolgt werden. Der im Projekt eingeschlagene Weg, die Inhaltsverzeichnisse zu scannen, erwies sich allerdings als wenig sinnvoll. Zwar erzielte das Scanningverfahren gute Ergebnisse, auch arbeitete die Texterkennungssoftware sehr zuverlässig. Das Scanning bietet darüber hinaus die Möglichkeit, die dabei angefertigte Grafik-Datei mit dem Titelsatz im OPAC zu verknüpfen und so dem Nutzer als Entscheidungshilfe bei der Ergebnismengenbeurteilung an die Hand zu geben. Die Arbeiten am Aufbau der Testdatenbank brachten aber die Erkenntnis, dass die Anreicherung im Wege des Scanning technisch außerordentlich problematisch ist und einen nicht vorauszusehenden und letztlich auch nicht zu rechtfertigenden Aufwand erfordert. Diese Methode der Anreicherung kann daher für einen Praxiseinsatz nicht empfohlen werden.
Abgesehen von diesen Überlegungen müssten für einen praktischen Einsatz der KASCADE-Entwicklungen weitere Voraussetzungen geschaffen werden. Erforderlich wäre zunächst die Optimierung und Rationalisierung der Verfahrensabläufe selbst. Die Teilprogramme unter KasKoll sollten in ein kompaktes Programm integriert werden. Die Sortiervorgänge könnten vereinfacht werden, indem die Deskriptoren in eine relationale Datenbank überführt werden. Letztendlich wirken sich diese Punkte aber vor allem auf die Dauer der Maschinenlaufzeiten aus, die bei der Frage nach den Implementierungskosten letztlich nur eine untergeordnete Rolle spielen. Optimiert werden sollte die Oberfläche zur Steuerung des Verfahrens. Bereits jetzt laufen einige der Programme unter einer menügeführten Windows-Schnittstelle (Kasadew) ab, was für alle Verfahrensteile erreicht werden sollte. Schließlich ist zu klären, unter welchen Bedingungen das Gewichtungsverfahren im Praxisbetrieb ablaufen kann.
Da sich mit jedem Dokument, das zu dem im Gewichtungsverfahren befindlichen Gesamtbestand hinzukommt, die Werte aller bereits gewichteten Deskriptoren ändern können, müsste die Berechnung der Häufigkeitsverteilung jeder Grundform im Prinzip nach jeder Änderung im Dokumentbestand neu berechnet werden. Eine Online-Aktualisierung des Bestandes erscheint daher wenig sinnvoll. In der Praxis könnte eine Neuberechnung in bestimmten zeitlichen Abständen mit einem Abzug des OPAC-Bestandes unabhängig vom eigentlichen Betrieb des OPAC erfolgen, was auch insofern genügen würde, als die zugrunde liegenden Maße auf relativen Häufigkeiten basieren. Dadurch würde nur ein geringer Verzug in der Bereitstellung der aktuellen Gewichte eintreten. Außerdem würde der Zeitfaktor eine nur untergeordnete Rolle spielen, da ein offline ablaufender Gewichtungslauf erst bis zum nächsten Aktualisierungszeitpunkt abgeschlossen sein müsste. Denkbar wäre zusätzlich, für die Zeit zwischen zwei Aktualisierungen des OPACs für die in den Neuzugängen enthaltenen Begriffe Standardgewichte einzusetzen, soweit diese Begriffe bereits in dem Bestand auftreten. Bei entsprechender Optimierung und Rationalisierung der SELIX-Verfahrensabläufe, Nutzung der Gewichte auf der Retrievalseite für ein Ranking der auszugebenden Dokumente und Integration der THEAS-Komponente kann das Verfahren zu einem wirkungsvollen Instrument zur Verbesserung der Retrievaleffektivität weiterentwickelt werden.

Footnote

Zugl.: Köln, Fachhochsch., Fachbereich Bibliotheks- und Informationswesen, Hausarbeit

Imprint

Düsseldorf : Universitäts- und Landesbibliothek

Series

Schriften der Universitäts- und Landesbibliothek Düsseldorf; 31
Fuhr, N.: Klassifikationsverfahren bei der automatischen Indexierung (1983) 0.01
```
0.009932415 = product of:
  0.03972966 = sum of:
    0.03972966 = weight(_text_:und in 766) [ClassicSimilarity], result of:
      0.03972966 = score(doc=766,freq=4.0), product of:
        0.14330555 = queryWeight, product of:
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0646132 = queryNorm
        0.2772374 = fieldWeight in 766, product of:
          2.0 = tf(freq=4.0), with freq of:
            4.0 = termFreq=4.0
          2.217899 = idf(docFreq=13141, maxDocs=44421)
          0.0625 = fieldNorm(doc=766)
  0.25 = coord(1/4)
```
Abstract

Nach einer kurzen Einführung in die Darmstädter Projekte WAI und AIR werden die folgenden Themen behandelt: Ein Ansatz zur automatischen Klassifikation. Statistische Relationen für die Klassifikation. Indexieren von Dokumenten als Spezialfall der automatischen Klassifikation. Klassifikation von Elementen der Relevanzbeschreibung. Klassifikation zur Verbesserung der Relevanzbeschreibungen. Automatische Dokumentklassifikation und Automatische Indexierung klassifizierter Dokumente. Das Projekt AIR wird in Zusammenarbeit mit der Datenbasis INKA-PHYS des Fachinformationszentrums Energie, Physik, Mathematik in Karlsruhe durchgeführt

Search (188 results, page 8 of 10)

Authors

Years

Languages

Types

Themes

Subjects

Classifications