Search (53 results, page 1 of 3)

  • × theme_ss:"Automatisches Klassifizieren"
  1. Illing, S.: Automatisiertes klinisches Codieren (2021) 0.10
    0.10013214 = product of:
      0.20026428 = sum of:
        0.041644484 = weight(_text_:und in 1420) [ClassicSimilarity], result of:
          0.041644484 = score(doc=1420,freq=4.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.2772374 = fieldWeight in 1420, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0625 = fieldNorm(doc=1420)
        0.15861979 = weight(_text_:html in 1420) [ClassicSimilarity], result of:
          0.15861979 = score(doc=1420,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.45498204 = fieldWeight in 1420, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.0625 = fieldNorm(doc=1420)
      0.5 = coord(2/4)
    
    Abstract
    Die in diesem Artikel vorgestellte Bachelorarbeit behandelt die Ergebnisse einer Shared Task im Bereich eHealth. Es wird untersucht, ob die Klassifikationsgenauigkeit ausgewählter klinischer Codiersysteme durch den Einsatz von Ensemble-Methoden verbessert werden kann. Entscheidend dafür sind die Werte der Evaluationsmaße Mean Average Precision und F1-Maß.
    Content
    DOI: https://www.degruyter.com/document/doi/10.1515/iwp-2021-2174/html.
    Source
    Information - Wissenschaft und Praxis. 72(2021) H.5/6, S.285-290
  2. Wätjen, H.-J.: GERHARD : Automatisches Sammeln, Klassifizieren und Indexieren von wissenschaftlich relevanten Informationsressourcen im deutschen World Wide Web (1998) 0.10
    0.09516237 = product of:
      0.19032474 = sum of:
        0.051532414 = weight(_text_:und in 4064) [ClassicSimilarity], result of:
          0.051532414 = score(doc=4064,freq=8.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.34306374 = fieldWeight in 4064, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0546875 = fieldNorm(doc=4064)
        0.13879232 = weight(_text_:html in 4064) [ClassicSimilarity], result of:
          0.13879232 = score(doc=4064,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.3981093 = fieldWeight in 4064, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.0546875 = fieldNorm(doc=4064)
      0.5 = coord(2/4)
    
    Abstract
    Die intellektuelle Erschließung des Internet befindet sich in einer Krise. Yahoo und andere Dienste können mit dem Wachstum des Web nicht mithalten. GERHARD ist derzeit weltweit der einzige Such- und Navigationsdienst, der die mit einem Roboter gesammelten Internetressourcen mit computerlinguistischen und statistischen Verfahren auch automatisch vollständig klassifiziert. Weit über eine Million HTML-Dokumente von wissenschaftlich relevanten Servern in Deutschland können wie bei anderen Suchmaschinen in der Datenbank gesucht, aber auch über die Navigation in der dreisprachigen Universalen Dezimalklassifikation (ETH-Bibliothek Zürich) recherchiert werden
  3. Jenkins, C.: Automatic classification of Web resources using Java and Dewey Decimal Classification (1998) 0.09
    0.09197992 = product of:
      0.36791968 = sum of:
        0.36791968 = weight(_text_:java in 2673) [ClassicSimilarity], result of:
          0.36791968 = score(doc=2673,freq=4.0), product of:
            0.47730878 = queryWeight, product of:
              7.0475073 = idf(docFreq=104, maxDocs=44421)
              0.06772732 = queryNorm
            0.7708211 = fieldWeight in 2673, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              7.0475073 = idf(docFreq=104, maxDocs=44421)
              0.0546875 = fieldNorm(doc=2673)
      0.25 = coord(1/4)
    
    Abstract
    The Wolverhampton Web Library (WWLib) is a WWW search engine that provides access to UK based information. The experimental version developed in 1995, was a success but highlighted the need for a much higher degree of automation. An interesting feature of the experimental WWLib was that it organised information according to DDC. Discusses the advantages of classification and describes the automatic classifier that is being developed in Java as part of the new, fully automated WWLib
  4. Schek, M.: Automatische Klassifizierung und Visualisierung im Archiv der Süddeutschen Zeitung (2005) 0.07
    0.074406475 = product of:
      0.14881295 = sum of:
        0.07941679 = weight(_text_:und in 5884) [ClassicSimilarity], result of:
          0.07941679 = score(doc=5884,freq=76.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.5286968 = fieldWeight in 5884, product of:
              8.717798 = tf(freq=76.0), with freq of:
                76.0 = termFreq=76.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.02734375 = fieldNorm(doc=5884)
        0.06939616 = weight(_text_:html in 5884) [ClassicSimilarity], result of:
          0.06939616 = score(doc=5884,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.19905464 = fieldWeight in 5884, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.02734375 = fieldNorm(doc=5884)
      0.5 = coord(2/4)
    
    Abstract
    Die Süddeutsche Zeitung (SZ) verfügt seit ihrer Gründung 1945 über ein Pressearchiv, das die Texte der eigenen Redakteure und zahlreicher nationaler und internationaler Publikationen dokumentiert und auf Anfrage für Recherchezwecke bereitstellt. Die Einführung der EDV begann Anfang der 90er Jahre mit der digitalen Speicherung zunächst der SZ-Daten. Die technische Weiterentwicklung ab Mitte der 90er Jahre diente zwei Zielen: (1) dem vollständigen Wechsel von der Papierablage zur digitalen Speicherung und (2) dem Wandel von einer verlagsinternen Dokumentations- und Auskunftsstelle zu einem auch auf dem Markt vertretenen Informationsdienstleister. Um die dabei entstehenden Aufwände zu verteilen und gleichzeitig Synergieeffekte zwischen inhaltlich verwandten Archiven zu erschließen, gründeten der Süddeutsche Verlag und der Bayerische Rundfunk im Jahr 1998 die Dokumentations- und Informationszentrum (DIZ) München GmbH, in der die Pressearchive der beiden Gesellschafter und das Bildarchiv des Süddeutschen Verlags zusammengeführt wurden. Die gemeinsam entwickelte Pressedatenbank ermöglichte das standortübergreifende Lektorat, die browserbasierte Recherche für Redakteure und externe Kunden im Intraund Internet und die kundenspezifischen Content Feeds für Verlage, Rundfunkanstalten und Portale. Die DIZPressedatenbank enthält zur Zeit 6,9 Millionen Artikel, die jeweils als HTML oder PDF abrufbar sind. Täglich kommen ca. 3.500 Artikel hinzu, von denen ca. 1.000 lektoriert werden. Das Lektorat erfolgt im DIZ nicht durch die Vergabe von Schlagwörtern am Dokument, sondern durch die Verlinkung der Artikel mit "virtuellen Mappen", den Dossiers. Diese stellen die elektronische Repräsentation einer Papiermappe dar und sind das zentrale Erschließungsobjekt. Im Gegensatz zu statischen Klassifikationssystemen ist die Dossierstruktur dynamisch und aufkommensabhängig, d.h. neue Dossiers werden hauptsächlich anhand der aktuellen Berichterstattung erstellt. Insgesamt enthält die DIZ-Pressedatenbank ca. 90.000 Dossiers, davon sind 68.000 Sachthemen (Topics), Personen und Institutionen. Die Dossiers sind untereinander zum "DIZ-Wissensnetz" verlinkt.
    DIZ definiert das Wissensnetz als Alleinstellungsmerkmal und wendet beträchtliche personelle Ressourcen für die Aktualisierung und Oualitätssicherung der Dossiers auf. Nach der Umstellung auf den komplett digitalisierten Workflow im April 2001 identifizierte DIZ vier Ansatzpunkte, wie die Aufwände auf der Inputseite (Lektorat) zu optimieren sind und gleichzeitig auf der Outputseite (Recherche) das Wissensnetz besser zu vermarkten ist: 1. (Teil-)Automatische Klassifizierung von Pressetexten (Vorschlagwesen) 2. Visualisierung des Wissensnetzes (Topic Mapping) 3. (Voll-)Automatische Klassifizierung und Optimierung des Wissensnetzes 4. Neue Retrievalmöglichkeiten (Clustering, Konzeptsuche) Die Projekte 1 und 2 "Automatische Klassifizierung und Visualisierung" starteten zuerst und wurden beschleunigt durch zwei Entwicklungen: - Der Bayerische Rundfunk (BR), ursprünglich Mitbegründer und 50%-Gesellschafter der DIZ München GmbH, entschloss sich aus strategischen Gründen, zum Ende 2003 aus der Kooperation auszusteigen. - Die Medienkrise, hervorgerufen durch den massiven Rückgang der Anzeigenerlöse, erforderte auch im Süddeutschen Verlag massive Einsparungen und die Suche nach neuen Erlösquellen. Beides führte dazu, dass die Kapazitäten im Bereich Pressedokumentation von ursprünglich rund 20 (nur SZ, ohne BR-Anteil) auf rund 13 zum 1. Januar 2004 sanken und gleichzeitig die Aufwände für die Pflege des Wissensnetzes unter verstärkten Rechtfertigungsdruck gerieten. Für die Projekte 1 und 2 ergaben sich daraus drei quantitative und qualitative Ziele: - Produktivitätssteigerung im Lektorat - Konsistenzverbesserung im Lektorat - Bessere Vermarktung und intensivere Nutzung der Dossiers in der Recherche Alle drei genannten Ziele konnten erreicht werden, wobei insbesondere die Produktivität im Lektorat gestiegen ist. Die Projekte 1 und 2 "Automatische Klassifizierung und Visualisierung" sind seit Anfang 2004 erfolgreich abgeschlossen. Die Folgeprojekte 3 und 4 laufen seit Mitte 2004 und sollen bis Mitte 2005 abgeschlossen sein. Im folgenden wird in Abschnitt 2 die Produktauswahl und Arbeitsweise der Automatischen Klassifizierung beschrieben. Abschnitt 3 schildert den Einsatz der Wissensnetz-Visualisierung in Lektorat und Recherche. Abschnitt 4 fasst die Ergebnisse der Projekte 1 und 2 zusammen und gibt einen Ausblick auf die Ziele der Projekte 3 und 4.
  5. Schek, M.: Automatische Klassifizierung in Erschließung und Recherche eines Pressearchivs (2006) 0.07
    0.06816698 = product of:
      0.13633396 = sum of:
        0.057024058 = weight(_text_:und in 43) [ClassicSimilarity], result of:
          0.057024058 = score(doc=43,freq=30.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.37962294 = fieldWeight in 43, product of:
              5.477226 = tf(freq=30.0), with freq of:
                30.0 = termFreq=30.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.03125 = fieldNorm(doc=43)
        0.079309896 = weight(_text_:html in 43) [ClassicSimilarity], result of:
          0.079309896 = score(doc=43,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.22749102 = fieldWeight in 43, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.03125 = fieldNorm(doc=43)
      0.5 = coord(2/4)
    
    Abstract
    Die Süddeutsche Zeitung (SZ) verfügt seit ihrer Gründung 1945 über ein Pressearchiv, das die Texte der eigenen Redakteure und zahlreicher nationaler und internationaler Publikationen dokumentiert und für Recherchezwecke bereitstellt. Die DIZ-Pressedatenbank (www.medienport.de) ermöglicht die browserbasierte Recherche für Redakteure und externe Kunden im Intra- und Internet und die kundenspezifischen Content Feeds für Verlage, Rundfunkanstalten und Portale. Die DIZ-Pressedatenbank enthält z. Zt. 7,8 Millionen Artikel, die jeweils als HTML oder PDF abrufbar sind. Täglich kommen ca. 3.500 Artikel hinzu, von denen ca. 1.000 durch Dokumentare inhaltlich erschlossen werden. Die Informationserschließung erfolgt im DIZ nicht durch die Vergabe von Schlagwörtern am Dokument, sondern durch die Verlinkung der Artikel mit "virtuellen Mappen", den Dossiers. Insgesamt enthält die DIZ-Pressedatenbank ca. 90.000 Dossiers, die untereinander zum "DIZ-Wissensnetz" verlinkt sind. DIZ definiert das Wissensnetz als Alleinstellungsmerkmal und wendet beträchtliche personelle Ressourcen für die Aktualisierung und Qualitätssicherung der Dossiers auf. Im Zuge der Medienkrise mussten sich DIZ der Herausforderung stellen, bei sinkenden Lektoratskapazitäten die Qualität der Informationserschließung im Input zu erhalten. Auf der Outputseite gilt es, eine anspruchsvolle Zielgruppe - u.a. die Redakteure der Süddeutschen Zeitung - passgenau und zeitnah mit den Informationen zu versorgen, die sie für ihre tägliche Arbeit benötigt. Bezogen auf die Ausgangssituation in der Dokumentation der Süddeutschen Zeitung identifizierte DIZ drei Ansatzpunkte, wie die Aufwände auf der Inputseite (Lektorat) zu optimieren sind und gleichzeitig auf der Outputseite (Recherche) das Wissensnetz besser zu vermarkten ist: - (Teil-)Automatische Klassifizierung von Pressetexten (Vorschlagwesen) - Visualisierung des Wissensnetzes - Neue Retrievalmöglichkeiten (Ähnlichkeitssuche, Clustering) Im Bereich "Visualisierung" setzt DIZ auf den Net-Navigator von intelligent views, eine interaktive Visualisierung allgemeiner Graphen, basierend auf einem physikalischen Modell. In den Bereichen automatische Klassifizierung, Ähnlichkeitssuche und Clustering hat DIZ sich für das Produkt nextBot der Firma Brainbot entschieden.
    Source
    Spezialbibliotheken zwischen Auftrag und Ressourcen: 6.-9. September 2005 in München, 30. Arbeits- und Fortbildungstagung der ASpB e.V. / Sektion 5 im Deutschen Bibliotheksverband. Red.: M. Brauer
  6. GERHARD : eine Spezialsuchmaschine für die Wissenschaft (1998) 0.06
    0.059482425 = product of:
      0.2379297 = sum of:
        0.2379297 = weight(_text_:html in 1381) [ClassicSimilarity], result of:
          0.2379297 = score(doc=1381,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.68247306 = fieldWeight in 1381, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.09375 = fieldNorm(doc=1381)
      0.25 = coord(1/4)
    
    Footnote
    Vgl. auch: http://www.rrzn.uni-hannover.de/Bis/Jahrgang98/BI315/bi315-10.html
  7. Koch, T.; Ardö, A.: Automatic classification of full-text HTML-documents from one specific subject area : DESIRE II D3.6a, Working Paper 2 (2000) 0.06
    0.05608057 = product of:
      0.22432227 = sum of:
        0.22432227 = weight(_text_:html in 2667) [ClassicSimilarity], result of:
          0.22432227 = score(doc=2667,freq=4.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.6434418 = fieldWeight in 2667, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.0625 = fieldNorm(doc=2667)
      0.25 = coord(1/4)
    
    Source
    http://www.lub.lu.se/desire/DESIRE36a-WP2.html
  8. Piros, A.: Automatic interpretation of complex UDC numbers : towards support for library systems (2015) 0.04
    0.0371655 = product of:
      0.148662 = sum of:
        0.148662 = weight(_text_:java in 3301) [ClassicSimilarity], result of:
          0.148662 = score(doc=3301,freq=2.0), product of:
            0.47730878 = queryWeight, product of:
              7.0475073 = idf(docFreq=104, maxDocs=44421)
              0.06772732 = queryNorm
            0.31145877 = fieldWeight in 3301, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              7.0475073 = idf(docFreq=104, maxDocs=44421)
              0.03125 = fieldNorm(doc=3301)
      0.25 = coord(1/4)
    
    Abstract
    Analytico-synthetic and faceted classifications, such as Universal Decimal Classification (UDC) express content of documents with complex, pre-combined classification codes. Without classification authority control that would help manage and access structured notations, the use of UDC codes in searching and browsing is limited. Existing UDC parsing solutions are usually created for a particular database system or a specific task and are not widely applicable. The approach described in this paper provides a solution by which the analysis and interpretation of UDC notations would be stored into an intermediate format (in this case, in XML) by automatic means without any data or information loss. Due to its richness, the output file can be converted into different formats, such as standard mark-up and data exchange formats or simple lists of the recommended entry points of a UDC number. The program can also be used to create authority records containing complex UDC numbers which can be comprehensively analysed in order to be retrieved effectively. The Java program, as well as the corresponding schema definition it employs, is under continuous development. The current version of the interpreter software is now available online for testing purposes at the following web site: http://interpreter-eto.rhcloud.com. The future plan is to implement conversion methods for standard formats and to create standard online interfaces in order to make it possible to use the features of software as a service. This would result in the algorithm being able to be employed both in existing and future library systems to analyse UDC numbers without any significant programming effort.
  9. Lim, C.S.; Lee, K.J.; Kim, G.C.: Multiple sets of features for automatic genre classification of web documents (2005) 0.04
    0.035050355 = product of:
      0.14020142 = sum of:
        0.14020142 = weight(_text_:html in 2048) [ClassicSimilarity], result of:
          0.14020142 = score(doc=2048,freq=4.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.4021511 = fieldWeight in 2048, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.0390625 = fieldNorm(doc=2048)
      0.25 = coord(1/4)
    
    Abstract
    With the increase of information on the Web, it is difficult to find desired information quickly out of the documents retrieved by a search engine. One way to solve this problem is to classify web documents according to various criteria. Most document classification has been focused on a subject or a topic of a document. A genre or a style is another view of a document different from a subject or a topic. The genre is also a criterion to classify documents. In this paper, we suggest multiple sets of features to classify genres of web documents. The basic set of features, which have been proposed in the previous studies, is acquired from the textual properties of documents, such as the number of sentences, the number of a certain word, etc. However, web documents are different from textual documents in that they contain URL and HTML tags within the pages. We introduce new sets of features specific to web documents, which are extracted from URL and HTML tags. The present work is an attempt to evaluate the performance of the proposed sets of features, and to discuss their characteristics. Finally, we conclude which is an appropriate set of features in automatic genre classification of web documents.
  10. Koch, T.; Ardö, A.; Noodén, L.: ¬The construction of a robot-generated subject index : DESIRE II D3.6a, Working Paper 1 (1999) 0.03
    0.029741213 = product of:
      0.11896485 = sum of:
        0.11896485 = weight(_text_:html in 2668) [ClassicSimilarity], result of:
          0.11896485 = score(doc=2668,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.34123653 = fieldWeight in 2668, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.046875 = fieldNorm(doc=2668)
      0.25 = coord(1/4)
    
    Source
    http://www.lub.lu.se/desire/DESIRE36a-WP1.html
  11. Denoyer, L.; Gallinari, P.: Bayesian network model for semi-structured document classification (2004) 0.03
    0.029741213 = product of:
      0.11896485 = sum of:
        0.11896485 = weight(_text_:html in 1995) [ClassicSimilarity], result of:
          0.11896485 = score(doc=1995,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.34123653 = fieldWeight in 1995, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.046875 = fieldNorm(doc=1995)
      0.25 = coord(1/4)
    
    Abstract
    Recently, a new community has started to emerge around the development of new information research methods for searching and analyzing semi-structured and XML like documents. The goal is to handle both content and structural information, and to deal with different types of information content (text, image, etc.). We consider here the task of structured document classification. We propose a generative model able to handle both structure and content which is based on Bayesian networks. We then show how to transform this generative model into a discriminant classifier using the method of Fisher kernel. The model is then extended for dealing with different types of content information (here text and images). The model was tested on three databases: the classical webKB corpus composed of HTML pages, the new INEX corpus which has become a reference in the field of ad-hoc retrieval for XML documents, and a multimedia corpus of Web pages.
  12. Panyr, J.: Automatische Klassifikation und Information Retrieval : Anwendung und Entwicklung komplexer Verfahren in Information-Retrieval-Systemen und ihre Evaluierung (1986) 0.02
    0.02208532 = product of:
      0.08834128 = sum of:
        0.08834128 = weight(_text_:und in 31) [ClassicSimilarity], result of:
          0.08834128 = score(doc=31,freq=8.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.58810925 = fieldWeight in 31, product of:
              2.828427 = tf(freq=8.0), with freq of:
                8.0 = termFreq=8.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.09375 = fieldNorm(doc=31)
      0.25 = coord(1/4)
    
    Series
    Sprache und Information; Bd.12
  13. Bock, H.-H.: Automatische Klassifikation : theoretische und praktische Methoden zur Gruppierung und Strukturierung von Daten (Cluster-Analyse) (1974) 0.02
    0.020822242 = product of:
      0.08328897 = sum of:
        0.08328897 = weight(_text_:und in 762) [ClassicSimilarity], result of:
          0.08328897 = score(doc=762,freq=4.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.5544748 = fieldWeight in 762, product of:
              2.0 = tf(freq=4.0), with freq of:
                4.0 = termFreq=4.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.125 = fieldNorm(doc=762)
      0.25 = coord(1/4)
    
  14. Search Engines and Beyond : Developing efficient knowledge management systems, April 19-20 1999, Boston, Mass (1999) 0.02
    0.019827474 = product of:
      0.079309896 = sum of:
        0.079309896 = weight(_text_:html in 3596) [ClassicSimilarity], result of:
          0.079309896 = score(doc=3596,freq=2.0), product of:
            0.3486287 = queryWeight, product of:
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.06772732 = queryNorm
            0.22749102 = fieldWeight in 3596, product of:
              1.4142135 = tf(freq=2.0), with freq of:
                2.0 = termFreq=2.0
              5.1475344 = idf(docFreq=701, maxDocs=44421)
              0.03125 = fieldNorm(doc=3596)
      0.25 = coord(1/4)
    
    Source
    http://www.infonortics.com/searchengines/boston99.html
  15. Panyr, J.: Automatische Indexierung und Klassifikation (1983) 0.02
    0.01803259 = product of:
      0.07213036 = sum of:
        0.07213036 = weight(_text_:und in 761) [ClassicSimilarity], result of:
          0.07213036 = score(doc=761,freq=12.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.48018923 = fieldWeight in 761, product of:
              3.4641016 = tf(freq=12.0), with freq of:
                12.0 = termFreq=12.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0625 = fieldNorm(doc=761)
      0.25 = coord(1/4)
    
    Abstract
    Im Beitrag wird zunächst eine terminologische Klärung und Gliederung für drei Indexierungsmethoden und weitere Begriffe, die Konsistenzprobleme bei intellektueller Indexierung betreffen, unternommen. Zur automatichen Indexierung werden Extraktionsmethoden erläutert und zur Automatischen Klassifikation (Clustering) und Indexierung zwei Anwendungen vorgestellt. Eine enge Kooperation zwischen den Befürwortern der intellektuellen und den Entwicklern von automatischen Indexierungsverfahren wird empfohlen
  16. Bock, H.-H.: Datenanalyse zur Strukturierung und Ordnung von Information (1989) 0.02
    0.017042745 = product of:
      0.06817098 = sum of:
        0.06817098 = weight(_text_:und in 141) [ClassicSimilarity], result of:
          0.06817098 = score(doc=141,freq=14.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.4538307 = fieldWeight in 141, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0546875 = fieldNorm(doc=141)
      0.25 = coord(1/4)
    
    Abstract
    Aufgabe der Datenanalyse ist es, Daten zu ordnen, übersichtlich darzustellen, verborgene und natürlich Strukturen zu entdecken, die diesbezüglich wesentlichen Eigenschaften herauszukristallisieren und zweckmäßige Modelle zur Beschreibung von Daten aufzustellen. Es wird ein Einblick in die Methoden und Prinzipien der Datenanalyse vermittelt. Anhand typischer Beispiele wird gezeigt, welche Daten analysiert, welche Strukturen betrachtet, welche Darstellungs- bzw. Ordnungsmethoden verwendet, welche Zielsetzungen verfolgt und welche Bewertungskriterien dabei angewendet werden können. Diskutiert wird auch die angemessene Verwendung der unterschiedlichen Methoden, wobei auf die gefahr und Art von Fehlinterpretationen hingewiesen wird
    Source
    Klassifikation und Ordnung. Tagungsband 12. Jahrestagung der Gesellschaft für Klassifikation, Darmstadt 17.-19.3.1988. Hrsg.: R. Wille
  17. Walther, R.: Möglichkeiten und Grenzen automatischer Klassifikationen von Web-Dokumenten (2001) 0.02
    0.017042745 = product of:
      0.06817098 = sum of:
        0.06817098 = weight(_text_:und in 2562) [ClassicSimilarity], result of:
          0.06817098 = score(doc=2562,freq=14.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.4538307 = fieldWeight in 2562, product of:
              3.7416575 = tf(freq=14.0), with freq of:
                14.0 = termFreq=14.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0546875 = fieldNorm(doc=2562)
      0.25 = coord(1/4)
    
    Abstract
    Automatische Klassifikationen von Web- und andern Textdokumenten ermöglichen es, betriebsinterne und externe Informationen geordnet zugänglich zu machen. Die Forschung zur automatischen Klassifikation hat sich in den letzten Jahren intensiviert. Das Resultat sind verschiedenen Methoden, die heute in der Praxis einzeln oder kombiniert für die Klassifikation im Einsatz sind. In der vorliegenden Lizenziatsarbeit werden neben allgemeinen Grundsätzen einige Methoden zur automatischen Klassifikation genauer betrachtet und ihre Möglichkeiten und Grenzen erörtert. Daneben erfolgt die Präsentation der Resultate aus einer Umfrage bei Anbieterrfirmen von Softwarelösungen zur automatische Klassifikation von Text-Dokumenten. Die Ausführungen dienen der myax internet AG als Basis, ein eigenes Klassifikations-Produkt zu entwickeln
    Footnote
    Lizenziatsarbeit an der Rechts- und Wirtschaftswissenschaftlichen Fakultät der Universität Bern, Institut für Wirtschaftsinformatik (Prof. G. Knolmayer)
    Imprint
    Bern : Rechts- und Wirtschaftswissenschaftlichen Fakultät
  18. Sommer, M.: Automatische Generierung von DDC-Notationen für Hochschulveröffentlichungen (2012) 0.02
    0.0156166805 = product of:
      0.062466722 = sum of:
        0.062466722 = weight(_text_:und in 1587) [ClassicSimilarity], result of:
          0.062466722 = score(doc=1587,freq=16.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.41585606 = fieldWeight in 1587, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.046875 = fieldNorm(doc=1587)
      0.25 = coord(1/4)
    
    Abstract
    Das Thema dieser Bachelorarbeit ist die automatische Generierung von Notationen der Dewey-Dezimalklassifikation für Metadaten. Die Metadaten sind im Dublin-Core-Format und stammen vom Server für wissenschaftliche Schriften der Hochschule Hannover. Zu Beginn erfolgt eine allgemeine Einführung über die Methoden und Hauptanwendungsbereiche des automatischen Klassifizierens. Danach werden die Dewey-Dezimalklassifikation und der Prozess der Metadatengewinnung beschrieben. Der theoretische Teil endet mit der Beschreibung von zwei Projekten. In dem ersten Projekt wurde ebenfalls versucht Metadaten mit Notationen der Dewey-Dezimalklassifikation anzureichern. Das Ergebnis des zweiten Projekts ist eine Konkordanz zwischen der Schlagwortnormdatei und der Dewey-Dezimalklassifikation. Diese Konkordanz wurde im praktischen Teil dieser Arbeit dazu benutzt um automatisch Notationen der Dewey-Dezimalklassifikation zu vergeben.
    Content
    Vgl. unter: http://opus.bsz-bw.de/fhhv/volltexte/2012/397/pdf/Bachelorarbeit_final_Korrektur01.pdf. Bachelorarbeit, Hochschule Hannover, Fakultät III - Medien, Information und Design, Abteilung Information und Kommunikation, Studiengang Informationsmanagement
    Imprint
    Hannover : Hochschule Hannover, Fakultät III - Medien, Information und Design, Abteilung Information und Kommunikation
  19. Kasprzik, A.: Automatisierte und semiautomatisierte Klassifizierung : eine Analyse aktueller Projekte (2014) 0.02
    0.0156166805 = product of:
      0.062466722 = sum of:
        0.062466722 = weight(_text_:und in 3470) [ClassicSimilarity], result of:
          0.062466722 = score(doc=3470,freq=16.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.41585606 = fieldWeight in 3470, product of:
              4.0 = tf(freq=16.0), with freq of:
                16.0 = termFreq=16.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.046875 = fieldNorm(doc=3470)
      0.25 = coord(1/4)
    
    Abstract
    Das sprunghafte Anwachsen der Menge digital verfügbarer Dokumente gepaart mit dem Zeit- und Personalmangel an wissenschaftlichen Bibliotheken legt den Einsatz von halb- oder vollautomatischen Verfahren für die verbale und klassifikatorische Inhaltserschließung nahe. Nach einer kurzen allgemeinen Einführung in die gängige Methodik beleuchtet dieser Artikel eine Reihe von Projekten zur automatisierten Klassifizierung aus dem Zeitraum 2007-2012 und aus dem deutschsprachigen Raum. Ein Großteil der vorgestellten Projekte verwendet Methoden des Maschinellen Lernens aus der Künstlichen Intelligenz, arbeitet meist mit angepassten Versionen einer kommerziellen Software und bezieht sich in der Regel auf die Dewey Decimal Classification (DDC). Als Datengrundlage dienen Metadatensätze, Abstracs, Inhaltsverzeichnisse und Volltexte in diversen Datenformaten. Die abschließende Analyse enthält eine Anordnung der Projekte nach einer Reihe von verschiedenen Kriterien und eine Zusammenfassung der aktuellen Lage und der größten Herausfordungen für automatisierte Klassifizierungsverfahren.
  20. Reiner, U.: VZG-Projekt Colibri : Bewertung von automatisch DDC-klassifizierten Titeldatensätzen der Deutschen Nationalbibliothek (DNB) (2009) 0.02
    0.0152601525 = product of:
      0.06104061 = sum of:
        0.06104061 = weight(_text_:und in 3675) [ClassicSimilarity], result of:
          0.06104061 = score(doc=3675,freq=22.0), product of:
            0.15021236 = queryWeight, product of:
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.06772732 = queryNorm
            0.4063621 = fieldWeight in 3675, product of:
              4.690416 = tf(freq=22.0), with freq of:
                22.0 = termFreq=22.0
              2.217899 = idf(docFreq=13141, maxDocs=44421)
              0.0390625 = fieldNorm(doc=3675)
      0.25 = coord(1/4)
    
    Abstract
    Das VZG-Projekt Colibri/DDC beschäftigt sich seit 2003 mit automatischen Verfahren zur Dewey-Dezimalklassifikation (Dewey Decimal Classification, kurz DDC). Ziel des Projektes ist eine einheitliche DDC-Erschließung von bibliografischen Titeldatensätzen und eine Unterstützung der DDC-Expert(inn)en und DDC-Laien, z. B. bei der Analyse und Synthese von DDC-Notationen und deren Qualitätskontrolle und der DDC-basierten Suche. Der vorliegende Bericht konzentriert sich auf die erste größere automatische DDC-Klassifizierung und erste automatische und intellektuelle Bewertung mit der Klassifizierungskomponente vc_dcl1. Grundlage hierfür waren die von der Deutschen Nationabibliothek (DNB) im November 2007 zur Verfügung gestellten 25.653 Titeldatensätze (12 Wochen-/Monatslieferungen) der Deutschen Nationalbibliografie der Reihen A, B und H. Nach Erläuterung der automatischen DDC-Klassifizierung und automatischen Bewertung in Kapitel 2 wird in Kapitel 3 auf den DNB-Bericht "Colibri_Auswertung_DDC_Endbericht_Sommer_2008" eingegangen. Es werden Sachverhalte geklärt und Fragen gestellt, deren Antworten die Weichen für den Verlauf der weiteren Klassifizierungstests stellen werden. Über das Kapitel 3 hinaus führende weitergehende Betrachtungen und Gedanken zur Fortführung der automatischen DDC-Klassifizierung werden in Kapitel 4 angestellt. Der Bericht dient dem vertieften Verständnis für die automatischen Verfahren.