-
Loh, S.; Oliveira, J.P.M. de; Gastal, F.L.: Knowledge discovery in textual documentation : qualitative and quantitative analyses (2001)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 5482) [ClassicSimilarity], result of:
0.10035263 = score(doc=5482,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 5482, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=5482)
0.25 = coord(1/4)
- Abstract
- This paper presents an approach for performing knowledge discovery in texts through qualitative and quantitative analyses of high-level textual characteristics. Instead of applying mining techniques on attribute values, terms or keywords extracted from texts, the discovery process works over conceptss identified in texts. Concepts represent real world events and objects, and they help the user to understand ideas, trends, thoughts, opinions and intentions present in texts. The approach combines a quasi-automatic categorisation task (for qualitative analysis) with a mining process (for quantitative analysis). The goal is to find new and useful knowledge inside a textual collection through the use of mining techniques applied over concepts (representing text content). In this paper, an application of the approach to medical records of a psychiatric hospital is presented. The approach helps physicians to extract knowledge about patients and diseases. This knowledge may be used for epidemiological studies, for training professionals and it may be also used to support physicians to diagnose and evaluate diseases.
-
Perugini, S.; Ramakrishnan, N.: Mining Web functional dependencies for flexible information access (2007)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 1602) [ClassicSimilarity], result of:
0.10035263 = score(doc=1602,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 1602, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=1602)
0.25 = coord(1/4)
- Abstract
- We present an approach to enhancing information access through Web structure mining in contrast to traditional approaches involving usage mining. Specifically, we mine the hardwired hierarchical hyperlink structure of Web sites to identify patterns of term-term co-occurrences we call Web functional dependencies (FDs). Intuitively, a Web FD x -> y declares that all paths through a site involving a hyperlink labeled x also contain a hyperlink labeled y. The complete set of FDs satisfied by a site help characterize (flexible and expressive) interaction paradigms supported by a site, where a paradigm is the set of explorable sequences therein. We describe algorithms for mining FDs and results from mining several hierarchical Web sites and present several interface designs that can exploit such FDs to provide compelling user experiences.
-
Berry, M.W.; Esau, R.; Kiefer, B.: ¬The use of text mining techniques in electronic discovery for legal matters (2012)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 1091) [ClassicSimilarity], result of:
0.10035263 = score(doc=1091,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 1091, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=1091)
0.25 = coord(1/4)
- Abstract
- Electronic discovery (eDiscovery) is the process of collecting and analyzing electronic documents to determine their relevance to a legal matter. Office technology has advanced and eased the requirements necessary to create a document. As such, the volume of data has outgrown the manual processes previously used to make relevance judgments. Methods of text mining and information retrieval have been put to use in eDiscovery to help tame the volume of data; however, the results have been uneven. This chapter looks at the historical bias of the collection process. The authors examine how tools like classifiers, latent semantic analysis, and non-negative matrix factorization deal with nuances of the collection process.
-
Chen, Y.-L.; Liu, Y.-H.; Ho, W.-L.: ¬A text mining approach to assist the general public in the retrieval of legal documents (2013)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 1521) [ClassicSimilarity], result of:
0.10035263 = score(doc=1521,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 1521, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=1521)
0.25 = coord(1/4)
- Abstract
- Applying text mining techniques to legal issues has been an emerging research topic in recent years. Although some previous studies focused on assisting professionals in the retrieval of related legal documents, they did not take into account the general public and their difficulty in describing legal problems in professional legal terms. Because this problem has not been addressed by previous research, this study aims to design a text-mining-based method that allows the general public to use everyday vocabulary to search for and retrieve criminal judgments. The experimental results indicate that our method can help the general public, who are not familiar with professional legal terms, to acquire relevant criminal judgments more accurately and effectively.
-
Mohr, J.W.; Bogdanov, P.: Topic models : what they are and why they matter (2013)
0.03
0.025088158 = product of:
0.10035263 = sum of:
0.10035263 = weight(_text_:help in 2142) [ClassicSimilarity], result of:
0.10035263 = score(doc=2142,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.31182557 = fieldWeight in 2142, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.046875 = fieldNorm(doc=2142)
0.25 = coord(1/4)
- Abstract
- We provide a brief, non-technical introduction to the text mining methodology known as "topic modeling." We summarize the theory and background of the method and discuss what kinds of things are found by topic models. Using a text corpus comprised of the eight articles from the special issue of Poetics on the subject of topic models, we run a topic model on these articles, both as a way to introduce the methodology and also to help summarize some of the ways in which social and cultural scientists are using topic models. We review some of the critiques and debates over the use of the method and finally, we link these developments back to some of the original innovations in the field of content analysis that were pioneered by Harold D. Lasswell and colleagues during and just after World War II.
-
Raan, A.F.J. van; Noyons, E.C.M.: Discovery of patterns of scientific and technological development and knowledge transfer (2002)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 4603) [ClassicSimilarity], result of:
0.083627194 = score(doc=4603,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 4603, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=4603)
0.25 = coord(1/4)
- Abstract
- This paper addresses a bibliometric methodology to discover the structure of the scientific 'landscape' in order to gain detailed insight into the development of MD fields, their interaction, and the transfer of knowledge between them. This methodology is appropriate to visualize the position of MD activities in relation to interdisciplinary MD developments, and particularly in relation to socio-economic problems. Furthermore, it allows the identification of the major actors. It even provides the possibility of foresight. We describe a first approach to apply bibliometric mapping as an instrument to investigate characteristics of knowledge transfer. In this paper we discuss the creation of 'maps of science' with help of advanced bibliometric methods. This 'bibliometric cartography' can be seen as a specific type of data-mining, applied to large amounts of scientific publications. As an example we describe the mapping of the field neuroscience, one of the largest and fast growing fields in the life sciences. The number of publications covered by this database is about 80,000 per year, the period covered is 1995-1998. Current research is going an to update the mapping for the years 1999-2002. This paper addresses the main lines of the methodology and its application in the study of knowledge transfer.
-
Wang, F.L.; Yang, C.C.: Mining Web data for Chinese segmentation (2007)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 1604) [ClassicSimilarity], result of:
0.083627194 = score(doc=1604,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 1604, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=1604)
0.25 = coord(1/4)
- Abstract
- Modern information retrieval systems use keywords within documents as indexing terms for search of relevant documents. As Chinese is an ideographic character-based language, the words in the texts are not delimited by white spaces. Indexing of Chinese documents is impossible without a proper segmentation algorithm. Many Chinese segmentation algorithms have been proposed in the past. Traditional segmentation algorithms cannot operate without a large dictionary or a large corpus of training data. Nowadays, the Web has become the largest corpus that is ideal for Chinese segmentation. Although most search engines have problems in segmenting texts into proper words, they maintain huge databases of documents and frequencies of character sequences in the documents. Their databases are important potential resources for segmentation. In this paper, we propose a segmentation algorithm by mining Web data with the help of search engines. On the other hand, the Romanized pinyin of Chinese language indicates boundaries of words in the text. Our algorithm is the first to utilize the Romanized pinyin to segmentation. It is the first unified segmentation algorithm for the Chinese language from different geographical areas, and it is also domain independent because of the nature of the Web. Experiments have been conducted on the datasets of a recent Chinese segmentation competition. The results show that our algorithm outperforms the traditional algorithms in terms of precision and recall. Moreover, our algorithm can effectively deal with the problems of segmentation ambiguity, new word (unknown word) detection, and stop words.
-
Liu, Y.; Zhang, M.; Cen, R.; Ru, L.; Ma, S.: Data cleansing for Web information retrieval using query independent features (2007)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 1607) [ClassicSimilarity], result of:
0.083627194 = score(doc=1607,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 1607, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=1607)
0.25 = coord(1/4)
- Abstract
- Understanding what kinds of Web pages are the most useful for Web search engine users is a critical task in Web information retrieval (IR). Most previous works used hyperlink analysis algorithms to solve this problem. However, little research has been focused on query-independent Web data cleansing for Web IR. In this paper, we first provide analysis of the differences between retrieval target pages and ordinary ones based on more than 30 million Web pages obtained from both the Text Retrieval Conference (TREC) and a widely used Chinese search engine, SOGOU (www.sogou.com). We further propose a learning-based data cleansing algorithm for reducing Web pages that are unlikely to be useful for user requests. We found that there exists a large proportion of low-quality Web pages in both the English and the Chinese Web page corpus, and retrieval target pages can be identified using query-independent features and cleansing algorithms. The experimental results showed that our algorithm is effective in reducing a large portion of Web pages with a small loss in retrieval target pages. It makes it possible for Web IR tools to meet a large fraction of users' needs with only a small part of pages on the Web. These results may help Web search engines make better use of their limited storage and computation resources to improve search performance.
-
Suakkaphong, N.; Zhang, Z.; Chen, H.: Disease named entity recognition using semisupervised learning and conditional random fields (2011)
0.02
0.020906799 = product of:
0.083627194 = sum of:
0.083627194 = weight(_text_:help in 367) [ClassicSimilarity], result of:
0.083627194 = score(doc=367,freq=2.0), product of:
0.32182297 = queryWeight, product of:
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.06841661 = queryNorm
0.25985464 = fieldWeight in 367, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.7038717 = idf(docFreq=1093, maxDocs=44421)
0.0390625 = fieldNorm(doc=367)
0.25 = coord(1/4)
- Abstract
- Information extraction is an important text-mining task that aims at extracting prespecified types of information from large text collections and making them available in structured representations such as databases. In the biomedical domain, information extraction can be applied to help biologists make the most use of their digital-literature archives. Currently, there are large amounts of biomedical literature that contain rich information about biomedical substances. Extracting such knowledge requires a good named entity recognition technique. In this article, we combine conditional random fields (CRFs), a state-of-the-art sequence-labeling algorithm, with two semisupervised learning techniques, bootstrapping and feature sampling, to recognize disease names from biomedical literature. Two data-processing strategies for each technique also were analyzed: one sequentially processing unlabeled data partitions and another one processing unlabeled data partitions in a round-robin fashion. The experimental results showed the advantage of semisupervised learning techniques given limited labeled training data. Specifically, CRFs with bootstrapping implemented in sequential fashion outperformed strictly supervised CRFs for disease name recognition. The project was supported by NIH/NLM Grant R33 LM07299-01, 2002-2005.
-
Ester, M.; Sander, J.: Knowledge discovery in databases : Techniken und Anwendungen (2000)
0.02
0.019675652 = product of:
0.078702606 = sum of:
0.078702606 = weight(_text_:und in 2374) [ClassicSimilarity], result of:
0.078702606 = score(doc=2374,freq=14.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.51866364 = fieldWeight in 2374, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=2374)
0.25 = coord(1/4)
- Abstract
- Knowledge Discovery in Databases (KDD) ist ein aktuelles Forschungs- und Anwendungsgebiet der Informatik. Ziel des KDD ist es, selbständig entscheidungsrelevante, aber bisher unbekannte Zusammenhänge und Verknüpfungen in den Daten großer Datenmengen zu entdecken und dem Analysten oder dem Anwender in übersichtlicher Form zu präsentieren. Die Autoren stellen die Techniken und Anwendungen dieses interdisziplinären Gebiets anschaulich dar.
- Content
- Einleitung.- Statistik- und Datenbank-Grundlagen.Klassifikation.- Assoziationsregeln.- Generalisierung und Data Cubes.- Spatial-, Text-, Web-, Temporal-Data Mining. Ausblick.
-
Analytische Informationssysteme : Data Warehouse, On-Line Analytical Processing, Data Mining (1998)
0.02
0.019675652 = product of:
0.078702606 = sum of:
0.078702606 = weight(_text_:und in 2380) [ClassicSimilarity], result of:
0.078702606 = score(doc=2380,freq=14.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.51866364 = fieldWeight in 2380, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=2380)
0.25 = coord(1/4)
- Abstract
- Neben den operativen Informationssystemen treten heute verstärkt Informationssysteme für die analytischen Aufgaben der Fach- und Führungskräfte in den Vordergrund. In fast allen Unternehmen werden derzeit Begriffe und Konzepte wie Data Warehouse, On-Line Analytical Processing und Data Mining diskutiert und die zugehörigen Produkte evaluiert. Vor diesem Hintergrund zielt der vorliegende Sammelband darauf, einen aktuellen Überblick über Technologien, Produkte und Trends zu bieten. Als Entscheidungsgrundlage für den Praktiker beim Aufbau und Einsatz derartiger analytischer Informationssysteme können die unterschiedlichen Beiträge aus Wirtschaft und Wissenschaft wertvolle Hilfestellung leisten
-
Datentracking in der Wissenschaft : Aggregation und Verwendung bzw. Verkauf von Nutzungsdaten durch Wissenschaftsverlage. Ein Informationspapier des Ausschusses für Wissenschaftliche Bibliotheken und Informationssysteme der Deutschen Forschungsgemeinschaft (2021)
0.02
0.019321108 = product of:
0.07728443 = sum of:
0.07728443 = weight(_text_:und in 1249) [ClassicSimilarity], result of:
0.07728443 = score(doc=1249,freq=24.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.50931764 = fieldWeight in 1249, product of:
4.8989797 = tf(freq=24.0), with freq of:
24.0 = termFreq=24.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=1249)
0.25 = coord(1/4)
- Abstract
- Das Informationspapier beschreibt die digitale Nachverfolgung von wissenschaftlichen Aktivitäten. Wissenschaftlerinnen und Wissenschaftler nutzen täglich eine Vielzahl von digitalen Informationsressourcen wie zum Beispiel Literatur- und Volltextdatenbanken. Häufig fallen dabei Nutzungsspuren an, die Aufschluss geben über gesuchte und genutzte Inhalte, Verweildauern und andere Arten der wissenschaftlichen Aktivität. Diese Nutzungsspuren können von den Anbietenden der Informationsressourcen festgehalten, aggregiert und weiterverwendet oder verkauft werden. Das Informationspapier legt die Transformation von Wissenschaftsverlagen hin zu Data Analytics Businesses dar, verweist auf die Konsequenzen daraus für die Wissenschaft und deren Einrichtungen und benennt die zum Einsatz kommenden Typen der Datengewinnung. Damit dient es vor allem der Darstellung gegenwärtiger Praktiken und soll zu Diskussionen über deren Konsequenzen für die Wissenschaft anregen. Es richtet sich an alle Wissenschaftlerinnen und Wissenschaftler sowie alle Akteure in der Wissenschaftslandschaft.
- Editor
- Deutsche Forschungsgemeinschaft / Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme
-
Lackes, R.; Tillmanns, C.: Data Mining für die Unternehmenspraxis : Entscheidungshilfen und Fallstudien mit führenden Softwarelösungen (2006)
0.02
0.018498551 = product of:
0.073994204 = sum of:
0.073994204 = weight(_text_:und in 2383) [ClassicSimilarity], result of:
0.073994204 = score(doc=2383,freq=22.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.48763448 = fieldWeight in 2383, product of:
4.690416 = tf(freq=22.0), with freq of:
22.0 = termFreq=22.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=2383)
0.25 = coord(1/4)
- Abstract
- Das Buch richtet sich an Praktiker in Unternehmen, die sich mit der Analyse von großen Datenbeständen beschäftigen. Nach einem kurzen Theorieteil werden vier Fallstudien aus dem Customer Relationship Management eines Versandhändlers bearbeitet. Dabei wurden acht führende Softwarelösungen verwendet: der Intelligent Miner von IBM, der Enterprise Miner von SAS, Clementine von SPSS, Knowledge Studio von Angoss, der Delta Miner von Bissantz, der Business Miner von Business Object und die Data Engine von MIT. Im Rahmen der Fallstudien werden die Stärken und Schwächen der einzelnen Lösungen deutlich, und die methodisch-korrekte Vorgehensweise beim Data Mining wird aufgezeigt. Beides liefert wertvolle Entscheidungshilfen für die Auswahl von Standardsoftware zum Data Mining und für die praktische Datenanalyse.
- Content
- Modelle, Methoden und Werkzeuge: Ziele und Aufbau der Untersuchung.- Grundlagen.- Planung und Entscheidung mit Data-Mining-Unterstützung.- Methoden.- Funktionalität und Handling der Softwarelösungen. Fallstudien: Ausgangssituation und Datenbestand im Versandhandel.- Kundensegmentierung.- Erklärung regionaler Marketingerfolge zur Neukundengewinnung.Prognose des Customer Lifetime Values.- Selektion von Kunden für eine Direktmarketingaktion.- Welche Softwarelösung für welche Entscheidung?- Fazit und Marktentwicklungen.
-
Analytische Informationssysteme : Data Warehouse, On-Line Analytical Processing, Data Mining (1999)
0.02
0.018404888 = product of:
0.07361955 = sum of:
0.07361955 = weight(_text_:und in 2381) [ClassicSimilarity], result of:
0.07361955 = score(doc=2381,freq=16.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.48516542 = fieldWeight in 2381, product of:
4.0 = tf(freq=16.0), with freq of:
16.0 = termFreq=16.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=2381)
0.25 = coord(1/4)
- Abstract
- Neben den operativen Informationssystemen, welche die Abwicklung des betrieblichen Tagesgeschäftes unterstützen, treten heute verstärkt Informationssysteme für analytische Aufgaben der Fach- und Führungskräfte in den Vordergrund. In fast allen Unternehmen werden derzeit Begriffe und Konzepte wie Data Warehouse, On-Line Analytical Processing und Data Mining diskutiert und die zugehörigen Produkte evaluiert. Vor diesem Hintergrund zielt der vorliegende Sammelband darauf ab, einen aktuellen Überblick über Technologien, Produkte und Trends zu bieten. Als Entscheidungsgrundlage für den Praktiker beim Aufbau und Einsatz derartiger analytischer Informationssysteme können die unterschiedlichen Beiträge aus Wirtschaft und Wissenschaft wertvolle Hilfestellung leisten.
- Content
- Grundlagen.- Data Warehouse.- On-line Analytical Processing.- Data Mining.- Betriebswirtschaftliche und strategische Aspekte.
-
Drees, B.: Text und data mining : Herausforderungen und Möglichkeiten für Bibliotheken (2016)
0.02
0.017637676 = product of:
0.0705507 = sum of:
0.0705507 = weight(_text_:und in 4952) [ClassicSimilarity], result of:
0.0705507 = score(doc=4952,freq=20.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.4649412 = fieldWeight in 4952, product of:
4.472136 = tf(freq=20.0), with freq of:
20.0 = termFreq=20.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=4952)
0.25 = coord(1/4)
- Abstract
- Text und Data Mining (TDM) gewinnt als wissenschaftliche Methode zunehmend an Bedeutung und stellt wissenschaftliche Bibliotheken damit vor neue Herausforderungen, bietet gleichzeitig aber auch neue Möglichkeiten. Der vorliegende Beitrag gibt einen Überblick über das Thema TDM aus bibliothekarischer Sicht. Hierzu wird der Begriff Text und Data Mining im Kontext verwandter Begriffe diskutiert sowie Ziele, Aufgaben und Methoden von TDM erläutert. Diese werden anhand beispielhafter TDM-Anwendungen in Wissenschaft und Forschung illustriert. Ferner werden technische und rechtliche Probleme und Hindernisse im TDM-Kontext dargelegt. Abschließend wird die Relevanz von TDM für Bibliotheken, sowohl in ihrer Rolle als Informationsvermittler und -anbieter als auch als Anwender von TDM-Methoden, aufgezeigt. Zudem wurde im Rahmen dieser Arbeit eine Befragung der Betreiber von Dokumentenservern an Bibliotheken in Deutschland zum aktuellen Umgang mit TDM durchgeführt, die zeigt, dass hier noch viel Ausbaupotential besteht. Die dem Artikel zugrunde liegenden Forschungsdaten sind unter dem DOI 10.11588/data/10090 publiziert.
-
Baumgartner, R.: Methoden und Werkzeuge zur Webdatenextraktion (2006)
0.02
0.017216196 = product of:
0.068864785 = sum of:
0.068864785 = weight(_text_:und in 808) [ClassicSimilarity], result of:
0.068864785 = score(doc=808,freq=14.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.4538307 = fieldWeight in 808, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=808)
0.25 = coord(1/4)
- Abstract
- Das World Wide Web kann als die größte uns bekannte "Datenbank" angesehen werden. Leider ist das heutige Web großteils auf die Präsentation für menschliche Benutzerinnen ausgelegt und besteht aus sehr heterogenen Datenbeständen. Überdies fehlen im Web die Möglichkeiten Informationen strukturiert und aus verschiedenen Quellen aggregiert abzufragen. Das heutige Web ist daher für die automatische maschinelle Verarbeitung nicht geeignet. Um Webdaten dennoch effektiv zu nutzen, wurden Sprachen, Methoden und Werkzeuge zur Extraktion und Aggregation dieser Daten entwickelt. Dieser Artikel gibt einen Überblick und eine Kategorisierung von verschiedenen Ansätzen zur Datenextraktion aus dem Web. Einige Beispielszenarien im B2B Datenaustausch, im Business Intelligence Bereich und insbesondere die Generierung von Daten für Semantic Web Ontologien illustrieren die effektive Nutzung dieser Technologien.
-
Heyer, G.; Quasthoff, U.; Wittig, T.: Text Mining : Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse (2006)
0.02
0.017039614 = product of:
0.068158455 = sum of:
0.068158455 = weight(_text_:und in 218) [ClassicSimilarity], result of:
0.068158455 = score(doc=218,freq=42.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.4491759 = fieldWeight in 218, product of:
6.4807405 = tf(freq=42.0), with freq of:
42.0 = termFreq=42.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=218)
0.25 = coord(1/4)
- Abstract
- Ein großer Teil des Weltwissens befindet sich in Form digitaler Texte im Internet oder in Intranets. Heutige Suchmaschinen nutzen diesen Wissensrohstoff nur rudimentär: Sie können semantische Zusammen-hänge nur bedingt erkennen. Alle warten auf das semantische Web, in dem die Ersteller von Text selbst die Semantik einfügen. Das wird aber noch lange dauern. Es gibt jedoch eine Technologie, die es bereits heute ermöglicht semantische Zusammenhänge in Rohtexten zu analysieren und aufzubereiten. Das Forschungsgebiet "Text Mining" ermöglicht es mit Hilfe statistischer und musterbasierter Verfahren, Wissen aus Texten zu extrahieren, zu verarbeiten und zu nutzen. Hier wird die Basis für die Suchmaschinen der Zukunft gelegt. Das erste deutsche Lehrbuch zu einer bahnbrechenden Technologie: Text Mining: Wissensrohstoff Text Konzepte, Algorithmen, Ergebnisse Ein großer Teil des Weltwissens befindet sich in Form digitaler Texte im Internet oder in Intranets. Heutige Suchmaschinen nutzen diesen Wissensrohstoff nur rudimentär: Sie können semantische Zusammen-hänge nur bedingt erkennen. Alle warten auf das semantische Web, in dem die Ersteller von Text selbst die Semantik einfügen. Das wird aber noch lange dauern. Es gibt jedoch eine Technologie, die es bereits heute ermöglicht semantische Zusammenhänge in Rohtexten zu analysieren und aufzubereiten. Das For-schungsgebiet "Text Mining" ermöglicht es mit Hilfe statistischer und musterbasierter Verfahren, Wissen aus Texten zu extrahieren, zu verarbeiten und zu nutzen. Hier wird die Basis für die Suchmaschinen der Zukunft gelegt. Was fällt Ihnen bei dem Wort "Stich" ein? Die einen denken an Tennis, die anderen an Skat. Die verschiedenen Zusammenhänge können durch Text Mining automatisch ermittelt und in Form von Wortnetzen dargestellt werden. Welche Begriffe stehen am häufigsten links und rechts vom Wort "Festplatte"? Welche Wortformen und Eigennamen treten seit 2001 neu in der deutschen Sprache auf? Text Mining beantwortet diese und viele weitere Fragen. Tauchen Sie mit diesem Lehrbuch ein in eine neue, faszinierende Wissenschaftsdisziplin und entdecken Sie neue, bisher unbekannte Zusammenhänge und Sichtweisen. Sehen Sie, wie aus dem Wissensrohstoff Text Wissen wird! Dieses Lehrbuch richtet sich sowohl an Studierende als auch an Praktiker mit einem fachlichen Schwerpunkt in der Informatik, Wirtschaftsinformatik und/oder Linguistik, die sich über die Grundlagen, Verfahren und Anwendungen des Text Mining informieren möchten und Anregungen für die Implementierung eigener Anwendungen suchen. Es basiert auf Arbeiten, die während der letzten Jahre an der Abteilung Automatische Sprachverarbeitung am Institut für Informatik der Universität Leipzig unter Leitung von Prof. Dr. Heyer entstanden sind. Eine Fülle praktischer Beispiele von Text Mining-Konzepten und -Algorithmen verhelfen dem Leser zu einem umfassenden, aber auch detaillierten Verständnis der Grundlagen und Anwendungen des Text Mining. Folgende Themen werden behandelt: Wissen und Text Grundlagen der Bedeutungsanalyse Textdatenbanken Sprachstatistik Clustering Musteranalyse Hybride Verfahren Beispielanwendungen Anhänge: Statistik und linguistische Grundlagen 360 Seiten, 54 Abb., 58 Tabellen und 95 Glossarbegriffe Mit kostenlosen e-learning-Kurs "Schnelleinstieg: Sprachstatistik" Zusätzlich zum Buch gibt es in Kürze einen Online-Zertifikats-Kurs mit Mentor- und Tutorunterstützung.
-
Mandl, T.: Text mining und data minig (2013)
0.02
0.016100923 = product of:
0.06440369 = sum of:
0.06440369 = weight(_text_:und in 1713) [ClassicSimilarity], result of:
0.06440369 = score(doc=1713,freq=6.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.42443132 = fieldWeight in 1713, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.078125 = fieldNorm(doc=1713)
0.25 = coord(1/4)
- Source
- Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. 6., völlig neu gefaßte Ausgabe. Hrsg. von R. Kuhlen, W. Semar u. D. Strauch. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried
-
Mandl, T.: Text Mining und Data Mining (2023)
0.02
0.0159391 = product of:
0.0637564 = sum of:
0.0637564 = weight(_text_:und in 1775) [ClassicSimilarity], result of:
0.0637564 = score(doc=1775,freq=12.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.42016557 = fieldWeight in 1775, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=1775)
0.25 = coord(1/4)
- Abstract
- Text und Data Mining sind ein Bündel von Technologien, die eng mit den Themenfeldern Statistik, Maschinelles Lernen und dem Erkennen von Mustern verbunden sind. Die üblichen Definitionen beziehen eine Vielzahl von verschiedenen Verfahren mit ein, ohne eine exakte Grenze zu ziehen. Data Mining bezeichnet die Suche nach Mustern, Regelmäßigkeiten oder Auffälligkeiten in stark strukturierten und vor allem numerischen Daten. "Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm." Numerische Daten und Datenbankinhalte werden als strukturierte Daten bezeichnet. Dagegen gelten Textdokumente in natürlicher Sprache als unstrukturierte Daten.
- Source
- Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg
-
Data Mining im praktischen Einsatz : Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung (2000)
0.02
0.015775617 = product of:
0.06310247 = sum of:
0.06310247 = weight(_text_:und in 4425) [ClassicSimilarity], result of:
0.06310247 = score(doc=4425,freq=4.0), product of:
0.15174113 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.06841661 = queryNorm
0.41585606 = fieldWeight in 4425, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.09375 = fieldNorm(doc=4425)
0.25 = coord(1/4)