-
Huvila, I.: Mining qualitative data on human information behaviour from the Web (2010)
0.11
0.10656496 = product of:
0.21312992 = sum of:
0.037075777 = weight(_text_:und in 676) [ClassicSimilarity], result of:
0.037075777 = score(doc=676,freq=4.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.24258271 = fieldWeight in 676, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=676)
0.17605415 = weight(_text_:human in 676) [ClassicSimilarity], result of:
0.17605415 = score(doc=676,freq=6.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.5850065 = fieldWeight in 676, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.0546875 = fieldNorm(doc=676)
0.5 = coord(2/4)
- Abstract
- This paper discusses an approach of collecting qualitative data on human information behaviour that is based on mining web data using search engines. The approach is technically the same that has been used for some time in webometric research to make statistical inferences on web data, but the present paper shows how the same tools and data collecting methods can be used to gather data for qualitative data analysis on human information behaviour.
- Source
- Information und Wissen: global, sozial und frei? Proceedings des 12. Internationalen Symposiums für Informationswissenschaft (ISI 2011) ; Hildesheim, 9. - 11. März 2011. Hrsg.: J. Griesbaum, T. Mandl u. C. Womser-Hacker
-
Gill, A.J.; Hinrichs-Krapels, S.; Blanke, T.; Grant, J.; Hedges, M.; Tanner, S.: Insight workflow : systematically combining human and computational methods to explore textual data (2017)
0.03
0.031438243 = product of:
0.12575297 = sum of:
0.12575297 = weight(_text_:human in 4682) [ClassicSimilarity], result of:
0.12575297 = score(doc=4682,freq=6.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.41786176 = fieldWeight in 4682, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.0390625 = fieldNorm(doc=4682)
0.25 = coord(1/4)
- Abstract
- Analyzing large quantities of real-world textual data has the potential to provide new insights for researchers. However, such data present challenges for both human and computational methods, requiring a diverse range of specialist skills, often shared across a number of individuals. In this paper we use the analysis of a real-world data set as our case study, and use this exploration as a demonstration of our "insight workflow," which we present for use and adaptation by other researchers. The data we use are impact case study documents collected as part of the UK Research Excellence Framework (REF), consisting of 6,679 documents and 6.25 million words; the analysis was commissioned by the Higher Education Funding Council for England (published as report HEFCE 2015). In our exploration and analysis we used a variety of techniques, ranging from keyword in context and frequency information to more sophisticated methods (topic modeling), with these automated techniques providing an empirical point of entry for in-depth and intensive human analysis. We present the 60 topics to demonstrate the output of our methods, and illustrate how the variety of analysis techniques can be combined to provide insights. We note potential limitations and propose future work.
-
Chen, Z.: Knowledge discovery and system-user partnership : on a production 'adversarial partnership' approach (1994)
0.03
0.029041402 = product of:
0.11616561 = sum of:
0.11616561 = weight(_text_:human in 6827) [ClassicSimilarity], result of:
0.11616561 = score(doc=6827,freq=2.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.38600415 = fieldWeight in 6827, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.0625 = fieldNorm(doc=6827)
0.25 = coord(1/4)
- Abstract
- Examines the relationship between systems and users from the knowledge discovery in databases or data mining perspecitives. A comprehensive study on knowledge discovery in human computer symbiosis is needed. Proposes a database-user adversarial partnership, which is general enough to cover knowledge discovery and security of issues related to databases and their users. It can be further generalized into system-user adversarial paertnership. Discusses opportunities provided by knowledge discovery techniques and potential social implications
-
Fonseca, F.; Marcinkowski, M.; Davis, C.: Cyber-human systems of thought and understanding (2019)
0.03
0.025669215 = product of:
0.10267686 = sum of:
0.10267686 = weight(_text_:human in 11) [ClassicSimilarity], result of:
0.10267686 = score(doc=11,freq=4.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.34118268 = fieldWeight in 11, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.0390625 = fieldNorm(doc=11)
0.25 = coord(1/4)
- Abstract
- The present challenge faced by scientists working with Big Data comes in the overwhelming volume and level of detail provided by current data sets. Exceeding traditional empirical approaches, Big Data opens a new perspective on scientific work in which data comes to play a role in the development of the scientific problematic to be developed. Addressing this reconfiguration of our relationship with data through readings of Wittgenstein, Macherey, and Popper, we propose a picture of science that encourages scientists to engage with the data in a direct way, using the data itself as an instrument for scientific investigation. Using GIS as a theme, we develop the concept of cyber-human systems of thought and understanding to bridge the divide between representative (theoretical) thinking and (non-theoretical) data-driven science. At the foundation of these systems, we invoke the concept of the "semantic pixel" to establish a logical and virtual space linking data and the work of scientists. It is with this discussion of the relationship between analysts in their pursuit of knowledge and the rise of Big Data that this present discussion of the philosophical foundations of Big Data addresses the central questions raised by social informatics research.
-
Sánchez, D.; Chamorro-Martínez, J.; Vila, M.A.: Modelling subjectivity in visual perception of orientation for image retrieval (2003)
0.02
0.021781052 = product of:
0.087124206 = sum of:
0.087124206 = weight(_text_:human in 2067) [ClassicSimilarity], result of:
0.087124206 = score(doc=2067,freq=2.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.2895031 = fieldWeight in 2067, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.046875 = fieldNorm(doc=2067)
0.25 = coord(1/4)
- Abstract
- In this paper we combine computer vision and data mining techniques to model high-level concepts for image retrieval, on the basis of basic perceptual features of the human visual system. High-level concepts related to these features are learned and represented by means of a set of fuzzy association rules. The concepts so acquired can be used for image retrieval with the advantage that it is not needed to provide an image as a query. Instead, a query is formulated by using the labels that identify the learned concepts as search terms, and the retrieval process calculates the relevance of an image to the query by an inference mechanism. An additional feature of our methodology is that it can capture user's subjectivity. For that purpose, fuzzy sets theory is employed to measure user's assessments about the fulfillment of a concept by an image.
-
Kulathuramaiyer, N.; Maurer, H.: Implications of emerging data mining (2009)
0.02
0.021781052 = product of:
0.087124206 = sum of:
0.087124206 = weight(_text_:human in 131) [ClassicSimilarity], result of:
0.087124206 = score(doc=131,freq=2.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.2895031 = fieldWeight in 131, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.046875 = fieldNorm(doc=131)
0.25 = coord(1/4)
- Abstract
- Data Mining describes a technology that discovers non-trivial hidden patterns in a large collection of data. Although this technology has a tremendous impact on our lives, the invaluable contributions of this invisible technology often go unnoticed. This paper discusses advances in data mining while focusing on the emerging data mining capability. Such data mining applications perform multidimensional mining on a wide variety of heterogeneous data sources, providing solutions to many unresolved problems. This paper also highlights the advantages and disadvantages arising from the ever-expanding scope of data mining. Data Mining augments human intelligence by equipping us with a wealth of knowledge and by empowering us to perform our daily tasks better. As the mining scope and capacity increases, users and organizations become more willing to compromise privacy. The huge data stores of the 'master miners' allow them to gain deep insights into individual lifestyles and their social and behavioural patterns. Data integration and analysis capability of combining business and financial trends together with the ability to deterministically track market changes will drastically affect our lives.
-
Ebrahimi, M.; ShafieiBavani, E.; Wong, R.; Chen, F.: Twitter user geolocation by filtering of highly mentioned users (2018)
0.02
0.021781052 = product of:
0.087124206 = sum of:
0.087124206 = weight(_text_:human in 286) [ClassicSimilarity], result of:
0.087124206 = score(doc=286,freq=2.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.2895031 = fieldWeight in 286, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.046875 = fieldNorm(doc=286)
0.25 = coord(1/4)
- Abstract
- Geolocated social media data provide a powerful source of information about places and regional human behavior. Because only a small amount of social media data have been geolocation-annotated, inference techniques play a substantial role to increase the volume of annotated data. Conventional research in this area has been based on the text content of posts from a given user or the social network of the user, with some recent crossovers between the text- and network-based approaches. This paper proposes a novel approach to categorize highly-mentioned users (celebrities) into Local and Global types, and consequently use Local celebrities as location indicators. A label propagation algorithm is then used over the refined social network for geolocation inference. Finally, we propose a hybrid approach by merging a text-based method as a back-off strategy into our network-based approach. Empirical experiments over three standard Twitter benchmark data sets demonstrate that our approach outperforms state-of-the-art user geolocation methods.
-
Ester, M.; Sander, J.: Knowledge discovery in databases : Techniken und Anwendungen (2000)
0.02
0.019817837 = product of:
0.07927135 = sum of:
0.07927135 = weight(_text_:und in 2374) [ClassicSimilarity], result of:
0.07927135 = score(doc=2374,freq=14.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.51866364 = fieldWeight in 2374, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=2374)
0.25 = coord(1/4)
- Abstract
- Knowledge Discovery in Databases (KDD) ist ein aktuelles Forschungs- und Anwendungsgebiet der Informatik. Ziel des KDD ist es, selbständig entscheidungsrelevante, aber bisher unbekannte Zusammenhänge und Verknüpfungen in den Daten großer Datenmengen zu entdecken und dem Analysten oder dem Anwender in übersichtlicher Form zu präsentieren. Die Autoren stellen die Techniken und Anwendungen dieses interdisziplinären Gebiets anschaulich dar.
- Content
- Einleitung.- Statistik- und Datenbank-Grundlagen.Klassifikation.- Assoziationsregeln.- Generalisierung und Data Cubes.- Spatial-, Text-, Web-, Temporal-Data Mining. Ausblick.
-
Analytische Informationssysteme : Data Warehouse, On-Line Analytical Processing, Data Mining (1998)
0.02
0.019817837 = product of:
0.07927135 = sum of:
0.07927135 = weight(_text_:und in 2380) [ClassicSimilarity], result of:
0.07927135 = score(doc=2380,freq=14.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.51866364 = fieldWeight in 2380, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0625 = fieldNorm(doc=2380)
0.25 = coord(1/4)
- Abstract
- Neben den operativen Informationssystemen treten heute verstärkt Informationssysteme für die analytischen Aufgaben der Fach- und Führungskräfte in den Vordergrund. In fast allen Unternehmen werden derzeit Begriffe und Konzepte wie Data Warehouse, On-Line Analytical Processing und Data Mining diskutiert und die zugehörigen Produkte evaluiert. Vor diesem Hintergrund zielt der vorliegende Sammelband darauf, einen aktuellen Überblick über Technologien, Produkte und Trends zu bieten. Als Entscheidungsgrundlage für den Praktiker beim Aufbau und Einsatz derartiger analytischer Informationssysteme können die unterschiedlichen Beiträge aus Wirtschaft und Wissenschaft wertvolle Hilfestellung leisten
-
Datentracking in der Wissenschaft : Aggregation und Verwendung bzw. Verkauf von Nutzungsdaten durch Wissenschaftsverlage. Ein Informationspapier des Ausschusses für Wissenschaftliche Bibliotheken und Informationssysteme der Deutschen Forschungsgemeinschaft (2021)
0.02
0.019460732 = product of:
0.07784293 = sum of:
0.07784293 = weight(_text_:und in 1249) [ClassicSimilarity], result of:
0.07784293 = score(doc=1249,freq=24.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.50931764 = fieldWeight in 1249, product of:
4.8989797 = tf(freq=24.0), with freq of:
24.0 = termFreq=24.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=1249)
0.25 = coord(1/4)
- Abstract
- Das Informationspapier beschreibt die digitale Nachverfolgung von wissenschaftlichen Aktivitäten. Wissenschaftlerinnen und Wissenschaftler nutzen täglich eine Vielzahl von digitalen Informationsressourcen wie zum Beispiel Literatur- und Volltextdatenbanken. Häufig fallen dabei Nutzungsspuren an, die Aufschluss geben über gesuchte und genutzte Inhalte, Verweildauern und andere Arten der wissenschaftlichen Aktivität. Diese Nutzungsspuren können von den Anbietenden der Informationsressourcen festgehalten, aggregiert und weiterverwendet oder verkauft werden. Das Informationspapier legt die Transformation von Wissenschaftsverlagen hin zu Data Analytics Businesses dar, verweist auf die Konsequenzen daraus für die Wissenschaft und deren Einrichtungen und benennt die zum Einsatz kommenden Typen der Datengewinnung. Damit dient es vor allem der Darstellung gegenwärtiger Praktiken und soll zu Diskussionen über deren Konsequenzen für die Wissenschaft anregen. Es richtet sich an alle Wissenschaftlerinnen und Wissenschaftler sowie alle Akteure in der Wissenschaftslandschaft.
- Editor
- Deutsche Forschungsgemeinschaft / Ausschuss für Wissenschaftliche Bibliotheken und Informationssysteme
-
Lackes, R.; Tillmanns, C.: Data Mining für die Unternehmenspraxis : Entscheidungshilfen und Fallstudien mit führenden Softwarelösungen (2006)
0.02
0.018632231 = product of:
0.074528925 = sum of:
0.074528925 = weight(_text_:und in 2383) [ClassicSimilarity], result of:
0.074528925 = score(doc=2383,freq=22.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.48763448 = fieldWeight in 2383, product of:
4.690416 = tf(freq=22.0), with freq of:
22.0 = termFreq=22.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=2383)
0.25 = coord(1/4)
- Abstract
- Das Buch richtet sich an Praktiker in Unternehmen, die sich mit der Analyse von großen Datenbeständen beschäftigen. Nach einem kurzen Theorieteil werden vier Fallstudien aus dem Customer Relationship Management eines Versandhändlers bearbeitet. Dabei wurden acht führende Softwarelösungen verwendet: der Intelligent Miner von IBM, der Enterprise Miner von SAS, Clementine von SPSS, Knowledge Studio von Angoss, der Delta Miner von Bissantz, der Business Miner von Business Object und die Data Engine von MIT. Im Rahmen der Fallstudien werden die Stärken und Schwächen der einzelnen Lösungen deutlich, und die methodisch-korrekte Vorgehensweise beim Data Mining wird aufgezeigt. Beides liefert wertvolle Entscheidungshilfen für die Auswahl von Standardsoftware zum Data Mining und für die praktische Datenanalyse.
- Content
- Modelle, Methoden und Werkzeuge: Ziele und Aufbau der Untersuchung.- Grundlagen.- Planung und Entscheidung mit Data-Mining-Unterstützung.- Methoden.- Funktionalität und Handling der Softwarelösungen. Fallstudien: Ausgangssituation und Datenbestand im Versandhandel.- Kundensegmentierung.- Erklärung regionaler Marketingerfolge zur Neukundengewinnung.Prognose des Customer Lifetime Values.- Selektion von Kunden für eine Direktmarketingaktion.- Welche Softwarelösung für welche Entscheidung?- Fazit und Marktentwicklungen.
-
Analytische Informationssysteme : Data Warehouse, On-Line Analytical Processing, Data Mining (1999)
0.02
0.018537888 = product of:
0.07415155 = sum of:
0.07415155 = weight(_text_:und in 2381) [ClassicSimilarity], result of:
0.07415155 = score(doc=2381,freq=16.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.48516542 = fieldWeight in 2381, product of:
4.0 = tf(freq=16.0), with freq of:
16.0 = termFreq=16.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=2381)
0.25 = coord(1/4)
- Abstract
- Neben den operativen Informationssystemen, welche die Abwicklung des betrieblichen Tagesgeschäftes unterstützen, treten heute verstärkt Informationssysteme für analytische Aufgaben der Fach- und Führungskräfte in den Vordergrund. In fast allen Unternehmen werden derzeit Begriffe und Konzepte wie Data Warehouse, On-Line Analytical Processing und Data Mining diskutiert und die zugehörigen Produkte evaluiert. Vor diesem Hintergrund zielt der vorliegende Sammelband darauf ab, einen aktuellen Überblick über Technologien, Produkte und Trends zu bieten. Als Entscheidungsgrundlage für den Praktiker beim Aufbau und Einsatz derartiger analytischer Informationssysteme können die unterschiedlichen Beiträge aus Wirtschaft und Wissenschaft wertvolle Hilfestellung leisten.
- Content
- Grundlagen.- Data Warehouse.- On-line Analytical Processing.- Data Mining.- Betriebswirtschaftliche und strategische Aspekte.
-
Shi, X.; Yang, C.C.: Mining related queries from Web search engine query logs using an improved association rule mining model (2007)
0.02
0.018150877 = product of:
0.07260351 = sum of:
0.07260351 = weight(_text_:human in 1597) [ClassicSimilarity], result of:
0.07260351 = score(doc=1597,freq=2.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.2412526 = fieldWeight in 1597, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.0390625 = fieldNorm(doc=1597)
0.25 = coord(1/4)
- Abstract
- With the overwhelming volume of information, the task of finding relevant information on a given topic on the Web is becoming increasingly difficult. Web search engines hence become one of the most popular solutions available on the Web. However, it has never been easy for novice users to organize and represent their information needs using simple queries. Users have to keep modifying their input queries until they get expected results. Therefore, it is often desirable for search engines to give suggestions on related queries to users. Besides, by identifying those related queries, search engines can potentially perform optimizations on their systems, such as query expansion and file indexing. In this work we propose a method that suggests a list of related queries given an initial input query. The related queries are based in the query log of previously submitted queries by human users, which can be identified using an enhanced model of association rules. Users can utilize the suggested related queries to tune or redirect the search process. Our method not only discovers the related queries, but also ranks them according to the degree of their relatedness. Unlike many other rival techniques, it also performs reasonably well on less frequent input queries.
-
Ku, L.-W.; Chen, H.-H.: Mining opinions from the Web : beyond relevance retrieval (2007)
0.02
0.018150877 = product of:
0.07260351 = sum of:
0.07260351 = weight(_text_:human in 1605) [ClassicSimilarity], result of:
0.07260351 = score(doc=1605,freq=2.0), product of:
0.30094394 = queryWeight, product of:
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.068911016 = queryNorm
0.2412526 = fieldWeight in 1605, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
4.3671384 = idf(docFreq=1531, maxDocs=44421)
0.0390625 = fieldNorm(doc=1605)
0.25 = coord(1/4)
- Abstract
- Documents discussing public affairs, common themes, interesting products, and so on, are reported and distributed on the Web. Positive and negative opinions embedded in documents are useful references and feedbacks for governments to improve their services, for companies to market their products, and for customers to purchase their objects. Web opinion mining aims to extract, summarize, and track various aspects of subjective information on the Web. Mining subjective information enables traditional information retrieval (IR) systems to retrieve more data from human viewpoints and provide information with finer granularity. Opinion extraction identifies opinion holders, extracts the relevant opinion sentences, and decides their polarities. Opinion summarization recognizes the major events embedded in documents and summarizes the supportive and the nonsupportive evidence. Opinion tracking captures subjective information from various genres and monitors the developments of opinions from spatial and temporal dimensions. To demonstrate and evaluate the proposed opinion mining algorithms, news and bloggers' articles are adopted. Documents in the evaluation corpora are tagged in different granularities from words, sentences to documents. In the experiments, positive and negative sentiment words and their weights are mined on the basis of Chinese word structures. The f-measure is 73.18% and 63.75% for verbs and nouns, respectively. Utilizing the sentiment words mined together with topical words, we achieve f-measure 62.16% at the sentence level and 74.37% at the document level.
-
Drees, B.: Text und data mining : Herausforderungen und Möglichkeiten für Bibliotheken (2016)
0.02
0.017765133 = product of:
0.07106053 = sum of:
0.07106053 = weight(_text_:und in 4952) [ClassicSimilarity], result of:
0.07106053 = score(doc=4952,freq=20.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.4649412 = fieldWeight in 4952, product of:
4.472136 = tf(freq=20.0), with freq of:
20.0 = termFreq=20.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.046875 = fieldNorm(doc=4952)
0.25 = coord(1/4)
- Abstract
- Text und Data Mining (TDM) gewinnt als wissenschaftliche Methode zunehmend an Bedeutung und stellt wissenschaftliche Bibliotheken damit vor neue Herausforderungen, bietet gleichzeitig aber auch neue Möglichkeiten. Der vorliegende Beitrag gibt einen Überblick über das Thema TDM aus bibliothekarischer Sicht. Hierzu wird der Begriff Text und Data Mining im Kontext verwandter Begriffe diskutiert sowie Ziele, Aufgaben und Methoden von TDM erläutert. Diese werden anhand beispielhafter TDM-Anwendungen in Wissenschaft und Forschung illustriert. Ferner werden technische und rechtliche Probleme und Hindernisse im TDM-Kontext dargelegt. Abschließend wird die Relevanz von TDM für Bibliotheken, sowohl in ihrer Rolle als Informationsvermittler und -anbieter als auch als Anwender von TDM-Methoden, aufgezeigt. Zudem wurde im Rahmen dieser Arbeit eine Befragung der Betreiber von Dokumentenservern an Bibliotheken in Deutschland zum aktuellen Umgang mit TDM durchgeführt, die zeigt, dass hier noch viel Ausbaupotential besteht. Die dem Artikel zugrunde liegenden Forschungsdaten sind unter dem DOI 10.11588/data/10090 publiziert.
-
Baumgartner, R.: Methoden und Werkzeuge zur Webdatenextraktion (2006)
0.02
0.017340608 = product of:
0.06936243 = sum of:
0.06936243 = weight(_text_:und in 808) [ClassicSimilarity], result of:
0.06936243 = score(doc=808,freq=14.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.4538307 = fieldWeight in 808, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=808)
0.25 = coord(1/4)
- Abstract
- Das World Wide Web kann als die größte uns bekannte "Datenbank" angesehen werden. Leider ist das heutige Web großteils auf die Präsentation für menschliche Benutzerinnen ausgelegt und besteht aus sehr heterogenen Datenbeständen. Überdies fehlen im Web die Möglichkeiten Informationen strukturiert und aus verschiedenen Quellen aggregiert abzufragen. Das heutige Web ist daher für die automatische maschinelle Verarbeitung nicht geeignet. Um Webdaten dennoch effektiv zu nutzen, wurden Sprachen, Methoden und Werkzeuge zur Extraktion und Aggregation dieser Daten entwickelt. Dieser Artikel gibt einen Überblick und eine Kategorisierung von verschiedenen Ansätzen zur Datenextraktion aus dem Web. Einige Beispielszenarien im B2B Datenaustausch, im Business Intelligence Bereich und insbesondere die Generierung von Daten für Semantic Web Ontologien illustrieren die effektive Nutzung dieser Technologien.
-
Heyer, G.; Quasthoff, U.; Wittig, T.: Text Mining : Wissensrohstoff Text. Konzepte, Algorithmen, Ergebnisse (2006)
0.02
0.01716275 = product of:
0.068651 = sum of:
0.068651 = weight(_text_:und in 218) [ClassicSimilarity], result of:
0.068651 = score(doc=218,freq=42.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.4491759 = fieldWeight in 218, product of:
6.4807405 = tf(freq=42.0), with freq of:
42.0 = termFreq=42.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=218)
0.25 = coord(1/4)
- Abstract
- Ein großer Teil des Weltwissens befindet sich in Form digitaler Texte im Internet oder in Intranets. Heutige Suchmaschinen nutzen diesen Wissensrohstoff nur rudimentär: Sie können semantische Zusammen-hänge nur bedingt erkennen. Alle warten auf das semantische Web, in dem die Ersteller von Text selbst die Semantik einfügen. Das wird aber noch lange dauern. Es gibt jedoch eine Technologie, die es bereits heute ermöglicht semantische Zusammenhänge in Rohtexten zu analysieren und aufzubereiten. Das Forschungsgebiet "Text Mining" ermöglicht es mit Hilfe statistischer und musterbasierter Verfahren, Wissen aus Texten zu extrahieren, zu verarbeiten und zu nutzen. Hier wird die Basis für die Suchmaschinen der Zukunft gelegt. Das erste deutsche Lehrbuch zu einer bahnbrechenden Technologie: Text Mining: Wissensrohstoff Text Konzepte, Algorithmen, Ergebnisse Ein großer Teil des Weltwissens befindet sich in Form digitaler Texte im Internet oder in Intranets. Heutige Suchmaschinen nutzen diesen Wissensrohstoff nur rudimentär: Sie können semantische Zusammen-hänge nur bedingt erkennen. Alle warten auf das semantische Web, in dem die Ersteller von Text selbst die Semantik einfügen. Das wird aber noch lange dauern. Es gibt jedoch eine Technologie, die es bereits heute ermöglicht semantische Zusammenhänge in Rohtexten zu analysieren und aufzubereiten. Das For-schungsgebiet "Text Mining" ermöglicht es mit Hilfe statistischer und musterbasierter Verfahren, Wissen aus Texten zu extrahieren, zu verarbeiten und zu nutzen. Hier wird die Basis für die Suchmaschinen der Zukunft gelegt. Was fällt Ihnen bei dem Wort "Stich" ein? Die einen denken an Tennis, die anderen an Skat. Die verschiedenen Zusammenhänge können durch Text Mining automatisch ermittelt und in Form von Wortnetzen dargestellt werden. Welche Begriffe stehen am häufigsten links und rechts vom Wort "Festplatte"? Welche Wortformen und Eigennamen treten seit 2001 neu in der deutschen Sprache auf? Text Mining beantwortet diese und viele weitere Fragen. Tauchen Sie mit diesem Lehrbuch ein in eine neue, faszinierende Wissenschaftsdisziplin und entdecken Sie neue, bisher unbekannte Zusammenhänge und Sichtweisen. Sehen Sie, wie aus dem Wissensrohstoff Text Wissen wird! Dieses Lehrbuch richtet sich sowohl an Studierende als auch an Praktiker mit einem fachlichen Schwerpunkt in der Informatik, Wirtschaftsinformatik und/oder Linguistik, die sich über die Grundlagen, Verfahren und Anwendungen des Text Mining informieren möchten und Anregungen für die Implementierung eigener Anwendungen suchen. Es basiert auf Arbeiten, die während der letzten Jahre an der Abteilung Automatische Sprachverarbeitung am Institut für Informatik der Universität Leipzig unter Leitung von Prof. Dr. Heyer entstanden sind. Eine Fülle praktischer Beispiele von Text Mining-Konzepten und -Algorithmen verhelfen dem Leser zu einem umfassenden, aber auch detaillierten Verständnis der Grundlagen und Anwendungen des Text Mining. Folgende Themen werden behandelt: Wissen und Text Grundlagen der Bedeutungsanalyse Textdatenbanken Sprachstatistik Clustering Musteranalyse Hybride Verfahren Beispielanwendungen Anhänge: Statistik und linguistische Grundlagen 360 Seiten, 54 Abb., 58 Tabellen und 95 Glossarbegriffe Mit kostenlosen e-learning-Kurs "Schnelleinstieg: Sprachstatistik" Zusätzlich zum Buch gibt es in Kürze einen Online-Zertifikats-Kurs mit Mentor- und Tutorunterstützung.
-
Mandl, T.: Text mining und data minig (2013)
0.02
0.016217275 = product of:
0.0648691 = sum of:
0.0648691 = weight(_text_:und in 1713) [ClassicSimilarity], result of:
0.0648691 = score(doc=1713,freq=6.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.42443132 = fieldWeight in 1713, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.078125 = fieldNorm(doc=1713)
0.25 = coord(1/4)
- Source
- Grundlagen der praktischen Information und Dokumentation. Handbuch zur Einführung in die Informationswissenschaft und -praxis. 6., völlig neu gefaßte Ausgabe. Hrsg. von R. Kuhlen, W. Semar u. D. Strauch. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried
-
Mandl, T.: Text Mining und Data Mining (2023)
0.02
0.016054282 = product of:
0.06421713 = sum of:
0.06421713 = weight(_text_:und in 1775) [ClassicSimilarity], result of:
0.06421713 = score(doc=1775,freq=12.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.42016557 = fieldWeight in 1775, product of:
3.4641016 = tf(freq=12.0), with freq of:
12.0 = termFreq=12.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.0546875 = fieldNorm(doc=1775)
0.25 = coord(1/4)
- Abstract
- Text und Data Mining sind ein Bündel von Technologien, die eng mit den Themenfeldern Statistik, Maschinelles Lernen und dem Erkennen von Mustern verbunden sind. Die üblichen Definitionen beziehen eine Vielzahl von verschiedenen Verfahren mit ein, ohne eine exakte Grenze zu ziehen. Data Mining bezeichnet die Suche nach Mustern, Regelmäßigkeiten oder Auffälligkeiten in stark strukturierten und vor allem numerischen Daten. "Any algorithm that enumerates patterns from, or fits models to, data is a data mining algorithm." Numerische Daten und Datenbankinhalte werden als strukturierte Daten bezeichnet. Dagegen gelten Textdokumente in natürlicher Sprache als unstrukturierte Daten.
- Source
- Grundlagen der Informationswissenschaft. Hrsg.: Rainer Kuhlen, Dirk Lewandowski, Wolfgang Semar und Christa Womser-Hacker. 7., völlig neu gefasste Ausg
-
Data Mining im praktischen Einsatz : Verfahren und Anwendungsfälle für Marketing, Vertrieb, Controlling und Kundenunterstützung (2000)
0.02
0.015889619 = product of:
0.063558474 = sum of:
0.063558474 = weight(_text_:und in 4425) [ClassicSimilarity], result of:
0.063558474 = score(doc=4425,freq=4.0), product of:
0.15283768 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.068911016 = queryNorm
0.41585606 = fieldWeight in 4425, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.09375 = fieldNorm(doc=4425)
0.25 = coord(1/4)