-
Calishain, T.; Dornfest, R.: Google hacks : 100 industrial-strength tips and tools (2003)
0.07
0.06502355 = product of:
0.1300471 = sum of:
0.09314616 = weight(_text_:java in 134) [ClassicSimilarity], result of:
0.09314616 = score(doc=134,freq=2.0), product of:
0.47850266 = queryWeight, product of:
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.067896724 = queryNorm
0.19466174 = fieldWeight in 134, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.01953125 = fieldNorm(doc=134)
0.036900938 = weight(_text_:und in 134) [ClassicSimilarity], result of:
0.036900938 = score(doc=134,freq=32.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.24504554 = fieldWeight in 134, product of:
5.656854 = tf(freq=32.0), with freq of:
32.0 = termFreq=32.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=134)
0.5 = coord(2/4)
- Footnote
- Rez. in: nfd - Information Wissenschaft und Praxis 54(2003) H.4, S.253 (D. Lewandowski): "Mit "Google Hacks" liegt das bisher umfassendste Werk vor, das sich ausschließlich an den fortgeschrittenen Google-Nutzer wendet. Daher wird man in diesem Buch auch nicht die sonst üblichen Anfänger-Tips finden, die Suchmaschinenbücher und sonstige Anleitungen zur Internet-Recherche für den professionellen Nutzer in der Regel uninteressant machen. Mit Tara Calishain hat sich eine Autorin gefunden, die bereits seit nahezu fünf Jahren einen eigenen Suchmaschinen-Newsletter (www.researchbuzz.com) herausgibt und als Autorin bzw. Co-Autorin einige Bücher zum Thema Recherche verfasst hat. Für die Programmbeispiele im Buch ist Rael Dornfest verantwortlich. Das erste Kapitel ("Searching Google") gibt einen Einblick in erweiterte Suchmöglichkeiten und Spezifika der behandelten Suchmaschine. Dabei wird der Rechercheansatz der Autorin klar: die beste Methode sei es, die Zahl der Treffer selbst so weit einzuschränken, dass eine überschaubare Menge übrig bleibt, die dann tatsächlich gesichtet werden kann. Dazu werden die feldspezifischen Suchmöglichkeiten in Google erläutert, Tips für spezielle Suchen (nach Zeitschriftenarchiven, technischen Definitionen, usw.) gegeben und spezielle Funktionen der Google-Toolbar erklärt. Bei der Lektüre fällt positiv auf, dass auch der erfahrene Google-Nutzer noch Neues erfährt. Einziges Manko in diesem Kapitel ist der fehlende Blick über den Tellerrand: zwar ist es beispielsweise möglich, mit Google eine Datumssuche genauer als durch das in der erweiterten Suche vorgegebene Auswahlfeld einzuschränken; die aufgezeigte Lösung ist jedoch ausgesprochen umständlich und im Recherchealltag nur eingeschränkt zu gebrauchen. Hier fehlt der Hinweis, dass andere Suchmaschinen weit komfortablere Möglichkeiten der Einschränkung bieten. Natürlich handelt es sich bei dem vorliegenden Werk um ein Buch ausschließlich über Google, trotzdem wäre hier auch ein Hinweis auf die Schwächen hilfreich gewesen. In späteren Kapiteln werden durchaus auch alternative Suchmaschinen zur Lösung einzelner Probleme erwähnt. Das zweite Kapitel widmet sich den von Google neben der klassischen Websuche angebotenen Datenbeständen. Dies sind die Verzeichniseinträge, Newsgroups, Bilder, die Nachrichtensuche und die (hierzulande) weniger bekannten Bereichen Catalogs (Suche in gedruckten Versandhauskatalogen), Froogle (eine in diesem Jahr gestartete Shopping-Suchmaschine) und den Google Labs (hier werden von Google entwickelte neue Funktionen zum öffentlichen Test freigegeben). Nachdem die ersten beiden Kapitel sich ausführlich den Angeboten von Google selbst gewidmet haben, beschäftigt sich das Buch ab Kapitel drei mit den Möglichkeiten, die Datenbestände von Google mittels Programmierungen für eigene Zwecke zu nutzen. Dabei werden einerseits bereits im Web vorhandene Programme vorgestellt, andererseits enthält das Buch viele Listings mit Erläuterungen, um eigene Applikationen zu programmieren. Die Schnittstelle zwischen Nutzer und der Google-Datenbank ist das Google-API ("Application Programming Interface"), das es den registrierten Benutzern erlaubt, täglich bis zu 1.00o Anfragen über ein eigenes Suchinterface an Google zu schicken. Die Ergebnisse werden so zurückgegeben, dass sie maschinell weiterverarbeitbar sind. Außerdem kann die Datenbank in umfangreicherer Weise abgefragt werden als bei einem Zugang über die Google-Suchmaske. Da Google im Gegensatz zu anderen Suchmaschinen in seinen Benutzungsbedingungen die maschinelle Abfrage der Datenbank verbietet, ist das API der einzige Weg, eigene Anwendungen auf Google-Basis zu erstellen. Ein eigenes Kapitel beschreibt die Möglichkeiten, das API mittels unterschiedlicher Programmiersprachen wie PHP, Java, Python, usw. zu nutzen. Die Beispiele im Buch sind allerdings alle in Perl geschrieben, so dass es sinnvoll erscheint, für eigene Versuche selbst auch erst einmal in dieser Sprache zu arbeiten.
Das sechste Kapitel enthält 26 Anwendungen des Google-APIs, die teilweise von den Autoren des Buchs selbst entwickelt wurden, teils von anderen Autoren ins Netz gestellt wurden. Als besonders nützliche Anwendungen werden unter anderem der Touchgraph Google Browser zur Visualisierung der Treffer und eine Anwendung, die eine Google-Suche mit Abstandsoperatoren erlaubt, vorgestellt. Auffällig ist hier, dass die interessanteren dieser Applikationen nicht von den Autoren des Buchs programmiert wurden. Diese haben sich eher auf einfachere Anwendungen wie beispielsweise eine Zählung der Treffer nach der Top-Level-Domain beschränkt. Nichtsdestotrotz sind auch diese Anwendungen zum großen Teil nützlich. In einem weiteren Kapitel werden pranks and games ("Streiche und Spiele") vorgestellt, die mit dem Google-API realisiert wurden. Deren Nutzen ist natürlich fragwürdig, der Vollständigkeit halber mögen sie in das Buch gehören. Interessanter wiederum ist das letzte Kapitel: "The Webmaster Side of Google". Hier wird Seitenbetreibern erklärt, wie Google arbeitet, wie man Anzeigen am besten formuliert und schaltet, welche Regeln man beachten sollte, wenn man seine Seiten bei Google plazieren will und letztlich auch, wie man Seiten wieder aus dem Google-Index entfernen kann. Diese Ausführungen sind sehr knapp gehalten und ersetzen daher keine Werke, die sich eingehend mit dem Thema Suchmaschinen-Marketing beschäftigen. Allerdings sind die Ausführungen im Gegensatz zu manch anderen Büchern zum Thema ausgesprochen seriös und versprechen keine Wunder in Bezug auf eine Plazienung der eigenen Seiten im Google-Index. "Google Hacks" ist auch denjenigen zu empfehlen, die sich nicht mit der Programmierung mittels des APIs beschäftigen möchten. Dadurch, dass es die bisher umfangreichste Sammlung von Tips und Techniken für einen gezielteren Umgang mit Google darstellt, ist es für jeden fortgeschrittenen Google-Nutzer geeignet. Zwar mögen einige der Hacks einfach deshalb mit aufgenommen worden sein, damit insgesamt die Zahl von i00 erreicht wird. Andere Tips bringen dafür klar erweiterte Möglichkeiten bei der Recherche. Insofern hilft das Buch auch dabei, die für professionelle Bedürfnisse leider unzureichende Abfragesprache von Google ein wenig auszugleichen." - Bergische Landeszeitung Nr.207 vom 6.9.2003, S.RAS04A/1 (Rundschau am Sonntag: Netzwelt) von P. Zschunke: Richtig googeln (s. dort)
-
Baumgärtel, T.: "Mosaic" der Datenwelt : Vor zehn Jahren erschien der erste einfache Webbrowser - und damit die Grundlage für den Erfolg des Internets (2003)
0.06
0.060593143 = product of:
0.121186286 = sum of:
0.053791896 = weight(_text_:und in 5700) [ClassicSimilarity], result of:
0.053791896 = score(doc=5700,freq=68.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.3572122 = fieldWeight in 5700, product of:
8.246211 = tf(freq=68.0), with freq of:
68.0 = termFreq=68.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=5700)
0.06739439 = weight(_text_:hypertext in 5700) [ClassicSimilarity], result of:
0.06739439 = score(doc=5700,freq=4.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.19690987 = fieldWeight in 5700, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.01953125 = fieldNorm(doc=5700)
0.5 = coord(2/4)
- Content
- "Kornfelder. Nichts als Kornfelder, so weit das Auge reichte. Das sah Tim Berners-Lee aus dem Autofenster, als er auf dem Weg zum National Center of Supercomputing Applications (NCSA) in Urbana-Champaign zum ersten Mal in seinem Leben durch Illinois fuhr. Ein Elite-Informatik-Institut ist so ziemlich das Letzte, was man indem landwirtschaftlich geprägten amerikanischen Bundesstaat im mittleren Westen erwarten würde. Doch das NCSA spielt in der kurzen Geschichte des Internets eine entscheidende Rolle. An dem kaum bekannten Forschungsinstitut wurde vor zehn Jahren ein Computerprogramm entwickelt, dessen Bedeutung Technikhistoriker schon jetzt mit der der Dampfmaschine; oder des Telefons vergleichen: Am 22. April 1993 veröffentlichten Studenten und Mitarbeiter im Internet den Webbrowser "Mosaic" - eine Software, mit der man durch das Netz surfen kann. Auch wenn das Programm einer Öffentlichkeit jenseits von Informatikern und Netzfreaks unbekannt sein dürfte, ist seine Bedeutung gar nicht zu überschätzen: Vor "Mosaic" gab es auf der ganzen Welt einige hundert Websites, Ende 1993 waren es bereits einige tausend, und in den nächsten Jahren sollte sich ihre Zahl manchmal im Wochenrhythmus verdoppeln. Der Siegeszug des Internets begann mit "Mosaic". Das Programm hat das Internet zu einem Massenmedium gemacht. Ohne "Mosaic" gäbe es heute keine Online-Publizistik und keinen E-Commerce, kein Amazon und kein E-Bay. Nach einem halben Jahr hatten eine Million Internet-Surfer das Programm heruntergeladen. Heute finden sich Nachfolgerprogramme wie der "Netscape Navigator" oder der "Internet Explorer" auf so gut wie jedem Computer mit Internet-Anschluss. Schöpfer der historischen Software waren der Student Marc Andreessen und der wissenschaftliche Mitarbeiter Eric Bina: In einem Keller des NCSA hatte sie mit einigen Kommilitonen in nächtelangen Programmier-Sessions die erste Version von "Mosaic" geschrieben. Diese Leute wollte Tim Berners-Lee im März 1993 treffen, denn er war selbst der Schöpfer des World Wide Web (WWW): 1990 hatte der britische Physiker am Kernforschungszentrum Cern in Genf einige technische Regeln definiert, die es leichter machen sollten, im Internet, einem damals noch weitgehend unbekannten akademischen Computernetzwerk, Informationen zu veröffentlichen und zu lokalisieren. Das Web erfreute sich unter Wissenschaftlern schnell einer gewissen Beliebtheit, aber die Programme, mit denen man sich im WWW bewegte, waren für Laien zu schwierig und konnten nur Text anzeigen. "Mosaic" dagegen wurde per Mouse-Klick bedient und zeigte Bilder und Grafiken. Darauf hatte Berners-Lee schon seit einiger Zeit gewartet. Denn der Wissenschaftler mit dem bescheidenen, ja fast schüchternen Auftreten hatte eine große Vision: Er wollte aus dem Internet "ein einzigartiges, universelles und leicht zu bedienendes Hypertext-Medium machen, mit dem man jede Art von Information teilen kann, wie er später in Vorträgen und Interviews immer wieder betonte. Darum hatte er in der Anfang der 90er Jahre noch kleinen und unüberschaubaren InternetSzene geduldig und mit viel Diplomatie darauf hingearbeitet, dass sein Internet-Code namens Hypertext Markup Language (HTML) als Quasi-Standard für Daten im Web akzeptiert wurde. Nachdem ihm das gelungen war, musste nun ein Programm her, das die Daten lesen konnte. Berners-Lee unterstützte die Programmierer der ersten viel versprechenden Browser -"Cello", "Arena" oder "Lynx" - per E-Mail. Die Gruppe aus dem NSCA dagegen hatte es Anfang 1993 ganz unabhängig von ihm geschafft: ein Programm für das Internet, das nicht nur Informatiker bedienen konnten! Wie ein Besessener schrieb Andreessen, der sich zeitweise von Milch und Keksen ernährte, mit seinen Kommilitonen an immer neuen und verbesserten Versionen von "Mosaic".
Das Treffen mit Andreessen, Bina und den anderen verlief weit weniger herzlich, als Berners-Lee es erwartet hatte. In seinen Memoiren Weaving the Web vergleicht er das Meeting mit einer Pokerpartie: Die NCSA-Gruppe, so sein Eindruck, wollte seine Idee an sich reißen und versuchte, den Eindruck zu erwecken, das Web und "Mosaic" seien ein und dasselbe. Der bullige Andreessen erschien Berners-Lee wie ein Geschäftsmann, der vor allem Kundenwünsche befriedigen wollte. Berners-Lee empfahl bei dem Treffen, "Mosaic" einen Editor hinzuzufügen, mit dem man selbst Webseiten gestalten konnte. Denn Teil seiner Hoffnungen für das Internet war, dass man nicht nur passiv durch Informationen surfen, sondern auch selbst produzieren und mit anderen Internet-Usern kooperieren konnte. Andreessen lehnte das schlicht ab; Berners-Lee war enttäuscht. Besonders verärgert hat es ihn aber offenbar, dass Andreessen sich weigerte, sich bei einer Konferenz für ein Erinnerungsbild fotografieren zu lassen. Der Eindruck, dass es Andreessen vor allem ums Geschäft ging, hat Berners-Lee nicht getrogen. Ein knappes Jahr später gründete der junge Programmierer mit dem Silicon-Valley-Veteranen Jim Clark eine Firma namens Netscape, und zusammen mit den meisten seiner ehemaligen NCSA-Kollegen entwickelten sie in Kalifornien den ersten kommerziellen Browser. 1995 legte die Firma den erfolgreichsten Börsengang hin, den die Wall Street bis dahin gesehen hatte, und der Internet-Goldrausch der 90er Jahre begann. Der US-Softwarekonzern Microsoft hatte den Netz-Boom zunächst ignoriert, entwickelte dann aber mit dem "Internet Explorer" einen eigenen Browser und nutzte seine Herrschaft über die Betriebssysteme dazu aus, um schnell eine marktbeherrschende Position zu erreichen. Netscape wurde vom Markt verdrängt; AOL kaufte das Unternehmen - und Andreessen verließ die Firma kurz danach. Heute ist er Chef eines kalifornischen Unternehmens namens Oopsware, das Server-Software anbietet. Wahrscheinlich war es das Zusammenspiel von zwei so unterschiedlichen Charakteren wie Berners-Lee und Andreessen, das zum Erfolg des Web beigetragen hat. Während der Wissenschaftler Berners-Lee auf Offenheit und Zugänglichkeit bedacht war und sich dafür einsetzte, dass das Web nicht von einer bestimmten Nutzergruppe übernommen wurde, ging es dem Programmierer-Geschäftsmann Andreessen um Benutzerfreundlichkeit und kommerziellen Erfolg. Der US-Journalist Steven Levy hat "Mosaic" das "wahrscheinlich wichtigste Programm, das es jemals gab", genannt. Er hat Recht. Der Browser und die anderen, die folgten, haben unser Bild vom Computer verändert: Aus der Maschine für Textverarbeitung und Spiele wurde ein Kommunikationsinstrument, das den Zugang zu ständig neuen Informationen brachte. Andreessen ist darüber bis heute begeistert: "Das Beste an der ganzen Sache war zu sehen, wie wir ein paar Bausteine zusammenfügten, die sich andere Leute nahmen und daraus Dinge entwickelten, die wir nie erwartet hätten. Der Prozess, der sich schnell vollkommen unserer Kontrolle entzog, war sehr befriedigend." Marc Andreessen hat dabei gut verdient. Auf dem Höhepunkt der Dot-com Euphorie besaß er Netscape-Aktien im Wert von 80 Millionen Dollar und gilt noch heute als Multimillionär. Tim Berners-Lee hat vom Netz-Boom weniger profitiert. Er leitet heute das World Wide Web Consortium in Boston, das für die Einhaltung von Programmierstandards für das Web eintritt. Was er machen würde, wenn er plötzlich doch Millionär würde? Wahrscheinlich würde er ein Stück Land kaufen, das von Umweltzerstörung bedroht sei, vertraute er dem britischen Guardian nach einigem Nachdenken an. Vielleicht sehnt er sich ja nach Kornfeldern."
-
Informationskompetenz - Basiskompetenz in der Informationsgesellschaft : Proceedings des 7. Internationalen Symposiums für Informationswissenschaft (ISI 2000) (2000)
0.06
0.060264587 = product of:
0.120529175 = sum of:
0.04428112 = weight(_text_:und in 6461) [ClassicSimilarity], result of:
0.04428112 = score(doc=6461,freq=18.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.29405463 = fieldWeight in 6461, product of:
4.2426405 = tf(freq=18.0), with freq of:
18.0 = termFreq=18.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=6461)
0.07624805 = weight(_text_:hypertext in 6461) [ClassicSimilarity], result of:
0.07624805 = score(doc=6461,freq=2.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.22277808 = fieldWeight in 6461, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.03125 = fieldNorm(doc=6461)
0.5 = coord(2/4)
- Abstract
- Mit dem Leitthema »lnformationskompetenz - Basiskompetenz in der Informationsgesellschaft« trägt das 7. Internationale Symposium für Informationswissenschaft der aktuellen Situation auf den elektronischen Informationsmärkten Rechnung. Informationskompetenz ist Voraussetzung dafür, wirklichen Nutzen aus den globalen Informationsangeboten zu ziehen. Immer mehr Informationsspezialisten werden gebraucht und gleichzeitig muss Informationskompetenz auch tatsächlich Basiskompetenz in unserer heutigen Informationsgesellschaft werden. Die Herausforderung ist interdisziplinär. Jenseits einer bloß technischen Ausrichtung ist z.B. sozioökonomisches, kognitiv-psychologisches, linguistisches, designerisch-ästhetisches Wissen verlangt, um Information erfolgreich erarbeiten zu können. Die 18 Artikel entsprechen der Bandbreite des Diskussionsstandes der Informationswissenschaft: Das Internet und das WWW sind Ausgangs- und Bezugspunkt vieler Arbeiten zu Informations- und Wissensmanagement, Informationswirtschaft, Verlags- und Bibliothekswesen, Wissensrepräsentation, Information Retrieval, Data/Text Mining sowie Hypertext/Multimedia
- Content
- Enthält die Beiträge: Thomas Mandl, Christa Womser-Hacker: Ein adaptives Information-Retrieval-Modell für Digitale Bibliotheken - Ilse Harms, Werner Schweibenz: Usability Engineering Methods for the Web Results From a Usability Study - Christian Wolff: Effektivität von Recherchen im WWW Vergleichende Evaluierung von Such- und Metasuchmaschinen - Rainer Hammwöhner: TransRouter revisited - Decision support in the routing of translation projects - Gerhard Rahmstorf: Wortmodell und Begriffssprache als Basis des semantischen Retrievals - Christian Schögl: Informationskompetenz am Beispiel einer szientometrischen Untersuchung zum Informationsmanagement - Otto Krickl, Elisabeth Milchrahm: Integrativer Ansatz zur Wissensbewertung - Gabriela Mußler, Harald Reiterer, Thomas M. Mann: INSYDER - Information Retrieval Aspects of a Business Intelligence System - C. Goller, J. Löning, T. Will, W. Wolff: Automatic Document Classification A thorough Evaluation of various Methods - Gerhard Heyer, Uwe Quasthoff, Christian Wolff: Aiding Web Searches by Statistical Classification Tools - Matthias N.0. Müller: Die virtuelle Fachbibliothek Sozialwissenschaften - Benno Homann: Das Dynamische Modell der Informationskompetenz (DYMIK) als Grundlage für bibliothekarische Schulungen - Gerhard Reichmann: Leistungsvergleiche zwischen wissenschaftlichen Bibliotheken - Willi Bredemeier, Woffigang G. Stock: Informationskompetenz europäischer Volkswirtschaften - Hermann Rösch: Internetportal, Unternehmensportal, Wissenschaftsportal Typologie und Funktionalität der wichtigsten Portalkonzeptionen - Harc Rittberger, Woffigang Semar: Regionale Elektronische Zeitungen: Qualitätskriterien und Evaluierung - Stephan Werner: Der Autor im digitalen Medium - ein notwendiges Konstrukt? - Dr. Jaroslav Susol: Access to information in electronic age - situation in Slovakia
-
Tredinnick, L.: Post-structuralism, hypertext, and the World Wide Web (2007)
0.06
0.057778653 = product of:
0.23111461 = sum of:
0.23111461 = weight(_text_:hypertext in 775) [ClassicSimilarity], result of:
0.23111461 = score(doc=775,freq=6.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.6752602 = fieldWeight in 775, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.0546875 = fieldNorm(doc=775)
0.25 = coord(1/4)
- Abstract
- Purpose - The purpose of this paper is to explore the application of post-structuralist theory to understanding hypertext and the World Wide Web, and the challenge posed by digital information technology to the practices of the information profession. Design/methodology/approach - The method adopted is that of a critical study. Findings - The paper argues for the importance of post-structuralism for an understanding of the implications of digital information for the information management profession. Originality/value - Focuses on an epistemological gap between the traditional practices of the information profession, and the structure of the World Wide Web.
- Theme
- Hypertext
-
Jünger, G.: ¬Ein neues Universum (2003)
0.06
0.057650164 = product of:
0.11530033 = sum of:
0.03905228 = weight(_text_:und in 2553) [ClassicSimilarity], result of:
0.03905228 = score(doc=2553,freq=56.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.25933182 = fieldWeight in 2553, product of:
7.483315 = tf(freq=56.0), with freq of:
56.0 = termFreq=56.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.015625 = fieldNorm(doc=2553)
0.07624805 = weight(_text_:hypertext in 2553) [ClassicSimilarity], result of:
0.07624805 = score(doc=2553,freq=8.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.22277808 = fieldWeight in 2553, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.015625 = fieldNorm(doc=2553)
0.5 = coord(2/4)
- Content
- Eine stetige Erfahrung der Techniksoziologie und -geschichte besagt, dass sich wirklich neue Konzepte, die ihrer Zeit vorauseilen, am Ende nicht durchsetzen können. Erfolg haben stattdessen mittelmäßige Nachbildungen der ersten Idee, die dann, um periphere Funktionen und Dekorationen erweitert, als große Innovationen auftreten. Beispiele für zweitbeste Lösungen, von denen jeder weiß, dass sie nur Krücken sind, liefert gerade die Informatik in großer Zahl. Das Gespann der Programmiersprachen Smalltalk und C++ gehört dazu, aber auch das World Wide Web, das wir heute kennen, bleibt weit hinter Konzepten eines universalen, globalen Informationssystems zurück, die lange vor der Definition des Hypertext-Protokolls durch Tim Berners-Lee entwickelt worden sind. Die Frage nach der technischen Vorgeschichte und ihren verpassten Chancen ist keineswegs nur von akademischem Interesse. Das "Xanadu" genannte System, das zum ersten Mal das weltweit vorhandene Wissen in digitaler Form radikal demokratisieren wollte, kann sehr gut als Folie dienen für die Diskussion über die zukünftige Entwicklung des WWW. Zweifellos ist der Wunsch, möglichst viel Wissen anzuhäufen, uralt. Er hat die Errichter der Bibliothek von Alexandria angetrieben, die kopierenden und kommentierenden Mönche des Mittelalters oder die Enzyklopädisten des 18. Jahrhunderts in Frankreich. Spätestens seit dem 20. Jahrhundert war die pure Menge des nun Wissbaren so nicht mehr zu bewältigen. Über die materielle Ablage der Dokumente hinaus mussten neue Organisationsprinzipien gefunden werden, um den Berg zu erschließen und seine Bestandteile untereinander in nutzbarer Weise zu verbinden. Nur dann konnte eine Wissenschaftlerin oder ein Wissenschaftler jetzt noch in vertretbarer Zeit zum aktuellen Wissensstand auf einem Gebiet aufschließen. Im Epochenjahr 1945 entwarf Vannevar Bush, ein wissenschaftlicher Berater von Roosevelt während des Zweiten Weltkriegs, eine erste Antwort auf die Frage nach einem solchen Organisationsprinzip. Er nannte sein System "Memex" (Memory Extender), also "Gedächtniserweiterer". Wissen sollte in der Form von Mikrofilmen archiviert und die dabei erzeugten Einzelbestandteile sollten so mit einander verknüpft werden, dass das sofortige Aufsuchen von Verweisen möglich würde. Technisch misslang das System, mit Hilfe von Mikrofilmen ließ es sich wohl kaum realisieren. Aber der Gedanke war formuliert, dass große Wissensbestände nicht unbedingt in separaten Dokumenten und überwiegend linear (Seite 2 folgt auf Seite 1) angeordnet zu werden brauchten. Sie können durch interne Verknüpfungen zwischen Einzelseiten zu etwas Neuem zusammengefügt werden. Der Flugzeugingenieur Douglas Engelbart las schon in den Vierzigerjahren von Bushs Idee. Ihm gebührt das Verdienst, sie auf die neue Technik der digitalen Computer übertragen zu haben. Eine Sitzung der "Fall Joint Computer Conference" im Jahr 1968 demonstrierte seine "NLS" (oN Line System) genannte Verwirklichung des Memex-Konzepts in der Praxis und war für viele Teilnehmer die Initialzündung zu eigenen Versuchen auf diesem Gebiet. NLS war ein riesiges Journal von einzelnen Memos und Berichten eines Vorgängerprojekts, das es den beteiligten Wissenschaftlern erlaubte, über adressierte Verweise unmittelbar zu einem benachbarten Dokument zu springen - ein Netz aus Knoten und `Kanten, dem nur noch ein geeigneter Name für seine neue Eigenschaft fehlte:
- Hypertext - Nicht nur den Namen "Hypertext" für ein solches Netz, sondern auch entscheidende Impulse zu einer konkreten Ausgestaltung eines durch Links verknüpften Netzes steuerte ab 1965 Ted Nelson bei. Sein mit dem Namen "Xanadu" verbundenes Wissenschaftsnetz gibt noch heute die Messlatte ab, an der sich das WWW behaupten muss. Nelson versuchte, sein Konzept auch kommerziell zum Erfolg zu bringen. Zeitweise konnte er auf ein starkes finanzielles Engagement der CAD-Firma Autodesk rechnen, die sich jedoch nach ausbleibenden Erfolgen aus diesem Engagement zurückzog. Heute ist der Quellcode der Software frei zugänglich, und die Website xanadu.net informiert über die Aktivitäten der kleinen Xanadu-Gemeinde von heute. Nelson selbst stellt sein Projekt als ein geschlossenes System von Dokumenten dar, dessen Zugang man ähnlich erwirbt wie den zu einem Provider oder zum Zahlfernsehen. Dokumente werden in diesem aus vernetzten Computern bestehenden System binär gespeichert, unabhängig davon, ob im einzelnen Dokument Bilder, Müsik, Text oder sonst etwas vorliegen. Sie zerfallen in winzige, aber identifizierbare Bestandteile, so dass jeder Dokumententeil mit einer eindeutigen ID versehen ist und einem bestimmten Autor zugeordnet werden kann. Liest ein Leser ein Dokumententeil in Xanadu, wird dadurch automatisch eine Gutschrift für das Konto des Urhebers des Dokuments erzeugt. Wie im existierenden Web sind einzelne Wörter, Bilder oder andere Medieninhalte Anker zu Verweisen auf andere Dokumentenbestandteile, die sich per Mausklick aufrufen lassen. Im Unterschied zum Web aber führt der Weg nicht nur in eine Richtung. Stichwort A verweist nicht nur auf X, sondern X macht auch alle Dokumente kenntlich, von denen aus auf X gezeigt wird. Es ist also jederzeit nachvollziehbar, wo überall von einem Dokument Gebrauch gemacht wird. Dadurch lässt sich überprüfen, ob ein als Beleg verwendeter Verweis zu Recht oder zu Unrecht angegeben wird.
- Gutschriften für Autoren - Es geht aber noch weiter: Prinzipiell wird allen Xanadu-Teilnehmern garantiert, vorhandene Dokumentebestandteile durch so genannte Transclusions zitieren zu können. Ein Rechtemanagement für Lesezugriffe ist ja bereits integriert. Es ist also jederzeit möglich, dass jemand für ein Thema, das interessant erscheint, eine neue Anthologie erzeugt, ohne dass vorher Genehmigungen eingeholt werden müssen. Und anders als das WWW ist Xanadu ein Instrument für Autoren: An jede vorhandenen Seite können Kommentare angefügt werden. Um den Überblick zu behalten, werden sie anders dargestellt als ein Quellennachweis ("getypte Links"). Änderungen, die an einem Knoten vorgenommen werden, indem etwa ein Kommentar hinzukommt, können anderen Lesern vom System angezeigt werden, so dass man auf diese Weise lebendige Debatten und permanente Onlinekonferenzen führen kann. Ohne dass Administratoren regelnd eingreifen müssen, spiegelt das Xanadu-Netz damit die Interdependenz der realen Welt wider. Im Zeitalter der Fachidioten wird Wissen in einer Form repräsentiert, die die Verflechtung der Dinge untereinander hervorhebt und Kontroversen sichtbar macht. Das System schreibt dabei seine Geschichte selbst, da eine Versionskontrolle, verbunden mit direktem Dokumentenvergleich, die unterschiedlichen redaktionellen Bearbeitungsstufen eines Dokumentknotens nachvollziehbar macht.
- Forschungsdebatten - Die Vorteile dieses Systems vor dem Web liegen auf der Hand: Alle Urheberrechte sind grundsätzlich und zugunsten der tatsächlichen Autoren geregelt, auch im Falle der Belletristik, die in der Regel nur konsumiert wird. Darüber hinaus profitierte die wissenschaftliche Arbeit von der Möglichkeit, Texte zu kommentieren oder vorhandene Argumentationen zitierend in die eigene Darstellung aufzunehmen. Forschungsdebatten sind jederzeit an jeder Stelle möglich - und zugänglich werden sie durch die Funktion, Änderungsanzeigen für bestimmte Knoten abonnieren, zu können. Damit wird es einem Autor möglich, auf eine Entgegnung zügig zu antworten. So können nicht nur einzelne Knoten, sondern ganze Knotennetze bearbeitet werden. Man kann also eine vorhandene Darstellung zustimmend übernehmen, aber die zwei, drei Zusatzpunkte hinzufügen, in denen die eigene Meinung vom Knotenstandard abweicht. Schließlich schafft ein System wie Xanadu mit Versionskontrolle und garantiertem Speicherplatz ein Dauerproblem des vorhandenen Webs mit seinen toten Links aus der Welt und erzeugt mit dem eingebauten Dokumentenvergleich ein Maximum an Übersicht.
- Technische Hürden - Bleibt die Frage, weshalb Xanadu mit seiner Vision, das Weltwissen one mouse-click away erreichbar zu machen - Nelson spricht gar von einem docuverse -, bislang so erfolglos blieb. Ernst zu nehmen sind zunächst die technischen Anforderungen, die Xanadu stellt. Sie beginnen bei einer Editorensoftware, die die Autorenkennungen- vorhandener und zitierter Dokumentknoten bewahrt. Dass diese Software am Ende weniger techniklastig ist als die heutigen HTML-Editoren, wie Nelson annimmt, darf bezweifelt werden. Hinzu kommen Anforderungen an Rechnersysteme und Verwaltungsaufgaben: Da Xanadu ein konsistentes Dokumentmanagement garantieren und Dokumente für den Notfall auch redundant auf mehreren Rechnern gleichzeitig vorhalten muss, wären die technischen und Managementherausforderungen für ein aus zig Milliarden Dokumenten bestehendes System beachtlich. Andere Gründe sind prinzipieller Art: Die Bereitschaft, für Inhalte auch nur mit kleinen Beiträgen zu zahlen, ist bei den meisten. Internetnutzern als recht gering anzusetzen. Anders ließe sich das Scheitern vieler Anbieter für Bezahlinhalte im bestehenden Web kaum interpretieren. Möglicherweise gibt es auch einen latenten Widerwillen, einer zentralen und weltweit auftretenden Organisation- und trete sie mit noch so ehrenhaften Zielen an - die Aufgabe anzuvertrauen, das Weltwissen abzulegen. Hier hat offenbar - Ironie der Geschichte - das Computernetz des Militärs die Nase vorn, das aus Gründen eines auch in der Katastrophe funktionierenden Systems auf stets austauschbare Rechner setzt und das Chaos ins Kalkül aufgenommen hat. Es ist daher absehbar, dass sich Xanadu in der skizzierten Form nicht mehr durchsetzen wird. Damit ist wahrscheinlich auch eine Chance für eine neue Internetarchitektur vertan. Was als Wunsch aber für die Weiterentwicklung des bestehenden Webs nicht laut genug vorgebracht werden kann, ist, dass die Visionen und konkreten Möglichkeiten von Xanadu stärker berücksichtigt werden sollten. Vielleicht sind die Aversionen gegen zentral geregelte Systeme aber immerhin dazu gut, dass das ".Net"; das Lieblingsprojekt des Softwaregiganten Microsoft, zu einem offenen System umgewandelt wird.
- Theme
- Hypertext
-
Korves, J.: Seiten bewerten : Googles PageRank (2005)
0.06
0.057650164 = product of:
0.11530033 = sum of:
0.03905228 = weight(_text_:und in 991) [ClassicSimilarity], result of:
0.03905228 = score(doc=991,freq=14.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.25933182 = fieldWeight in 991, product of:
3.7416575 = tf(freq=14.0), with freq of:
14.0 = termFreq=14.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.03125 = fieldNorm(doc=991)
0.07624805 = weight(_text_:hypertext in 991) [ClassicSimilarity], result of:
0.07624805 = score(doc=991,freq=2.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.22277808 = fieldWeight in 991, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.03125 = fieldNorm(doc=991)
0.5 = coord(2/4)
- Abstract
- Mit der Entstehung des World Wide Web im Jahre 1989 und dem darauf folgenden rasanten Anstieg der Zahl an Webseiten, kam es sehr schnell zu der Notwendigkeit, eine gewisse Ordnung in die Vielzahl von Inhalten zu bringen. So wurde schon im Jahre 1991 ein erster Vorläufer der heutigen Websuchmaschinen namens Gopher entwickelt. Die Struktur von Gopher, bei der zunächst alle Webseiten katalogisiert wurden, um anschließend komplett durchsucht werden zu können, war damals richtungweisend und wird auch heute noch in den meisten anderen Websuchmaschinen verwendet. Von damals bis heute hat sich sehr viel am Markt der Suchmaschinen verändert. Seit dem Jahre 2004 gibt es nur mehr drei große Websuchmaschinen, bezogen auf die Anzahl erfasster Dokumente. Neben Yahoo! Search und Microsofts MSN Search ist Google die bisher erfolgreichste Suchmaschine der Welt. Dargestellt werden die Suchergebnisse, indem sie der Relevanz nach sortiert werden. Jede Suchmaschine hat ihre eigenen geheimen Kriterien, welche für die Bewertung der Relevanz herangezogen werden. Googles Suchergebnisse werden aus einer Kombination zweier Verfahren angeordnet. Neben der Hypertext-Matching-Analyse ist dies die PageRank-Technologie. Der so genannte PageRank-Algorithmus, benannt nach seinem Erfinder Lawrence Page, ist die wesentliche Komponente, die Google auf seinen Erfolgsweg gebracht hat. Über die genaue Funktionsweise dieses Algorithmus hat Google, insbesondere nach einigen Verbesserungen in den letzten Jahren, nicht alle Details preisgegeben. Fest steht jedoch, dass der PageRank-Algorithmus die Relevanz einer Webseite auf Basis der Hyperlinkstruktur des Webs berechnet, wobei die Relevanz einer Webseite danach gewichtet wird, wie viele Links auf sie zeigen und Verweise von ihrerseits stark verlinkten Seiten stärker ins Gewicht fallen.
Diese Seminararbeit widmet sich der Darstellung des PageRank-Algorithmus sowie der Erläuterung von Verbesserungen, durch die der Algorithmus schneller und effizienter wird. Hierzu werden dem Leser in Kapitel 2 zunächst einige Grundlagen nahe gebracht. Anschließend wird im Hauptteil dieser Ausarbeitung in Kapitel 3 detailliert auf den PageRank-Algorithmus sowie auf drei Weiterentwicklungen eingegangen, welche die Verarbeitungseffizienz des Grundalgorithmus so erhöhen, dass dadurch ein themenspezifisches Ranking ermöglicht werden könnte. Abschließend werden die Ergebnisse in Kapitel 4 zusammengefasst und ein Ausblick auf die Zukunft gegeben.
- Content
- Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster. - Vgl.: http://www-wi.uni-muenster.de/pi/lehre/ss05/seminarSuchen/Ausarbeitungen/JanKorves.pdf
-
Barabási, A.-L.: Linked: The New Science of Networks (2002)
0.06
0.05752089 = product of:
0.11504178 = sum of:
0.048324734 = weight(_text_:und in 3015) [ClassicSimilarity], result of:
0.048324734 = score(doc=3015,freq=28.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.32090676 = fieldWeight in 3015, product of:
5.2915025 = tf(freq=28.0), with freq of:
28.0 = termFreq=28.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.02734375 = fieldNorm(doc=3015)
0.06671704 = weight(_text_:hypertext in 3015) [ClassicSimilarity], result of:
0.06671704 = score(doc=3015,freq=2.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.19493082 = fieldWeight in 3015, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.02734375 = fieldNorm(doc=3015)
0.5 = coord(2/4)
- Footnote
- Rez. in: nfd 54(2003) H.8, S.497 (T. Mandl): "Gesetze der digitalen Anarchie - Hyperlinks im Internet entstehen als Ergebnis sozialer Prozesse und können auch als formaler Graph im Sinne der Mathematik interpretiert werden. Die Thematik Hyperlinks ist im Information Retrieval höchst aktuell, da Suchmaschinen die Link-Struktur bei der Berechnung ihrer Ergebnisse berücksichtigen. Algorithmen zur Bestimmung des "guten Rufs" einer Seite wie etwa PageRank von Google gewichten eine Seite höher, wenn viele links auf sie verweisen. Barabási erklärt dem Leser seines Buches darüber hinaus noch, wie es zu solchen Phänomenen kommt. Soziale Prozesse im Netz wirken so, dass bereits bekannte Seiten mit größerer Wahrscheinlichkeit auch wieder weitere Links oder neue Besucher anziehen. Barabási ist Physiker an der Notre-Dame University und ihm fehlt ebenso wie Huberman die informationswissenschaftliche Perspektive. Er fragt also kaum, wie kann das Wissen über Netzwerke zu Verbesserungen in Informationssystemen führen, die Benutzerbedürfnisse besser erfüllen. Gleichwohl lohnt sich die Lektüre auch für Informationswissenschaftler. Barabäsi stellt die aktuelle Forschung zur Netzwerkstruktur des Internets auf einfache Weise fast ohne Zugeständnisse an Aktualität und Komplexität dar. Wie Huberman verzichtet auch er weitgehend auf Formeln und andere Formalismen. Der in Ungarn geborene Barabási lässt darüber hinaus keine Anekdote aus, sei es über die Begründer der Graphen-Theorie, im peer-review abgelehnte Beiträge und persönliche Begegnungen mit anderen Forschern. Barabási beginnt mit einfachen Netzwerkstrukturen und schreitet didaktisch über internet-ähnliche Netzwerke weiter zu Anwendungen und praktischen Beispielen aus unterschiedlichsten Disziplinen. Er schafft mit seinem Buch "Linked" unter anderem Links zwischen der ungarischen Literatur, dem I-Love-You Computer-Virus, der Verbreitung von Aids, den Theorien Einsteins, den Aufsichtsräten der wichtigsten amerikanischen Firmen, dem Al-Qaeda-Netzwerk und der Struktur und der Funktion biologischer Zellen. Zu Beginn seines Buches berichtet Barabási von sogenannten kleinen Welten, in denen viele Objekte über wenige Verbindungen zusammenhängen. Ein Blick in den eigenen größeren Bekanntenkreis mag bestätigen, dass viele Menschen über wenige Schritte zwischen Bekannten erreichbar sind. Sowohl Barabäsi als auch Huberman gehen auf die Geschichte des ersten sozialwissenschaftlichen Experiments zu diesem Thema ein, das in den 1960er Jahren versuchte, die Anzahl von Schritten zwischen gemeinsamen Bekannten zu bestimmen, welche vom Mittleren Westen der USA an die Ostküste führt. Die genauere Struktur solcher Systeme, in denen manche Knoten weitaus mehr Beziehungen zu anderen eingehen als der Durchschnitt, führt hin zum Internet. Im Web lässt sich keineswegs immer ein Pfad zwischen zwei Knoten finden, wie noch vor wenigen Jahren vermutet wurde. Die durchschnittliche Entfernung war damals noch mit 19 Klicks berechnet worden. Vielmehr herrscht eine differenziertere Struktur, die Barabási vorstellt und in der zahlreiche Seiten in Sackgassen führen. Huberman wie Barabási diskutieren auch negative Aspekte des Internet. Während Huberman die Wartezeiten und Staus bei Downloads analysiert, bespricht Barabási die rasante Verbreitung von ComputerViren und weist auf die Grundlagen für diese Gefährdung hin. Das vorletzte Kapitel widmen übrigens beide Autoren den Märkten im Internet. Spätestens hier werden die wirtschaftlichen Aspekte von Netzwerken deutlich. Beide Titel führen den Leser in die neue Forschung zur Struktur des Internet als Netzwerk und sind leicht lesbar. Beides sind wissenschaftliche Bücher, wenden sich aber auch an den interessierten Laien. Das Buch von Barabási ist etwas aktueller, plauderhafter, länger, umfassender und etwas populärwissenschaftlicher."
- Theme
- Hypertext
-
Borghoff, U.M.; Rödig, P.; Scheffczyk, J.; Schmitz, L.: Langzeitarchivierung : Methoden zur Erhaltung digitaler Dokumente (2003)
0.06
0.05708957 = product of:
0.11417914 = sum of:
0.06652411 = weight(_text_:und in 3998) [ClassicSimilarity], result of:
0.06652411 = score(doc=3998,freq=104.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.44176215 = fieldWeight in 3998, product of:
10.198039 = tf(freq=104.0), with freq of:
104.0 = termFreq=104.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=3998)
0.04765503 = weight(_text_:hypertext in 3998) [ClassicSimilarity], result of:
0.04765503 = score(doc=3998,freq=2.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.1392363 = fieldWeight in 3998, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.01953125 = fieldNorm(doc=3998)
0.5 = coord(2/4)
- Footnote
- Rez. in: Information - Wissenschaft und Praxis 55(2004) H.7, S.432-433 ( I. Schmidt u. A Dirsch-Weigand):" Glücklicherweise hatte man 1988 seine Diplomarbeit auf die teure 3,5"-Diskette und nicht auf die gängige 51/4"-Version gespeichert, bevor man den alten Computer entsorgte! Sonst müsste man heute bereits ein Computermuseum aufsuchen, um noch einen Rechner mit einem 51/4'-Laufwerk zu finden. So legt man erleichtert die Diskette ins Laufwerk ein und stellt dann doch schnell mit Entsetzen fest, dass sie nicht mehr lesbar ist. Gut, dass es zumindest noch den Ausdruck auf Papier gibt! Überträgt man dieses kleine Szenario aus dem Privatbereich auf Unternehmen, Behörden und Organisationen, so lässt sich die dramatische Situation in der Langzeitarchivierung von digitalen Dokumenten erahnen. Dabei sind mit der ständigen Weiterentwicklung der Hardware und der Haltbarkeit der Datenträger nur zwei der zahlreichen Risiken der Langzeitarchivierung angesprochen. Mittlerweile existieren eine Vielzahl unterschiedlicher Dokumenttypen wie E-Mails, Fotos oder Bilanzen in elektronischer Form und zunehmend mehr Dokumente liegen ausschließlich digital vor. Letztere lassen sich häufig gar nicht mehr so einfach ausdrucken, weil sie beispielsweise nicht linear, sondern als Hypertext aufgebaut sind, oder über animierte Grafiken verfügen. Digitale Daten über lange Zeit, das heißt über mehrere Jahrzehnte, zugreifbar zu halten, erfordert einen großen technischen und organisatorischen Weitblick und beständige Aufmerksamkeit für dieses Thema. Leider ist es heute noch viel zu oft gängige Praxis, erst einmal den Kopf in den Sand zu stecken. Schließlich sind die langfristigen Defizite noch nicht spürbar und die Fülle verschiedenartigster Probleme in der digitalen Langzeitverfügbarkeit verstellt den Blick für einen pragmatischen Ansatz. Letztlich muss man sich aber eingestehen, dass eine Auseinandersetzung mit dem Thema unausweichlich ist.
Das hier besprochene Buch führt grundlegend, umfassend und gut verständlich in das Thema der Langzeitarchivierung digitaler Dokumentbestände ein. Das Problem wird sowohl von der organisatorischen wie auch von der technischen Seite her beleuchtet. Die Verfasser Uwe M. Borghoff, Peter Rödig, Jan Scheffczyk und Lothar Schmitz lehren und forschen am Institut für Softwareentwicklung der Universität der Bundeswehr in München. Den wissenschaftlichen Hintergrund des Buchs bilden mehrere DFG-Forschungsprojekte zum Thema Langzeitarchivierung. Die Autoren gliedern das Thema in zwei etwa gleich großen Teile: Der erste Teil liefert einen methodischen Überblick zur Langzeitverfügbarkeit digitaler Objekte, der zweite Teil stellt einschlägige Initiativen und Projekte vor. Der methodische Überblick führt zunächst ganz allgemein in die Langzeitarchivierung digitaler Dokumente ein, indem die verschiedenen Problemfacetten gut verständlich und nachvollziehbar dargestellt werden. Dabei geht es um grundlegende Archivierungsmodelle und -strategien, technische Lösungsansätze, die Haltbarkeit der Speichermedien und Veralterung der Verarbeitungssoftware sowie juristische und gesellschaftliche Fragen. Dieser Aufriss schärft beim Leser das Problembewusstsein für das gesamte Themenfeld. Im Folgenden werden das komplexe Open Archive Information System (OAIS) und das Deposit System for Electronic Publications (DSEP) als Referenzmodelle für die Archivierung elektronischer Objekte mit Hilfe anschaulicher Bilder gut vermittelt. OAIS ist eine ISO-Norm und umfasst sowohl ein Informationsmodell, das beschreibt, welche (Zusatz-)Informationen gesichert werden müssen, um ein elektronisches Objekt auch künftig verarbeiten und interpretieren zu können, als auch ein Prozess- und Organisationsmodell für die Gestaltung der Abläufe in einem Archiv. Das DSEP ist ein reines Prozessmodell und auf die Anforderungen digitaler Bibliotheken ausgerichtet. Es bindet das OAIS in den Geschäftsgang vorhandener Bibliotheken ein.
Als technische Archivierungsstrategien werden Migration und Emulation vorgestellt und nach Chancen und Risiken ausführlich bewertet. Bei der Migration werden elektronische Dokumente regelmäßig von einer Hard- bzw. Softwarekonfiguration zur anderen transferiert. Bei der Emulation hingegen wird die originale Hard- und Softwareumgebung eines Dokuments auf jeder weiteren neuen Computergeneration imitiert. Die Beschreibung dieser Archivierungsstrategien fällt stellenweise sehr technisch aus. Der technisch weniger interessierte Leser kann die betreffenden Abschnitte jedoch ausdrücklich überspringen, ohne dass das grundsätzliche Verständnis darunter leidet. Schließlich geben die Autoren einen Überblick über die Methoden der Dokumentbeschreibung. Nach einer ersten Klassifikation der Markup-Sprachen, behandeln sie ihren Einsatz für die Archivierung. Im Mittelpunkt steht die Auszeichnung von archivwürdigen Dokumenten mit Metadaten. Die Verfasser gehen ausführlich auf Strategien ein, die es ermöglichen, Dokumente über lange Zeiträume zu identifizieren und wieder aufzufinden. Anschließend werden die standardisierten Dokumentbeschreibungssprachen TIFF, PDF, HTML, XML, RDF, Topic Maps und DAML+OIL vorgestellt. Jede dieser Sprachen wird zusammenfassend und verständlich beschrieben und im Hinblick auf ihre Bedeutung für die Langzeitarchivierung bewertet. Ein Ausblick auf das Semantic Web schließt das Kapitel ab. Die abschließende Diskussion des methodischen Überblicks fasst zunächst die Folgerungen aus den vorhergehenden Kapiteln anschaulich zusammen, weist auf derzeit noch offene Fragen hin und zeigt den Stand des Machbaren auf. Mit einem vierstufigen kombinierten Lösungsansatz plädieren die Autoren dafür, dass man sich aufmachen sollte, einen eigenen Lösungsweg zu entwickeln, der den organisationsspezifischen Problemen und Anforderungen gerecht wird - gerade weil es noch keine allgemein verbindliche und sichere Lösung gibt. Der zweite Teil des Buchs über einschlägige nationale und internationale Initiativen und Projekte richtet sich vor allem an den Praktiker. Der eine oder andere Leser könnte von den detaillierten Projektbeschreibungen überfordert sein.
Zunächst geht es um die Verwendung von Dokumentauszeichnung in der Praxis. Projektbeispiele sind die internationale Dublin-Core-Metadaten-Initiative (DCMI) und das australische Archivierungsprojekt Victorian Electronic Records Strategy (VERS). Der Archivierungsbehörde des Staates Victoria geht es vor allem darum, wie Langzeitarchivierung unter Berücksichtigung gängiger Standards und mit minimalem Aufwand hinsichtlich der Metadaten im Rahmen eines behördlichen Archivierungssystems funktionieren kann. Exemplarisch werden weiter die philologische Text Encoding Initiative (TEI), die Programme und Projekte der US-amerikanischen Research Libraries Group (RLG) und das australische Internet-Archivierungsprojekt Pandora vorgestellt. Alle Projektprofile unterstreichen die Bedeutung von Markup für die Archivierungspraxis. In einem weiteren Abschnitt werden Chancen und Risiken der Migration anhand von vier Projekten beleuchtet. Zur Sprache kommen - wiederum - das australische VERS-Projekt und die US-amerikanischen Projekte Preserving the Whole und Risk Management of Digital Informa-tion. In diesen drei Projekten geht es vor allem um die Migration von Dokumenten. Einen zweiten Schwerpunkt bildet die Datenbankmigration, wie sie im DFGProjekt Langzeitarchivierung Digitaler Medien entwickelt wurde. Die damit verbundenen Probleme und Möglichkeiten werden ausführlich dargestellt und diskutiert. Da die Migrationsstrategie in der praktischen Anwendung sehr viel weiter verbreitet ist als die Emulationsstrategie, werden als Abschluss des Buchs die kritischen Aspekte der Emulation lediglich anhand von Studien und Experimenten aufgezeigt. Das Buch "Langzeitarchivierung. Methoden zur Erhaltung digitaler Dokumente" wendet sich in erster Linie an Bibliothekare, Dokumentare, Archivare und Informatiker, die von Berufs wegen für die langfristige Nutzung digitaler Dokumente zuständig sind. Darüber hinaus möchte es aber auch Managern und Juristen, die mit der Sicherung von Dokumenten befasst sind, oder Politikern, die die regulatorischen Rahmenbedingungen der Archivierung gestalten, eine Einführung in die Thematik geben. Dies gelingt, da der Text in einer gut allgemein verständlichen Sprache geschrieben ist und auch die technischen Sachverhalte klar und nachvollziehbar dargestellt sind. Hilfreich ist die übersichtliche und didaktisch durchdachte Gliederung der Kapitel, denen jeweils eine kurze Zusammenfassung vorangestellt ist und deren Hauptaspekte durch die Verwendung von Marginalien hervorgehoben werden. Aufgrund seiner Aktualität, Vollständigkeit und Verständlichkeit kann das Buch allen als Kompendium zur Langzeitarchivierung empfohlen werden, die an digitaler Kultur interessiert sind. Sicher ist auch sein Einsatz als Lehrbuch lohnenswert."
-
Grundlagen der praktischen Information und Dokumentation (2004)
0.06
0.05676819 = product of:
0.11353638 = sum of:
0.06588135 = weight(_text_:und in 1693) [ClassicSimilarity], result of:
0.06588135 = score(doc=1693,freq=102.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.43749377 = fieldWeight in 1693, product of:
10.099504 = tf(freq=102.0), with freq of:
102.0 = termFreq=102.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=1693)
0.04765503 = weight(_text_:hypertext in 1693) [ClassicSimilarity], result of:
0.04765503 = score(doc=1693,freq=2.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.1392363 = fieldWeight in 1693, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.01953125 = fieldNorm(doc=1693)
0.5 = coord(2/4)
- Abstract
- Das Standardwerk zur fachlichen Informationsarbeit wurde 1972 von Klaus Laisiepen, Ernst Lutterbeck und Karl-Heinrich Meyer-Uhlenried begründet. Generationen von Wissenschaftlern, Praktikern, Dozenten und Studierenden schöpften aus diesem Handbuch Kenntnisse und Wissen oder gaben als Autoren ihre Erfahrungen weiter. Mehr als 30 Jahre nach der ersten Publikation wird diese Tradition weitergeführt. Seit der vierten Ausgabe von 1997 sind erhebliche technische, methodische und organisatorische Veränderungen in den Bereichen Information und Dokumentation sowie in der Informationswissenschaft zu verzeichnen. Für die vorliegende Ausgabe konnte mit Rainer Kuhlen als neuem Mitherausgeber die informationswissenschaftliche Komponente weiter gestärkt werden. Der Aufbau der Grundlagen der praktischen Information und Dokumentation spiegelt diese Verbindung von Aktualität und Kontinuität wider: - In KAPITEL A »Grundlegendes« werden die theoretischen und begrifflichen Grundlagen des Fachgebietes erläutert, historische und professionelle Entwicklungen nachgezeichnet. - KAPITEL B »Methoden«, das die methodischen Aspekte der Informationsarbeit behandelt, wurde stark ausgeweitet. Neben den bisherigen Themen wie Klassifikation, Thesaurus usw. werden nun auch neue Aspekte wie Wissensmanagement, Kryptographie oder Dokumentmanagement behandelt. - Fortgeschrieben wurden in KAPITEL C »Systeme - Produkte - Dienstleistungen« die besonderen Fachinformationsbereiche (z.B. Metainformationsdienste des Internet, Datenbank-Management-Systeme oder Technische Redaktion). - Auf dem aktuellen Stand sind auch die Kurzdarstellungen der institutionellen Teile des Informationswesens (Archive, Bibliotheken, Buchhandel, Verlage, Elektronisches Publizieren, Medien, Wirtschaftsinformation, Medizin, E-Commerce u.a.) in KAPITEL D »Bereiche der Fachinformation und -kommunikation«. Gänzlich neu ist KAPITEL E »Information im Kontext«, das Einblicke in andere Wissenschaftsdisziplinen gibt, in denen der Bereich der Information eine immer größere Rolle spielt (z.B. Informatik, Psychologie, Sprachwissenschaft, Pädagogik, Betriebswirtschaft, Politikwissenschaft, Naturwissenschaften, Philosophie oder Neurobiologie). Den Textband mit insgesamt 73 Beiträgen auf 762 Seiten ergänzt Band 2: ein Glossar zu der im Handbuch verwendeten Terminologie mit einem zusätzlichen englischsprachigen Register. Hier werden auf 138 Seiten wichtige Begriffe und Konzepte des Informationswesens definiert und beschrieben. Das Handbuch bietet die zentralen Grundlagen für jeden Studierenden und Lehrenden, für Entscheidungsträger und Praktiker im Bereich der Information und Dokumentation. Es ist damit ein verlässlicher Leitfaden durch die Vielzahl unterschiedlicher Informationsmethoden, -dienste, -systeme und -techniken sowie die damit befassten Bereiche und Institutionen.
- Content
- Enthält die Beiträge: Rainer Kuhlen: Information Thomas Seeger: Entwicklung der Fachinformation und -kommunikation Thomas Seeger: Professionalisierung in der Informationsarbeit: Beruf und Ausbildung in Deutschland Marlies Ockenfeld: Nationale und internationale Institutionen Rainer Kuhlen: Informationsethik Thomas Seeger: (Fach-)Informationspolitik in Deutschland (Bundesrepublik Deutschland) Jürgen W Goebel: Informationsrecht -Recht der Informationswirtschaft Rainer Kuhlen: Wissensökologie Wolfgang Ratzek: Informationsutopien - Proaktive Zukunftsgestaltung. Ein Essay Hans Jürgen Manecke: Klassifikation, Klassieren Margarete Burkart: Thesaurus Ulrich Reimer: Wissensbasierte Verfahren der Organisation und Vermittlung von Information Heidrun Wiesenmüller: Informationsaufbereitung I: Formale Erfassung Gerhard Knorz: Informationsaufbereitung II: Indexieren Rainer Kuhlen: Informationsaufbereitung III: Referieren (Abstracts - Abstracting - Grundlagen) Norbert Fuhr: Theorie des Information Retrieval I: Modelle Holger Nohr: Theorie des Information Retrieval II: Automatische Indexierung Christa Womser-Hacker: Theorie des Information Retrieval III: Evaluierung Walther Umstätter: Szientometrische Verfahren Josef Herget: Informationsmanagement Holger Nohr: Wissensmanagement Michael Kluck: Methoden der Informationsanalyse - Einführung in die empirischen Methoden für die Informationsbedarfsanalyse und die Markt- und Benutzerforschung Michael Kluck: Die Informationsanalyse im Online-Zeitalter. Befunde der Benutzerforschung zum Informationsverhalten im Internet Alfred Kobsa: Adaptive Verfahren -Benutzermodellierung Stefan Grudowski: Innerbetriebliches Informationsmarketing Marc Rittberger: Informationsqualität Bernard Bekavac: Informations- und Kommunikationstechnologien Thomas Schütz: Dokumentenmanagement Nicola Döring: Computervermittelte Kommunikation, Mensch-Computer-Interaktion Daniel A. Keim: Datenvisualisierung und Data Mining Jürgen Krause: Software-Ergonomie Marlies Ockenfeld: Gedruckte Informations- und Suchdienste Joachim Kind: Praxis des Information Retrieval Bernard Bekavac: Metainformationsdienste des Internet Elke Lang: Datenbanken und Datenbank-Management-Systeme Rainer Hammwöhner: Hypertext Ralph Schmidt: Informationsvermittlung Rainer Bohnert: Technologietransfer Holger Nohr: Rechnergestützte Gruppenarbeit. Computer-Supported Cooperative Work (CSCW)
Jiri Panyr: Technische Redaktion Wolfgang F. Finke: E-Learning Harald H. Zimmermann: Maschinelle und Computergestützte Übersetzung Franziskus Geeb und Ulrike Spree: Wörterbücher und Enzyklopädien Angelika Menne-Haritz: Archive Hans-Christoph Hobohm: Bibliotheken Günter Peters: Medien, Medienwirtschaft Ulrich Riehm: Buchhandel Helmut Wittenzellner: Transformationsprozesse für die Druckbranche auf dem Weg zum Mediendienstleister Dietmar Strauch: Verlagswesen Ulrich Riehm, Knud Böhle und Bernd Wingert: Elektronisches Publizieren Heike Andermann: Initiativen zur Reformierung des Systems wissenschaftlicher Kommunikation Ute Schwens und Hans Liegmann: Langzeitarchivierung digitaler Ressourcen Achim OBwald: Document Delivery/ Dokumentlieferung Willi Bredemeier und Patrick Müller: Informationswirtschaft Martin Michelson: Wirtschaftsinformation Ulrich Kämper: Chemie-Information Wilhelm Gaus: Information und Dokumentation in der Medizin Gottfried Herzog und Hans Jörg Wiesner: Normung Jürgen Krause: Standardisierung und Heterogenität Reinhard Schramm: Patentinformation Wolfgang Semar: E-Commerce Wolfgang Semar: Kryptografie Knud Böhle: Elektronische Zahlungssysteme Herbert Stoyan: Information in der Informatik Gerhard Roth und Christian Eurich: Der Begriff der Information in der Neurobiologie Margarete Boos: Information in der Psychologie Harald H. Zimmermann: Information in der Sprachwissenschaft Ulrich Glowalla: Information und Lernen Eric Schoop: Information in der Betriebswirtschaft: ein neuer Produktionsfaktor? Gerhard Vowe: Der Informationsbegriff in der Politikwissenschaft - eine historische und systematische Bestandsaufnahme Jürgen Krause: Information in den Sozialwissenschaften Holger Lyre: Information in den Naturwissenschaften Norbert Henrichs: Information in der Philosophie
- Footnote
- Folgt weiter dem Vorbild der 2. Aufl. in der losen Zusammenstellung von Kapiteln verschiedener Autoren. Neu ist das Glossar in Bd.2. - Angeboten als gebundene und broschierte Ausgabe
Rez. in: Mitteilungen VÖB 57(2004) H.3/4, S.86-90 (O. Oberhauser): " ...Allen kritischen Anmerkungen zum Trotz: Im Vergleich mit der letzten Auflage schneidet diese fünfte Ausgabe erfreulich positiv ab (nur Nörgler würden sagen, dass dies nicht schwergefallen ist). Natürlich könnte darüber reflektiert werden, ob es heute noch möglich ist, das Gesamtgebiet der Informationswissenschaft und -praxis in einem Handbuch erschöpfend darzustellen; die Zeiten, in denen man Wissenschaftsdisziplinen auf diese Weise repräsentierte und legitimierte, sind eigentlich vorüber. Andererseits fehlen, gerade im deutschen Sprachraum, weitgehend gute und aktuelle Darstellungen zu den hier präsentierten Teilbereichen. Als Einstieg in die Informationswissenschaft und -praxis ist das vorliegende Handbuch daher allemal wichtig. Auch für gestandene Praktiker bietet es viele interessante und neue Themen. Der Preis für die broschierte Ausgabe ist vielleicht nicht gerade wohlfeil, aber nach heutigen Massstäben dem Umfang angemessen. Grössere Bibliotheken und bibliothekarische bzw. informationswissenschaftliche Ausbildungseinrichtungen, für die auch diese Ausgabe unverzichtbar ist, werden dagegen wohl eher zur teureren gebundenen Variante greifen." Weitere Rez. in: BuB 57(2005) H.4, S.307-308 (H. Meinhardt); ZfBB 52(2005) H.6, S.349-350 (T. Seela); Information - Wissenschaft und Praxis 56(2005) H.8, S.457-458 (D. Soergel): "In sum, this work provides a comprehensive and competent introduction to information science with a breadth of scope that exists nowhere else. It does so through a collection of independent contributions of many authors with many perspectives and many redundancies. Some readers might prefer a treatment from a unified viewpoint."
- Issue
- 2 Bde. 5., völlig neu gefaßte Ausgabe. Begründet von Klaus Laisiepen, Ernst Lutterbeck, Karl-Heinrich Meyer-Uhlenried. Bd.1: Handbuch zur Einführung in die Informationswissenschaft und -praxis. Bd.2: Glossar.
- RSWK
- Information und Dokumentation
- Subject
- Information und Dokumentation
-
Pan, B.; Gay, G.; Saylor, J.; Hembrooke, H.: One digital library, two undergraduate casses, and four learning modules : uses of a digital library in cassrooms (2006)
0.06
0.05588769 = product of:
0.22355077 = sum of:
0.22355077 = weight(_text_:java in 907) [ClassicSimilarity], result of:
0.22355077 = score(doc=907,freq=2.0), product of:
0.47850266 = queryWeight, product of:
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.067896724 = queryNorm
0.46718815 = fieldWeight in 907, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.046875 = fieldNorm(doc=907)
0.25 = coord(1/4)
- Abstract
- The KMODDL (kinematic models for design digital library) is a digital library based on a historical collection of kinematic models made of steel and bronze. The digital library contains four types of learning modules including textual materials, QuickTime virtual reality movies, Java simulations, and stereolithographic files of the physical models. The authors report an evaluation study on the uses of the KMODDL in two undergraduate classes. This research reveals that the users in different classes encountered different usability problems, and reported quantitatively different subjective experiences. Further, the results indicate that depending on the subject area, the two user groups preferred different types of learning modules, resulting in different uses of the available materials and different learning outcomes. These findings are discussed in terms of their implications for future digital library design.
-
Mongin, L.; Fu, Y.Y.; Mostafa, J.: Open Archives data Service prototype and automated subject indexing using D-Lib archive content as a testbed (2003)
0.06
0.05588769 = product of:
0.22355077 = sum of:
0.22355077 = weight(_text_:java in 2167) [ClassicSimilarity], result of:
0.22355077 = score(doc=2167,freq=2.0), product of:
0.47850266 = queryWeight, product of:
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.067896724 = queryNorm
0.46718815 = fieldWeight in 2167, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.046875 = fieldNorm(doc=2167)
0.25 = coord(1/4)
- Abstract
- The Indiana University School of Library and Information Science opened a new research laboratory in January 2003; The Indiana University School of Library and Information Science Information Processing Laboratory [IU IP Lab]. The purpose of the new laboratory is to facilitate collaboration between scientists in the department in the areas of information retrieval (IR) and information visualization (IV) research. The lab has several areas of focus. These include grid and cluster computing, and a standard Java-based software platform to support plug and play research datasets, a selection of standard IR modules and standard IV algorithms. Future development includes software to enable researchers to contribute datasets, IR algorithms, and visualization algorithms into the standard environment. We decided early on to use OAI-PMH as a resource discovery tool because it is consistent with our mission.
-
Song, R.; Luo, Z.; Nie, J.-Y.; Yu, Y.; Hon, H.-W.: Identification of ambiguous queries in web search (2009)
0.06
0.05588769 = product of:
0.22355077 = sum of:
0.22355077 = weight(_text_:java in 3441) [ClassicSimilarity], result of:
0.22355077 = score(doc=3441,freq=2.0), product of:
0.47850266 = queryWeight, product of:
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.067896724 = queryNorm
0.46718815 = fieldWeight in 3441, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
7.0475073 = idf(docFreq=104, maxDocs=44421)
0.046875 = fieldNorm(doc=3441)
0.25 = coord(1/4)
- Abstract
- It is widely believed that many queries submitted to search engines are inherently ambiguous (e.g., java and apple). However, few studies have tried to classify queries based on ambiguity and to answer "what the proportion of ambiguous queries is". This paper deals with these issues. First, we clarify the definition of ambiguous queries by constructing the taxonomy of queries from being ambiguous to specific. Second, we ask human annotators to manually classify queries. From manually labeled results, we observe that query ambiguity is to some extent predictable. Third, we propose a supervised learning approach to automatically identify ambiguous queries. Experimental results show that we can correctly identify 87% of labeled queries with the approach. Finally, by using our approach, we estimate that about 16% of queries in a real search log are ambiguous.
-
Nelson, T.H.: Transhyperability and argumedia (2005)
0.05
0.05391551 = product of:
0.21566205 = sum of:
0.21566205 = weight(_text_:hypertext in 697) [ClassicSimilarity], result of:
0.21566205 = score(doc=697,freq=4.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.6301116 = fieldWeight in 697, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.0625 = fieldNorm(doc=697)
0.25 = coord(1/4)
- Abstract
- Invited Commentary on D. Kolb: Association and argument: hypertext in and around the writing process. In: New review of hypermedia and multimedia 11(1), pp. 7-26, this issue.
- Theme
- Hypertext
-
Nakakoji, K.; Yamamoto, Y.; Akaishi, M.; Hori, K.: Interaction design for scholarly writing : hypertext representations as a means for creative knowledge work (2005)
0.05
0.05391551 = product of:
0.21566205 = sum of:
0.21566205 = weight(_text_:hypertext in 921) [ClassicSimilarity], result of:
0.21566205 = score(doc=921,freq=16.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.6301116 = fieldWeight in 921, product of:
4.0 = tf(freq=16.0), with freq of:
16.0 = termFreq=16.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.03125 = fieldNorm(doc=921)
0.25 = coord(1/4)
- Abstract
- This paper presents our approach of using hypertext representations to support a scholar in the early stages of a scholarly writing process. We take D. A. Schoen's model of design as a theoretical framework. Schoen views design as a reflective conversation with the materials of a situation, where the designer interacts with the materials, such as pen and sketch on a sheet of paper, in the reflection-in-action process. The designer acts and reflects almost simultaneously; acting on external representations, interpreting emerging representations, and reacting to them. We argue that a scholar needs to engage in two different types of representations in the reflection-in-action process: external representations for thinking about the problem, and representations for expressing a solution in a publishable form. The former does not necessarily precede the latter; rather, the two representations coevolve through the reflection-in-action process. Our approach uses hypertext representations as a means to interact with in the early stages of scholarly writing both for thinking about the problem and for expressing a solution. Hypertext representations have long been studied in their relation to supporting human intellectual work; our approach, however, is unique in providing the two representations with a specific concern for supporting reflection-in-action by applying the concept called ART (Amplifying Representational Talkback) as an interaction design principle. Based on this framework, we have developed ART014, a tool for scholarly writing. ART014 simultaneously supports two types of hypertext representations: a column-based network hypertext representation and a spatial hypertext representation. The two representations are located side by side, and integrated when an interaction with one representation is reflected in the visual presentation of the other. Although a user operates on the same set of objects through the two representations, the user expresses relationships among the objects independently in the two representations. We present a scenario to illustrate in detail how the design concepts underpinning ART014 supports scholarly writing. This paper then discusses our approach from three viewpoints by using the scenario: use of the two representations, engagement in reflection-in-action, and modes of authoring. The paper concludes with a description of future directions.
- Theme
- Hypertext
-
Oliveira Lima, G.A.B. de: Hypertext model - HTXM : a model for hypertext organization of documents (2008)
0.05
0.053279944 = product of:
0.21311978 = sum of:
0.21311978 = weight(_text_:hypertext in 3504) [ClassicSimilarity], result of:
0.21311978 = score(doc=3504,freq=10.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.6226837 = fieldWeight in 3504, product of:
3.1622777 = tf(freq=10.0), with freq of:
10.0 = termFreq=10.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.0390625 = fieldNorm(doc=3504)
0.25 = coord(1/4)
- Content
- This article reports an applied research on the construction and implementation of a semantically structured conceptual prototype to help in the organization and representation of human knowledge in hypertextual systems, based on four references: the Facet Analysis Theory (FAT), the Conceptual Map Theory, semantic structure of hypertext links and the technical guidelines of the Associacao Brasileira de Normas Técnicas (ABNT). This prototype, called Modelo Hipertextual para Organizacao de Documentos (MHTX) - Model For Hypertext Organization of Documents HTXM - is formed by a semantic structure called Conceptual Map (CM) and Expanded Summary (ES), the latter based on the summary of a selected doctoral thesis to which access points were designed. In the future, this prototype maybe used to implement a digital libraty called BTDECI - UFMG (Biblioteca de Teses e Dissertacöes do Programa de Pós-Graduacao da Escola de Ciência da Informacao da UFMG - Library of Theses and Dissertations of the Graduate Program of School of Information Science of Universidade Federal de Minas Gerais).
- Theme
- Hypertext
-
Jörn, F.: Wie Google für uns nach der ominösen Gluonenkraft stöbert : Software-Krabbler machen sich vor der Anfrage auf die Suche - Das Netz ist etwa fünfhundertmal größer als alles Durchforschte (2001)
0.05
0.05305066 = product of:
0.10610132 = sum of:
0.052185807 = weight(_text_:und in 671) [ClassicSimilarity], result of:
0.052185807 = score(doc=671,freq=100.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.34654674 = fieldWeight in 671, product of:
10.0 = tf(freq=100.0), with freq of:
100.0 = termFreq=100.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.015625 = fieldNorm(doc=671)
0.05391551 = weight(_text_:hypertext in 671) [ClassicSimilarity], result of:
0.05391551 = score(doc=671,freq=4.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.1575279 = fieldWeight in 671, product of:
2.0 = tf(freq=4.0), with freq of:
4.0 = termFreq=4.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.015625 = fieldNorm(doc=671)
0.5 = coord(2/4)
- Abstract
- Ohne das Internet ist heute das Wissen der Welt kaum mehr vorstellbar - und ohne Suchmaschinen wäre es nicht auffindbar. Freilich steht nicht alles Wissen im Word Wide Web. Und erst recht nicht ist es dort zu finden, nicht einmal von dieser) technischen Wunderwerken, den Suchmaschinen, die uns dabei helfen. In den sechziger Jahren entstand Hypertext als eine einheitliche Darstellung und Verknüpfung von elektronischen Dokumenten. Im Jahr 1980 empfahl Tim Berners-Lee dem Genfer Kernforschungszentrum Cern einheitliche Verweise zwischen Dokumenten, sogenannte Links. Zu Weihnachten 1990 schrieb er dort den ersten Browser und erfindet damit das World Wide Web. Am 15. Dezember 1995 ging Altavista in Palo Alto ans Netz. Als wir hier einige Monate später über diese Suchmaschine berichteten, schätzten wir damals 30 Millionen Seiten im Interne. Inzwischen mag es da 300 Milliarden Dateien geben, wie viele, weiß keiner, nicht einmal die größte Suchmaschine. Die Technik der Suchmaschinen ist gleich geblieben. Sie suchen die Inhalte vorher, vor der Abfrage, mit Software, den "Krabblern", einer Erfindung des Franzosen Louis Monier. Die machen eine Liste aller vorkommenden Wörter und krabbeln dann, Link um Link, zu weiteren Seiten, von Datei zu Datei, von Domane zu Domäne, von Kontinent zu Kontinent. Wie genau die invertierten Dateien aussehen, die sie erzeugen, wie groß sie sind, wie dort Worthäufigkeit oder Stellung des Treffers auf der durchforschten Seite gespeichert ist - wichtig beim Sortieren der Ergebnisse -, wie daraus später geschlossene Wortgruppen herausgeholt werden, bleibt ein Betriebsgeheimnis. Einen kleinen Einblick gab uns Guido Adam, Technikchef der deutschen Suchmaschine Infoseek. In dieser Auskunftei mit 35 festen und noch einmal so vielen freien Mitarbeitern sind neun für den Katalog tätig. Die Rechner stehen in Darmstadt. In 19-Zoll-Gestellen laufen hinter Plexiglas sechs Krabbler-PCs mit 3 bis 8 Gigabyte (GB) Ram-Speicher und je hundert Krabbelprogrammen. Sie sind mit 640 Megabit je Sekunde ans Internet angeschlossen. Ihr Ziel: Wenigstens einmal mönatlich 30 Millionen deutsche Dateien besuchen. Erkennen sie häufig wechselnde Inhalte, kommen sie öfter vorbei; für ganz Aktuelles wie Zeitungsberichte gibt es Sondersucher, die notfalls stündlich nachlesen. Zwei weitere Maschinen bauen immerfort neue Indizes und legen die Ergebnisse in einem Speicher-Server mit brutto 5 Terabyte (5 mal 10**12 Byte) ab. Der Index - jeweils rund 350 GB - wird fünffach gehalten, damit Anfragen blitzschnell - in etwa einer Sekunde - von drei weiteren Maschinen beantwortet werden können. Index-"Instanz" Nummer vier ist Reserve und die fünfte im Aufbau.
Der weitere Speicher wird für die URL-Adreßdatenbank gebraucht, welche die Krabbler steuert, und als Zwischenspeicher für frisch aufgesuchte Dokumente, die dort ihrer Indizierung harren. An Anfragen kommen bei Infoseek, die T-Online und andere bedienen, täglich zwei Millionen herein; Hauptsuchzeit ist abends 20 bis 23 Uhr. Ja, Spitzenreiter der Suchbegriffe ist immer noch Sex. Gehen wir auf die Suche nach Seltenem. Im internationalen Wettstreit um die weitreichendste Netzausforschung hat zur Zeit die Suchmaschine Google (www.Google.com, "search 1.346.966.000 web pages") mit über 700 Millionen indizierten, teils sogar gespeicherten Seiten die Nase vorn, zumal sie dank ihrer Linktechnik weitere fast 700 Millionen Seiten kennt. Täglich bekommt Google 70 Millionen Anfragen. An zweiter Stelle mit knapp 600 Millionen Seiten folgt Fast, als "Alltheweb" bekannt (www.alltheweb.com), danach etwa gleichrangig mit über 500 Millionen Seiten der Oldtimer Altavista (www.altavista.com), Inktomi und Webtop (www.webtop.com). Inktomi liefert seine Ergebnisse an andere, erst an Hotbot, dann an Microsoft (www.msn.com), bis zum Juli 2000 auch an Yahoo (www.yahoo.com). Yahoo, geboren 1994, ist die älteste und immer noch eine sehr beliebte Suchmaschine, nicht, weil sie Exotika wie "Gluonenkraft" liefern könnte-, sondern weil sich dort rund 150 Katalogisierer Menschen! - um Stichwörter kümmern. Nur wenn die nichts fanden, werden fremde Ergebnisse zugespielt, inzwischen von Google. Ähnlich ist das bei Look Smart (www.looksmart.com), die von Inktomi unterversorgt wird. In hartnäckigen Fällen nutze man Übersuchmaschinen, sogenannte Meta-Crawler wie www.ixquick.com oder hier www.metager.de, die den eingegebenen Begriff automatisch in mehreren Suchmaschinen aufzuspüren versuchen (nicht in Google). Bei den meisten Suchen geht es jedoch nicht um seltene Begriffe. Von den 75 Millionen Ausdrücken, die Altavista einst zählte, werden üblicherweise triviale gesucht. Die Datenbankgröße der Suchmaschine ist dann belanglos. Zudem stehen viele Inhalte mehrfach im Netz, und der Suchende will nicht fünfmal dasselbe vorgespielt bekommen. Bei den meist viel zu vielen Treffern ist die wirkliche Frage deren Anzeigereihenfolge. Da wird versucht, nach Häufigkeit des Wortes im Text zu sortieren oder danach, ob es im Titel und näher am Textanfang vorkommt. Die Suchmaschinen erklären selbst ein wenig davon, zugleich als Aufforderung an WebDesigner, einfache Seiten zu machen, sich kurz und möglichst rahmenlos zu fassen. Speziell für die Suchmaschinen haben die meisten Webseiten im Kopfeintrag Stichwörter, im Quelltext der Seite von jedermann zu sehen. Webseiten können sich "Roboter" sogar verbitten. In den Suchmaschinen-Redaktionen wird für viele Begriffe die Ausgabe manuell festgelegt - wobei zuweilen bereits ein gutes "Placement" bezahlt wird, was sicher bedenklich ist. Für den Neuankömmling Google haben sich 1998 Sergey Brin und Larry Page etwas Besonderes ausgedacht: Die Seiten werden nach Beliebtheit bewertet, und die hängt davon ab, wie viele (beliebte) Seiten zur jeweiligen Seite einen Link hin haben. Das ist gut für klassische Inhalte. Neuigkeiten, auf die noch niemand deutet, werden so nicht gefunden. Für allgemeine Fragen kommt die Lösung nicht von großen Automaten, sondern von spezialisierten Auskunfteien, die rubriziert nach Sachgebieten vorgehen.
Da gibt es Spezialisten für alles, etwa Webbrain (www.webbrain.com), wo zur Sache gegangen werden kann bis hinunter zu Dürrenmatt, es gibt Sammlungen für Universitäten und Ausbildung (www.searchedu.com) und deutsche für Technik (www.fiz-technik.de), für Juristisches, Medizinisches und, von den Mormonen gesponsert, für Ahnenforschung (www.familysearch.com); Suche nach vermißten Kindern (www.fredi.org) ist genauso möglich wie nach Gratisgeschenken (www.kostenlos.de) oder in Bücherkatalogen samt Verkauf (www.amazon.de). Nur die deutsche Telefonbuchsuche wird immer schlechter. Es gibt Maschinen, die freies Fragen zulassen - und dann erstaunliche Ergebnisse bringen, etwa Northern Light (www.northernlight.com) auf die deutsch gestellte Frage: "Wie alt wurde Cäsar?" Wird dasselbe dagegen von Julius Cäsar" erfragt, ist man zwei Klicks später beim Ergebnis. Hier muß maschinelle Intelligenz noch üben. Erfahrungsgemäß denkt man sich besser selbst eine Reihe von Begriffen aus, die das zu findende Dokument enthalten könnte, und variiert, bis die Treffer näherkommen, so auch bei Xipolis (www.xipolis.net), das sich Wissensbibliothek nennt, Cäsars Geburtsjahr aber aus dem 24bändigen Brockhaus nur gegen Gebühr herausrücken will. Wissen.de gibt's frank und frei, und die berühmte Encyclopedia Britannica (www.Britannica.com) ist inzwischen auch schon offen! Kepnt man ein paar Worte des genauen Wortlauts, sagen wir, "zu Mantua in Banden", so setze man sie in Anführungszeichen und lasse nur nach dieser Folge suchen. Google hält durchsuchte Seiten (bis zu rund 100 Kilobyte) - sozusagen das ganze Netz, unvorstellbar! - in Kopie vor und kann selbst dann aus seinem Archiv dienen, wenn das Original schlecht oder nicht mehr erreichbar ist. Sie schnell anzUklicken hat den Zusatzvorteil, daß die Suchbegriffe farbig hervorgehoben werden. Und man sieht, wie die Seite vielleicht vor zwei Monaten beim letzten Google-Besuch ausgesehen hat. Insgesamt hat Google stets über hundert Indizes mit jeweils mehreren Terabyte Daten am Netz; Googles Legebatterie von über 8000 billigen Linux-PC-Servern grast in mehr a s einem Petabyte eigenem Speicher (1011 Byte). Dennoch: Die größte Sorge aller Netzfreunde ist das "unsichtbare Netz", das schätzungsweise fünfhundertmal umfangreicher ist als das mit Suchmaschinen Durchforschbare.
Es gibt riesige Inseln nach außen nicht verlinkter Dateien, es gibt Formate, die dem HTML-Standard nicht entsprechen und von Suchmaschinen nicht oder ungern gelesen werden, von Word-Dokumenten bis zu PDF-Dateien (Google durchkämmt sie und speichert sie zum schnellen Uberblick und vorteilhaft kopierbar als Textdateien!), Tabellen und Folienvorträge, Gedcom-Stammbäume, vor allem aber Bilder, Filme, Musik, die sich nur schwer elektronisch katalogisieren lassen. Haben Suchmaschinen Zeit, mit künstlicher Intelligenz herauszufinden, ob auf einem Bild eine Person ist? Und wenn, wer mag es sein? Infoseek bemüht sich in einer eigenen Bildersuche darum, kann allerdings auch kein Konterfei von Luis Trenker oder Toni Sailer herbeizaubern, wogegen "Luis Trenker Bild", besonders bei Google, zum Foto führt. "Britney Spears" strahlt einem gleich entgegen! Wenn Bilder beliebig benannt werden, bleiben sie unauffindbar. MP3-Dateien enthalten oft maschinenlesbar den Titel in der Musikdatei - eine große Hilfe für Suchmaschinen. Neue Webformate wie Macromedia Flash, dem Internet-Veteranen ohnehin ein Graus, vernebeln das in ihrem Troß Folgende. Und bietet eine Internetseite eine eigene Datenbanksuche an, dann bleibt diese Datenbank vor Suchmaschinen verborgen, von Telefonnummern und Zügen bis zu Artikeln dieser Zeitung. Zuvorkommender ist es, die Inhalte in Hypertext ins Netz zu stellen - für die Suchmaschinen und zusätzlich manuell darin suchen zu lassen. Suchmaschinen wie Freefind oder Atomz bieten das kostenlos an. Grundsätzlich können Suchmaschinen kostenpflichtige Inhalte nicht durchkämmen. So wie sich die olympische Idee inzwischen den Profis gebeugt hat, besteht auch im Internet die Gefahr, daß es immer kommerzieller zugeht. Ein Musterbeispiel sind WapInhalte für mobile Betrachter, die im Gegensatz zu HTML-Seiten nicht systematisch von einem Domänennamen her über Links erreichbar sind. Wap-Suchmaschinen weisen also nur angemeldete Seiten nach und spielen eine untergeordnete Rolle. Viel lieber schleusen die Mobilfunkanbieter ihre Kunden über Portale. Zollund Zahlgrenzen, Partikularismus zerstören das Netz. Beim japanischen Imode, mit HTML kompatibel, ist das anders; selbst Google bietet über www.google.com/imode Suche an, hat dann aber Mühe, Imode-Inhalte (in cHTML, compact HTML) von HTML zu unterscheiden. Grundsätzlich ist die Rivalität zwischen Internet-Portalen mit ihrer Zugangsführung und Suchmaschinen für Quereinsteiger noch nicht ausgefochten. Noch aus der Vor-Web-Zeit stammen Diskussionsforen. Dort werden zu bestimmten Themen Meinungen ausgetauscht, - moderiert oder wildwachsend.
Die Beiträge, eine Art E-Mails mit gestrengen Usancen, finden sich dann auf vielen kooperierenden Servern, auf uralten nichtkommerziellen Fido- oder Zerberus-Boxen und bei großen Internet-Anbietern à la T-Online, die die Eintrage wie kommunizierende Röhren untereinander austauschen. Die mit Newsreader-Zusatzsoftware zu lesenden, zuweilen ruppigen Beiträge dieser Zehntausenden von Newsgroups im "Usenet" sind ein wahres Dorado für Tips und Meinungen, für praktische Hilfe und unermüdliche Kollegialität - oft zum Ärger der Produkthersteller, gelegentlich zur Entlastung von deren Kundendiensten. Frage-und-Antwort-Fäden (Threads) verästeln sich zu einem Baum der Meinungen und des Wissens. Einen Überblick gibt etwa Tile.net oder groups.google.com, versuchsweise mag man als Sprachfreund bei http://faql.de einsteigen. Über www.deja.com konnte man überall browsergeführt mitdiskutieren und seinen Senf dazugeben. Ende 2000 ging es damit bergab, am 12. Februar stellte Deja seinen Dienst ein. Domänenname und Datenbank (mehr als ein Terabyte mit über 500 Millionen Beiträgen seit 1995) wurden von Altavista an Google verkauft und sind unter der alten Adresse lebendig. Nur neue Beiträge kann man dort nicht mehr loswerden und muß sich dazu schon direkt zum jeweiligen Forum bemühen. Manche Suchmaschinen bieten maschinelle Übersetzungen. Die Ergebnisse helfen Amerikanern, uns zu verstehen, mit Phantasie und gutem Willen, Auf seiner sehenswerten englischen Suchseite bietet dies Google an, so wie seit längerem Altavista - vom selben Übersetzer. Gefundenen Text bekommt man ins Englische übersetzt; klickt man weiter, so auch die weiteren Seiten. Man sollte sich nicht darüber lustig machen, selbst wenn eines Dichters Werk als "its factory" erscheint und die Stadt Essen als "meal". Die Wunscheinstellungen (speicherbar, wenn man Cookies zuläßt) bei Google lassen übrigens zu, daß die gefundenen Seiten, ob original, ob übersetzt, in einem neuen Browserfenster aufscheinen.'Alle anderen machen das auch wenn man die Shift-Taste beim Klicken drückt. Hoffen wir, daß uns diese offene Wunderwelt des Internet mit ihren Suchmaschinen noch lange erhalten bleibt und daß kommende Multimedia-Inhalte nicht in einem Wust von Formaten untergehen. Das Netz muß Schranken überwinden können, für Maschinen, letztlich aber von Mensch zu Mensch
-
Ferber, R.: Information Retrieval : Data Mining-Verfahren für Textsammlungen und das Web (2003)
0.05
0.05150322 = product of:
0.10300644 = sum of:
0.055351403 = weight(_text_:und in 2848) [ClassicSimilarity], result of:
0.055351403 = score(doc=2848,freq=72.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.36756828 = fieldWeight in 2848, product of:
8.485281 = tf(freq=72.0), with freq of:
72.0 = termFreq=72.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=2848)
0.04765503 = weight(_text_:hypertext in 2848) [ClassicSimilarity], result of:
0.04765503 = score(doc=2848,freq=2.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.1392363 = fieldWeight in 2848, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.01953125 = fieldNorm(doc=2848)
0.5 = coord(2/4)
- Abstract
- Die inhaltliche Suche nach Textdokumenten - das Information Retrieval -spielte sich bis vor einigen Jahren vornehmlich in Bibliotheken und Archiven ab. Durch das WWW sind zunehmend auch Privatpersonen und Firmen mit dieser Aufgabe konfrontiert. Dieses Buch vermittelt die grundlegenden Modelle und Methoden des Information Retrieval, beschreibt an Beispielen aktuelle Entwicklungen - insbesondere im Bereich der Websuche - und' stellt sie in einen theoretischen Zusammenhang. Einführend werden klassische Ansätze wie hierarchische Klassifikationen, boolesche Suche, das Vektorraummodell und Bewertungsmethoden für Suchverfahren erläutert. Es folgt eine Einführung in Methoden des Data Mining, die zur Unterstützung der Suche dienen können. Anschließend werden unterschiedliche Retrieval-Modelle und konkrete Systeme vorgestellt. In einem eigenen Schwerpunkt widmet sich das Buch dem WWW und behandelt aus der Perspektive des Information Retrieval die Web-Auszeichnungssprachen XML und HTML, Metadatensysteme wie Dublin Core sowie die Beschreibungssprache RDF. Schließlich werden die Rahmenbedingungen der Web-Suche und verschiedene Verfahren wie der PageRank-Algorithmus von Google und die ODP-Klassifikation beschrieben. Das Buch richtet sich an Studierende und Praktiker, die sich die Grundlagen des modernen Information Retrieval aneignen wollen.
- Footnote
- Rez. in nfd - Information 54(2003) H.6, S.380-381 (M. Hauer): "Wer unter Amazon.de nach aktueller Fachliteratur zum Thema Information Retrieval sucht, kommt mit gutem Grund auf Reginald Ferber. Er kommt von der mathematischen Modellierung zum Information Retrieval und hat im Rahmen seiner Forschung und Lehre das Feld breit ausgeleuchtet. Sein Buch bezeichnet sich als Einführungswerk für Informatiker, Informationswissenschaftler, Bibliothekare, Dokumentare und Studierende. Gewiss, es ist ein Einführungswerk, weil es darum bemüht ist, das Feld komplett auszuleuchten. Vergleicht man dieses gegen die rund 38o Titel zum Feld Information Retrieval aus dem Springer Verlag dem großen Nachbarn in Heidelberg, so trifft diese Einschätzung zu, denn dort werden primär einzelne Ansätze beleuchtet. Sehr systematisch erarbeitet Ferber die grundlegenden Modelle und Methoden des Information Retrieval, Data Mining und deren Umfeld. Dennoch ist es in weiten Teilen ohne einige Semester Mathematik und ohne gute Informatik-Grundlagen nicht verständlich. Ferber überzeugt schon im ersten von vier Kapiteln über "Grundlagen und klassische IR-Methoden" mit einer guten Kenntnis der Retrieval-Praxis und Problematik. Einführend grenzt er Fakten- und Information Retrieval, Hypertext, Expertensysteme, Management-Informationssysteme, Data Mining, Kategorisierung, assoziative Regeln und Wissensgewinnung ab. Im Kapitel Grundlagen definiert er Information Retrieval letztlich in Übereinstimmung mit der Gesellschaft für Informatik, die eine Fachgruppe dazu unterhält. Vagheit, Unschärfe und Unsicherheit prägen letztlich die Aufgabe des Information Retrieval als eine Gruppe von Verfahren mit dem Ziel des Austauschs von Wissen zwischen Menschen. Im Dialog zwischen Informatik und Kognitionswissenschaften sieht er noch viele offene Fragen. Einfach gesagt: Wenn jemand bei Google ein Suchwort eintippt, woher soll der Rechner dann wissen, welche Antwort für diesen Menschen in dieser Situation gerade die beste ist? Auf rund 70 Seiten erarbeitet er alle wesentlichen Retrieval-Ansätze bis zum Vektorraum-Modell und TREC, dem jährlichen wissenschaftlichen Wettkampf der Systeme. Es geht um boolesche Techniken und ihre Schwächen, um Klassifikationsund Thesauruskonzepte, linguistische Verfahren, Gewichtungsverfahren, Relevance Feedback, Vektorraum und die Messverfahren für Retrievalqualität. Auf den nächsten 70 Seiten führt er die Grundlagen der statistischen Verfahren ein, die heute als Data-Mining oder TextMining bezeichnet werden. Hier geht es um maschinelles Lernen, Kategorisierung, Clustering und assoziative Regeln. Spätestens hier wird der gewöhnliche Dokumentar oder Bibliothekar stöhnen was nicht gegen das Buch spricht, nur gegen deren traditionelle Ausbildung. Deutlich wird dabei, dass mit mathematischen Verfahren die klassischen Verfahren im Ergebnis erreicht werden sollen: Kategorisierung (wenige Hauptschlagworte), Clustering (Klassen) oder eben thesaurusähnliche Termpaarbildungen. Das Ziel ist weitgehend gleich doch die Zielerreichung grundlegend verschieden. Genau diese mathematischen Verfahren werden im dritten Kapitel weiter vertieft. Insbesondere die korpusbasierten Verfahren sind hier wichtig, wie kann man in einer ganzen großen Menge sinnvolle Termpaare oder gar Termnetze finden, also Kookurrenzen, Begriffe, die signifikant häufig gemeinsam vorkommen. Solche Verfahren sind auch im multilingualen Retrieval interessant, um automatisch sinnvolle Übersetzungen zu finden, indem Texte, die in mehreren Sprachen vorliegen jeweils auf Paare untersucht werden. Solche Netze können teils mit Lehrer trainiert, nachträglich korrigiert oder ohne Aufsicht entstehen. Ferber zeigt sachlich neutral die Verfahren auf, eine klare Entscheidung des Autors für das eine oder andere Verfahren ist nicht zu erkennen. Diese Position ist durch die TRECErgebnisse begründet, denn bislang konnte sich noch keines der Verfahren weit vom Durchschnitt entfernen. Und stets hängt die Eignung auch stark am Textkorpus und Einsatzzweck.
Das vierte Kapitel widmet sich Information Retrieval aus der Perspektive des Internets. Bei aller raffinierten Retrieval Technik mit Linguistik oder Statistik spielt Faktenretrieval aufgrund von strukturierten Dokumenten unverändert und eher zunehmend eine Rolle. Er führt zunächst in SGML und XML ein, Sprachen zur Markierung von Dokumentinhalten. Anwendungen davon sind Metadaten-Ansätze wie Dublin Core oder RDF. Aufgrund seiner langen Erfahrung zweifelt er aber an der flächendeckenden Durchsetzung solcher Strukturierungsansätze, was deren Nutzen aber prinzipiell nicht schmälert. Ein Unterkapitel Topic Maps wäre noch sinnvoll gewesen. Dieses Kapitel ist sinnvoll, um ein besseres Verständnis all der herumschwirrenden Namen und Ansätze zu erhalten, die alle wieder einmal an alten Problemen arbeiten. Denkbar wäre noch ein Kapitel zum Bild-, Musik- oder Video-Retrieval (also Objekte ohne Text) gewesen, doch mit über 300 Seiten ist das Buch schon dick genug. Das Buch erfüllt für die Zielgruppen das Ziel der Einführung gut und vermittelt ein umfassendes Verständnis - doch angesichts von so viel Mathematik bleibt ein klarer Rest von Vagheit, Unschärfe und Unsicherheit wohl bei den meisten Lesern. Nur wer selbst solche Systeme baut, wird die Algorithmen implementieren und auf seine Weise diskutieren können.
-
Ellis, D.; Vasconcelos, A.: ¬The relevance of facet analysis for World Wide Web subject organization and searching (2000)
0.05
0.049524564 = product of:
0.19809826 = sum of:
0.19809826 = weight(_text_:hypertext in 3477) [ClassicSimilarity], result of:
0.19809826 = score(doc=3477,freq=6.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.5787945 = fieldWeight in 3477, product of:
2.4494898 = tf(freq=6.0), with freq of:
6.0 = termFreq=6.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.046875 = fieldNorm(doc=3477)
0.25 = coord(1/4)
- Abstract
- Different forms of indexing and search facilities available on the Web are described. Use of facet analysis to structure hypertext concept structures is outlined in relation to work on (1) development of hypertext knowledge bases for designers of learning materials and (2) construction of knowledge based hypertext interfaces. The problem of lack of closeness between page designers and potential users is examined. Facet analysis is suggested as a way of alleviating some difficulties associated with this problem of designing for the unknown user.
-
Körkel, T.: Internet für Hörer aller Fakultäten (2002)
0.05
0.04909186 = product of:
0.09818372 = sum of:
0.05052869 = weight(_text_:und in 2219) [ClassicSimilarity], result of:
0.05052869 = score(doc=2219,freq=60.0), product of:
0.15058808 = queryWeight, product of:
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.067896724 = queryNorm
0.33554244 = fieldWeight in 2219, product of:
7.745967 = tf(freq=60.0), with freq of:
60.0 = termFreq=60.0
2.217899 = idf(docFreq=13141, maxDocs=44421)
0.01953125 = fieldNorm(doc=2219)
0.04765503 = weight(_text_:hypertext in 2219) [ClassicSimilarity], result of:
0.04765503 = score(doc=2219,freq=2.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.1392363 = fieldWeight in 2219, product of:
1.4142135 = tf(freq=2.0), with freq of:
2.0 = termFreq=2.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.01953125 = fieldNorm(doc=2219)
0.5 = coord(2/4)
- Abstract
- "Mit achtzigprozentiger Wahrscheinlichkeit wurde O. J. Simpsons Frau von ihrem Mann ermordet, und der Beschuss der chinesischen Botschaft im Kosovo-Krieg beruhte höchstwahrscheinlich, nämlich zu 85 Prozent, auf Vorsatz. Reine Vermutungen, geschätzt nach Pi mal Daumen? Nein, solche Wahrscheinlichkeiten lassen sich rechnerisch herleiten. Da nützt es nichts, dass Simpsons Anwalt vor Gericht zutreffend anführt, dass nur einer von tausend Männern, die ihre Frau regelmäßig schlagen, sie auch ermordet. Entscheidend ist die Frage, bei wie vielen ermordeten Frauen, die regelmäßig von ihrem Mann geschlagen wurden, der Mann auch der Täter war. Und im Falle der chinesischen Botschaft bleibt nur wenig Raum für vage Mutmaßungen, wenn man alle Faktoren veranschlagt - wie die Zahl aller Häuser in Belgrad, die Zahl der für einen Beschuss in Frage kommenden Ziele, die Zahl der Geschosse sowie die Vorab-Einschätzung des Vermutenden über die Bereitschaft der Amerikaner, die Botschaft zu beschießen. Mit zahlreichen Fallbeispielen beschreiben die Autoren, beide Physiker und Professoren am Fachbereich Medizin der Universität Hamburg, verblüffende Folgerungen aus der Wahrscheinlichkeitslogik. Die vertraute Wenn-dann-Logik ist auf viele Sachverhalte nicht anwendbar. Erst dadurch, dass ein "wahrscheinlich" in die Rechnung einbezogen wird, kann man alle Faktoren ins Kalkül ziehen - und bekommt daraufhin völlig andere Ergebnisse. Welche Irrtümer und Fehlschlüsse entstehen können, wenn nur einige dieser Zutaten außer Acht bleiben, zeigen die Autoren für die verschiedensten Lebensbereiche. Stück für Stück widerlegen sie unsere für sicher geglaubten Meinungen. In witzigen und spannenden Geschichten führen sie uns von Wettervorhersagen und Bilanzmanipulationen über Börsenbewegungen bis hin zu ihrem Hauptanliegen: der "Lebenslüge der medizinischen Forschung". Es geht um Fehlschlüsse, die durch falsche Interpretationen medizinischer Tests und Studien entstehen. Üblicherweise werden in Doppelblindversuchen Therapien an Patienten getestet und die jeweils positive oder negative Wirkung erfasst. Bei der statistischen Auswertung einer solchen Studie gestehen sich die Forscher sogar eine geringe Irrtumswahrscheinlichkeit zu. Eine Grundfrage aber fehlt: Wurde überhaupt eine bessere Therapie-Idee untersucht?
Das Buch verdeutlicht das mit einem Angelbeispiel: In einem Teich gibt es zwei Arten Fische, die begehrten Leckerellen und die ungenießbaren Ekelitzen. Um die Wirksamkeit eines Angelköders für Leckerellen zu testen, hängt man ihn ins Wasser und zählt, wie viele Fische jeder Art anbeißen. Weiß man dann, ob und wie sehr die Leckerellen den Köder mögen? Beileibe nicht. Es kommt darauf an, wie viele Fische der einen und der anderen Art überhaupt im Teich sind. Möglicherweise schwimmt dort gerade keine einzige Leckerelle, also beißt auch keine an; man angelte dann nur Ekelitzen, die den - vielleicht für Leckerellen hervorragenden - Köder nur in der Not fressen. Welchen Wert hat also die reine Zählmethode, um eine Aussage über die Qualität des Köders zu bekommen? Auf medizinische Studien übertragen: Wie aussagefähig ist ein Studienergebnis, wenn Therapie-Köder ausgelegt werden, ohne zu wissen, wie viele IdeenFische überhaupt im Forschungsmilieu schwimmen? Eine weitere Schwierigkeit kommt hinzu: Die Wahrscheinlichkeit von guten Ideen für neue Therapien ist nicht bekannt. Man könnte sie höchstens subjektiv schätzen (Vorschlag der Autoren: zwei Prozent). Weil sie also fast nicht quantifizierbar ist, darf sie, so argumentieren die Statistiker, bei der Bewertung wissenschaftlicher Ergebnisse auch nicht veranschlagt werden. Denn Subjektivität soll in der Forschung möglichst ausgeschlossen bleiben. Folglich wird der Faktor IdeenWahrscheinlichkeit ganz aus der Fragestellung und der statistischen Auswertung ausgeklammert. Das Problem existiert also offiziell gar nicht, obwohl es den Fachleuten bekannt ist. Das Buch bietet vergnüglichen Lesestoff als Verpackung für wissenschaftskritischen Zündstoff: Die Autoren weisen nach, dass randomisierte Studien überflüssig oder sogar schädlich sind. Sie zeigen, dass viele der "wissenschaftlich nachgewiesen besseren Therapien" nicht besser und vielfach sogar schlechter sind als das, was sie verbessern sollen. Alles, was man wissen muss: Ein texanischer Universitätsrechner gewährt Zutritt zu den heiligen Hallen der Online-Bildung. Der Online-Boom der 1990er Jahre beförderte auch akademische Bildungsinhalte ins Netz. Das große Projekt einer virtuellen Universität hat sich zwar bislang in finanziellen, technischen und konzeptionellen Unzulänglichkeiten verfangen. Aber die (reale) Universität von Texas in Austin bietet seit 1994 einen Wegweiser zu Online-Vorlesungen aus aller Welt, den sie ständig aktualisiert: den "Welthörsaal" (http:// wnt.cc.utexas.edu/~wlh). In über neunzig natur- und geisteswissenschaftlichen Fächern, von Astronomie über Anthropologie, Geschichte und Religion bis hin zur Zoologie, können Internet-Surfer weit reichende Studien treiben. Ausdauer ist gefragt: So mancher Mausklick fördert nicht viel mehr als Vorlesungspläne zu Tage oder fordert kostenpflichtige Registrierungen. Häufig dienen die Seiten auch nur als Ergänzung zu einer Präsenzvorlesung. Wer trotzdem dranbleibt, den belohnt die Suchmaschine der World Lecture Hall mit faszinierenden Links auf umfassende Text- und Bildersammlungen, abgerundet mit Filmen, Sprachsequenzen und interaktiven Anwendungen. Eine Online-Einführung in die Chemie bietet zum Beispiel www.scidiv.bcc.ctc.edu/ wv/101-online.html. Fachlich anspruchsvoll und dennoch verständlich ist auch http://simons.hec.utah.edu/ TheoryPage/index.html: Jack Simons, theoretischer Chemiker aus Utah, leitet die rasant wachsende Bedeutung seines Fachgebiets aus dessen Funktion als Schnittstelle zwischen Chemie, Mathematik, Physik und Computerwissenschaften ab. Bunt und bewegt geht es in der "Chemist's Art Gallery" (www.csc.fi/them/gallery.phtml) zu, die auch die Links zur Molekül-"Kunst" auf dieser Seite lieferte. Ein reiches Sortiment interaktiver Animationen etwa zur Molekulardynamik stellt einige Ansprüche an die heimische Hardware.
Ähnlich spektakulär und informativ präsentieren sich auch die Astronomen: Ihr schier unerschöpflicher Fundus von Bildern und Filmen macht das "elektronische Universum" auf http://zebu.uoregon.edu ebenso einen Klick wert wie die Geschichte von "Geburt und Tod der Sterne" auf demselben Server (http://zebu.uoregon.edu/~js/astl22). Schnell gerät der Wissensdurstige auf reizvolle Seitenpfade, denn viele Vorlesungen glänzen mit sorgfältig zusammengestellten Linklisten. Die führen zum Beispiel zu den "Chemischen Briefen" Justus von Liebigs, wie sie im 19. Jahrhundert zunächst als Wissenschaftskolumne in der Augsburger Allgemeinen Zeitung erschienen (www.liebig-museum.de/chbriefe/homepage.htm). Selbst die Alchemie - neunzig ansprechend präsentierte Megabyte auf www.alchemywebsite. com - verleitet zum Verweilen. Historisches ist, weil nicht stets aktualisierungsbedürftig, ohnehin beliebt im Netz. So wartet etwa die Universität Groningen (Niederlande) mit einem voluminösen Hypertext auf, praktisch ein komplettes Lehrbuch der amerikanischen Geschichte mit Texten, Essays und Präsidentenbiografien (http://odur.let.rug.nl/usanew). Noch weiter zurück in die Vergangenheit reicht eine Anthropologen-Website über den Ursprung des Menschen (www.geocities.com/Athens/Acropolis/5579/TA.html). Verspieltere Naturen werden dort zuerst fossile Schädel zuzuordnen versuchen ("Name That Skull") oder einem Anthropologiestudenten beim Wurf des Atlatl zusehen. Dieser frühe Wurfspeer machte schon den Mammuts zu schaffen und drang noch vor wenigen hundert Jahren durch die eiserne Rüstung spanischer Konquistadoren. Selbst Angewandtes bietet die World Lecture Hall. Etwa die "Geschichte der ökonomischen Denkweise" einschließlich eines 22-Minuten-"Interviews" mit Karl Marx auf www.boisestate.edu/econ/lreynol/web/het.htm. Oder Online-Sprachkurse: Wollof und Xhosa, Suaheli und Sanskrit lehrt http://www.word2word.vorn/courscad.html. Surfen allein fördert die akademische Karriere allerdings nicht unbedingt. Wer of fizielle Online-Zertifikate in Deutschland anstrebt, findet in dem Beitrag "Virtuelle Universität im Selbstversuch" (Spektrum der Wissenschaft 11/ 2001, S. 109) gute Startpunkte für das Studieren im Netz, angefangen bei - na wo wohl? - www.studieren-irre-netz.de."
-
Picard, J.; Savoy, J.: Enhancing retrieval with hyperlinks : a general model based on propositional argumentation systems (2003)
0.05
0.04765503 = product of:
0.19062012 = sum of:
0.19062012 = weight(_text_:hypertext in 2427) [ClassicSimilarity], result of:
0.19062012 = score(doc=2427,freq=8.0), product of:
0.3422601 = queryWeight, product of:
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.067896724 = queryNorm
0.5569452 = fieldWeight in 2427, product of:
2.828427 = tf(freq=8.0), with freq of:
8.0 = termFreq=8.0
5.0408926 = idf(docFreq=780, maxDocs=44421)
0.0390625 = fieldNorm(doc=2427)
0.25 = coord(1/4)
- Abstract
- Fast, effective, and adaptable techniques are needed to automatically organize and retrieve information an the ever-increasing World Wide Web. In that respect, different strategies have been suggested to take hypertext links into account. For example, hyperlinks have been used to (1) enhance document representation, (2) improve document ranking by propagating document score, (3) provide an indicator of popularity, and (4) find hubs and authorities for a given topic. Although the TREC experiments have not demonstrated the usefulness of hyperlinks for retrieval, the hypertext structure is nevertheless an essential aspect of the Web, and as such, should not be ignored. The development of abstract models of the IR task was a key factor to the improvement of search engines. However, at this time conceptual tools for modeling the hypertext retrieval task are lacking, making it difficult to compare, improve, and reason an the existing techniques. This article proposes a general model for using hyperlinks based an Probabilistic Argumentation Systems, in which each of the above-mentioned techniques can be stated. This model will allow to discover some inconsistencies in the mentioned techniques, and to take a higher level and systematic approach for using hyperlinks for retrieval.
- Theme
- Hypertext