|
Aktuelle Artikel und Nachrichten rund um die technische Dokumentation finden Sie im Nachfolgemagazin der doculine news, den transline tecNews
Information
Retrieval:
Dokumente speichern, indizieren und wiederfinden
Artikel
erschienen in
Ausgabe März 1999
Von
Annelyse Forst
Inhaltsübersicht:
Der Wandel
zur Informationsgesellschaft bringt ständig wachsende Datenmengen
mit sich. Eine Vielzahl von Informationen steht in Datenbanken,
Online-Dokumentationen, CD-ROMs etc. zur Nutzung bereit; die Kernfrage
für den Benutzer besteht darin, die benötigten Informationen
auch zu finden. Der Zugang zu gesuchten Dokumenten soll schnell,
treffsicher und einfach möglich sein. Dies kann ein wohldurchdachtes
Information-Retrieval-System leisten, das Dokumente speichert,
indiziert und wiederfindet. Wie ist nun ein solches Information
Retrieval aufgebaut und welchen Anforderungen muß es genügen?
Wissen ordnen
Damit ein
Information-Retrieval-System schnell und exakt die gesuchten Informationen
liefern kann, gilt es in erster Linie, das vorhandene Wissen (im
modernen Deutsch der Informationsraum) nach bestimmten,
festzulegenden Prinzipien zu ordnen. Diese Ordnungsprinzipien
sollen u.a. dem Benutzer als Selektionsmerkmale für die Suchabfrage
dienen.
Allgemeine
Ordnungsprinzipien sind z.B. Universalklassifikationen wie die
Dezimalklassifikation für Bibliotheken oder die Library of
Congress Classification. Viele Teilwissensgebiete haben eigene
Ordnungsprinzipien: das Periodische System in der Chemie, die
Taxonomien in der Biologie oder die Internationale Patentklassifikation
mit ca. 70.000 Sachgebieten.
Die interne
Struktur der Daten wird in einer sogenannten Data Dictionary abgelegt,
deren definierte Klassen sehr genau geplant und gepflegt sein
müssen. Anschließend werden die Dokumente sowohl
- formal
als auch
- inhaltlich
erschlossen
Formale
Erschließungsmöglichkeiten sind z.B. die numerische,
alphabetische oder chronologische Ordnung. Darüber hinaus
sind weitere Kategorien sinnvoll, etwa:
- bibliographische
Angaben (Autor, Titel etc.)
- Art des
Dokumentes (Buch, Artikel mit der weiteren Unterscheidung in
Reportage, Interview etc.)
- Hinweise
auf Dokumente mit Zusatzbeiträgen (z.B. Zeitungsartikel
mit der dazugehörigen Gegendarstellung) oder
- Dateiformate
Ziel
der inhaltlichen Erschließung ist es, den Inhalt eines Dokumentes
so exakt wie möglich wiederzugeben. Dabei gilt es,
- ein
Dokument in seiner Gesamtheit so zu charakterisieren, daß
es unter anderen gesammelten Dokumenten wiedergefunden werden
kann;
- ein Dokument
weitgehend inhaltlich zu analysieren, so daß auch die
in ihm enthaltenen Teilinformationen wiedergefunden werden können;
- bei den
Dokumenten, die mehrere ausgewählte Themen behandeln, einen
Kompromiß für ein umfassendes inhaltsbeschreibendes
Thema zu finden [1]
Für
diese Inhaltsanalyse werden spezielle Dokumentationssprachen benutzt.
Die wichtigsten Hilfsmittel zur inhaltlichen Erschließung
sind:
- Indexieren
und
- Erstellen
eines Thesaurus
Indexierung
Unter
Indexieren versteht man die Zuordnung von geeigneten Stich- und
Schlagwörtern als Deskriptoren, die die Inhalte eines Dokuments
treffend charakterisieren, sowie die Gewichtung dieser Deskriptoren.
Der Indexierungsprozeß erfolgt je nach verwendeter
Methode und Software automatisch, halbautomatisch oder
manuell.
Man unterscheidet
die folgenden Indexierungsformen:
- Stichwort-Indexierung:
Alle vorkommenden Wörter mit Ausnahme der Wörter aus
einer Stop-Liste (z.B. und, oder etc.)
werden ausgewählt.
- freies
Indexieren
Es werden Schlag- und Stichwörter gewählt, die aus
dem Text stammen können, aber nicht müssen; der Indexierer
ist an keinen bestimmten Wortschatz gebunden.
- Indexieren
mit einem kontrollierten Wortschatz:
Der Wortschatz ist hier verbindlich; das Indexieren erfolgt
z.B. mit einem Thesaurus.
- gleichgeordnete
Indexierung:
Die Deskriptoren werden verbunden, ohne daß jedoch die
Position der Deskriptoren relevant ist. Wenn beispielsweise
deutsche Kunst und österreichische Musik
auf diese Weise indiziert werden, können die Fundstellen
auch österreichische Kunst und deutsche
Musik lauten.
Um
die Qualität der Indexierung beurteilen zu können, sind
folgende Gütekriterien maßgebend:
- Indexierungsbreite:
Wie groß ist der Grad der Erschließung bezogen auf
den fachlichen Inhalt? (Konzentration auf wesentliche Sachverhalte
versus Berücksichtigung von Nebenaspekten.)
- Indexierungstiefe:
Welche Unterbegriffe wurden berücksichtigt? Als Indikator
gilt die Anzahl der Dokumente, die einen bestimmten Indexeintrag
enthalten.
- Indexierungskonsistenz:
Wie stark ist die Übereinstimmung der Indexierungsergebnisse
von verschiedenen Indexierern oder des gleichen Indexierers
nach einem zeitlichen Abstand?
- Indexierungsspezifität:
Wie sieht die Beziehung zwischen Indexierungsbreite und -tiefe
aus? [2]
Thesaurus
Ein Thesaurus
ist eine alphabetisch und systematisch geordnete Sammlung von
Begriffen eines bestimmten Fachbereichs und ihren semantischen
Beziehungen (z.B. Synonymie).
Die Ziele
und Aufgaben eines Thesaurus sind:
- terminologische
Abdeckung des Fachgebiets der Dokumente
- terminologische
Kontrolle (kontrollierter Wortschatz)
- Hilfe
bei der Informationssuche in großen Datenbeständen
Die
verzeichneten Begriffe werden verschiedenen Facetten (Kategorien)
zugeordnet und stehen in unterschiedlichen Relationen zueinander.
Wer beispielsweise Informationen über eine Person sucht,
gibt den Namen dieser Person ein; über die der Personen-Facette
zugeordneten Begriffe (oder ihre Synonyme) läßt sich
die Suche genauer spezifizieren.
| Art
der Relation |
Beziehung |
Erklärung |
|
Äquivalenzrelation
|
benutze,
siehe
|
Verweis
auf die Vorzugsbenennung (Deskriptor)
|
| |
siehe
auch
|
unverbindlicher
Hinweis auf ähnliche Deskriptoren
|
|
Hierarchierelation
|
Oberbegriff
|
übergeordneter
Deskriptor
|
| |
Unterbegriff
|
untergeordneter
Deskriptor
|
| Assoziationsrelation |
siehe
dazu |
Verweis
auf einen anderen, wichtig erscheinenden Deskriptor |
|
Tab.
1: Beispiele für Thesaurus-Relationen (Nach: [3])
|
| Facette |
Synonyme/ähnliche
Begriffe
|
|
Affäre
|
Anschuldigung,
Ansehen, Prozeß
|
|
Auszeichnung
|
Ehrung,
Orden, Medaille, Preis
|
|
Beruf
|
berufliche
Veränderung, Branche
|
|
Portrait
|
Vita,
Lebensdaten, Biographie, Lebenslauf
|
|
Werk
|
Rezension,
Literatur, Sekundärliteratur, Veröffentlichung
|
|
Zitat
|
Äußerung,
Interview, Rede, Gespräch, Befragung
|
|
Tab.
2: Beispiele für Personen-Facetten in einem Thesaurus
(Nach: [3])
|
Die
Entwicklung eines Thesaurus ist eine sehr komplexe Aufgabe. Folgende
Arbeitsschritte sind notwendig:
- Auswertung
der Wörter in den Dokumenten und Gewinnung der Deskriptoren
- Aufbereitung
des ausgewählten Wortschatzes
- Bildung
der Thesaurus-Facetten
- Zuordnung
der Deskriptoren zu den Thesaurus-Facetten
- Erfassung
mit einer Thesaurus-Software (z.B. Index, Proterm, Star oder
Lidos)
- regelmäßige
Überprüfung und Weiterentwicklung
Hinweise
zum Erstellen und Weiterentwickeln von ein- und mehrsprachigen
Thesauri gibt DIN 1463 [4].
Ablauf eines
Information Retrievals
Ein
Retrieval-System versucht, so schnell und ökonomisch wie
möglich die Dokumente zu finden, die die vom Benutzer eingegebenen
Suchbegriffe enthalten. Im folgenden seien die einzelnen Phasen
kurz erläutert. Den Ablauf eines Information Retrievals zeigt
Abbildung 1 im Überblick:
 |
|
Abb.
1: Ablauf eines Information Retrievals
|
Die
Suchabfrage
Bei
der Suchabfrage formuliert der Benutzer seinen Informationswunsch
in einer freien Sprache oder in einer mehr oder weniger künstlichen
Sprache (z.B. in einer Retrieval-Sprache wie Dialog, Grips oder
Messenger). Um seine Suchstrategie in passende Suchbegriffe umsetzen
zu können, stehen ihm in einem Retrieval-System unterschiedliche
Deskriptoren und Operatoren zur Verfügung.
Die
folgenden Arten von Deskriptoren sind möglich:
- uncodierte
freie Deskriptoren:
Beliebige Wörter, Ziffern oder alphanumerische Kombinationen
können eingegeben werden.
- präfixcodierte
freie Deskriptoren:
Die inhaltstragenden Wörter werden mit einem Präfix
ergänzt, der das Gebiet der Suchbegriffe einschränkt.
So finden Sie beispielsweise in Dialog mit CS=MacDonald
Informationen zum Unternehmen, mit AU=MacDonald
zum gleichnamigen Schriftsteller.
- gebundene
Deskriptoren:
Das Verbinden mehrerer Begriffe ermöglicht es, bestimmte
Eigenschaften zuzuordnen. Beispiel: Der Name Goethe
ist immer an den Begriff Dichter gebunden.
Zudem
kann der Benutzer die Suchbegriffe trunkieren und die ausgelassenen
Wortteile durch Wildcards ersetzen (z.B. Schmi* für
Schmidt, Schmitt etc. oder Gold*er für Goldfieber,
Goldgräber etc.). Die erlaubte Syntax hängt von der
Retrieval-Sprache ab.
Mit Hilfe
von Operatoren läßt sich das Suchgebiet zusätzlich
einschränken. Man unterscheidet zwischen:
- numerischen
und Booleschen Operatoren (z.B. < >, =, AND, OR, NOT,
NOR) sowie
- Abstandsoperatoren
Das
Arbeiten mit Booleschen Operatoren erfordert etwas Erfahrung;
die gewählte Verknüpfung muß gut überlegt
sein, um zum gewünschten Ergebnis zu führen. So ziehen
AND und NOT eine sehr strikte Dokumentenauswahl nach sich, während
mit OR in der Regel zu viele Dokumente angezeigt werden. Die AND-Verknüpfung
kann allerdings auch zu irrelevanten Ergebnissen führen:
Mit der Suchabfrage pekingANDoper kann ein Benutzer
beispielsweise Informationen aus drei unterschiedlichen Bereichen
erhalten: über die berühmte Pekinger Oper, über
Opernhäuser in Peking und schließlich über das
Vorkommen der Stadt Peking in allen möglichen Opern. Nachteilig
ist auch, daß die Boolesche Suchlogik keine Gewichtung ermöglicht,
jedoch lassen sich mit ihr sehr komplexe Suchanfragen formulieren.
Abstandsoperatoren
arbeiten ähnlich wie die AND-Logik, geben aber zusätzlich
den Abstand an, der zwischen den Suchbegriffen erlaubt ist (z.B.
direkt daneben, ein Wort dazwischen). Bei der Suchabfrage deutsche(N)Musik
wird in Dialog beispielsweise festgelegt, daß beide Suchbegriffe
nebeneinander stehen müssen, egal in welcher Reihenfolge;
bei Pop(W)Musik müssen beide Suchbegriffe ebenfalls
nebeneinander stehen, der zweite Suchbegriff (Musik) muß
jedoch hinter dem ersten (Pop) stehen.
Untersuchungen
zufolge verwenden professionelle Informationsermittler durchschnittlich
acht Begriffe, um eine Suchabfrage zu formulieren [5];
die gewählten Suchbegriffe stammen zu 30% aus Registern,
zu 10% aus Thesauri und zu 60% aus dem eigenen Wissen [6].
Retrieval-Arten
Je
nachdem, auf welche Weise das Retrieval System ein gesuchtes Dokument
auffindet, unterscheidet man zwischen zwei Retrieval-Arten:
- Dokument-Retrieval:
Das Retrieval-System findet das Dokument direkt (z.B. nach Auswählen
des Dateinamens aus dem Verzeichnisbaum).
- Referenz-Retrieval:
Das Retrieval-System vergleicht die Suchabfrage des Benutzers
mit den Einträgen in den Indextabellen der Hilfsdateien.
Dieser Abgleich kann deterministisch sein (exact match)
oder mit Ähnlichkeitsmaßen erfolgen (partial match).
Über den Indexeintrag, der auf das Dokument verweist, kann
das Retrieval-System das eigentliche Dokument anzeigen.
Referenz-Retrievals
können unterschiedlich realisiert sein:
- Das Schlagwort-Retrieval
benutzt für das Wiederauffinden von Informationen nur Begriffe
aus dem kontrollierten Wortschatz in den Registern (z.B. aus
einem Thesaurus).
- Das Freitext-Retrieval
benutzt jedes bedeutungstragende Wort für das Wiederauffinden
von Informationen.
Hilfsdateien
Für
den Abgleich der Referenzen kann ein Retrieval-System auf zwei
Arten von Hilfsdateien zurückgreifen:
- benutzerspezifische
Dateien
-
invertierte
Dateien
Benutzerspezifische
Dateien speichern die vorausgegangenen Suchabfragen eines Benutzers.
Der Benutzer kann sie jederzeit neu starten, in derselben oder
auch in einer anderen Datenbank. Gespeicherte Suchstrategien lassen
sich so individuell überarbeiten und modifizieren. Dazu verwenden
Retrieval-Systeme die sogenannte Mapping-Technik: Der Feldinhalt
einer Suchabfrage wird gespeichert und in anderen Datenbanken
wiederverwendet. Darüber hinaus bieten viele Retrieval-Systeme
die Möglichkeit, individuelle Suchprofile zu erstellen, in
denen ausgehend von den Informationswünschen eines Benutzers
dessen Suchabfragen gespeichert sind.
Invertierte
Dateien speichern die Relationen zwischen den Deskriptoren und
den Dokumenten, die diesen Deskriptoren zugeordnet sind. So erhalten
die Benutzer Unterstützung in Form von Registern bei der
Auswahl der Suchbegriffe, denn die Indextabellen sind in den invertierten
Dateien gespeichert. Diese Register ermöglichen nicht nur
schnelle, treffsichere Ergebnisse, sondern können auch als
Informationsquelle für die Suchabfrage dienen.
Je
nach Fachgebiet bzw. Anforderungen kann es sinnvoll sein, unterschiedliche
Register für unterschiedliche Bereiche aufzubauen. Folgende
Register-Arten kommen in Frage:
- KWIC (Keyword
in Context): Alphabetische Liste aller wichtigen Wörter
einschließlich Kontext (vorherige und nachfolgende Wörter).
- KWOC (Keyword
out of Context): Alphabetische Liste aller markierten Wörter
eines Dokuments ohne Hinweis, wo sie vorkommen. (Bei Allerweltsbegriffen
ist die Liste entsprechend lang.)
- KWAC (Keyword
and Context): Solche Register enthalten in der Regel die vollständigen
Titel (z.B. von Büchern, Aufsätzen) in permutierter
Weise: Für Ausbildungs- und Studiengänge im
Bereich technische Dokumentation stünde etwa Dokumentation,
technische, Ausbildungs- und Studiengänge.
- Konkordanz:
Alphabetische Liste aller Wörter eines Dokuments mit Hinweis,
wo sie vorkommen.
- Thesaurus
Anforderungen an ein Retrieval-System
Es können
verschiedene Schwierigkeiten bei der Suchabfrage auftreten, für
die ein gut aufgebautes Information-Retrieval-System entsprechende
Hilfen bieten sollte.
Im
sprachlichen Bereich können beispielsweise flektierte Formen
(z.B. Plural) Probleme bereiten. Das Retrieval-System muß
in der Lage sein, auch anhand eines flektiert eingegebenen Wortes
die Grundform (z.B. Singular) als Suchbegriff im Index zu identifizieren.
Zudem sind
semantische Wortbeziehungen zu berücksichtigen:
- Der Benutzer
sollte Suchbegriffe auch über deren Synonyme (z.B. Orange
Apfelsine Pomeranze) bzw. Quasi-Synonyme (z.B.
Pferd Schimmel) auffinden können.
- Unterschiedliche
Bedeutungen eines Wortes (Homonymie; z.B. Pferd als Tier, Sportgerät
oder Schachfigur) oder mehrere Bedeutungen eines Wortes (Polysemie;
z.B. franz. parents = Eltern oder Verwandte) müssen
eindeutig zuzuordnen sein.
Nach
vielen Informationen wird der Benutzer in seiner Muttersprache
vergeblich suchen: Der Anteil an nicht-englischen Dokumenten variiert
bei den verschiedenen Fachbereichen zwischen 2,2% (Geowissenschaften)
und 13,3% (Chemie) [7], und im
Web bieten 85% der 19,5 Mio. Hosts Informationen in englischer
Sprache [8]. Für Benutzer,
die die englische Sprache nicht so gut beherrschen, könnten
mehrsprachige Thesauri eine Hilfe sein, die die Suchabfrage des
Benutzers in die Sprache der Dokumente übertragen. Allerdings
eignen sich laut einer Untersuchung viele mehrsprachige Thesauri
nicht für die Suche in fremdsprachigen Dokumenten, weil die
wenigsten die kompletten Begriffssätze (Deskriptoren, Relationen
etc.) enthalten. Zudem ist die Mehrzahl der mehrsprachigen Thesauri
kaum in der Lage, die Sprachschwierigkeiten bei einem Information
Retrieval abzubauen [9].
Es
wird zunehmend in multimedialen Dokumenten gesucht, wobei die
Benutzer nicht immer wissen, was sie als Suchbegriffe eingeben
sollen [10]. Schwierig ist es
auch, diese Dokumente zu indexieren: Soll nur der Inhalt beispielsweise
eines Bildes oder auch dessen Farben, Farbverteilung, Texturen
etc. erfaßt werden? Für den Bildbereich gibt es inzwischen
Software-Lösungen wie z.B. QBIC (Query By Image Contents)
von IBM oder den Image-Miner (Universität Bremen/IBM). Bei
Videos hilft das Programm VICAR (Video Indexing Classification,
Annotation and Retrieval), und mit WebSEEK kann man sowohl Bilder
als auch Videos im Internet indexieren [11].
Auch
die Suche in einem Intranet erfordert eine passende Software-Lösung:
Hier liegen bis zu 80% der Dokumente nicht im HTML-Format, sondern
in anderen, unstrukturierten Formaten vor (z.B. Graphiken, Textverarbeitung)
[12], weshalb die im Internet
üblichen Suchmaschinen nur bedingt verwendet werden können.
Die meisten Retrieval-Anbieter (z.B. PLS, Imagic, Verity oder
Fulcrum) bieten daher inzwischen spezielle Lösungen für
das Intranet.
Wie läßt sich die Qualität messen?
Damit
ein Information-Retrieval-System den Anforderungen der Praxis
genügen kann, ist es regelmäßig zu überprüfen
und weiterzuentwickeln. Als Kenngrößen für die
Qualität eines Retrievalsystems können die folgenden
Quoten dienen [13; 14]:
- Recall
(Vollständigkeitsquote):
Findet das Retrieval-System alle, viele oder nur wenige der
relevanten Dokumente?
- Precision
(Genauigkeitsquote)
Findet das Retrieval-System nur relevante Dokumente oder liefert
es auch falsche Treffer? (Die Genauigkeitsquote steigt mit einer
höheren Indexierungstiefe.)
Weitere
wichtige Einflußfaktoren sind:
- der für
die Formulierung der Suchabfrage bzw. die Durchsicht der Recherche-Ergebnisse
erforderliche Aufwand
- die zwischen
dem Eingeben der Suchabfrage und der Anzeige der Recherche-Ergebnisse
verstrichene Zeit
- die Art
der Darstellung von Recherche-Ergebnissen
- die inhaltliche
Abdeckung der gesuchten Datenbanken für die Suchabfrage
[15]
Das
Hauptproblem bei der Berechnung dieser Kenngrößen liegt
in der Definition von Relevanz: Die Relevanzvorstellung der Benutzer
und die des Information-Retrieval-Systems stimmt häufig nicht
überein. [14] 
Literaturhinweise
und Quellennachweise
[1]
B. Meiss: Information Retrieval und Dokumentationsmanagement im
Multimedia-Zeitalter. DGD-Schrift 1997.
[2]
C. Ladewig: Grundlagen der inhaltlichen Erschließung. Schriftenreihe
des Instituts für Information und Dokumentation der Fachhochschule
Potsdam 1997.
[3]
Verlagsgruppe Handelsblatt (Hrsg.): Datenbank-Handbuch
Professionell recherchieren in GENIOS-Wirtschaftsdatenbanken.
Düsseldorf 1998.
[4]
DIN 1463: Erstellung und Weiterentwicklung von Thesauri.
Teil 1: Einsprachige Thesauri. Nov. 1987.
Teil 2: Mehrsprachige Thesauri. De. 1988.
[5]
R. Ferber: Vorhersage bei der Suchwortwahl von professionellen
Rechercheuren in Literaturdatenbanken durch assoziative Wortnetze.
In: H. Zimmermann/H.-D. Luckhardt (Hrsg.): Mensch und Maschine
Informationelle Schnittstellen der Kommunikation. Konstanz
1992, S. 208-218.
[6]
A. Glöckner-Rist/W. Lemmler/M. Wetter: Akzeptanz und Suchstrategien
bei der Endnutzersuche in CD-ROM-Literaturdatenbanken. In: W.
Lemmler/H. Schmelling (Hrsg.): CD-ROM: Technische Grundlagen und
Anwendungen in Katalogisierung, Erwerbung und Benutzung. Berlin
1988.
[7]
B. Lutes: Online-Datenbank als Übersezungshilfe Multilinguale
Terminologiesuche in bibliographischen Datenbanken. In: Nachrichten
für Dokumentation 1 (1998), S. 11-24.
[8]
o. V.: Europäische Telematik Anwendungen für
die Informationsgesellschaft. In: Nachrichten für Dokumentation
2 (1998), S. 118-120.
[9]
S. Langohr: Mehrsprachige Thesauri für das Information Retrieval.
In: tekom (Hrsg.): Tagungsband der 3. Fachtagung für Online-Dokumentation
in Böblingen. München 1992.
[10]
S. Christodoulakis: Framework for the Development of an Experimental
Mixed-Mode Message System. In: C.J. van Rijsbergen (Ed.): Proccedings
of the third Joint BCS und ACM Symposium in Cambridge 2.-6.7.1994.
[11]
M. Noack: Image Mining Stand der Entwicklung auf dem Gebiet
von Image-Retrieval-Systemen. In: Nachrichten für Dokumentation
2 (1998), S. 73-76.
[12]
U. Kampfmeier/B. Merkel: Textretrieval im Internet. In: Nachrichten
für Dokumentation 3 (1997), S. 170-171.
[13]
G. Salton/M. MacGill: Information Retrieval Grundlegendes
für Informationswissenschaftler. Hamburg 1987.
[14]
J. Panyr: Informationserschließung und -wiedergewinnung
(Information-Retrieval-Systeme). In: Unterlagen zum Workshop bei
der ISI 92 in Saarbrücken 4.-7.11.1992.
[15]
E. Poetsch: Information Retrieval Einführung in Grundlagen
und Methoden. Berlin 1998.
|