Fachbücher

 
  Programm
Appetithappen
Bestellung

 

doculine Archiv

  Übersicht
Index
Autoren
Streifzüge

 
 

Service

 
  transline tecNews
Suche
Impressum
 

Aktuelle Artikel und Nachrichten rund um die technische Dokumentation finden Sie im Nachfolgemagazin der doculine news, den transline tecNews

Information Retrieval:
Dokumente speichern, indizieren und wiederfinden

 

Artikel erschienen in
Ausgabe März 1999

Von Annelyse Forst

Inhaltsübersicht:

Der Wandel zur Informationsgesellschaft bringt ständig wachsende Datenmengen mit sich. Eine Vielzahl von Informationen steht in Datenbanken, Online-Dokumentationen, CD-ROMs etc. zur Nutzung bereit; die Kernfrage für den Benutzer besteht darin, die benötigten Informationen auch zu finden. Der Zugang zu gesuchten Dokumenten soll schnell, treffsicher und einfach möglich sein. Dies kann ein wohldurchdachtes Information-Retrieval-System leisten, das Dokumente speichert, indiziert und wiederfindet. Wie ist nun ein solches Information Retrieval aufgebaut und welchen Anforderungen muß es genügen?


Wissen ordnen

Damit ein Information-Retrieval-System schnell und exakt die gesuchten Informationen liefern kann, gilt es in erster Linie, das vorhandene Wissen (im modernen Deutsch der “Informationsraum“) nach bestimmten, festzulegenden Prinzipien zu ordnen. Diese Ordnungsprinzipien sollen u.a. dem Benutzer als Selektionsmerkmale für die Suchabfrage dienen.

Allgemeine Ordnungsprinzipien sind z.B. Universalklassifikationen wie die Dezimalklassifikation für Bibliotheken oder die Library of Congress Classification. Viele Teilwissensgebiete haben eigene Ordnungsprinzipien: das Periodische System in der Chemie, die Taxonomien in der Biologie oder die Internationale Patentklassifikation mit ca. 70.000 Sachgebieten.

Die interne Struktur der Daten wird in einer sogenannten Data Dictionary abgelegt, deren definierte Klassen sehr genau geplant und gepflegt sein müssen. Anschließend werden die Dokumente sowohl

  • formal als auch
  • inhaltlich erschlossen

Formale Erschließungsmöglichkeiten sind z.B. die numerische, alphabetische oder chronologische Ordnung. Darüber hinaus sind weitere Kategorien sinnvoll, etwa:

  • bibliographische Angaben (Autor, Titel etc.)
  • Art des Dokumentes (Buch, Artikel mit der weiteren Unterscheidung in Reportage, Interview etc.)
  • Hinweise auf Dokumente mit Zusatzbeiträgen (z.B. Zeitungsartikel mit der dazugehörigen Gegendarstellung) oder
  • Dateiformate

Ziel der inhaltlichen Erschließung ist es, den Inhalt eines Dokumentes so exakt wie möglich wiederzugeben. Dabei gilt es,

  • “ein Dokument in seiner Gesamtheit so zu charakterisieren, daß es unter anderen gesammelten Dokumenten wiedergefunden werden kann;
  • ein Dokument weitgehend inhaltlich zu analysieren, so daß auch die in ihm enthaltenen Teilinformationen wiedergefunden werden können;
  • bei den Dokumenten, die mehrere ausgewählte Themen behandeln, einen Kompromiß für ein umfassendes inhaltsbeschreibendes Thema zu finden“ [1]

Für diese Inhaltsanalyse werden spezielle Dokumentationssprachen benutzt. Die wichtigsten Hilfsmittel zur inhaltlichen Erschließung sind:

  • Indexieren und
  • Erstellen eines Thesaurus

Indexierung

Unter Indexieren versteht man die Zuordnung von geeigneten Stich- und Schlagwörtern als Deskriptoren, die die Inhalte eines Dokuments treffend charakterisieren, sowie die Gewichtung dieser Deskriptoren. Der Indexierungsprozeß erfolgt – je nach verwendeter Methode und Software – automatisch, halbautomatisch oder manuell.

Man unterscheidet die folgenden Indexierungsformen:

  • Stichwort-Indexierung:
    Alle vorkommenden Wörter mit Ausnahme der Wörter aus einer Stop-Liste (z.B. “und“, “oder“ etc.) werden ausgewählt.
  • freies Indexieren
    Es werden Schlag- und Stichwörter gewählt, die aus dem Text stammen können, aber nicht müssen; der Indexierer ist an keinen bestimmten Wortschatz gebunden.
  • Indexieren mit einem kontrollierten Wortschatz:
    Der Wortschatz ist hier verbindlich; das Indexieren erfolgt z.B. mit einem Thesaurus.
  • gleichgeordnete Indexierung:
    Die Deskriptoren werden verbunden, ohne daß jedoch die Position der Deskriptoren relevant ist. Wenn beispielsweise “deutsche Kunst“ und “österreichische Musik“ auf diese Weise indiziert werden, können die Fundstellen auch “österreichische Kunst“ und “deutsche Musik“ lauten.

Um die Qualität der Indexierung beurteilen zu können, sind folgende Gütekriterien maßgebend:

  • Indexierungsbreite:
    Wie groß ist der Grad der Erschließung bezogen auf den fachlichen Inhalt? (Konzentration auf wesentliche Sachverhalte versus Berücksichtigung von Nebenaspekten.)
  • Indexierungstiefe:
    Welche Unterbegriffe wurden berücksichtigt? Als Indikator gilt die Anzahl der Dokumente, die einen bestimmten Indexeintrag enthalten.
  • Indexierungskonsistenz:
    Wie stark ist die Übereinstimmung der Indexierungsergebnisse von verschiedenen Indexierern oder des gleichen Indexierers nach einem zeitlichen Abstand?
  • Indexierungsspezifität:
    Wie sieht die Beziehung zwischen Indexierungsbreite und -tiefe aus? [2]

Thesaurus

Ein Thesaurus ist eine alphabetisch und systematisch geordnete Sammlung von Begriffen eines bestimmten Fachbereichs und ihren semantischen Beziehungen (z.B. Synonymie).

Die Ziele und Aufgaben eines Thesaurus sind:

  • terminologische Abdeckung des Fachgebiets der Dokumente
  • terminologische Kontrolle (kontrollierter Wortschatz)
  • Hilfe bei der Informationssuche in großen Datenbeständen

Die verzeichneten Begriffe werden verschiedenen Facetten (Kategorien) zugeordnet und stehen in unterschiedlichen Relationen zueinander. Wer beispielsweise Informationen über eine Person sucht, gibt den Namen dieser Person ein; über die der Personen-Facette zugeordneten Begriffe (oder ihre Synonyme) läßt sich die Suche genauer spezifizieren.

Art der Relation Beziehung Erklärung

Äquivalenzrelation

benutze, siehe

Verweis auf die Vorzugsbenennung (Deskriptor)

 

siehe auch

unverbindlicher Hinweis auf ähnliche Deskriptoren

Hierarchierelation

Oberbegriff

übergeordneter Deskriptor

 

Unterbegriff

untergeordneter Deskriptor

Assoziationsrelation siehe dazu Verweis auf einen anderen, wichtig erscheinenden Deskriptor

Tab. 1: Beispiele für Thesaurus-Relationen (Nach: [3])

Facette

Synonyme/ähnliche Begriffe

Affäre

Anschuldigung, Ansehen, Prozeß

Auszeichnung

Ehrung, Orden, Medaille, Preis

Beruf

berufliche Veränderung, Branche

Portrait

Vita, Lebensdaten, Biographie, Lebenslauf

Werk

Rezension, Literatur, Sekundärliteratur, Veröffentlichung

Zitat

Äußerung, Interview, Rede, Gespräch, Befragung

Tab. 2: Beispiele für Personen-Facetten in einem Thesaurus (Nach: [3])

Die Entwicklung eines Thesaurus ist eine sehr komplexe Aufgabe. Folgende Arbeitsschritte sind notwendig:

  1. Auswertung der Wörter in den Dokumenten und Gewinnung der Deskriptoren
  2. Aufbereitung des ausgewählten Wortschatzes
  3. Bildung der Thesaurus-Facetten
  4. Zuordnung der Deskriptoren zu den Thesaurus-Facetten
  5. Erfassung mit einer Thesaurus-Software (z.B. Index, Proterm, Star oder Lidos)
  6. regelmäßige Überprüfung und Weiterentwicklung

Hinweise zum Erstellen und Weiterentwickeln von ein- und mehrsprachigen Thesauri gibt DIN 1463 [4].


Ablauf eines Information Retrievals

Ein Retrieval-System versucht, so schnell und ökonomisch wie möglich die Dokumente zu finden, die die vom Benutzer eingegebenen Suchbegriffe enthalten. Im folgenden seien die einzelnen Phasen kurz erläutert. Den Ablauf eines Information Retrievals zeigt Abbildung 1 im Überblick:

Abb. 1: Ablauf eines Information Retrievals

Die Suchabfrage

Bei der Suchabfrage formuliert der Benutzer seinen Informationswunsch in einer freien Sprache oder in einer mehr oder weniger künstlichen Sprache (z.B. in einer Retrieval-Sprache wie Dialog, Grips oder Messenger). Um seine Suchstrategie in passende Suchbegriffe umsetzen zu können, stehen ihm in einem Retrieval-System unterschiedliche Deskriptoren und Operatoren zur Verfügung.

Die folgenden Arten von Deskriptoren sind möglich:

  • uncodierte freie Deskriptoren:
    Beliebige Wörter, Ziffern oder alphanumerische Kombinationen können eingegeben werden.
  • präfixcodierte freie Deskriptoren:
    Die inhaltstragenden Wörter werden mit einem Präfix ergänzt, der das Gebiet der Suchbegriffe einschränkt. So finden Sie beispielsweise in Dialog mit “CS=MacDonald“ Informationen zum Unternehmen, mit “AU=MacDonald“ zum gleichnamigen Schriftsteller.
  • gebundene Deskriptoren:
    Das Verbinden mehrerer Begriffe ermöglicht es, bestimmte Eigenschaften zuzuordnen. Beispiel: Der Name “Goethe“ ist immer an den Begriff “Dichter“ gebunden.

Zudem kann der Benutzer die Suchbegriffe trunkieren und die ausgelassenen Wortteile durch Wildcards ersetzen (z.B. “Schmi*“ für Schmidt, Schmitt etc. oder “Gold*er“ für Goldfieber, Goldgräber etc.). Die erlaubte Syntax hängt von der Retrieval-Sprache ab.

Mit Hilfe von Operatoren läßt sich das Suchgebiet zusätzlich einschränken. Man unterscheidet zwischen:

  • numerischen und Booleschen Operatoren (z.B. < >, =, AND, OR, NOT, NOR) sowie
  • Abstandsoperatoren

Das Arbeiten mit Booleschen Operatoren erfordert etwas Erfahrung; die gewählte Verknüpfung muß gut überlegt sein, um zum gewünschten Ergebnis zu führen. So ziehen AND und NOT eine sehr strikte Dokumentenauswahl nach sich, während mit OR in der Regel zu viele Dokumente angezeigt werden. Die AND-Verknüpfung kann allerdings auch zu irrelevanten Ergebnissen führen: Mit der Suchabfrage “pekingANDoper“ kann ein Benutzer beispielsweise Informationen aus drei unterschiedlichen Bereichen erhalten: über die berühmte Pekinger Oper, über Opernhäuser in Peking und schließlich über das Vorkommen der Stadt Peking in allen möglichen Opern. Nachteilig ist auch, daß die Boolesche Suchlogik keine Gewichtung ermöglicht, jedoch lassen sich mit ihr sehr komplexe Suchanfragen formulieren.

Abstandsoperatoren arbeiten ähnlich wie die AND-Logik, geben aber zusätzlich den Abstand an, der zwischen den Suchbegriffen erlaubt ist (z.B. direkt daneben, ein Wort dazwischen). Bei der Suchabfrage “deutsche(N)Musik“ wird in Dialog beispielsweise festgelegt, daß beide Suchbegriffe nebeneinander stehen müssen, egal in welcher Reihenfolge; bei “Pop(W)Musik“ müssen beide Suchbegriffe ebenfalls nebeneinander stehen, der zweite Suchbegriff (Musik) muß jedoch hinter dem ersten (Pop) stehen.

Untersuchungen zufolge verwenden professionelle Informationsermittler durchschnittlich acht Begriffe, um eine Suchabfrage zu formulieren [5]; die gewählten Suchbegriffe stammen zu 30% aus Registern, zu 10% aus Thesauri und zu 60% aus dem eigenen Wissen [6].

Retrieval-Arten

Je nachdem, auf welche Weise das Retrieval System ein gesuchtes Dokument auffindet, unterscheidet man zwischen zwei Retrieval-Arten:

  1. Dokument-Retrieval:
    Das Retrieval-System findet das Dokument direkt (z.B. nach Auswählen des Dateinamens aus dem Verzeichnisbaum).
  2. Referenz-Retrieval:
    Das Retrieval-System vergleicht die Suchabfrage des Benutzers mit den Einträgen in den Indextabellen der Hilfsdateien. Dieser Abgleich kann deterministisch sein (exact match) oder mit Ähnlichkeitsmaßen erfolgen (partial match). Über den Indexeintrag, der auf das Dokument verweist, kann das Retrieval-System das eigentliche Dokument anzeigen.

Referenz-Retrievals können unterschiedlich realisiert sein:

  • Das Schlagwort-Retrieval benutzt für das Wiederauffinden von Informationen nur Begriffe aus dem kontrollierten Wortschatz in den Registern (z.B. aus einem Thesaurus).
  • Das Freitext-Retrieval benutzt jedes bedeutungstragende Wort für das Wiederauffinden von Informationen.

Hilfsdateien

Für den Abgleich der Referenzen kann ein Retrieval-System auf zwei Arten von Hilfsdateien zurückgreifen:

  1. benutzerspezifische Dateien
  2. invertierte Dateien

Benutzerspezifische Dateien speichern die vorausgegangenen Suchabfragen eines Benutzers. Der Benutzer kann sie jederzeit neu starten, in derselben oder auch in einer anderen Datenbank. Gespeicherte Suchstrategien lassen sich so individuell überarbeiten und modifizieren. Dazu verwenden Retrieval-Systeme die sogenannte Mapping-Technik: Der Feldinhalt einer Suchabfrage wird gespeichert und in anderen Datenbanken wiederverwendet. Darüber hinaus bieten viele Retrieval-Systeme die Möglichkeit, individuelle Suchprofile zu erstellen, in denen ausgehend von den Informationswünschen eines Benutzers dessen Suchabfragen gespeichert sind.

Invertierte Dateien speichern die Relationen zwischen den Deskriptoren und den Dokumenten, die diesen Deskriptoren zugeordnet sind. So erhalten die Benutzer Unterstützung in Form von Registern bei der Auswahl der Suchbegriffe, denn die Indextabellen sind in den invertierten Dateien gespeichert. Diese Register ermöglichen nicht nur schnelle, treffsichere Ergebnisse, sondern können auch als Informationsquelle für die Suchabfrage dienen.

Je nach Fachgebiet bzw. Anforderungen kann es sinnvoll sein, unterschiedliche Register für unterschiedliche Bereiche aufzubauen. Folgende Register-Arten kommen in Frage:

  • KWIC (Keyword in Context): Alphabetische Liste aller wichtigen Wörter einschließlich Kontext (vorherige und nachfolgende Wörter).
  • KWOC (Keyword out of Context): Alphabetische Liste aller markierten Wörter eines Dokuments ohne Hinweis, wo sie vorkommen. (Bei Allerweltsbegriffen ist die Liste entsprechend lang.)
  • KWAC (Keyword and Context): Solche Register enthalten in der Regel die vollständigen Titel (z.B. von Büchern, Aufsätzen) in permutierter Weise: Für “Ausbildungs- und Studiengänge im Bereich technische Dokumentation“ stünde etwa “Dokumentation, technische, Ausbildungs- und Studiengänge“.
  • Konkordanz: Alphabetische Liste aller Wörter eines Dokuments mit Hinweis, wo sie vorkommen.
  • Thesaurus


Anforderungen an ein Retrieval-System

Es können verschiedene Schwierigkeiten bei der Suchabfrage auftreten, für die ein gut aufgebautes Information-Retrieval-System entsprechende Hilfen bieten sollte.

Im sprachlichen Bereich können beispielsweise flektierte Formen (z.B. Plural) Probleme bereiten. Das Retrieval-System muß in der Lage sein, auch anhand eines flektiert eingegebenen Wortes die Grundform (z.B. Singular) als Suchbegriff im Index zu identifizieren.

Zudem sind semantische Wortbeziehungen zu berücksichtigen:

  • Der Benutzer sollte Suchbegriffe auch über deren Synonyme (z.B. Orange – Apfelsine – Pomeranze) bzw. Quasi-Synonyme (z.B. Pferd – Schimmel) auffinden können.
  • Unterschiedliche Bedeutungen eines Wortes (Homonymie; z.B. Pferd als Tier, Sportgerät oder Schachfigur) oder mehrere Bedeutungen eines Wortes (Polysemie; z.B. franz. “parents“ = Eltern oder Verwandte) müssen eindeutig zuzuordnen sein.

Nach vielen Informationen wird der Benutzer in seiner Muttersprache vergeblich suchen: Der Anteil an nicht-englischen Dokumenten variiert bei den verschiedenen Fachbereichen zwischen 2,2% (Geowissenschaften) und 13,3% (Chemie) [7], und im Web bieten 85% der 19,5 Mio. Hosts Informationen in englischer Sprache [8]. Für Benutzer, die die englische Sprache nicht so gut beherrschen, könnten mehrsprachige Thesauri eine Hilfe sein, die die Suchabfrage des Benutzers in die Sprache der Dokumente übertragen. Allerdings eignen sich laut einer Untersuchung viele mehrsprachige Thesauri nicht für die Suche in fremdsprachigen Dokumenten, weil die wenigsten die kompletten Begriffssätze (Deskriptoren, Relationen etc.) enthalten. Zudem ist die Mehrzahl der mehrsprachigen Thesauri kaum in der Lage, die Sprachschwierigkeiten bei einem Information Retrieval abzubauen [9].

Es wird zunehmend in multimedialen Dokumenten gesucht, wobei die Benutzer nicht immer wissen, was sie als Suchbegriffe eingeben sollen [10]. Schwierig ist es auch, diese Dokumente zu indexieren: Soll nur der Inhalt beispielsweise eines Bildes oder auch dessen Farben, Farbverteilung, Texturen etc. erfaßt werden? Für den Bildbereich gibt es inzwischen Software-Lösungen wie z.B. QBIC (Query By Image Contents) von IBM oder den Image-Miner (Universität Bremen/IBM). Bei Videos hilft das Programm VICAR (Video Indexing Classification, Annotation and Retrieval), und mit WebSEEK kann man sowohl Bilder als auch Videos im Internet indexieren [11].

Auch die Suche in einem Intranet erfordert eine passende Software-Lösung: Hier liegen bis zu 80% der Dokumente nicht im HTML-Format, sondern in anderen, unstrukturierten Formaten vor (z.B. Graphiken, Textverarbeitung) [12], weshalb die im Internet üblichen Suchmaschinen nur bedingt verwendet werden können. Die meisten Retrieval-Anbieter (z.B. PLS, Imagic, Verity oder Fulcrum) bieten daher inzwischen spezielle Lösungen für das Intranet.


Wie läßt sich die Qualität messen?

Damit ein Information-Retrieval-System den Anforderungen der Praxis genügen kann, ist es regelmäßig zu überprüfen und weiterzuentwickeln. Als Kenngrößen für die Qualität eines Retrievalsystems können die folgenden Quoten dienen [13; 14]:

  • Recall (Vollständigkeitsquote):
    Findet das Retrieval-System alle, viele oder nur wenige der relevanten Dokumente?
  • Precision (Genauigkeitsquote)
    Findet das Retrieval-System nur relevante Dokumente oder liefert es auch falsche Treffer? (Die Genauigkeitsquote steigt mit einer höheren Indexierungstiefe.)

Weitere wichtige Einflußfaktoren sind:

  • der für die Formulierung der Suchabfrage bzw. die Durchsicht der Recherche-Ergebnisse erforderliche Aufwand
  • die zwischen dem Eingeben der Suchabfrage und der Anzeige der Recherche-Ergebnisse verstrichene Zeit
  • die Art der Darstellung von Recherche-Ergebnissen
  • die inhaltliche Abdeckung der gesuchten Datenbanken für die Suchabfrage [15]

Das Hauptproblem bei der Berechnung dieser Kenngrößen liegt in der Definition von Relevanz: Die Relevanzvorstellung der Benutzer und die des Information-Retrieval-Systems stimmt häufig nicht überein. [14]


Literaturhinweise und Quellennachweise

[1] B. Meiss: Information Retrieval und Dokumentationsmanagement im Multimedia-Zeitalter. DGD-Schrift 1997.

[2] C. Ladewig: Grundlagen der inhaltlichen Erschließung. Schriftenreihe des Instituts für Information und Dokumentation der Fachhochschule Potsdam 1997.

[3] Verlagsgruppe Handelsblatt (Hrsg.): Datenbank-Handbuch – Professionell recherchieren in GENIOS-Wirtschaftsdatenbanken. Düsseldorf 1998.

[4] DIN 1463: Erstellung und Weiterentwicklung von Thesauri.
Teil 1: Einsprachige Thesauri. Nov. 1987.
Teil 2: Mehrsprachige Thesauri. De. 1988.

[5] R. Ferber: Vorhersage bei der Suchwortwahl von professionellen Rechercheuren in Literaturdatenbanken durch assoziative Wortnetze. In: H. Zimmermann/H.-D. Luckhardt (Hrsg.): Mensch und Maschine – Informationelle Schnittstellen der Kommunikation. Konstanz 1992, S. 208-218.

[6] A. Glöckner-Rist/W. Lemmler/M. Wetter: Akzeptanz und Suchstrategien bei der Endnutzersuche in CD-ROM-Literaturdatenbanken. In: W. Lemmler/H. Schmelling (Hrsg.): CD-ROM: Technische Grundlagen und Anwendungen in Katalogisierung, Erwerbung und Benutzung. Berlin 1988.

[7] B. Lutes: Online-Datenbank als Übersezungshilfe – Multilinguale Terminologiesuche in bibliographischen Datenbanken. In: Nachrichten für Dokumentation 1 (1998), S. 11-24.

[8] o. V.: Europäische Telematik – Anwendungen für die Informationsgesellschaft. In: Nachrichten für Dokumentation 2 (1998), S. 118-120.

[9] S. Langohr: Mehrsprachige Thesauri für das Information Retrieval. In: tekom (Hrsg.): Tagungsband der 3. Fachtagung für Online-Dokumentation in Böblingen. München 1992.

[10] S. Christodoulakis: Framework for the Development of an Experimental Mixed-Mode Message System. In: C.J. van Rijsbergen (Ed.): Proccedings of the third Joint BCS und ACM Symposium in Cambridge 2.-6.7.1994.

[11] M. Noack: Image Mining – Stand der Entwicklung auf dem Gebiet von Image-Retrieval-Systemen. In: Nachrichten für Dokumentation 2 (1998), S. 73-76.

[12] U. Kampfmeier/B. Merkel: Textretrieval im Internet. In: Nachrichten für Dokumentation 3 (1997), S. 170-171.

[13] G. Salton/M. MacGill: Information Retrieval – Grundlegendes für Informationswissenschaftler. Hamburg 1987.

[14] J. Panyr: Informationserschließung und -wiedergewinnung (Information-Retrieval-Systeme). In: Unterlagen zum Workshop bei der ISI’ 92 in Saarbrücken 4.-7.11.1992.

[15] E. Poetsch: Information Retrieval – Einführung in Grundlagen und Methoden. Berlin 1998.

  Doculine durchsuchen:   

  

Empfehlenswerte Seiten zur technischen Übersetzung
von transline - Übersetzungsdienst für technische Übersetzung
technische Übersetzungen | Übersetzung Software | Software Lokalisierung
Spez. Seiten zu Sprachen
Chinesisch Übersetzung | Englisch Übersetzung | Französisch Übersetzung | Niederländisch Übersetzung | Russisch Übersetzung | Spanisch Übersetzung | Portugiesisch Übersetzung | Italienisch Übersetzung | Japanisch Übersetzung
Infos zum Übersetzungsservice transline

Übersetzungen Ihrer Patente - Dr. Sturz Patentübersetzungen

Letzte Änderung: 31.10.2005 | Presse-Service | Disclaimer
© doculine Verlags-GmbH, ein Unternehmen der transline Gruppe