| Aktuelle Artikel und Nachrichten rund um die technische Dokumentation finden Sie im Nachfolgemagazin der doculine news, den transline tecNews
Linguistisch modelliertes Wissen für die
technische Dokumentation
Artikel erschienen in
Ausgabe Juni 2002
Von Ursula
Reuther
Inhaltsübersicht:
Neben layout- und formal-orientierten
Werkzeugen, wie z.B. Redaktions- und Informationssystemen, die
den technischen Autor bei der strukturierten Erfassung von Inhalten
unterstützen, erobern sich mit steigender Qualität auch
linguistisch basierte Werkzeuge einen Platz im Prozess der Dokumentationserstellung
und verwaltung. All diesen Tools gemeinsam ist in
unterschiedlichen Ausprägungen linguistisch modelliertes
Wissen, auf das durch entsprechende Verarbeitungsmechanismen zugegriffen
wird. In diesem Beitrag sollen sowohl linguistische Verarbeitungsmethoden
beschrieben als auch ihre Möglichkeiten für Praxisanwendungen
aufgezeigt werden.
Linguistische Analysemethoden
Eine linguistische Analyse natürlichsprachlicher Äußerungen
hat die Erklärung sprachlicher Einheiten zum Ziel und kann
auf vier verschiedenen Ebenen stattfinden:
- Bei der morphologischen Analyse werden Wörter in Morpheme
(als kleinste bedeutungstragende Einheiten einer Sprache) zerlegt
und auf ihre korrekte Bildung hin überprüft. Dabei
werden Regeln der Komposition (Wortzusammensetzung), der Flexion
(Wortbeugung) und der Derivation (Wortableitung) berücksichtigt.
- Bei der syntaktischen Analyse werden zusammengehörende
Gruppen von Satzelementen identifiziert. Mit Hilfe von sprachspezifischen
Regeln, die die Kombinierbarkeit dieser Satzelemente beschreiben,
kann überprüft werden, ob es sich um wohlgeformte
Sätze handelt.
- Bei der semantischen Analyse wird zum einen die Bedeutung
eines Wortes unabhängig von seinem Kontext untersucht,
zum anderen werden so genannte semantische Relationen zwischen
einzelnen Satzelementen betrachtet.
- Bei der pragmatischen Analyse wird untersucht, inwieweit
sprachliche Ausdrücke und ihre Verwendungssituation zusammenhängen
bzw. voneinander abhängen.
Zwischen den Ergebnissen dieser Analysen bestehen zudem wechselseitige
Zusammenhänge und somit Interaktionen, die ebenfalls zu berücksichtigen
sind.
Nicht alle dieser linguistischen Analysemethoden eignen sich
zur maschinellen Verarbeitung oder sind nur bis zu einem gewissen
Grade oder unter eingeschränkten Bedingungen in der maschinellen
Verarbeitung einsetzbar.
Eine der häufigsten Analyseebenen in der maschinellen Sprachverarbeitung
ist die auf Wortebene operierende morphologische Analyse. Je nach
Ausgereiftheit und Umfang ist sie für unterschiedliche Anwendungen
nutzbar, so z.B. für die Wortartenerkennung oder die Rechtschreibprüfung.
Bei der syntaktischen Analyse unterscheidet man in der maschinellen
Verarbeitung ein so genanntes flaches bzw. "Shallow Parsing"
von einem tiefen bzw. "Deep Parsing". Das Shallow Parsing,
bei dem keine (tiefen) Dependenzbeziehungen erzeugt werden, sondern
eine flache Struktur, in der syntaktische Gruppen aneinandergereiht
sind, gilt als effizient und robust und kommt deshalb in vielen
Anwendungen, die eine syntaktische Analyse erfordern, zum Einsatz.
Das Deep Parsing, das neben rein syntaktischen auch semantische
Informationen berücksichtigt, basiert auf einem weitaus komplexeren
Regelapparat und liefert somit genauere Ergebnisse; dies schlägt
sich allerdings auf die Verarbeitungszeit nieder.

Mögliche Anwendungsbereiche
Die oben genannten Analysemodule können in den meisten der
Hauptanwendungsbereiche maschineller Sprachverarbeitung sinnvoll
eingesetzt werden:
Textkontrolle:
Im Bereich der Textkontrolle spielt vor allem die morphologische
Analyse, aber auch je nach Anwendung die syntaktische
und semantische Analyse eine Rolle. So operieren Rechtschreibprüfprogramme
auf morphologischen Analyseergebnissen, Grammatikprüfprogramme
sowie Prüfprogramme für Kontrollierte Sprache zusätzlich
auf syntaktischen Analyseergebnissen, die manchmal auch mit etwas
semantischer Information angereichert sind.
Übersetzung:
In diesen Bereich fallen hauptsächlich Anwendungen wie Translation
Memories und Maschinelle Übersetzung (MÜ), aber auch
die Erstellung von bilingualen Glossaren und mehrsprachigen Terminologien.
Vor allem für MÜ-Systeme ist eine zuverlässige
syntaktische Analyse, gegebenenfalls mit semantischen Annotierungen,
unabdingbar.
Generierung:
Generierungskomponenten finden Anwendung sowohl in der MÜ
als auch in Frage-Antwort-Systemen, in denen aus abstrakten linguistischen
Repräsentationen korrekter, natürlichsprachlicher Text
generiert wird. Auch hier sind linguistische Komponenten, die
Semantik, Syntax und Morphologie regelhaft beschreiben, erforderlich.
Informationsmanagement:
Auch in diesem Bereich lassen sich mit linguistischen Methoden
weit bessere Ergebnisse erzielen als mit rein statistischen Methoden
oder mit Methoden, die rein string- bzw. sequenzbasiert arbeiten.
Für Anwendungen wie Information Retrieval, Indexierung und
Summarization werden sowohl morphologische als auch semantische
Analysen eingesetzt, um eine bessere Performanz zu erreichen.

Einsatz von Sprachtechnologie bei der Textevaluierung
in der technischen Dokumentation
Ein wesentlicher Aspekt der Textevaluierung ist die Qualitätssicherung:
Die Überprüfung von Korrektheit, Verständlichkeit
und Konsistenz bilden, zumeist human durch ein Lektorat oder eine
Schlussredaktion durchgeführt, den letzten Schritt des mehrstufigen
Prozesses der Dokumentationserstellung. Diese Qualitätssicherungsmaßnahme
kann mit entsprechenden linguistischen Werkzeugen und entsprechend
aufbereiteten Daten mit maschineller Unterstützung durchgeführt
werden:
Konsistenzprüfung:
So lässt sich etwa mit Hilfe einer linguistischen Analyse,
die auf Basis von Morphologie-Ergebnissen arbeitet, prüfen,
ob Begriffe konsistent verwendet werden. Schreib- und Ableitungsvarianten
von Wörtern, bei entsprechender Kodierung auch Synonyme von
Begriffen, können aufeinander abgebildet und somit als mögliche
inkonsistente Verwendungen erkannt werden.
Terminologieprüfung:
Ob im Bereich der Terminologie alle Terme in einer Dokumentation
korrekt verwendet werden, kann man ebenfalls maschinell prüfen,
sofern die autorisierte Terminologie in entsprechender Form, nämlich
linguistisch analysiert, für die maschinelle Verarbeitung
hinterlegt ist. Vorzugsterme, Negativterme, Synonyme sowie syntaktische
Varianten können auf ihre Korrektheit überprüft
werden.
Verständlichkeitsprüfung:
Sowohl allgemein gültige Verständlichkeitsregeln der
technischen Dokumentation als auch unternehmensspezifische Vorgaben
in Redaktionshandbüchern können als Grundlage für
eine Überprüfung auf Verständlichkeit dienen. Auch
diese Art der Überprüfung lässt sich mit sprachtechnologischer
Unterstützung durchführen. Hierfür werden die betreffenden
Verständlichkeitsregeln in Form von lexikalischen, syntaktischen
und semantischen Regeln linguistisch beschrieben und hinterlegt
und können dann gegen den ebenfalls linguistisch analysierten
Text abgeglichen werden, was im Falle von Verstößen
gegen die definierten Regeln dem Benutzer angezeigt wird.
Beim zweiten wichtigen Aspekt der Textevaluierung der
Informationsextraktion steht nicht die Qualitätsüberprüfung,
sondern die Gewinnung von Informationen im Vordergrund. Hierfür
einige Beispiele:
Termextraktion und -validierung:
Bei der Termextraktion werden zum Zweck der Erstellung einer Terminologie
aus firmeninternen Datenbeständen mögliche Termkandidaten
mittels linguistisch interpretierter Maßgaben extrahiert.
Auch die Validierung eines bereits existenten Terminologiebestandes
ist mittels linguistischer Analyseverfahren durchführbar,
um somit eine historisch gewachsene, aber oftmals inkonsistente
und überladene Terminologie zu überarbeiten. Mit den
gleichen linguistischen Verfahren können zudem neu hinzukommende
Terme widerspruchsfrei und konsistent eingepflegt werden.
Indexierung:
Für die Indexierung von großen Datenbeständen
können ebenfalls linguistische Methoden herangezogen werden.
So ist auf der Basis eines hinterlegten Thesaurus eine Termliste
generierbar, aus der wiederum mittels linguistischer Heuristiken
Vorschläge für Deskriptoren und Klassifikatoren gemacht
werden.
Translatability Index:
Die Erstellung eines Translatability Index für ein Dokument
zielt darauf ab, seine Übersetzbarkeit zu bewerten. Werden
in einem Dokument eine bestimmte Anzahl von Verstößen
gegen spezifische Regeln, die die maschinelle, aber auch die Humanübersetzung
negativ beeinflussen, mittels morphologischer und syntaktischer
Analysen gefunden, so sollte es nicht für die Übersetzung
freigegeben werden.
Erkennung stilistischer Vorgaben:
Eine gängige Praxis in der technischen Dokumentation ist
es, einen Corporate Style nicht explizit durch Regeln vorzugeben,
sondern anhand von bereits bestehenden Dokumenten zu definieren.
Dies verlangt dem technischen Autor einiges an sprachlichem Gespür
und Erfahrung ab. Auch hierfür können linguistische
Werkzeuge unterstützend eingesetzt werden. So können
die bereits vorhandenen Dokumente, die als stilistische Vorlage
dienen sollen, linguistisch analysiert und bestimmte sprachliche
Muster für bestimmte grammatische und stilistische Phänomene
extrahiert werden.

Fazit
Informationsextraktion, die sich linguistischer Methoden bedient,
rückt auch im Bereich der technischen Dokumentation angesichts
der immer größer werdenden Datenbestände, die
im Rahmen von Informationsmanagement intelligent und effizient
verwaltet werden wollen, immer mehr in den Vordergrund. Gemeinsam
mit dem Bereich der Qualitätssicherung und den daraus erwachsenden
Anforderungen bietet dieses Gebiet eine Vielfalt von Einsatzmöglichkeiten
für linguistische Werkzeuge, wobei das Potenzial möglicher
Sprachtechnologie-Anwendungen noch immer nicht ausgeschöpft
ist.
Leserbrief schreiben
|