Fachbücher

 
  Programm
Appetithappen
Bestellung

 

doculine Archiv

  Übersicht
Index
Autoren
Streifzüge

 
 

Service

 
  transline tecNews
Suche
Impressum
 

Aktuelle Artikel und Nachrichten rund um die technische Dokumentation finden Sie im Nachfolgemagazin der doculine news, den transline tecNews

Linguistisch modelliertes Wissen für die technische Dokumentation

 

Artikel erschienen in
Ausgabe Juni 2002

Von Ursula Reuther

Inhaltsübersicht:

Neben layout- und formal-orientierten Werkzeugen, wie z.B. Redaktions- und Informationssystemen, die den technischen Autor bei der strukturierten Erfassung von Inhalten unterstützen, erobern sich mit steigender Qualität auch linguistisch basierte Werkzeuge einen Platz im Prozess der Dokumentationserstellung und –verwaltung. All diesen Tools gemeinsam ist – in unterschiedlichen Ausprägungen – linguistisch modelliertes Wissen, auf das durch entsprechende Verarbeitungsmechanismen zugegriffen wird. In diesem Beitrag sollen sowohl linguistische Verarbeitungsmethoden beschrieben als auch ihre Möglichkeiten für Praxisanwendungen aufgezeigt werden.


Linguistische Analysemethoden

Eine linguistische Analyse natürlichsprachlicher Äußerungen hat die Erklärung sprachlicher Einheiten zum Ziel und kann auf vier verschiedenen Ebenen stattfinden:

  • Bei der morphologischen Analyse werden Wörter in Morpheme (als kleinste bedeutungstragende Einheiten einer Sprache) zerlegt und auf ihre korrekte Bildung hin überprüft. Dabei werden Regeln der Komposition (Wortzusammensetzung), der Flexion (Wortbeugung) und der Derivation (Wortableitung) berücksichtigt.
  • Bei der syntaktischen Analyse werden zusammengehörende Gruppen von Satzelementen identifiziert. Mit Hilfe von sprachspezifischen Regeln, die die Kombinierbarkeit dieser Satzelemente beschreiben, kann überprüft werden, ob es sich um wohlgeformte Sätze handelt.
  • Bei der semantischen Analyse wird zum einen die Bedeutung eines Wortes unabhängig von seinem Kontext untersucht, zum anderen werden so genannte semantische Relationen zwischen einzelnen Satzelementen betrachtet.
  • Bei der pragmatischen Analyse wird untersucht, inwieweit sprachliche Ausdrücke und ihre Verwendungssituation zusammenhängen bzw. voneinander abhängen.

Zwischen den Ergebnissen dieser Analysen bestehen zudem wechselseitige Zusammenhänge und somit Interaktionen, die ebenfalls zu berücksichtigen sind.

Nicht alle dieser linguistischen Analysemethoden eignen sich zur maschinellen Verarbeitung oder sind nur bis zu einem gewissen Grade oder unter eingeschränkten Bedingungen in der maschinellen Verarbeitung einsetzbar.

Eine der häufigsten Analyseebenen in der maschinellen Sprachverarbeitung ist die auf Wortebene operierende morphologische Analyse. Je nach Ausgereiftheit und Umfang ist sie für unterschiedliche Anwendungen nutzbar, so z.B. für die Wortartenerkennung oder die Rechtschreibprüfung.

Bei der syntaktischen Analyse unterscheidet man in der maschinellen Verarbeitung ein so genanntes flaches bzw. "Shallow Parsing" von einem tiefen bzw. "Deep Parsing". Das Shallow Parsing, bei dem keine (tiefen) Dependenzbeziehungen erzeugt werden, sondern eine flache Struktur, in der syntaktische Gruppen aneinandergereiht sind, gilt als effizient und robust und kommt deshalb in vielen Anwendungen, die eine syntaktische Analyse erfordern, zum Einsatz. Das Deep Parsing, das neben rein syntaktischen auch semantische Informationen berücksichtigt, basiert auf einem weitaus komplexeren Regelapparat und liefert somit genauere Ergebnisse; dies schlägt sich allerdings auf die Verarbeitungszeit nieder.


Mögliche Anwendungsbereiche

Die oben genannten Analysemodule können in den meisten der Hauptanwendungsbereiche maschineller Sprachverarbeitung sinnvoll eingesetzt werden:

Textkontrolle:
Im Bereich der Textkontrolle spielt vor allem die morphologische Analyse, aber auch – je nach Anwendung – die syntaktische und semantische Analyse eine Rolle. So operieren Rechtschreibprüfprogramme auf morphologischen Analyseergebnissen, Grammatikprüfprogramme sowie Prüfprogramme für Kontrollierte Sprache zusätzlich auf syntaktischen Analyseergebnissen, die manchmal auch mit etwas semantischer Information angereichert sind.

Übersetzung:
In diesen Bereich fallen hauptsächlich Anwendungen wie Translation Memories und Maschinelle Übersetzung (MÜ), aber auch die Erstellung von bilingualen Glossaren und mehrsprachigen Terminologien. Vor allem für MÜ-Systeme ist eine zuverlässige syntaktische Analyse, gegebenenfalls mit semantischen Annotierungen, unabdingbar.

Generierung:
Generierungskomponenten finden Anwendung sowohl in der MÜ als auch in Frage-Antwort-Systemen, in denen aus abstrakten linguistischen Repräsentationen korrekter, natürlichsprachlicher Text generiert wird. Auch hier sind linguistische Komponenten, die Semantik, Syntax und Morphologie regelhaft beschreiben, erforderlich.

Informationsmanagement:
Auch in diesem Bereich lassen sich mit linguistischen Methoden weit bessere Ergebnisse erzielen als mit rein statistischen Methoden oder mit Methoden, die rein string- bzw. sequenzbasiert arbeiten. Für Anwendungen wie Information Retrieval, Indexierung und Summarization werden sowohl morphologische als auch semantische Analysen eingesetzt, um eine bessere Performanz zu erreichen.


Einsatz von Sprachtechnologie bei der Textevaluierung in der technischen Dokumentation

Ein wesentlicher Aspekt der Textevaluierung ist die Qualitätssicherung: Die Überprüfung von Korrektheit, Verständlichkeit und Konsistenz bilden, zumeist human durch ein Lektorat oder eine Schlussredaktion durchgeführt, den letzten Schritt des mehrstufigen Prozesses der Dokumentationserstellung. Diese Qualitätssicherungsmaßnahme kann mit entsprechenden linguistischen Werkzeugen und entsprechend aufbereiteten Daten mit maschineller Unterstützung durchgeführt werden:

Konsistenzprüfung:
So lässt sich etwa mit Hilfe einer linguistischen Analyse, die auf Basis von Morphologie-Ergebnissen arbeitet, prüfen, ob Begriffe konsistent verwendet werden. Schreib- und Ableitungsvarianten von Wörtern, bei entsprechender Kodierung auch Synonyme von Begriffen, können aufeinander abgebildet und somit als mögliche inkonsistente Verwendungen erkannt werden.

Terminologieprüfung:
Ob im Bereich der Terminologie alle Terme in einer Dokumentation korrekt verwendet werden, kann man ebenfalls maschinell prüfen, sofern die autorisierte Terminologie in entsprechender Form, nämlich linguistisch analysiert, für die maschinelle Verarbeitung hinterlegt ist. Vorzugsterme, Negativterme, Synonyme sowie syntaktische Varianten können auf ihre Korrektheit überprüft werden.

Verständlichkeitsprüfung:
Sowohl allgemein gültige Verständlichkeitsregeln der technischen Dokumentation als auch unternehmensspezifische Vorgaben in Redaktionshandbüchern können als Grundlage für eine Überprüfung auf Verständlichkeit dienen. Auch diese Art der Überprüfung lässt sich mit sprachtechnologischer Unterstützung durchführen. Hierfür werden die betreffenden Verständlichkeitsregeln in Form von lexikalischen, syntaktischen und semantischen Regeln linguistisch beschrieben und hinterlegt und können dann gegen den ebenfalls linguistisch analysierten Text abgeglichen werden, was im Falle von Verstößen gegen die definierten Regeln dem Benutzer angezeigt wird.

Beim zweiten wichtigen Aspekt der Textevaluierung – der Informationsextraktion – steht nicht die Qualitätsüberprüfung, sondern die Gewinnung von Informationen im Vordergrund. Hierfür einige Beispiele:

Termextraktion und -validierung:
Bei der Termextraktion werden zum Zweck der Erstellung einer Terminologie aus firmeninternen Datenbeständen mögliche Termkandidaten mittels linguistisch interpretierter Maßgaben extrahiert. Auch die Validierung eines bereits existenten Terminologiebestandes ist mittels linguistischer Analyseverfahren durchführbar, um somit eine historisch gewachsene, aber oftmals inkonsistente und überladene Terminologie zu überarbeiten. Mit den gleichen linguistischen Verfahren können zudem neu hinzukommende Terme widerspruchsfrei und konsistent eingepflegt werden.

Indexierung:
Für die Indexierung von großen Datenbeständen können ebenfalls linguistische Methoden herangezogen werden. So ist auf der Basis eines hinterlegten Thesaurus eine Termliste generierbar, aus der wiederum mittels linguistischer Heuristiken Vorschläge für Deskriptoren und Klassifikatoren gemacht werden.

Translatability Index:
Die Erstellung eines Translatability Index für ein Dokument zielt darauf ab, seine Übersetzbarkeit zu bewerten. Werden in einem Dokument eine bestimmte Anzahl von Verstößen gegen spezifische Regeln, die die maschinelle, aber auch die Humanübersetzung negativ beeinflussen, mittels morphologischer und syntaktischer Analysen gefunden, so sollte es nicht für die Übersetzung freigegeben werden.

Erkennung stilistischer Vorgaben:
Eine gängige Praxis in der technischen Dokumentation ist es, einen Corporate Style nicht explizit durch Regeln vorzugeben, sondern anhand von bereits bestehenden Dokumenten zu definieren. Dies verlangt dem technischen Autor einiges an sprachlichem Gespür und Erfahrung ab. Auch hierfür können linguistische Werkzeuge unterstützend eingesetzt werden. So können die bereits vorhandenen Dokumente, die als stilistische Vorlage dienen sollen, linguistisch analysiert und bestimmte sprachliche Muster für bestimmte grammatische und stilistische Phänomene extrahiert werden.


Fazit

Informationsextraktion, die sich linguistischer Methoden bedient, rückt auch im Bereich der technischen Dokumentation angesichts der immer größer werdenden Datenbestände, die im Rahmen von Informationsmanagement intelligent und effizient verwaltet werden wollen, immer mehr in den Vordergrund. Gemeinsam mit dem Bereich der Qualitätssicherung und den daraus erwachsenden Anforderungen bietet dieses Gebiet eine Vielfalt von Einsatzmöglichkeiten für linguistische Werkzeuge, wobei das Potenzial möglicher Sprachtechnologie-Anwendungen noch immer nicht ausgeschöpft ist.


Leserbrief schreiben

  Doculine durchsuchen:   

  

Empfehlenswerte Seiten zur technischen Übersetzung
von transline - Übersetzungsdienst für technische Übersetzung
technische Übersetzungen | Übersetzung Software | Software Lokalisierung
Spez. Seiten zu Sprachen
Chinesisch Übersetzung | Englisch Übersetzung | Französisch Übersetzung | Niederländisch Übersetzung | Russisch Übersetzung | Spanisch Übersetzung | Portugiesisch Übersetzung | Italienisch Übersetzung | Japanisch Übersetzung
Infos zum Übersetzungsservice transline

Übersetzungen Ihrer Patente - Dr. Sturz Patentübersetzungen

Letzte Änderung: Monday, 31-Oct-2005 17:27:59 CET | Presse-Service | Disclaimer
© doculine Verlags-GmbH, ein Unternehmen der transline Gruppe