Fachbücher

 
  Programm
Appetithappen
Bestellung

 

doculine Archiv

  Übersicht
Index
Autoren
Streifzüge

 
 

Service

 
  transline tecNews
Suche
Impressum
 

Aktuelle Artikel und Nachrichten rund um die technische Dokumentation finden Sie im Nachfolgemagazin der doculine news, den transline tecNews

Warum Data von Star Trek Bayesianer sein wird

 

Artikel erschienen in
Ausgabe Mai 2001

Von Ulrike Philipp

Inhaltsübersicht:

Die Infrastrukturtechnologie von Autonomy ermöglicht es Computern, die Kernaussagen von Texten zu erfassen und damit Information zu personalisieren – wer wüsste das nicht? Aber wer kennt auch die komplexen mathematischen Prozesse, die hinter den Methoden von Autonomy stehen?


Auf Erfolg programmiert

Mike Lynch, der Gründer von Autonomy, ist einer der wenigen Mathematiker, die ihre Doktorarbeit vergoldet haben. Die Idee für die Autonomy-Software gebar Mike Lynch an der renommierten englischen Universität Cambridge in seiner Dissertation über "nicht-lineare adaptive Signalverarbeitung". Zusammen mit seinem Freund, dem Computerspezialisten Richard Gaunt, entwickelte er ein mathematisches Verfahren zur Mustererkennung, mit dem sich Fingerabdrücke, Gesichter, Handschriften oder Autokennzeichen automatisch identifizieren ließen.

Dank der Spende von 2000 Pfund eines wohl leicht exzentrischen Musikproduzenten, den Lynch bei einem feucht-fröhlichen Abend von seiner Geschäftsidee überzeugen konnte, legten er und Gaunt vor neun Jahren den Grundstein für die Firma Neurodynamics. Diese arbeitet hauptsächlich für Verteidigungs- und Geheimdienstkreise.

Als das Internet immer mehr Verbreitung fand, gründete Lynch 1996 aus Neurodynamics heraus Autonomy, um auch neue Geschäftsfelder wie Wissensmanagement, New Media Publishing und E-Commerce zu erschließen. Aus dem Spin-off ist innerhalb von vier Jahren ein erfolgreiches Unternehmen geworden, das im EASDAQ- und NASDAQ-Index und an der Londoner Börse gelistet ist.


Der geheime Garten des Reverend Thomas Bayes

Die Technologie von Autonomy ruht im Wesentlichen auf zwei Säulen: den mathematischen Arbeiten des englischen Geistlichen und Philosophen Thomas Bayes (1702-1761) und Claude Shannons Prinzipien der Informationstheorie von 1949.

Der Reverend aus dem englischen Cambridge war ein vielseitiger Mensch: Er war Geistlicher und Philosoph, beschäftigte sich mit Gottesbeweisen und der Newtonschen Physik. Berühmt aber wurde er durch eine Schrift mit dem Titel: "An Essay Towards Solving a Problem in the Doctrine of Chances." Darin entwickelte er ein Modell, das die Beziehung multipler Variablen zueinander berechnet und mit dem er hoffte, todsicher beim Poker gewinnen zu können. Heute gehört es zu den Grundlagen der mathematischen Statistik und besagt, dass bestimmte Ereignisse in aller Regel auf genau definierbare Ursachen zurückzuführen sind.

Dr. Michael Lynch gehört zu einer kleinen Gruppe von Wissenschaftlern weltweit, die die komplexen Arbeiten von Bayes verstehen. Er erkannte ihre Eignung für die Analyse unstrukturierter Daten und entwickelte daraus die Grundlage für eine neuartige Form der gezielten Beschaffung von Informationen.

Mike Lynch wird poetisch, wenn er das Bayessche Theorem und seine Tragweite beschreibt: "Bayes gab uns den Schlüssel zu einem geheimen Garten. Viele haben das Tor geöffnet, einen Blick auf die Rosenbeete am Eingang geworfen, 'Ach, wie schön!' ausgerufen und das Tor wieder geschlossen. Sie haben nicht gesehen, dass hinter diesen Rosen ein großes neues Land liegt. Mit den heutigen Hochleistungsrechnern können wir dieses Land erkunden."

Welchen Nutzen die Formel 250 Jahre später im Computerzeitalter bringt, wird anhand eines Beispiels deutlich: Wenn in einem Satz die Wörter "Tiger Woods", "British Open", "American Masters", "Schläger" und "Handicap" vorkommen, dann ist nach Bayes die Wahrscheinlichkeit groß, dass irgendwann auch der Begriff "Golf" vorkommt. Die Dynamic Reasoning Engine, sozusagen das Bayessche Herz aller Autonomy-Produkte, erkennt solche Muster in Texten. Ein Text wird dabei als bloße Ansammlung von einzelnen Wörtern betrachtet – alle linguistischen Parameter bleiben außen vor. Das Programm analysiert die statistischen Beziehungen zwischen den Wörtern und versetzt Computer in die Lage, den Sinn von Texten zu erfassen. Tauchen Namen von Turnieren, Weltranglisten-Spielern und Ausstattern auf, so handelt es sich fast sicher um einen Beitrag über Golf.


Beabsichtigte Nachlässigkeit

Die Informationstheorie von Claude Shannon ist die mathematische Grundlage sämtlicher digitaler Kommunikationssysteme. Sie besagt, dass der Wert von Informationen innerhalb der Kommunikation quantifizierbar ist. Je seltener ein Begriff innerhalb eines Textes vorkommt, desto größer ist sein Informationsgehalt. Manchmal bilden auch nicht explizit genannte Wörter die Kernaussage. Oft auftauchende Begriffe dagegen, etwa Verben wie "schießen" und "siegen" oder Adjektive wie "schnell", "grün" oder "phantastisch" werden ignoriert, sonst könnten auch Beiträge über Fußball dem Golfsport zugeordnet werden. Nach Shannon darf also absichtlich nachlässig mit diesen Begriffen umgegangen werden. Die hohe Redundanz natürlicher Sprache erlaubt es, den Sinn eines Textes auch dann zu verstehen, wenn nur einzelne Teile aufgenommen werden. Genauso kann man einer Unterhaltung trotz Hintergrundgeräuschen folgen, auch wenn einige Wörter unverständlich sind oder man kann beim Überfliegen eines Zeitungsartikels die wichtigsten Informationen aufnehmen.

Ideen, die im Kontext einer Kommunikation selten vorkommen, also ungewöhnlich sind, tragen hingegen mehr Bedeutung. Unter Berücksichtigung dieses Kontextes hat z.B. der Satz "Auf der breiten Straße stehen viele Autos" in Indien eine größere Relevanz als in Deutschland. Das Umgekehrte gilt für den Satz "Auf der breiten Straße stehen viele Kühe". Auf der Grundlage dieser Theorie ermittelt die Software von Autonomy die wichtigsten Inhalte eines Dokuments.

Die Autonomy-Technologie verwendet Konzept-Agenten, die anhand komplexer Algorithmen die Kernaussagen von Texten identifizieren. Sie basieren auf der Analyse des Vorkommens bestimmter Begriffe sowie ihrer Beziehungen zueinander innerhalb eines Kontexts und sind dadurch in der Lage, sinnverwandte Inhalte in anderen Texten zu finden. Da sich das Verfahren nicht auf spezifische linguistische und semantische Strukturen stützt, funktioniert es in jeder Sprache.

Die Dynamic Reasoning Engine erstellt die Konzept-Agenten anhand der Analyse eines Textstücks. Für das Training reicht ein Satz, eine Frage oder eine Reihe von Dokumenten. Der Agent analysiert die Vorlage und extrahiert daraus ein Muster der wichtigsten Begriffe – das Konzept. Anhand der Suchergebnisse, die der Agent liefert, lässt sich das Konzept verfeinern und die Suchgenauigkeit verbessern. Anders ausgedrückt: Die Software ist lernfähig.


Grenzen anderer Ansätze

Stichwort-Suche

Jeder Leser, der schon einmal eine Suchabfrage in einer Suchmaschine gestartet hat, weiß, wie frustrierend das sein kann. Denn die herkömmlichen Suchmaschinen führen meist zu einem Informationsüberfluss. Obwohl sie Dokumente identifizieren können, in denen bestimmte Suchbegriffe vorkommen, sind sie nicht in der Lage, die Relevanz des Dokuments zum recherchierten Thema zu bewerten. Sie suchen ganz einfach nach den Stichwörtern, können aber nicht beurteilen, ob diese auch wirklich mit dem Thema des Dokuments in direktem Zusammenhang stehen.

Routinierte Benutzer erzielen bessere Ergebnisse, wenn sie komplexe Abfragen mit Booleschen Operatoren durchführen, etwa AND, NOT, OR.

Solche Stichwort-Systeme sind ebenfalls überfordert mit dem Suchen anhand von Beispieltexten. Ein solcher Hinweis führt lediglich zu einer Erweiterung der Stichwortliste, nicht aber zu einem besseren Verständnis der eigentlichen Suchanfrage. In der Folge werden mehr und nicht weniger Dokumente angezeigt.


Kollaboratives Filtern

Bei dieser Technik werden persönliche Informationen aus dem Vergleich von themenspezifischen Fragebögen oder dem bisherigen Kaufverhalten zusammengestellt. Die Benutzer werden gebeten, Angaben über ihre persönlichen Vorlieben zu machen. Anhand dieser Vorlieben spricht das System Empfehlungen aus. Wenn Nutzer A Elvis, Buddy Holly und Little Richard und Nutzer B Elvis, Jerry Lee Lewis und Little Richard zu seinen Lieblingsmusikern zählt, so vergleicht der Computer die Ergebnisse und stellt fest, dass A und B Ähnlichkeit aufweisen und ihre Lieblingsmusiker austauschbar sind: A erhält den Vorschlag, Jerry Lee Lewis auszuprobieren und B wird auf Buddy Holly verwiesen.

Nun sind einerseits die Geschmäcker verschieden und dadurch kompliziert. Zum anderen funktioniert die kollaborative Filtertechnik nur mit einem beschränkten Satz von Artikeln (z.B. Bücher und Musik). Darüber hinaus stehen bei der Einführung eines Online-Dienstes, der mit dieser Technik arbeitet, zu Beginn keine Informationen in Form von Fragebögen zur Verfügung, was als "Tag 1 Problem" bezeichnet wird. Schwierig ist es auch, dem geschlossenen Datensatz neu hinzukommende Informationen, z.B. einen Newcomer in den Charts wie die Spice Girls, einzuverleiben.


Parsen natürlicher Sprache

Bei der auch als semantische oder lexikalische Analyse bekannten Methode kommt man anhand von grammatikalischen Regeln und Wortlisten zum Verständnis unstrukturierter Texte. Das Problem hierbei ist die Mehrdeutigkeit natürlicher Sprache. Beispielsweise ist im folgenden Satz unklar, ob der Hund oder der Diwan weiß waren: "Der Hund setzte sich auf den Diwan; er war weiß". Dem Computer fehlt das Allgemeinwissen und der gesunde Menschenverstand, um die Sätze richtig einzuordnen. Für ihn sind selbst folgende Sätze zweideutig: "Der Hund setzte sich auf den Diwan; er fing an zu bellen" oder "Der Hund setzte sich auf den Diwan; er war voller Kissen".

Erschwerend kommt hinzu, dass das Parsen sprachspezifisch ist, weder Umgangssprache noch inkorrekten Sprachgebrauch zulässt. Die Mustererkennungstechnologie hingegen verwendet berechenbare, statistische Wortmuster, um Kernaussagen zu extrahieren, und ist deshalb sprachunabhängig.


Der Einsatz von menschlicher Intelligenz

Bis heute sind unzählige Arbeitskräfte damit beschäftigt, Texte durchzulesen, sie zu kategorisieren, die Kernaussagen und Stichwörter herauszufinden und dem Kunden ein auf ihn zugeschnittenes Angebot an Produkten, Nachrichten usw. zur Verfügung zu stellen. Dokumentationsstellen, Bibliotheken, Online-Shops und Redaktionen können allerdings schlecht auf die täglich wachsende Menge an unstrukturierten Daten reagieren. Sie müssten doppelt so viele Mitarbeiter einstellen.


Data von Star Trek wird Bayesianer sein

Der Reverend aus Cambridge hat seine letzte Ruhe in den Bunhill Fields gefunden, dem ältesten Friedhof im Londoner Osten. Als Bayes starb, entdeckte sein Kollege Richard Price in seinem Nachlass eben jenes Traktat mit der heute als Bayesschem Theorem bekannten Formel und veröffentlichte es posthum. Es diente ihm dazu, das erste Modell für eine aktuarische Lebensversicherung aufzustellen. Im Gegensatz zu ihm hat Mike Lynch das ganze Potenzial von Bayes erkannt, auch wenn es noch nicht ganz ausgeschöpft ist. Da man mit Bayes in beliebigen Datenmengen Muster finden kann, wird sich Autonomy nach den Wörtern bald auch Tönen und Bildern zuwenden.

Und wenn uns in naher Zukunft smarte Avartare bei der Arbeit behilflich sein werden, so ist dies dem Vermächtnis von Bayes zu verdanken: Data von Star Trek wird Bayesianer sein.

Leserbrief schreiben

  Doculine durchsuchen:   

  

Empfehlenswerte Seiten zur technischen Übersetzung
von transline - Übersetzungsdienst für technische Übersetzung
technische Übersetzungen | Übersetzung Software | Software Lokalisierung
Spez. Seiten zu Sprachen
Chinesisch Übersetzung | Englisch Übersetzung | Französisch Übersetzung | Niederländisch Übersetzung | Russisch Übersetzung | Spanisch Übersetzung | Portugiesisch Übersetzung | Italienisch Übersetzung | Japanisch Übersetzung
Infos zum Übersetzungsservice transline

Übersetzungen Ihrer Patente - Dr. Sturz Patentübersetzungen

Letzte Änderung: 31.10.2005 | Presse-Service | Disclaimer
© doculine Verlags-GmbH, ein Unternehmen der transline Gruppe