|
Aktuelle Artikel und Nachrichten rund um die technische Dokumentation finden Sie im Nachfolgemagazin der doculine news, den transline tecNews Warum
Data von Star Trek Bayesianer sein wird
Artikel
erschienen in
Ausgabe Mai 2001
Von
Ulrike
Philipp
Inhaltsübersicht:
Die
Infrastrukturtechnologie von Autonomy ermöglicht es Computern,
die Kernaussagen von Texten zu erfassen und damit Information
zu personalisieren wer wüsste das nicht? Aber wer
kennt auch die komplexen mathematischen Prozesse, die hinter den
Methoden von Autonomy stehen?
Auf Erfolg programmiert
Mike
Lynch, der Gründer von Autonomy, ist einer der wenigen Mathematiker,
die ihre Doktorarbeit vergoldet haben. Die Idee für die Autonomy-Software
gebar Mike Lynch an der renommierten englischen Universität
Cambridge in seiner Dissertation über "nicht-lineare
adaptive Signalverarbeitung". Zusammen mit seinem Freund,
dem Computerspezialisten Richard Gaunt, entwickelte er ein mathematisches
Verfahren zur Mustererkennung, mit dem sich Fingerabdrücke,
Gesichter, Handschriften oder Autokennzeichen automatisch identifizieren
ließen.
Dank
der Spende von 2000 Pfund eines wohl leicht exzentrischen Musikproduzenten,
den Lynch bei einem feucht-fröhlichen Abend von seiner Geschäftsidee
überzeugen konnte, legten er und Gaunt vor neun Jahren den
Grundstein für die Firma Neurodynamics. Diese arbeitet hauptsächlich
für Verteidigungs- und Geheimdienstkreise.
Als
das Internet immer mehr Verbreitung fand, gründete Lynch
1996 aus Neurodynamics heraus Autonomy, um auch neue Geschäftsfelder
wie Wissensmanagement, New Media Publishing und E-Commerce zu
erschließen. Aus dem Spin-off ist innerhalb von vier Jahren
ein erfolgreiches Unternehmen geworden, das im EASDAQ- und NASDAQ-Index
und an der Londoner Börse gelistet ist.

Der geheime Garten des Reverend Thomas Bayes
Die
Technologie von Autonomy ruht im Wesentlichen auf zwei Säulen:
den mathematischen Arbeiten des englischen Geistlichen und Philosophen
Thomas Bayes (1702-1761) und Claude Shannons Prinzipien der Informationstheorie
von 1949.
Der
Reverend aus dem englischen Cambridge war ein vielseitiger Mensch:
Er war Geistlicher und Philosoph, beschäftigte sich mit Gottesbeweisen
und der Newtonschen Physik. Berühmt aber wurde er durch eine
Schrift mit dem Titel: "An Essay Towards Solving a Problem
in the Doctrine of Chances." Darin entwickelte er ein Modell,
das die Beziehung multipler Variablen zueinander berechnet und
mit dem er hoffte, todsicher beim Poker gewinnen zu können.
Heute gehört es zu den Grundlagen der mathematischen Statistik
und besagt, dass bestimmte Ereignisse in aller Regel auf genau
definierbare Ursachen zurückzuführen sind.
Dr.
Michael Lynch gehört zu einer kleinen Gruppe von Wissenschaftlern
weltweit, die die komplexen Arbeiten von Bayes verstehen. Er erkannte
ihre Eignung für die Analyse unstrukturierter Daten und entwickelte
daraus die Grundlage für eine neuartige Form der gezielten
Beschaffung von Informationen.
Mike
Lynch wird poetisch, wenn er das Bayessche Theorem und seine Tragweite
beschreibt: "Bayes gab uns den Schlüssel zu einem geheimen
Garten. Viele haben das Tor geöffnet, einen Blick auf die
Rosenbeete am Eingang geworfen, 'Ach, wie schön!' ausgerufen
und das Tor wieder geschlossen. Sie haben nicht gesehen, dass
hinter diesen Rosen ein großes neues Land liegt. Mit den
heutigen Hochleistungsrechnern können wir dieses Land erkunden."
Welchen
Nutzen die Formel 250 Jahre später im Computerzeitalter bringt,
wird anhand eines Beispiels deutlich: Wenn in einem Satz die Wörter
"Tiger Woods", "British Open", "American
Masters", "Schläger" und "Handicap"
vorkommen, dann ist nach Bayes die Wahrscheinlichkeit groß,
dass irgendwann auch der Begriff "Golf" vorkommt. Die
Dynamic Reasoning Engine, sozusagen das Bayessche Herz aller Autonomy-Produkte,
erkennt solche Muster in Texten. Ein Text wird dabei als bloße
Ansammlung von einzelnen Wörtern betrachtet alle linguistischen
Parameter bleiben außen vor. Das Programm analysiert die
statistischen Beziehungen zwischen den Wörtern und versetzt
Computer in die Lage, den Sinn von Texten zu erfassen. Tauchen
Namen von Turnieren, Weltranglisten-Spielern und Ausstattern auf,
so handelt es sich fast sicher um einen Beitrag über Golf.

Beabsichtigte Nachlässigkeit
Die
Informationstheorie von Claude Shannon ist die mathematische Grundlage
sämtlicher digitaler Kommunikationssysteme. Sie besagt, dass
der Wert von Informationen innerhalb der Kommunikation quantifizierbar
ist. Je seltener ein Begriff innerhalb eines Textes vorkommt,
desto größer ist sein Informationsgehalt. Manchmal
bilden auch nicht explizit genannte Wörter die Kernaussage.
Oft auftauchende Begriffe dagegen, etwa Verben wie "schießen"
und "siegen" oder Adjektive wie "schnell",
"grün" oder "phantastisch" werden ignoriert,
sonst könnten auch Beiträge über Fußball
dem Golfsport zugeordnet werden. Nach Shannon darf also absichtlich
nachlässig mit diesen Begriffen umgegangen werden. Die hohe
Redundanz natürlicher Sprache erlaubt es, den Sinn eines
Textes auch dann zu verstehen, wenn nur einzelne Teile aufgenommen
werden. Genauso kann man einer Unterhaltung trotz Hintergrundgeräuschen
folgen, auch wenn einige Wörter unverständlich sind
oder man kann beim Überfliegen eines Zeitungsartikels die
wichtigsten Informationen aufnehmen.
Ideen,
die im Kontext einer Kommunikation selten vorkommen, also ungewöhnlich
sind, tragen hingegen mehr Bedeutung. Unter Berücksichtigung
dieses Kontextes hat z.B. der Satz "Auf der breiten Straße
stehen viele Autos" in Indien eine größere Relevanz
als in Deutschland. Das Umgekehrte gilt für den Satz "Auf
der breiten Straße stehen viele Kühe". Auf der
Grundlage dieser Theorie ermittelt die Software von Autonomy die
wichtigsten Inhalte eines Dokuments.
Die
Autonomy-Technologie verwendet Konzept-Agenten, die anhand komplexer
Algorithmen die Kernaussagen von Texten identifizieren. Sie basieren
auf der Analyse des Vorkommens bestimmter Begriffe sowie ihrer
Beziehungen zueinander innerhalb eines Kontexts und sind dadurch
in der Lage, sinnverwandte Inhalte in anderen Texten zu finden.
Da sich das Verfahren nicht auf spezifische linguistische und
semantische Strukturen stützt, funktioniert es in jeder Sprache.
Die
Dynamic Reasoning Engine erstellt die Konzept-Agenten anhand der
Analyse eines Textstücks. Für das Training reicht ein
Satz, eine Frage oder eine Reihe von Dokumenten. Der Agent analysiert
die Vorlage und extrahiert daraus ein Muster der wichtigsten Begriffe
das Konzept. Anhand der Suchergebnisse, die der Agent liefert,
lässt sich das Konzept verfeinern und die Suchgenauigkeit
verbessern. Anders ausgedrückt: Die Software ist lernfähig.

Grenzen anderer Ansätze
Stichwort-Suche
Jeder
Leser, der schon einmal eine Suchabfrage in einer Suchmaschine
gestartet hat, weiß, wie frustrierend das sein kann. Denn
die herkömmlichen Suchmaschinen führen meist zu einem
Informationsüberfluss. Obwohl sie Dokumente identifizieren
können, in denen bestimmte Suchbegriffe vorkommen, sind sie
nicht in der Lage, die Relevanz des Dokuments zum recherchierten
Thema zu bewerten. Sie suchen ganz einfach nach den Stichwörtern,
können aber nicht beurteilen, ob diese auch wirklich mit
dem Thema des Dokuments in direktem Zusammenhang stehen.
Routinierte
Benutzer erzielen bessere Ergebnisse, wenn sie komplexe Abfragen
mit Booleschen Operatoren durchführen, etwa AND, NOT, OR.
Solche
Stichwort-Systeme sind ebenfalls überfordert mit dem Suchen
anhand von Beispieltexten. Ein solcher Hinweis führt lediglich
zu einer Erweiterung der Stichwortliste, nicht aber zu einem besseren
Verständnis der eigentlichen Suchanfrage. In der Folge werden
mehr und nicht weniger Dokumente angezeigt.
Kollaboratives Filtern
Bei
dieser Technik werden persönliche Informationen aus dem Vergleich
von themenspezifischen Fragebögen oder dem bisherigen Kaufverhalten
zusammengestellt. Die Benutzer werden gebeten, Angaben über
ihre persönlichen Vorlieben zu machen. Anhand dieser Vorlieben
spricht das System Empfehlungen aus. Wenn Nutzer A Elvis, Buddy
Holly und Little Richard und Nutzer B Elvis, Jerry Lee Lewis und
Little Richard zu seinen Lieblingsmusikern zählt, so vergleicht
der Computer die Ergebnisse und stellt fest, dass A und B Ähnlichkeit
aufweisen und ihre Lieblingsmusiker austauschbar sind: A erhält
den Vorschlag, Jerry Lee Lewis auszuprobieren und B wird auf Buddy
Holly verwiesen.
Nun
sind einerseits die Geschmäcker verschieden und dadurch kompliziert.
Zum anderen funktioniert die kollaborative Filtertechnik nur mit
einem beschränkten Satz von Artikeln (z.B. Bücher und
Musik). Darüber hinaus stehen bei der Einführung eines
Online-Dienstes, der mit dieser Technik arbeitet, zu Beginn keine
Informationen in Form von Fragebögen zur Verfügung,
was als "Tag 1 Problem" bezeichnet wird. Schwierig ist
es auch, dem geschlossenen Datensatz neu hinzukommende Informationen,
z.B. einen Newcomer in den Charts wie die Spice Girls, einzuverleiben.
Parsen natürlicher Sprache
Bei
der auch als semantische oder lexikalische Analyse bekannten Methode
kommt man anhand von grammatikalischen Regeln und Wortlisten zum
Verständnis unstrukturierter Texte. Das Problem hierbei ist
die Mehrdeutigkeit natürlicher Sprache. Beispielsweise ist
im folgenden Satz unklar, ob der Hund oder der Diwan weiß
waren: "Der Hund setzte sich auf den Diwan; er war weiß".
Dem Computer fehlt das Allgemeinwissen und der gesunde Menschenverstand,
um die Sätze richtig einzuordnen. Für ihn sind selbst
folgende Sätze zweideutig: "Der Hund setzte sich auf
den Diwan; er fing an zu bellen" oder "Der Hund setzte
sich auf den Diwan; er war voller Kissen".
Erschwerend
kommt hinzu, dass das Parsen sprachspezifisch ist, weder Umgangssprache
noch inkorrekten Sprachgebrauch zulässt. Die Mustererkennungstechnologie
hingegen verwendet berechenbare, statistische Wortmuster, um Kernaussagen
zu extrahieren, und ist deshalb sprachunabhängig.
Der Einsatz von menschlicher Intelligenz
Bis
heute sind unzählige Arbeitskräfte damit beschäftigt,
Texte durchzulesen, sie zu kategorisieren, die Kernaussagen und
Stichwörter herauszufinden und dem Kunden ein auf ihn zugeschnittenes
Angebot an Produkten, Nachrichten usw. zur Verfügung zu stellen.
Dokumentationsstellen, Bibliotheken, Online-Shops und Redaktionen
können allerdings schlecht auf die täglich wachsende
Menge an unstrukturierten Daten reagieren. Sie müssten doppelt
so viele Mitarbeiter einstellen.

Data von Star Trek wird Bayesianer sein
Der
Reverend aus Cambridge hat seine letzte Ruhe in den Bunhill Fields
gefunden, dem ältesten Friedhof im Londoner Osten. Als Bayes
starb, entdeckte sein Kollege Richard Price in seinem Nachlass
eben jenes Traktat mit der heute als Bayesschem Theorem bekannten
Formel und veröffentlichte es posthum. Es diente ihm dazu,
das erste Modell für eine aktuarische Lebensversicherung
aufzustellen. Im Gegensatz zu ihm hat Mike Lynch das ganze Potenzial
von Bayes erkannt, auch wenn es noch nicht ganz ausgeschöpft
ist. Da man mit Bayes in beliebigen Datenmengen Muster finden
kann, wird sich Autonomy nach den Wörtern bald auch Tönen
und Bildern zuwenden.
Und
wenn uns in naher Zukunft smarte Avartare bei der Arbeit behilflich
sein werden, so ist dies dem Vermächtnis von Bayes zu verdanken:
Data von Star Trek wird Bayesianer sein.
Leserbrief
schreiben

|