Ausgabe 07/2007 - Was Wirtschaft treibt

Mein Computer versteht mich!

- Zu Beginn seiner Auftritte gibt Tim Berners-Lee gern ein Versprechen ab: "Das wird eine 60-Minuten-Rede in 30 Minuten." Der Vater des World Wide Web hat es am Rednerpult fast immer eilig. Er wirbelt mit den Armen, die Kreise der fliegenden Hände beschreiben die Größe seiner Mission. Genauer: seiner zweiten Mission. Denn das Internet hat unser Leben und Arbeiten grundlegend verändert, schön und gut. Doch Stillstand ist Rückschritt. Schneller, intelligenter, genauer soll es mit Berners-Lees neuer Vision gehen, dem Semantischen Web, kurz Sem Web.

Semantik ist die Lehre von der Bedeutung sprachlicher Zeichen. Und das Sem Web ist ein weltumspannendes Datennetz, das mehr kann als Dokumente ausspucken, die im Wust der weltweiten Information mehr schlecht als recht zu finden sind. Es ist ein Web, in dem Suchmaschinen die Inhalte von Seiten verstehen und miteinander logisch verknüpfen können. Ein Web der intelligent verbundenen Daten, das auf eine klare Frage eine klare Antwort kennt. Der Nutzer will wissen: "Wie muss ich Medikament XY einnehmen?" Und das Semantische Web antwortet: "Bitte dreimal täglich 15 Tropfen eine Stunde vor den Mahlzeiten."

Das soll nur der Anfang sein. Das Sem Web soll dem Internet der Dienstleistungen auf die Sprünge helfen und Wissensmanagement in offenen und geschlossenen Nutzergruppen einfach und effizient machen. "Welche Anwendungen im Semantischen Web möglich werden, weiß heute niemand. Auch ich nicht", sagt der WWW-Erfinder. Umso hartnäckiger kämpft er darum, sein Baby als Sem Web auf eine neue Entwicklungsstufe zu heben, damit es endlich "sein volles Potenzial entfalten kann".

Seit Jahren reist Berners-Lee durch die Welt, um für das Sem-Web zu werben. Die Schlüsselbegriffe seiner Vision fliegen mit gefühlten 36 Mbit durch den Raum. Taxonomie, Ontologie, RDF, XML, URI. Das Anfangsversprechen der Informationsverdichtung erweist sich spätestens ab Chart drei der Präsentation als Drohung. Ab Chart fünf mehren sich die Zeichen, dass es auch dem Informatikernachwuchs in Oxford, Cambridge und Stanford schwerfällt, Bedeutungszusammenhänge von Grafiken und Fach-begriff-Stakkato in Realzeit fehlerfrei herzustellen. Das Sem Web ist eine komplexe Sache. Ein wenig mehr Klarheit täte gut.

Wunderknabe mit Geburtsfehler

Seit Jahren wabert die Idee durch die Entwicklergemeinden der Internettechnik. Doch immer wieder wurden die Hoffnungen enttäuscht, dass sich ein Netz der intelligenten Datenverknüpfung schnell über das Internet legt, wie wir es heute kennen. Und dennoch könnte das Sem Web das nächste große Ding sein. Denn im Kleinen kommen semantische Techniken gut voran. Was ist also der Kern der Idee, um die Tim Berners-Lee in seinen Vorträgen kreist?

Das World Wide Web ist eine großartige Erfindung. Es bietet Platz für Abermillionen Web-Seiten mit Abermilliarden Informationen. Leider hat das Internet einen schweren Geburtsfehler: Intelligente Menschen können die auf den HTML-Seiten gespeicherten Daten verstehen und einordnen; Maschinen können das nicht, was die Effizienz bei der Bereitstellung von Information deutlich bremst.

Der technische Makel hat mit der Geschichte des WWW zu tun. Das Web entstand 1989 am CERN in Genf. Der britische Physiker Timothy J. Berners-Lee baute im Auftrag des Kernforschungszentrums ein Informationssystem mit dem Ziel auf, Wissenschaftlern den leichten Austausch von Forschungsergebnissen zu ermöglichen. Auch ein Verflechten von Dokumenten war in dem Wissenschaftlernetz bereits möglich, also HTML-Seiten, die allen Nutzern offenstanden, um sie über Links miteinander zu verbinden. Das alles nahm sich zunächst recht übersichtlich aus. Zwar hatte Berners-Lee von Anfang an semantische Elemente vorgesehen. Doch die kommerzielle Explosion des Internets ließ keine Zeit mehr für technische Perfektion.

1994 machte der erste leicht bedienbare Browser Mosaic das Netz auch für Menschen ohne Diplom in Physik zugänglich. Und mit Mosaics Nachfolger Netscape Navigator explodierte die im Netz abrufbare Informationsmenge. Seitdem helfen Suchmaschinen, Schneisen in den Informationsdschungel zu schlagen. Doch diese Arbeit ist - wie jeder Google-Nutzer weiß - anstrengend, zeitraubend und oft wenig zielführend. Der Grund: Suchmaschinen der aktuellen Generation können nur Worte zählen und Verweise auf andere Seiten berücksichtigen. Informationen auf mehreren gefundenen Seiten kombinieren oder Informationen zusammenfassen, das können sie nicht.

Hier setzt das Semantische Web an. Computer sollen lernen, die Inhalte von Web-Seiten zu verstehen, um sie abzugleichen und automatisiert Schlüsse zu ziehen. Das Internet soll zu einer gigantischen Datenbank verschmelzen, die Informationen intelligent verlinkt, Zusammenhänge sichtbar und damit gespeicherte Informationen als vernetztes Wissen nutzbar macht. Das Netz soll auf die getippte Frage: "Wie kalkuliere ich die Marketingkosten für den Aufbau einer Wäschereikette im Großraum Stuttgart mit zehn Filialen?" eine brauchbare Antwort ausspucken. Im Grunde geht es um einen der kollektiven Träume von Science-Fiction-Autoren und Künstliche-Intelligenz-Forschern: Ziel ist es, auf das Gesamtwissen der Menschheit mithilfe der Maschine stets sofortigen Zugriff zu haben, am besten im sprachlichen Dialog.

Heute gilt im Netz eher das Gegenteil: Nahezu unbegrenzte Information verhindert Wissen. Das kostet Unternehmen viel Geld. Der badische Anbieter von semantischen Web-Techniken Ontoprise hat in einer Studie errechnet, dass mehr als die Hälfte aller Angestellten in wissensintensiven Berufen - beispielsweise Anwälte, Ingenieure oder Architekten - mehr als zwei Stunden am Tag mit Netzrecherche verbringen.

Im Sem Web soll eine zweite, für Nutzer unsichtbare Informationsebene dafür sorgen, den Weg von der Information zum Wissen abzukürzen. Auf dieser zweiten Ebene sollen sogenannte Metadaten gespeichert werden, die in maschinenlesbarer Form beschreiben, um welche Art von Informationen es sich auf einer Web-Seite handelt. Dies ist vergleichbar mit dem Etikettierungsverfahren (Englisch: Tagging), wie es Youtube- oder Flickr-Nutzer kennen. Auch sie versehen ihre Videos oder Bilder mit Schlagworten, um sie leichter auffindbar zu machen.

Im Unterschied zum Tagging bei klassischen Web-2.0-Anwendungen ist im Sem Web die Etikettierung allerdings standardisiert. Der Betreiber gibt auf der unsichtbaren Informationsebene einer Seite an: Das ist die Seite eines Autohändlers. Hier stehen die Modelle, dort die Kilometerzahlen, da der Preis. Der Händler sitzt in München, das sagt die Postleitzahl. Metadaten schaffen eine Struktur, in welcher Maschinen die Bedeutung von Worten einordnen können, daher der Begriff Semantisches Web. Der Vorteil im Fall des Autohändlers: Seine Angebote sind für jeden Kunden leicht auffindbar, ohne dass der Händler eine Anzeige in einem Autoportal wie Mobile.de schalten müsste.

Die ersten Anwendungen sind da

Die technisch wichtigsten Hilfsmittel für die Schaffung des Semantischen Webs sind die Auszeichnungssprache XML und der sogenannte RDF-Standard. RDF steht für Resource Description Framework. Es gibt eine logische Struktur für die Beschreibung der in Web-Seiten enthaltenen Informationen wieder und ermöglicht es Maschinen, Informationen nach logischen Regeln zusammenzuführen. Das hört sich komplizierter an, als es ist, und funktiert etwa so: Flipper ist ein Delfin. Delfine sind Säugetiere. Also ist Flipper ein Säugetier. Im Semantischen Web sollen Programme und Suchagenten solche einfache Schlussfolgerungen, die Verbindung von sogenannten Triples, zu komplexen Logikketten ausbauen können.

Die Schlussfolgerung, dass Flipper ein Säugetier ist, mag wirtschaftlich wenig relevant sein. Doch es gibt bereits Anwendungen mit ökonomischem Mehrwert. Das Portal www.reegle.info der Nichtregierungsorganisation REEEP beispielsweise ermöglicht dank semantischer Verknüpfungstechniken eine intelligente Suche zu den Themen erneuerbare Energien und Energieeffizienz.

REEEPs Ziel ist es, weltweit Politiker, Investoren und Unternehmensgründer mit Interesse an grüner Technik zusammenzubringen und damit die schnelle Verbreitung von Umwelttechnik voranzutreiben. Im Wust der Informationen im Netz finden jedoch Angebot (Fördermittel, die unter bestimmten Bedingungen vergeben werden) und Nachfrage (Unternehmen, die Kapital suchen) oft nicht zusammen. Wer schon in etwa weiß, wo er nach welchem Förderprogramm, welcher Technik oder welcher Investitionsmöglichkeit suchen möchte, wird sicher auch mit Google fündig. Oft weiß aber ein Nutzer nicht genau, wonach er suchen muss. "Ein semantischer Suchassistent setzt dem Suchenden gewissermaßen eine Expertenbrille auf", sagt Heiko Beier von der Münchener Moresophy GmbH. "Er unterstützt ihn dabei, seine Suche sinnvoll in die richtige Richtung zu lenken."

Beiers Firma hat das Reegle-Portal gebaut und dabei auf Basis von Experten-Interviews weltweit wichtige Web-Seiten markiert, die sich mit Energieförderung beschäftigen. Auf diese Weise führt Reegle Informationen von heterogenen und verteilten Datenquellen in einer einheitlichen Navigation zusammen. Wer auf Google die Begriffe "fuel cell" und "solar" eingibt, erhält 1 130 000 Treffer. Bei Reegle sind es 224, außerdem gibt es Hinweise, wie sich die Suche sinnvoll verfeinern lässt. So gewinnt der Suchende schnell Aufschluss darüber, wie mit Solarenergie Wasserstoff für Brennstoffzellen hergestellt werden kann und welche Unternehmen sich damit führend beschäftigen. Bei der Spezialistensuchmaschine handelt es sich um eine

Insellösung, zugeschnitten auf eine klar definierte und kleine Zielgruppe. Und das ist kein Zufall, denn je homogener die Zielgruppe ist, desto besser funktionieren bislang semantische Verfahren. Entsprechend laufen die meisten Anwendungen heute in geschlossenen Systemen, etwa in Forschungsinstitutionen oder Unternehmen. Das Problem ist dort das gleiche wie im Netz: Wissen ist zwar in Massen vorhanden, aber auf zahlreiche Personen oder Abteilungen verstreut. Doch in der Wissensgesellschaft entsteht Wertschöpfung durch Produkte, die auf Wissen basieren. Eine Idee wird durch Unternehmensprozesse immer weiter angereichert, um daraus kommerziellen Nutzen zu ziehen. Wer mit Wissen Geld verdienen will, muss Informationen effizient zusammenführen und verarbeiten.

Die Versicherungsbranche gehörte zu den Ersten, die die Chancen von semantikgestützter Software erkannt hat. Mitarbeiter von Versicherungsunternehmen müssen bei der Bearbeitung von Schadensfällen eine hohe Zahl von Vertragsbestimmungen, Gesetzestexten und Urteilen beachten. Bekommt ein Sachbearbeiter einen komplexen Fall auf den Tisch, muss er sich über Intra- und Internet, Gesetzestexte, Handbücher und Kommentare mühsam eine Strategie erschließen. Sogenannte "semantische Wissensnetze" können die Wege zur Lösung verkürzen, denn für den Sachbearbeiter ist es hilfreich, wenn der Computer Informationen aus verschiedenen Quellen automatisiert zusammenführen kann. Am Ende stehen klare Hinweise: Dieser rechtliche Aspekt ist relevant. Ein Kollege hat bei einem vergleichbaren Fall Folgendes gemacht. In einer internen Konferenz wurde diesbezüglich Folgendes vereinbart.

"Bei den meisten Anwendungen in Unternehmen geht es darum, Menschen durch maschinelle Unterstützung schneller in neue Sachverhalte einzuarbeiten", erklärt Software-Anbieter Beier. Von der Suche zur Handlungsanweisung ist der Weg dann nicht mehr weit, besonders wenn semantische Technik noch mit Wiki-Systemen verknüpft wird, in denen Kollegen ihr Fachwissen an Kollegen weitergeben.

Worüber reden wir eigentlich?

Neben Geschwindigkeit ist höhere Präzision im Informationsmanagement die zweite Größe, mit der die Anbieter semantischer Techniken werben. Die dritte lautet: Kompatibilität herstellen. Denn ganz im Wortsinne des Begriffs "Semantik" zielt semantische IT darauf ab, klarzustellen, worüber man überhaupt redet. Dies gilt zunächst innerbetrieblich über die Abteilungen hinweg. Versteht die Entwicklung eines Unternehmens das Gleiche unter einem Begriff wie die Produktion, das Marketing oder der Vertrieb? Noch mehr systematische Missverständnisse im Informationsfluss drohen, wenn die rechnergestützte Kommunikation Unternehmensgrenzen überschreitet.

"Eine Kernfrage des Sem Web lautet: Wie können wir semantisch eine Sprache sprechen, um einen optimalen Austausch der Informationen zu gewährleisten?", sagt Lutz Heuser, Leiter der SAP-Forschungsabteilung. Seit vier Jahren arbeitet der Walldorfer Software-Konzern daran, mithilfe semantischer Techniken die Kommunikation seiner Unternehmens-Software mit Anwendungen anderer Anbieter zu verbessern.

Ein Beispiel: Ein Lieferant von Unterhaltungselektronik beliefert 100 verschiedene Händler. Die Händler beschreiben ihre Produkte in den Einkaufsmodulen zwar ähnlich, aber leider nicht identisch. Bei Produkten mit standardisierten Seriennummern lässt sich eine einheitliche Kommunikation per Software leicht herstellen. Ein Ersatzakku eines MP3-Players hat aber in der Regel keine EAN-Nummer. Also muss der Lieferant den Akku selbst codieren, ebenso jeder einzelne Händler. Geht eine Bestellung ein, muss der Lieferant mit Riesenaufwand die Codierungen eines bestimmten Händlers übersetzen, um das richtige Produkt liefern zu können.

"Über Metadaten und die dazugehörigen Semantik-Tools lässt sich dieser Aufwand beim 101. Händler vermeiden", versichert Heuser. Das System könne dann selbst die Beziehungen zwischen verschiedenen Nummerierungssystemen herstellen, indem es "Ähnlichkeitsstrukturen" automatisch oder zumindest semiautomatisch erkennt.

Gleiches dank IT-Semantik als Gleiches zu erkennen spielt auch in der medizinischen Forschung eine große Rolle. Dort ist der sprachliche Koordinierungsbedarf besonders hoch. Und in der Tat sind Ärzte, Pharmaindustrie, Gendatenbanken, öffentliche Gesundheitsinstitutionen und andere Spieler der Life Sciences beim Einsatz semantischer Web-Technologien besonders weit.

Der Kampf gegen Aids oder Alzheimer verlangt nach einer Zusammenführung riesiger Datenmengen aus überlappenden Gebieten wie Genomik, Protemik, Epidemiologie etc. Nur die Gesamtschau eröffnet Erfolg versprechende Perspektiven. Oft geht es aber auch nur schlicht darum, das Rad nicht mehrfach zu erfinden. Ein neu untersuchter Genabschnitt heißt in einem staatlichen Forschungsinstitut unter Umständen anders als in den Labors eines Pharmariesen. Dann wissen die Forscher des Pharmakonzerns unter Umständen nicht, dass die Rolle des Genabschnitts für die Existenz von HIV-Resistenzen oder bei der Verlangsamung von Alzheimer-Symptomen bereits erforscht ist und Analysen an einem anderen Genabschnitt jetzt viel drängender wären, um ein gemeinsames Ziel zu erreichen.

Das Internet der Dienste

Wie beim WWW könnten wissenschaftliche Anwendungen zum Geburtshelfer des Sem Web werden. Richtig groß machen werden es nur kommerzielle Interessen. Die treibenden Kräfte dahinter werden gern unter dem Schlagwort "Internet der Dienste" zusammengefasst. Genauer müsste es eigentlich heißen: "Internet der verknüpften Dienstleistungen". Shopping, Flüge buchen oder die Umsatzsteuervoranmeldung sind bekanntlich auch heute schon im Netz möglich. Jede Dienstleistung für sich zumindest. Das Sem Web könnte Dienstleistungen mit einer Anfrage automatisch verbinden und abwickeln.

Das Lieblingsbeispiel der Netz-Semantiker dafür ist die integrierte Reiseplanung: Professor A möchte von dann bis dann zu einem Kongress in Y. Ein cleverer Sem Web-Agent könnte automatisch ein Taxi bestellen, das A zum richtigen Zeitpunkt abholt, den Flug nach Y buchen, den Mietwagen reservieren, das Hotel nach bestimmten Kategorien wie Preis und Entfernung zum Veranstaltungsort aussuchen und eventuell auch noch die Anmeldung zur Konferenz erledigen. "So etwas wäre noch eine vergleichbar einfache Anwendung", sagt der SAP-Mann Heuser.

Eine integrierte Reiseplanung läuft in einer - wie Informatiker sagen - Domäne ab, in diesem Fall der Reisebranche. Komplexer wird es, wenn verschiedene Domänen ins Spiel kommen, beispielsweise wenn Professor A von Hamburg nach Bonn umziehen möchte. Schon heute kann er viele der lästigen Ummeldungen online erledigen. Im "Internet der Dienste" soll dies mit einer Anfrage geschehen. Voraussetzung ist, dass die unterschiedlichen Domänen Meldeamt, Umzugsunternehmen, Post, Telekom, Gasversorger, Stromversorger, DSL-Anbieter und andere verstehen, was A vorhat. Je mehr und je besser Dienstleistungen im Netz werden, desto attraktiver wird auch deren Verknüpfung durch semantische Technik - und desto attraktiver wird es, in sie zu investieren.

Das Henne-Ei-Problem

"Technologisch ist alles vorhanden, um das Semantische Web zügig voranzubringen", sagt Thomas Tikwinski vom Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme und deutscher Repräsentant des Internet-Standardisierungs-Konsortiums W3C. Die Standards für intelligentes Tagging sind heute gut genug, um anständig mit ihnen arbeiten zu können. "Dennoch sieht es mit der Verbreitung noch nicht allzu rosig aus", räumt Tikwinski ein.

Das hat vor allem einen Grund. Bislang müssen Autoren von Web-Seiten ihre Metadaten mehr oder weniger manuell anlegen und bei bestehenden Web-Seiten nachtragen. Dazu hat freilich niemand Lust, insbesondere wenn der direkte Nutzen nicht sofort sichtbar wird.

Das semantische Netz hat ein Henne-Ei-Problem. Semantische Technik im Netz ist nur sinnvoll, wenn viele mitmachen. Solange eine kritische Masse nicht erreicht ist, lohnt der Aufwand nicht. Tikwinski glaubt: "Erst wenn Metadaten von automatisierten Tools zuverlässig erstellt werden können, wird die Ausbreitung deutlich an Tempo gewinnen." An solchen Verschlagwortungsrobotern, die Seiten zuverlässig nach potenziellen Metadaten durchforsten und diese dann extrahieren, arbeitet die Entwicklergemeinde fieberhaft. Doch die Konstruktion scheint komplizierter als befürchtet.

Der Web-Übervater Timothy Berners-Lee jedoch lässt sich in seiner Begeisterung für das Sem Web trotz regelmäßiger Rückschläge nicht bremsen. Eine Kernbotschaft seines Werbefeldzuges lautet: "Das Interessanteste am Netz ist nicht das, was wir uns alles damit vorstellen können, sondern das, was wir uns jetzt noch nicht vorstellen können."

Der Software-Anbieter Heiko Beier hat dagegen einen pragmatischeren Ansatz. Er hat festgestellt: "Semantik ist nicht sexy. Am besten ist es, wenn die Nutzer gar nicht merken, dass sie gerade auf semantische Technologien zurückgreifen." Auch das kennt der Science-Fiction-Fan aus jedem Raumschiff. Mensch fragt. Maschine weiß Bescheid. Woher die Maschine ihre Informationen hat, ist dem Menschen ziemlich wurscht. -

Mehr aus diesem Heft

Zu viel! 

Pass gut auf dich auf

Viel Arbeit kann glücklich machen. Zu viel Arbeit kann krank machen. Der Unterschied liegt nicht unbedingt in der Zahl der Arbeitsstunden.

Lesen

Zu viel! 

Zurück in die Zukunft

Schwedens Wohlfahrtsstaat war ein Vorbild. Bis die Staatsausgaben außer Kontrolle gerieten. Jetzt gibt es keinen Weg zurück. Oder doch?

Lesen

Idea
Read