Was ist eigentlich - VOICE USER INTERFACE?

Die natürlichste Form des Daten-Inputs ist das Zuhören. Die häufigste Form des Daten-Outputs ist das Reden. Maschinen lernen beides gerade. Und sind dabei auch noch höflich.




Kurz vor Saisonstart konnten die Fans des 1. FC Köln den jungen Mittelstürmer Lukas Podolski jederzeit anrufen. Tag und Nacht. Geduldig beantwortete der Fußballer Fragen rund um Spieltermine und Kartenverkauf. Am Ende des Gesprächs fragte "Poldi" dann zurück. Zum Beispiel: "Welche Rückennummer trage ich?" Wer es wusste und Anschrift und Telefonnummer rausrückte, konnte eine Saisonkarte oder ein Abendessen mit dem Nachwuchsstar gewinnen.

Ein komplexes Sprachdialogsystem machte den Marketing-Gag des Kölner Fußballvereins möglich: Voice User Interfaces sind hoch intelligente Anrufbeantworter, die mehr oder weniger komplexe Fragen auf Basis eines gespeicherten Wortschatzes und einer gespeicherten Grammatik erkennen. Eine Software lenkt den Dialog und setzt gespeicherte Satzbausteine zu sinnvollen Antworten zusammen. Sprachdialogsysteme greifen meist auf Datenbanken zurück, um dem Anrufer gewünschte Informationen zu liefern oder Service-Aufträge entgegenzunehmen. Kunden von Banken kennen Vorläufer dieses Verfahrens bereits seit Ende der neunziger Jahre. Die ersten Dialogsysteme waren einfach und nervtötend und setzten bei den Anrufern viel Geduld voraus: " Sie wollen Ihren Kontostand abfragen? Dann sagen Sie jetzt bitte deutlich Ihre Kontonummer." Beim x-ten Versuch erkannte das System manchmal sogar die Nummer. Wer das nervlich aushielt, kam durch.

Doch die Kinderkrankheiten der Sprachtechnologie sind austherapiert. Bei vielen Anwendungen können Voice User Interfaces eine echte Erleichterung für die Benutzer sein. Anrufe sind kostengünstig und - zumal im Handyzeitalter - jederzeit und von überall möglich. Und grundsätzlich gilt: Gesprochene Sprache ist die natürliche Kommunikationsform des Menschen, nicht Mausklicks und Tastatureingaben in Bildschirmmasken. Untersuchungen belegen, dass Sprachdialogsysteme kaum alters- oder bildungsbedingte Barrieren setzen: So kommen ältere Kunden mit dem Sprachportal der Postbank deutlich besser zurecht als mit dem Online-Banking.

"Das technische Kernproblem ist seit einigen Jahren gelöst. Computer verstehen Menschen mittlerweile zuverlässig, selbst wenn sie Dialekt sprechen oder sich in einer lauten Bahnhofshalle befinden", sagt Bernhard Steimel. Der Sprecher der Branchen-Initiative Voice Business prognostiziert: "Die Entwicklung wird analog zu der des Internets laufen. In wenigen Jahren werden Voice User Interfaces ganz selbstverständlich sein." Die Marktforscher von Datamonitor sagen den Herstellern von Sprachdialogsystemen Wachstumsraten von 30 Prozent jährlich voraus. Bis 2008 soll der Umsatz in Deutschland von weniger als 100 Millionen Euro (2004) auf deutlich mehr als 200 Millionen steigen. Bereits heute benutzt jeder vierte Bundesbürger mindestens einmal im Jahr ein Voice User Interface. In Europa hatte schon jeder Zweite Kontakt mit einem Sprachcomputer.

Experten unterscheiden drei Gebiete, in denen Sprachdialogsysteme hauptsächlich eingesetzt werden können: erstens die Automatisierung von Callcenter-Anfragen, zweitens die Sprachsteuerung von Endgeräten und drittens Sprachdialog-Mehrwertanwendungen.

Bei der Automatisierung von Callcenter-Anwendungen geht es meist darum, die Kosten bei Standard-Anfragen zu senken. Banken, Versicherungen, IT-Unternehmen und Fluggesellschaften sind hier die Vorreiter. Informationen zu Aktienkursen, Schadensnummern oder Abflugzeiten gehören zum kleinen Einmaleins von Sprachdialogsystemen. Immer mehr Unternehmen wickeln inzwischen aber auch einen Teil ihres Vertriebs über Sprachdialogsysteme ab. Das Versandhaus Quelle etwa nimmt schon seit einigen Jahren einen Teil seiner Bestellungen auf diese Weise auf.

Auch der Mittelstand fühlt sich angesprochen. So stellte kürzlich ein Pflanzenhandel in Siegburg bei Bonn seine Order-Hotline auf Computerstimme um - zum eigenen und zum Vorteil der Kunden, die nun 24 Stunden am Tag bestellen können. Das bringt dem Unternehmen nicht nur mehr Umsatz mit nachtaktiven Bestellern, es ist auch billiger. Nach Berechnungen der Initiative Voice Business kostet ein Anruf, der nicht von einem Mitarbeiter, sondern von einem Sprachdialogsystem bearbeitet wird, nur ein Zehntel. Durchschnittlich amortisierten sich die Investitionskosten nach sieben Monaten.

Als ebenso sicherer Wachstumsmarkt gilt der der sprachgesteuerten Endgeräte, so genannter Embedded Systems, die in Produkte eingebunden sind. Sound-Karte und Mikrofon sorgen im Zusammenspiel dafür, dass Elektronikware auf Zuruf reagiert. Die wohl einfachste Anwendung ist der Wecker, der aufhört zu piepen, wenn der Geweckte "Stopp" ruft. Automobile der gehobenen Preisklasse kennen deutlich raffiniertere Funktionen: Der Fahrer kann mithilfe seiner Stimme den Radiosender wechseln, sein Navigationssystem nach der nächsten Tankstelle fragen oder das Handy über die Freisprecheinrichtung einen Freund anrufen lassen.

In der Schweiz können Digitalfernsehkunden die Grundeinstellung der Fernsehkanäle mündlich erledigen. Über die Verifizierung der Stimme sind künftig auch eine ganze Reihe personenbezogener Funktionen denkbar. Ein Auto etwa würde auf die Stimme seines Besitzers programmiert. Erst wenn der sagt, "Motor starten", ließe sich das Fahrzeug in Bewegung setzen.

So genannte Mehrwertanwendungen könnten sich - ähnlich wie SMS-Dienste oder Handyklingeltöne - zu einem lukrativen Geschäftszweig entwickeln, den zunächst niemand auf der Rechnung hatte. Ziel dieser Mehrwertanwendungen ist es, mit Sprachdialogsystemen Marketing zu betreiben oder direkt Geld zu verdienen. "Jetzt sind die Kreativen gefragt, herauszufinden, was mit der Technologie alles möglich ist", sagt Bernhard Steimel. Denn auch wenn die wenigsten Verbraucher es bisher schätzen, von einem Computer angerufen zu werden: Ein intelligentes Voice User Interface versteht es, einen nicht unbeträchtlichen Prozentsatz potenzieller Kunden spielerisch in einen Dialog zu verwickeln. Erfolgreiche Beispiele dafür gibt es bereits.

Manchmal ist es besser, mit einer Maschine zu reden als mit einem Menschen Ein Arcor-Shop lud 2000 seiner Kunden per Computerdialog zu einer Promotion-Veranstaltung ein und schickte 1000 weiteren eine SMS: 200 der Eingeladenen kamen tatsächlich. Der Radiosender 104.6 RTL suchte kürzlich per interaktivem Sprachautomat "die erotischste Stimme Berlins und Brandenburgs". Wer mitmachen wollte, musste pro Minute 69 Cent zahlen. Und im März 2003 hat mit L.U.C.Y. auch die erste telefonische Dating-Plattform den Betrieb aufgenommen. Anrufer erstellen dort zunächst ein eigenes Profil und dann ein Profil des gewünschten Partners. Der Anrufer definiert eine Suchregion und Zeiten, zu denen er erreichbar ist. Durch den Dialog wird der Anrufer von der virtuellen Persona L.U.C.Y. geführt, die gleich charmant losflirtet. Stimmen die Profildaten von zwei Nutzem überein, vermittelt L.U.C.Y. auf Wunsch den Kontakt.

Auch die Politik hat Voice User Interfaces bereits entdeckt. Während des Wahlkampfes in Nordrhein-Westfalen konnten Anrufer - wie 1. FC-Köln-Fans mit " Poldi" - mit Jürgen Rüttgers in einen virtuellen Dialog treten. Noch leben solche Aktionen vom Überraschungseffekt - die Dialoge mit dem Star oder der Partnervermittlerin aus dem PC wirken oft verblüffend echt. Aber mit der Qualität steigt die Akzeptanz der Sprachtechnik. 72 Prozent der Europäer sind nach einer Studie des Marktforschungsinstituts Genesys Telecommunications Laboratories der Meinung, dass Sprachsysteme "gut oder zufriedenstellend" funktionieren. Die Bereitschaft, wieder automatisierte Telefonservices zu nutzen, liegt bei 78 Prozent.

Manchmal kann es für Kunden sogar angenehmer sein, mit einem anonymen Computer zu sprechen als mit einem Sachbearbeiter, zum Beispiel bei der Abfrage eines überzogenen Kontos oder bei einem Passwortwechsel. Der niederländische Dialog-Design-Pionier Tom Houwing ist sich zudem sicher: "Die Nutzer können von Mal zu Mal mit Sprachsystemen besser umgehen, da sie Intuition entwickeln." Wie vor zehn Jahren beim Internet müssen Erstnutzer allerdings eine neue Medienkompetenz erwerben. Die Standardisierung der Systeme über Firmen und Branchen hinweg kann ihnen hierbei helfen: Ein Kunde, der Sprachdialogsysteme einer Bank zu nutzen weiß, sollte sich auch bei der Computerauskunft der Bahn schnell zurechtfinden können.

So weit die Träume der Anbieter. In der Realität bevorzugen nach wie vor drei Viertel aller Deutschen ein persönliches Gespräch. Dagegen reagieren sie allergisch, wenn ein Computer ihnen vorzuspielen versucht, ein menschlicher Gesprächspartner zu sein. Diese Erfahrung hat zumindest Jan Gessenhardt von der Voiceobjects AG gemacht. Seine Schlussfolgerung: "Ziel muss es sein, dass der Anrufer sich auf den Computerdialog einlässt und dann im Verlauf des Gesprächs vergisst, dass er mit einer Maschine redet."