Ausgabe 05/2017 - Artikel

Sprachsteuerung: Von Siri bis Alexa

Mit welcher Maschine werden wir zukünftig sprechen?

• Auf den Smartphones und Computern, vor allem aber in den Wohnzimmern und Küchen ist ein Wettrennen der Sprachsysteme im Gange. Anstelle von Tastatur und Touchscreen werden wir – so die Hypothese – in Zukunft immer öfter unsere Stimme zur Kommunikation mit Geräten benutzen. Statt etwas zu googeln, eine Wetter-App zu öffnen oder einen Lichtschalter zu betätigen, werden wir sagen, was wir wollen. Die Antworten wiederum werden wir nicht auf einem Bildschirm lesen, wir werden sie hören.

Was nach einem banalen Unterschied oder einer Spielerei klingt (und längst nicht immer perfekt funktioniert), hat großes Potenzial. Voice, wie der Komplex Sprachsteuerung /Sprachverarbeitung genannt wird, könnte gemeinsam mit der sich gerade rapide entwickelnden sogenannten künstlichen Intelligenz (KI) das nächste große Ding der Digitalisierung werden. Nach dem Personal Computer, dem Browser-Internet und zuletzt den Smartphones. Kein Wunder also, dass bei diesem Wettrennen niemand von Rang und Namen fehlen will.

I. Der Startschuss

Warum die Dominanz bei Voice genau jetzt so umkämpft ist, hat einen einfachen Grund: Erst allmählich können die Rechner gesprochene Sprache gut genug verstehen. Und damit ist noch nicht einmal das Erfassen des Sinns gemeint, sondern das rein akustische Verstehen. Informatiker sprechen von „parsen“ und meinen damit die Umwandlung einer Eingabe in etwas, mit dem der Computer weiterarbeiten kann. 2012, Apple hatte kurz zuvor Siri vorgestellt, lag die Fehlerquote laut Experten noch bei rund einem Drittel. Sprachsteuerung galt deshalb lange als Gimmick: zu fehleranfällig für den Alltagsgebrauch.

„Sprache ist das, was den Menschen von allen anderen Lebewesen unterscheidet. Es ist eine verdammt harte Nuss“, sagt Xuedong Huang von Microsofts Forschungsabteilung für Spracherkennung. Er ist einer derjenigen, die daran arbeiten, die Fehlerquote auf inzwischen rund fünf Prozent zu drücken. „Damit ist Spracherkennung etwas Alltägliches geworden. Das war unsere ursprüngliche Vision“, sagt der Informatiker, der seit 1993 bei Microsoft arbeitet.

Nach dem akustischen Verstehen geht es um das Begreifen. Im selben Moment, in dem die Spracherkennung zuverlässig genug funktioniert, macht auch die künstliche Intelligenz große Fortschritte. Von einer starken KI (siehe brand eins 07/2016, „Der Golem und du“)*, die selbstständig Probleme löst, kann zwar nach wie vor keine Rede sein. Aber für einen brauchbaren Sprachassistenten reicht es ja erst mal, wenn er die Anweisung „verschiebe den Marketingtermin morgen um eine Stunde und benachrichtige Tom“ korrekt erfassen und seine Bedeutung entschlüsseln kann.

„Als wir vor fünf Jahren anfingen, über einen digitalen Assistenten nachzudenken, haben wir Menschen beobachtet und befragt, die selbst als Assistenten arbeiten“, erklärt Marcus Ash, Leiter von Microsofts Cortana-Team, dem laut eigenen Angaben mehrere Hundert Mitarbeiter angehören. „Dabei hat sich gezeigt, dass sie proaktiv sind und sich merken, was ihre Gesprächspartner schätzen. Sie machen sich dazu Notizen.“ Seine Gruppe feilt deshalb daran, dass Cortana auch Bezüge zum persönlichen Kalender herstellen oder ein Skype-Telefonat mit einem Kontakt aus dem Adressbuch mittels Sprachkommando initiieren kann.

Sowohl die reine Spracherkennung als auch die anschließende Interpretation durch die KI hat sich also auf dieselbe Art verbessert, wie der amerikanische Schriftsteller Ernest Hemingway einst den Prozess des Pleitegehens beschrieb: „Gradually, then suddenly.“ Erst: kaum wahrnehmbar. Dann: Oha! Experten erwarten deshalb auch, dass die Zahl aller Suchabfragen per Sprache von derzeit 10 Prozent binnen drei Jahren auf 50 Prozent steigen wird. Verständlich, geht man doch davon aus, dass Spracheingabe rund dreimal so schnell vonstattengeht wie das bisherige Eintippen. Bei Google erfolgt bereits jetzt jede fünfte Suche auf einem Mobilgerät übers Mikrofon.

II. Der Preis

Wie wichtig das Voice-Wettrennen für die beteiligten Unternehmen ist, belegt die Tatsache, dass beispielsweise Amazon laut Konzernchef Jeff Bezos mehr als 1000 Mitarbeiter auf die entsprechende Forschung und Entwicklung angesetzt hat. So viel Aufwand lohnt sich nur dort, wo es auch wirklich etwas zu holen gibt. Und kaum etwas ist in der digitalen Welt so profitabel wie Betriebssysteme. Sie sind die Schnittstelle zwischen Anwendungen auf der einen und Hardware auf der anderen Seite – und wer sie stellt, besitzt den extrem wertvollen direkten Draht zum Endnutzer. Microsofts Windows ist bis heute das Musterbeispiel dafür, wie ein gut etabliertes Betriebssystem zu einer Gelddruckmaschine wird: Je mehr Nutzer es gab, umso wichtiger war es für Programmierer und Softwarehersteller, auf der Windows-Plattform zu entwickeln (siehe brand eins 07/ 2016, „Vom Code-Äffchen zum Star“)**. Und je mehr Programme und Anwendungen es gab, umso leichter fiel Nutzern und Firmen die Entscheidung für Windows-PCs. Deren Hardware ließ der Software-Monopolist Microsoft wiederum immer besser und billiger von sich gegenseitig konkurrierenden Drittfirmen herstellen.

Auch für die Hersteller der Sprachassistenten ist die Hardware nur Beiwerk: Amazons „Echo“ – also der Lautsprecher, aus dem Alexa Fragen beantwortet wie „Wie wird das Wetter morgen?“ oder „Wie hat der FC Bayern gespielt?“ – hat sich zwar millionenfach verkauft. Doch die Alexa-Software wird in Zukunft auch in den Smartphones der Hersteller Huawei und Lenovo stecken, in Autos von Ford und den Boxen von Sonos. Bei Google ist es ähnlich: Die Firma verkauft mit Google Home ein vergleichbares Gerät wie Amazons Echo. Google Assistant, die Sprachplattform, läuft jedoch auf immer mehr Android-Smartphones und wird durch Android Auto bald auch in vielen neueren Limousinen von Audi bis Mercedes-Benz verfügbar sein.

Einzig Apple verfolgt mit Siri eine genau entgegengesetzte Strategie, stellt die Hardware ins Zentrum des Erlösmodells. Wer Siri will, muss das iPhone, die Apple Watch oder Apple TV kaufen – für die der Konzern aus Cupertino einträgliche Margen verlangt.

Für alle Anbieter gilt: Je flächendeckender die eigene Sprachplattform verfügbar ist, umso eher gelingt es, eine kritische Masse von Kunden bereits jetzt, in der Frühphase des Wettrennens, zu binden, Gewohnheiten zu schaffen und dafür zu sorgen, dass möglichst alle Konversationen und Transaktionen über die eigene Plattform laufen. Das ist umso wichtiger, als das Internet der Dinge immer mehr Geräte vernetzt – nach aktuellen Schätzungen weltweit 8,4 Milliarden bis Ende 2017.

Auf dem Smartphone steuert man den Heizungsthermostat oder das Wohnzimmerlicht mit den passenden Apps. Bei den Sprachassistenten heißen solche Anwendungen „Skills“. In Amazons Alexa-System sind seit Ende 2014 mehr als 10 000 solcher Skills entwickelt worden – von obskuren Apps, die Witze erzählen, bis zu komplexeren Anwendungen, mit denen sich das Smart Home steuern oder eine Pizza bestellen lässt.

Wie es sich für ein Betriebssystem gehört, kommen auch hier wieder Netzwerkeffekte ins Spiel: Je mehr Nutzer, desto lieber entwickeln Firmen wie Mytaxi, Domino’s Pizza oder Nahverkehrsanbieter kostenlos Inhalte – in diesem Falle Skills – für die Plattform. Und je mehr praktische Skills verfügbar sind und je mehr Geräte die Sprachplattform steuern kann, umso attraktiver ist die Plattform für die Menschen.

Für die Anbieter der Skills ist die frühe Präsenz auf einer Plattform wegen der sogenannten Stickiness wichtig – der Neigung eines Nutzers, bei einem Anbieter zu bleiben oder Voreinstellungen zu verwenden. Hat sich jemand einmal entschieden, das Putzmittel X über Alexa zu bestellen, nimmt er es beim nächsten Mal wahrscheinlich auch. Wurde einmal der Fahrdienst Y mit dem Assistenten verlinkt, hat Konkurrent Z wenig Chancen, noch einen Stich zu machen.

Im Wettbewerb der Digitalunternehmen gilt schon lange: Wer die größte Palette an Helfern und Angeboten um sich schart und gleichzeitig deren Kanal zu den Endkunden kontrolliert, ist in einer extrem starken Position. Früher war das Microsoft mit Windows. Heute ist es bei vielen Geschäften Facebook.

Man kann sich diese Schnittstelle zwischen sehr vielen Anbietern und sehr vielen Nutzern als Zollhäuschen vorstellen. Der Tech-Analyst Ben Thompson nennt sie „choke point“, also Engpass. „Betriebssysteme sind die Engpässe ihrer jeweiligen Wertschöpfungsketten“, schreibt er. „Und das Geld fließt immer zu diesen Engpässen.“ Ein weiterer Vorteil: Wer alle Kundenwünsche an der Quelle aufnimmt und auswertet – vom Tablet über den Pkw bis zum Smart Home –, verfügt zum einen über mehr Datensätze als alle anderen, um sein System kontinuierlich zu verbessern. Zum anderen kann er die Konditionen bestimmen, zu denen Dritte Zugriff auf Profile und Wünsche der Verbraucher bekommen.

Der Kühlschrank, der Milch bestellen kann, wenn sie aufgebraucht ist, ist eines der am häufigsten bemühten Zukunftsversprechen. Gerade ist es dabei, Realität zu werden. Und somit stellt sich die spannende Frage: Welche Marke wählt der Kühlschrank? Wer die Plattform kontrolliert, kann über den Anbieter bestimmen und verdient an jeder Bestellung mit, zudem sammelt er Daten darüber, in welchen Situationen Kunden besonders oft Milch bestellen oder bereit sind, einen Aufpreis für die Lieferung binnen einer Stunde zu zahlen.

Weitgehende Kontrolle – über den Kühlschrank hinaus – ist die Medaille, die dem Sieger des Voice-Wettrennens winkt.

III. Der Zwischenstand

Im Duell der mobilen Betriebssysteme hat es ein Unentschieden zwischen Apples iOS und Googles Android gegeben. Doch durch die Fixierung auf die Smartphones hätten sie das folgende Rennen beinahe verpasst. Das wird zu Hause entschieden.

Unterwegs ist es toll, wenn man einen Minicomputer aus der Tasche ziehen kann, um eine Fahrkarte für den Zug zu buchen. Diesen Minicomputer zu Hause erst vom Ladekabel im Nebenzimmer holen zu müssen, um das Licht anzuschalten, ist hingegen unpraktisch. In der Straßenbahn ist es unangenehm bis peinlich, beim Musikhören laut zu sagen „nächster Titel“. Steht man in der Küche und hat die Hände voll Teig, ist es dagegen extrem praktisch.

Amazon hat diese Möglichkeit – Sprachsteuerung im vernetzten Heim – als Erstes erkannt, darauf gesetzt und sich deshalb in kürzester Zeit einen gewissen Vorsprung erarbeitet. Obwohl Apple und Google mehr Erfahrung mit Spracherkennung und Suchanfragen haben, kann Alexa mit den Fähigkeiten von Siri und Google Assistant gut mithalten. Der größte Vorteil liegt jedoch in der Unmenge an Erweiterungen, die Drittanbieter bereits für Amazons Plattform erstellt haben. Als im vergangenen Sommer Alexa bereits 1200 solcher Skills anbieten konnte, waren es bei Apples Siri gerade mal 6. Inzwischen gibt es mehr als 10 000 Skills für Alexa. Nicht alle sind ausgereift oder relevant, aber das Gleiche gilt für Apps in den Stores von Apple und Google oder für klassische Websites. Die Masse macht’s.

Für Amazon ist es auch am einfachsten, mit Voice Geld zu verdienen. Laut einer Studie haben im vergangenen Jahr 32 Prozent aller Echo-Besitzer mindestens einmal etwas per Spracheingabe bei Amazon bestellt (82 Prozent dieser Kunden nutzten Musikdienste, 46 Prozent verwendeten Lichtsteuerung). Doch Amazon verdient nicht nur, wenn Nutzer per Spracheingabe Hundefutter bestellen: Hörbücher, die Alexa vorliest, kommen selbstverständlich von der Konzerntochter Audible, und als Musikdienst ist Amazon Music voreingestellt. All das liefert zusätzliche Anreize, eine Prime-Mitgliedschaft abzuschließen – und somit nicht nur 69 Euro pro Jahr zu bezahlen, sondern zu Amazons überdurchschnittlichen Umsatzbringern zu gehören.

Und zu guter Letzt treibt Alexa Amazons Cloud-Geschäft namens Amazon Web Services (AWS) an. Auf AWS speichern Tausende andere Dienste und App-Entwickler ihre Anwendungen samt Kundendaten. Amazon verdient also indirekt auch an jedem Witz mit, den Alexa erzählt, an jedem abgerufenen Bundesliga-Ergebnis, an jedem gedimmten Wohnzimmerlicht. Zumindest wenn die entsprechenden Skills bei AWS gehostet werden und eine gewisse Menge an Gratis-Traffic überschreiten, den Amazon den Entwicklern zugesteht.

AWS ist inzwischen zu einem Geschäft mit mehr als zwölf Milliarden Dollar Jahresumsatz geworden, das sich Experten der Deutschen Bank zufolge bis zum Jahr 2018 beinahe verdoppeln soll. „Auf Dauer könnte AWS zum größten Geschäft von Amazon werden“, sagte dessen Chef Andy Jassy vergangenen November.

Google setzt ebenso wie Amazon auf eine offene Schnittstelle, die es Entwicklern erlaubt, Erweiterungen für den Google Assistant zu programmieren. Noch sind es keine 10 000, aber Amazons Vorsprung könnte schrumpfen – auch weil Google den Assistant möglichst schnell in immer mehr Geräten verfügbar machen will. Hier könnte es sich rächen, dass Amazon 2014 mit seinem Fire Phone floppte und deshalb bei den mobilen Endgeräten auf seine Tablets beschränkt bleibt. Der Google Assistant hingegen wird bald auf jedem Smartphone bereitstehen, das auf einer der neueren Android-Varianten läuft.

Googles Hauptproblem ist jedoch das Geschäftsmodell: Die Werbung, mit der das Unternehmen 2016 mehr als 79 Milliarden Dollar Umsatz machte, wird in gesprochener Form entschieden weniger akzeptiert. Das wurde deutlich, als Nutzer sich über einen Hinweis auf einen neuen Disneyfilm aufregten, der ihnen im Rahmen ihrer täglichen Nachrichtenzusammenfassung vorgespielt wurde. Es habe sich dabei nicht um bezahlte Werbung gehandelt, sondern nur um einen Hinweis, beeilte sich Google zu versichern.

Ähnlich verhält es sich mit Microsoft. Die Sprachassistentin Cortana könnte immerhin dazu dienen, zahlende Abonnenten für die Office-365-Anwendungen und Dynamics-Business-Software zu gewinnen. Durch Vorinstallation in Windows 10 ist Cortana auf stationären Rechnern durchaus präsent, auf allzu vielen Smartphones oder Drittanbieter-Hardware ist sie (ebenso wie Samsungs Assistent Bixby) allerdings nicht vertreten.

Für Apple könnte die Verschiebung hin zur Spracheingabe das Geschäft mit der Apple Watch weiter befördern, denn die ist als Eingabegerät sowohl zu Hause als auch unterwegs gut geeignet. Einen „schlauen“ Lautsprecher für die Küche oder das Wohnzimmer bietet Apple bisher nicht an, im Zusammenspiel mit dem Bezahldienst Apple Music und dem Kopfhörerhersteller Beats wäre das jedoch denkbar.

Auch Facebook hat sich entschlossen, am Wettlauf der digitalen Assistenten teilzunehmen. Im Kampf der mobilen Betriebssysteme hatte der Konzern sich seine Position gesichert, indem er mit seinen Apps (von Facebook Messenger über Whatsapp bis Instagram) einfach auf beide Rivalen iOS und Android aufsetzte. Indem diese Apps zum beliebten Verweilort der Nutzer wurden, wurde Facebook quasi zum Betriebssystem im Betriebssystem. Anfang April hat Facebook seinen digitalen Assistenten „M“ freigeschaltet, der bereits vor einem Jahr angekündigt worden war. M verfügt allerdings über keine eigene Stimme.

Noch nicht: Für sein eigenes Zuhause hat sich Facebook-Chef Mark Zuckerberg bereits einen sprechenden Assistenten programmiert – mit der Stimme des Schauspielers Morgan Freeman.

IV. Fazit

Die Hotelkette Marriott veranstaltet derzeit einen Vergleichstest zwischen Alexa und Siri. Der Hotelier Steve Wynn hat sich bereits entschieden und installiert in seinem Luxushotel in Las Vegas Echos in allen 4700 Gästezimmern. Darüber hinaus plant Amazon nach Branchenberichten, seine Sprachsteuerung als neue Dienstleistung für Callcenter anzubieten.

Trotzdem ist noch längst nicht klar, wer das Rennen um die Vorherrschaft bei der Sprachsteuerung gewinnen wird. Fest steht, dass sich alle großen Technikkonzerne viel davon versprechen – auch wenn sie teilweise unterschiedliche Wege beschreiten, um ans Ziel zu gelangen. Einfach ist es auf keiner dieser Routen. Das weiß auch Deborah Harrison, die bei Microsoft ein 20-köpfiges Team von Autoren leitet, die Cortana mit cleveren und unterhaltsamen Antworten auf die endlose Menge an möglichen Fragen füttern, die von den Nutzern kommen könnten. Harrison hat ein ganz eigenes Bild für das Voice-Wettrennen gefunden: „Es ist ungefähr so, als ob man sich die Hose anzuziehen versucht, während man zu Hause den Flur entlangrennt.“ ---

„Sprache ist das, was den Menschen von allen anderen Lebewesen unterscheidet. Es ist eine verdammt harte Nuss.“

Xuedong Huang

„Auf Dauer könnte AWS zum größten Geschäft von Amazon werden.“

Andy Jassy

Mehr aus diesem Heft

Idea
Read