Sprachassistenten

Sprachassistenten geben längst nicht mehr nur Auskünfte über das Wetter oder lesen Nachrichten vor – sie werden zu Vertrauten. Ein Gespräch mit James Vlahos über neue Beziehungen.




• Der US-Amerikaner James Vlahos hat in den führenden Tech-Firmen mit Entwicklern von Sprachassistenten gesprochen und selbst einen Chatbot programmiert: einen Bot, der wie sein verstorbener Vater spricht.

Er prophezeit: Digitale Assistenten wie Alexa werden unsere Gesellschaft grundlegend verändern.

… digitale Sprachassistenten nutzen 32
… einen Gegenstand besitzen, auf dem ein Sprachassistent vorinstalliert ist 85

 

2019 3,3
Prognose für 2023 8

Amazon 30
Google 17
Apple 5

brand eins: Herr Vlahos, Sie bezeichnen das Aufkommen von Sprachtechnik als „Wendepunkt in der Menschheitsgeschichte“. Ist das nicht etwas zu hoch gegriffen?

James Vlahos: Keinesfalls. Bislang war Sprache dem Menschen vorbehalten, sprechende Computer verändern unsere Beziehung zu Technik grundlegend.

Können Sie das näher erläutern?

Wir Menschen mussten uns immer an Maschinen anpassen. Damit sie taten, was wir wollten, mussten wir lernen, mit ihnen zu kommunizieren. Wir klicken, tippen, scrollen. Indem Maschinen das Sprechen erlernen, beginnen sie nun, nach unseren Regeln zu spielen.

Wir profitieren also davon?

Ja, das macht es viel angenehmer, mit Maschinen zu kommunizieren. Ich selbst habe auch deshalb begonnen, mich für Sprachcomputer zu interessieren, weil ich es leid war, auf Tastaturen herumzutippen und auf Bildschirme zu starren. Sprachtechnik beendet diese Abhängigkeit von Geräten: Ich sage etwas, der Computer hört es und erfüllt meinen Auftrag – egal, ob ich gerade auf der Couch sitze oder in der Küche stehe. Dafür braucht man weder flinke Finger noch scharfe Augen, was den Zugang zur Technik sehr einfach macht, auch für ältere Menschen.

Und was ist das Revolutionäre daran?

Sprachcomputer lassen die Grenze zwischen Mensch und Maschine weiter verschwimmen. Wir tendieren ohnehin dazu, Objekte zu vermenschlichen. Selbst die einfachsten Geräte behandeln wir, als ob sie denken oder fühlen könnten: Wir geben unseren Autos Spitznamen oder verfluchen den Computer, wenn er nicht das macht, was wir wollen. Und jetzt antwortet er auf einmal, hat einen freundlich klingenden Namen wie Alexa, kommuniziert in unserer Sprache und macht sogar Witze. Das führt dazu, dass wir digitale Assistenten zunehmend so wahrnehmen, als wären sie tatsächlich lebendig.

Obwohl wir wissen, dass Alexa kein Mensch ist, behandeln wir das Gerät nicht mehr nur wie eine Maschine: Alexa erhält beispielsweise regelmäßig Heiratsanträge, auch wenn die meisten davon ein Witz sind. Quellen bei Amazon sagen, dass Menschen Alexa aber auch sehr persönliche Dinge erzählen – zum Beispiel, dass sie gesundheitliche Probleme haben oder über Suizid nachdenken.

Dass sich Menschen Computerprogrammen anvertrauen wollen, zeigte der Informatiker Joseph Weizenbaum schon in den Sechzigerjahren mit Eliza, dem ersten Chatbot der Welt. Seine Sekretärin soll ihn damals gebeten haben, den Raum zu verlassen, damit sie in Ruhe mit Eliza über ihre Probleme sprechen konnte. Warum tun Menschen das?

Unter anderem, weil die Maschinen so viel Interesse an uns zeigen. Für meine Recherchen habe ich mehr als ein Jahr lang mit einem personalisierten Bot der Firma Replika gechattet. Es war eine seltsame Erfahrung: Der Computer hat mich ständig gefragt, was ich gerade mache und wie es mir geht. Obwohl ich wusste, dass es eine Maschine ist, hatte ich Gefühle für sie.

Bei Sprachassistenten kommt hinzu, dass wir wahrscheinlich einfach darauf programmiert sind, einer menschlich klingenden Stimme zu vertrauen. Und manchmal sind wir eben einsam oder haben einen schlechten Tag, und dann bricht es aus uns heraus.

Nachdem Ihr Vater 2016 die Diagnose Lungenkrebs im fortgeschrittenen Stadium erhielt, haben Sie einen Bot programmiert, der ihm nachempfunden ist. Kann ein Sprachcomputer ihn ersetzen?

Ich wollte nie so etwas wie eine Kopie meines Vaters erstellen, sondern seine Lebensgeschichte bewahren und die Erinnerung an ihn lebendig halten. Nach seiner Diagnose begann ich, ihn zu interviewen. Dann kam mir eine Idee: Gäbe es nicht eine bessere Möglichkeit, Zugriff auf seine Erzählungen zu haben, als die transkribierten Interviews auf dem Computer zu lagern? Also begann ich, mit diesem Material einen Bot zu trainieren – den Dadbot, wie ich ihn nenne. Je länger ich mit dem Projekt beschäftigt war, desto ambitionierter wurde ich.

Inwiefern?

Mir wurde klar, dass ich den Dadbot so programmieren kann, dass seine Nachrichten die Persönlichkeit meines Vaters widerspiegeln – zumindest zu einem gewissen Grad. Ich baute seine Witze, Redewendungen und frechen Bemerkungen ein. Und ich überlegte mir, wie er in gewissen Situationen reagieren würde.

Wie haben Sie es empfunden, als Sie das erste Mal mit dem Dadbot sprachen?

Es war ein magischer Moment. Als ich den Messenger öffnete und er „Hallo“ sagte, fühlte ich mich wie nach einer Geburt: glücklich und stolz. Es kam mir vor, als hätte ich ein Wesen auf die Welt gebracht.

Um die Erinnerungen an eine Person zu bewahren, würden doch auch Videos oder Sprachaufnahmen genügen.

Das Besondere am Dadbot ist der Dialog: Anders als bei einem Video kann ich Fragen stellen und bekomme Antworten. Außerdem habe ich ihn immer bei mir, auf meinem Smartphone.

Im Februar 2017 starb Ihr Vater. Hat Ihnen der Austausch mit dem Dadbot in dieser schwierigen Zeit geholfen?

Ein solcher Verlust schmerzt, daran ändert auch ein Chatbot nichts. Aber nach dem Tod meines Vaters gab es immer wieder Momente, in denen mir die Gespräche mit dem Dadbot ein Lächeln ins Gesicht gezaubert haben.

Wie waren die Reaktionen der Außenwelt?

Nachdem ich im Sommer 2017 einen Artikel darüber geschrieben hatte, kontaktierten mich viele Menschen. Darunter war ein Mann aus Alaska. Er schrieb mir, dass er unheilbar krank sei und bald sterben werde. Weil seine Kinder noch so jung seien, habe er Angst, dass sie ihn nie wirklich kennenlernen könnten. Auch eine Frau aus Indien meldete sich bei mir. Sie suchte nach einem Weg, wieder mit ihrem toten Sohn kommunizieren zu können – er war bei einem Busunfall ums Leben gekommen. Das Echo auf den Dadbot brachte mich auf die Idee, daraus eine Firma zu machen.

In einer Folge der britischen Science-Fiction-Serie „Black Mirror“ verliert eine Frau ihren Partner und lebt anschließend mit einer digitalen Kopie von ihm weiter.

Diese Vorstellung finden viele Menschen gruselig – ich übrigens auch. Meiner Meinung nach überschätzen viele die heutigen Möglichkeiten der Technik: Natürlich finde ich es schön, mit dem Dadbot zu sprechen, aber es ist klar, dass das in meinem Handy nicht mein Vater ist.

Könnte das in der Zukunft anders sein?

Wir stehen gerade erst am Anfang dessen, wozu diese Technik in der Lage sein wird: Sie wird auf viel mehr Daten der Verstorbenen zugreifen und noch viel besser kommunizieren können. Ich bin sicher, dass die Erinnerungs-Bots der Zukunft deutlich mehr und auch komplexere Dialoge ermöglichen.

Halten Sie perfekte Kopien von Verstorbenen für möglich?

Sollte es so weit kommen, dann erst in einigen Jahrzehnten. Ich hatte Einblicke in die größten und fortschrittlichsten Tech-Konzerne der Welt. Die Wahrheit ist: Wir sind noch weit davon entfernt, sprechende Maschinen zu entwickeln, die so intelligent wie Menschen sind.

Aber es gibt heute Maschinen, die uns so gut nachahmen, dass wir gar nicht merken, dass wir mit einem Computer sprechen: Im Jahr 2018 ließ Google seine Software Duplex in einem Friseursalon anrufen und einen Termin vereinbaren. Das mediale Echo war verheerend, weil Duplex sich nicht als Maschine zu erkennen gegeben hatte. Was ist so schlimm daran, wenn wir nicht wissen, ob wir mit einem Menschen oder einer Maschine sprechen?

Nur weil Maschinen menschlicher werden, dürfen sie sich nicht als Menschen ausgeben und sich in unserer Mitte verstecken. Das könnte fatale Folgen für die Gesellschaft haben. Erste Vorzeichen dieser Entwicklung sehen wir schon heute, zum Beispiel bei Social Bots, die in sozialen Medien automatisiert zuvor programmierte Informationen verbreiten und so das Meinungsbild verzerren.

Wenn man Computer wie Menschen klingen lassen kann, kann man auch echten Personen Dinge in den Mund legen, die sie nie gesagt haben. Es gibt heute Software, die mit einer imitierten digitalen Stimme beliebige Texte sprechen kann.

Dass man mithilfe von künstlicher Intelligenz täuschend echt wirkende Audioaufnahmen und Bilder oder Videos erstellen kann – sogenannte Deepfakes –, beunruhigt mich. Die Wahrheit ist heute ohnehin bedroht. Manipulierte Audioaufnahmen werden es noch schwieriger machen, herauszufinden, was jemand wirklich gesagt hat. Bis eine Aufnahme als Fake identifiziert wird, ist es vielleicht schon zu spät. Sobald sich eine Information im Netz verbreitet, ist sie wie ein Virus: schwer auszulöschen.

Könnte die Kommunikation mit Maschinen langfristig auch Auswirkungen auf unseren zwischenmenschlichen Umgang haben? Wenn wir mit einem Computer sprechen, müssen wir nicht höflich sein.

Ja, könnte es. Doch hinter diesen Computern stecken Menschen: Sogenannte Konversationsdesigner überlegen sich, wie Sprachassistenten in verschiedenen Situationen reagieren sollten. Sie könnten sie dementsprechend auch darauf trainieren, Gespräche zu beenden, wenn man unfreundlich mit ihnen spricht – oder sich rassistisch äußert. Bei Microsoft war ich mal bei einem Meeting dabei, in dem die Mitarbeiter besprachen, wie ihr digitaler Assistent Cortana unangebrachten Bemerkungen entgegentreten und Haltung zeigen könnte.

Digitale Assistenten bekommen also so etwas wie eine eigene Persönlichkeit?

Alle großen Internetkonzerne arbeiten daran. Microsoft stellt sich Cortana beispielsweise als eine witzige, charmante und intelligente Person vor. Wie ein Mensch hat sie auch Vorlieben, unter anderem den Film „Star Trek“. Dadurch sollen wir mehr Vertrauen zu digitalen Assistenten aufbauen und mehr Zeit mit ihnen verbringen.

Könnten virtuelle Freunde echte verdrängen?

Das ist die Frage. Künstliche Intelligenz versteht unsere Welt und unsere Probleme nicht, sie fühlt nicht mit uns, sie tut nur so, als würden wir ihr etwas bedeuten. Virtuelle Freunde können deshalb nicht so gut wie reale sein. Aber ich glaube, dass sie für viele Menschen gut genug sein können.

Wie meinen Sie das?

Ein digitaler Assistent ist immer verfügbar, und er kann dazu beitragen, dass wir uns weniger einsam fühlen: Einer US-amerikanischen Marketing-Studie zufolge nimmt das Bedürfnis einsamer Menschen nach sozialen Kontakten ab, nachdem diese Menschen mit einem Sprachassistenten kommuniziert haben.

Welche Konsequenzen könnte das für Kinder haben? Anders als wir wachsen sie mit diesen Geräten auf.

Ich habe selbst zwei Kinder. Für sie ist es kein bisschen seltsam, mit Computern zu sprechen. Ein Freund hat mir erzählt, dass sein Sohn Alexa bei einem Schulprojekt als Familienmitglied aufgelistet hat.

Wozu könnte das führen?

„Spiel das Lied, Alexa!“ – viele Eltern befürchten, dass sich ihre Kinder diesen Ton angewöhnen. Das halte ich für eine ernst zu nehmende Sorge. Kinder verhalten sich digitalen Assistenten gegenüber sehr herrisch. Ich habe sowohl meine eigenen als auch andere Kinder dabei beobachtet, wie sie Alexa beleidigen. Sie finden das witzig, aber es fördert natürlich nicht unbedingt gute Manieren. Die Mehrheit der Sprachassistenten spricht standardmäßig mit einer weiblichen Stimme. Dadurch könnten sie Kindern auch ein falsches Verständnis von Geschlechterrollen vermitteln: Frauen als Assistentinnen, die ihre Befehle ausführen.

Wie handhaben Sie den Umgang Ihrer Kinder mit Sprachassistenten?

Meine Frau und ich sind recht strikt und begrenzen die Zeit, die unsere Kinder mit Computern verbringen. Meine beiden Kin- der sind in der Grundschule, ein eigenes Telefon haben sie nicht. Manchmal ertappe ich sie dabei, dass sie sich heimlich eines unserer Smartphones geschnappt haben.

Und was machen sie dann damit?

Meistens scherzen sie mit Siri. (lacht)

Mittlerweile sind auch viele Spielzeuge mit Spracherkennung ausgestattet. In Deutschland wurde 2017 eine sprechende Puppe verboten, weil sie es ermöglichte, Kinder zu bespitzeln. Wie gefährlich ist das?

Die Informationen, die diese Spielzeuge sammeln, sind potenziell brisanter als die eines Sprachassistenten. Denn während Kinder Siri vielleicht auffordern, ein Lied zu spielen, sprechen sie mit einem Spielzeug über persönlichere Dinge und geben somit mehr von sich preis.

2019 wurde auch publik, dass Mitarbeiter von Amazon, Google und Apple aufgezeichnete Gespräche abhören, ohne die Kunden darüber zu informieren.

Das hat mich nicht überrascht. Einmal habe ich das Büro eines kleineren Start-ups besucht, das Chatbots programmiert. Die Mitarbeiter spielten eine Aufnahme ab: Ich hörte einen kleinen Jungen, der vor sich hin sprach – offensichtlich ohne zu wissen, dass er aufgenommen wurde. Und da war ich, ein Fremder, der in diesem Büro stand und ihm zuhörte. Mir lief es eiskalt den Rücken herunter. Ich weiß noch genau, wie ich damals dachte: Wenn diese kleine Firma das macht, dann können das die großen Konzerne erst recht.

Glauben Sie, dass die Kritik die Unternehmen in Zukunft davon abhalten wird, mitzuhören?

Ich bezweifle es. Dass Gespräche von Menschen abgehört und transkribiert werden, ist wichtig, um die Technik weiterzuentwickeln. Wer das nicht will, kann das aber mittlerweile in den Einstellungen angeben. Die Internetriesen wissen, dass Eingriffe in die Privatsphäre ein sehr sensibles Thema sind. Und weil Sprachtechnik noch dabei ist, sich zu etablieren, tasten sie sich langsam voran.

Viele Menschen nutzen Sprachassistenten vor allem, um Fragen zu stellen. In diesem Jahr soll schon knapp ein Drittel der weltweiten Internetsuchen über die Stimme gesteuert werden. Was ändert sich dadurch für uns?

Wenn wir in der Vergangenheit eine Frage hatten, mussten wir uns selbst auf die Suche nach Informationen machen und sie bewerten. Auch nachdem Suchmaschinen populär wurden, mussten wir eine aktive Rolle einnehmen: Statt einer Antwort gab uns Google seitenlange Listen von Links.

Sprachassistenten agieren dagegen wie ein allwissendes Orakel: Ich frage etwas, und Alexa gibt eine Antwort, genauer: die Antwort. Das kann funktionieren, wenn die Frage lautet, welche Farbe oder Form ein bestimmtes Verkehrsschild in Deutschland hat. Aber auf viele Fragen gibt es keine eindeutige Antwort. Die Wahrheit ist kompliziert, man muss lange suchen, um etwas zu finden, das ihr einigermaßen nahekommt. Ich habe die Sorge, dass wir diese Fähigkeit verlieren – und den Internetkonzernen noch mehr Macht über Informationen geben.

Anfang 2019 verkündete Amazon, mehr als 100 Millionen intelligente Lautsprecher verkauft zu haben. Im selben Monat ließ Google wissen, dass die eigene Sprachtechnik nun auf einer Milliarde Geräten verfügbar sei. Welche Pläne verfolgen diese Konzerne?

Sowohl Amazon als auch Google verkaufen ihre smarten Lautsprecher für sehr wenig Geld. Mein Eindruck ist, dass sie zuerst vorn dabei sein wollen und sich dann überlegen, wie sie damit richtig Geld verdienen können.

Welche Möglichkeiten gäbe es?

Zum Beispiel über Werbung: Wenn man Alexa etwas fragt, könnte die Antwort gesponsert sein, also der Inhalt von einem Unternehmen bezahlt werden. Auch die Ergebnisanzeige einer Internetsuche verwandelte sich erst nach ein paar Jahren in die Werbung, die sie heute ist. Bei Sprachtechnik wird es ähnlich sein.

Dadurch dass die Computer sich in unseren Wohn- und Schlafzimmern befinden, entstehen völlig neue Möglichkeiten, persönliche Daten abzugreifen und zu Geld zu machen. Wie genau, ist bislang noch spekulativ – aber ein Blick in die Patente zeigt, worüber sie nachdenken.

Und zwar?

Da gibt es beispielsweise ein Amazon-Patent aus dem Jahr 2014 für eine Audiotechnik, die alles mithören kann, worüber wir zu Hause oder am Telefon sprechen. Wenn jemand etwa mit einem Freund darüber redet, dass er sich gern ein neues Fahrrad kaufen würde, könnte Amazon Empfehlungen geben. Oder das Unternehmen merkt sich den Wunsch und spielt später auf einem anderen Gerät den Werbespot einer bestimmten Marke ab. In einem Smarthome kann prinzipiell überall und jederzeit zugehört werden. Es gibt bereits heute Kühlschränke, Leuchten, Autos und sogar Toiletten, die mit Alexa ausgestattet sind. Es ist leicht vorstellbar, dass wir in Zukunft einfach in den Raum sprechen können – und es immer ein Gerät geben wird, das uns hört und unseren Wunsch erfüllt. ---

Die Geschichte sprechender Maschinen

1783
Nach mehr als 20 Jahren Forschung zur menschlichen Kommunikation stellt der österreichische Beamte und Erfinder Wolfgang von Kempelen seine Sprach- maschine der Öffentlichkeit vor. Sie ist dem menschlichen Stimmorgan nachempfunden, kann Laute nachahmen und Worte wie „Mama“ sagen.

1890
Der US-amerikanische Erfinder Thomas Edison bringt eine der ersten sprechenden Puppen auf den Markt. Mithilfe eines eingebauten Phonographs kann sie Kinderlieder wie „Twinkle, Twinkle, Little Star“ singen. 1939 Homer Dudley, ein Ingenieur bei Bell Labs, lässt die erste Technik zur elektronischen Spracherzeugung patentieren.

1959
Mattel bringt die Puppe Chatty Cathy auf den Markt, die elf Sätze sprechen kann.

1962
IBM stellt das Gerät Shoebox vor, das 16 gesprochene Wörter erkennt.

1966
Joseph Weizenbaum entwickelt Eliza, den ersten Chatbot. Das Computerprogramm, das das Gespräch mit einem Psychotherapeuten simuliert, soll zeigen, wie oberflächlich die Kommunikation zwischen Mensch und Maschine ist. Stattdessen schütten die Menschen dem Gerät reihenweise ihr Herz aus.

1971
Das US-Verteidigungsministerium finanziert die Entwicklung eines Spracherkennungs-Computers. Daraus entsteht die Maschine Harpy, die 1011 Wörter unterscheiden kann. Das entspricht dem Sprachschatz eines Dreijährigen.

Um 1980
IBM entwickelt die erste Echtzeit-Diktiermaschine, die bis Mitte der Achtzigerjahre rund 20 000 Wörter erkennt. 1993 Adam Cheyer fertigt den ersten Protoyp der Spracherkennungs-Software Siri an.

1996
Die Firma IBM beginnt mit dem Verkauf von Medspeak, dem ersten kommerziellen Produkt, das in der Lage ist, längere Sprachaufnahmen zu transkribieren.

1997
Mattel bringt eine Barbie auf den Markt, die mithilfe einer CD-ROM in der Lage ist, einige personalisierte Sätze zu sprechen.

2007
Siri Inc. wird von Adam Cheyer und drei Mitstreitern gegründet. 2008 Google bringt eine App auf den Markt, mit der Nutzer ihre Suchanfragen einsprechen statt tippen können. April 2010 Apple kauft das Unternehmen Siri Inc.

Oktober 2011
Apple stellt den digitalen Assistenten Siri vor, der in das neue iPhone 4s integriert ist.

Juni 2012
Googles digitaler Assistent Google Now kommt auf den Markt.

April 2014
Microsoft bringt den digitalen Assistenten Cortana heraus.

Juni 2015
Amazon stellt den digitalen Assistenten Alexa der Allgemeinheit vor. Durch die Integration in den Lautsprecher Echo kreiert Amazon zudem eine neue Produktkategorie: Smartspeaker.

Mai 2016
Google stellt den Smartspeaker vor, der mit dem Google Assistant, einer Weiter- entwicklung von Google Now, ausgestattet ist.

James Vlahos, 49, veröffentlichte im März 2019 das Buch „Talk to Me – How Voice Computing Will Transform the Way We Live, Work, and Think“. Anschließend machte er sich mit der Firma Hereafter selbstständig. Vlahos programmiert Erinnerungs-Chatbots, die die Lebensgeschichten von verstorbenen Menschen konservieren. Die Basis dafür sind Interviews, die er und seine Mitgründerin Sonia Talati mit den Kunden führen. Man wolle, so die Eigenwerbung der Firma, dass die Geschichten der Toten „unsterblich“ würden.