Partner von
Partner von

Unsere Stimme verrät unsere Stimmung

Eine bayerische Firma hat eine Technik entwickelt, die unsere Kommunikation mit Maschinen vereinfachen und Hinweise auf Krankheiten geben soll. Besuch bei einem Pionier.





Florian Eyben und Dagmar Schuller nutzen sie für ihr Geschäft

• Das Telefon klingelt. Schon bevor der Callcenter-Mitarbeiter den Anruf entgegennimmt, weiß er: Der Anrufer ist richtig auf der Zinne. Jetzt ist Fingerspitzengefühl gefragt. Der Mitarbeiter geht verständnisvoll auf den Kunden ein – und sieht auf seinem Bildschirm anhand einer roten Linie, wie der sich beruhigt. So funktioniert eine Software der Firma Audeering. Während der Anrufer dem Sprachcomputer zu Beginn sein Anliegen mitteilt, erkennt die Technik seinen Gefühlszustand anhand der Stimme. Schon ein Wort oder eine Zahl genüge, um einen Hitzkopf zu identifizieren, sagt Florian Eyben, Mitgründer der Firma, der das Prinzip erläutert. Das Programm namens Callaiser sei bereits bei mehreren Callcentern im deutschsprachigen Raum im Einsatz.

Audeering hat seinen Sitz im Gewerbegebiet der oberbayerischen Gemeinde Gilching. Hier arbeiten unter anderem Informatiker, Elektroingenieure und Linguisten daran, die Kommunikation zwischen Mensch und Maschine zu verbessern. Die Firma hat eine Software entwickelt, die aus wenigen Sekunden langen Audioaufnahmen mehr als 6000 verschiedene Parameter herausfiltert. Der Inhalt ist sekundär – analysiert werden unter anderem die Tonhöhe, Klangfarbe, Betonung und der Sprachrhythmus.

So soll die Technik nicht nur das ungefähre Alter und das Geschlecht des Sprechers erkennen, sondern auch mehr als 50 verschiedene emotionale Zustände. Die Zukunft stellt man sich im Unternehmen so vor: Schon beim Heimkommen erkennt der Sprachassistent an unserer Stimme, dass wir einen langen und anstrengenden Tag hinter uns haben. Um uns aufzuheitern, schlägt er die neueste Episode unserer Lieblingsserie vor und lässt ein heißes Bad ein.

Audeering bezeichnet sich selbst als „Innovationsführer auf dem Gebiet der emotionalen Sprachanalyse“. Die Arbeit der Firma basiert auf der langjährigen Forschung von Professor Björn Schuller, der am Lehrstuhl für Mensch-Maschine-Kommunikation der Technischen Universität München tätig war. Im Jahr 2009 waren Schuller und sein Team die Ersten, die Deep-Learning-Methoden zur Analyse von Audiodaten einsetzten. Dabei lernen Computer anhand von Erfahrungen – in diesem Fall anhand einer riesigen Menge an Stimmdaten – Muster in der Sprache zu erkennen, die auf verschiedene Gefühlszustände hinweisen (siehe oben).

Im Laufe der Zeit erhielt der Lehrstuhl immer mehr Anfragen, irgendwann nicht mehr nur für Forschungsprojekte, sondern auch aus der Industrie. Im Dezember 2012 gründeten Schuller, drei seiner Doktoranden und seine Frau Dagmar Schuller Audeering. „Damals haben wir gesagt: Die Zeit ist jetzt genau richtig, weil Sprachassistenten den Markt erobern und Einzug in die Haushalte halten“, sagt Eyben, der zu diesem Zeitpunkt bei Björn Schuller promovierte. Für den ersten größeren Auftrag im Jahr 2014 arbeitete Audeering mit dem Marktforschungsunternehmen GfK zusammen. Anschließend folgten mehrere Projekte mit den Konzernen Deutsche Telekom und Huawei.

Abbildung: © Audeering GmbH

Diese Kurven zeigen Callcenter-Mitarbeitern, wie ärgerlich ein Anrufer ist (rot) – und wie sie selbst rüberkommen (grün). Maschinen lernen anhand großer Datenmengen, Muster in der Stimme zu identifizieren und diese später wiederzuerkennen. Den Audioproben, die sie zum Lernen erhalten, müssen Menschen vorab die passende Emotion zuordnen. Faktoren, die dabei eine große Rolle spielen, sind Erregtheit und Valenz. Erstere beschreibt, wie aktivierend eine Emotion wirkt: Ärger geht mit einem hohen Grad an Erregtheit einher, Zufriedenheit mit einem niedrigen. Die Valenz gibt an, ob eine Emotion eher positiv (Freude) oder negativ (Trauer) einzuordnen ist. Sowohl Freude als auch Ärger sind stark aktivierende Gefühle, unterscheiden sich aber durch die jeweilige positive oder negative Valenz. Audeering greift für seine Analy- sen vor allem auf eigens erhobene Audiodaten zurück. Zusätzlich nutzt das Unternehmen frei verfügbare Daten, darunter lizenzfreie Youtube-Videos.

Diagnose per Smartphone

Annette Zimmermann, Analystin beim IT-Beratungs- und Marktforschungsunternehmen Gartner, beobachtet den Markt für sogenannte emotionssensitive Technik bereits seit einigen Jahren. Sie prognostiziert, dass der Anteil von Smartphones und anderen persönlichen Geräten, die Emotionen erkennen und analysieren können, innerhalb der nächsten drei Jahre auf zehn Prozent steigen wird. Mithilfe der großen Menge an Daten, die Menschen ihnen zur Verfügung stellen, könnten sie den Nutzer sehr gut kennenlernen: „Im Jahr 2022 werden unsere mobilen Geräte mehr über unseren emotionalen Zustand wissen als unsere Familie.“

Bislang sind es Start-ups und kleinere Firmen, die den Markt dominieren. Die Ideen reichen von Persönlichkeitsanalysen potenzieller Bewerber über Glaubwürdigkeitstests für die Versicherungsbranche bis hin zu Videospielen, die die Handlung an das Stresslevel des Spielers anpassen. Zimmermann sieht Audeering als eines der führenden Unternehmen – es liefere die akkuratesten Analysen in kürzester Zeit und sei die „Benchmark der Industrie“.

Das sieht offenbar auch der dänische Konzern GN so, der Anfang 2018 eine Minderheitsbeteiligung erwarb. Die Aktiengesellschaft ist auf Audiolösungen spezialisiert. Wie viel GN investiert hat, darüber schweigt Audeering ebenso wie über die Umsätze. Offenbar war es genug, um das Team um 30 Mitarbeiter aufzustocken und eine Dependance in Berlin zu gründen. Auch über eine Expansion nach China denkt man nach. Dagmar Schuller sagt, es gehe jetzt darum, die Führungsposition weiter auszubauen.

Vielversprechend erscheint der Firma der Medizinmarkt. Denn die Stimme verrate viel über unsere Gesundheit, sagt Florian Eyben. Sie gebe etwa Hinweise auf Nervenkrankheiten wie Parkinson oder Demenz – Krankheiten, deren Verbreitung zunimmt, weil die Menschen immer älter werden. Forscher schätzen, dass sich allein die weltweite Zahl der Parkinson-Erkrankungen bis zum Jahr 2040 mehr als verdoppeln könnte.

Bislang ist der Weg zur richtigen Art und Dosierung der Medikamente für Patienten ein zermürbender Prozess. Abhilfe schaffen soll eine Datenbrille, die Audeering gemeinsam mit dem britischen Unternehmen Emteq entwickelt hat und die derzeit getestet wird. Mit ihr sollen Ärzte den Krankheitsverlauf kontinuierlich beobachten und Therapien individualisieren können. Die Brille zeichnet neben der Stimme auch den Gesichtsausdruck und die Bewegungen des Trägers auf. Mit diesen Informationen soll sie in der Lage sein, Parkinson bereits Monate vor dem Auftreten erster Symptome zu diagnostizieren. Auch psychische Erkrankungen wie Depressionen schlügen sich in der Sprache nieder, sagt Eyben.

Im Rahmen eines EU-geförderten Projektes arbeitet Audeering an einer Depressions-App für Jugendliche. Viele behielten ihre Nöte für sich, weil sie sich schämten. Deshalb würden Anzeichen für Depressionen oft zu spät bemerkt. Die App soll wie ein Audio-Tagebuch funktionieren, dem Jugendliche ihren Kummer mitteilen können – und frühzeitig Hinweise auf eine mögliche Depression erkennen.

Der Sprach- und Kommunikationsforscher Walter Sendlmeier von der Technischen Universität Berlin beschäftigt sich seit mehr als 40 Jahren mit dem Thema. Er betrachtet die Stimme als Spiegel der Seele, sie „transportiert unser emotionales Befinden am differenziertesten“. Trotzdem warnt er vor der Annahme, man könne Emotionen überall und jederzeit einfach aus der Stimme extrahieren. Zwar ließen sich Basisemotionen, also sehr eindeutige Gefühlszustände wie Freude, Trauer oder Ärger, einigermaßen zuverlässig erkennen. Meistens lägen diese aber nicht in Reinform vor. „Im Alltag nehmen wir verschiedene soziale Rollen ein, die wir mehrfach täglich wechseln“, sagt Sendlmeier. So sprächen wir etwa mit einem Vorgesetzten wohlartikulierter und vielleicht auch zurückhaltender als mit einem Freund.

Kritisch sieht er Depressions-Diagnosen anhand der Stimme, denn Depressionen seien von Trauer schwer zu unterscheiden. In beiden Fällen spreche der Mensch mit gesenkter Stimme, monotoner Grundfrequenz und kaum vorhandener Betonung. Sendlmeier: „Deswegen dürfen wir uns bei der Diagnose auf gar keinen Fall auf Maschinen verlassen.“ Das könne zu Fehlurteilen mit verheerenden Folgen führen. „Zuversichtlicher bin ich bei Krankheiten, die mit Zittrigkeiten in der Stimme zusammenhängen, wie Parkinson oder Multiple Sklerose“, sagt der Wissenschaftler. Hier gebe es schon einigermaßen verlässliche Indikatoren, die auf eine spätere Erkrankung hinweisen. Sendlmeier selbst forscht daran, Parkinson anhand der Stimme zu diagnostizieren, und sieht großes Potenzial: „Wenn das zuverlässig funktioniert, dann könnte man solche Krankheiten schon sehr früh erkennen und zeitig eingreifen.“

Vielen ist das unheimlich

Doch das hat seinen Preis: Je besser smarte Geräte uns und unsere Krankheiten verstehen wollen, desto mehr Daten benötigen sie. Dadurch gehe die Privatheit nach und nach verloren, sagt Walter Sendlmeier. „Die Stimme ist eben auch etwas sehr Intimes, weil sie so viel über uns verrät.“ Deshalb müsse man aufpassen, dass diese Daten nicht in die falschen Hände gerieten. Was, wenn Versicherungen sie nutzen, um eine Art Patienten-Schufa zu etablieren? Der deutsche Ethikrat befürchtet, dass mithilfe von Big Data künftig risikoarme und damit lukrativere Kunden ausgewählt werden könnten.

Man sei mit Krankenkassen im Gespräch, sagt Florian Eyben. Für diese sei besonders die Depressionsprävention interessant. Die entsprechende App von Audeering sei vor allem als „Trainings-Tool“ oder zur Frühprävention gedacht. Sie könnte dabei helfen, den Umgang mit den eigenen Emotionen zu schulen, um besser mit belastenden Phasen umzugehen, und eine Ergänzung zur Psychotherapie sein. Ihm ist bewusst, dass die emotionale Sprachanalyse auch Risiken birgt. „Natürlich könnte die Technologie missbraucht werden. Die Gefahr, dass ich nicht weiß, dass ich analysiert werde, ist definitiv da.“

Den Nutzern zeige man daher stets, welche Daten die Software auswerte, sagt Eyben. „Und das Gleiche erwarten wir von unseren Firmenkunden.“ Um die Daten zu schützen, hat Audeering seine Software so konstruiert, dass sie auch ohne Internetzugang funktioniert, beispielsweise auf einer Smartwatch. „Wir müssen nicht wie bei Alexa, Google oder Siri alles an die Cloud schicken“, sagt Eyben. So sei es möglich, die persönlichen Daten lokal auszuwerten und verschlüsselt auf dem Gerät zu speichern. Wolle man sie mit bestimmten Personen, beispielsweise einem Arzt, teilen, könne man bewusst auswählen, welche Daten man übermittelt.

Stefan Heinemann, Professor für Wirtschaftsethik und Sprecher des Ethikgremiums der Universitätsmedizin Essen, findet, das Risiko sei es wert: „Der Nutzen, den die Gesundheit für die Menschen hat, ist so hoch, dass man sehr gute Argumente braucht, Optimierungsmöglichkeiten abzu- lehnen.“ Er prophezeit: „Die emotionale Sprachanalyse wird in Zukunft zum Standardrepertoire der Medizin gehören.“

Auch Amazon hat das Potenzial erkannt. Jüngst erhielt der Konzern das Patent für eine Technik, mit der der – bislang mehr als 100 Millionen Mal verkaufte – Sprachassistent Alexa den emotionalen und gesundheitlichen Zustand seiner Nutzer erkennen soll. Im Krankheitsfall sollen sie dann zum Beispiel die passenden Medikamente bei Amazon bestellen.

Für viele ist das keine angenehme Vorstellung: Laut einer Studie der Universität Siegen können sich nur 23 Prozent der Befragten vorstellen, einer Technik zu vertrauen, die ihre Befindlichkeit analysiert. Die Analystin Annette Zimmermann sieht dies als eine Hürde, die auch kleine Firmen wie Audeering nehmen müssen. Dessen ist sich Florian Eyben bewusst. „Es ist wichtig, dass wir in Deutschland eine Vorreiterrolle einnehmen, was den Datenschutz betrifft, und die Geräte so gestalten, dass der Kunde oder Patient die volle Kontrolle über seine Daten hat und auch weiß, was das Gerät über ihn weiß.“ So wünscht sich der Unternehmer im wohlverstandenen eigenen Interesse Vorgaben von der Politik. Denn, so Eyben: „Wenn jetzt alles nach Kalifornien in die Cloud geht, dann wissen viele nicht, welche Informationen da eigentlich gespeichert werden.“ ---