Partner von
Partner von

Wie groß ist Big Data?

Die Analyse riesiger Datenmengen macht Vorhersagen möglich, die bislang undenkbar waren. Das sollte die Wirtschaft grundlegend verändern – aber bislang waren vor allem die Versprechen der Anbieter groß.





• Gegen Big Data haben auch Grippewellen keine Chance. Die Daten aus Suchanfragen verraten uns, wo eine Epidemie ausbricht, in welche Richtung sie wandert. Mit konsequenten Hygienemaßnahmen und Impfaktionen können wir aus der Welt einen gesünderen Ort machen.

Es kommt von überall her. Es weiß alles. Sein Name ist Big Data. – Dilbert

Das ist die Kurzfassung eines Artikels in »Nature« aus dem Jahr 2008. Das US-amerikanische Wissenschaftsmagazin präsentierte eine Studie von Datenwissenschaftlern in Diensten von Google und Yahoo. Die konnten plausibel nachweisen: Wenn viele Leute Suchwörter wie „Grippesymptome“ oder „Apotheke in der Nähe“ eingeben, lassen sich geografische Ausbreitungen von Seuchen nahezu in Echtzeit berechnen, ohne dass irgendjemand mit einem einzigen Arzt sprechen muss. Die Anwendung dazu nannten sie GFT, Google Flu Trends.

Mit gesundem Menschenverstand leicht nachzuvollziehen war, dass die Methode um ein Vielfaches präziser und schneller sein würde als das gängige Verfahren des amerikanischen Centers for Disease Control and Prevention. Die Beamten der Behörde sammeln Fragebögen bei Arztpraxen zu Patientenzahlen ein und rechnen mit ein bis zwei Wochen Zeitverzögerung die gesundheitliche Lage der Nation hoch. Bei der Seuchenbekämpfung zählt aber jeder Tag.

Die Massendatenanalyse ermöglicht vorausschauendes Handeln. Nicht nur Google-Mitarbeiter nutzten das Beispiel für Marketingzwecke. Bei keinem Trendtag durfte die Anekdote vom Grippe-Ticker fehlen. Die Journalisten waren froh, endlich mal eine handfeste Story intelligenter Datennutzung schreiben zu können (der Autor dieses Textes gehörte dazu). Die Vertriebsleute von Business-Analytik-Software taten gern so, als hätten ihre Firmen am Grippe-Prognose-Algorithmus mitgeschrieben, und verbreiteten die Werbebotschaft: Was Flu Trends kann, können wir auch.

2011 hatte der Begriff Big Data dann ordentlich Karriere gemacht. Die Berater von McKinsey erkannten in Big Data „The next frontier“, die nächste große Herausforderung. Die Analysten der Beratungsfirma Gartner lieferten eine eingängige Definition. Das Phänomen Big Data sei gekennzeichnet von drei (englischen) Vs: Volume, Variety und Velocity. Soll heißen: Wir können aus immer größeren Mengen unterschiedlicher Daten immer schneller wertvolle Erkenntnisse ziehen und sogar in die Zukunft schauen.

Im Februar 2013 erschien wieder ein Artikel in »Nature« zu Google Flu Trends – mit ganz anderem Ergebnis: Rückblickend hatte sich die Vorhersagequalität von GFT als lausig erwiesen. Die Beamten mit ihren Fragebögen hatten im Durchschnitt bessere Vorhersagearbeit geleistet. Kurz darauf wurde eine Studie von Datenwissenschaftlern rund um den Harvard-Ökonom Ryan Kennedy publiziert, die den Aufstieg und Fall des Datenmusterknaben Google Flu Trends zur Parabel für Big-Data-Analytik insgesamt erklärte. Der wichtigste Begriff in diesem Paper lautet Hybris.

Größen-Wahn.

Fünf Thesen, warum Big Data seinen Versprechen hinterherläuft

1.

Big Data war immer mehr Marketing-Slogan als technisches Konzept. Der ehemalige »Wired«-Chefredakteur Chris Anderson fasste das in seiner These vom „Ende der Theorie“ zusammen. Die zentrale Annahme: Wir müssen grundsätzlich nicht mehr über ursächliche Zusammenhänge spekulieren wie bisher. Das Warum ist was für Schöngeister. Die Daten sagen uns, wie die Dinge sind und sein werden. Entsprechend können wir faktenbasiert klügere Entscheidungen treffen als bisher. Dieses „Ende der Theorie“-Theorem vereinfachten die Verkäufer von Big-Data-Anwendungen – Hersteller von Software und die anhängenden Berater – zu dem verlockenden Marketingversprechen: Wenn Unternehmen Massendaten-Analyse nutzen, werden die Algorithmen Wettbewerbsvorteile wie am Fließband produzieren.

Daran glaubten selbst Unternehmen, die als kompetent gelten. Microsoft kaufte vor einigen Jahren für 115 Millionen Dollar eine kleine Firma namens Farecast. Das Big-Data-Start-up versprach, die Preisentwicklung von Flugtickets zuverlässig vorhersagen zu können und damit endlich eine fundierte Antwort auf die Frage vieler Kunden zu geben: Soll ich jetzt schnell buchen oder lieber noch warten? Microsoft integrierte die Vorhersagefunktion in seine schwächelnde Suchmaschine Bing, um Nutzern einen Mehrwert gegenüber der übermächtigen Google-Konkurrenz bieten zu können. Die neue Funktion funktionierte aber mehr schlecht als recht, unter anderem weil es nie gelang, die richtige Datengrundlage für die Berechnungen zu schaffen. Vor zwei Jahren schaltete Microsoft das teure Onlinewerkzeug ab.

2.

Der Begriff Big Data ist irreführend. Er suggeriert, dass mehr Daten besser sind. Der Statistiker und Blogger Nate Silver rückt das Bild wie folgt zurecht: „Jeden Tag produzieren wir die Datenmenge aller Bücher in der Kongressbibliothek in Washington. Das allermeiste davon sind aber Katzenvideos und Textnachrichten von 13-Jährigen über den nächsten ,Twilight‘-Film.“ Silver sagte 2008 unter Pseudonym auf seiner privaten Website den Ausgang der amerikanischen Präsidentschaftswahlen deutlich präziser voraus als die Wahlforscher mit ihren riesigen Budgets und Datentöpfen. 2012 prognostizierte er den Wahlausgang aller Bundesstaaten korrekt – als Einziger. Dabei wandte er einen statistischen, lange bekannten Trick an. Silver fasste die Vorhersagen der großen Wahlinstitute intelligent gewichtet zusammen nach dem Motto: Der Durchschnitt der Expertenmeinungen ist zuverlässiger als die Meinung jedes Einzelnen, egal für wie klug sich dieser auch hält.

Ein gutes Beispiel für die systematische Überschätzung der Aussagekraft großer Datenmengen wegen fehlender Varianz sind Twitter-Daten. 2012 und 2013 gingen eine Reihe von Marketingberatern mit der Behauptung hausieren, aus den Millionen Tweets ließen sich in Echtzeit wertvolle Erkenntnisse für Werbung und Verkauf ziehen. Das hört sich plausibel an, aber die meisten Werbetreibenden mussten nach den ersten Experimenten feststellen: Die Twitter-Gemeinde in Deutschland ist viel zu homogen, um wirklich repräsentative Rückschlüsse auf die deutsche Konsumlandschaft zuzulassen. Der Hype um Marktkenntnis dank Social Media flachte entsprechend schnell wieder ab. Die Big-Data-Verkäufer zitierten aber weiter den Technikvorstand von Amazon, Werner Vogels: „Man kann gar nicht genug Daten haben. Mehr ist immer besser.“ Theoretisch hat Vogels damit recht. In der Praxis gilt das vermutlich nicht einmal für den Analytik-Champion Amazon. Ganz sicher falsch ist er für Unternehmen, deren IT-Infrastruktur aus den Achtziger- oder Neunzigerjahren stammt und dann schrittweise erweitert wurde.

Mehr Daten heißt für sie meist: mehr Überforderung.

3.

Die Käufer von Big-Data-Anwendungen sind oft leichte Beute der IT-Industrie. Viele von ihnen haben noch kein schlüssiges Modell gefunden, wie sie mit den digitalen Veränderungen in ihrer Branche umgehen können. Sie fühlen sich bedroht von jungen, datenkompetenten Unternehmen. Zunächst wird die Bedrohung kleingeredet. Dem wachsenden Unbehagen folgen Lähmungserscheinungen, dem folgt Aktionismus.

Im oberen Management ist Big Data populärer als in den mittleren und unteren Rängen der IT-Verantwortlichen. Die sind oft frustriert, weil sie mit analytischen Konzepten in ihren Schubladen über Jahre nicht durchdringen konnten. Zudem können sie gut einschätzen, wie viel Arbeit und Geld notwendig wären, damit Daten das eigene Geschäft tatsächlich auch beschleunigen können. Rund 50 Prozent der Big-Data-Projekte scheitern oder bleiben zumindest weit hinter den in sie gesetzten Erwartungen zurück. Auf diesen Schätzwert kommt der amerikanische Autor und Berater Bernard Marr – bekannt für Feuerwehreinsätze, wenn entsprechende Projekte zu scheitern drohen.

Eine beliebte Anekdote in der IT-Branche ist die Einführung eines großen Kundenmanagementsystems mit vielen fortgeschrittenen Analytikwerkzeugen bei einem Direktvertrieb von Putzmitteln. Das System soll mehrere Hundert Millionen Dollar gekostet haben, kam aber nie zum Einsatz. Das ist noch relativ wenig Lehrgeld. Der National Health Service in Großbritannien versenkte rund zehn Milliarden Pfund bei dem Versuch, alle Krankendaten des Landes in einer zentralen Datenbank zu sammeln.

4.

Das vielleicht größte Problem resultiert aus einer falschen Einschätzung, was Analytik leisten kann und was nicht. Das gilt vor allem für die Rollenverteilung von Menschen und Maschinen. Die Hersteller von Analytik-Software erweckten besonders auf dem Höhepunkt des Hypes den Eindruck, dass es nur Geld, guten Willen und ein paar menschliche Superhirne braucht, die die Big-Data-Systeme anleiten. Dann sagt die Maschine der Geschäftsführung, wo sie Geld sparen und Umsätze oder Profite erhöhen kann. Richtig daran ist: Um mit Datenanalyse Wettbewerbsvorteile zu erzielen, braucht man in der Tat ein Team von mathematisch-statistisch hochbegabten Leuten. Diese sogenannten Quants sind weltweit rar und teuer. Die Besten von ihnen zieht es nicht in die IT-Abteilungen deutscher Konzerne oder großer Mittelständler.

Doch selbst wenn sich dort Spitzen-Quants an Spitzenmaschinen setzen, kommt oft nichts heraus, was Unternehmen nützt. Analytik kann der Geschäftsführung weder das Denken noch die Entscheidungen abnehmen. Sie kann nur bessere Entscheidungsgrundlagen schaffen, wenn Menschen die richtigen Fragen stellen und die Erkenntnisse auch sinnvoll nutzen.

5.

Die Überschätzung der Systeme hat viel mit mangelndem Wissen über Algorithmen zu tun. Analytische Systeme ziehen für ihre Berechnungen in der Regel sowohl gemessene (also faktisch richtige) Daten heran, als auch geschätzte. Je höher der Anteil an Schätzdaten in einer algorithmischen Berechnung ist, desto weniger Aussagekraft hat das Ergebnis. Die Schätzfehler summieren sich. Das Problem aber ist, dass die Nutzer der Analytiksysteme in der Regel keine Ahnung davon haben, auf wie vielen Messdaten und auf wie vielen Schätzdaten die Berechnung beruht. Weil sie es nicht wissen, gehen sie lieber auf Nummer sicher und halten sich an die Empfehlung des angeblich so schlauen Big-Data-Systems.

Rund fünf Jahre nach der Begriffsschöpfung herrscht Ernüchterung. Das »Wallstreet Journal« fasst die Stimmung der Anwender in Unternehmen unter der Überschrift zusammen: „Big Data, Big Blunders“ – große Datenmengen, grobe Schnitzer. David Spiegelhalter, Statistiker und Professor für Risikoforschung in Cambridge, nennt Big Data schlicht „complete bollocks“, totaler Schwachsinn.

Das ist zwar auch übertrieben, aber Konsens unter den Selbstkritischen in der Analytikbranche ist heute: je größer die Datenmengen, desto geringer die Hoffnung auf schnelle Erfolge.

Einige Anwender haben zumindest die Erkenntnis gewonnen: Wir werden nie Google oder Facebook oder Amazon werden. Letzteres ist zwar richtig, aber auch nicht das Ziel. Intelligenter Umgang mit Daten ist ein mühsames Vortasten. Ziel von Analytik ist es, bessere Kenntnisse über Kunden zu gewinnen, Entwicklungen in der eigenen Branche etwas genauer vorhersagen zu können und Abläufe effizienter zu gestalten. Wer das in kleinen Schritten, aber konsequent macht, wird in Sachen Analytik nicht so gut wie die Big-Data-Champions aus Nordkalifornien. Aber er wird besser als die eigene Konkurrenz. Das ist das eigentliche Ziel von Analytik.

Keine Daten sind auch keine Lösung, aber Analytik ist keine Frage von groß oder klein, sondern von klug, pragmatisch und zweckdienlich. Das haben übrigens auch die Berater von Gartner verstanden: 2015 nahmen sie den Begriff Big Data still und leise aus ihrem für die Branche so wichtigen Trendbarometer. Auf Nachfrage erklärte das Unternehmen dann: Zu unscharf sei der Begriff und im engeren Sinne gar keine Technik. Danke für den Hinweis. ---