War das ein Mensch?
Gregor Schmalzried ist ein Beobachter der Digitalisierung. In Folge 1 seiner monatlichen Kolumne geht es um DALL-E 2, ein System, das in Sekundenschnelle die Bilder erzeugt, die wir uns von ihm wünschen. Es wird für massenhaft neuen Content sorgen – verfügbar für alle.
Schmalzried sieht darin den Vorboten einer Zeit, in der künstliche Intelligenz uns zwingen wird, ständig zu beweisen, dass wir keine Maschinen sind.
• Die ersten drei Minuten von Stanley Kubricks Horrorklassiker „Shining“ gehören zu den Höhepunkten des Films. Aufwendige Luftaufnahmen verfolgen das Auto der Torrance-Familie durch die Rocky Mountains und erreichen schließlich das Overlook Hotel, das unheimlichste Hotel aller Zeiten. „Shining“ war mit dieser beeindruckenden Kameraperspektive damals nicht allein. In den Siebziger- und Achtzigerjahren schien es in Hollywood kaum möglich zu sein, einen Blockbuster ohne aufwendige Luftaufnahmen zu beginnen oder zu beenden. Nicht nur um den Schauplatz einzuführen, sondern (das gilt besonders für weniger begabte Regisseure als Kubrick) auch um deutlich zu machen, dass der Zuschauer hier einen richtigen Film sieht. „Schaut, wie viel Geld wir haben!“, ruft der Film. „Wir können uns einen Helikopter-Shot leisten!“
Heute ist das anders – und das liegt nicht daran, dass Luftaufnahmen, einer Laune der Natur folgend, aus der Mode gekommen wären. Sondern daran, dass heute jeder welche machen kann. Der Aufstieg der Kamera-Drohne hat über Nacht den Preis für Luftaufnahmen zum Absturz gebracht. Und deshalb findet man Drohnen-Shots heute überall: Low-Budget-Horrorfilme beginnen mit der pseudo-ominösen Vogelperspektive auf verlassene Waldstücke, und Nachwuchsrapper lassen sich auf ihren Schrottplatz-Videos nicht mehr nur von vorn, sondern vor allem von oben filmen. Das bedeutet: Luftaufnahmen haben ihren einstigen Status als Signal für Wertigkeit verloren.
Unternehmen, Verlage und Produzenten sind ständig auf der Suche nach solchen Signalen. Das, was im Kino der Achtziger die Luftaufnahme war, ist bei Print-Magazinen ein hochwertiges Papier, bei einer B2B-Firma ein üppiger Messestand mit Gratisgetränken und bei Influencern ein spontaner Trip in ein Fünf-Sterne-Hotel auf Bali.
Der amerikanische Wirtschaftsjournalist Nathan Baschez vergleicht solche Signale mit solchen aus dem Tierreich, etwa bei der Balz: „Wenn ein männlicher Pfau ein gigantisches Federkleid hat und es trotzdem schafft, es überall mit hin zu schleppen, liegt es nahe, dass er körperlich fit ist und gute Gene hat.“ Mit Unternehmen verhält es sich nicht anders: Wenn es nach außen hin Wertigkeit demonstriert, soll der Kunde den Eindruck bekommen, dass es stabil und erfolgreich ist. Tatsächlich kann ein marodes Unternehmen sich nach außen hin bewusst verschwenderisch geben, um über interne Krisen hinwegzutäuschen (siehe Wework). Und ein Filmproduzent kann sein ganzes Budget für Luftaufnahmen und Action-Shots ausgeben, damit den Trailer füllen und den Rest des Films mit billigen Dialogen füllen. Aber so ein Schwindel fliegt eben früher oder später auf.
Anders als der Pfau befindet sich die Digitalwirtschaft in ständigem Wandel. Eine Evolutionsstufe dauert im Tierreich gerne mal ein paar Millionen Jahre, im E-Commerce, Verlagswesen oder Agenturgeschäft reicht schon ein einziges neues Tool, um das Geschäft zu revolutionieren. Die kommerzielle Drohne hat sich immerhin noch ein gutes Jahrzehnt Zeit gelassen, um zur Wühltisch-Ware zu werden. Bei Software und Dienstleistungen kann das deutlich schneller gehen. Es ist, als müsste sich der Pfau Sorgen machen, es könne jede Minute ein viel besserer Super-Pfau mit doppelt so vielen Federn und zusätzlichem Raketenantrieb aus dem Dickicht flattern und alle potenziellen Partnerinnen im Umkreis für sich einnehmen.
Es spricht einiges dafür, dass wir uns gerade am Anfang einer solchen Entwicklung befinden, die Design, Marketing und das Verlagswesen verändern könnte. Wichtige Wertigkeitssignale in diesen Branchen sind eigens hergestellte Grafiken, Illustrationen und hochwertige Fotos. Ein Unternehmen, das Geld für eine Grafik ausgibt, auf der zwei Teddybären in Steampunk-Outfits Chemikalien zusammenmixen, könnte damit aktuell noch Eindruck schinden (es müsste halt ein Unternehmen für Steampunk-Teddys sein). Aber nicht mehr lange. Denn das, was den Luftaufnahmen passiert ist, geschieht nun auch mit Grafiken, Illustrationen und Fotos. Der Grund ist eines der möglicherweise wichtigsten neuen Technik-Tools, die das Internet seit Jahren hervorgebracht hat. Es sorgt dafür, dass das Steampunk-Teddybären-Bild in Zukunft nicht mehr viel Geld und Zeit kostet. Es erzeugt das gewünschte Bild nämlich in unter einer Minute.
Der Super-Pfau mit dem Raketenantrieb aus dem Dickicht heißt DALL-E 2.
DALL-E, ein Kofferwort aus den Namen des Künstlers Salvador Dalí und des Roboters WALL-E, ist ein Bildgenerator des KI-Unternehmens OpenAI (das frei verfügbare Programm „DALL-E Mini“ ist nicht direkt mit OpenAI verbunden und wurde auf Bitten des Unternehmens im Juni in Craiyon unbenannt). Die aktuelle Generation des Generators, DALL-E 2, wird seit einigen Wochen ausgewählten Forschern und Journalisten zur Verfügung gestellt und funktioniert so simpel, dass es fast schon unheimlich ist:
Man gibt beliebige Anfragen ein („ein viktorianischer Junge mit VR-Brille“, „das Facebook-Logo im Wirbelsturm als digitale Illustration“, „eine Bleistiftzeichnung eines einsamen Roboters in einem Plattenladen“) und erhält mehrere Grafiken zur Auswahl, die genau das darstellen – teilweise in so guter Qualität, dass sie von einem menschlichen Kunstwerk kaum zu unterscheiden sind.
DALL-E funktioniert mithilfe von Deep Learning – einer Disziplin der künstlichen Intelligenz. Der Generator wurde mit einer Unmenge an Grafiken und deren Beschreibungen gefüttert und hat dabei alles Mögliche über alle möglichen Begriffe gelernt, darunter auch „Steampunk“, „Teddybären“ und „Chemikalien“. Er lernt nicht nur, wie diese Figuren und Gegenstände aussehen, sondern auch, wie sie miteinander interagieren. Dadurch kann DALL-E Kompositionen schaffen, die es noch nie gab – und erzeugt auf Anfrage in kürzester Zeit eine Grafik von „Steampunk-Teddybären, die Chemikalien zusammenmixen“.
Noch ist einiges nicht geklärt, etwa die Frage des Copyrights (Gehört eine DALL-E-Grafik den Entwicklern von DALL-E? Den Urhebern der Bilder, mit denen DALL-E trainiert wurde? Der Person, die auf die Idee kam, dieses neue Bild zu erzeugen?). Aber DALL-E ist nicht der einzige Bildgenerator, der gerade entwickelt wird – auch Google und andere Tech-Unternehmen sitzen an ähnlichen Projekten. Es ist sicher nur eine Frage der Zeit, bis eine noch bessere Version von DALL-E oder eines vergleichbaren Tools vielen Anwendern zur Verfügung steht.
Über die Folgen dieser Zukunft könnte man stundenlang spekulieren, doch wir erhalten schon jetzt einen Vorgeschmack darauf. Autoren wie der Tech-Journalist Casey Newton nutzen DALL-E bereits, um ihre Artikel zu illustrieren. Künstler erstellen mit DALL-E Filter für Augmented-Reality-Apps. Und in der Gaming-Branche arbeiten Entwickler bereits daran, computererzeugte Grafiken zu nutzen, um das Metaverse mit Leben zu füllen.
Egal wofür genau DALL-E genutzt wird – eines ist klar: Die Technik sorgt für mehr. Mehr Bilder, mehr Grafiken, mehr Illustrationen, unendlicher Content für alle.
Wertigkeitssignale, für die man heute noch eine aufwendige Photoshop-Arbeit oder Illustration in Auftrag geben müsste, werden in absehbarer Zukunft unzähligen Menschen und Unternehmen zur Verfügung stehen. Um eine Metapher aus der analogen Welt zu verwenden: Es wird so sein, als hätte jeder Kleinunternehmer auf einmal einen gigantischen Messestand. Bildgeneratoren werden mit aufwendigen Photoshop-Arbeiten und Illustrationen dasselbe machen wie Drohnenaufnahmen mit Helikopterflügen.
In einer Welt, in der das, was wir heute als hochwertig wahrnehmen, in nur wenigen Sekunden hergestellt werden kann, wird sich unsere Definition von hochwertig zwangsläufig ändern. Wer sich in der DALL-E-Zukunft von anderen unterscheiden möchte, muss Dinge anbieten, bei denen die KI nicht mithalten kann. Das könnte bedeuten, dass wir in Zukunft mehr interaktive Websites und Modelle sehen werden. Unternehmen könnten menschliche Interaktionen offensiver anbieten. Und Communitys und qualitativ hochwertige Inhalte könnten wichtiger werden.
Diese Entwicklungen werden Einfluss auf Unternehmen, Verlage sowie Autorinnen und Autoren nehmen. Wenn man mit Oberflächlichkeiten nicht mehr beeindrucken kann, wird man gezwungen sein, tiefer zu graben und die Dinge sichtbar zu machen, die nicht jeder anbieten kann. Anders gesagt: Wenn alle über die gleichen technischen Tricks verfügen, macht wieder der Mensch den Unterschied.
Noch vor dreißig Jahren war die bloße Tatsache, als Autor von einem Verlag gedruckt zu werden oder als Radiomoderatorin auf Sendung zu sein, ein gewisses Wertigkeitssignal. Dann hat das Internet die Kosten und den Aufwand für eine digitale Veröffentlichung enorm gesenkt. Jeder und jede kann heute einen Newsletter oder einen Podcast beginnen, eine bloße Veröffentlichung ist kein Wertigkeitssignal mehr. Worte im Netz sind einfach nur Worte im Netz.
Die Obsession von Digital Natives für die Zahl ihrer Follower erklärt sich unter anderem dadurch, dass dieser Wert uns scheinbar etwas über die Qualität dessen verrät, was unter der Oberfläche zu finden ist – ob es sich um wertvollen Inhalt handelt oder nur Billig-Content. Denn auf den ersten Blick sieht alles gleich aus.
Verlagshäuser haben mittlerweile erkannt, wie wichtig in einer solchen Welt persönliche Bindungen geworden sind. Deshalb veranstalten sie Podcast-Festivals, laden zu Fragerunden ein und inszenieren YouTube-Hosts als Sympathieträger und Identifikationsfiguren. Sie wissen: Menschliche Beziehungen lassen sich (noch) nicht faken.
Die Jobs für Illustratoren und Marketing-Managerinnen werden durch DALL-E genau so wenig verschwinden wie die Jobs für Autoren und Moderatorinnen durch das Internet. Aber all diese Profis werden gezwungen sein, sich weiterzuentwickeln – und sich in einem ständigen Wettlauf mit KI-Generatoren befinden. Die künstliche Intelligenz wird zum Maßstab für Qualität werden, und wer nichts Besseres liefern kann, wird es schwer haben.
Vor allem wird uns künstliche Intelligenz zwingen zu beweisen, dass wir Menschen sind. Unternehmen und Agenturen werden immer neue Wege finden, Leben zu simulieren. Wir werden uns in vielen Situationen fühlen wie bei dem „Ich bin kein Roboter“-Sicherheitstest auf einer Website.
Es ist zwar ein Zufall, aber doch irgendwie passend, dass der größte Kinoerfolg der vergangenen Monate ein Film ist, bei dem Luftaufnahmen im Mittelpunkt stehen. Top Gun: Maverick ist ein fantastischer Actionfilm mit einem charismatischen Star in der Hauptrolle, und Tom Cruise’ kommerziell erfolgreichster Film aller Zeiten. Wie kann das sein, da doch Luftaufnahmen heute so viel billiger herzustellen sind als zur Premiere des ersten Top Gun 1986? Der Regisseur Joseph Kosinski und sein Hauptdarsteller Tom Cruise haben verstanden, dass die Luftaufnahmen allein nicht reichen. Es geht darum, was unter der Oberfläche ist: Schauspielkunst, Filmhandwerk und Emotion. Sowohl für die Billig-Drohne als auch für die beste KI wären das zu viele Herausforderungen. ---
Wie hat Ihnen die erste Folge gefallen? Schreiben Sie uns. Die nächste Folge von „Schmalzrieds Zukünfte“ erscheint am 11. August 2022.