Der „Einmal volltanken, bitte!“ – Effekt*

Mein VW fasst 65 Liter Superbenzin. Jetzt möchte ich natürlich auch gern mitmachen beim Klima retten. Weniger oder gar kein Auto fahren? E-Auto fahren? Immer nur einen halben Tank verbrauchen im Monat statt eines ganzen? Oder vielleicht doch E-Fuels, die sauber hergestellte Superbenzin Alternative! Denn damit mache ich genau das, was ich vorher auch gemacht habe: Ich tanke alle 3-4 Wochen meine Karre voll, nur eben mit angeblich sauber hergestelltem Sprit. Das Format „Auto“ und mein Umgang damit bleiben komplett unverändert, auch wenn ein neuer Treibstoff daherkommt. Und natürlich erwarte ich, dass es dasselbe kostet wie vorher.

Mal sehn wie weit uns diese holperige Analogie trägt… Ich frage mich halt grade, ob unsere Autos, quatsch, unsere Formate, unsere Arbeitsprozesse, nicht vielleicht mächtiger, zäher und langlebiger sind als die Inhalte und die Methoden, mit denen wir unsere Arbeit machen, und was das alles mit – NATÜRLICH – dem neuen Supertreibstoff AI zu tun hat.

An unseren Mood-Scouts kann man grade den „Einmal volltanken, bitte“-Effekt beobachten: Das Format „Moods suchen“ scheint deutlich robuster zu sein, als sämtliche potenziell ja revolutionären Innovationstendenzen der generativen AIs, die sich in dieses Format einschleichen.

In den Händen dieser Artists richtet generative AI zwar deren Arbeitsweisen neu aus und verändert sie radikal – vom Moodscout zum Prompt Artist – aber ihre Auslastung ist dabei nicht grundsätzlich in Frage gestellt. Das macht jetzt nicht auf einmal die Inhouse Praktikantin „weil das ja mit AI jetzt so einfach geht“. Und weniger wird die Arbeit auch nicht: die Regisseurin, der sie zuarbeiten, ist nicht auf einmal nach 10 AI-generierten Bildern und zwei Arbeitsstunden seitens Moodscout-Gone-Prompt Artist schon happy und sagt: „Ach, wie geil sind denn diese Midjourney Bilder, viel geiler als die immergleichen aus dem Netz zusammengeklaubten Moodbilder, ich habe eigentlich alles was ich brauche.“ Und die Mood Scouts selbst werden alles dafür tun, das nicht aus der Hand zu geben. Sie sind natürlich dabei, sich AI als weiteres Tool anzueignen, damit sie weiterhin möglichst viel ihrer Arbeitskraft auf dem Markt verkauft bekommen.

Zu erwarten, dass sich Effizienzgewinne in weniger Leistung oder weniger Arbeit niederschlagen ist also wahrscheinlich blanker Unsinn. Die Arbeit wird nicht weniger.

„Die 4-Stunden-Woche“ von Timothy Ferris etwa, ein großer Beschiß, wie die meisten dieser „Mehr Zeit, Mehr Geld, Mehr Leben“ Besteller, das ist im vollen Ernst der Bestseller-Untertitel! Natürlich hat Ferris selber nie vier Stunden die Woche gearbeitet mit seinem irren Output an Podcasts, Büchern, Nahrungsmittelergänzungen etc. Vier Stunden die Woche für dieses Buch vielleicht, aber in Summe bestimmt 120 Stunden die Woche… John Maynard Keynes‘ Prognose aus 1930, daß aufgrund der großen Effizienzgewinne neuer Techniken in 2030 jeder nur noch 15 Stunden die Woche arbeiten werde – komplett naiv, da lag der Jahrhundert-Ökonom genau so sehr daneben, wie der Lebenshilfe-Autor. Ja, es arbeiten alle mit viel mehr & besserem Output, aber eben immer mindestens noch genau so viel, und wenn sie weniger arbeiten sollten, dann nicht wegen der Effizienzgewinne neuer Techniken. Sondern weil man sich das mühselig erstritten hat mithilfe von so unsexy Erfindungen wie Gewerkschaften und so.

Was die Frage aufwirft, bei wem eigentlich die Effizienz- und Qualitätssprünge ankommen, die generative AI ermöglicht. Denn es ist ja etwas qualitativ anderes, was die AI ermöglicht, das ist schon deutlich näher dran an bisher sehr mit viel mehr Aufwand und möglichst nicht schon im Pitchprozess hergestellten Style Frames, für die spezielle Artists noch vor nicht allzulanger Zeit 600-800 Euro am Tag bekommen haben. Nicht für 50 Bilder, sondern für ein bis zwei. „Ah, super daß wir jetzt wegen AI x-fach so präzise und x-fach so viel Zeug als Moods bekommen, aber bitte zu denselben Konditionen wie vorher eine Mood-Recherche natürlich!“ Jedenfalls landen sie nicht bei den Moodscouts. Nicht bei den Produktionen, die immer noch den Moodscouts dieselbe Anzahl an Tagen bezahlen. Hmmm, ja wo denn dann? Wie hat grade Charlie Warzel im ATLANTIC geschrieben: „In a world where the cost of producing content (…) approaches zero, it stands to reason that the forces of capitalism would respond by demanding as much of it as possible.“ Exakt. Und wir liefern natürlich, because that’s what we do.

Anders gesagt: Die neuen Techniken reduzieren nicht die Arbeit, nur die Kosten für Arbeit. Die Arbeit wird nicht weniger, der OUTPUT wird mehr & besser. Der Tank wird immer noch vollgemacht, weil eben so viel reinpasst, jetzt mit dem besseren Benzin. Vielleicht müssten wir den Blick von Effizienzsprüngen auf Qualitätssprünge richten: zu denselben Konditionen gibt es jetzt genauere, bessere, hochwertigere Moods. Wenn das für alle anderen Regisseure, Producer, VFX Artists etc. auch gilt, die sich da aktuell durch AI zu Freuds Prothesengöttern aufrüsten, und wenn wir all diese Verbesserungen an Output und Qualität zum selben alten Preis an die Kunden durchreichen, dann bekommen die zum selben Preis ein deutlich besseres Produkt. Da müßte man vielleicht mal drüber sprechen; zumindest müßte es erstmal einer relevanten Anzahl an Menschen auffallen & die müssten das irritierend & thematisierenswert finden.

Das könnte, positiv bertrachtet, auch ein Hinweis darauf sein, daß gar nicht alle Jobs wegfallen werden wie in den gern bemühten Warn-Horror-Szenarien zu zukünftigen AI-Umkrempelungen, sondern daß sich stattdessen alle mit AI aufrüsten, um mehr und einen besseren Output bieten zu können, aber trotzdem immer noch dieselbe Menge Manpower zu verkaufen. Das Problematische an AI ist also wahrscheinlich nicht in erster Linie die SKYNET Dystopie, oder daß viele Menschen ihre Jobs verlieren werden (auch wenn Goldman Sachs sagt, immerhin keine esoterische Hippie-Bude, daß im nächsten Jahrzehnt jeder 11. oder 300 Millionen Jobs ausgelöscht werden durch AI). Das Problematische ist eher, nochmal Charlie Warzel: „The easier our labor becomes, the more of it we can do, and the more of it we’ll be expected to do.“

Soweit teilen wir Filmhasen also wohl nur die AI-Zukunft mit all den anderen White Collar Arbeitsbienen da draußen. Oder gibt es für uns darüber hinaus noch eine sehr spezifisches Szenario, das wir im Auge behalten sollten? Der „Bitte einmal Volltanken“ Effekt ist in dem Moment unser kleinstes Problem, wenn generative AI so machtvoll wird, daß sie den Anspruch erheben kann, unser komplettes Produkt zu liefern, komplette Filme zu machen. Der Prognosen-Wettbewerb ist da im vollen Gange: „Wir werden die erste AI-generierte Nextflix Produktion in 12-18 Monaten erleben, den ersten AI Hollywood Film bis 2028 etc. etc.“

Bei den Architekten oder den Modeschöpfern ist das anders, da übernimmt AI „nur“ das Entwerfen, gebaut und geschneidert werden muss weiterhin. Text-To-Video AI macht dagegen erste Gehversuche darin, nicht das Konzept oder das Art Department eines Filmes zu ersetzen oder mit neuen Tools auszustatten, sondern den gesamten Film zu generieren.

Vielleicht ist generative AI also gar nicht nur der neue Supertreibstoff, den wir demnächst in unseren Filmproduktionstank packen, vielleicht ist generative AI die neue Filmproduktion. Bleibt spannend.

*P.S.: Wenn ich Wirtschaft studiert hätte, stelle ich grade beim Weiterlesen & -nachdenken fest, hätte ich mir nicht selber so eine maue Analogie ausdenken müssen & sie den „Einmal Volltanken Effekt“ nennen müssen. Ich hätte einfach sagen können: Klarer Fall von Jevons Effekt! Jevons Effekt? England war im 19. Jh das Saudi Arabien der Steinkohle mit der Sorge, was wohl passieren werde, wenn die Steinkohle mal alle ist. Schlaue Ingenieure argumentierten, das sein kein Problem, weil der technische Fortschritt zu effizienteren Maschinen und damit zu weniger Kohleverbrauch führen werde. Der noch schlauere Ökonom Jevon argumentierte dagegen, daß effizientere Maschinen zu MEHR Kohleverbrauch führen würden, weil sie die Kosten des Kohleverbrauchs senken würden. Wenn der Preis sinkt, steigt die Nachfrage, und mit der Nachfrage steigt der Konsum. Von Kohle, wie auch von AI powered White Collar Arbeit. Und genau das wird passieren! Der Preis für unsere Arbeit + AI wird sinken – anders betrachtet, wir werden für unsere per AI supercharged Arbeit dieselbe Kohle bekommen, wie wir sie vorher ohne AI bekommen haben. Und der Preis für Arbeit, die nicht per AI veredelt wird, wird ins Bodenlose fallen. Nicht in der Krankenpflege, und nicht im Straßenbau, aber bei uns.

Sky Captain and The World Of Tomorrow

Anfang der 2000er ging die Saga um bei uns Filmschaffenden, da habe jemand, Kerry Conran war sein Name, vier Jahre lang zuhause an seinem Mac einen kompletten Film vorvisualisiert, den er dann in Hollywood finanziert bekommen habe, von einem Neffen von Dino DeLaurentiis himself. Am Ende hat den Film Paramount rausgebracht, nachdem die Produktion 70 Millionen Dollar verschlungen hatte. Und wir alten Musikvideo-Burschis haben uns damals enttäuscht gefragt „Ja verdammt, wenn er ihn doch schon hatte, seinen Film, warum hat er ihn dann dem doofen Hollywood-System zum Fraß vorgeworfen?“ Hatte er nicht bewiesen, daß er das Potenzial hatte, den gesamten Film als Chimären-Team selber zu machen, er und seine Maschine? Warum hat er sich dann von dem verdammten System schlucken lassen, um bei einem Film mit puuuhhh… Jude Law! in der Hauptrolle gnädig Regie führen zu dürfen, nur damit der dann am Ende als Box Office Flop galt, weil er nur 60 Millionen eingespielt, aber 70 Mio gekostet hatte? Wie zum Teufel konnte das dermaßen schief gehen?

Da war mir zum ersten Mal die Vision begegnet davon, daß ein Mensch einen Film komplett selbst machen könnte, genau so, wie man sich auch hinsetzen und ein Buch schreiben kann alleine. Was davon in den Klauen von Hollywood übrig geblieben ist, war der Ansatz, den Film komplett am Rechner entstehen zu lassen (mit Ausnahme der Darstellerinnen, die in weniger als 30 Tagen abgedreht waren), aber eben nicht auf dem Rechner von Kerry Conran, da hatte sich Hollywood schon drübergestülpt und ihm das aus den Händen genommen. Und der Film war dann am Ende eher so „meeh…“, wobei natürlich zugegebenermaßen niemand weiß, ob er’s alleine besser hinbekommen hätte.

Andererseits, truth be told, war es eben auch so, daß Kerry das Anfang der 2000er tatsächlich auch nicht auf seinem Rechner hätte machen können, dafür war zwar die Hardware schon beinahe da, aber eben die Software noch nicht, auch wenn ein Großteil des workflows revolutionärerweise tatsächlich auf „Quasi-Consumer-Tools“ wie After FX & Final Cut aufgebaut war, und auch die Darsteller hätte er nicht selbst ranschaffen können (Aber Jude Law? Oh Mann.)

Interessanterweise hat sich Kerry nach den „schlechten“ Box Office Zahlen bei seinem Produzenten über die Produktionskosten von angeblich 70 Millionen beschwert: Er hätte das Ding für 3 Mio mit No Names hinbekommen, hat er ihm vorgehalten. Hätte hätte, Fahrradkätte, sag ich da.

Ihr seht: die Geschichte der diversen digitalen DIY-Euphorien läßt sich immer auch als eine Geschichte des Scheiterns erzählen, als Geschichte davon, wie diese Euphorien und die sie ermöglichenden technischen Innovationen von den bestehenden Produktions- und Verwertungsstrukturen aufgesaugt und zum Ausspucken von noch mehr, jetzt eben anders hergestelltem Schrott verwurstet werden. Es führt eine direkte Linie von Kerry Conrans oder Roberto Rodrigos One-Man-Show Rebellentum (Rodrigos Buch heißt „Rebel without a crew“, Lesebefehl! Genau wie Conran hat Rodrigo mit SIN CITY einen der ersten komplett vor Grün gedrehten Filme in Hollywood gemacht) zu den MARVEL Sequels, vom Anspruch, seinen eigenen Film ganz allein mit den aktuellsten digitalen Möglichkeiten umzusetzen hin zu einer im Kern toten 350 Mio Blockbuster-Orgie wie Avengers Endgame.

Worauf ich hinaus will, wollt ihr sicher wissen?

This time will be different (maybe)! Ich glaube fest daran, daß dieselbe Geschichte 25 Jahre später – sehr bald also – einen ganz anderen Twist nehmen könnte. Denn was hat neulich Jensen Huang, der CEO von NVIDIA, gesagt? „Soon, every pixel will be generated.“ Nicht gerendert. Nicht gefilmt. GENERATED. Eine maximal revolutionäre Vorhersage, und ich wage zu addieren: nicht immer und unbedingt bei ILM oder PIXAR, sondern auch auf meinem und auf deinem Mac. Spannend wird das.

https://vimeo.com/821101511

ChimäRegie

Die Geschichte von AI & Schach ist schnell erzählt: Der mechanical turk aus dem 18. Jahrhundert war kein Schachcomputer, sondern ein kleinwüchsiger Mensch unter einem Schachbrett, der einfach sehr gut Schach spielen konnte. Gilt also nicht. Danach hatten wir dann die üblichen zwei AI–Rezeptions-Phasen:

Phase 1 ging bis ca. 1996: „Das wird nie gut genug, kreative Intelligenz ist dem Menschen vorbehalten.“  

Phase 2 begann dann unmittelbar nachdem der erste amtierende Großmeister Gari Kasparow 1996 in einem regulären Turnier von einer Software geschlagen wurde: „Das müssen wir verbieten, weil sonst keiner mehr Schach spielt“.

Soweit, so bekannt. Spannend ist dann erst wieder Phase 3, die Phase der Zentauren: Es wird immer noch sehr viel Schach gespielt, von Menschen gegen Menschen, von Menschen gegen Maschinen, aber zunehmend auch von gemischten Teams. Teams, die so eng miteinander arbeiten, daß man sie Mischwesen oder Chimären nennen kann, oder wie es in der Schachwelt heißt: Zentauren, Chimären aus Mensch und AI.

Jetzt gucken wir mal rasch, wie es grade vorwärtsgeht mit der AI im Filmbereich: Runway Gen 2 ist grade noch im closed beta Stadium, und was da nach draußen sickert, hat jetzt bereits die Qualität von DALL-E von vor 12 Monaten. Aber eben nicht in einem einzelnen Bild, sondern schon in unserer Schlagzahl, heißt in 30 Frames Per Second, also in 2.700 Einzelbildern für einen 90-Sekünder. Genau wie bei DALL-E auch kommen die ersten Sachen oft als Parodien daher, aber das sollte uns nicht darüber hinwegtäuschen, daß das Tool selbst kein Parodietool ist, sondern eine ernstzunehmende Konkurrenz für tatsächlich all unser Tun.

Wenn Sie bitte mal kurz schauen wollen? Oder dies hier vielleicht?

Seht mal bitte kurz mit meinen Produceraugen auf die Effizienzpotenziale: Ein Macher berichtet, er habe seinen 90-Sekünder in rd. 30 Stunden Arbeit hergestellt incl. Schnitt, Vertonung, Grade etc. Genauer: er und seine AI, als Chimäre eben, aber nicht als 65-Menschen-Team mit 8 Wochen Prep, 4 Tagen Dreh und 6 Wochen Post in sagenwirmal 3.000 – 5.000 Mann-Stunden. In der Schlagzahl könnte so eine Chimäre innerhalb eines entspannten Jahres einen soliden Spielfilm abliefern. Oder umgekehrt: Die Manpower, die wir Werbevögel aktuell in einen 90sekünder stecken, würde easy für einzwei 90-minütige Blockbuster reichen.

Wenn ich in einem beliebigen Werbefilm-KVA alles rauswerfe, was auch eine AI erledigen könnte, und dabei die kreativen Department Heads & ein wenig Post drinlasse, dann verliere ich je nach Projekt 50-85% der Kosten. Nach allgemein akzeptierter Business-Logik kann es also quasi gar nicht nicht passieren, daß das einen relevanten Teil unseres Businesses übernehmen wird.

Wer da sagt: „Ja aber die Qualität!“, der muß halt nochmal DALL-E von vor 12 Monaten mit Midjourney in der 5. Version vergleichen. Und sich das dann nochmal von vorne anschauen und sich immer noch zu sagen trauen: „Ich sehe da nichts“. Ich für meinen Teil sehe da Einiges.  

Man kann jetzt, wie ein alter Mitstreiter, der mir das obige geschickt hatte, sagen „Stephan, it’s over!“, und ich kann dieses Sentiment so sehr nachvollziehen.

Oder man kann sich fragen, wie denn in mittlerer Zukunft so ein Werbefilmprojekt mithilfe eines Teams aus Regie und AI aussehen könnte, wenn wir von der optimistischen Annahme ausgehen, daß ansonsten erstmal alles gleich bleibt: Es gibt weiterhin Kunden, die 90Sekünder haben wollen, Agenturen, die sich welche ausdenken, Medien, in denen die stattfinden sollen, Produktionsfirmen, die sie produzieren, und Regie-Heldinnen, die sie umsetzen wollen – jetzt aber eben als Mischwesen aus Regie und AI. Ladies and Gentleman, willkommen im Zeitalter der ChimäRegie!

Los geht’s: Die Agentur hat dem Kunden eine Werbefilm-Idee verkauft. 90% der Standardwerbungen werden ja inzwischen entweder beim Kunden inhouse gemacht oder in der Agentur von diversen AI Jockeys, die eine Idee in Runway Gen 16 füttern und aus den 300 Durchläufen dann das Beste zusammenschneiden, vertonen, graden etc. Was natürlich ebenfalls hochgradig AI-gestützt funktioniert wie in ADOBE FIREFLY: Schnittvorschläge von der AI, Musikvorschläge & Soundkatalogauswahl via AI, Grading auf Basis von Textprompts etc..

Aber ab&zu gibt es Ideen, wo alle glauben, daß man mit einer ChimäRegie besser fahren würde, etwa weil die aus echten Darstellern vielleicht noch etwas rausgekitzelt bekommt, auf das die aktuelle Runway Generation noch nicht von alleine stößt. Vielleicht deshalb, weil Runways Outputs noch immer zu sehr an ihrem Trainingsmaterial kleben so wie früher die Autofilme auch sich immer nur mikroskopisch kleine Schritte von dem entfernt haben, was andere Autofilme davor auch schon gemacht haben (Auto auf Küstenstraße; Auto in Großstadt vor Stahl & Glas; Auto an der Ladestation etc.).

Also wird eine der paar verbleibenden Produktionsfirmen den Pitch gewinnen, die eine der wenigen ChimärRegisseure vertreten, die sich eben nicht darauf spezialisiert haben, Dinge umzusetzen, die Runway garantiert NICHT kann (Hochzeitsfilme, Band-Tour-Dokus), sondern die für Werbefilme sich mit einer AI zusammengetan haben und das Potenzial einer Film-AI im Tandem ausreizen, wie das eben weder die Kunden selbst noch die Agentur können.

Pre Production: Wir casten tatsächlich reale DarstellerInnen (ein Big Budget Projekt!). Das Storyboard sparen wir uns, da genügt uns das Text-Script der Agentur, das die ChimäRegie mithilfe ihres Film Know Hows aus alten Tagen in möglichst präzise Textprompts übersetzt. Mit denen füttert sie dann ihre handtrainierte Runway AI. Die hat sie in jahrelanger Trainingsarbeit an sich gewöhnt und auf ihren speziellen Lieblingsstil eingearbeitet, sagenwirmal: „englischer Humor mit einer Prise Selbstironie und einem Schwerpunkt auf High End looks?“. Promptbeherrschung und der exklusive Zugriff auf die jahrelang persönlich trainierte Runway Version sind die beiden Faktoren, mit denen sich unsere ChimäRegie von den Mitberwerberinnen abhebt, ja warum sie überhaupt erst den Pitch gewonnen hat.

Wir scannen die Darsteller, füttern sie in die AI und lassen sieI schonmal loslegen. Statt eines Storyboards haben wir so nach ein paar Tagen eine erste AI-Offline-Version, die unsere ChimäRegie sorgfältig auf Optimierunsgpotenziale abklopft.

Ein paar Takes werden wir vielleicht in den finalen Film übernehmen und nur noch die nochmal real drehen, wo man nach einer Woche Runway noch Verbesserungspotenzial entdeckt hat. Man trifft sich zum PPM, in dem es vor allem darum geht, ob es sich wirklich lohnt, noch real zu drehen; wenn ja, welche Teile und mit welchem Aufwand.

Die Verhandlungslinien sind hier absehbar: Kunde findet alles schon super und weiß eigentlich nicht, warum er jetzt noch das Budget für einen Realdreh locker machen soll. Lieber wäre es ihm, einfach nochmal 2 Wochen AI nachzubuchen, kostet ja fast nix, und der Regie-style ist doch eh schon in der AI eintrainiert.

Agentur & Produktion kämpfen aber hart für ihre Vision eines NOCH BESSEREN Films. Und natürlich kämpfen sie an gegen die ständigen Versuche des Kunden, schon in dieser Phase die MaFo Ergebnisse einzuholen. Man einigt sich darauf, die Close Ups alle einmal real zu drehen; und die eine große Establishing Sequenz, ein verdammt langer One Shot, in der alle DarstellerInnen auf cue was sagen oder tun sollen, die wird man auch nochmal real drehen, weil die AI zwar tolle High End Hintergründe, Kostüme, Lichtsituationen etc. ausgespuckt hat, aber das Timing der menschlichen Beiträge zum Film einfach nicht sitzen will.

Der Kunde grollt derweil im Stillen seiner Agentur, weil sie ihm nicht nur einen Film mit echten Darstellern (die teuren Nutzungsrechte hätten wir uns bei einem reinen AI Film gespart!) und vor allem eine so AI-unkompatibele Intro-Szene aufgeschwatzt hat, aber er sieht schlußendlich ein, daß das wahrscheinlich doch besser geht, wenn man’s real versucht.

Shoot: Wir lassen zwar die Darsteller den ganzen Text sprechen – vielleicht können sie’s ja doch besser als die an ihrer eigenen Stimme trainierten AI-Klone, passiert selten, aber kommt vor; real gedreht werden aber nur ein paar Selected Takes, meistens Close Ups, wo wir mimische Performances von echten Menschen sehen wollen, die die AI noch nicht so gut hinbekommt. Aber unsere ChimäRegie ist trotzdem happy, weil sie endlich mal wieder einen langen One Shot real inszenieren darf. Ein ganzer Drehtag – Yeah!

Post: Die AI hat natürlich weitergemacht und optimiert, während wir gedreht haben; im Schnitt lassen wir dann nochmal die besten AI Shots gegen die besten real gedrehten Takes antreten; vielleicht kombinieren wir beide Welten und legen Teile der Real-Performances über das, was die AI an Szenen schon vorbereitet hat („Hey Runway, nimm das Gesicht von Darsteller A aus dem Realmaterial und ersetze damit sein Gesicht aus dem AI Take“).

Und dann endlich gehen wir in die MaFo.

Ja genau so wird es kommen. Oder was denkt ihr?