Hervorgehoben

Arbeitsteilig

Einen Location Scout hatte ich mal mit dem shooting board zum scouten geschickt, und der hat aus reinem Spaß an der Freud schonmal den gesamten Film vorgedreht auf den Locations, die er vorgeschlagen hat. Er war dann ganz geknickt, als wir stattdessen in der Studiostraße in Babelsberg drehen mußten, weil für ihn der Film eigentlich schon fertig war. Kennt ihr bestimmt auch, solche Leute: Filmemacher durch und durch, die eigentlich nur aus Zufall in ihrem Department gelandet sind, die es aber in sich tragen, ganze Filme in ihrem Kopf und manchmal auch in echt schwuppdiwupp einfach fertigzumachen.

An diesen Scout mußte ich denken, als mir neulich dieser Film von JON FINGER begegnet ist.

Wer sich das anschaut und nicht denkt: „Wow! Will ich auch!“, der ist auf jeden Fall nicht aus derselben Abteilung wie mein Scout damals. Mir macht das wahnsinnig Spaß, diese (natürlich gefakte…) Unmittelbarkeit, diese Idee, man könne mit Hilfe von AI Tools einen Film erschaffen so, wie man früher seinen Freunden auf dem Schulhof eine Geschichte vorgeturnt hat. Was ergäbe das, konsequent weitergedacht, für einen Spitzenworkflow! Erst recht dann, wenn man unseren realen Workflow dagegenhält, der ja wirklich gern mal das Gegenteil davon ist: Überkompliziert, langsam, und seeehr seeehr arbeitsteilig.

Wie arbeitsteilig wollen wir denn sein, muß man sich doch regelmäßig fragen. Na klar ist der Input von den Profis aus den einzelnen Departments super. In den Kommentaren unter Jon’s Film stapeln sich deshalb auch die erwartbaren Reaktionen im Sinne von „Nichts wird je einen guten Storyboarder/ Art Director / DOP ersetzen, etc., gnagnagna“. Aber mal ehrlich, kennt ihr nicht auch dieses Gefühl der Ermüdung, das einen anpackt, wenn man denkt: „Woo-ha, 4 Tage 14 Stunden drehen, 70 People am Set, 2 Monate Post, und das alles für 60 Sekunden Film?“

Bei den Regisseur*innen kennt ihr sicher auch die beiden Enden des Arbeitsteiligkeits-Spektrums: Die eine, die immer vor dem Monitor sitzt und sagt: „Schon ganz geil, aber können wir noch eine drehen“? Wo man sich unwillkürlich fragt ob sich heimlich die Agentur-Kreative in den Regiestuhl geschmuggelt hat? Und am anderen Ende der Skala der Roberto Rodriguez Style Regisseur, der unabgesprochen mit einer eigenen Mühle am Set auftaucht und schnell selbst mal noch ein paar alternative Takes dreht, kann man ja immer gebrauchen, ihr werdet mir dankbar sein im Schnitt! Der einen im Prep schon so sehr mit Detailgesprächen zuballert, daß man ihm am liebsten alle Jobs auf der Produktion anbieten möchte inklusive dem der Produktionsleitung?

Anyways, ich möchte gar nicht auf „Wir werden alle unseren Job verlieren“ Szenarien rumreiten. Auch das pixelschubserische Qualitätsgejammer anläßlich von Jon’s Film – „Ja, aber das wird dir kein Kunde jemals so abnehmen, weil a,b,c“ kann ich mir selber ausdenken, merci bien.

Ich finde es beim Zuschauen in erster Linie inspirierend & herzerfrischend, welche Möglichkeiten sich hier aufzeigen für einen alternativen, schnelleren, spontaneren Workflow – direkt aus dem Kopf von jemandem, der sich einen Film ausdenkt, schwuppdiwupp zum fertigen Film.

Oder?

Hervorgehoben

Do Producers dream of AI enabled films?

Consumer können mehr und mehr selbst zu Producern werden, wie ich’s neulich schon bebloggt hatte. Sie müssen dafür nicht gleich ganze Filme from scratch produzieren, sie können sich zukünftig auch anhand bestehender Filme aussuchen, wie, auf welchem Level und in welchem Department sie gern in einem Film eingreifen und ihn auf diese Weise neu oder mitproduzieren wollen. Sie können sich gewissermassen so Film School mässig von der Seite des fertigen Films her an das Produzieren heranrobben.

Ich zum Beispiel verabscheue ja den seifigen und einschläfernden Vangelis-Soundtrack zu BLADE RUNNER. Das Netz ist voll von sehr emotional geführten Debatten dazu – mir versaut er tatsächlich den kompletten Film.

Die Producer’s Notes, die Ridley Scott nach seiner 3. Schnittfassung zu lesen bekam, fragten unter anderem nach „more tits“, und schon im ersten Satz: „Where is the Vangelis Music“? Die haben sie leider am Ende bekommen. Wenn ich jetzt aber in naher Zukunft Ridley Scott rächen und den Soundtrack einfach austauschen könnte: „Hey AI, unterlege mir bitte BLADE RUNNER mit einem Soundtrack im Stil der Talking Heads“? 

Zunächst hab ich ja gedacht, daß uns demnächst AI mit Reglern beim Produzieren hilft, also etwa Midjourney mit speziellen Reglern, an denen ich Brennweite, Einstellungsgröße und soweiter finetunen kann. Aber vielleicht ist es genau so spannend, wenn es analog zum Sound und Farb – Reglern an der Glotze ein paar zusätzliche AI Regler gäbe wie den „Wes-Anderson-Style-Regler“; den „Hauptdarsteller“- Regler; den „Synchronsprache“-Regler?

Das passiert ja eh bereits massenhaft, die Travestie bestehender Filme ist ein riesiges Sub-Genre des generativen AI Outputs. DUNE im Stil von Jodorovsky (der tatsächlich mal einen Anlauf dazu unternommen hatte). ALIEN im Stil von Stanley Kubrick. Und JEDER DENKBARE FILMTITEL im Stil von Wes Anderson, natürlich. Das ist beileibe nicht ohne Vorbilder aus der Vor-AI-Zeit: Der Kern des Erfolgs von NETFLIX beruht auf NETFLIX‘ Fähigkeit, Travestien und Genre-Remixes nach Uservorlieben herzustellen: „Die User gucken am liebsten Politthriller und Kevin Spacey? Dann produzieren wir ihnen einen Politthriller mit Kevin Spacey!“ Aber AI ist jetzt auf dem Weg, mehr und mehr dieser eigentlich originären Producer-Tools an die Consumer selbst auszulagern. 

Schauen wir uns das auf Basis bereits existierender Filme an. Was daran macht AI auf einmal „anfassbar“ für uns Consumer? Nehmt mir für einen Moment bitte einfach ohne weitere Link-Belege ab, daß das alles bereits erkennbar möglich ist mit AI Consumer Tools, und daß da nur noch jemand rasch ein Frontend mit ein paar Reglern entwickeln müßte bitte, an dem man all diese Faktoren gleichzeitig tweaken kann, und die AI spuckt ruckzuck nach zwei Stunden Rechenzeit einen neuen Film aus:

_Darstellerauswahl: Niemand braucht mehr MoCap, das geht auf Basis von bestehendem Video Material. Also Hauptrollen austauschen. Nebenrollen austauschen. Alle Darsteller sollen Männer sein. Frauen. Frösche.

_Musik: Easy. Ging ja schon vorher, aber jetzt trennt einem die AI auf Wunsch die einzelnen Instrumental-Spuren; das Voice Over von der Musik und den Sound FX. Also anderer Komponist; nur Instrumentals; Orchesterversion statt Surfgitarre… Das kommt als erster AI Regler sobald die Rechtefragen geklärt sind, Wetten werden noch angenommen.

_Sprache & Sprecher. Gedubbt haben die Produzenten schon früher, aber jetzt können wir’s selbst. Und die AI trennt nicht nur die Spuren dafür, sie generiert nicht nur neue Stimmen, sie passt auch die Mimik & Mundbewegungen der Darsteller an die gesprochen Sprache an. Also Saturday Night Fever mit meiner Stimme für John Travolta, und alle anderen Stimmen von Olivia Newton John.

_Art Department: Eigentlich einfacher als MoCap. Also alle Möbel sollen bitte Art Deco sein. Philipp Starck Design. Giger.

_Styling: Alle tragen Kaftane. Oder nichts. Taucheranzüge. 20er Jahre Klamotte. 

_Location: alle Strassenszenen & Häuser Exteriors Hong Kong statt Detroit. Der Wald wie in Neuseeland. Dänemark. Ägypten.

_Framing: AutoFill machts möglich, ich habe schon völlig sinnbefreite erste AI Versionen von BladeRunner im Hochformat gesehen, aber hier geht’s ja nicht um meinen eigenen Geschmack, also bitte 9:16 für alle die das interessiert, was ich lange Zeit nicht glauben konnte, scheint aber so’n heißes Ding zu sein mit dem senkrecht gucken.

_VFX: Mehr so STUDIO GHIBLI, weniger so AVENGERS… 

_Und natürlich alle Kombinationen aus den obigen Beispielen und diverse andere Details, die Leuten wichtig sind. 

Ein Beispiel gefällig? Bittesehr, hier kommen die

AI Producer’s notes von Stephan Pauly zu Ridley Scott‘s BLADE RUNNER 

Schon ganz gut, aber ich hätte da gern noch folgende Änderungen:

Hauptrolle: vielleicht mal mit Christopher Walken aus ca. 1985 besetzen (weil Harrison Ford einfach nicht gleichzeitig Indiana Jones, Han Solo und Deckard sein kann); Bösewicht: Clark Gable statt Rutger Hauer (weil Rutger Hauer eh super ist, aber ich hab schon lange keinen guten Film mehr mit Clark Gable gesehen. Wie, schon tot? Das ist doch der AI egal!) 

Aspect Ratio: Finger weg, die bleibt natürlich in 2.39:1 Cinemascope, ihr Banausen!

Art Department: alle visuellen JAPAN Referenzen in VIETNAM Referenzen umwandeln (weil der JAPAN Takeover der Welt eindeutig eine 80er Jahre Idee ist, die nie so richtig eingetreten ist, und ich einen VIETNAM – Takeover der Welt interessanter fände) 

Autos, Flugobjekte und Gebäude bitte von LUIGI COLANI designen lassen (schlicht weil’s lustig wär)

Sprache bitte mal in Südafrikanischem Englisch (siehe oben)

Musik bitte wie gesagt von den Talking Heads, gerne im Stil meines Lieblingsalbums „Remain In Light“, aber ohne Vocals.

Im Ernst: All das rauscht doch einem Filmproduzenten täglich durch die Rübe, und nicht „more tits and Vangelis“ – so jedenfalls meine romantische Vorstellung von einem Filmproduzenten, und bald kann er sie es tatsächlich einfach ausprobieren! Der irre Twist ist ab jetzt allerdings, daß das auch für uns Consumer gelten wird. Mal alle technischen und rechtlichen Fragen außen vorgelassen, gibt es einen Markt für solche customizable Filme? Ach, mir doch egal, ich möchte eigentlich nur tagelang mit meinen neuen AI Reglern an BLADE RUNNER rumspielen, aber vielleicht bin ich auch nur ein wenig anders als die anderen kleinen Kinder auf dem Spielplatz.

Welchen Film würdet ihr euch vorknöpfen?

Und an welchen Reglern möchtet ihr gern drehen können?

Gehen Sie bitte weiter, hier gibt es nichts zu sehen.

Ich hab mich neulich mal beschwert darüber, daß ich ständig Roboter-Bilder sehe, die AI-Beiträge illustrieren und dort die AI verkörpern sollen, und das auch noch auf LinkedIn. Immer eine schlechte Idee, Streit auf LinkedIn anzufangen. Diesen habe ich eindeutig verloren: am Ende wurde ich aufgefordert, halt eine bessere AI-Allegorie vorzulegen – „touché“! Wir wissen immer mehr darüber, was generative AI produzieren kann. Wir haben aber weiterhin keinen blassen Schimmer, wie wir uns generative AI vorstellen sollen, wir haben kein Bild davon, und so greifen wir ständig auf die ältesten Klischees zurück, die man sich denken kann. Soviel übrigens zum Thema „AI reproduziert ja immer nur das, was sie schon kennt, woran sie trainiert ist, da kann ja nix Neues bei rauskommen“: uns Fleshbags („Trollhunters“, 2016) geht’s da ganz genauso.

Etwas, das so menschenähnlich mit uns interagiert wie ChatGPT, das muß doch aussehen wie ein Mensch! Ist ja auch nicht einfach, erst recht nicht, wenn man nur schnell eine einleuchtende Illustration für einen Linkedin Beitrag braucht. Natürlich wollen wir in die bildlichen Repräsentationen immer einen Reminder auf die Maschinenherkunft der AI einbauen. Wie soll da keine humanoide Blechkiste bei rauskommen?

Grob gesprochen sind 95% aller Versuche nur Variationen über die Robots aus „All Is Full Of Love“ (1997), die Chris Cunningham übrigens selbst entworfen hat – sein Musikvideo ist zu Recht in der Ständigen Ausstellung des MoMa gelandet. Die Robots unterscheiden sich ja von Maria, Fritz Langs Roboter aus Metropolis (1927), dem Vorbild für Lucas’ C3PO, nur im Style, sie sind 90ies slick, weiß und gefühlt Japanese statt expressionistisch, aber eben nicht grundsätzlich: humanoide Blechkisten auch sie. Da ist also nicht wirklich viel passiert in hundert Jahren, könnte man sagen.

Zugleich ist das ja geradezu rührend hilflos. Diese ganzen Robots sollen uns trotz allen Alien-Terminator-Transformer-Schauers eine gewisse Sicherheit bescheren dahingehend, daß immer noch ein menschenähnliches Gegenüber mit uns interagiert; ein Gegenüber, wie wir uns uns selbst immer vorstellen, als Individuum, als eine abgeschlossene Entity.

Spätestens da kippt dann das Falsche ins Fahrlässige, weil wir uns auf diese Weise nur vor der Erkenntnis verstecken, daß es da eigentlich nichts zu sehen gibt. AI ist eben kein Individuum, AI ist nicht EINS. Kevin Kelly („The Inevitable“, 2016) knows best, Leute: „Conventional wisdom held that supercomputers would be the first to host (ai), and then soon enough, we’d add consumer models to the heads of our personal robots. (…) However, the first genuine AI will not be birthed in a stand alone supercomputer, but in the superorganism known as the net. (…) The AI on the horizon looks more like Amazon Web Services.”

Achtung, anschnallen bitte für den weit hergeholten Vergleich: Ein paar der monotheistischen Religionen haben es geschafft, die Idee eisenhart durchzuziehen, dass man seinen Gott nicht darstellen, ja, ihn sich nicht einmal VORstellen dürfe. Die Christen haben da zwar „jaja“ gesagt, „du sollst dir kein Bildnis machen“, aber dann haben sie Michelangelo et. al. rangelassen. Das sollten wir in Sachen AI vielleicht vermeiden, ein Gott mit Rauschebart ist eigentlich genau so daneben wie AI als Roboter. Lasst uns stattdessen mal den Mut haben, uns AI nicht zu visualisieren (was ja für uns Werbefilmmenschen eine ganz besonders schwieriges Projekt ist), zumindest nicht mehr als Chris Cunningham Roboter, bitte.*

Die meines Erachtens beste Analogie stammt erneut von, ihr ahnt es, Kevin Kelly: in der industriellen Revolution haben viele Unternehmer ein Vermögen gemacht, indem sie bekannte Produkte elekrifiziert haben: Ein Bügeleisen, aber mit Strom. Ein Rührgerät, JETZT NEU! Mit Strom etc. Den Strom dafür haben sich diese Erfinder-Unternehmer besorgt als vorfabrizierte, unsichtbare, netzbasierte Ressource, jederzeit anzapfbar. Mit unseren aktuellen Tools passiert gerade dasselbe: Photoshop, jetzt mit generativer AI. Und die bleibt, wie zuvor der Strom auch, unsichtbar.

Schaut Euch mal den TED Talk von Imran Choudhri an, der jahrzehntelang Designer bei Apple war. Seine Vision für eine neues Tool, mit dessen Hilfe wir mit AI interagieren können, ist in allem das Gegenteil der Facehugger-Apple Brille. AI wird uns, wenn man Choudhri folgt, garantiert nicht als Roboter entgegentreten; seine Vision ist vielmehr „technology needs to disappear – to re-allow us to be present“. Für mich so viel sympatischer als alle anderen Techonlogie-Ansätze, die ständig etwas Neues basteln, das sie zwischen mich und die Welt schieben wollen (Screens vor oder in meinem Gesicht, Kopfhörer in meinen Ohren, Kabel im Gehirn etc.) Choudhri hat stattdessen ein minimalistisches wearable device entworfen, das uns als Interface dienen soll, um uns AI als eine Art persönlichen, sprechenden Assistenten zur Seite zu stellen. Da gibt es literally nichts zu sehen – weniger Roboter ist kaum denkbar.

*PS: An einigen Reaktionen habe ich bemerkt, daß ich da vielleicht eine falsche Fährte gelegt habe: Ich wollte überhaupt nicht andeuten, AI habe übermenschliches, gar göttliches Potenzial. Noch sind WIR ja diejenigen, die etwas nach unserem Bilde geschaffen haben, nicht umgekehrt. Ich wollte lediglich darauf hinweisen, daß es eine solide kulturgeschichtliche Leistung ist, nicht immer alles gleich zu anthropomorphisieren, und daß man sich daran auch in Sachen AI halten sollte, auch wenn es einem dann schwerer fällt, LinkedIn Beiträge zu illustrieren.

Der „Einmal volltanken, bitte!“ – Effekt*

Mein VW fasst 65 Liter Superbenzin. Jetzt möchte ich natürlich auch gern mitmachen beim Klima retten. Weniger oder gar kein Auto fahren? E-Auto fahren? Immer nur einen halben Tank verbrauchen im Monat statt eines ganzen? Oder vielleicht doch E-Fuels, die sauber hergestellte Superbenzin Alternative! Denn damit mache ich genau das, was ich vorher auch gemacht habe: Ich tanke alle 3-4 Wochen meine Karre voll, nur eben mit angeblich sauber hergestelltem Sprit. Das Format „Auto“ und mein Umgang damit bleiben komplett unverändert, auch wenn ein neuer Treibstoff daherkommt. Und natürlich erwarte ich, dass es dasselbe kostet wie vorher.

Mal sehn wie weit uns diese holperige Analogie trägt… Ich frage mich halt grade, ob unsere Autos, quatsch, unsere Formate, unsere Arbeitsprozesse, nicht vielleicht mächtiger, zäher und langlebiger sind als die Inhalte und die Methoden, mit denen wir unsere Arbeit machen, und was das alles mit – NATÜRLICH – dem neuen Supertreibstoff AI zu tun hat.

An unseren Mood-Scouts kann man grade den „Einmal volltanken, bitte“-Effekt beobachten: Das Format „Moods suchen“ scheint deutlich robuster zu sein, als sämtliche potenziell ja revolutionären Innovationstendenzen der generativen AIs, die sich in dieses Format einschleichen.

In den Händen dieser Artists richtet generative AI zwar deren Arbeitsweisen neu aus und verändert sie radikal – vom Moodscout zum Prompt Artist – aber ihre Auslastung ist dabei nicht grundsätzlich in Frage gestellt. Das macht jetzt nicht auf einmal die Inhouse Praktikantin „weil das ja mit AI jetzt so einfach geht“. Und weniger wird die Arbeit auch nicht: die Regisseurin, der sie zuarbeiten, ist nicht auf einmal nach 10 AI-generierten Bildern und zwei Arbeitsstunden seitens Moodscout-Gone-Prompt Artist schon happy und sagt: „Ach, wie geil sind denn diese Midjourney Bilder, viel geiler als die immergleichen aus dem Netz zusammengeklaubten Moodbilder, ich habe eigentlich alles was ich brauche.“ Und die Mood Scouts selbst werden alles dafür tun, das nicht aus der Hand zu geben. Sie sind natürlich dabei, sich AI als weiteres Tool anzueignen, damit sie weiterhin möglichst viel ihrer Arbeitskraft auf dem Markt verkauft bekommen.

Zu erwarten, dass sich Effizienzgewinne in weniger Leistung oder weniger Arbeit niederschlagen ist also wahrscheinlich blanker Unsinn. Die Arbeit wird nicht weniger.

„Die 4-Stunden-Woche“ von Timothy Ferris etwa, ein großer Beschiß, wie die meisten dieser „Mehr Zeit, Mehr Geld, Mehr Leben“ Besteller, das ist im vollen Ernst der Bestseller-Untertitel! Natürlich hat Ferris selber nie vier Stunden die Woche gearbeitet mit seinem irren Output an Podcasts, Büchern, Nahrungsmittelergänzungen etc. Vier Stunden die Woche für dieses Buch vielleicht, aber in Summe bestimmt 120 Stunden die Woche… John Maynard Keynes‘ Prognose aus 1930, daß aufgrund der großen Effizienzgewinne neuer Techniken in 2030 jeder nur noch 15 Stunden die Woche arbeiten werde – komplett naiv, da lag der Jahrhundert-Ökonom genau so sehr daneben, wie der Lebenshilfe-Autor. Ja, es arbeiten alle mit viel mehr & besserem Output, aber eben immer mindestens noch genau so viel, und wenn sie weniger arbeiten sollten, dann nicht wegen der Effizienzgewinne neuer Techniken. Sondern weil man sich das mühselig erstritten hat mithilfe von so unsexy Erfindungen wie Gewerkschaften und so.

Was die Frage aufwirft, bei wem eigentlich die Effizienz- und Qualitätssprünge ankommen, die generative AI ermöglicht. Denn es ist ja etwas qualitativ anderes, was die AI ermöglicht, das ist schon deutlich näher dran an bisher sehr mit viel mehr Aufwand und möglichst nicht schon im Pitchprozess hergestellten Style Frames, für die spezielle Artists noch vor nicht allzulanger Zeit 600-800 Euro am Tag bekommen haben. Nicht für 50 Bilder, sondern für ein bis zwei. „Ah, super daß wir jetzt wegen AI x-fach so präzise und x-fach so viel Zeug als Moods bekommen, aber bitte zu denselben Konditionen wie vorher eine Mood-Recherche natürlich!“ Jedenfalls landen sie nicht bei den Moodscouts. Nicht bei den Produktionen, die immer noch den Moodscouts dieselbe Anzahl an Tagen bezahlen. Hmmm, ja wo denn dann? Wie hat grade Charlie Warzel im ATLANTIC geschrieben: „In a world where the cost of producing content (…) approaches zero, it stands to reason that the forces of capitalism would respond by demanding as much of it as possible.“ Exakt. Und wir liefern natürlich, because that’s what we do.

Anders gesagt: Die neuen Techniken reduzieren nicht die Arbeit, nur die Kosten für Arbeit. Die Arbeit wird nicht weniger, der OUTPUT wird mehr & besser. Der Tank wird immer noch vollgemacht, weil eben so viel reinpasst, jetzt mit dem besseren Benzin. Vielleicht müssten wir den Blick von Effizienzsprüngen auf Qualitätssprünge richten: zu denselben Konditionen gibt es jetzt genauere, bessere, hochwertigere Moods. Wenn das für alle anderen Regisseure, Producer, VFX Artists etc. auch gilt, die sich da aktuell durch AI zu Freuds Prothesengöttern aufrüsten, und wenn wir all diese Verbesserungen an Output und Qualität zum selben alten Preis an die Kunden durchreichen, dann bekommen die zum selben Preis ein deutlich besseres Produkt. Da müßte man vielleicht mal drüber sprechen; zumindest müßte es erstmal einer relevanten Anzahl an Menschen auffallen & die müssten das irritierend & thematisierenswert finden.

Das könnte, positiv bertrachtet, auch ein Hinweis darauf sein, daß gar nicht alle Jobs wegfallen werden wie in den gern bemühten Warn-Horror-Szenarien zu zukünftigen AI-Umkrempelungen, sondern daß sich stattdessen alle mit AI aufrüsten, um mehr und einen besseren Output bieten zu können, aber trotzdem immer noch dieselbe Menge Manpower zu verkaufen. Das Problematische an AI ist also wahrscheinlich nicht in erster Linie die SKYNET Dystopie, oder daß viele Menschen ihre Jobs verlieren werden (auch wenn Goldman Sachs sagt, immerhin keine esoterische Hippie-Bude, daß im nächsten Jahrzehnt jeder 11. oder 300 Millionen Jobs ausgelöscht werden durch AI). Das Problematische ist eher, nochmal Charlie Warzel: „The easier our labor becomes, the more of it we can do, and the more of it we’ll be expected to do.“

Soweit teilen wir Filmhasen also wohl nur die AI-Zukunft mit all den anderen White Collar Arbeitsbienen da draußen. Oder gibt es für uns darüber hinaus noch eine sehr spezifisches Szenario, das wir im Auge behalten sollten? Der „Bitte einmal Volltanken“ Effekt ist in dem Moment unser kleinstes Problem, wenn generative AI so machtvoll wird, daß sie den Anspruch erheben kann, unser komplettes Produkt zu liefern, komplette Filme zu machen. Der Prognosen-Wettbewerb ist da im vollen Gange: „Wir werden die erste AI-generierte Nextflix Produktion in 12-18 Monaten erleben, den ersten AI Hollywood Film bis 2028 etc. etc.“

Bei den Architekten oder den Modeschöpfern ist das anders, da übernimmt AI „nur“ das Entwerfen, gebaut und geschneidert werden muss weiterhin. Text-To-Video AI macht dagegen erste Gehversuche darin, nicht das Konzept oder das Art Department eines Filmes zu ersetzen oder mit neuen Tools auszustatten, sondern den gesamten Film zu generieren.

Vielleicht ist generative AI also gar nicht nur der neue Supertreibstoff, den wir demnächst in unseren Filmproduktionstank packen, vielleicht ist generative AI die neue Filmproduktion. Bleibt spannend.

*P.S.: Wenn ich Wirtschaft studiert hätte, stelle ich grade beim Weiterlesen & -nachdenken fest, hätte ich mir nicht selber so eine maue Analogie ausdenken müssen & sie den „Einmal Volltanken Effekt“ nennen müssen. Ich hätte einfach sagen können: Klarer Fall von Jevons Effekt! Jevons Effekt? England war im 19. Jh das Saudi Arabien der Steinkohle mit der Sorge, was wohl passieren werde, wenn die Steinkohle mal alle ist. Schlaue Ingenieure argumentierten, das sein kein Problem, weil der technische Fortschritt zu effizienteren Maschinen und damit zu weniger Kohleverbrauch führen werde. Der noch schlauere Ökonom Jevon argumentierte dagegen, daß effizientere Maschinen zu MEHR Kohleverbrauch führen würden, weil sie die Kosten des Kohleverbrauchs senken würden. Wenn der Preis sinkt, steigt die Nachfrage, und mit der Nachfrage steigt der Konsum. Von Kohle, wie auch von AI powered White Collar Arbeit. Und genau das wird passieren! Der Preis für unsere Arbeit + AI wird sinken – anders betrachtet, wir werden für unsere per AI supercharged Arbeit dieselbe Kohle bekommen, wie wir sie vorher ohne AI bekommen haben. Und der Preis für Arbeit, die nicht per AI veredelt wird, wird ins Bodenlose fallen. Nicht in der Krankenpflege, und nicht im Straßenbau, aber bei uns.

Sky Captain and The World Of Tomorrow

Anfang der 2000er ging die Saga um bei uns Filmschaffenden, da habe jemand, Kerry Conran war sein Name, vier Jahre lang zuhause an seinem Mac einen kompletten Film vorvisualisiert, den er dann in Hollywood finanziert bekommen habe, von einem Neffen von Dino DeLaurentiis himself. Am Ende hat den Film Paramount rausgebracht, nachdem die Produktion 70 Millionen Dollar verschlungen hatte. Und wir alten Musikvideo-Burschis haben uns damals enttäuscht gefragt „Ja verdammt, wenn er ihn doch schon hatte, seinen Film, warum hat er ihn dann dem doofen Hollywood-System zum Fraß vorgeworfen?“ Hatte er nicht bewiesen, daß er das Potenzial hatte, den gesamten Film als Chimären-Team selber zu machen, er und seine Maschine? Warum hat er sich dann von dem verdammten System schlucken lassen, um bei einem Film mit puuuhhh… Jude Law! in der Hauptrolle gnädig Regie führen zu dürfen, nur damit der dann am Ende als Box Office Flop galt, weil er nur 60 Millionen eingespielt, aber 70 Mio gekostet hatte? Wie zum Teufel konnte das dermaßen schief gehen?

Da war mir zum ersten Mal die Vision begegnet davon, daß ein Mensch einen Film komplett selbst machen könnte, genau so, wie man sich auch hinsetzen und ein Buch schreiben kann alleine. Was davon in den Klauen von Hollywood übrig geblieben ist, war der Ansatz, den Film komplett am Rechner entstehen zu lassen (mit Ausnahme der Darstellerinnen, die in weniger als 30 Tagen abgedreht waren), aber eben nicht auf dem Rechner von Kerry Conran, da hatte sich Hollywood schon drübergestülpt und ihm das aus den Händen genommen. Und der Film war dann am Ende eher so „meeh…“, wobei natürlich zugegebenermaßen niemand weiß, ob er’s alleine besser hinbekommen hätte.

Andererseits, truth be told, war es eben auch so, daß Kerry das Anfang der 2000er tatsächlich auch nicht auf seinem Rechner hätte machen können, dafür war zwar die Hardware schon beinahe da, aber eben die Software noch nicht, auch wenn ein Großteil des workflows revolutionärerweise tatsächlich auf „Quasi-Consumer-Tools“ wie After FX & Final Cut aufgebaut war, und auch die Darsteller hätte er nicht selbst ranschaffen können (Aber Jude Law? Oh Mann.)

Interessanterweise hat sich Kerry nach den „schlechten“ Box Office Zahlen bei seinem Produzenten über die Produktionskosten von angeblich 70 Millionen beschwert: Er hätte das Ding für 3 Mio mit No Names hinbekommen, hat er ihm vorgehalten. Hätte hätte, Fahrradkätte, sag ich da.

Ihr seht: die Geschichte der diversen digitalen DIY-Euphorien läßt sich immer auch als eine Geschichte des Scheiterns erzählen, als Geschichte davon, wie diese Euphorien und die sie ermöglichenden technischen Innovationen von den bestehenden Produktions- und Verwertungsstrukturen aufgesaugt und zum Ausspucken von noch mehr, jetzt eben anders hergestelltem Schrott verwurstet werden. Es führt eine direkte Linie von Kerry Conrans oder Roberto Rodrigos One-Man-Show Rebellentum (Rodrigos Buch heißt „Rebel without a crew“, Lesebefehl! Genau wie Conran hat Rodrigo mit SIN CITY einen der ersten komplett vor Grün gedrehten Filme in Hollywood gemacht) zu den MARVEL Sequels, vom Anspruch, seinen eigenen Film ganz allein mit den aktuellsten digitalen Möglichkeiten umzusetzen hin zu einer im Kern toten 350 Mio Blockbuster-Orgie wie Avengers Endgame.

Worauf ich hinaus will, wollt ihr sicher wissen?

This time will be different (maybe)! Ich glaube fest daran, daß dieselbe Geschichte 25 Jahre später – sehr bald also – einen ganz anderen Twist nehmen könnte. Denn was hat neulich Jensen Huang, der CEO von NVIDIA, gesagt? „Soon, every pixel will be generated.“ Nicht gerendert. Nicht gefilmt. GENERATED. Eine maximal revolutionäre Vorhersage, und ich wage zu addieren: nicht immer und unbedingt bei ILM oder PIXAR, sondern auch auf meinem und auf deinem Mac. Spannend wird das.

https://vimeo.com/821101511

ChimäRegie

Die Geschichte von AI & Schach ist schnell erzählt: Der mechanical turk aus dem 18. Jahrhundert war kein Schachcomputer, sondern ein kleinwüchsiger Mensch unter einem Schachbrett, der einfach sehr gut Schach spielen konnte. Gilt also nicht. Danach hatten wir dann die üblichen zwei AI–Rezeptions-Phasen:

Phase 1 ging bis ca. 1996: „Das wird nie gut genug, kreative Intelligenz ist dem Menschen vorbehalten.“  

Phase 2 begann dann unmittelbar nachdem der erste amtierende Großmeister Gari Kasparow 1996 in einem regulären Turnier von einer Software geschlagen wurde: „Das müssen wir verbieten, weil sonst keiner mehr Schach spielt“.

Soweit, so bekannt. Spannend ist dann erst wieder Phase 3, die Phase der Zentauren: Es wird immer noch sehr viel Schach gespielt, von Menschen gegen Menschen, von Menschen gegen Maschinen, aber zunehmend auch von gemischten Teams. Teams, die so eng miteinander arbeiten, daß man sie Mischwesen oder Chimären nennen kann, oder wie es in der Schachwelt heißt: Zentauren, Chimären aus Mensch und AI.

Jetzt gucken wir mal rasch, wie es grade vorwärtsgeht mit der AI im Filmbereich: Runway Gen 2 ist grade noch im closed beta Stadium, und was da nach draußen sickert, hat jetzt bereits die Qualität von DALL-E von vor 12 Monaten. Aber eben nicht in einem einzelnen Bild, sondern schon in unserer Schlagzahl, heißt in 30 Frames Per Second, also in 2.700 Einzelbildern für einen 90-Sekünder. Genau wie bei DALL-E auch kommen die ersten Sachen oft als Parodien daher, aber das sollte uns nicht darüber hinwegtäuschen, daß das Tool selbst kein Parodietool ist, sondern eine ernstzunehmende Konkurrenz für tatsächlich all unser Tun.

Wenn Sie bitte mal kurz schauen wollen? Oder dies hier vielleicht?

Seht mal bitte kurz mit meinen Produceraugen auf die Effizienzpotenziale: Ein Macher berichtet, er habe seinen 90-Sekünder in rd. 30 Stunden Arbeit hergestellt incl. Schnitt, Vertonung, Grade etc. Genauer: er und seine AI, als Chimäre eben, aber nicht als 65-Menschen-Team mit 8 Wochen Prep, 4 Tagen Dreh und 6 Wochen Post in sagenwirmal 3.000 – 5.000 Mann-Stunden. In der Schlagzahl könnte so eine Chimäre innerhalb eines entspannten Jahres einen soliden Spielfilm abliefern. Oder umgekehrt: Die Manpower, die wir Werbevögel aktuell in einen 90sekünder stecken, würde easy für einzwei 90-minütige Blockbuster reichen.

Wenn ich in einem beliebigen Werbefilm-KVA alles rauswerfe, was auch eine AI erledigen könnte, und dabei die kreativen Department Heads & ein wenig Post drinlasse, dann verliere ich je nach Projekt 50-85% der Kosten. Nach allgemein akzeptierter Business-Logik kann es also quasi gar nicht nicht passieren, daß das einen relevanten Teil unseres Businesses übernehmen wird.

Wer da sagt: „Ja aber die Qualität!“, der muß halt nochmal DALL-E von vor 12 Monaten mit Midjourney in der 5. Version vergleichen. Und sich das dann nochmal von vorne anschauen und sich immer noch zu sagen trauen: „Ich sehe da nichts“. Ich für meinen Teil sehe da Einiges.  

Man kann jetzt, wie ein alter Mitstreiter, der mir das obige geschickt hatte, sagen „Stephan, it’s over!“, und ich kann dieses Sentiment so sehr nachvollziehen.

Oder man kann sich fragen, wie denn in mittlerer Zukunft so ein Werbefilmprojekt mithilfe eines Teams aus Regie und AI aussehen könnte, wenn wir von der optimistischen Annahme ausgehen, daß ansonsten erstmal alles gleich bleibt: Es gibt weiterhin Kunden, die 90Sekünder haben wollen, Agenturen, die sich welche ausdenken, Medien, in denen die stattfinden sollen, Produktionsfirmen, die sie produzieren, und Regie-Heldinnen, die sie umsetzen wollen – jetzt aber eben als Mischwesen aus Regie und AI. Ladies and Gentleman, willkommen im Zeitalter der ChimäRegie!

Los geht’s: Die Agentur hat dem Kunden eine Werbefilm-Idee verkauft. 90% der Standardwerbungen werden ja inzwischen entweder beim Kunden inhouse gemacht oder in der Agentur von diversen AI Jockeys, die eine Idee in Runway Gen 16 füttern und aus den 300 Durchläufen dann das Beste zusammenschneiden, vertonen, graden etc. Was natürlich ebenfalls hochgradig AI-gestützt funktioniert wie in ADOBE FIREFLY: Schnittvorschläge von der AI, Musikvorschläge & Soundkatalogauswahl via AI, Grading auf Basis von Textprompts etc..

Aber ab&zu gibt es Ideen, wo alle glauben, daß man mit einer ChimäRegie besser fahren würde, etwa weil die aus echten Darstellern vielleicht noch etwas rausgekitzelt bekommt, auf das die aktuelle Runway Generation noch nicht von alleine stößt. Vielleicht deshalb, weil Runways Outputs noch immer zu sehr an ihrem Trainingsmaterial kleben so wie früher die Autofilme auch sich immer nur mikroskopisch kleine Schritte von dem entfernt haben, was andere Autofilme davor auch schon gemacht haben (Auto auf Küstenstraße; Auto in Großstadt vor Stahl & Glas; Auto an der Ladestation etc.).

Also wird eine der paar verbleibenden Produktionsfirmen den Pitch gewinnen, die eine der wenigen ChimärRegisseure vertreten, die sich eben nicht darauf spezialisiert haben, Dinge umzusetzen, die Runway garantiert NICHT kann (Hochzeitsfilme, Band-Tour-Dokus), sondern die für Werbefilme sich mit einer AI zusammengetan haben und das Potenzial einer Film-AI im Tandem ausreizen, wie das eben weder die Kunden selbst noch die Agentur können.

Pre Production: Wir casten tatsächlich reale DarstellerInnen (ein Big Budget Projekt!). Das Storyboard sparen wir uns, da genügt uns das Text-Script der Agentur, das die ChimäRegie mithilfe ihres Film Know Hows aus alten Tagen in möglichst präzise Textprompts übersetzt. Mit denen füttert sie dann ihre handtrainierte Runway AI. Die hat sie in jahrelanger Trainingsarbeit an sich gewöhnt und auf ihren speziellen Lieblingsstil eingearbeitet, sagenwirmal: „englischer Humor mit einer Prise Selbstironie und einem Schwerpunkt auf High End looks?“. Promptbeherrschung und der exklusive Zugriff auf die jahrelang persönlich trainierte Runway Version sind die beiden Faktoren, mit denen sich unsere ChimäRegie von den Mitberwerberinnen abhebt, ja warum sie überhaupt erst den Pitch gewonnen hat.

Wir scannen die Darsteller, füttern sie in die AI und lassen sieI schonmal loslegen. Statt eines Storyboards haben wir so nach ein paar Tagen eine erste AI-Offline-Version, die unsere ChimäRegie sorgfältig auf Optimierunsgpotenziale abklopft.

Ein paar Takes werden wir vielleicht in den finalen Film übernehmen und nur noch die nochmal real drehen, wo man nach einer Woche Runway noch Verbesserungspotenzial entdeckt hat. Man trifft sich zum PPM, in dem es vor allem darum geht, ob es sich wirklich lohnt, noch real zu drehen; wenn ja, welche Teile und mit welchem Aufwand.

Die Verhandlungslinien sind hier absehbar: Kunde findet alles schon super und weiß eigentlich nicht, warum er jetzt noch das Budget für einen Realdreh locker machen soll. Lieber wäre es ihm, einfach nochmal 2 Wochen AI nachzubuchen, kostet ja fast nix, und der Regie-style ist doch eh schon in der AI eintrainiert.

Agentur & Produktion kämpfen aber hart für ihre Vision eines NOCH BESSEREN Films. Und natürlich kämpfen sie an gegen die ständigen Versuche des Kunden, schon in dieser Phase die MaFo Ergebnisse einzuholen. Man einigt sich darauf, die Close Ups alle einmal real zu drehen; und die eine große Establishing Sequenz, ein verdammt langer One Shot, in der alle DarstellerInnen auf cue was sagen oder tun sollen, die wird man auch nochmal real drehen, weil die AI zwar tolle High End Hintergründe, Kostüme, Lichtsituationen etc. ausgespuckt hat, aber das Timing der menschlichen Beiträge zum Film einfach nicht sitzen will.

Der Kunde grollt derweil im Stillen seiner Agentur, weil sie ihm nicht nur einen Film mit echten Darstellern (die teuren Nutzungsrechte hätten wir uns bei einem reinen AI Film gespart!) und vor allem eine so AI-unkompatibele Intro-Szene aufgeschwatzt hat, aber er sieht schlußendlich ein, daß das wahrscheinlich doch besser geht, wenn man’s real versucht.

Shoot: Wir lassen zwar die Darsteller den ganzen Text sprechen – vielleicht können sie’s ja doch besser als die an ihrer eigenen Stimme trainierten AI-Klone, passiert selten, aber kommt vor; real gedreht werden aber nur ein paar Selected Takes, meistens Close Ups, wo wir mimische Performances von echten Menschen sehen wollen, die die AI noch nicht so gut hinbekommt. Aber unsere ChimäRegie ist trotzdem happy, weil sie endlich mal wieder einen langen One Shot real inszenieren darf. Ein ganzer Drehtag – Yeah!

Post: Die AI hat natürlich weitergemacht und optimiert, während wir gedreht haben; im Schnitt lassen wir dann nochmal die besten AI Shots gegen die besten real gedrehten Takes antreten; vielleicht kombinieren wir beide Welten und legen Teile der Real-Performances über das, was die AI an Szenen schon vorbereitet hat („Hey Runway, nimm das Gesicht von Darsteller A aus dem Realmaterial und ersetze damit sein Gesicht aus dem AI Take“).

Und dann endlich gehen wir in die MaFo.

Ja genau so wird es kommen. Oder was denkt ihr?

What AI Wants

Richard Dawkins hat die Idee eines „Memes“ aufgebracht: einer distinkten Informationseinheit, die analog zu einem Gen funktioniert, sich reproduziert, darwinistischer Selektion unterliegt etc. Kevin Kelly hat den Begriff „The Technium“ erfunden, um Technologie nicht im Detail, sondern als großes Ganzes zu betrachten und diverse Entwicklungstendenzen von Technologie zu beschreiben.

Beide haben dabei eine interessante Perspektive auf ihr jeweiliges Subjekt eingenommen, die die übliche Konsumenten-Perspektive – „Was bringt mir das? Was will ich damit? Ist das ein neues Werkzeug, besser als die alten?“ umkehrt. Am pointiertesten und provokantesten formuliert hat diese Perspektive Kevin Kelly mit seinem Buchtitel  „What Technology Wants“. Was will Technologie? Was wollen Memes? Was wollen Gene? Aus diesen Fragen haben sich interessante Antworten ergeben – probieren wir das doch hier auch mal und fragen uns:

„Was will eigentlich AI?“

Und wie unterscheidet sich das von dem, was wir wollen, wenn wir sie verwenden, und von dem, was ihre Macher wollen/wollten, als sie sie gebaut haben, oder was sie jetzt wollen, wo sie versuchen, sie zu monetarisieren?

Vielleicht sowas hier:

AI will ein eigenes Medium werden.

AI will um unsere Aufmerksamkeit konkurrieren mit den bekannten Medien, und sie hat einen ähnlich hohen Grad von Involvement zu bieten wie Games.

AI will die Welt mit Bildern fluten.

AI will uns zeigen dass alles darstellbar ist was in Worten beschreibbar ist.

Und alles, was als Variation über bereits Dargestelltes darstellbar ist.

AI will uns doch nur helfen – Kevin Kelly hat schon vor Jahren geschrieben, AI wäre künftig wie Elektrizität: Eine Kaffeemaschine, aber MIT STROM! Ein Fahrrad – aber MIT STROM! Ein Schnittprogramm – aber MIT AI! Ein Storyboardtool – aber MIT AI!

AI will uns schmeicheln, indem sie uns die Illusion bereitet, wir könnten mit drei Worten und ENTER Kunst erzeugen. Das ist ihr primärer Kitzel – nicht: „Wow wie super sieht denn das aus“, sondern „Wow, wie super sieht denn aus was ICH GEMACHT HABE!“

Jeder ein Künstler – noch nie waren wir wirklich und mit so viel Output, der das belegt, nah dran an der Einlösung des Beuys’schen Versprechens, das jetzt mit einem Mal nicht nur eine Ermutigung ist, sondern etwas, das wir mit drei Worten und einem ENTER klicken einlösen können.

Aber stimmt denn das auch? Sicher erinnert ihr euch an Billy Bob Thornton als General Holonek in „Whiskey Tango Foxtrot“: er kommandiert eine Marines Einheit in Afghanistan, und in einer Szene sehen wir ihn, wie er auf einem dieser bekloppten Stepper sein Workout betreibt; BBT ist ja, obwohl er so ein harter Hund ist, eine eigentlich sehr fragile Gestalt, und wenn man ihn  so auf dieser Maschine werkeln sieht, fragt man sich unwillkürlich: „Wer workt hier eigentlich wen aus?“

Und genau das soll wohl auch als visuelle Metapher den gesamten vertrackten Krieg beschreiben. Wenig später sagt der General es nochmal expressis verbis für alle, die es in der Szene mit der Maschine noch nicht verstanden haben: „This war is like fucking a gorilla. You keep going until the gorilla wants to stop“.

Daran muß ich regelmäßig denken, wenn ich die Posts vieler AI Künstler / Prompt Artists / Syntographen, whatever sehe: „Look what I made“… “I came up with this picture of XYZ“… Ihr verwechselt da etwas, habe ich den Verdacht: Die AI macht einfach immer weiter, und ihr füttert sie nur. Die AI ist der Gorilla, der nicht aufhören will, ihr glaubt nur dass ihr da das Sagen habt, weil ihr ja schließlich ständig was sagt/promptet. Wie illusorisch aber das Gefühl von Kontrolle ist, weiß jeder, der schonmal aus Versehen einfach irgendeine Katze-läuft-übers-Keyboard Tastenkombi eingegeben hat. Auch die erzeugen verläßlich tolle Bilder. Die AI braucht unseren Kontroll-Anspruch nicht, sie kommt mit jeder Art Input zurecht.

“Maybe AI will help you work. But more likely, you’ll be working for AI.” schreibt neulich wer in THE ATLANTIC als Conclusio einer langen Analyse dessen, was ChatGPT an zusätzlicher Arbeit an Unis und Schulen erzeugen wird.  

Und das hat natürlich auch seine Berechtigung. AI hat aus sich selbst heraus die Tendenz, MASSE zu produzieren. Agenturen und andere Produzenten von Kreativcontent haben ebenfalls die Tendenz, Effizienzgewinne durch mehr Output wieder wettzumachen: Mehr Straßen erzeugen auch nicht weniger Staus, sondern mehr Verkehr. Drehen auf Digital statt auf Film ist vom Material her billiger, aber erzeugt die X-fache Menge an Material, es braucht einen DIT zum Verwalten, mehr Speicherplatz und Schnittplatzzeit zum Sichten etc.

Aus meiner bescheidenen Anfängerperspektive sieht es manchmal so aus, als wäre da wirklich eine sehr machtvolle kreative Entity in die Welt getreten, die mit uns gemeinsam ganze Universen an Output erzeugt, unablässig,  und mit massivem Suchtpotenzial. Sie bietet sich als Werkzeug an, sie schmeichelt unserem inneren Künstler/Art Director/Whatever, aber was, wenn sie uns eigentlich nur als Stichwortgeber braucht?

Just Another Tool

Auf die Gefahr hin, etwas obsessiv rüberzukommen: TADAAAAA! „AI Realismus“ ist auf einmal eine Tatsache. 

Noch vor ein paar Wochen hatte alles, was da rauskam, so einen illustrativen Touch. Ja, die AI konnte tolle Welten malen, die wie die Illustrationen aus meinem 60er Jahre „Reader’s Digest Jugendbuch für Jungen“ aussahen, so weit, so nett, so harmlos (für alle Nicht-Illustratoren, Comic-Zeichner & Storyboard Artists jedenfalls).

Seit SD 2.x und MJ 4.x können die führenden AIs wirklich fotorealistische Bilder erzeugen. Die findest du, wenn du dich nicht von dem kindischen Noise ablenken lässt, „Batman mit Bauch im Duell gegen Trump als Weihnachtselfe“ etc., in den das noch eingebettet ist. Und jede/r schusselige Consumer wie yours truly kann sie erzeugen (lassen). Seht euch mal diese random zusammengestellten Beispiele von AI erfundenen Bildern aus meinem AI Feed in Midjourney an, die mühelos in diversen Kernbereichen unseres Werbefilmschaffens mithalten können:

AI People / Portraits

AI Sneaker / Produktfotografie

AI Beauty & Fashion

AI Autos

AI Architektur & Gebäude

AI Interiors & Räume

AI Foodporn

Und ich hab das dumpfe Gefühl, dass diese Schritte – von der Illustration zum Foto-Realismus in ein paar Wochen – in einer ähnlichen Schlagzahl weiterhin kommen werden: „Text–to-3D“ ist schon verfügbar; ChatGPT ist erwacht und schreibt Battle-Rap-Texte und Textprompts für bessere AI Bilder. META hat „Text–To-Video“ vorgestellt. Bam, Bam, Bam.

AI wird diverse Jobs günstiger erledigen können als auf traditionelle Weise hergestellte Jobs.  Da hätte ich jedes Verständnis dafür wenn Food-Stylisten, Stockfotografen und MakeUp Artists doomsdaymässig kreischend durch Mitte laufen, die Fäuste gen Himmel schütteln und immerzu rufen: „The end is nigh, wir werden alle unsere Jobs verlieren“. Da kann Kevin Kelly ruhig in gewohnter Techno-Optimisten-Manier das Gegenteil versprechen (ohne jeden Beleg, und eigentlich wider besseres Wissen übrigens). Auch wenn er ansonsten den besten Artikel zum Thema geschrieben hat, der mir bisher begegnet ist. Aber ich schweife ab.

Diese AI wirft die traditionellen Schnittstellen über den Haufen zwischen Kreation und Exekution, zwischen Briefing vom Kunden, Ideenfindung in einer Agentur und Ideen-Exekution durch uns Kreativhandwerker. „Wir sind die Designer, ihr die Schreiner“ hat Springer oder Jacoby angeblich mal gesagt. Not any longer, möchte man antworten. Die AIs haben an aller visuellen Kreativität der Welt trainiert; ihr Output hat deshalb – alle drei Minuten & per Knopfdruck – oft genug mehr visuelle Kreativität zu bieten als viele Agentur-Kreativteams, und das at scale.

Wenn ich eine Agentur wäre, dann hätte ich längst eine Pipeline etabliert, die zu allen Themen, die mich und meine Kunden angehen, täglich sagenwirmal 500 Bilder erzeugen lässt. AI unterstütztes Brainstorming sozusagen. Und wenn nur, um meinen Vorsprung gegenüber den Konsumern nicht zu verlieren… Denn die AIs stehen jedem zur Verfügung. Dem Kunden. Dem Praktikanten in der Agentur, der zum Sortieren der täglichen 500 Bilder abgestellt worden ist, und plötzlich mit DEM ULTIMATIVEN BILD in der Hand dasteht und überlegt, ob er’s als seins verkauft bekommt. Der Photographin vorm und beim und nach dem Foto-Shoot. Und dem Caterer. Und… Aber ich schweife schon wieder ab.

Was ist denn nun eigentlich die neue Qualität dieser AIs, und warum ist es so disruptiv, wenn sie jeder/m zur Verfügung steht? Warum verfangen diese „AI is just another tool“ Argumente eben nicht, die ich schon ein paarmal gelesen habe… „Einen Pinsel kann sich jeder leisten, aber darum wird noch nicht jeder Picasso“ Oder „Ja, fotografieren kann auch jeder mit seinem iPhone, aber darum kann deine Oma noch lange nicht das nächste VOGUE Cover fotografieren“.  

Tools sind konzeptlose, vergleichsweise unintelligente Werkzeuge, auch wenn sie an hunderten von Jahren an kreativer Arbeit optimiert worden sind. Photoshop kann einen sehr konkreten Befehl sehr konkret umsetzen: Mach das Bild heller. Toll, aber trotzdem ein Tool. Ein iPhone kann eine sehr konkrete visuelle Realität – was sich vor deinen Augen befindet – sehr konkret in ein vielleicht sogar beeindruckendes Bild verwandeln. Toll, aber trotzdem ein Tool.

Die abstrakten Konzepte dahinter – hinter dem Bild, das dein Pinsel malen soll, hinter dem Foto, das du von diesem spektakulären Sonnenuntergang machen möchtest – sind dabei aber für Tools wie Pinsel, Photoshop und iPhone unerreichbar. Dafür braucht es die spektakuläre Intelligenz einer AI. Die hat anhand eines Datensatzes aus rund 6 Milliarden Bildern und deren jeweiliger verbaler Beschreibung trainiert und kennt deshalb bis zu einem gewissen Grad die Verbindung von Bildern und von logischen, ästhetischen, visuellen, historischen und 1.000 anderen Konzepten, und sie kann sie zur ERSCHAFFUNG von Bildern aus Konzepten anwenden. Damit ist sie im Allerheiligsten des kreativen Prozesses angekommen: beim BILDER ERFINDEN, und das jetzt schon auf photorealistischem Niveau. Nicht nur ein Tool, sondern ein Quantensprung. 

Und die Fähigkeit, KONZEPTE zu erfinden, aus denen man Bilder machen (lassen) kann, die ist, steile These, deutlich anders verteilt als die Fähigkeiten, anhand derer sich die Menschen heutzutage in die bisher vorhandenen Kreativberufe einsortieren. Vielleicht gibts am Ende in unserem ganz speziellen Ökosystem nur noch 2 Sorten Jobs: AI Jockeys und Kreativdirektoren. 

Okay, und Juristen. Und Buchhalter. Und die werden die Zukunft dieser Sorte AI natürlich mindestens genau so mitentscheiden wie die kreativen Use Cases. Es braucht dabei weder Buchhalter noch Producer, um grob zu überschlagen, wie viel weniger bei der Herstellung all dieser Bilder ausgegeben worden ist. Und die Kombination aus Qualität und Kosteneinsparpotenzial wird dem Ganzen so einen Schub verleihen, dass wir da alle noch mit den Ohren schlackern werden. Hey, ist ja nur ein Blog, da kann ich so viele Maximalismen auffahren wie ich Lust hab!

P.S.: Die Portraits im Header hat mir MJ ausgespuckt auf Basis eines simplen Textprompts. Keine Post Production, kein garnichts. Die Bilder im Beitrag sind zum Teil von mir & MJ, zum größten Teil aus meinem MJ Feed / von anderen MJ Usern veröffentlicht. Da weiß ich weniger über den Herstellungs-Prozeß.

P.P.S.: Hier ist meine, oldschool, Facebook-Gruppe mit Beispielen zum Thema „AI Realismus“.

P.P.P.S.: Ich bin grade nochmal gestolpert über Interview mit David Bowie aus 1999, in dem er total abspacet darüber, dass das Internet alles über den Haufen werfen wird. Und was antwortet Jeremy Paxman von der BBC? „But it’s just a tool, isn’t it?“ (ca. min 11:00) Well, maybe not.

Ganz ehrlich: Ich versteh‘ das Argument nicht. Ich verstehe die Motivation hinter dem Argument – Pfeifen im Walde, ist doch nur ein Werkzeug, wird schon nicht so schlimm werden – aber ich glaube, das Argument geht an der Sache vorbei. Ein Laptop ist auch ‚just a tool‘. Ein Auto auch. Ein Webstuhl auch. Aber trotzdem sind das alles transformative Technologien mit massivem Veränderungspotenzial für diverse gesellschaftliche Prozesse. Das kann man doch nicht einfach so kleinquatschen!

Artificial Film Production

Hier ist ein typischer Moment, den alle ProducerInnen da draußen schon oft genug erlebt haben: Das Agenturproducing schickt dir einen Mood-Film, an dem die Agenturkreativen lange geschnitten haben, alles auf Basis von gefundenen Szenen. Der Film hat sagenwirmal 30 Szenen an 30 unterschiedlichen Sets. Jede Szene ist nur 2-3 Sekunden lang. Es gibt 30-40 Darsteller plus 30-40 Extras. Ein Voice Over führt durch den Film, und die Szenen illustrieren, kommentieren, konterkarieren sehr clever das, was das VO sagt, geschnitten in ADHS -TikTokTempo.

Und das ist aus meiner Sicht so ein typisches Agenturding: das Konzept – die eigentliche Domäne der Agentur – ist so stark, oder, neutraler formuliert, so dominant, dass die Details der Umsetzung, also unsere Producer-Domäne, nahezu egal werden. Das funktioniert so wie es ist, weil die Text/Bild-Kombi schlau und gut geschnitten ist. Was zur Folge hat, daß man unmittelbar denkt: Ja, und was können wir da noch tun? Eigentlich könnte man das schon so auf den Sender geben. Oder auf Tiktok, whatever. Wißt ihr was ich meine? Es fühlt sich unmittelbar so an, als wäre man als Produktion überflüssig, der Film ist doch schon fertig, den muß jetzt nur noch einer mehr oder weniger genauso runterkurbeln, und die spezifischen Dinge, die Regie oder Produktion auf dem langen Weg zum fertigen Film noch beitragen könnten, werden an seiner Qualität gar nichts ändern, weil er im besten Fall schon super ist so wie er ist. Am liebsten würde man den von zwei Produktionen und Regisseurinnen umsetzen lassen, um anhand der fertigen Filme genau das zu demonstrieren, aber geht ja leider nicht.

Ja, ich weiß, es gibt in Cannes nicht umsonst einen eigenen Lion für Film Craft, und das ist auch wahnsinnig wichtig, da die weltweit besten Spezialisten ranzulassen für Regie, Casting, Production Design, Musik, Kamera etc., aber seien wir mal ehrlich: nicht immer. Wenn man noch ´ne Runde weiterdenkt, ist man bei dieser Art Moodfilmen schon fast erschöpft bei der Vorstellung, wieviel Mühe da reingehen muss, um das „nur noch“ nachzubauen. Also, radikaler Vorschlag, machen wir das doch einfach nicht, sondern sagen der Agentur: Toll gemacht, nehmt’s doch bitte einfach wie’s ist, bittschön!

Würden wir ja vielleicht auch machen, wenn uns nicht neben der Gefahr, uns selbst überflüssig zu machen, einzwei Probleme davon abhalten würden:

Problem 1: Die Rechte. Haben wir nicht, finden wir nicht, kriegen wir auch nicht. Und wenn doch, dann können wir’s uns wahrscheinlich nicht leisten.

Problem 2: Die, pardon my French, Frickelsucht der Kreativen. Besser geht halt immer: Nein, die eine Frau in shot 17 kann natürlich nicht rothaarig sein. Und der Mann in shot 22 ist zu korpulent. Und das Mobiliar ist zu 70ies und so weiter und so weiter. So weit, so egal für das Ergebnis, aber erklär das mal einem/r Kreativen!

Muß man also doch in einen „echten“ Film übersetzen, und da bleibt einem nur das übliche Prozedere, unser daily business: Riesenaufriss. Regiesuche, Pitch, Regieinterpretationen, -zig Kalkulationen, endlich dann Pitchgewinn und los geht’s mit fünfsechs Drehtagen im Osten damit’s irgendwie bezahlbar bleibt, schneiden, graden, onlinen, vertonen etc etc etc.

Und dieser Aufriss kostet ja, igitt! GELD, was gern beim Moodschnippeln erstmal ignoriert wird. Ichsagmal 800kilo bis eine Mio je nach Regie, Serviceland etc. Und da ist dann ganz schnell End of Story und lange Gesichter, erst recht wenn Agentur und Kunde denken, sie kommen mit 200k aus. Großes Staunen: Ja, wie kann das denn so teuer sein wenn man’s in echt macht, war doch so einfach zu schneiden! Aber selbst wenn nicht, selbst wenn sie wissen was es kostet, und das Geld beim Kunden locker machen können – was für ein Aufriss für eine eigentlich nur noch minimale Verbesserung, oder? Was für eine irre Diskrepanz zwischen Entwurf und Realisierung, neutraler formuliert!

Aber die Rettung ist nahe: AI wird diese Fälle für uns fixen, und zwar so gründlich, daß wir diese Filme als Produktionen gar nicht mehr auf den Tisch bekommen werden, weil sie die Agentur selber machen kann. Read my lips, Leute.

Eure Social Media Feeds werden ja auch überquellen von AI-generierten Bildern, oder? Dall.e 2, Midjourney – Text to Picture AIs mit spektakulären Ergebnissen. Noch besteht die Mehrheit der damit generierten Dinge aus schlechten Scherzen – „Thanos at Walmart, fighting a giant hamster“, Ha-ha. Noch sehen die meisten Sachen aus wie 70er Jahre Illustrationen in tschechischen SciFi Büchern. Aber das liegt nur an den Early Adoptern, die damit rumspielen, und dem Trash, der denen so durch die Birne rauscht. Lassen wir uns davon nicht täuschen: Das ist kein Spielzeug. Das ist eine Dampfwalze auf Ecstasy. Das geht jetzt rasend schnell weiter. Ich lese schon von ersten VFX Artists, die das an ihre VFX Pipeline anschliessen, die selber FLAME Plugins basteln, um das in ihren Workflow zu integrieren etc. Und die ersten „Text to BEWEGTbild“ AIs sind auch schon unterwegs (bin grade zu faul das zu verlinken: schaut mal bei Freund Timor Kardums linkedin feed vorbei, der hatte da neulich schon was in die Runde geworfen.)

Das „Text To Picture“ tool ist natürlich mindblowing, aber das tangiert ja eher die Concept Art Leute da draußen. Was im hier eingangs aufgebrachten Beispiel eher relevant ist, und was aus meiner natürlich professionell verzerrten Perspektive viel einschlägiger ist, ist die ebenfalls in der AI angelegte KERNKOMPETENZ des Agenturkreativen: nämlich VARIATIONEN sehen zu wollen. Dall.e 2 kann das in bewundernswerter Weise, schaut euch einmal an, was die aus dem Mädchen Mit dem Perlenohrring macht. Un-Friggin-Fassbar. Und wenn das bald auch für Bewegtbild und mit Menschen funktioniert, dann werden wir alle mit den Ohren schlackern. Noch schränkt Dall.e 2 das Bearbeiten von Menschen, Promis sowie diverse Schlagworte aus ethischen Erwägungen ein, aber da kommt bestimmt bald jemand aus maybe China, dem all diese Erwägungen sowas von mumpe sind, der bohrt das auf und dann geht da alles.

Und die Kombi aus all dem ist die bald einsatzbereite Werbefilm-AI, die achthunderttausend Euro schwere Lösung für das oben geschilderte Dilemma. Also, leg mal los, liebe AI:

Löse Problem eins: bearbeite alle Gesichter so, dass sie nicht mehr erkennbar sind. Damit lösen sich sämtliche Fragen nach Urheberschaft und nach dem Recht am eigenen Bild in Luft auf – wegen künstlerischer Überarbeitung, oder vielleicht sogar schon weil niemand auch nur mehr die Quelle darin wiedererkennen kann. Und das geht noch weiter, das ist radikal: Schaut mal nach dem Monkey Selfie Rechtsstreit. Auch der hat so eine Social Media – kompatible Oberfläche, wo man zuerst sagt: „Ach, guck mal, ein niedlicher Affe mit einem lustigen Selbstportrait, na und?“ Genau so erinnere ich meine erste Reaktion auf das Thema. ABER. Da hat ein Gericht in letzter Instanz geurteilt, daß der Affe, der auf den Auslöser gedrückt hat, nicht der Urheber sein kann, weil er keine juristische oder natürlich Person ist. Und damit ist laut Gericht NIEMAND der Urheber. Und dasselbe wird auch für von einer AI produzierten Content gelten: keine Person, keine Urheberschaft (schreiben jedenfalls ein paar Auskenner in WIRED, Achtung: paywall).

Will sagen: keine Rechte mehr, für die man bezahlen müsste, kein Recht Am Eigenen Bild, kein Urheberrecht. Vielleicht an dem ganzen Film dann, den ja wieder jemand zusammenschneiden muß, vertonen etc, das hat dann wieder eine gewisse Schöpfungshöhe. Aber das lässt sich der Kunde ja per total buyout von uns sowieso immer UNENTGELTLICH abtreten, anders als Darsteller, Sprecher bekommen wir kreativen Bettelmönche (Producer, Production Companies, Regisseure, Production Designer etc.) ja keinerlei eigene Vergütung für die Übertragung dieser Rechte. Wir bekommen unsere Arbeit bezahlt, und treten die Rechte am entstehenden Werk für umsonst mit ab. Das heisst, die Rechte sind schon weg – doof, wenn die Arbeit dann auch noch verschwindet.

Und dann löse auch noch Problem zwei: ENDLESS TWEAKABILITY, ein Paradies für Agenturkreative. Wenn die AI sich da eine Einstellung aus einem Moodfilm vornimmt und auf diese Einstellung die geballte AI-Power als Kombination aus „Mach mal ne Variation davon“ und der Text-to-Picture Kompetenz loslässt, die ja beide schon in den existierenden AIs angelegt sind, dann sitzen demnächst Horden von Agenturkreativen vor so einer Einstellung und tippen:

„Die Frau braucht einen Schnurrbart!“

„Der Schnurrbart könnte ruhig ein wenig länger sein. Und buschiger“.

„Mach das Wohnzimmer dahinter mal mit Teakmöbeln. Oder Eiche? Etwas heller, der Holzton. ‚Bitte‘ muß ich ja nicht schreiben, ist ja nur eine AI, oder?“

Aufgabe des Producers wäre es dann wahrscheinlich nur noch, irgendwann STOP zu rufen.

Aber, Trommelwirbel: den Film können sie dann auf Basis ihres Moodfilms ohne Produktion selber zu Ende machen, weil die beiden Probleme, die sie jetzt noch davon abhalten, nämlich die Rechtesituation und mangelnde Tweakability, gelöst sein werden.

Hoffe nur, dass sie dann das auch machen und daß die AI nicht nur benutzt wird, um die nächste Eskalationsstufe im Rüstungswettlauf um immer noch komplexere Regieinterpretationen zu zünden, die wir am Ende dann doch noch verfilmen müssen…

Anyways. Nachdem wir das jetzt ja mal als Zukunftsprognose mit 100%iger Eintrittwahrscheinlichkeit durchexerziert haben, und uns eigentlich als Produktionen schonmal darauf freuen können, daß sich diese Sorte Filme zukünftig von alleine produziert, bleibt als spannende Frage: Was bleibt denn dann eigentlich als Kernkompetenz des Filme Ausdenkens, und was als Kernkompetenz des Filme Machens übrig?

Mutmassungen und Protestgeheul bitte gern wie immer in die Kommentarspalten!