Tool Tales 02: Das Schweizer Taschenmesser

Als ich vor geraumer Zeit mit Freund M. auf Korsika wandern war, mussten wir für Tage unsere eigene Verpflegung über die Gipfel schleppen – was hätte sich da mehr angeboten als ein ganzer korsischer Schinken? So saßen wir morgens, mittags und abends und säbelten unsere einzige Nahrung von einem immer leichter werdenden Schweinebein herunter, der Freund mit seinem Schweizer Taschenmesser, und ich mit einer Art gigantischer Crocodile-Dundee-Klappmachete. Was nach ein paar Tagen dazu führte, daß Freund M. zu Recht Angst bekam, er würde das Ziel wegen Unterernährung nicht erreichen, weil mein Messer (und ich, natürlich) einfach immer dreimal soviel vom Schinken runtergeschnitten bekam wie er mit seinem mickrigen Schweizermesser. Er hat überlebt, aber er hatte auf die harte Tour eine wichtige Lektion lernen müssen: Schweizer Taschenmesser sind bestimmt eine ganze Menge Sachen, aber sie sind einfach keine guten Messer.

Verwunderlich ist für mich deshalb, daß es das Swiss Army Knife geschafft hat, schlechthin DIE positiv besetzte Metapher zu werden für ein Multi Purpose Tool. Wer immer sie benutzt, unterschlägt damit ja meistens, daß das namensgebende Key Feature zwar mit im Multi Purpose Paket enthalten ist, aber daß es wie alle anderen darin zusammengepferchten Anwendungen weniger taugt als seine Standalone Variante, das Messer.

Wie aber verhält es sich mit unserer Kalkulationssoftware, dem Swiss Army Knife des Producers? Sie ist ja definitiv ein Multi Purpose Tool, weil sie so viele Dinge kann: 

_tausend buchhalterisch wichtige Kostendetails wie KSK, 50A, AGA präzise abbilden. Jetzt auch die Anrechenbarkeit der Catering-Ausgaben für Festangestellte Mitarbeiter:innen, hurrah!

_ein Regie-Treatment kalkulatorisch nachbauen

_einen Gesamtpreis ermitteln

_Überstunden berechnen

_Auslandskosten getrennt von Inlandskosten ausweisen

_eine Preisvorgabe um haargenau 10% überbieten, damit man sich anschließend auf die Preisvorgabe runterhandeln lassen kann

_Eventualitäten wie teurere Flüge abpuffern

_Schlechtwettertagskosten vorab einschätzen

_die Basis eines Angebots bilden

_eine seeeehr vollständige Leistungsbeschreibung ausspucken

_als Kostenüberwachungstool funktionieren

Etc.

Natürlich kann sie auch diverse andere wünschenswerte Sachen nicht: Rechnungen & Mahnungen erstellen z.B., oder Wetterdaten & Wechselkurse abbilden. Zusatzangebote integrieren. Versionenverläufe nachzeichnen.

Welche der vielen Funktionen ist denn nun aber das Crocodile-Dundee-Messer unseres Kalkulationsformulars? Da gibt es bestimmt eine Menge möglicher Antworten, aber hier ist mein shot: Das Messer unseres Kalkulationsformulars ist die Möglichkeit, effizient und präzise eine Regie-Interpretation kostentechnisch abzubilden (…nach den Gepflogenheiten der Producerkunst in der speziellen Ausprägung der jeweiligen Firma vor dem Hintergrund der allgemeinen Auftragslage und der Auftragslage der Firma im Speziellen etc. etc. etc, I know…) 

Wenn man das für sich beantwortet hat, und die Antworten können je nach Nutzerperspektive bestimmt auch anders ausfallen, dann sollte man sich vielleicht als nächstes fragen: 

Ab wann & wodurch wird dieses Key Feature so eingeschränkt und nahezu unbrauchbar wie die mickrige, nicht arretierbare Klinge eines Swiss Army Knifes? Einfach mal so als offene Frage stehen gelassen. Ist ja ein Blog, da geht das.

Natürlich muß ich einräumen, daß Metaphern schnell in die Irre führen, weil sie eben nur Metaphern sind und keine eins-zu-eins Abbildungen der gemeinten Realität. Vielleicht kann ja Software viel mehr Wunderdinge als die Schweizer Taschenmesser-Ingenieure. Vielleicht kann man im Unterschied zur physischen Messerwelt in der deutlich weniger physischen Software-Welt undendlich viele Features hinzuaddieren, ohne daß das namengebende Key Feature dadurch auch nur einen Deut schlechter wird.

Aber.

Tool Tales 01: Software, die Producer produziert

Momentan denke ich viel darüber nach, wie denn eine Software beschaffen sein soll, die Producern beim Produzieren helfen kann. Dabei landet man – ich – schnell dabei, wie man selber angefangen hat, Produktions-Software zu benutzen. 

Der Geschäftsführer, der mich in seine Produktion geholt hat, hatte mir in einem Satz den Unterschied zwischen einem Bidding Producer und einem Line Producer erklärt: „Du mußt für dich entscheiden wer du sein willst: Willst du lieber morgens als erster die Studiotür auf-, und abends als letzter wieder zumachen, oder willst du lieber ein Kalkulationsformular auf- und wieder zumachen?“ Was nicht bedeuten sollte, dass man in dem Laden nicht auf beiden Positionen minimum 16 Stunden am Tag geschackert hätte, aber der Unterschied hat mir trotzdem sehr eingeleuchtet. Ich habe mir im Laufe der Zeit beide Seiten lange & im Detail angeschaut, ohne mich je wirklich für eine entscheiden zu müssen. Aber zunächst habe ich Musikvideos gebiddet was das Zeug hält, und das einfach so und oft eher trotz als mit Unterstützung diverser Mitstreiter, die das entweder selbst schon seit Jahren machten.

„Du willst Producer sein? Du kennst keinen einzigen Beleuchter in Berlin!“ hat sich mal einer bei mir beschwert. Der war eher von der Fraktion „Studiotür“. „Du willst Producer sein? Du weißt noch nichtmal, daß die Beleuchter laden & rückladen, und daß man deswegen die LKW zwei Tage länger als die Drehtage buchen muss?“ Das war mein sog. Herstellungsleiter, den es zutiefst kränkte, dass er a) als studierter Filmproduzent in einer Musikvideobude arbeiten musste, und das auch noch, b) mit Menschen wie mir, die sich anmaßten, zu kalkulieren, ohne dieselbe heilige Ausbildung genossen zu haben. Und der sich deshalb schlicht weigerte, mich beim Kalkulieren zu coachen.

Was aber egal war: Es brauchte nämlich weder Beleuchtertelefonnummern noch LKW-Wissen, um das Bidden zu lernen. Dazu brauchte es nur 1. eine Produktionsfirma, in der viel gebiddet & produziert wurde, 2. Zugang zu den hunderten von Quotes, die auf dem Server rumlagen, und 3. Zugang natürlich zu den entsprechenden, auf dieser Basis entstandenen Werken. In diesen Quotes war genug Weltwissen gespeichert, als daß man Reverse Engeneeren konnte (ich kenne kein deutsches Wort dafür), wie man das entsprechende Musikvideo hergestellt hatte; und nach dem Vergleich von 20 Quotes und 20 Musikvideos konnte man sich selber an ein leeres Formular setzen und ein Script kalkulieren dergestalt, dass es selbst beim schlechtgelaunten Herstellungsleiter durchrutschte, der sämtliche Quotes gegengelesen mußte, bevor sie an die Kunden rausgingen. Quotes ließen sich damit basteln, die dermaßen plausibel waren, dass man sie beim Kunden verkauft bekam. Und, Feuerprobe schlechthin: die dann auch noch in den Händen einer echten Studiotür auf- und wieder zuschließenden Produktionsleiterin ein echtes Musikvideo ergaben.

Man könnte also sagen, dieses Tool – nicht das leere Formular allein natürlich, sondern das in diversen fertigen Quotes gespeicherte Produktionswissen – hatte quasi über Nacht einen Bidding Producer aus mir gemacht, ganz ohne HFF Studium, und ganz ohne Beleuchterkontakte. Good Job, Tool! 

Was ist also nochmal die Frage aller Fragen? 

„Wie gut & selbsterklärend bildet ein Tool die Wirklichkeit ab, die es am Ende erzeugen helfen soll, ohne dabei im Weg zu sein; ohne daß man sich durch Layers und Layers an Politics, an Verwaltung, an verkrustetem Detailquatsch durchkämpfen muß?“ 

Nur dann nämlich bleibt es so zugänglich wie möglich, nur dann ist es in der Lage, neue UserInnen zu empowern, selbst so schnell wie möglich und so gut wie möglich Producer zu werden. Nur dann ist es ein Tool, das Producer produzieren kann.

Ja, vielleicht ist DAS die Frage alles Fragen! Und dann kommen die ganzen anderen.

Tool Tales 03: Weinkrämpfe & Windows 3.1

Anfang der 90er habe ich Softwareschulungen gegeben beim Landesamt Für Datenverarbeitung Und Statistik, unter anderem (neben, Steinzeitmenschen werden sich erinnern, Novell GroupWise und WordPerfect) Word Kurse für Menschen, die noch nie an einem Computer gesessen hatten. Hochqualifizierte Menschen: Finanzbeamte, Buchprüfer, die auf einmal ihre Arbeit – die „Außenprüfung“, die Prüfung der Buchhaltunsgunterlagen bei größeren Firmen im Haus – auf einem Laptop erledigen mußten, der ihren gewohnten Workflow ersetzen sollte. Der ging so, bitte anschnallen: 

Handschriftliche Berichte verfassen – die ins Finanzamt schicken oder Faxen – dort werden sie von Schreibkräften abgetippt – dann ins Amt an den Außenprüfer zur Korrektur zurückgeschickt oder gefaxt – dann vom Außenprüfer korrigiert – wieder zurückgeschickt – dann im Finanzamt finalisiert – Und erst dann werden sie als Bescheid dem Unternehmen zugestellt. 

Da war also einiges drin an Optimierungspotenzial, auch für die armen, in  diesem workflow gefangenen Menschen selbst. Die Leute waren gar nicht doof, lediglich ihr workflow war aus heutiger Perspektive komplett kafkaesk. Was hätte da näher gelegen, als diesen Irrsinn mithilfe von Software & ein bisschen Hardware zu optimieren?

Und dann habe ich in meinen Kursen tatsächlich gestandene, erwachsene Menschen weinen sehen, no kiddin, bei der plötzlichen Realisation, daß sie mit einem komplett neuen workflow konfrontiert wurden, und daß es für sie keinen Schritt zurück geben würde. Und das nicht bei besonders raffinierten selbstgeschriebenen Makros, sondern bei dem Weg vom Einschalten des Rechners bis zum Öffnen eines leeren Worddokuments in Windows 3.1. 

Die Tränen hätten zugegebenermaßen auch meinem besonderen pädagogischen Talent geschuldet sein können, aber ich glaube, daß auch der SCHOCK* eine Rolle spielte, den die erste Konfrontation mit neuer Hardware, neuer Software und entsprechend einem neuen Workflow ausgelöst hat, und das alles gleichzeitig, und dann auch noch überbracht von einem leicht nerdigen Germanistik-Studenten im schlechtsitzenden 2nd Hand Cord-Sakko.

Seitdem weiß ich, wie existenziell die Tools sein können, die wir Leuten an die Hand geben. Ich erinnere mich noch, wie schwer es mir gefallen ist, das Gefühl existenzieller Bedrohtheit nachzuvollziehen, das meine armen Finanzbeamten in den Klauen hielt – „Weinen wegen Word?“ – aber im Rückblick ist mir das schon eine deutliche Warnung vor Cord-Sakkos und davor, Leuten leichtfertig Software zuzumuten, ohne sich das komplette Biotop drumherum genau angeschaut zu haben, zumindest aber eine Mahnung, möglichst viel Sensibilität & Nutzer-Orientierung walten zu lassen.

*Wenn man diesen SCHOCK nachzuvollziehen versucht, muß man sich nur mal die tollen Text-To-Video Musikvideos von FUNCUNCLE anschauen und sich vorstellen, man sei Pianist, und kurz vor dem Live-Auftritt in der ElbPhilharmonie bekäme man eine dieser irren Musikmaschinen hingestellt mit der Ansage: „So, und das ist jetzt dein neues Piano“. Oder man ist gezwungen, sein nächstes Angebot in diesem grausig unübersichtlichen und viel zu detaillierten Südafrikanischen Kalkulations-Fomular zu erstellen. Hab ich mal 1 Jahr lang gemacht, war zäh jewesen.

Wer MACHT einen Werbefilm?

Eine ganz einfache, leicht zu beantwortende Frage, je nachdem, wen man fragt. Der Kreativdirektor, natürlich. Der Produzent? Die Regisseurin selbstverständlich! Aber ich spreche gar nicht von diesen bizarren Credit-Posts auf LinkedIn, Instagram et. al., wo immer mehr Väter des Erfolges zu sehen sind als man kennt, und immer die Hälfte der UmsetzerInnen zu fehlen scheint. Viel interessanter sind da die Verschiebungen, die ich im Prozeß beobachte.

FRÜHER ™, also grob gesprochen noch in den Nuller Jahren, habe ich auch aus den großen Kreativ-Agenturen quasi fertige Filme auf den Tisch bekommen, die wir „nur noch“ drehen mußten: jede Einstellung war gezeichnet und vom Kunden verabschiedet; so weit bereits ausdiskutiert, daß man die Storyboard-Frames als Animatic hintereinander gehängt und mithilfe von MaFo-Tests NOCH endgültiger gegen Kritik und Verbesserungen abgesichert hatte, bevor sie überhaupt an uns Produktionen, an eine Regie rausgegangen sind. Was haben wir gefightet um auch nur EINEN Frame zu addieren, oder gar einen zu verlieren! „Wir drehen die Alternative mal mit, vielleicht können wir sie ja im Schnitt davon überzeugen“, was für ein Kampf, was für ein Krampf!

Das gibt’s ja auch immer noch, und ich bekomme immer einen leichten Anflug von Nostalgie bei solchen Skripten. Dazu gehört aber zugegebenermaßen auch die harte Realität, dass das meist eher die nicht ganz so geilen Filme sind, die so daherkommen. Die Antwort auf meine  Eingangsfrage bei diesem Prozeß ist jedenfalls relativ einfach: den Film hat zu großen Teilen eigentlich schon die Agentur gemacht, und wir durften ihn „nur noch“ umsetzen.

Fast Forward 2023: Ich sehe gefühlt immer häufiger „Filmkonzepte“ aus seriösen Agenturen, die 150 seitige Keynotes sind. Mehr Fragen als Antworten. Kein einziger gescribbelter Frame, Storyboards oder gar Animatics weit & breit nicht in Sicht. Möglicherweise, weil die Agentur bereits alle Energie darauf verwendet hat, die Heilige Asset Liste zu vervollständigen („und dann noch 28x 10Sekunden Cutdowns für Insta; und die Youtube Prerolls nicht vergessen“)? Ist das Faulheit, Zeitmangel, Ratlosigkeit, „Schwächen im Abschluß“, wie das im Fußball heißt? Oder das Prinzip „Death by Zuballern“ – den Kunden mit einer so langen Präse beschießen, daß er nach Seite 100 die Hände hebt und sagt „jajaja, kommt wieder wenn ihr einen Film habt, ich kann nicht mehr“. 

Neiiiin, das ist es natürlich nicht! Ich will lieber an das Gute auch im Kreativen glauben und sage: das ist vielmehr jedes Mal die Chance für eine gute Regisseurin, die selbstverständlich von einer sehr guten Produktion gebackt wird, sich einen wirklich guten Film auszudenken. Denn, zurück zur Ausgangsfrage, wer macht dann den Film? Die, die das können: Regie & Produktion im Rahmen eines von der Agentur freundlicherweise im Vorfeld mit viel Arbeit etablierten Raums von Möglichkeiten.

Da kann, muß also das Machen wieder deutlich auf unsere Seite rüberwandern. Auch wenn uns keiner dafür bezahlt, daß wir uns den kompletten Film inzwischen regelmäßig from scratch selbst ausdenken (dürfen), ist das ja erstmal eine gute Sache, oder nicht?

In comes AI. Wenn das vielgefürchtete Animatic ein Angriff der Kreation auf die Exekution war – „schaut her, der Film ist quasi schon fertig!“, dann kann man mit generativer AI eine entgegengesetzte Bewegung beobachten, eine Art Angriff der Exekution, des Machens, auf die Kreation. „Was, wenn im Hintergrund Supermann durch‘s Bild fliegt und einen rosa Zwerg-Gorilla auf dem Highway absetzt, der mit Bananen um sich wirft?“ FRÜHER ™ konnten Kreative das nur denken & sagen; jetzt können sie das innerhalb von einer Viertelstunde auch schon visualisieren, MACHEN, und direkt den Effekt der bereits umgesetzten Idee ausprobieren. 

Und dann? Wenn das wirklich verkauft ist, braucht es nur noch jemanden, der’s auch nach allen Regeln der Kunst umsetzt, sprich: gut macht. Da hat mir neulich jemand aus einer befreundeten VFX Company etwas zugeworfen im Sinne von: „Goldene Zeiten kommen auf uns zu! Warum? Weil die Agenturen mithilfe der neuen generativen AI Tools den Kunden immer mehr sehr avanciertes, sehr ausgearbeitetes Zeug verkaufen, und anschließend händeringend nach Profis suchen, die das auf einem Profi-Level auch umgesetzt – GEMACHT – bekommen“. 

Yippieh! Oder? Wie auch immer: die Stellen, an denen der Film gemacht wird, und die Sichtweisen darauf – von Producern, von Regisseuren, von Kreativen – sind jedenfalls erneut gehörig in Bewegung geraten, und diese Bewegung wird sich nochmal rasant beschleunigen und verstärken.

Gehen Sie bitte weiter, hier gibt es nichts zu sehen.

Ich hab mich neulich mal beschwert darüber, daß ich ständig Roboter-Bilder sehe, die AI-Beiträge illustrieren und dort die AI verkörpern sollen, und das auch noch auf LinkedIn. Immer eine schlechte Idee, Streit auf LinkedIn anzufangen. Diesen habe ich eindeutig verloren: am Ende wurde ich aufgefordert, halt eine bessere AI-Allegorie vorzulegen – „touché“! Wir wissen immer mehr darüber, was generative AI produzieren kann. Wir haben aber weiterhin keinen blassen Schimmer, wie wir uns generative AI vorstellen sollen, wir haben kein Bild davon, und so greifen wir ständig auf die ältesten Klischees zurück, die man sich denken kann. Soviel übrigens zum Thema „AI reproduziert ja immer nur das, was sie schon kennt, woran sie trainiert ist, da kann ja nix Neues bei rauskommen“: uns Fleshbags („Trollhunters“, 2016) geht’s da ganz genauso.

Etwas, das so menschenähnlich mit uns interagiert wie ChatGPT, das muß doch aussehen wie ein Mensch! Ist ja auch nicht einfach, erst recht nicht, wenn man nur schnell eine einleuchtende Illustration für einen Linkedin Beitrag braucht. Natürlich wollen wir in die bildlichen Repräsentationen immer einen Reminder auf die Maschinenherkunft der AI einbauen. Wie soll da keine humanoide Blechkiste bei rauskommen?

Grob gesprochen sind 95% aller Versuche nur Variationen über die Robots aus „All Is Full Of Love“ (1997), die Chris Cunningham übrigens selbst entworfen hat – sein Musikvideo ist zu Recht in der Ständigen Ausstellung des MoMa gelandet. Die Robots unterscheiden sich ja von Maria, Fritz Langs Roboter aus Metropolis (1927), dem Vorbild für Lucas’ C3PO, nur im Style, sie sind 90ies slick, weiß und gefühlt Japanese statt expressionistisch, aber eben nicht grundsätzlich: humanoide Blechkisten auch sie. Da ist also nicht wirklich viel passiert in hundert Jahren, könnte man sagen.

Zugleich ist das ja geradezu rührend hilflos. Diese ganzen Robots sollen uns trotz allen Alien-Terminator-Transformer-Schauers eine gewisse Sicherheit bescheren dahingehend, daß immer noch ein menschenähnliches Gegenüber mit uns interagiert; ein Gegenüber, wie wir uns uns selbst immer vorstellen, als Individuum, als eine abgeschlossene Entity.

Spätestens da kippt dann das Falsche ins Fahrlässige, weil wir uns auf diese Weise nur vor der Erkenntnis verstecken, daß es da eigentlich nichts zu sehen gibt. AI ist eben kein Individuum, AI ist nicht EINS. Kevin Kelly („The Inevitable“, 2016) knows best, Leute: „Conventional wisdom held that supercomputers would be the first to host (ai), and then soon enough, we’d add consumer models to the heads of our personal robots. (…) However, the first genuine AI will not be birthed in a stand alone supercomputer, but in the superorganism known as the net. (…) The AI on the horizon looks more like Amazon Web Services.”

Achtung, anschnallen bitte für den weit hergeholten Vergleich: Ein paar der monotheistischen Religionen haben es geschafft, die Idee eisenhart durchzuziehen, dass man seinen Gott nicht darstellen, ja, ihn sich nicht einmal VORstellen dürfe. Die Christen haben da zwar „jaja“ gesagt, „du sollst dir kein Bildnis machen“, aber dann haben sie Michelangelo et. al. rangelassen. Das sollten wir in Sachen AI vielleicht vermeiden, ein Gott mit Rauschebart ist eigentlich genau so daneben wie AI als Roboter. Lasst uns stattdessen mal den Mut haben, uns AI nicht zu visualisieren (was ja für uns Werbefilmmenschen eine ganz besonders schwieriges Projekt ist), zumindest nicht mehr als Chris Cunningham Roboter, bitte.*

Die meines Erachtens beste Analogie stammt erneut von, ihr ahnt es, Kevin Kelly: in der industriellen Revolution haben viele Unternehmer ein Vermögen gemacht, indem sie bekannte Produkte elekrifiziert haben: Ein Bügeleisen, aber mit Strom. Ein Rührgerät, JETZT NEU! Mit Strom etc. Den Strom dafür haben sich diese Erfinder-Unternehmer besorgt als vorfabrizierte, unsichtbare, netzbasierte Ressource, jederzeit anzapfbar. Mit unseren aktuellen Tools passiert gerade dasselbe: Photoshop, jetzt mit generativer AI. Und die bleibt, wie zuvor der Strom auch, unsichtbar.

Schaut Euch mal den TED Talk von Imran Choudhri an, der jahrzehntelang Designer bei Apple war. Seine Vision für eine neues Tool, mit dessen Hilfe wir mit AI interagieren können, ist in allem das Gegenteil der Facehugger-Apple Brille. AI wird uns, wenn man Choudhri folgt, garantiert nicht als Roboter entgegentreten; seine Vision ist vielmehr „technology needs to disappear – to re-allow us to be present“. Für mich so viel sympatischer als alle anderen Techonlogie-Ansätze, die ständig etwas Neues basteln, das sie zwischen mich und die Welt schieben wollen (Screens vor oder in meinem Gesicht, Kopfhörer in meinen Ohren, Kabel im Gehirn etc.) Choudhri hat stattdessen ein minimalistisches wearable device entworfen, das uns als Interface dienen soll, um uns AI als eine Art persönlichen, sprechenden Assistenten zur Seite zu stellen. Da gibt es literally nichts zu sehen – weniger Roboter ist kaum denkbar.

*PS: An einigen Reaktionen habe ich bemerkt, daß ich da vielleicht eine falsche Fährte gelegt habe: Ich wollte überhaupt nicht andeuten, AI habe übermenschliches, gar göttliches Potenzial. Noch sind WIR ja diejenigen, die etwas nach unserem Bilde geschaffen haben, nicht umgekehrt. Ich wollte lediglich darauf hinweisen, daß es eine solide kulturgeschichtliche Leistung ist, nicht immer alles gleich zu anthropomorphisieren, und daß man sich daran auch in Sachen AI halten sollte, auch wenn es einem dann schwerer fällt, LinkedIn Beiträge zu illustrieren.

Der „Einmal volltanken, bitte!“ – Effekt*

Mein VW fasst 65 Liter Superbenzin. Jetzt möchte ich natürlich auch gern mitmachen beim Klima retten. Weniger oder gar kein Auto fahren? E-Auto fahren? Immer nur einen halben Tank verbrauchen im Monat statt eines ganzen? Oder vielleicht doch E-Fuels, die sauber hergestellte Superbenzin Alternative! Denn damit mache ich genau das, was ich vorher auch gemacht habe: Ich tanke alle 3-4 Wochen meine Karre voll, nur eben mit angeblich sauber hergestelltem Sprit. Das Format „Auto“ und mein Umgang damit bleiben komplett unverändert, auch wenn ein neuer Treibstoff daherkommt. Und natürlich erwarte ich, dass es dasselbe kostet wie vorher.

Mal sehn wie weit uns diese holperige Analogie trägt… Ich frage mich halt grade, ob unsere Autos, quatsch, unsere Formate, unsere Arbeitsprozesse, nicht vielleicht mächtiger, zäher und langlebiger sind als die Inhalte und die Methoden, mit denen wir unsere Arbeit machen, und was das alles mit – NATÜRLICH – dem neuen Supertreibstoff AI zu tun hat.

An unseren Mood-Scouts kann man grade den „Einmal volltanken, bitte“-Effekt beobachten: Das Format „Moods suchen“ scheint deutlich robuster zu sein, als sämtliche potenziell ja revolutionären Innovationstendenzen der generativen AIs, die sich in dieses Format einschleichen.

In den Händen dieser Artists richtet generative AI zwar deren Arbeitsweisen neu aus und verändert sie radikal – vom Moodscout zum Prompt Artist – aber ihre Auslastung ist dabei nicht grundsätzlich in Frage gestellt. Das macht jetzt nicht auf einmal die Inhouse Praktikantin „weil das ja mit AI jetzt so einfach geht“. Und weniger wird die Arbeit auch nicht: die Regisseurin, der sie zuarbeiten, ist nicht auf einmal nach 10 AI-generierten Bildern und zwei Arbeitsstunden seitens Moodscout-Gone-Prompt Artist schon happy und sagt: „Ach, wie geil sind denn diese Midjourney Bilder, viel geiler als die immergleichen aus dem Netz zusammengeklaubten Moodbilder, ich habe eigentlich alles was ich brauche.“ Und die Mood Scouts selbst werden alles dafür tun, das nicht aus der Hand zu geben. Sie sind natürlich dabei, sich AI als weiteres Tool anzueignen, damit sie weiterhin möglichst viel ihrer Arbeitskraft auf dem Markt verkauft bekommen.

Zu erwarten, dass sich Effizienzgewinne in weniger Leistung oder weniger Arbeit niederschlagen ist also wahrscheinlich blanker Unsinn. Die Arbeit wird nicht weniger.

„Die 4-Stunden-Woche“ von Timothy Ferris etwa, ein großer Beschiß, wie die meisten dieser „Mehr Zeit, Mehr Geld, Mehr Leben“ Besteller, das ist im vollen Ernst der Bestseller-Untertitel! Natürlich hat Ferris selber nie vier Stunden die Woche gearbeitet mit seinem irren Output an Podcasts, Büchern, Nahrungsmittelergänzungen etc. Vier Stunden die Woche für dieses Buch vielleicht, aber in Summe bestimmt 120 Stunden die Woche… John Maynard Keynes‘ Prognose aus 1930, daß aufgrund der großen Effizienzgewinne neuer Techniken in 2030 jeder nur noch 15 Stunden die Woche arbeiten werde – komplett naiv, da lag der Jahrhundert-Ökonom genau so sehr daneben, wie der Lebenshilfe-Autor. Ja, es arbeiten alle mit viel mehr & besserem Output, aber eben immer mindestens noch genau so viel, und wenn sie weniger arbeiten sollten, dann nicht wegen der Effizienzgewinne neuer Techniken. Sondern weil man sich das mühselig erstritten hat mithilfe von so unsexy Erfindungen wie Gewerkschaften und so.

Was die Frage aufwirft, bei wem eigentlich die Effizienz- und Qualitätssprünge ankommen, die generative AI ermöglicht. Denn es ist ja etwas qualitativ anderes, was die AI ermöglicht, das ist schon deutlich näher dran an bisher sehr mit viel mehr Aufwand und möglichst nicht schon im Pitchprozess hergestellten Style Frames, für die spezielle Artists noch vor nicht allzulanger Zeit 600-800 Euro am Tag bekommen haben. Nicht für 50 Bilder, sondern für ein bis zwei. „Ah, super daß wir jetzt wegen AI x-fach so präzise und x-fach so viel Zeug als Moods bekommen, aber bitte zu denselben Konditionen wie vorher eine Mood-Recherche natürlich!“ Jedenfalls landen sie nicht bei den Moodscouts. Nicht bei den Produktionen, die immer noch den Moodscouts dieselbe Anzahl an Tagen bezahlen. Hmmm, ja wo denn dann? Wie hat grade Charlie Warzel im ATLANTIC geschrieben: „In a world where the cost of producing content (…) approaches zero, it stands to reason that the forces of capitalism would respond by demanding as much of it as possible.“ Exakt. Und wir liefern natürlich, because that’s what we do.

Anders gesagt: Die neuen Techniken reduzieren nicht die Arbeit, nur die Kosten für Arbeit. Die Arbeit wird nicht weniger, der OUTPUT wird mehr & besser. Der Tank wird immer noch vollgemacht, weil eben so viel reinpasst, jetzt mit dem besseren Benzin. Vielleicht müssten wir den Blick von Effizienzsprüngen auf Qualitätssprünge richten: zu denselben Konditionen gibt es jetzt genauere, bessere, hochwertigere Moods. Wenn das für alle anderen Regisseure, Producer, VFX Artists etc. auch gilt, die sich da aktuell durch AI zu Freuds Prothesengöttern aufrüsten, und wenn wir all diese Verbesserungen an Output und Qualität zum selben alten Preis an die Kunden durchreichen, dann bekommen die zum selben Preis ein deutlich besseres Produkt. Da müßte man vielleicht mal drüber sprechen; zumindest müßte es erstmal einer relevanten Anzahl an Menschen auffallen & die müssten das irritierend & thematisierenswert finden.

Das könnte, positiv bertrachtet, auch ein Hinweis darauf sein, daß gar nicht alle Jobs wegfallen werden wie in den gern bemühten Warn-Horror-Szenarien zu zukünftigen AI-Umkrempelungen, sondern daß sich stattdessen alle mit AI aufrüsten, um mehr und einen besseren Output bieten zu können, aber trotzdem immer noch dieselbe Menge Manpower zu verkaufen. Das Problematische an AI ist also wahrscheinlich nicht in erster Linie die SKYNET Dystopie, oder daß viele Menschen ihre Jobs verlieren werden (auch wenn Goldman Sachs sagt, immerhin keine esoterische Hippie-Bude, daß im nächsten Jahrzehnt jeder 11. oder 300 Millionen Jobs ausgelöscht werden durch AI). Das Problematische ist eher, nochmal Charlie Warzel: „The easier our labor becomes, the more of it we can do, and the more of it we’ll be expected to do.“

Soweit teilen wir Filmhasen also wohl nur die AI-Zukunft mit all den anderen White Collar Arbeitsbienen da draußen. Oder gibt es für uns darüber hinaus noch eine sehr spezifisches Szenario, das wir im Auge behalten sollten? Der „Bitte einmal Volltanken“ Effekt ist in dem Moment unser kleinstes Problem, wenn generative AI so machtvoll wird, daß sie den Anspruch erheben kann, unser komplettes Produkt zu liefern, komplette Filme zu machen. Der Prognosen-Wettbewerb ist da im vollen Gange: „Wir werden die erste AI-generierte Nextflix Produktion in 12-18 Monaten erleben, den ersten AI Hollywood Film bis 2028 etc. etc.“

Bei den Architekten oder den Modeschöpfern ist das anders, da übernimmt AI „nur“ das Entwerfen, gebaut und geschneidert werden muss weiterhin. Text-To-Video AI macht dagegen erste Gehversuche darin, nicht das Konzept oder das Art Department eines Filmes zu ersetzen oder mit neuen Tools auszustatten, sondern den gesamten Film zu generieren.

Vielleicht ist generative AI also gar nicht nur der neue Supertreibstoff, den wir demnächst in unseren Filmproduktionstank packen, vielleicht ist generative AI die neue Filmproduktion. Bleibt spannend.

*P.S.: Wenn ich Wirtschaft studiert hätte, stelle ich grade beim Weiterlesen & -nachdenken fest, hätte ich mir nicht selber so eine maue Analogie ausdenken müssen & sie den „Einmal Volltanken Effekt“ nennen müssen. Ich hätte einfach sagen können: Klarer Fall von Jevons Effekt! Jevons Effekt? England war im 19. Jh das Saudi Arabien der Steinkohle mit der Sorge, was wohl passieren werde, wenn die Steinkohle mal alle ist. Schlaue Ingenieure argumentierten, das sein kein Problem, weil der technische Fortschritt zu effizienteren Maschinen und damit zu weniger Kohleverbrauch führen werde. Der noch schlauere Ökonom Jevon argumentierte dagegen, daß effizientere Maschinen zu MEHR Kohleverbrauch führen würden, weil sie die Kosten des Kohleverbrauchs senken würden. Wenn der Preis sinkt, steigt die Nachfrage, und mit der Nachfrage steigt der Konsum. Von Kohle, wie auch von AI powered White Collar Arbeit. Und genau das wird passieren! Der Preis für unsere Arbeit + AI wird sinken – anders betrachtet, wir werden für unsere per AI supercharged Arbeit dieselbe Kohle bekommen, wie wir sie vorher ohne AI bekommen haben. Und der Preis für Arbeit, die nicht per AI veredelt wird, wird ins Bodenlose fallen. Nicht in der Krankenpflege, und nicht im Straßenbau, aber bei uns.

Sky Captain and The World Of Tomorrow

Anfang der 2000er ging die Saga um bei uns Filmschaffenden, da habe jemand, Kerry Conran war sein Name, vier Jahre lang zuhause an seinem Mac einen kompletten Film vorvisualisiert, den er dann in Hollywood finanziert bekommen habe, von einem Neffen von Dino DeLaurentiis himself. Am Ende hat den Film Paramount rausgebracht, nachdem die Produktion 70 Millionen Dollar verschlungen hatte. Und wir alten Musikvideo-Burschis haben uns damals enttäuscht gefragt „Ja verdammt, wenn er ihn doch schon hatte, seinen Film, warum hat er ihn dann dem doofen Hollywood-System zum Fraß vorgeworfen?“ Hatte er nicht bewiesen, daß er das Potenzial hatte, den gesamten Film als Chimären-Team selber zu machen, er und seine Maschine? Warum hat er sich dann von dem verdammten System schlucken lassen, um bei einem Film mit puuuhhh… Jude Law! in der Hauptrolle gnädig Regie führen zu dürfen, nur damit der dann am Ende als Box Office Flop galt, weil er nur 60 Millionen eingespielt, aber 70 Mio gekostet hatte? Wie zum Teufel konnte das dermaßen schief gehen?

Da war mir zum ersten Mal die Vision begegnet davon, daß ein Mensch einen Film komplett selbst machen könnte, genau so, wie man sich auch hinsetzen und ein Buch schreiben kann alleine. Was davon in den Klauen von Hollywood übrig geblieben ist, war der Ansatz, den Film komplett am Rechner entstehen zu lassen (mit Ausnahme der Darstellerinnen, die in weniger als 30 Tagen abgedreht waren), aber eben nicht auf dem Rechner von Kerry Conran, da hatte sich Hollywood schon drübergestülpt und ihm das aus den Händen genommen. Und der Film war dann am Ende eher so „meeh…“, wobei natürlich zugegebenermaßen niemand weiß, ob er’s alleine besser hinbekommen hätte.

Andererseits, truth be told, war es eben auch so, daß Kerry das Anfang der 2000er tatsächlich auch nicht auf seinem Rechner hätte machen können, dafür war zwar die Hardware schon beinahe da, aber eben die Software noch nicht, auch wenn ein Großteil des workflows revolutionärerweise tatsächlich auf „Quasi-Consumer-Tools“ wie After FX & Final Cut aufgebaut war, und auch die Darsteller hätte er nicht selbst ranschaffen können (Aber Jude Law? Oh Mann.)

Interessanterweise hat sich Kerry nach den „schlechten“ Box Office Zahlen bei seinem Produzenten über die Produktionskosten von angeblich 70 Millionen beschwert: Er hätte das Ding für 3 Mio mit No Names hinbekommen, hat er ihm vorgehalten. Hätte hätte, Fahrradkätte, sag ich da.

Ihr seht: die Geschichte der diversen digitalen DIY-Euphorien läßt sich immer auch als eine Geschichte des Scheiterns erzählen, als Geschichte davon, wie diese Euphorien und die sie ermöglichenden technischen Innovationen von den bestehenden Produktions- und Verwertungsstrukturen aufgesaugt und zum Ausspucken von noch mehr, jetzt eben anders hergestelltem Schrott verwurstet werden. Es führt eine direkte Linie von Kerry Conrans oder Roberto Rodrigos One-Man-Show Rebellentum (Rodrigos Buch heißt „Rebel without a crew“, Lesebefehl! Genau wie Conran hat Rodrigo mit SIN CITY einen der ersten komplett vor Grün gedrehten Filme in Hollywood gemacht) zu den MARVEL Sequels, vom Anspruch, seinen eigenen Film ganz allein mit den aktuellsten digitalen Möglichkeiten umzusetzen hin zu einer im Kern toten 350 Mio Blockbuster-Orgie wie Avengers Endgame.

Worauf ich hinaus will, wollt ihr sicher wissen?

This time will be different (maybe)! Ich glaube fest daran, daß dieselbe Geschichte 25 Jahre später – sehr bald also – einen ganz anderen Twist nehmen könnte. Denn was hat neulich Jensen Huang, der CEO von NVIDIA, gesagt? „Soon, every pixel will be generated.“ Nicht gerendert. Nicht gefilmt. GENERATED. Eine maximal revolutionäre Vorhersage, und ich wage zu addieren: nicht immer und unbedingt bei ILM oder PIXAR, sondern auch auf meinem und auf deinem Mac. Spannend wird das.

https://vimeo.com/821101511

ChimäRegie

Die Geschichte von AI & Schach ist schnell erzählt: Der mechanical turk aus dem 18. Jahrhundert war kein Schachcomputer, sondern ein kleinwüchsiger Mensch unter einem Schachbrett, der einfach sehr gut Schach spielen konnte. Gilt also nicht. Danach hatten wir dann die üblichen zwei AI–Rezeptions-Phasen:

Phase 1 ging bis ca. 1996: „Das wird nie gut genug, kreative Intelligenz ist dem Menschen vorbehalten.“  

Phase 2 begann dann unmittelbar nachdem der erste amtierende Großmeister Gari Kasparow 1996 in einem regulären Turnier von einer Software geschlagen wurde: „Das müssen wir verbieten, weil sonst keiner mehr Schach spielt“.

Soweit, so bekannt. Spannend ist dann erst wieder Phase 3, die Phase der Zentauren: Es wird immer noch sehr viel Schach gespielt, von Menschen gegen Menschen, von Menschen gegen Maschinen, aber zunehmend auch von gemischten Teams. Teams, die so eng miteinander arbeiten, daß man sie Mischwesen oder Chimären nennen kann, oder wie es in der Schachwelt heißt: Zentauren, Chimären aus Mensch und AI.

Jetzt gucken wir mal rasch, wie es grade vorwärtsgeht mit der AI im Filmbereich: Runway Gen 2 ist grade noch im closed beta Stadium, und was da nach draußen sickert, hat jetzt bereits die Qualität von DALL-E von vor 12 Monaten. Aber eben nicht in einem einzelnen Bild, sondern schon in unserer Schlagzahl, heißt in 30 Frames Per Second, also in 2.700 Einzelbildern für einen 90-Sekünder. Genau wie bei DALL-E auch kommen die ersten Sachen oft als Parodien daher, aber das sollte uns nicht darüber hinwegtäuschen, daß das Tool selbst kein Parodietool ist, sondern eine ernstzunehmende Konkurrenz für tatsächlich all unser Tun.

Wenn Sie bitte mal kurz schauen wollen? Oder dies hier vielleicht?

Seht mal bitte kurz mit meinen Produceraugen auf die Effizienzpotenziale: Ein Macher berichtet, er habe seinen 90-Sekünder in rd. 30 Stunden Arbeit hergestellt incl. Schnitt, Vertonung, Grade etc. Genauer: er und seine AI, als Chimäre eben, aber nicht als 65-Menschen-Team mit 8 Wochen Prep, 4 Tagen Dreh und 6 Wochen Post in sagenwirmal 3.000 – 5.000 Mann-Stunden. In der Schlagzahl könnte so eine Chimäre innerhalb eines entspannten Jahres einen soliden Spielfilm abliefern. Oder umgekehrt: Die Manpower, die wir Werbevögel aktuell in einen 90sekünder stecken, würde easy für einzwei 90-minütige Blockbuster reichen.

Wenn ich in einem beliebigen Werbefilm-KVA alles rauswerfe, was auch eine AI erledigen könnte, und dabei die kreativen Department Heads & ein wenig Post drinlasse, dann verliere ich je nach Projekt 50-85% der Kosten. Nach allgemein akzeptierter Business-Logik kann es also quasi gar nicht nicht passieren, daß das einen relevanten Teil unseres Businesses übernehmen wird.

Wer da sagt: „Ja aber die Qualität!“, der muß halt nochmal DALL-E von vor 12 Monaten mit Midjourney in der 5. Version vergleichen. Und sich das dann nochmal von vorne anschauen und sich immer noch zu sagen trauen: „Ich sehe da nichts“. Ich für meinen Teil sehe da Einiges.  

Man kann jetzt, wie ein alter Mitstreiter, der mir das obige geschickt hatte, sagen „Stephan, it’s over!“, und ich kann dieses Sentiment so sehr nachvollziehen.

Oder man kann sich fragen, wie denn in mittlerer Zukunft so ein Werbefilmprojekt mithilfe eines Teams aus Regie und AI aussehen könnte, wenn wir von der optimistischen Annahme ausgehen, daß ansonsten erstmal alles gleich bleibt: Es gibt weiterhin Kunden, die 90Sekünder haben wollen, Agenturen, die sich welche ausdenken, Medien, in denen die stattfinden sollen, Produktionsfirmen, die sie produzieren, und Regie-Heldinnen, die sie umsetzen wollen – jetzt aber eben als Mischwesen aus Regie und AI. Ladies and Gentleman, willkommen im Zeitalter der ChimäRegie!

Los geht’s: Die Agentur hat dem Kunden eine Werbefilm-Idee verkauft. 90% der Standardwerbungen werden ja inzwischen entweder beim Kunden inhouse gemacht oder in der Agentur von diversen AI Jockeys, die eine Idee in Runway Gen 16 füttern und aus den 300 Durchläufen dann das Beste zusammenschneiden, vertonen, graden etc. Was natürlich ebenfalls hochgradig AI-gestützt funktioniert wie in ADOBE FIREFLY: Schnittvorschläge von der AI, Musikvorschläge & Soundkatalogauswahl via AI, Grading auf Basis von Textprompts etc..

Aber ab&zu gibt es Ideen, wo alle glauben, daß man mit einer ChimäRegie besser fahren würde, etwa weil die aus echten Darstellern vielleicht noch etwas rausgekitzelt bekommt, auf das die aktuelle Runway Generation noch nicht von alleine stößt. Vielleicht deshalb, weil Runways Outputs noch immer zu sehr an ihrem Trainingsmaterial kleben so wie früher die Autofilme auch sich immer nur mikroskopisch kleine Schritte von dem entfernt haben, was andere Autofilme davor auch schon gemacht haben (Auto auf Küstenstraße; Auto in Großstadt vor Stahl & Glas; Auto an der Ladestation etc.).

Also wird eine der paar verbleibenden Produktionsfirmen den Pitch gewinnen, die eine der wenigen ChimärRegisseure vertreten, die sich eben nicht darauf spezialisiert haben, Dinge umzusetzen, die Runway garantiert NICHT kann (Hochzeitsfilme, Band-Tour-Dokus), sondern die für Werbefilme sich mit einer AI zusammengetan haben und das Potenzial einer Film-AI im Tandem ausreizen, wie das eben weder die Kunden selbst noch die Agentur können.

Pre Production: Wir casten tatsächlich reale DarstellerInnen (ein Big Budget Projekt!). Das Storyboard sparen wir uns, da genügt uns das Text-Script der Agentur, das die ChimäRegie mithilfe ihres Film Know Hows aus alten Tagen in möglichst präzise Textprompts übersetzt. Mit denen füttert sie dann ihre handtrainierte Runway AI. Die hat sie in jahrelanger Trainingsarbeit an sich gewöhnt und auf ihren speziellen Lieblingsstil eingearbeitet, sagenwirmal: „englischer Humor mit einer Prise Selbstironie und einem Schwerpunkt auf High End looks?“. Promptbeherrschung und der exklusive Zugriff auf die jahrelang persönlich trainierte Runway Version sind die beiden Faktoren, mit denen sich unsere ChimäRegie von den Mitberwerberinnen abhebt, ja warum sie überhaupt erst den Pitch gewonnen hat.

Wir scannen die Darsteller, füttern sie in die AI und lassen sieI schonmal loslegen. Statt eines Storyboards haben wir so nach ein paar Tagen eine erste AI-Offline-Version, die unsere ChimäRegie sorgfältig auf Optimierunsgpotenziale abklopft.

Ein paar Takes werden wir vielleicht in den finalen Film übernehmen und nur noch die nochmal real drehen, wo man nach einer Woche Runway noch Verbesserungspotenzial entdeckt hat. Man trifft sich zum PPM, in dem es vor allem darum geht, ob es sich wirklich lohnt, noch real zu drehen; wenn ja, welche Teile und mit welchem Aufwand.

Die Verhandlungslinien sind hier absehbar: Kunde findet alles schon super und weiß eigentlich nicht, warum er jetzt noch das Budget für einen Realdreh locker machen soll. Lieber wäre es ihm, einfach nochmal 2 Wochen AI nachzubuchen, kostet ja fast nix, und der Regie-style ist doch eh schon in der AI eintrainiert.

Agentur & Produktion kämpfen aber hart für ihre Vision eines NOCH BESSEREN Films. Und natürlich kämpfen sie an gegen die ständigen Versuche des Kunden, schon in dieser Phase die MaFo Ergebnisse einzuholen. Man einigt sich darauf, die Close Ups alle einmal real zu drehen; und die eine große Establishing Sequenz, ein verdammt langer One Shot, in der alle DarstellerInnen auf cue was sagen oder tun sollen, die wird man auch nochmal real drehen, weil die AI zwar tolle High End Hintergründe, Kostüme, Lichtsituationen etc. ausgespuckt hat, aber das Timing der menschlichen Beiträge zum Film einfach nicht sitzen will.

Der Kunde grollt derweil im Stillen seiner Agentur, weil sie ihm nicht nur einen Film mit echten Darstellern (die teuren Nutzungsrechte hätten wir uns bei einem reinen AI Film gespart!) und vor allem eine so AI-unkompatibele Intro-Szene aufgeschwatzt hat, aber er sieht schlußendlich ein, daß das wahrscheinlich doch besser geht, wenn man’s real versucht.

Shoot: Wir lassen zwar die Darsteller den ganzen Text sprechen – vielleicht können sie’s ja doch besser als die an ihrer eigenen Stimme trainierten AI-Klone, passiert selten, aber kommt vor; real gedreht werden aber nur ein paar Selected Takes, meistens Close Ups, wo wir mimische Performances von echten Menschen sehen wollen, die die AI noch nicht so gut hinbekommt. Aber unsere ChimäRegie ist trotzdem happy, weil sie endlich mal wieder einen langen One Shot real inszenieren darf. Ein ganzer Drehtag – Yeah!

Post: Die AI hat natürlich weitergemacht und optimiert, während wir gedreht haben; im Schnitt lassen wir dann nochmal die besten AI Shots gegen die besten real gedrehten Takes antreten; vielleicht kombinieren wir beide Welten und legen Teile der Real-Performances über das, was die AI an Szenen schon vorbereitet hat („Hey Runway, nimm das Gesicht von Darsteller A aus dem Realmaterial und ersetze damit sein Gesicht aus dem AI Take“).

Und dann endlich gehen wir in die MaFo.

Ja genau so wird es kommen. Oder was denkt ihr?

AIron Man

Okay, sorry für den mauen Wortwitz, aber ich konnte nicht anders. Just A Rather Very Intelligent System oder kurz JARVIS ist da draußen. Jarvis spricht noch nicht mit uns wie mit Tony Stark, aber das nicht wegen technischer Limitationen, die gibt’s schon gar nicht mehr; sondern wohl nur deswegen, weil wir sonst noch mehr Schiß vor ihm/ihr hätten, als wir es sowieso schon haben.

Vergesst mal Jarvis‘ fancy user interface aus Iron Man, die Grafiken, die immer vor Robert Downey Jr.‘s Gesicht rumschweben, das sind nur so VFX-Platzhalter für „whooo, veeery complicated technology at work“. In Wiklichkeit ist die Idee von Jarvis in Iron Man das Gegenteil dieser Grafiken, Jarvis ist viel simpler und aber gerade deshalb so viel mächtiger. Warum? Jarvis spricht mit Tony Stark, und Jarvis erledigt, worum Tony ihn bittet. Jarvis ist ein Assistent, aber nicht wie Alfred, der Butler, sondern eher wie Siri auf Steroids.

Was müßte denn Jarvis in unserer Welt können, um ein so guter & mächtiger Assistent zu sein? Jarvis müßte mit mir kommunizieren können; und er müßte mit all den anderen Tools da draußen interagieren können, sprich: Schnittstellen haben zum Netz und zu allen anderen Programmen/Interfaces, die es bereits gibt, und die wiederum Schnittstellen in die reale Welt haben: Ich bitte Jarvis um ein Rezept für eine Quiche Lorraine. Jarvis findet ein Rezept, bestellt die Zutaten beim REWE Lieferdienst, und der liefert mir die Zutaten. Aber Jarvis müßte nicht nur mit REWE kommunizieren, sondern mit allem & jedem. Jarvis müßte DAS EINE FRONTEND sein, das ich brauche, um mit jeder Art Software zu interagieren. Und mit einem immer weiter wachsenden Teil der physischen Realität, die sich über diverse Software Interfaces erreichen lässt, ohne daß ich mit diesen Software Interfaces selbst in Berührung komme: Das soll ja mein Assistent Jarvis für mich erledigen.

Alles, was es dafür noch braucht, um Jarvis wahr werden zu lassen, ist (bitte ankreuzen)

  1. ein Multimilliardär-Genie wie *cough* Bill Gates Elon Musk *cough*: Tony Stark, der das entwickelt und finanziert
  2. 20 Jahre Forschung & Entwicklung zu AI
  3. Plugins

Ihr ahnt es, die richtige Antwort ist natürlich „C,“ A & B hamwa schon, und seit kurzem ist auch C am Start, denn ChatGPT4 ermöglicht, tadaa, P-l-u-g-i-n-s.

Und was so harmlos & simpel klingt („Plugins? Kenn ich! Braucht mein Quicktimeplayer um die RED Daten abspielen zu können“) ist ein Riesenschritt, weil das die Kommunikation zwischen ChatGPT4 und anderen Programmen ermöglicht, und zwar auf Initiative und optimiert seitens der anderen Programme selbst.

Achtung, weit hergeholte Vorhersage: Genau wie sich sämtliche Websites nach und nach dahingehend optimiert haben, daß GOOGLE sie findet, werden sich bald sämtliche Programme und Interfaces dahingehend optimieren, daß ChatGPT mit ihnen optimal interagieren kann. Nicht mehr du & ich als User, sondern unser aller Assistent. Und wenn das tatsächlich passiert, dann ist das in Wahrheit der Schritt vom ChatBot zum universalen Interface, von ChatGPT4 zu Jarvis.

Expedia zählt zu den ersten Anbietern dieser Art Plugins: Anstatt sich einen Reiseplan zurechtzulegen, und den dann selber mühselig auf der Oberfläche von Expedia abzuarbeiten, kann ich ChatGPT mit ein paar Sätzen briefen, wie meine Reise aussehen soll, und Jarvis klärt das dann mit Expedia. Inklusive Restaurantreservierung, Flugbuchung, Hotelbuchung etc.

Was bedeutet das im Speziellen für uns Producerhasen?

Eins der großen Themen war ja anfänglich, ob ChatGPT Google überflüssig macht als Gateway zum Netz, als die bessere Suchmaschine. Mit Plugins ist jetzt weit mehr als das passiert: ChatGPT macht mittelfristig alle andere Software nicht überflüssig, aber es wird sich im Alltag als Interface zwischen uns und andere Software schieben und der neue Gatekeeper werden für unseren Umgang mit den Tools auf unseren Rechnern und Telefonen. Damit ist das Supertool am Horizont in Sicht, ein General Interface, das für uns mit allen anderen Tools kommuniziert.

Fun Fact: ADOBE hat grade seine eigene Text-To-Image AI „Firefly“ präsentiert und wird sie als Plugin in Photoshop und Lightroom und auch in diverse Bewegbildtools integrieren. Und so nebenbei Adobes eigenes Stockfoto-Business kannibalisieren (wohl notgedrungen – bevor es andere tun…). Da kann man das Zusammenspiel zwischen AI und einem klassischen Tool wie Photoshop jetzt live innerhalb dieses begrenzten Biotops beobachten: Auch hier wird sich zeigen, wer hier am Ende wessen Plugin ist. Bleibt Photoshop Photoshop mit ein paar AI Erweiterungen, oder transformiert sich das nach und nach in eine Bilder generierende und manipulierende AI, die über alle präzisen Kontrollfunktionen aus Photoshop verfügt, die Midjourney et al. bisher eben noch nicht haben?

Zurück zur Producerrealität. Ich habe Gerüchte gehört über einen Autofilm, der gerade komplett im Rechner entsteht: alle Hintergründe und das Auto selbst werden in Unreal Engine zu einem kompletten Produktfilm zuammengefahren. Hintergründe, Kameramoves etc sind photorealistisch und ergeben einen Film, der zu 100% real aussieht. Noch mit viel Arbeit und Glitches und Problemen und Abstimmungsprozessen etc, sodass die 60 Sekunden Film da noch Monate an Produktionszeit fressen mit hunderten von Mann/Frautagen an Arbeit, Abstimmungsschleifen aus der Hölle etc. Vielleicht sogar sehr viel mehr „Handarbeit“ in Summe – ironischerweise – als wenn man real drehen würde.

ABER. Was wenn das bald state of the art ist (und das ist es, mark my words), und wenn die Diskussionen darum, ob das denn nun schon genauso gut wie real gedreht ist, mal ausdiskutiert sind, wie sie es auch beim Thema „Digitalkameras vs. Film“ irgendwann waren? Ich sage an dem Punkt sind wir schon. Diese ganzen AUDI Filme etwa, ihr wisst schon: Ze future is an attitude und so, die WOLLEN doch so aussehen, als wenn sie aus dem Rechner kämen, die könnten längst komplett aus dem Rechner kommen und niemand würde den Unterschied bemerken, ob nun die Stahl&Glas Wolkenkratzer aus Dubai kommen oder aus der Unreal Engine.

Okay, da sind wir, werdet ihr sagen, aber was kommt dann? Vielleicht das hier, sicherheitshalber noch im Konjunktiv formuliert, damit ich nachher alles als reines Gedankenexperiment abtun kann: 

Was, wenn die Unreal Engine ein Plugin für ChatGPT anböte und ich sagte oder tippte: „Jarvis, sprich doch mal bitte mit der Unreal Engine, ihr kennt euch doch. Ich hätte gern einen 30 Sekunden langen Autofilm, der in der Wüste spielt mit folgendem Auto, hier ist der Link zur Regieinterpretation mit allen Midjourney Prompts, mit denen wir die Bilder erzeugt haben; und hier die CAD Daten vom Auto. Bitte inkludiere folgende Einstellungen: 1-15. Storyboard läßt du dir von MJ malen, ich schau vielleicht vorher mal drüber, oder egal: mach einfach fertig, wenn’s mir nicht gefällt machen wir – also ihr – halt nochmal von vorne. Und dann besorg‘ dir einen Timeslot & Rechenpower bei Baselight und leg mir mal einen Filmkorn-Look darüber. Nur weil ich Bock hab, das mal zu sehen. Oh, und komm‘ mir nicht mit so einem langweiligen U-Crane-Film nach Hause, ich will crazy Transitions, ungesehene Kamerafahrten und einen superedelen High End Look.“ Hach, ich wollte schon immer mal wie ein Agenturkreativer sprechen, vor Jarvis muß ich mich ja nicht schämen für Plattitüdengewitter, ist ja nur Software.

1 Stunde später: „Naa, zu viele Wide Shots, der Kunde braucht noch CloseUps von den folgenden 3 Car Features, mach nochmal. Und vergiß‘ das mit dem Filmkorn-Look aus Baselight, gefällt mir nicht. Sprich mal mit Resolve, ob derdiedas nicht sowas in Richtung Chungking Express Look anbieten kann.“

Und was, wenn unser aller SCOPE Kalkulationsprogramm demnächst ein ChatGPT Plugin anböte, und ich Jarvis zurufen könnte: „Kalkuliere mir doch einen Margarine-Film in Kapstadt, 2 Drehtage, mittleres Preissegment, 5 Happy-Family-Darstellerinnen aus Deutschland wegen deutschem Dialog, Styling & Production Design von vor Ort, aber anspruchsvolle Regie, für die Post nur Schnitt, Grading und 1 Tag Tonmischung, bittesehr“?

Ja, was dann? wie es so schön bei „Peter & Der Wolf“ heißt.

*Danke an Rex Woodbury für die JARVIS Idee & tonnenweise input, abonnieren dringend empfohlen!

What AI Wants

Richard Dawkins hat die Idee eines „Memes“ aufgebracht: einer distinkten Informationseinheit, die analog zu einem Gen funktioniert, sich reproduziert, darwinistischer Selektion unterliegt etc. Kevin Kelly hat den Begriff „The Technium“ erfunden, um Technologie nicht im Detail, sondern als großes Ganzes zu betrachten und diverse Entwicklungstendenzen von Technologie zu beschreiben.

Beide haben dabei eine interessante Perspektive auf ihr jeweiliges Subjekt eingenommen, die die übliche Konsumenten-Perspektive – „Was bringt mir das? Was will ich damit? Ist das ein neues Werkzeug, besser als die alten?“ umkehrt. Am pointiertesten und provokantesten formuliert hat diese Perspektive Kevin Kelly mit seinem Buchtitel  „What Technology Wants“. Was will Technologie? Was wollen Memes? Was wollen Gene? Aus diesen Fragen haben sich interessante Antworten ergeben – probieren wir das doch hier auch mal und fragen uns:

„Was will eigentlich AI?“

Und wie unterscheidet sich das von dem, was wir wollen, wenn wir sie verwenden, und von dem, was ihre Macher wollen/wollten, als sie sie gebaut haben, oder was sie jetzt wollen, wo sie versuchen, sie zu monetarisieren?

Vielleicht sowas hier:

AI will ein eigenes Medium werden.

AI will um unsere Aufmerksamkeit konkurrieren mit den bekannten Medien, und sie hat einen ähnlich hohen Grad von Involvement zu bieten wie Games.

AI will die Welt mit Bildern fluten.

AI will uns zeigen dass alles darstellbar ist was in Worten beschreibbar ist.

Und alles, was als Variation über bereits Dargestelltes darstellbar ist.

AI will uns doch nur helfen – Kevin Kelly hat schon vor Jahren geschrieben, AI wäre künftig wie Elektrizität: Eine Kaffeemaschine, aber MIT STROM! Ein Fahrrad – aber MIT STROM! Ein Schnittprogramm – aber MIT AI! Ein Storyboardtool – aber MIT AI!

AI will uns schmeicheln, indem sie uns die Illusion bereitet, wir könnten mit drei Worten und ENTER Kunst erzeugen. Das ist ihr primärer Kitzel – nicht: „Wow wie super sieht denn das aus“, sondern „Wow, wie super sieht denn aus was ICH GEMACHT HABE!“

Jeder ein Künstler – noch nie waren wir wirklich und mit so viel Output, der das belegt, nah dran an der Einlösung des Beuys’schen Versprechens, das jetzt mit einem Mal nicht nur eine Ermutigung ist, sondern etwas, das wir mit drei Worten und einem ENTER klicken einlösen können.

Aber stimmt denn das auch? Sicher erinnert ihr euch an Billy Bob Thornton als General Holonek in „Whiskey Tango Foxtrot“: er kommandiert eine Marines Einheit in Afghanistan, und in einer Szene sehen wir ihn, wie er auf einem dieser bekloppten Stepper sein Workout betreibt; BBT ist ja, obwohl er so ein harter Hund ist, eine eigentlich sehr fragile Gestalt, und wenn man ihn  so auf dieser Maschine werkeln sieht, fragt man sich unwillkürlich: „Wer workt hier eigentlich wen aus?“

Und genau das soll wohl auch als visuelle Metapher den gesamten vertrackten Krieg beschreiben. Wenig später sagt der General es nochmal expressis verbis für alle, die es in der Szene mit der Maschine noch nicht verstanden haben: „This war is like fucking a gorilla. You keep going until the gorilla wants to stop“.

Daran muß ich regelmäßig denken, wenn ich die Posts vieler AI Künstler / Prompt Artists / Syntographen, whatever sehe: „Look what I made“… “I came up with this picture of XYZ“… Ihr verwechselt da etwas, habe ich den Verdacht: Die AI macht einfach immer weiter, und ihr füttert sie nur. Die AI ist der Gorilla, der nicht aufhören will, ihr glaubt nur dass ihr da das Sagen habt, weil ihr ja schließlich ständig was sagt/promptet. Wie illusorisch aber das Gefühl von Kontrolle ist, weiß jeder, der schonmal aus Versehen einfach irgendeine Katze-läuft-übers-Keyboard Tastenkombi eingegeben hat. Auch die erzeugen verläßlich tolle Bilder. Die AI braucht unseren Kontroll-Anspruch nicht, sie kommt mit jeder Art Input zurecht.

“Maybe AI will help you work. But more likely, you’ll be working for AI.” schreibt neulich wer in THE ATLANTIC als Conclusio einer langen Analyse dessen, was ChatGPT an zusätzlicher Arbeit an Unis und Schulen erzeugen wird.  

Und das hat natürlich auch seine Berechtigung. AI hat aus sich selbst heraus die Tendenz, MASSE zu produzieren. Agenturen und andere Produzenten von Kreativcontent haben ebenfalls die Tendenz, Effizienzgewinne durch mehr Output wieder wettzumachen: Mehr Straßen erzeugen auch nicht weniger Staus, sondern mehr Verkehr. Drehen auf Digital statt auf Film ist vom Material her billiger, aber erzeugt die X-fache Menge an Material, es braucht einen DIT zum Verwalten, mehr Speicherplatz und Schnittplatzzeit zum Sichten etc.

Aus meiner bescheidenen Anfängerperspektive sieht es manchmal so aus, als wäre da wirklich eine sehr machtvolle kreative Entity in die Welt getreten, die mit uns gemeinsam ganze Universen an Output erzeugt, unablässig,  und mit massivem Suchtpotenzial. Sie bietet sich als Werkzeug an, sie schmeichelt unserem inneren Künstler/Art Director/Whatever, aber was, wenn sie uns eigentlich nur als Stichwortgeber braucht?