Lyrics-To-Image AI

Vielleicht werdet Ihr denken, daß es Producer Pauly jetzt ein wenig aus der Kurve getragen hat, aber ich kann nicht anders: Ich bin Text-To-Image addicted seit ich eine Einladung zu MIDJOURNEY bekommen habe, einer der Open AIs, die Text in Bilder verwandelt. How could I not be? Schliesslich ist das mein täglich Brot: aus Texten Bilder machen, und das gibts jetzt als App? Woaaaahhh!

Tagelang habe ich dieser Einladung entgegengefiebert, und dann sitze ich mit leicht feuchten Händen davor und… mir fällt erstmal nichts ein außer den doofen Witzen, die ich bei anderen Usern eigentlich ärgerlich und geradezu der Ankunft dieser neuen Intelligenz unwürdig gefunden hatte, auch wenn die daraus entstandenen Bilder zum Teil amüsant waren.

Aber dann hatte ich eine Eingebung: Warum eigentlich sollte ich mir selbst was ausdenken, mache ich ja sonst auch nicht, ich bin ja Producer. Warum lasse ich nicht einfach ein paar Klassiker der Musikgeschichte gegeneinander antreten und schau mir an, wie die AI deren Lyrics so in Bilder übersetzt? Keine Woche später kann ich ein paar Ergebnisse mit Euch teilen, spoiler alert: Da ist kein Song dabei von nach der Jahrtausendwende.

Lasst uns mit Tom Waits loslegen – sehr dankbarer Texter, der Tom, weil schön konkret, aber immer auch schön wirr, Details, die aufeinander krachen und nicht gleich eine langweilig eineindeutige Klischeesosse ergeben.

GUN STREET GIRL

„Falling James in the Tahoe mud/
Stick around to tell us all the tale/
Well he fell in love with a Gun Street girl/
And now he’s dancing in the Birmingham jail“

Auf Anhieb ein sehr reifer, Francis Bacon-esker Kawenzmann, hat mich insgesamt 10 Minuten gekostet. Vielversprechender Anfang, auch wenn mir irgendiwe das Gun Street Girl gefehlt hat. Und wenn man ganz genau hinguckt könnte man gar glauben, olle Tom Waits selbst zu erkennen in der zentralen Figur, aber das ist vielleicht ein wenig überinterpretiert.

Und noch ’ne Runde gefällig? Aus TANGO TIL THEY’RE SORE:

„Let me fall out of the window with confetti in my hair/
Deal out Jacks or better on a blanket by the stairs/
I’ll tell you all my secrets, but I lie about my past/
And send me off to bed forevermore“

Tolle Haare, Eins A Konfetti, die Blanket gefällt mir auch sehr, und ich finde die Komposition/Bildaufteilung sehr gelungen. Also mehr davon, vielleicht das hier, der Anfang von JOCKEY FULL OF BOURBON:

„Edna Milton in a drop dead suit/

Dutch Pink on a downtown train/

Two-dollar pistol but the gun won’t shoot/

I’m in the corner on the pouring rain“

Jetzt weiß ich zumindest, was „dutch pink“ ist, das tröstet über die fehlende Knarre hinweg. Und aus den Two Dollars hat die AI zwei Edna Miltons gemacht, warum eigentlich nicht?

Full disclosure: Ich fand die Texte schon immer vor allem prima kryptisch, und Midjourney hat sie jetzt nicht grade verstehbarer gemacht. Aber darum gings ja auch irgendwie nicht.

Weiter, weiter: Neil Young hat mir nur miese Klischeebilder beschert mit einer Ausnahme, MAN NEEDS A MAID:

„My life is changing in so many ways/
I don’t know who to trust anymore/
There’s a shadow running through my days/
Like a beggar going from door to door“

Rätselhafter Schatten auf der Rechten!

Springsteen war da schon eher nach meinem Gusto, hat andererseits auch viel Erwartbares produziert, z.B. zu THE RIVER:

„I come from down in the valley/
Where, mister, when you’re young/
They bring you up to do like your daddy done“

Kommen wir zu ACDC, ROCKER:

„I’m a rocker
I’m a roller
I’m a right out of controller
I’m a wheeler
I’m a dealer
I’m a wicked woman stealer“

Ganz geil, oder? Wie die Gitarrenperson da so auf nem Roller steht?

Den Unterscheid zu Springsteen macht da vor allem die veränderte Anweisung am Ende der Lyrics. Ich hab mir von anderen abgeschaut, mal OCTANE RENDER hintendran zu schreiben, eigentlich sollte ich als Post-erfahrener Producer wissen, was es bedeutet, war mir aber egal, weil man SIEHT was es bedeutet im Gegensatz zur Anweisung PHOTOREALISTIC (okay, da weiß ich was es bedeutet, aber was es in MIDJOURNEY für einen Effekt hat ist nochmal eine ganz andere Frage), die ich bei den Beispielen davor benutzt habe.

Und jetzt schnallt Euch mal an, jetzt dreht die AI frei bei den EAGLES / HOTEL CALIFORNIA, wo mich seit ca. 40 Jahren die Frage umtreibt, was denn wohl „tiffany twisted“ bedeuten könnte.

„Her mind is Tiffany-twisted/
She got the Mercedes Benz/
She got a lot of pretty, pretty boys/
She calls friends“

Das hier?

Da ist immerhin das mind twisted. Aber Tiffany? Die pinken Benze, sind die Tiffany?

Oder das hier:

What the Whaaaat? Ich musste tief Luft holen als das passierte. Wenn das mal nicht twisted ist. Ist das ein Mund, der in ein pinkfarbenes Mercedes Cabrio beißt? Vielleicht. Vielleicht aber auch etwas ganz anderes. Und wem es hier schon zu anatomisch wird, dem kann ich nur massiv davon abraten, Patty Smith „Because the Night“ oder Leonard Cohen „Bird on a wire“ in eine Text-To-Image AI zu füttern. Die Ergebnisse waren so erschreckend, daß ich sie hier nicht teile. Im Ernst: haunting. Grauenhaft. Schreckliche Alptraumbilder.

Da enden wir doch lieber mit einer weirden Umsetzung eines der schönsten Lieder, die ich kenne, FAMOUS BLUE RAINCOAT von Leonard Cohen:

„Ah, the last time we saw you you looked so much older/
Your famous blue raincoat was torn at the shoulder“

Interessanter Raincoat.

So, und wer macht jetzt schwuppdiwupp das erste Musikvideo aus MIDJOURNEY-Bildern, die die Lyrics des Songs selbst generiert haben? Ja, muß man denn wieder alles selber machen?***

Na, gibts doch eh schon, und ihr habts auch schon gesehen, richtig? Also sagt mir bitte kurz wo, links bitte in die Kommentarspalten.

P.S.: In meinem letzten Blogeintrag hatte ich mir Gedanken gemacht dazu, wie es denn bestellt ist um das Copyright bei AI generiertem Content. Darum sei hier rasch nachgetragen, wie sich das bei MIDJOURNEY verhält, dem AI-Services-Anbieter, mit dem ich die Bilder hier erzeugt habe, jedenfalls aus Sicht des Anbieters selbst. Wie sich das vor Gericht im Streitfall verhält, das muss sich im Detail noch zeigen. Aber verkürzt gesagt:

1. Der Anbieter lässt sich das Recht einräumen, alles unentgeltlich zu nutzen, was ich mit seiner Hilfe erzeuge. Ich muß mir also die Bildrechte mit ihm teilen, was deren kommerzielle Verwertbarkeit deutlich einschränkt. Ihr erinnert Euch: Als Werbefilmproduzenten treten wir die Rechte an unserem Filmen grundsätzlich ab „Frei Von Rechten Dritter“. Man könnte diese Bilder also in einem Werbefilm verwenden, müsste aber entweder den Kunden darauf hinweisen, dass im Fall dieser Bilder das Recht an den Bildern nicht EXKLUSIV übertragen wird, weil MIDJOURNEY auch ein Nutzunsgrecht hat. Wenn wir also ein paar Hintergründe für einen Mercedes Produktfilm in MIDJOURNEY erzeugen, könnte BMW dieselben Hintergründe bei MIDJOURNEY einkaufen, ihren eigenen Wagen davor ablichten mit dem Hinweis: „Who wore it better?“ Oder wir müssten die Bilder vor Verwendung so sehr weiterbearbeiten/verfremden, daß uns dann an der Überarbeitung die Nutzungsrechte exklusiv gehören. Wie aber sieht das aus, wenn wir Bilder erzeugen, und sie in ein 3D-Programm importieren, das dann komplette 3D-Welten aus „unserem“ (und dem von Midjourney…) Input extrapoliert/generiert? usw usf – jede Menge spannender Fragen, zumindest aus Producersicht.
2. Er räumt allen anderen Nutzern ein Recht ein, meine Ergebnisse zu re-mixen, also weiterzuverwenden. Jeder, der per Knopfdruck eines meiner Bilder variieren oder auch nur upscalen lässt, bekommt also ebenfalls Ownership an den Ergebnissen zugesprochen, denn:
3. räumt der Anbieter mir Ownership an allen Bilder ein, die ich hier erzeugt habe, die ich mir allerdings, siehe 1., mit ihm teilen muss.

Ich freu mich schon auf den ersten Prozeß, in dem Tom Waits die Nutzunsgrechte an den Bildern von mir bekommen möchte, die MIDJOURNEY & ich mithilfe seiner Lyrics erzeugt haben.

P.P.S.: Da haben wir den Salat! Das US Copyright Office hat grade erneut entschieden, dass nach US Recht die Produkte einer AI nicht mit copyright versehen werden können, da es den Produkten an „human authorship“ mangele. Und jetzt? Tom Waits jedenfalls kriegt nix…

***September 22: Und da sind sie auch schon auf Youtube, die Musikvideos mit lyrics prompts: Space Oddity, Stairway to heaven, und viele mehr…

Artificial Film Production

Hier ist ein typischer Moment, den alle ProducerInnen da draußen schon oft genug erlebt haben: Das Agenturproducing schickt dir einen Mood-Film, an dem die Agenturkreativen lange geschnitten haben, alles auf Basis von gefundenen Szenen. Der Film hat sagenwirmal 30 Szenen an 30 unterschiedlichen Sets. Jede Szene ist nur 2-3 Sekunden lang. Es gibt 30-40 Darsteller plus 30-40 Extras. Ein Voice Over führt durch den Film, und die Szenen illustrieren, kommentieren, konterkarieren sehr clever das, was das VO sagt, geschnitten in ADHS -TikTokTempo.

Und das ist aus meiner Sicht so ein typisches Agenturding: das Konzept – die eigentliche Domäne der Agentur – ist so stark, oder, neutraler formuliert, so dominant, dass die Details der Umsetzung, also unsere Producer-Domäne, nahezu egal werden. Das funktioniert so wie es ist, weil die Text/Bild-Kombi schlau und gut geschnitten ist. Was zur Folge hat, daß man unmittelbar denkt: Ja, und was können wir da noch tun? Eigentlich könnte man das schon so auf den Sender geben. Oder auf Tiktok, whatever. Wißt ihr was ich meine? Es fühlt sich unmittelbar so an, als wäre man als Produktion überflüssig, der Film ist doch schon fertig, den muß jetzt nur noch einer mehr oder weniger genauso runterkurbeln, und die spezifischen Dinge, die Regie oder Produktion auf dem langen Weg zum fertigen Film noch beitragen könnten, werden an seiner Qualität gar nichts ändern, weil er im besten Fall schon super ist so wie er ist. Am liebsten würde man den von zwei Produktionen und Regisseurinnen umsetzen lassen, um anhand der fertigen Filme genau das zu demonstrieren, aber geht ja leider nicht.

Ja, ich weiß, es gibt in Cannes nicht umsonst einen eigenen Lion für Film Craft, und das ist auch wahnsinnig wichtig, da die weltweit besten Spezialisten ranzulassen für Regie, Casting, Production Design, Musik, Kamera etc., aber seien wir mal ehrlich: nicht immer. Wenn man noch ´ne Runde weiterdenkt, ist man bei dieser Art Moodfilmen schon fast erschöpft bei der Vorstellung, wieviel Mühe da reingehen muss, um das „nur noch“ nachzubauen. Also, radikaler Vorschlag, machen wir das doch einfach nicht, sondern sagen der Agentur: Toll gemacht, nehmt’s doch bitte einfach wie’s ist, bittschön!

Würden wir ja vielleicht auch machen, wenn uns nicht neben der Gefahr, uns selbst überflüssig zu machen, einzwei Probleme davon abhalten würden:

Problem 1: Die Rechte. Haben wir nicht, finden wir nicht, kriegen wir auch nicht. Und wenn doch, dann können wir’s uns wahrscheinlich nicht leisten.

Problem 2: Die, pardon my French, Frickelsucht der Kreativen. Besser geht halt immer: Nein, die eine Frau in shot 17 kann natürlich nicht rothaarig sein. Und der Mann in shot 22 ist zu korpulent. Und das Mobiliar ist zu 70ies und so weiter und so weiter. So weit, so egal für das Ergebnis, aber erklär das mal einem/r Kreativen!

Muß man also doch in einen „echten“ Film übersetzen, und da bleibt einem nur das übliche Prozedere, unser daily business: Riesenaufriss. Regiesuche, Pitch, Regieinterpretationen, -zig Kalkulationen, endlich dann Pitchgewinn und los geht’s mit fünfsechs Drehtagen im Osten damit’s irgendwie bezahlbar bleibt, schneiden, graden, onlinen, vertonen etc etc etc.

Und dieser Aufriss kostet ja, igitt! GELD, was gern beim Moodschnippeln erstmal ignoriert wird. Ichsagmal 800kilo bis eine Mio je nach Regie, Serviceland etc. Und da ist dann ganz schnell End of Story und lange Gesichter, erst recht wenn Agentur und Kunde denken, sie kommen mit 200k aus. Großes Staunen: Ja, wie kann das denn so teuer sein wenn man’s in echt macht, war doch so einfach zu schneiden! Aber selbst wenn nicht, selbst wenn sie wissen was es kostet, und das Geld beim Kunden locker machen können – was für ein Aufriss für eine eigentlich nur noch minimale Verbesserung, oder? Was für eine irre Diskrepanz zwischen Entwurf und Realisierung, neutraler formuliert!

Aber die Rettung ist nahe: AI wird diese Fälle für uns fixen, und zwar so gründlich, daß wir diese Filme als Produktionen gar nicht mehr auf den Tisch bekommen werden, weil sie die Agentur selber machen kann. Read my lips, Leute.

Eure Social Media Feeds werden ja auch überquellen von AI-generierten Bildern, oder? Dall.e 2, Midjourney – Text to Picture AIs mit spektakulären Ergebnissen. Noch besteht die Mehrheit der damit generierten Dinge aus schlechten Scherzen – „Thanos at Walmart, fighting a giant hamster“, Ha-ha. Noch sehen die meisten Sachen aus wie 70er Jahre Illustrationen in tschechischen SciFi Büchern. Aber das liegt nur an den Early Adoptern, die damit rumspielen, und dem Trash, der denen so durch die Birne rauscht. Lassen wir uns davon nicht täuschen: Das ist kein Spielzeug. Das ist eine Dampfwalze auf Ecstasy. Das geht jetzt rasend schnell weiter. Ich lese schon von ersten VFX Artists, die das an ihre VFX Pipeline anschliessen, die selber FLAME Plugins basteln, um das in ihren Workflow zu integrieren etc. Und die ersten „Text to BEWEGTbild“ AIs sind auch schon unterwegs (bin grade zu faul das zu verlinken: schaut mal bei Freund Timor Kardums linkedin feed vorbei, der hatte da neulich schon was in die Runde geworfen.)

Das „Text To Picture“ tool ist natürlich mindblowing, aber das tangiert ja eher die Concept Art Leute da draußen. Was im hier eingangs aufgebrachten Beispiel eher relevant ist, und was aus meiner natürlich professionell verzerrten Perspektive viel einschlägiger ist, ist die ebenfalls in der AI angelegte KERNKOMPETENZ des Agenturkreativen: nämlich VARIATIONEN sehen zu wollen. Dall.e 2 kann das in bewundernswerter Weise, schaut euch einmal an, was die aus dem Mädchen Mit dem Perlenohrring macht. Un-Friggin-Fassbar. Und wenn das bald auch für Bewegtbild und mit Menschen funktioniert, dann werden wir alle mit den Ohren schlackern. Noch schränkt Dall.e 2 das Bearbeiten von Menschen, Promis sowie diverse Schlagworte aus ethischen Erwägungen ein, aber da kommt bestimmt bald jemand aus maybe China, dem all diese Erwägungen sowas von mumpe sind, der bohrt das auf und dann geht da alles.

Und die Kombi aus all dem ist die bald einsatzbereite Werbefilm-AI, die achthunderttausend Euro schwere Lösung für das oben geschilderte Dilemma. Also, leg mal los, liebe AI:

Löse Problem eins: bearbeite alle Gesichter so, dass sie nicht mehr erkennbar sind. Damit lösen sich sämtliche Fragen nach Urheberschaft und nach dem Recht am eigenen Bild in Luft auf – wegen künstlerischer Überarbeitung, oder vielleicht sogar schon weil niemand auch nur mehr die Quelle darin wiedererkennen kann. Und das geht noch weiter, das ist radikal: Schaut mal nach dem Monkey Selfie Rechtsstreit. Auch der hat so eine Social Media – kompatible Oberfläche, wo man zuerst sagt: „Ach, guck mal, ein niedlicher Affe mit einem lustigen Selbstportrait, na und?“ Genau so erinnere ich meine erste Reaktion auf das Thema. ABER. Da hat ein Gericht in letzter Instanz geurteilt, daß der Affe, der auf den Auslöser gedrückt hat, nicht der Urheber sein kann, weil er keine juristische oder natürlich Person ist. Und damit ist laut Gericht NIEMAND der Urheber. Und dasselbe wird auch für von einer AI produzierten Content gelten: keine Person, keine Urheberschaft (schreiben jedenfalls ein paar Auskenner in WIRED, Achtung: paywall).

Will sagen: keine Rechte mehr, für die man bezahlen müsste, kein Recht Am Eigenen Bild, kein Urheberrecht. Vielleicht an dem ganzen Film dann, den ja wieder jemand zusammenschneiden muß, vertonen etc, das hat dann wieder eine gewisse Schöpfungshöhe. Aber das lässt sich der Kunde ja per total buyout von uns sowieso immer UNENTGELTLICH abtreten, anders als Darsteller, Sprecher bekommen wir kreativen Bettelmönche (Producer, Production Companies, Regisseure, Production Designer etc.) ja keinerlei eigene Vergütung für die Übertragung dieser Rechte. Wir bekommen unsere Arbeit bezahlt, und treten die Rechte am entstehenden Werk für umsonst mit ab. Das heisst, die Rechte sind schon weg – doof, wenn die Arbeit dann auch noch verschwindet.

Und dann löse auch noch Problem zwei: ENDLESS TWEAKABILITY, ein Paradies für Agenturkreative. Wenn die AI sich da eine Einstellung aus einem Moodfilm vornimmt und auf diese Einstellung die geballte AI-Power als Kombination aus „Mach mal ne Variation davon“ und der Text-to-Picture Kompetenz loslässt, die ja beide schon in den existierenden AIs angelegt sind, dann sitzen demnächst Horden von Agenturkreativen vor so einer Einstellung und tippen:

„Die Frau braucht einen Schnurrbart!“

„Der Schnurrbart könnte ruhig ein wenig länger sein. Und buschiger“.

„Mach das Wohnzimmer dahinter mal mit Teakmöbeln. Oder Eiche? Etwas heller, der Holzton. ‚Bitte‘ muß ich ja nicht schreiben, ist ja nur eine AI, oder?“

Aufgabe des Producers wäre es dann wahrscheinlich nur noch, irgendwann STOP zu rufen.

Aber, Trommelwirbel: den Film können sie dann auf Basis ihres Moodfilms ohne Produktion selber zu Ende machen, weil die beiden Probleme, die sie jetzt noch davon abhalten, nämlich die Rechtesituation und mangelnde Tweakability, gelöst sein werden.

Hoffe nur, dass sie dann das auch machen und daß die AI nicht nur benutzt wird, um die nächste Eskalationsstufe im Rüstungswettlauf um immer noch komplexere Regieinterpretationen zu zünden, die wir am Ende dann doch noch verfilmen müssen…

Anyways. Nachdem wir das jetzt ja mal als Zukunftsprognose mit 100%iger Eintrittwahrscheinlichkeit durchexerziert haben, und uns eigentlich als Produktionen schonmal darauf freuen können, daß sich diese Sorte Filme zukünftig von alleine produziert, bleibt als spannende Frage: Was bleibt denn dann eigentlich als Kernkompetenz des Filme Ausdenkens, und was als Kernkompetenz des Filme Machens übrig?

Mutmassungen und Protestgeheul bitte gern wie immer in die Kommentarspalten!