Lyrics-To-Image AI

Vielleicht werdet Ihr denken, daß es Producer Pauly jetzt ein wenig aus der Kurve getragen hat, aber ich kann nicht anders: Ich bin Text-To-Image addicted seit ich eine Einladung zu MIDJOURNEY bekommen habe, einer der Open AIs, die Text in Bilder verwandelt. How could I not be? Schliesslich ist das mein täglich Brot: aus Texten Bilder machen, und das gibts jetzt als App? Woaaaahhh!

Tagelang habe ich dieser Einladung entgegengefiebert, und dann sitze ich mit leicht feuchten Händen davor und… mir fällt erstmal nichts ein außer den doofen Witzen, die ich bei anderen Usern eigentlich ärgerlich und geradezu der Ankunft dieser neuen Intelligenz unwürdig gefunden hatte, auch wenn die daraus entstandenen Bilder zum Teil amüsant waren.

Aber dann hatte ich eine Eingebung: Warum eigentlich sollte ich mir selbst was ausdenken, mache ich ja sonst auch nicht, ich bin ja Producer. Warum lasse ich nicht einfach ein paar Klassiker der Musikgeschichte gegeneinander antreten und schau mir an, wie die AI deren Lyrics so in Bilder übersetzt? Keine Woche später kann ich ein paar Ergebnisse mit Euch teilen, spoiler alert: Da ist kein Song dabei von nach der Jahrtausendwende.

Lasst uns mit Tom Waits loslegen – sehr dankbarer Texter, der Tom, weil schön konkret, aber immer auch schön wirr, Details, die aufeinander krachen und nicht gleich eine langweilig eineindeutige Klischeesosse ergeben.

GUN STREET GIRL

„Falling James in the Tahoe mud/
Stick around to tell us all the tale/
Well he fell in love with a Gun Street girl/
And now he’s dancing in the Birmingham jail“

Auf Anhieb ein sehr reifer, Francis Bacon-esker Kawenzmann, hat mich insgesamt 10 Minuten gekostet. Vielversprechender Anfang, auch wenn mir irgendiwe das Gun Street Girl gefehlt hat. Und wenn man ganz genau hinguckt könnte man gar glauben, olle Tom Waits selbst zu erkennen in der zentralen Figur, aber das ist vielleicht ein wenig überinterpretiert.

Und noch ’ne Runde gefällig? Aus TANGO TIL THEY’RE SORE:

„Let me fall out of the window with confetti in my hair/
Deal out Jacks or better on a blanket by the stairs/
I’ll tell you all my secrets, but I lie about my past/
And send me off to bed forevermore“

Tolle Haare, Eins A Konfetti, die Blanket gefällt mir auch sehr, und ich finde die Komposition/Bildaufteilung sehr gelungen. Also mehr davon, vielleicht das hier, der Anfang von JOCKEY FULL OF BOURBON:

„Edna Milton in a drop dead suit/

Dutch Pink on a downtown train/

Two-dollar pistol but the gun won’t shoot/

I’m in the corner on the pouring rain“

Jetzt weiß ich zumindest, was „dutch pink“ ist, das tröstet über die fehlende Knarre hinweg. Und aus den Two Dollars hat die AI zwei Edna Miltons gemacht, warum eigentlich nicht?

Full disclosure: Ich fand die Texte schon immer vor allem prima kryptisch, und Midjourney hat sie jetzt nicht grade verstehbarer gemacht. Aber darum gings ja auch irgendwie nicht.

Weiter, weiter: Neil Young hat mir nur miese Klischeebilder beschert mit einer Ausnahme, MAN NEEDS A MAID:

„My life is changing in so many ways/
I don’t know who to trust anymore/
There’s a shadow running through my days/
Like a beggar going from door to door“

Rätselhafter Schatten auf der Rechten!

Springsteen war da schon eher nach meinem Gusto, hat andererseits auch viel Erwartbares produziert, z.B. zu THE RIVER:

„I come from down in the valley/
Where, mister, when you’re young/
They bring you up to do like your daddy done“

Kommen wir zu ACDC, ROCKER:

„I’m a rocker
I’m a roller
I’m a right out of controller
I’m a wheeler
I’m a dealer
I’m a wicked woman stealer“

Ganz geil, oder? Wie die Gitarrenperson da so auf nem Roller steht?

Den Unterscheid zu Springsteen macht da vor allem die veränderte Anweisung am Ende der Lyrics. Ich hab mir von anderen abgeschaut, mal OCTANE RENDER hintendran zu schreiben, eigentlich sollte ich als Post-erfahrener Producer wissen, was es bedeutet, war mir aber egal, weil man SIEHT was es bedeutet im Gegensatz zur Anweisung PHOTOREALISTIC (okay, da weiß ich was es bedeutet, aber was es in MIDJOURNEY für einen Effekt hat ist nochmal eine ganz andere Frage), die ich bei den Beispielen davor benutzt habe.

Und jetzt schnallt Euch mal an, jetzt dreht die AI frei bei den EAGLES / HOTEL CALIFORNIA, wo mich seit ca. 40 Jahren die Frage umtreibt, was denn wohl „tiffany twisted“ bedeuten könnte.

„Her mind is Tiffany-twisted/
She got the Mercedes Benz/
She got a lot of pretty, pretty boys/
She calls friends“

Das hier?

Da ist immerhin das mind twisted. Aber Tiffany? Die pinken Benze, sind die Tiffany?

Oder das hier:

What the Whaaaat? Ich musste tief Luft holen als das passierte. Wenn das mal nicht twisted ist. Ist das ein Mund, der in ein pinkfarbenes Mercedes Cabrio beißt? Vielleicht. Vielleicht aber auch etwas ganz anderes. Und wem es hier schon zu anatomisch wird, dem kann ich nur massiv davon abraten, Patty Smith „Because the Night“ oder Leonard Cohen „Bird on a wire“ in eine Text-To-Image AI zu füttern. Die Ergebnisse waren so erschreckend, daß ich sie hier nicht teile. Im Ernst: haunting. Grauenhaft. Schreckliche Alptraumbilder.

Da enden wir doch lieber mit einer weirden Umsetzung eines der schönsten Lieder, die ich kenne, FAMOUS BLUE RAINCOAT von Leonard Cohen:

„Ah, the last time we saw you you looked so much older/
Your famous blue raincoat was torn at the shoulder“

Interessanter Raincoat.

So, und wer macht jetzt schwuppdiwupp das erste Musikvideo aus MIDJOURNEY-Bildern, die die Lyrics des Songs selbst generiert haben? Ja, muß man denn wieder alles selber machen?***

Na, gibts doch eh schon, und ihr habts auch schon gesehen, richtig? Also sagt mir bitte kurz wo, links bitte in die Kommentarspalten.

P.S.: In meinem letzten Blogeintrag hatte ich mir Gedanken gemacht dazu, wie es denn bestellt ist um das Copyright bei AI generiertem Content. Darum sei hier rasch nachgetragen, wie sich das bei MIDJOURNEY verhält, dem AI-Services-Anbieter, mit dem ich die Bilder hier erzeugt habe, jedenfalls aus Sicht des Anbieters selbst. Wie sich das vor Gericht im Streitfall verhält, das muss sich im Detail noch zeigen. Aber verkürzt gesagt:

1. Der Anbieter lässt sich das Recht einräumen, alles unentgeltlich zu nutzen, was ich mit seiner Hilfe erzeuge. Ich muß mir also die Bildrechte mit ihm teilen, was deren kommerzielle Verwertbarkeit deutlich einschränkt. Ihr erinnert Euch: Als Werbefilmproduzenten treten wir die Rechte an unserem Filmen grundsätzlich ab „Frei Von Rechten Dritter“. Man könnte diese Bilder also in einem Werbefilm verwenden, müsste aber entweder den Kunden darauf hinweisen, dass im Fall dieser Bilder das Recht an den Bildern nicht EXKLUSIV übertragen wird, weil MIDJOURNEY auch ein Nutzunsgrecht hat. Wenn wir also ein paar Hintergründe für einen Mercedes Produktfilm in MIDJOURNEY erzeugen, könnte BMW dieselben Hintergründe bei MIDJOURNEY einkaufen, ihren eigenen Wagen davor ablichten mit dem Hinweis: „Who wore it better?“ Oder wir müssten die Bilder vor Verwendung so sehr weiterbearbeiten/verfremden, daß uns dann an der Überarbeitung die Nutzungsrechte exklusiv gehören. Wie aber sieht das aus, wenn wir Bilder erzeugen, und sie in ein 3D-Programm importieren, das dann komplette 3D-Welten aus „unserem“ (und dem von Midjourney…) Input extrapoliert/generiert? usw usf – jede Menge spannender Fragen, zumindest aus Producersicht.
2. Er räumt allen anderen Nutzern ein Recht ein, meine Ergebnisse zu re-mixen, also weiterzuverwenden. Jeder, der per Knopfdruck eines meiner Bilder variieren oder auch nur upscalen lässt, bekommt also ebenfalls Ownership an den Ergebnissen zugesprochen, denn:
3. räumt der Anbieter mir Ownership an allen Bilder ein, die ich hier erzeugt habe, die ich mir allerdings, siehe 1., mit ihm teilen muss.

Ich freu mich schon auf den ersten Prozeß, in dem Tom Waits die Nutzunsgrechte an den Bildern von mir bekommen möchte, die MIDJOURNEY & ich mithilfe seiner Lyrics erzeugt haben.

P.P.S.: Da haben wir den Salat! Das US Copyright Office hat grade erneut entschieden, dass nach US Recht die Produkte einer AI nicht mit copyright versehen werden können, da es den Produkten an „human authorship“ mangele. Und jetzt? Tom Waits jedenfalls kriegt nix…

***September 22: Und da sind sie auch schon auf Youtube, die Musikvideos mit lyrics prompts: Space Oddity, Stairway to heaven, und viele mehr…

2 Kommentare zu „Lyrics-To-Image AI“

jana sagt:

18. Juli 2022 um 08:32 Uhr

wow!!!!
so krass. hattest du zwar am ende geschrieben, dass du teilweise photorealistic dazugetippt hattest, aber machst du da sonst noch angaben zum stil? weil die bilder alle so unterschiedliche genres abbilden
fantastisch!
tango till they‘re sore – def. mein favorit.

Antworten
1. stephanpauly.com sagt:
  
  18. Juli 2022 um 09:18 Uhr
  
  oder??? die unterschiede kommen wahrscheinlich durch die iterations zustande; du bekommst immer vier leicht unetrschiedliche vorschläge und kannst dich entscheiden schon einen davon in high quality ausarbeiten zu lassen oder in guter alter agenturmanier per knopfdruck sagen: „mach mal variationen von vorschlag vier“; in den beispielen stecken jeweils max 4 solcher varaitionsschleifen. und mit ausnahme von ACDC gab es keine weitere anweisung ausser „photorealistic“ und „aspect ratio 16:9“. ich muss gleich noch ne runde drehen!
  
  Antworten

Veröffentlicht von StephanPauly

2 Kommentare zu „Lyrics-To-Image AI“

Schreibe einen Kommentar Antwort abbrechen