Wenn man im Jahr 1820, als rund 60% aller Beschäftigten in der Landwirtschaft gearbeitet haben, einem Bauern gesagt hätte, dass ein paar Generationen später in Deutschland nur noch 1,4% die Forke schwingen und damit einen bizarren Exportüberschuß erzeugen (Butterberge! Schweinefüße für den Export nach China!), hätte der sicher gesagt: „Ach Quatsch, wer soll denn die ganze Arbeit machen?“
Fast Forward 200 Jahre… Bei Google haben sie grade einen Engineer freigestellt, der zu laut davor gewarnt hat, daß die AI, die er gerade zu entwickeln hilft, ein eigenes Bewußtsein und menschliche Intelligenz aufweist, konkret: den Intelligenzgrad eines ca. 8jährigen Kindes.
Ach Quatsch, sagt da der tapfere Producer, ein ACHT-jähriger kann MEINEN Job nicht machen, ich bin safe.
Aber checkt mal die Meta Humans aus der Unreal Engine, von denen es inzwischen rd. 1.5 Millionen gibt. Ach Quatsch, sagt da die tapfere Schaupielerin, soooo real sehn die ja noch nicht aus, und der Post Aufwand, um die in real gedrehte Filme zu integrieren, ist ja noch ganz schön teuer.
Aber was ist mit Val Kilmers Stimme, die in echt nicht mehr verfügbar ist, weil Val Kehlkopfkrebs hat? Trotzdem spielt sie in TOP GUN 2 mit via Sonantic, die sie auf Basis alter Samples neue Sachen sagen lassen. Für Andy Warhol hat jemand dasselbe gemacht, und es kann nicht mehr lange dauern, bis das die Domäne der Promis verlässt und sich jemand vornimmt, Sprecherstimmen zu synthetisieren, die a) toll sind und b) alles sagen, was ich in meinen Browser tippe.
Ach Quatsch, keine AI kann sprechen wie Elmar Gunsch, sagt da der tapfere Sprecher, aber so langsam seh‘ ich da einen Pattern auf uns alle zurollen, ihr auch?
Den heißesten Verfolger-Atem haben glaube ich die SprecherInnen im Nacken, aber alle anderen Departments sollten sich da nicht zu sicher fühlen. Schaun wir uns mal genauer an, was passiert, wenn sich diese Tendenzen, von denen wir nur die kreativen Highlights mitbekommen, sich Richtung Arbeitsalltag aufmachen.
Es gibt schon länger AI Voices, die auf Basis von Voice Samples neuen Text einsprechen wie etwa bei MURF; kostet rd. 300 Dollar im Jahr für 96 Stunden gesprochen Text inklusive Buyouts, oder wie sie selbst sagen: „It enables brands to (…) save production costs in the advertisement process.“ Damn right it does!
Jetzt kann man sagen: Es gab auch schon immer SprecherInnen die schlechter klingen als diese geklonten AI Voices und welche, die für wenig bis gar kein Geld antreten wie z.B. der Mensch, von dem sich mein Jüngster auf youtube POKEMON vorlesen lässt. Grausam. Aber ich frage mich nicht nach den intellektuellen oder moralischen, den kreativen oder arbeitsmarkttechnischen (keine Jobs mehr für Sprecher & Darsteller!) Implikationen, ich bin ja Producer. Ich frage mich, wie sich das in einem Budget und später dann im Produktionsprozeß auswirkt. Und ich glaube, das wird den kompletten Markt für Sprecherinnen mit seiner gesamten Peripherie von Agenten und Tonstudios umblasen. Tja. Einfach mal so als steile These rausgehauen, nachdem ich nur 10 Minuten auf der MURF Website verbracht und mir lustige bis ernste Texte ausgedacht & vorsprechen lassen habe. Und dann hab ich mit dem Tool rumgefummelt, mit dem man die Aufnahmen dann tweaken kann: Satzmelodie modifizieren; Pausen & Betonungen einbauen etc. Probiert’s aus, macht Spaß, aber macht auch echt Angst.
Ich würde aus der hohlen Hand behaupten, dass in einem Werbefilmbudget 5-15 Prozent des Budgets für Darstellergagen und Buyouts draufgeht. Wenn wir die Darsteller durch Metahumans austauschen, wird NOCH (wait for it…) der Post Production Aufwand mit Sicherheit die Buyout Ersparnis auffressen.
Aber bei Sprechern? Deren Kosten machen ja gerne mal ein paar Tausend Euro aus. Laut Gagenliste Deutscher Sprecher (GDS) kostet es beispielweise im Paket „All Media Spot Plus“ €3.000 an Buyouts, um einen Sprecher für 1 Jahr deutschlandweit für 1 TV Spot und 3 Abformate zu nutzen, weitere Versionen, weitere Kosten. Zeitlich unbegrenzt? €9.000. Zeitlich und räumlich unbegrenzt? €19.200. Wenn mir das eine AI wie bei MURF für nahezunichts liefert, dann können wir uns vorstellen, was das für ein incentive ist, MURF zu nutzen. Als erstes sind da natürlich die Gebrauchstexte und die Youtube Untertextungen dran, aber wartet’s mal ab.
Im Produktionsprozess werden uns dann sicher die üblichen Effekte begegnen, die man hat, wenn man real Gedrehtes durch VFX ersetzt, ich sage nur: der Fluch der endlosen Tweakability.
Vergleiche REAL GEDREHT versus PER VFX GELÖST:
GEDREHT
Producer: „So, das sind die fünf takes, ihr wart ja dabei und kennt sie alle – welchen sollen wir nehmen?“ Agentur: „Den zweiten.“
VFX
Producer: „Okay, seht mal hier, wir haben jetzt den Berg etwas höher gemacht und den Schnee etwas Weißer, und das Abendlicht haben wir etwas zurückgenommen“ Agentur: „Ich fände es ja super, wenn da noch ein Herde Rentiere über den Abhang laufen könnte, ist doch eh 3D.“
Dasselbe blüht uns dann bei AI Sprachsimulationen.
„Können wir da etwas mehr Emotion in das letzte Wort reinbekommen irgendwie? Satzmelodie etwas mehr runter? Insgesamt etwas femininer vielleicht? Die Pause größer zwischen den ersten beiden Sätzen?“
Aber auch da wird man sich mithilfe von sorgfältiger Producermoderation einpendeln zwischen dem üblichen Kreativanspruch („Hmmm, ja, schon ganz gut, aber können wir da nochmal X, Y und Z probieren?“) und dem budgetär Machbaren („Da waren 2 Sessions im Budget, ich hab Euch schon 3 gegeben, können wir uns bitte für eine Version entscheiden? Eure deadline war übrigens gestern.“)
Auf dem Bauernhof sind die 1,4%, die das heute noch machen, natürlich nicht mehr dieselben Heuwender wie ihre Kollegen 200 Jahre zuvor. Sie sind vielmehr Allrounder, Agrarökonomen, Ingenieure etc. in Personalunion. Genauso habe ich als sagenwirmal technikunaffiner Producer angefangen, in MURF an den Sprecherpausen rumzuschrauben, weil’s ja keinen Ton-Ing mehr gibt, der einem das abnimmt, und, bei 300 Euro im Jahr, natürlich auch kein Geld für einen Ton-Ing. Ein zweischneidiges Schwert, der verdammte Fortschritt, für Producer und Ton-Ingenieure gleichermaßen! Das muß man – über den initialen Spaß der ersten 10 Minuten hinaus – wollen. Und können.
Ich kenne ja Gottseidank jemanden bei Google. Ich hoffe, sie sagt rechtzeitig Bescheid, wenn die Google AI 20 Jahre alt wird, inzwischen Excel gelernt hat und gute Restaurants aussuchen, Rosé am Strand trinken und „HAMMER SCRIPT!!!“ sagen kann. Ich würde dann eher nicht MURF lernen sondern diversifizieren, vegane Schweine züchten vielleicht.
*Wow. Auch Grafikern & Illustratoren stehen interessante Zeiten bevor, wenn ich mir diese „Text – to Image“ AI anschaue. Truely mindblowing.