Noch mehr über KI-generierte Bilder im Allgemeinen und konsistente Charaktere im Besonderen

Bilder
Künstliche Intelligenz
Interactive Fiction
Twine
RenPy
Autor:in

Jörg Kantel

Veröffentlichungsdatum

10. Oktober 2023

Es ist offensichtlich, daß mich das Thema »Bildergenerierung mit Hilfe gekünstelter Intelligenzia« fasziniert. Und so bin ich auch dank unserer aller Datenkrake über weitere Videos gestolpert, die ich interessant fand, aber mir noch nicht alle angeschaut habe. Dennoch möchte ich sie – auch um meinen überquellenden Feedreader ein wenig aufzuräumen – Euch hier kurz vorstellen.

Eines solltet Ihr allerdings berückssichtigen. Das Thema Künstliche Intelligenz hat einen ähnlichen Hype ausgelöst wie seinerzeit das Thema Non-Fungible Token (NFT). Und so wie ich damals schon Ideen entwickelt hatte, wie man mit den Mitteln von NFT denen, die vom Hype profitieren wollen und wie Dagobert Duck mit Dollarzeichen in den Augen herumrennen, den Stinkefinger zeigen kann, so möchte ich auch nun die Methoden nutzen, irgendetwas damit anzustellen, was kreativ ist, ohne auf den Profit zu schielen. Meine Idee, mit den so generierten Bildern interaktive Geschichten mit Twine und/oder Ren’Py zu erzählen, ist ein erster Schritt in diese Richtung.

Dennoch: Etliche der Macherinnen und Macher der vorgestellten Videos schielen ganz gewaltig auf Einnahmen, die sie erhoffen, was sich teilweise bis in die Namen der Video-Kanäle niederschlägt. Versucht, dieses zu ignorieren und Euch auf die kreativen Möglichkeiten zu fokussieren, die in diesen Programmen stecken (können).

Fange ich erst einmal mit Leonardo AI an. Dieser auf Stable Diffusion basierender, in der Grundversion kostenlos zu nutzender Bildgenerator ist ein vielversprechender Kandidat, besonders, da man mit den 150 »Credits«, die man in der keostenlosen Version an jedem Tag neu zur Verfügung hat, schon einiges anstellen kann. Das einstündige Video »How to Use Leonardo AI« will das ultimative Tutorial zu Leonardo AI sein. Schaun wir mal, was von diesem großspurigen Versprechen zu halten ist.

Da ist dann ja noch das als Klassiker gehandelte Midjourney. Irgendjemand hat mich zu Midjourney eingeladen, so daß ich mit dem Teil erst einmal 25 Bilder kostenlos erstellen (oder 25 »Credits« verbrauchen? – so genau blicke ich da nicht durch) darf. Danach müßte ich blechen, aber 25 Bilder/Credits sollten für einen ersten Test reichen. Das Video »How to use AI to Create Consistent Characters for a Children’s Book using Midjourney AI« könnte dabei hilfreich sein. Midjourney kann man mit der Discord-Desktop-App auch außerhalb des Browsers nutzen. Sind die 25 Credits jedoch verbraucht, muß man (trotz »Einladung« auch ich) für die weitere Nutzung dann ein Abonnement abschließen (mindestens US-$ 8/Monat bei einer Laufzeit von einem Jahr). Ich glaube nicht, daß ich mir diese knapp 100 € ans Bein binden werde. Da müßte bei meinen Tests schon wirkich etwas Ultra-Cooles herauskommen.

Trotz allem, konsistente Charaktere, ein Feature, daß auch ich für meine angedachten Anwendungen dringend benötige, scheinen bei KI-generierten Bilder ein Problem zu sein, wobei es mindestens die aktuellste Version 5.2 von Midjourney gelöst haben will (siehe: Character Consistency SOLVED in Midjourney 5.2). Es gibt etliche Videos, die ebenfalls Lösungen (auch für andere Programme) versprechen. Eine Auswahl:

Noch einen Schritt weiter sind KI-Avatare, die sprechen: Eine erste Einführung gibt das Video »Create TALKING Photo AI AVATAR in 2 Minutes Using FREE AI TOOLS«. Die dabei verwendete Software ist Clipdrop für die Bildbearbeitung (das übrigens seine Wartungspause beendet hat), ElevenLabs für die Sprachgenerierung und der 😭 SadTalker für die mehr oder weniger lippensynchrone Animation des Bildes. Alle drei Anwendungen sind kostenlos zu nutzen und scheinen – wenn ich dem Video glauben darf – ziemlich coole Ergebnisse zu produzieren. Ich habe sie deshalb auf meiner Testliste ganz nach oben gesetzt.

Und dann ist da noch ein new Kid on the (free) Block: DALL-E 3 ist draußen und es soll komplett kostenlos zu nutzen sein, wie das zehnminütige Video »DALL-E 3 is Out Now and Completely FREE to Use! von Matt Wolfe verspricht. Ein weiterer Kandidat auf meiner stetig wachsenden Liste der zu testenden Applikationen?

War sonst noch was? Ach ja, Künstliche Intelligenz trifft Generative Art: Astronaut Horse ist ein ziemlich geniales Projekt. Tom Betthauser stellte es in seinem fünfzigminütigen Videovortrag »Astronaut Horse: Stable Diffusion Artist Collaborations« auf der Strange Loop 2023 vor. Na bitte, ebenfalls ein Schritt in die Richtung, dem Hype den Stinkefinger zu zeigen, indem man ihn kreativ nutzt, ohne auf (s)einen Profit zu schielen.


Bannerbild: The Incredible Corgi-Man, erstellt mit DreamStudio. Prompt: »a blonde woman in a bikini and a corgi-headed man in a business dress sitting in a bar on a table and drinking coffee«. Style: Comic Book.