Bildergenerierung mit Künstlicher Intelligenz – ein Zwischenbericht

Bilder

Künstliche Intelligenz

Interactive Fiction

RenPy

Twine

Autor:in

Jörg Kantel

Veröffentlichungsdatum

12. Oktober 2023

Nachdem ich mich nun etwa zehn Tage mit dem Thema »Bilderzeugung mit Künstlicher Intelligenz« herum- und viel Zeit damit totgeschlagen habe, ist es an dieser für einen Zwischenbericht mit ersten Empfehlungen, damit ich meinen Kopf wieder ein wenig für andere Projekte freibekomme.

Bei dieser Zwischenbilanz solltet Ihr berücksichtigen, daß ich mir die KI-Anwendungen unter der Prämisse angeschaut habe, ob und wie die damit generierten Bilder für Nutzung in interaktiven Geschichten, erstellt mit Twine und/oder Ren’Py, geeignet sind. Wer andere Anwendungsszenarien im Auge hat, kommt unter Umständen zu anderen Einschätzungen.

Intensiver getestet habe ich bisher die AI Comic Factory, Leonardo AI und DreamStudio, die mir nach meinem bisherigen Kenntnisstand am Geeignetsten schienen. Alle drei Programme brachten meist schon beim ersten Durchlauf recht brauchbare Ergebnisse, die sich allerdings durch mehrere Iterationen noch erheblich verbessern ließen.

Ich beginne mit der AI Comic Factory. Diese kostenlos zu nutzende Open-Source-Anwendung ist – bei allen Quirks, unter der die Software noch leidet – mein bisheriger Favorit. Zwar brauchen die generierten Bilder für die von mir geplante Nutzung noch ein gehöriges Maß an Nachbearbeitung (die einzelnen Panels müssen ausgeschnitten und skaliert werden), aber die Ergebnisse passen von den vorgegenenen Stilen her meiner Meinung nach einfach wunderbar zu der Art von interaktiven Geschichten, die ich im Kopf habe.

Außerdem sind die dargestellten Charaktere meistens wenigstens annähernd konsistent (zumindestens innerhalb einer generierten Seite), so daß sie ohne zu große Brüche in einer Geschichte Verwendung finden können.

Die anfänglichen Schwierigkeiten beim Server von Hugging Face scheinen auch nur vorübergehend gewesen zu sein. Seit etlichen Tagen läuft er ohne Schluckauf. Lediglich beim Redraw einzelner Panels friert die Ausgabe immer noch meistens ein. Daher dieses erst anstoßen, nachdem Ihr die Seite sicherheitshalber schon einmal hochaufgelöst heruntergeladen habt – sonst ist das gesamte Ergebnis weg.

Die beiden nächsten getesteten Anwendungen basieren auf Stable Diffusion. Zwar ist diese Software frei (MIT-Lizenz), doch die Qualität der generierten Bilder hängt stark von den Modellen ab, die dabei verwendet werden. Und für die Auswahl und Bereitstellung dieser Modelle lassen sich die Betreiber bezahlen.

Leonardo AI, Prompt: An elegant woman in a sexy dress and heels, with a corgi on a leash walking in the Tiergarten of Berlin, anime style, Style: Animation Style

Einen schier unerschöpflichen Fundus an Modellen stellt Leonardo AI bereit. Dennoch ist das Teil recht brauchbar kostenlos zu nutzen, denn es stellt dem User alle 24 Stunden 150 Tokens zur Verfügung, die er »verbraten« darf, ohne zur Kasse gebeten zu werden. Ein Bild verbraucht im Schnitt zwischen fünf bis zehn Token. Wenn man also vorsichtig damit umgeht und nicht immer gleich die vorgeschlagenen vier Bilder je Iteration ausnutzt (zur ersten Einschätzung reichen oft ein oder zwei Bilder), kommt man damit schon recht weit. Sind die 150 Token verbraucht, muß man den Tag verstreichen lassen, spätestens nach 24 Stunden bekommt man zuverlässig neue 150 Token zugewiesen.

Sollte man wirklich mal mehr benötigen, muß man leider ein Abonnenment abschließen und sich längerfristig an Leonardo AI binden. Das günstigste Abo mit 8.500 Tokens je Monat kostet – wenn man es für ein ganzes Jahr abschließt – US-$ 10 im Monat. Das ist eine Menge Holz im Vergleich zu den 4.500 freien Token, die man bei der kostenlosen Nutzung je Monat zur Verfügung hat. Wenn man wirklich von der Anwendung überzeugt ist und diese sehr intensiv nutzt, kann so ein Abo unumgänglich sein, dann sollte man sich aber überlegen, ob die beiden Angebote mit 25.000 oder gar 60.000 Token/Monat nicht sogar sinnvoller sind.

Doch zurück zur Anwendung: Leonardo AI erlaubt nicht nur die Generierung von Bildern via eines Text-Promptes, sondern man kann auch ein Referenzbild hochladen und daraus zu diesem Bild ähnliche Bilder generieren lassen. Wie groß die Gewichtung dieses Referenzbildes, aber auch des Textpromptes sein soll, kann man in der GUI einstellen. In den meisten Tutorials wird die Generierung konsistenter Charaktere mit Hilfe von (auch schon von Leonardo AI erzeugter) Referenzbilder vorgeschlagen.

Bei hochgeladenen Referenzbildern fremder Herkunft solltet Ihr auf jeden Fall die Urheberrechte an dem Bild und das Recht am eigenen Bild der eventuell abgebildeten Personen beachten. Ihr bekommt andernfalls schnell unerwünschte Anwaltspost¹.

Leonardo kann aber nicht nur Bilder generieren, sondern sie – unter dem Menü AI Canvas – auch weiterbearbeiten. Neben der Retusche mit Hilfe von Künstlicher Intelligenz ist eine häufige genutzte Anwendung die Erweiterung von Bildern. Aber – und das ist für mich für die Verwendung mit Ren’Py interessant – der AI Canvas kann die erzeugten Charaktere auch mit wenigen Klicken vom Hintergrund freistellen. Auch dieses Ergebnis ist in der Regel recht brauchbar.

Alles in allem ist Leonardo AI eine extrem leistungsfähige Applikation und sie ist auch die am häufigsten genannte Alternative zum nur noch gegen Abo zu nutzenden Platzhirschen Midjourney ².

DreamStudio, Prompt: An elegant woman in a autumn dress and heels, with a corgi on a leash walking in the Tiergarten of Berlin. Mit einem Klick auf die Vorschaubilder kommt Ihr je zu eine Seite mit einer Vergrößerung.

Die Stable-Diffusion-Anwendung DreamStudio hat sich in der Hauptsache mit seiner Preispolitik in diesen Vergleich geschmuggelt. Denn im Gegensatz zu fast allen anderen kommerziellen Anbietern muß man bei DreamStudio kein Abo abschließen, sondern man zahlt, was man (ver-) braucht. Nachdem ich die 25 »Credits«, die man zum Start erhält, verbraucht hatte, habe ich mir für US-$ 10 (plus MWSt.) 1.000 Credits nachgekauft. Und obwohl ich mittlerweile schon sehr viel mit diesem Teil experimentiert habe, sind davon immer noch knapp 900 Credits übrig. Das reicht also ziemlich lange, bevor ich wieder in die Tasche greifen muß.

DreamStudio stellt bei weitem nicht so viele Modelle zur Verfügung wie zum Beispiel Leonardo AI, aber etliche der Modelle, die es dort gibt, sind für meine geplanten Anwendungen mit Twine und Ren’Py ziemlich genial. Die obigen Bildchen habe ich zum Beispiel (von links nach rechts) mit den Stilen Anime, Fantasy Art und Comic Book erstellt. Sie passen doch für interaktive Geschichten wie »Faust aufs Auge«.

Allerdings ist DreamStudio ziemlich prüde. die Dame sollte eigentlich – wie bei den anderen Bildern auf dieser Seite – einen »sexy dress« tragen, aber das nahm mir die App übel. Erst nachdem ich den »sexy dress« durch einen »autumn dress« ersetzt hatte, war DreamStudio wieder mein Freund und akzeptierte den Prompt.

Die Anwendung kann – wie Leonardo AI – ebenfalls mit Referenzbildern umgehen. Auch hier ist es die einfachste Möglichkeit, wenigstens annähernd konsistente Charaktere zu erzeugen. Einen »Canvas« besitzt DreamStudio aber nicht, in den meisten Tutorials wird zur Nachbearbeitung das kostenlos zu nutzende Canva empfohlen. (Notiz an mich: Canva ebenfalls testen!)

DreamStudio ist gerade wegen seiner beschränkten, aber ausreichenden Möglichkeiten schnell zu erlernen und einfach zu nutzen. Gerade wer nur hin und wieder eine künstliche Intelligenzia zur Bildgenerierung benötigt, findet hier sein Werkzeug.

Prompt-Gestaltung: Speziell bei den Stable-Diffusion-Ablegern wie Leonardo AI oder DreamStudio steht und fällt die Qualität der Ergebnisse mit den verwendeten Prompts³. Das Video »Crafting A Perfect AI Image Prompt« will Euch zeigen, wie Ihr einen idealen Prompt gestaltet.

Wie geht es weiter? Natürlich stehen noch einige Anwendungen bei mir auf der Matte, die auf einen Test warten. Auch wenn ich jetzt erst einmal eine Pause machen möchte, in der Pipeline sind bei mir noch TensorArt (dieses Video einer Dame, die ebenfalls vor lauter Dollarzeichen in den Augen kaum noch geradeaus schauen kann, hält den Einladungs-Code monice1111 mit 100 freien Credits für mich und Euch vor), Aperture by Lexica (auch ein Stable-Diffusion Ableger), Dreamlike und mit Instant Art eine weitere Stable-Diffusion-Anwendung. Zumindest die drei letztgenannten sollen wenigstens in einer Grundversion sinnvoll kostenlos zu nutzen sein. Schaun wir mal.

Aber vor allem ist da noch das brandneue DALL-E 3 von OpenAI, das mit Lobeshymnen geradezu überhäuft wird. Bisher können es wohl nur Microsoft-/Bing-Nutzer (kostenlos) testen, aber auch andere Anbieter (zum Beispiel LibreOffice und ChatGPT) stehen in den Startlöchern und wollen ebenfalls eine kostenlose Nutzung anbieten. Einen Vorgeschmack bietet der Beitrag »Now You Can Generate AI Images in ChatGPT with DALL-E 3« von Diana Dovgopol (leider auf Medium.com und daher eventuell hinter einer Bezahlschranke verborgen, sorry).

Jetzt habe ich alles herausgehauen, was ich bis heute über »Bilder mit Künstlicher Intelligenz erzeugen« weiß. So freigeschaufelt möchte ich als nächstes dem Monat entsprechend irgend etwas zum Thema »Halloween« anstellen. Ob ich dafür eine Künstliche Intelligenz benötige oder nicht, lasse ich erst einmal offen. Still digging!

Bild: Elegant Woman with Corgi, erstellt mit AI Comic Factory. Prompt: »An elegant woman in a sexy dress and heels, with a corgi on a leash walking in the Tiergarten of Berlin«. Style: Franco-Belgian.

Fußnoten

Das gilt auch bei der Verwendung von Markenzeichen. In die Trainingsdaten der Modelle schleichen sich schnell geschützte Logos oder Markenzeichen von Firmen ein, die dann auch in Euren Bildern auftauchen. Viele der Rechteinhaber sind darüber vermutlich nicht amused und schalten dann ebenfalls einen Anwalt ein.↩︎
Midjourney hat sich wegen seiner Preisgestaltung (die einmalig zur Verfügung gestellten 25 »Credits« reichten selbst für einen minimalen Test nicht aus) selber aus diesem Vergleich gekickt.↩︎
Das gilt natürlich auch für die AI Comic Factory. Überhaupt ist mir nicht klar, ob bei ihr im Hintergrund nicht auch Stable Diffusion (oder ein Ableger davon) werkelt.↩︎