Nein, Stable Diffusion 3.5 ist nicht der Flux-Killer

Bilder

Scenario

Flux.1

Tensor Art

Stable Diffusion

Künstliche Intelligenz

Autor:in

Jörg Kantel

Veröffentlichungsdatum

1. November 2024

Vor etwas mehr als einer Woche hat Stability.AI die Freigabe von Stable Diffusion 3.5 verkündet, einem KI-Bildgenerator, der das bisherige Stable Diffusion XL bei weitem übertreffen soll. (Das zwischenzeitlich auch mal veröffentlichte Stable Diffusion 3 war wohl eher ein Schuß in den Ofen.) Und schnell (oder eher vorschnell?) wurde in einigen YouTube-Videos Stable Diffusion 3.5 als der Flux-Killer und Midjourney-Überwinder angepriesen. Als nun das gelegentlich von mir genutzte Tensor Art Stable Diffusion 3.5 in sein Portfolio aufgenommen hatte, wollte ich wissen, was an der ultimativen Lobhudelei dran sei.

Ich habe daher Tensor Art gebenten, mir ein paar Bilder einer jungen, üppig ausgestatteten Dame zu generieren, die mit einem Klemmbrett im Arm in einer Bar sitzt (siehe Prompt in der Bildbeschreibung unten zum Bannerbild). Dies hier sind einige der besten Ergebnisse:

Ein Klick auf die Vorschaubilder führt zu einer Seite mit einer Vergrößerung.

Die Bilder sind ja ganz nett geworden und auf jeden Fall auch ein Fortschritt gegenüber Stable Diffusion XL, aber nach den Vorschußlorbeeren hatte ich mehr erwartet. Ich habe fast mein gesamtes Tageskontingent an Credits für diesen Test verballert, aber nur etwa 40 Prozent der generierten Bilder überhaupt behalten. Die anderen hatten alle Probleme mit der Anatomie (drei oder vier Arme oder Beine, falsch angewinkelte Arme und Hände oder Gelenke an Stellen, an denen normalerweise keine Gelenke sitzen). Dabei habe ich kleinere Fehler ignoriert, wie man auch an den Bildern sehen kann.

Auch die Texterkennung ist noch verbesserungsfähig: Kürzere Texte wie »Stable Diffusion 3.5 is out« wurden oft noch erkannt und korrekt dargestellt, längere Texte wie zum Beispiel »Stable Diffusion with Tensor Art is awsome« dagegen bildeten für die gekünstelte Intelligenzia ein meist unlösbares Problem. (Die jeweils verwendeten Prompts habe ich wieder auf den Bildseiten bei Flickr hinterlegt.)

Dann habe ich einen ähnlichen Prompt (»colored french comic style. a sexy young woman with green eyes, red lips and curly brown hair hair, wearing a tight-fitting, open yellow blouse and a short red-brown skirt sits on a bar stool and holds a small clipboard in front of her chest. The text on the clipboard show this: “Flux.1 and Scenario are awsome!”«) auf Scenario mit diversen Flux-Modellen und -LoRAs losgelassen. Die Ergebnisse waren um Klassen besser:

Ein Klick auf die Vorschaubilder führt zu einer Seite mit einer Vergrößerung.

Während Flux.1 [schell] (oberste Reihe) erwartungsgemäß bei den Texten versagte, schlugen sich Flux1.1 [pro] (2. Reihe) und die Flux LoRAs großartig und der Ausschuß lag gerade einmal bei 10 Prozent, 90 Prozent der generierten Bilder waren verwertbar!

Ich habe viel mehr als die hier gezeigten Bilder produziert, aber um die Vergleiche nicht unnötig aufzublähen, habe ich jede der verwendeten LoRAs nur eine Reihe spendiert. Es sind dies von oben nach unten »Euro Comix by Deacon« (Reihe 3), »Expressive Comic Characters« (Reihe 4), »Decker By Deacon« (Reihe 5), »Little Girl Alice by Kantel« 🤓 (Reihe 6) und »Vibrant Storybook Illustrations« (Reihe 7).

Auch wenn mein Test sicher ein wenig ungerecht ist (so sind anscheinend noch keine LoRAs für Stable Diffusion 3.5 draußen), ist festzuhalten, daß momentan das neue Stable Diffusion (noch?) nicht der angekündigte Flux-Killer ist. Und irgendwie beruhigt mich dies. Ich hatte nämlich für ein geplantes Projekt zur Charakterkonsistenz bei KI-generierten Bildern schon eine Menge an Vorarbeiten mit Stable Diffusion XL zugunsten von Flux.1 verworfen und befürchtete schon, daß mir ähnliches schon wieder passieren könne. Aber mit diesen Ergebnissen meiner Versuchsreihe kann ich die begonnene Arbeit mit Scenario und Flux.1 beruhigt fortsetzen.

Bild: Stable Diffusion 3.5, erstellt mit Tensor Art. Prompt: »colored french comic style. a sexy young woman with green eyes, red lips and curly brown hair hair, wearing a tight-fitting, open yellow blouse and a short red-brown skirt sits on a bar stool and holds a small clipboard in front of her chest. The text on the clipboard show this: “Stable Diffusion 3.5 and Tensor.Art is awsome!”«. Modell: Stable Diffusion 3.5, Style: None.