Stable Diffusion 3 Angekündigt

Gábor Bíró 26. Februar 2024
2 Min. Lesezeit

Stability AI hat die mit Spannung erwartete Veröffentlichung von Stable Diffusion 3 offiziell bekannt gegeben. Dieses Modell soll einen enormen Sprung nach vorn in der Text-zu-Bild-KI darstellen.

Stable Diffusion 3 Angekündigt
Quelle: Stable Diffusion

Diese neue Version bringt einige entscheidende Verbesserungen und Features mit sich, die die Performance des Modells, die Bildqualität und die Fähigkeit, komplexe Prompts zu verstehen und umzusetzen, im Vergleich zu Vorgängermodellen wie SDXL deutlich steigern sollen.

Neue Architektur und Verbesserte Leistung

Stable Diffusion 3 setzt auf eine neuartige Diffusion-Transformer-Architektur und weicht damit von den bisherigen, hauptsächlich U-Net-basierten Strukturen ab. Diese neue Basis, die konzeptionell den Transformer-Architekturen ähnelt, die in großen Sprachmodellen zum Einsatz kommen, ist auf verbesserte Skalierbarkeit und ein potenziell feineres Verständnis von Text-Prompts ausgelegt. Die Leistung wird zusätzlich durch die Integration von Flow Matching im Training gesteigert. Diese Technik kann zu kürzeren Trainingszeiten, effizienterer Stichprobenerstellung (Bildgenerierung) und einer insgesamt höheren Ausgabequalität im Vergleich zu älteren Diffusions-Trainingsmethoden führen.

Erweiterte Modellvielfalt

Um den vielfältigen Bedürfnissen der Nutzer und unterschiedlichen Hardware-Kapazitäten gerecht zu werden, kündigte Stability AI an, dass Stable Diffusion 3 in verschiedenen Modellgrößen von 800 Millionen bis 8 Milliarden Parametern verfügbar sein wird. Diese Skalierbarkeit erlaubt es Nutzern, ein Modell zu wählen, das ihren Prioritäten am besten entspricht, egal ob es um maximale Bildgenauigkeit oder optimale Recheneffizienz geht.

Verbesserte Multi-Motiv-Prompts und Typografie

Ein herausragendes Merkmal von Stable Diffusion 3 ist die stark verbesserte Verarbeitung von Prompts mit mehreren Objekten. Das Modell soll Bilder generieren, die komplexe Szenen mit zahlreichen, klar unterscheidbaren Elementen gemäß Prompt präzise darstellen. Zudem bietet das Modell deutlich verbesserte Typografie-Funktionen, wodurch eine bekannte Schwäche vieler älterer Text-zu-Bild-Modelle behoben wird. Dies ermöglicht eine viel genauere und besser lesbare Darstellung von Text in den generierten Bildern.

Sicherheit und Zugänglichkeit

Stability AI unterstrich sein Engagement für einen sicheren und verantwortungsvollen Einsatz von KI und gab bekannt, dass von Beginn an umfangreiche Sicherheitsvorkehrungen getroffen wurden, um Missbrauch von Stable Diffusion 3 vorzubeugen. Zum Zeitpunkt der Ankündigung wurde das Modell in eine frühe Testphase überführt und war noch nicht öffentlich zugänglich. Das Unternehmen bekräftigte zudem sein Bestreben, den Zugang zu generativer KI-Technologie zu demokratisieren, und plant, die Modellgewichte nach Abschluss erster Tests und Sicherheitsprüfungen für den Download und die lokale Nutzung freizugeben, wie es bereits bei früheren Stable Diffusion Versionen üblich war.

Zukünftige Ausrichtungen

Obwohl Stable Diffusion 3 zunächst auf die Text-zu-Bild-Generierung ausgerichtet ist, ist die zugrundeliegende Architektur auf zukünftige Erweiterbarkeit ausgelegt. Dies könnte den Weg für eine Ausweitung auf andere Bereiche wie 3D-Asset-Generierung und Videoerstellung ebnen. Diese Vielseitigkeit unterstreicht das Ziel von Stability AI, eine umfassende Palette generativer Modelle zu entwickeln, die für ein breites Spektrum kreativer und kommerzieller Anwendungen geeignet sind.

Gábor Bíró 26. Februar 2024