Annonce de Stable Diffusion 3

Gábor Bíró 26 février 2024
2 min de lecture

Stability AI a officiellement annoncé la sortie prochaine de Stable Diffusion 3, promettant un bond en avant significatif dans les capacités des modèles d'intelligence artificielle texte-image.

Annonce de Stable Diffusion 3
Source: Stable Diffusion

Cette nouvelle itération introduit plusieurs améliorations et fonctionnalités clés conçues pour améliorer les performances du modèle, la qualité de l'image et sa capacité à interpréter et à exécuter des prompts complexes par rapport à ses prédécesseurs comme SDXL.

Nouvelle architecture et performances améliorées

Stable Diffusion 3 est construit sur une nouvelle architecture de transformateur de diffusion, s'éloignant des structures principalement basées sur U-Net utilisées dans les versions précédentes. Cette nouvelle base, conceptuellement similaire aux architectures de transformateurs qui alimentent les grands modèles linguistiques, est conçue pour une meilleure évolutivité et potentiellement une compréhension plus nuancée des prompts textuels. Les performances sont encore améliorées par l'intégration du 'flow matching' pendant l'entraînement. Cette technique peut conduire à des temps d'entraînement plus rapides, un échantillonnage plus efficace (génération d'images) et une qualité de sortie globale améliorée par rapport aux méthodes d'entraînement de diffusion antérieures.

Gamme étendue de modèles

Pour répondre à un large éventail de besoins des utilisateurs et de capacités matérielles, Stability AI a annoncé que Stable Diffusion 3 sera disponible en plusieurs tailles de modèles, allant de 800 millions à 8 milliards de paramètres. Cette évolutivité permet aux utilisateurs de sélectionner un modèle qui correspond le mieux à leurs priorités, qu'il s'agisse de maximiser la fidélité de l'image ou d'optimiser l'efficacité computationnelle.

Prompts multi-sujets et typographie améliorés

Une avancée remarquable mise en évidence pour Stable Diffusion 3 est sa gestion considérablement améliorée des prompts impliquant plusieurs sujets. Il vise à générer des images qui représentent avec précision des scènes complexes avec plusieurs éléments distincts conformément au prompt. De plus, le modèle se vante de capacités typographiques considérablement améliorées, corrigeant une faiblesse bien connue de nombreux modèles texte-image précédents. Cela permet un rendu beaucoup plus précis et lisible du texte spécifié dans les images générées.

Sécurité et accessibilité

Stability AI a souligné son engagement envers un déploiement sûr et responsable de l'IA, déclarant que de nombreuses mesures de sécurité étaient mises en œuvre dès le départ pour prévenir l'utilisation abusive de Stable Diffusion 3. Au moment de l'annonce, le modèle a été placé en phase de prévisualisation précoce, n'étant pas encore largement disponible. L'entreprise a également réaffirmé son engagement à démocratiser l'accès aux technologies d'IA générative, déclarant son intention de rendre éventuellement les poids du modèle ouvertement disponibles pour téléchargement et utilisation locale, poursuivant la pratique établie avec les versions précédentes de Stable Diffusion, une fois les tests initiaux et les évaluations de sécurité terminés.

Orientations futures

Bien que l'objectif initial de Stable Diffusion 3 soit la génération texte-image, son architecture sous-jacente est conçue dans un souci d'extensibilité future, ouvrant potentiellement la voie à une expansion vers d'autres modalités telles que la génération d'actifs 3D et la création vidéo. Cette polyvalence souligne l'ambition de Stability AI de développer une suite complète de modèles génératifs capables de servir un large éventail d'applications créatives et commerciales.

Gábor Bíró 26 février 2024