Искусственный интеллект

Анонс Stable Diffusion 3

Gábor Bíró • 26 февраля 2024 г.

2 мин. чтения

Компания Stability AI официально объявила о скором выпуске Stable Diffusion 3, обещая значительный скачок вперед в возможностях моделей искусственного интеллекта для преобразования текста в изображения.

Эта новая итерация представляет ряд ключевых улучшений и функций, разработанных для повышения производительности модели, качества изображений и ее способности интерпретировать и выполнять сложные запросы по сравнению с ее предшественниками, такими как SDXL.

Новая архитектура и повышенная производительность

Stable Diffusion 3 построен на новой архитектуре диффузионного трансформера, что является отходом от структур на основе U-Net, которые использовались в предыдущих версиях. Этот новый фундамент, концептуально схожий с архитектурами трансформеров, лежащими в основе больших языковых моделей, разработан для лучшей масштабируемости и потенциально более тонкого понимания текстовых запросов. Производительность дополнительно повышается за счет включения согласования потоков во время обучения. Этот метод может привести к сокращению времени обучения, более эффективному сэмплированию (генерации изображений) и улучшению общего качества выходных данных по сравнению с более ранними методами диффузионного обучения.

Расширенный спектр моделей

Чтобы удовлетворить широкий спектр потребностей пользователей и возможностей оборудования, Stability AI объявила, что Stable Diffusion 3 будет доступен в нескольких размерах моделей, от 800 миллионов до 8 миллиардов параметров. Такая масштабируемость позволяет пользователям выбирать модель, которая наилучшим образом соответствует их приоритетам, будь то максимизация точности изображения или оптимизация вычислительной эффективности.

Улучшенные запросы с несколькими объектами и типографика

Выдающимся достижением Stable Diffusion 3 является значительно улучшенная обработка запросов, включающих несколько объектов. Он нацелен на создание изображений, которые точно отображают сложные сцены с несколькими различными элементами в соответствии с запросом. Кроме того, модель может похвастаться значительно улучшенными возможностями типографики, устраняя известную слабость многих предыдущих моделей преобразования текста в изображение. Это обеспечивает гораздо более точное и разборчивое отображение текста, указанного в сгенерированных изображениях.

Безопасность и доступность

Stability AI подчеркнула свою приверженность безопасному и ответственному развертыванию ИИ, заявив, что с самого начала внедряются многочисленные меры безопасности для предотвращения неправомерного использования Stable Diffusion 3. На момент объявления модель была переведена на этап раннего предварительного просмотра и еще не была широко доступна. Компания также подтвердила свою приверженность демократизации доступа к генеративным технологиям ИИ, заявив о своем намерении в конечном итоге сделать веса модели общедоступными для скачивания и локального использования, продолжая практику, установленную в более ранних версиях Stable Diffusion, после завершения первоначального тестирования и оценки безопасности.

Будущие направления

Хотя первоначальное внимание Stable Diffusion 3 сосредоточено на генерации текста в изображение, его базовая архитектура разработана с учетом будущей расширяемости, потенциально открывая путь для расширения в другие модальности, такие как генерация 3D-активов и создание видео. Эта универсальность подчеркивает стремление Stability AI разработать комплексный набор генеративных моделей, способных обслуживать широкий спектр творческих и коммерческих приложений.