Stable Diffusion 3 发布

Gábor Bíró 2024年2月26日
2 阅读时间

Stability AI 正式宣布即将发布 Stable Diffusion 3,预示着文本到图像人工智能模型的能力将迎来重大飞跃。

Stable Diffusion 3 发布
来源: Stable Diffusion

这个新版本引入了多项关键改进和功能,旨在提升模型的性能、图像质量以及其理解和执行复杂提示词的能力,相较于之前的版本如 SDXL。

全新架构与性能提升

Stable Diffusion 3 构建于一种新颖的扩散Transformer架构之上,这与之前版本中主要使用的基于 U-Net 的结构有所不同。这个新的基础架构,在概念上类似于驱动大型语言模型的 Transformer 架构,旨在实现更好的可扩展性,并可能更细致地理解文本提示词。通过在训练过程中融入流匹配技术,性能得到进一步提升。与早期的扩散训练方法相比,这项技术可以缩短训练时间,提高采样效率(图像生成),并改善整体输出质量。

扩展的模型范围

为了满足广泛的用户需求和硬件能力,Stability AI 宣布 Stable Diffusion 3 将提供多种模型尺寸,参数范围从 8 亿到 80 亿。这种可扩展性允许用户选择最符合其优先事项的模型,无论是最大化图像保真度还是优化计算效率。

改进的多主体提示和排版

Stable Diffusion 3 突出的进步之一是其显著改进了对涉及多个主体的提示词的处理能力。它的目标是生成能够根据提示词准确描绘包含多个不同元素的复杂场景的图像。此外,该模型还拥有显著增强的排版能力,解决了之前许多文本到图像模型的一个众所周知的弱点。这使得在生成的图像中指定的文本能够以更准确和清晰的方式呈现。

安全性和可访问性

Stability AI 强调了其对安全和负责任的 AI 部署的承诺,并表示从一开始就实施了多项安全措施,以防止 Stable Diffusion 3 被滥用。在发布公告时,该模型已进入早期预览阶段,尚未广泛可用。该公司还重申了其致力于普及生成式 AI 技术访问的决心,并表示计划在初始测试和安全评估完成后,最终公开提供模型权重以供下载和本地使用,延续早期 Stable Diffusion 版本建立的惯例。

未来方向

虽然 Stable Diffusion 3 的初始重点是文本到图像生成,但其底层架构在设计时就考虑了未来的可扩展性,可能为扩展到其他模态(如 3D 资产生成和视频创作)铺平道路。这种多功能性突显了 Stability AI 开发一套全面的生成模型的雄心,这些模型能够服务于广泛的创意和商业应用。

Gábor Bíró 2024年2月26日