Mesterséges intelligencia

Stable Diffusion 3 bejelentve

Gábor Bíró • 2024. február 26.

2 perc olvasási idő

A Stability AI hivatalosan bejelentette a Stable Diffusion 3 közelgő megjelenését, amely jelentős előrelépést ígér a szövegből képpé alakító mesterséges intelligencia modellek képességeiben.

Ez az új verzió számos kulcsfontosságú fejlesztést és funkciót vezet be, amelyek célja a modell teljesítményének, képminőségének, valamint a komplex promptok értelmezésének és végrehajtásának képességének javítása az elődeihez, például az SDXL-hez képest.

Új Architektúra és Továbbfejlesztett Teljesítmény

A Stable Diffusion 3 egy új diffúziós transzformátor architektúrára épül, amely eltér a korábbi verziókban használt, elsősorban U-Net alapú struktúráktól. Ez az új alap, amely koncepcionálisan hasonló a nagyméretű nyelvi modelleket működtető transzformátor architektúrákhoz, a jobb skálázhatóság és a szöveges promptok potenciálisan árnyaltabb megértése érdekében lett tervezve. A teljesítményt tovább növeli a flow matching beépítése a képzés során. Ez a technika gyorsabb képzési időket, hatékonyabb mintavételt (kép generálást) és jobb általános kimeneti minőséget eredményezhet a korábbi diffúziós képzési módszerekhez képest.

Modellek Szélesebb Köre

A felhasználói igények és hardver képességek széles spektrumának kielégítése érdekében a Stability AI bejelentette, hogy a Stable Diffusion 3 többféle modellméretben lesz elérhető, 800 millió és 8 milliárd paraméter között. Ez a skálázhatóság lehetővé teszi a felhasználók számára, hogy olyan modellt válasszanak, amely a legjobban megfelel az igényeiknek, legyen szó a képminőség maximalizálásáról vagy a számítási hatékonyság optimalizálásáról.

Továbbfejlesztett Többszereplős Promptok és Tipográfia

A Stable Diffusion 3 egyik kiemelkedő fejlesztése a többszereplős promptok jelentősen javított kezelése. Célja, hogy pontosan ábrázolja a komplex jeleneteket, több különböző elemmel a promptnak megfelelően. Ezenkívül a modell drámaian továbbfejlesztett tipográfiai képességekkel büszkélkedhet, kezelve a korábbi szövegből képpé alakító modellek jól ismert gyengeségét. Ez lehetővé teszi a generált képeken belül megadott szöveg sokkal pontosabb és olvashatóbb megjelenítését.

Biztonság és Hozzáférhetőség

A Stability AI hangsúlyozta elkötelezettségét a biztonságos és felelősségteljes MI bevezetés iránt, kijelentve, hogy számos biztonsági intézkedést vezetnek be kezdettől fogva a Stable Diffusion 3 visszaélésszerű használatának megakadályozása érdekében. A bejelentés időpontjában a modellt egy korai előnézeti fázisba helyezték, amely még nem volt széles körben elérhető. A vállalat megerősítette elkötelezettségét a generatív MI technológiákhoz való hozzáférés demokratizálása iránt is, kijelentve, hogy szándékában áll a modell súlyait végül nyíltan elérhetővé tenni letöltésre és helyi használatra, folytatva a korábbi Stable Diffusion verziókkal kialakított gyakorlatot, amint az első tesztelés és biztonsági értékelések befejeződnek.

Jövőbeli Irányok

Bár a Stable Diffusion 3 kezdeti fókuszában a szövegből képpé generálás áll, a mögöttes architektúráját a jövőbeli bővíthetőség szem előtt tartásával tervezték, potenciálisan utat nyitva más modalitások, például a 3D eszközgenerálás és a videókészítés felé történő terjeszkedésnek. Ez a sokoldalúság aláhúzza a Stability AI azon ambícióját, hogy egy átfogó generatív modellcsaládot fejlesszen ki, amely képes a kreatív és kereskedelmi alkalmazások széles körét kiszolgálni.