Anuncio de Stable Diffusion 3

Gábor Bíró • 26 de febrero de 2024

2 min de lectura

Stability AI ha anunciado oficialmente el próximo lanzamiento de Stable Diffusion 3, prometiendo un avance significativo en las capacidades de los modelos de inteligencia artificial de texto a imagen.

Esta nueva iteración introduce varias mejoras y características clave diseñadas para optimizar el rendimiento del modelo, la calidad de la imagen y su capacidad para interpretar y ejecutar instrucciones complejas en comparación con sus predecesores como SDXL.

Nueva Arquitectura y Rendimiento Mejorado

Stable Diffusion 3 se basa en una novedosa arquitectura transformer de difusión, un cambio con respecto a las estructuras basadas principalmente en U-Net utilizadas en versiones anteriores. Esta nueva base, conceptualmente similar a las arquitecturas transformer que impulsan los grandes modelos lingüísticos, está diseñada para una mejor escalabilidad y, potencialmente, una comprensión más matizada de las instrucciones de texto. El rendimiento se ve aún más impulsado por la incorporación de la correspondencia de flujo durante el entrenamiento. Esta técnica puede conducir a tiempos de entrenamiento más rápidos, un muestreo más eficiente (generación de imágenes) y una calidad de salida general mejorada en comparación con los métodos de entrenamiento de difusión anteriores.

Amplia Gama de Modelos

Para satisfacer un amplio espectro de necesidades de usuario y capacidades de hardware, Stability AI anunció que Stable Diffusion 3 estará disponible en varios tamaños de modelo, que van desde 800 millones hasta 8 mil millones de parámetros. Esta escalabilidad permite a los usuarios seleccionar un modelo que se alinee mejor con sus prioridades, ya sea maximizar la fidelidad de la imagen u optimizar la eficiencia computacional.

Instrucciones Multi-Sujeto y Tipografía Mejoradas

Un avance destacado resaltado para Stable Diffusion 3 es su manejo significativamente mejorado de instrucciones que involucran múltiples sujetos. Su objetivo es generar imágenes que representen con precisión escenas complejas con varios elementos distintos según la instrucción. Además, el modelo cuenta con capacidades tipográficas drásticamente mejoradas, abordando una debilidad bien conocida de muchos modelos de texto a imagen anteriores. Esto permite una representación mucho más precisa y legible del texto especificado dentro de las imágenes generadas.

Seguridad y Accesibilidad

Stability AI enfatizó su compromiso con la implementación segura y responsable de la IA, afirmando que se estaban implementando numerosas medidas de seguridad desde el principio para prevenir el uso indebido de Stable Diffusion 3. En el momento del anuncio, el modelo se colocó en una fase de vista previa temprana, aún no disponible para el público general. La compañía también reafirmó su dedicación a democratizar el acceso a las tecnologías de IA generativa, declarando su intención de eventualmente poner los pesos del modelo a disposición pública para su descarga y uso local, continuando con la práctica establecida con versiones anteriores de Stable Diffusion, una vez que se completen las pruebas iniciales y las evaluaciones de seguridad.

Direcciones Futuras

Si bien el enfoque inicial de Stable Diffusion 3 está en la generación de texto a imagen, su arquitectura subyacente está diseñada con la extensibilidad futura en mente, lo que podría allanar el camino para la expansión a otras modalidades como la generación de activos 3D y la creación de vídeo. Esta versatilidad subraya la ambición de Stability AI de desarrollar un conjunto completo de modelos generativos capaces de servir a una amplia gama de aplicaciones creativas y comerciales.

Recomendados

La IA no puede ser titular de patentes

13 de febrero de 2024 • 3 min de lectura

La inteligencia artificial (IA) no puede ser legalmente reconocida como "inventor" en solicitudes de patente en Estados Unidos, una postura confirmada por el Tribunal de Apelaciones del Circuito Federal de EE. UU. y reforzada por directrices de la Oficina de Patentes y Marcas de EE. UU. (USPTO). Esta posición afirma que, según la ley estadounidense actual, solo los seres humanos califican para la condición de inventor.

Memoria Cuántica: El Componente Crítico que Impulsa el Internet Cuántico

29 de abril de 2024 • 4 min de lectura

La visión de un internet cuántico —una red que aprovecha las extrañas leyes de la mecánica cuántica para capacidades de comunicación revolucionarias— depende del desarrollo de varias tecnologías clave. Entre ellas, la memoria cuántica destaca como un componente verdaderamente indispensable. Esencial para el funcionamiento práctico de las redes cuánticas, la memoria cuántica proporciona la capacidad crucial de almacenar información cuántica frágil, actuando como una interfaz vital entre los enlaces de comunicación y los nodos de procesamiento locales dentro de la red.

1000 Robotaxis Totalmente Autónomos Operando en Wuhan

17 de octubre de 2024 • 3 min de lectura

Los vehículos autónomos están revolucionando el transporte urbano en todo el mundo, y la metrópolis central de China, Wuhan, se encuentra a la vanguardia de esta carrera tecnológica. La ciudad tiene el ambicioso objetivo de convertirse en la primera ciudad del mundo totalmente sin conductores, y este esfuerzo ya está dando resultados impresionantes.

Ofensiva de Conducción Autónoma: Shenzhen, la Ciudad Futura de la Revolución Autónoma

10 de julio de 2025 • 3 min de lectura

Shenzhen, el principal centro tecnológico de China, está liderando la revolución de los vehículos autónomos. Pero esto no se trata solo de futuristas robotaxis. La ciudad está desplegando agresivamente tecnología autónoma para impulsar industrias clave y rediseñar fundamentalmente los servicios urbanos, desde la logística hasta el saneamiento público.

El valle inquietante: cuando los robots se vuelven demasiado humanos

11 de marzo de 2025 • 8 min de lectura

¿Alguna vez has visto un robot, una figura animada o incluso un personaje de videojuego tan realista que te ha resultado casi... inquietante? ¿Te costó distinguir si era humano o no, y esta incertidumbre te generó una sensación extraña e inquietante? Si es así, es probable que hayas experimentado el fenómeno conocido como el "valle inquietante". Pero, ¿qué es exactamente y por qué desencadena una reacción tan fuerte en nosotros?

Petunia Bioluminiscente: La Flor Resplandeciente

15 de febrero de 2024 • 2 min de lectura

Conocida como la "petunia luciérnaga", esta petunia resplandeciente es una planta modificada genéticamente que emite continuamente una luz verde, gracias a genes derivados de un hongo luminiscente.

OPI de Cerebras: Competidor de Nvidia sale a bolsa

15 de octubre de 2024 • 4 min de lectura

En los últimos años, la revolución de la IA ha introducido nuevos actores y soluciones tecnológicas fascinantes en la industria de los semiconductores. Entre los más prometedores se encuentra Cerebras Systems, una startup con sede en California que recientemente anunció su intención de salir a bolsa.