OpenAI lanzó un nuevo modelo de IA de generación de imágenes el martes, llamado ChatGPT Images 2.0. Este modelo puede generar más de una imagen a partir de una sola indicación, como por ejemplo un folleto de estudio entero, así como el texto de salida, incluso en idiomas que no son ingleses como el chino y el hindi. Esta versión está disponible a nivel mundial para los usuarios de ChatGPT y Codex, con una versión más potente disponible para suscriptores de pago.
Cuando cualquier empresa importante de IA publica un nuevo modelo de imagen, puede revivir el interés y aumentar su uso, sobre todo si los usuarios de las redes sociales adoptan una tendencia de meme, transformando las imágenes de sí mismos. El año pasado, el lanzamiento de Google del modelo Nano Banana fue un momento importante para la empresa, especialmente cuando los usuarios empezaron a publicar figuras hiperrealistas de ellos mismos online. A principios de año, las imágenes de ChatGPT hicieron oleadas en las redes sociales cuando los usuarios compartían caricaturas generadas por IA.
¿Qué es distinto?
Dado que el nuevo modelo puede aprovechar las capacidades de "razonamiento" de ChatGPT, Images 2.0 puede buscar en Internet información reciente y generar más de una imagen a la vez. En esencia, el bot puede utilizar pasos adicionales para generar generaciones más exhaustivas desde un solo indicador. Images 2.0 también tiene una fecha de corte de conocimiento más reciente: diciembre de 2025.
Esto significa también que las salidas del nuevo modelo son más granulares. Por ejemplo, generé una infografía con la previsión meteorológica de San Francisco para el día siguiente, así como actividades que vale la pena realizar. La imagen que ChatGPT generó incluía detalles meteorológicos precisos para el día de lluvia, junto con cuidados dibujos del edificio del ferry, el teatro Castro, las casas de Painted Ladies y la pirámide de Transamerica.
Además, Images 2.0 es más personalizable para los usuarios que desean relaciones de aspecto únicas para las salidas de imagen. El nuevo modelo puede generar imágenes que van desde 3:1 de ancho hasta 1:3 de altura, y los usuarios pueden ajustar el tamaño de la imagen como parte de su indicación en la herramienta de IA.
Primeras impresiones
Después de unas horas de generar imágenes con el nuevo modelo, por lo general me impresionaron las capacidades de representación de texto, al menos en inglés. No hace mucho, las salidas de imagen con texto, de cualquiera de los principales modelos, a menudo incluían numerosos caracteres mal formados o palabras con letras adicionales erradas. ChatGPT luchó por etiquetar las imágenes con precisión dos años antes, por lo que las salidas más limpias y complejas de Imágenes 2.0 son un signo de mejora continua. Google también se ha centrado en mejorar las salidas de imagen con texto en sus recientes iteraciones de Nano Banana.


Deja una respuesta