Crean una inteligencia artificial que genera imágenes a partir de descripciones en texto

La Inteligencia Artificial está logrando grandes avances en el campo y OpenAI es prueba de ello. Ahora, en medio de sus investigaciones, ha presentado dos sistemas multimodales que permiten crear imágenes a partir de un texto con palabras e identificar imágenes de un grupo de ellas.

Te podría interesar

El video

El polémico video de la Selección Argentina que Madonna hizo viral: besos y bailes eróticos
Escándalo

Inteligencia artificial en la literatura: la crisis de autenticidad que sacude a Granta

A través de su página web, la compañía fundada por Elon Musk y Sam Altman mostró las pruebas de DALL-E y Clip, sus dos tecnologías abanderadas.

Esta tecnología, que recibe su nombre a base de un juego de palabras entre el apellido de Salvador Dalí y Wall-E, el personaje de Disney, soporta una amplia gama de conceptos y expresiones en lenguaje natural, los que usa como base para la generación de resultados realmente impresionantes.

Leer más: Filtran imágenes del nuevo "teclado mágico" de Apple

La base de esta red neuronal se funda en GPT-3, sigla de Generative Pre-trained Transformer 3, que es un modelo de lenguaje autorregresivo que emplea técnicas de aprendizaje profundo en la producción de textos que simulan la redacción humana.

En el caso de DALL-E, estamos frente a una versión de 12 mil millones de parámetros de GPT-3, entrenada para generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares de texto e imagen.

Esta tecnología puede generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares. La función es sencilla, aunque con una gran ciencia detrás: escribes una frase y DALL-E trata de presentarla gráficamente.

OpenIA te permite crear imágenes a partir de un texto descriptivo

Además, busca darles sentido a las palabras, encuentra las relaciones, brinda atributos y trata hasta de darle perspectiva tridimensional. Sin embargo, también es capaz de crear imágenes que solo pueden existir en nuestra imaginación.

DALL·E, una versión de 12.000 millones de parámetros de GPT-3, ha sido entrenada con un segundo modelo llamado CLIP que aprendió a reconocer imágenes a partir de sus descripciones de texto; no de etiquetas como “gato” o “plátano”, que es como se entrena la mayoría de modelos de reconocimiento de imágenes, sino de descripciones completas sacadas de internet.

Leer más: Microsoft y su revolucionaria herramienta que permitirá "hablar" con los seres queridos que ya fallecieron

Según Open AI, CLIP puede identificar objetos más allá del conjunto de datos con el que fue entrenado, mientras que DALL·E es capaz de dibujar cosas como:

Un reloj verde pentagonal

Una foto de comida china

El polémico video de la Selección Argentina que Madonna hizo viral: besos y bailes eróticos

Inteligencia artificial en la literatura: la crisis de autenticidad que sacude a Granta

Temas

El polémico video de la Selección Argentina que Madonna hizo viral: besos y bailes eróticos

Inteligencia artificial en la literatura: la crisis de autenticidad que sacude a Granta

"Hay empresas que pueden quedar afuera": la fuerte advertencia sobre el avance de la inteligencia artificial

La IA reveló qué selección tiene más chances de ganar el Mundial 2026