menu
search
Tecnología Inteligencia artificial |

Crean una inteligencia artificial que genera imágenes a partir de descripciones en texto

OpenAI es una de las entidades que más avances está haciendo en el ámbito de la inteligencia artificial y mostraron una nueva y asombrosa herramienta.

La Inteligencia Artificial está logrando grandes avances en el campo y OpenAI es prueba de ello. Ahora, en medio de sus investigaciones, ha presentado dos sistemas multimodales que permiten crear imágenes a partir de un texto con palabras e identificar imágenes de un grupo de ellas.

A través de su página web, la compañía fundada por Elon Musk y Sam Altman mostró las pruebas de DALL-E y Clip, sus dos tecnologías abanderadas.

Esta tecnología, que recibe su nombre a base de un juego de palabras entre el apellido de Salvador Dalí y Wall-E, el personaje de Disney, soporta una amplia gama de conceptos y expresiones en lenguaje natural, los que usa como base para la generación de resultados realmente impresionantes.

Leer más: Filtran imágenes del nuevo "teclado mágico" de Apple

La base de esta red neuronal se funda en GPT-3, sigla de Generative Pre-trained Transformer 3, que es un modelo de lenguaje autorregresivo que emplea técnicas de aprendizaje profundo en la producción de textos que simulan la redacción humana.

En el caso de DALL-E, estamos frente a una versión de 12 mil millones de parámetros de GPT-3, entrenada para generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares de texto e imagen.

Esta tecnología puede generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares. La función es sencilla, aunque con una gran ciencia detrás: escribes una frase y DALL-E trata de presentarla gráficamente.

OpenIA.jpg
OpenIA te permite crear imágenes a partir de un texto descriptivo

OpenIA te permite crear imágenes a partir de un texto descriptivo

Además, busca darles sentido a las palabras, encuentra las relaciones, brinda atributos y trata hasta de darle perspectiva tridimensional. Sin embargo, también es capaz de crear imágenes que solo pueden existir en nuestra imaginación.

DALL·E, una versión de 12.000 millones de parámetros de GPT-3, ha sido entrenada con un segundo modelo llamado CLIP que aprendió a reconocer imágenes a partir de sus descripciones de texto; no de etiquetas como “gato” o “plátano”, que es como se entrena la mayoría de modelos de reconocimiento de imágenes, sino de descripciones completas sacadas de internet.

Leer más: Microsoft y su revolucionaria herramienta que permitirá "hablar" con los seres queridos que ya fallecieron

Según Open AI, CLIP puede identificar objetos más allá del conjunto de datos con el que fue entrenado, mientras que DALL·E es capaz de dibujar cosas como:

Un reloj verde pentagonal - inteligencia artificial
Un reloj verde pentagonal

Un reloj verde pentagonal

Una foto de comida china
Una foto de comida china

Una foto de comida china