La Inteligencia Artificial está logrando grandes avances en el campo y OpenAI es prueba de ello. Ahora, en medio de sus investigaciones, ha presentado dos sistemas multimodales que permiten crear imágenes a partir de un texto con palabras e identificar imágenes de un grupo de ellas.
A través de su página web, la compañía fundada por Elon Musk y Sam Altman mostró las pruebas de DALL-E y Clip, sus dos tecnologías abanderadas.
Esta tecnología, que recibe su nombre a base de un juego de palabras entre el apellido de Salvador Dalí y Wall-E, el personaje de Disney, soporta una amplia gama de conceptos y expresiones en lenguaje natural, los que usa como base para la generación de resultados realmente impresionantes.
Leer más: Filtran imágenes del nuevo "teclado mágico" de Apple
La base de esta red neuronal se funda en GPT-3, sigla de Generative Pre-trained Transformer 3, que es un modelo de lenguaje autorregresivo que emplea técnicas de aprendizaje profundo en la producción de textos que simulan la redacción humana.
En el caso de DALL-E, estamos frente a una versión de 12 mil millones de parámetros de GPT-3, entrenada para generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares de texto e imagen.
Esta tecnología puede generar imágenes a partir de descripciones de texto, utilizando un conjunto de datos de pares. La función es sencilla, aunque con una gran ciencia detrás: escribes una frase y DALL-E trata de presentarla gráficamente.
Además, busca darles sentido a las palabras, encuentra las relaciones, brinda atributos y trata hasta de darle perspectiva tridimensional. Sin embargo, también es capaz de crear imágenes que solo pueden existir en nuestra imaginación.
DALL·E, una versión de 12.000 millones de parámetros de GPT-3, ha sido entrenada con un segundo modelo llamado CLIP que aprendió a reconocer imágenes a partir de sus descripciones de texto; no de etiquetas como “gato” o “plátano”, que es como se entrena la mayoría de modelos de reconocimiento de imágenes, sino de descripciones completas sacadas de internet.
Según Open AI, CLIP puede identificar objetos más allá del conjunto de datos con el que fue entrenado, mientras que DALL·E es capaz de dibujar cosas como:
Temas
Te puede interesar




