Forbes Uruguay
Generación de manos ideogram
Innovacion

Las imágenes generadas por IA y una cuenta pendiente: por qué les cuesta tanto hacer manos realistas

Pablo Wahnon

Share

Una de las herramietas de IA generativas más utilizadas es la generación de imágenes. Sin embargo, y pese a los avances, aún tienen dificultades con las manos. ¿Qué sucede?

25 Junio de 2024 15.50

La inteligencia artificial generativa saltó a la fama desde dos frentes: uno de ellos popularizado a partir del ChatGPT, tuvo que ver con lograr modelizar el lenguaje para que estos sistemas comprendan el lenguaje natural y entreguen respuestas elaboradas a partir de los patrones que se forman en sus redes neuronales. Se entrenaron con grandes cantidades de texto. 

El otro frente fue el de realizar entrenamientos a partir de imágenes. En este caso el objetivo es a partir de una descripción en texto que da el usuario la IA nos da una imagen. Pero al usar estos sistemas pronto aparece un problema: se logran imágenes muy buenas pero los errores más imporantes están en las manos: es común verlas con 4 o 6 dedos u otras alteraciones. 

En ambos casos el principio es el mismo se trata de entrenar los sistemas con muchos datos que van alimentando el LLM (modelo de lenguaje grande, aunque una mejor traducción sería modelo de lenguaje extendido, ya que lo que hace el modelo es partir el lenguajes muchas subpartítculas).  Pero hay diferencias en sus arquitecturas. ChatGPT, Gemini, y los demás utiliza principalmente redes neuronales recurrentes (RNNs), que son buenas para procesar secuencias de datos como el lenguaje. En cambio los generadores de imágenes se basan en redes neuronales convolucionales (CNNs), que son buenas para procesar imágenes y reconocer patrones espaciales.

Y resulta que encontrar los patrones de las manos es desafiante. Las manos humanas contienen una ingeniería maravillosa. Poseen una estructura compleja con 27 huesos, 39 articulaciones y numerosos músculos, tendones y ligamentos que les permiten realizar una amplia gama de movimientos y acciones.
 

Alicia rodeada por manos - Ideogram
Alicia rodeada por manos - Ideogram

Sin embargo, esta complejidad representa un desafío importante para las IAs generativas de imágenes. A diferencia de otras partes del cuerpo como la cara o el torso, las manos presentan una topología más cambiante, es decir, su forma y estructura pueden variar significativamente dependiendo de la pose, el gesto o la acción que se esté realizando.

Además, las manos suelen ser más pequeñas y tener más detalles que otras partes del cuerpo, lo que dificulta que los modelos de IA aprendan a representarlas con precisión. Las imágenes con las que son entrenadas las IA no parecen otorgarlas la suficiente información como para que encuentren los patrones adecuados para su representación. 

Por estas razones, las IAs generativas de imágenes suelen tener más dificultades para generar imágenes de manos realistas que de otras partes del cuerpo. Las manos pueden aparecer con dedos deformados, proporciones incorrectas o poses extrañas. Cosas que son evidentes para nosotros no lo son para ellas. 

A pesar de estos desafíos, los investigadores están trabajando constantemente para mejorar la capacidad de las IAs para generar imágenes de manos realistas. Se están desarrollando nuevas técnicas e investigaciones para abordar los problemas mencionados, como el uso de conjuntos de datos más grandes y diversos, el desarrollo de algoritmos específicos para las manos y la incorporación de conocimientos anatómicos en los modelos de IA. El problema de la manos muestra la necesidad de una “orquestación de la IA” donde varios modelos de IA trabajan en conjunto.
 

Joven manos de tijeras / Ideogram
Joven manos de tijeras / Ideogram

En la actualidad, una de las IA que se destacan por su versatilidad en la generación de imágenes es Ideogram. También tiene errores pero muchas veces logra representar las manos de una forma aceptable. En general estas IA dan cuatro imágenes por cada pedido que realiza el usuario, con la idea de que al menos una se acerque a lo que necesita. Hay buena chances en este caso que al menos una de esas imágenes tenga imágenes aceptables. 

Otro tema que no deja de ser notable es que aunque el usuario repita su pedido, por ejemplo: “una imagen de un árbol de manzanas con mariposas”, el sistema generará imágenes diferentes. Ya no “sabe” cómo logró hacer la imagen anterior. Las redes neuronales no son como los sistemas convencionales. Son sistemas que entregan una respuesta y puede bien suceder que no la repitan. A no ser que los patrones estén lo suficientemente reforzados, como sucede con una pregunta como cuánto es dos mas dos.

Sin embargo la mayoría de las veces los patrones logran hacer algo general, como un árbol, mas que algo bien particular como para repertir determinado árbol. Es por eso que se requiere que el usuario agregue mucho contexto y detalles para que los resultados se parezcan. El caso de las imágenes por el tipo de redes neuronales con las que trabajan las diferencias se hacen más notbles. 

El avance de las IA es sin dudas sorprendente, y hasta sorprendió a sus propios creadores. Nadie estaba pensando seriamente en que la técnica de los Transformers revelada en el mítico paper por 8 investigadores de Google llevara la tecnología hasta estas tierras de una inteligencia artificial generativa. Se pretendía traducir texto no crear una especie de criatura digital inteligente. Pero el tiempo pasó, Google no pudo retener ni a uno de los investigadores que realizaron el descubrimiento basal de la IA que se fueron a fundar sus propias starups. Y, se solucionaron muchísimos problemas, sin embargo las manos, nuestras manos, tienen algo especial. Las manos mágicas te dirán la forma de aprender bonitos trucos que de magia son… y que la IA aún no puede aprender. 


 

10