Forbes Uruguay
OpenAI ChatGPT 4.o
Innovacion

El nuevo ChatGPT 4.o entiende imágenes, videos y audio para que la experiencia de usuario sea total

Pablo Wahnon

Share

OpenAI anunció la nueva versión ChatGPT 4.o que fue entrenada en forma nativa con fuentes multimodales y tiene el doble de rendimiento que su versión anterior.

13 Mayo de 2024 15.43

El esperado anuncio de OpenAI es una respuesta a Gemini, el modelo de Google que fue el primero en mostrar avances en la multimodalidad. De esta forma se podrá interactuar con ChatGPT hablándole como si fuera una persona. Entre las novedades ChatGPT entiende los sentimientos del usuario a partir de comprender los patrones en la tonalidad de su voz.

Por ejemplo, un padre puede estar con su hijo y pedirle con su voz un cuento para dormir e inclusive la forma en que se lo relate. O sea con un tono más dramático o tranquilo entre otras variantes. Al poder entender la voz natural también puede actuar como un traductor de forma tal que si dos personas hablan en lenguajes diferentes solo tienen que poner el smartphone entre ellos que ira traduciendo toda la conversación.

ChatGPT 4.o tambien entiende imágenes, y si ve al usuario a traves de la cámara podrá interactuar con él sabiendo incluso su estado de humor para dialogar de una forma más fluida. Esta capacidad también le permite entender dibujos, objetos y hasta ecuaciones matemáticas. 
 

Tras el anuncio el CEO de OpenAI escribió en su blog: "Hay dos cosas de nuestro anuncio de hoy que quería resaltar. En primer lugar, una parte clave de nuestra misión es poner en manos de las personas herramientas de IA muy capaces de forma gratuita (o a un precio excelente). Estoy muy orgulloso de haber hecho que el mejor modelo del mundo esté disponible de forma gratuita en ChatGPT, sin anuncios ni nada por el estilo. 

Nuestra concepción inicial cuando iniciamos OpenAI era que crearíamos IA y la usaríamos para crear todo tipo de beneficios para el mundo. En cambio, ahora parece que crearemos IA y luego otras personas la usarán para crear todo tipo de cosas increíbles de las que todos nos beneficiaremos. 

En segundo lugar, el nuevo modo de voz (y video) es la mejor interfaz de computadora que he usado. Parece la IA de las películas; y todavía me sorprende un poco que sea real. Llegar a tiempos de respuesta y expresividad a nivel humano resulta ser un gran cambio.

El ChatGPT original mostró una pista de lo que era posible con las interfaces de idiomas; Esta cosa nueva se siente visceralmente diferente. Es rápido, inteligente, divertido, natural y útil.

Hablar con una computadora nunca me ha resultado realmente natural; ahora lo hace. A medida que agregamos personalización (opcional), acceso a su información, la capacidad de tomar acciones en su nombre y más, realmente puedo ver un futuro emocionante en el que podremos usar las computadoras para hacer mucho más que nunca".

 

10