Por qu� y de qu� manera los agentes de IA pueden hacer que Siri y Alexa se vuelvan verdaderamente �tiles

Los avances en inteligencia artificial prometen revolucionar la interacci�n con la tecnolog�a y llevar las herramientas de voz a un nivel de utilidad nunca visto.

Richard Nieva

En 2016, cuando el reci�n nombrado CEO de Google, Sundar Pichai, present� el Google Assistant como parte de su nueva estrategia de "prioridad en la inteligencia artificial", destac� al asistente de voz como una herramienta para ayudar a las personas a completar tareas.

"El Google Assistant te permite realizar tareas, brind�ndote la informaci�n que necesit�s, cuando la necesit�s, donde sea que est�s", escribi� en un blog en ese momento.

Era un objetivo ambicioso que, en gran medida, no se cumpli�. Con demasiada frecuencia, el software no logra resolver un pedido, recurriendo a una b�squeda en la web y disculp�ndose por no poder ayudar. Esto llev� a que las personas limitaran el uso de los asistentes de voz a tareas simples, como configurar temporizadores para cocinar, reproducir m�sica o controlar las luces. Alexa, de Amazon, lanzada hace una d�cada, no tuvo mejor suerte. Siri, el primero del grupo, presentado por Apple en 2011, fue el m�s criticado de todos.

Pero en los �ltimos dos a�os, con la popularizaci�n de la inteligencia artificial generativa, surgi� un nuevo concepto: los "agentes" de inteligencia artificial. Este software est� programado espec�ficamente para realizar acciones o completar tareas en nombre del usuario, como reservar una mesa o hacer compras online. Y con la llegada de lo que Sundar Pichai llama la "era de los agentes" en 2025, la tecnolog�a puede lograr algo que hasta ahora eludi� a las grandes plataformas tecnol�gicas: hacer que sus asistentes de voz sean realmente �tiles.

�

Esto significa que Google Assistant, Alexa y Siri podr�an por fin cumplir la promesa de actuar como asistentes personales. En lugar de leer tu agenda diaria, como hace ahora Google Assistant, gestionar�a tus reuniones, contactar�a a las personas y encontrar�a un horario que funcione para todos. Tambi�n reservar�a tus vuelos y hoteles para unas vacaciones con poca m�s informaci�n que las fechas y el destino, funcionando como un agente de viajes digital.

Los agentes son la �ltima obsesi�n de la industria tecnol�gica. Seg�n un informe de Forrester, hay m�s de 470 plataformas dedicadas a esta tecnolog�a, desde gigantes tecnol�gicos hasta startups como LangChain, CrewAI y Play.ai. M�s all� de las funciones para consumidores, tambi�n pueden transformar los negocios, con agentes especializados en atenci�n al cliente o desarrollo de software. Seg�n PitchBook, el n�mero de acuerdos relacionados con startups de agentes de inteligencia artificial creci� m�s del 81 % en el �ltimo a�o, con m�s de 8 mil millones de d�lares invertidos en el sector.

"La carrera ya comenz�", dijo Steve Jang, inversor de la lista Midas de Forbes y fundador de la firma Kindred Ventures. "Las startups compiten con las plataformas establecidas para ver qui�n orquesta esto con mayor precisi�n, crea voces y conversaciones m�s humanas y realistas, y accede a los datos y acciones que todos queremos", agreg�.

Los grandes asistentes de voz tecnol�gicos est�n en la mejor posici�n para dar este salto en inteligencia artificial. Google cuenta con su modelo estrella, Gemini, para fortalecer sus b�squedas por voz. A principios de este a�o, Apple anunci� una alianza con OpenAI para utilizar ChatGPT en algunas consultas de Siri. Y en el �ltimo a�o, Amazon invirti� 8 mil millones de d�lares en Anthropic, creador del potente chatbot Claude. Google no quiso poner a disposici�n a ninguno de sus ejecutivos para entrevistas. Apple y Amazon no respondieron a las solicitudes de entrevista.

"Solo uso Siri para cosas triviales que s� que no va a arruinar", Kanjun Qiu, cofundadora de Imbue.

Jang cree que las verdaderas innovaciones surgir�n en los modelos de inteligencia artificial de voz. A diferencia de los modelos de lenguaje grande, que sustentan servicios como ChatGPT, los modelos de voz no se entrenan con texto para luego ser le�dos por el software.�

En su lugar, estos modelos se entrenan con audio real, lo que les permite captar sutilezas en el habla, como la cadencia o las se�ales emocionales. Jang invirti� en Play.ai, una empresa especializada en agentes de voz que compite con otras como ElevenLabs, OpenAI y Google, todas trabajando en el desarrollo de modelos de voz.

Las innovaciones basadas en la voz tambi�n hacen que la tecnolog�a sea m�s accesible.

Sin embargo, no todos est�n convencidos de que estos agentes mejoren exponencialmente a los grandes asistentes de voz. Kanjun Qiu, fundadora de Imbue, una empresa que desarrolla agentes para codificar software, opina que agregar m�s inteligencia artificial a estos productos solo los mejorar� de manera "incremental".

�Seg�n ella, las nuevas funciones de IA no generar�n un salto lo suficientemente grande como para que las personas conf�en plenamente en ellos. "La delegaci�n como paradigma es algo realmente dif�cil para las personas", dijo Qiu. "Solo uso Siri para cosas triviales que s� que no va a arruinar", concluy�.

A pesar de esto, Qiu cree que los recientes avances en inteligencia artificial de voz ayudar�n a los consumidores de otras maneras. Por ejemplo, predice que m�s aplicaciones integrar�n funciones de voz. Con mejoras en la latencia y en la comprensi�n del lenguaje natural, vas a poder dar instrucciones a una app y esta realizar� la acci�n, explic�. Como ejemplo, mencion� decirle a una app de comercio electr�nico que quer�s devolver un par de zapatos que no te quedaron bien. Ingeniera de formaci�n, coment� que desarroll� para s� misma una app que convierte ideas dispersas en una lista de tareas.

Los avances en inteligencia artificial y tecnolog�a de voz podr�an abrir nuevas posibilidades para el hardware, un objetivo que Silicon Valley intenta alcanzar desde hace a�os. Hace m�s de una d�cada, Google sufri� un conocido tropiezo con el lanzamiento de Google Glass, unos anteojos inteligentes que generaron temores sobre la privacidad y resultaron poco �tiles. Este mes, la empresa present� un prototipo de anteojos para usar con Project Astra, su nueva plataforma para agentes de inteligencia artificial. En una demostraci�n, los anteojos, controladas por voz, recuperaron autom�ticamente un c�digo de puerta del correo electr�nico del usuario en el momento en que este mir� el teclado de entrada. La tecnolog�a tambi�n podr�a mostrar informaci�n de rutas de un autob�s o datos sobre una escultura que el usuario pase de largo.

Por su parte, los anteojos �Orion de Facebook, anunciadas este a�o, combinan control por voz y gestos de mano para manejar herramientas de inteligencia artificial. Por ejemplo, pueden identificar ingredientes en tu despensa y encontrar una receta que los utilice.

Las innovaciones basadas en la voz tambi�n hacen que la tecnolog�a sea m�s accesible. No todas las personas pueden leer, escribir o tipear, pero muchas tienen la capacidad de hablar, explic� Jang. Adem�s, es una preferencia creciente entre los j�venes: un estudio de YouGov y Vox muestra que el 42 % de las personas de entre 18 y 29 a�os en los Estados Unidos env�an mensajes de voz en sus aplicaciones de chat al menos una vez por semana.

Los nuevos avances en inteligencia artificial podr�an hacer que las herramientas de voz se usen a�n m�s y transformar la forma en que las personas interact�an con su tecnolog�a. "Esto convierte a los agentes de voz —y a la voz misma— en una gran interfaz de usuario, una oportunidad que hasta ahora estuvo desaprovechada en la computaci�n", remarc� Jang.

�

Nota publicada por Forbes US

�

Te puede interesar