En 2016, cuando el recién nombrado CEO de Google, Sundar Pichai, presentó el Google Assistant como parte de su nueva estrategia de "prioridad en la inteligencia artificial", destacó al asistente de voz como una herramienta para ayudar a las personas a completar tareas.
"El Google Assistant te permite realizar tareas, brindándote la información que necesitás, cuando la necesitás, donde sea que estés", escribió en un blog en ese momento.
Era un objetivo ambicioso que, en gran medida, no se cumplió. Con demasiada frecuencia, el software no logra resolver un pedido, recurriendo a una búsqueda en la web y disculpándose por no poder ayudar. Esto llevó a que las personas limitaran el uso de los asistentes de voz a tareas simples, como configurar temporizadores para cocinar, reproducir música o controlar las luces. Alexa, de Amazon, lanzada hace una década, no tuvo mejor suerte. Siri, el primero del grupo, presentado por Apple en 2011, fue el más criticado de todos.
Pero en los últimos dos años, con la popularización de la inteligencia artificial generativa, surgió un nuevo concepto: los "agentes" de inteligencia artificial. Este software está programado específicamente para realizar acciones o completar tareas en nombre del usuario, como reservar una mesa o hacer compras online. Y con la llegada de lo que Sundar Pichai llama la "era de los agentes" en 2025, la tecnología puede lograr algo que hasta ahora eludió a las grandes plataformas tecnológicas: hacer que sus asistentes de voz sean realmente útiles.
Esto significa que Google Assistant, Alexa y Siri podrían por fin cumplir la promesa de actuar como asistentes personales. En lugar de leer tu agenda diaria, como hace ahora Google Assistant, gestionaría tus reuniones, contactaría a las personas y encontraría un horario que funcione para todos. También reservaría tus vuelos y hoteles para unas vacaciones con poca más información que las fechas y el destino, funcionando como un agente de viajes digital.
Los agentes son la última obsesión de la industria tecnológica. Según un informe de Forrester, hay más de 470 plataformas dedicadas a esta tecnología, desde gigantes tecnológicos hasta startups como LangChain, CrewAI y Play.ai. Más allá de las funciones para consumidores, también pueden transformar los negocios, con agentes especializados en atención al cliente o desarrollo de software. Según PitchBook, el número de acuerdos relacionados con startups de agentes de inteligencia artificial creció más del 81 % en el último año, con más de 8 mil millones de dólares invertidos en el sector.
"La carrera ya comenzó", dijo Steve Jang, inversor de la lista Midas de Forbes y fundador de la firma Kindred Ventures. "Las startups compiten con las plataformas establecidas para ver quién orquesta esto con mayor precisión, crea voces y conversaciones más humanas y realistas, y accede a los datos y acciones que todos queremos", agregó.
Los grandes asistentes de voz tecnológicos están en la mejor posición para dar este salto en inteligencia artificial. Google cuenta con su modelo estrella, Gemini, para fortalecer sus búsquedas por voz. A principios de este año, Apple anunció una alianza con OpenAI para utilizar ChatGPT en algunas consultas de Siri. Y en el último año, Amazon invirtió 8 mil millones de dólares en Anthropic, creador del potente chatbot Claude. Google no quiso poner a disposición a ninguno de sus ejecutivos para entrevistas. Apple y Amazon no respondieron a las solicitudes de entrevista.
"Solo uso Siri para cosas triviales que sé que no va a arruinar", Kanjun Qiu, cofundadora de Imbue.
Jang cree que las verdaderas innovaciones surgirán en los modelos de inteligencia artificial de voz. A diferencia de los modelos de lenguaje grande, que sustentan servicios como ChatGPT, los modelos de voz no se entrenan con texto para luego ser leídos por el software.
En su lugar, estos modelos se entrenan con audio real, lo que les permite captar sutilezas en el habla, como la cadencia o las señales emocionales. Jang invirtió en Play.ai, una empresa especializada en agentes de voz que compite con otras como ElevenLabs, OpenAI y Google, todas trabajando en el desarrollo de modelos de voz.
Sin embargo, no todos están convencidos de que estos agentes mejoren exponencialmente a los grandes asistentes de voz. Kanjun Qiu, fundadora de Imbue, una empresa que desarrolla agentes para codificar software, opina que agregar más inteligencia artificial a estos productos solo los mejorará de manera "incremental".
Según ella, las nuevas funciones de IA no generarán un salto lo suficientemente grande como para que las personas confíen plenamente en ellos. "La delegación como paradigma es algo realmente difícil para las personas", dijo Qiu. "Solo uso Siri para cosas triviales que sé que no va a arruinar", concluyó.
A pesar de esto, Qiu cree que los recientes avances en inteligencia artificial de voz ayudarán a los consumidores de otras maneras. Por ejemplo, predice que más aplicaciones integrarán funciones de voz. Con mejoras en la latencia y en la comprensión del lenguaje natural, vas a poder dar instrucciones a una app y esta realizará la acción, explicó. Como ejemplo, mencionó decirle a una app de comercio electrónico que querés devolver un par de zapatos que no te quedaron bien. Ingeniera de formación, comentó que desarrolló para sí misma una app que convierte ideas dispersas en una lista de tareas.
Los avances en inteligencia artificial y tecnología de voz podrían abrir nuevas posibilidades para el hardware, un objetivo que Silicon Valley intenta alcanzar desde hace años. Hace más de una década, Google sufrió un conocido tropiezo con el lanzamiento de Google Glass, unos anteojos inteligentes que generaron temores sobre la privacidad y resultaron poco útiles. Este mes, la empresa presentó un prototipo de anteojos para usar con Project Astra, su nueva plataforma para agentes de inteligencia artificial. En una demostración, los anteojos, controladas por voz, recuperaron automáticamente un código de puerta del correo electrónico del usuario en el momento en que este miró el teclado de entrada. La tecnología también podría mostrar información de rutas de un autobús o datos sobre una escultura que el usuario pase de largo.
Por su parte, los anteojos Orion de Facebook, anunciadas este año, combinan control por voz y gestos de mano para manejar herramientas de inteligencia artificial. Por ejemplo, pueden identificar ingredientes en tu despensa y encontrar una receta que los utilice.
Las innovaciones basadas en la voz también hacen que la tecnología sea más accesible. No todas las personas pueden leer, escribir o tipear, pero muchas tienen la capacidad de hablar, explicó Jang. Además, es una preferencia creciente entre los jóvenes: un estudio de YouGov y Vox muestra que el 42 % de las personas de entre 18 y 29 años en los Estados Unidos envían mensajes de voz en sus aplicaciones de chat al menos una vez por semana.
Los nuevos avances en inteligencia artificial podrían hacer que las herramientas de voz se usen aún más y transformar la forma en que las personas interactúan con su tecnología. "Esto convierte a los agentes de voz —y a la voz misma— en una gran interfaz de usuario, una oportunidad que hasta ahora estuvo desaprovechada en la computación", remarcó Jang.
Nota publicada por Forbes US