Autos autónomos y robots humanoides que pueden caminar, hablar y trabajar junto a nosotros son solo dos de las increíbles formas en que la inteligencia artificial (IA) promete transformar el mundo en el futuro cercano. Pero, para operar de manera segura y eficaz, estas herramientas y aplicaciones físicas basadas en esta tecnología tienen que entender el mundo que las rodea.
En el Consumer Electronics Show de este año en Las Vegas, Nvidia anunció el lanzamiento de su plataforma Cosmos, diseñada para acelerar el desarrollo de sistemas de IA física. Descripta como un "ChatGPT para la robótica", esta aplicación tiene la capacidad de generar enormes cantidades de datos sintéticos, que aunque están creados artificialmente, son lo suficientemente parecidos al mundo real como para que robots, autos autónomos y otros algoritmos aprendan de ellos.
Sin embargo, hay quienes creen que ningún volumen de datos sintéticos podrá simular completamente cada escenario del mundo real que las máquinas tendrán que afrontar. Por ejemplo, Tesla lleva años recopilando datos del mundo real con sus autos llenos de sensores. El CEO Elon Musk tuiteó: "Existen dos fuentes de datos que escalan infinitamente: datos sintéticos, que tienen un problema de '¿es cierto?', y video del mundo real, que no lo tiene".
El argumento es que los datos sintéticos carecen de la compresión de la imprevisibilidad y la complejidad del mundo real y que esto es esencial para construir sistemas de IA integrales y seguros. Analicemos esto con un poco más de detalle.
Datos sintéticos vs. datos del mundo real
En los sistemas de conducción autónoma, los datos visuales (imágenes) se usan para entrenar algoritmos que determinan cómo reaccionarán los vehículos ante distintas condiciones y situaciones en la carretera. Estos datos pueden capturarse con cámaras instaladas en vehículos (datos del mundo real) o generarse mediante algoritmos según reglas aprendidas al estudiar datos del mundo real (datos sintéticos).
Ambos métodos tienen ventajas y desventajas.
Los datos sintéticos se recopilan mucho más rápido y a menor costo que los datos del mundo real. No hace falta salir al campo a recolectarlos; simplemente los generan las máquinas. Esto también trae beneficios en términos de seguridad. Probar autos autónomos en rutas, por ejemplo, implica riesgos que se pueden evitar si los viajes se simulan.
Además, se personalizan situaciones, entornos y muchas otras variables, sin la necesidad de tener que esperar a que se desarrollen las condiciones ideales para los recopilar datos ocurran en el mundo real. Por ejemplo, podés simular eventos climáticos poco frecuentes, probar vehículos autónomos en escenarios peligrosos o modelar defectos complejos en manufactura sin riesgos ni demoras.
Generar datos sintéticos también reduce o elimina preocupaciones relacionadas con la privacidad y la protección de datos, que podrían surgir al recopilar datos del mundo real. Por ejemplo, las patentes capturadas por autos autónomos podrían vincularse con sus dueños y usarse para identificarlos o rastrearlos.
La ventaja de los datos del mundo real
Por otro lado, los datos del mundo real, como señala Musk, tienen la ventaja indiscutible de ser más auténticos. Los comportamientos humanos caóticos y difíciles de predecir, que son complicados de generar sintéticamente, aparecen más en este tipo de datos.
La regulación también resulta un tema importante. Las leyes sobre IA cambian rápidamente, y es posible que en el futuro te pidan que ciertos modelos o aplicaciones se entrenen con datos del mundo real en determinados lugares o circunstancias para garantizar la seguridad.
Evaluando las opciones
La realidad es que tanto los datos del mundo real como los sintéticos resultan esenciales para entrenar a la próxima generación de vehículos y robots impulsados por IA. Ambos presentan ventajas y desafíos, y probablemente lo mejor sea adoptar un enfoque híbrido.
El desafío está en identificar qué tipo de datos es más adecuado para cada caso. Por ejemplo, los datos sintéticos pueden resultar más útiles en tareas o aplicaciones que procesen información sensible o que operen en condiciones peligrosas. En cambio, los datos del mundo real resultan más valiosos para capturar comportamientos humanos dinámicos o para manejar eventos caóticos e imprevistos.
Por eso, los proyectos de IA que adopten un enfoque equilibrado, liderados por gente que entienda cómo los datos sintéticos y del mundo real se complementan en lugar de competir, tienen más chances de generar valor real para los negocios.
*Con información de Forbes US.