Esta empresa recauda 25 millones de dólares para ayudar a resolver el desorden de datos de los modelos de IA
La startup Cleanlab, basada en un popular proyecto de código abierto para solucionar problemas de datos en modelos de IA, cuenta con Databricks como inversor en su ronda de serie A de 25 millones de dólares.

Cuando ChatGPT de OpenAI añade Cheerios de fresa y chocolate a una receta de tofu, o Alexa de Amazon declara que las elecciones de 2020 fueron robadas a Donald Trump, está ocurriendo lo mismo con dos tipos muy diferentes de chatbot: bajo el capó, hay un conjunto de datos defectuoso, plagado de puntos de datos duplicados, incorrectos o engañosos.

Para un usuario alerta que los detecte, estos errores, conocidos como “alucinaciones”, pueden parecer aleatorios. Pero detrás de ellos hay un principio informático que suena sencillo: "basura entra, basura sale". 

Introduzca todas las fotos de un plátano de Internet en un modelo de IA, y ésta no sabrá de forma innata si también incluyó una foto de Jorge el Curioso; filtrarlo suele ser tarea del software de etiquetado y de los contratistas humanos. Pero a una escala lo suficientemente grande, es casi inevitable que algo se pase por alto, y el modelo genere la imagen de una fruta con cola.

chatbot-insurance

Cleanlab, una startup de dos años cofundada por tres doctores del MIT, ofrece un software que afirma que puede arreglar automáticamente el desorden.

El CEO y cofundador de Cleanlab, Curtis Northcutt, explicó a Forbes que, si se lanza un conjunto de datos sin etiquetar a su producto, éste etiquetará automáticamente hasta el 90% de los mismos en una primera pasada; nombrados o no, Cleanlab también marca los puntos de datos y las etiquetas que considera que tienen más probabilidades de ser duplicados o errores, lo que ayuda a los usuarios a depurarlos de forma más rápida y barata para obtener un resultado final más preciso.

"La realidad es que todas las soluciones basadas en datos -y el mundo nunca ha estado tan basado en los datos- se van a ver afectadas por la calidad de los mismos", dijo Northcutt, que se topó con el problema en sus etapas en Amazon, Google, Meta y Microsoft. "Era ridículo que no hubiera una solución para esto, ninguna empresa que llenara el vacío".

Cleanlab

Una versión gratuita y de código abierto del software de Cleanlab está disponible desde 2017; equipos de la talla de Chase, Google y Tesla se cuentan entre sus usuarios hasta la fecha. 

Northcutt y sus cofundadores Jonas Mueller y Anish Athalye no anunciaron su versión de pago para empresas, Cleanlab Studio, hasta julio. 

Ahora, Cleanlab ha recaudado otros 25 millones de dólares en una ronda de financiación al rojo vivo que tuvo al menos a un VC acampado en cafeterías cercanas a la casa de Northcutt en San Francisco en un intento fallido de entrar en el trato. Menlo Ventures y TQ Ventures codirigieron la serie A, que valoró Cleanlab en 100 millones de dólares.

 

Uniéndose a la ronda -y asociándose con la incipiente Cleanlab- se encuentra Databricks, la empresa valorada en 43.000 millones de dólares y número 2 en la lista Cloud 100 de Forbes, que proporciona infraestructura de datos a grandes corporaciones como AT&T y Toyota. 

Una prueba de Databricks a principios de este año que utilizó Cleanlab para afinar un modelo Davinci de OpenAI puesto a disposición por API descubrió que el proceso reducía los errores en un 37% y aumentaba la precisión de las pruebas del 65% al 78% en general, sin ningún recurso adicional.

La empresa de consultoría Berkeley Research Group ahorró a un cliente jurídico unos 30 millones de dólares en costos al utilizar Cleanlab Studio, dijo Northcutt.


Cleanlab es una startup joven, pero sus fundamentos se remontan a 2013, cuando Northcutt -hijo de tres generaciones de carteros de la zona rural de Kentucky- se graduó en Vanderbilt y comenzó un programa de doctorado en informática en el MIT. Mientras estuvo allí, construyó un sistema de detección de trampas para validar certificados de cursos online utilizado por la universidad y Harvard. 

Trabajando bajo la dirección de su asesor Isaac Chuang, un destacado investigador de la ciencia cuántica, Northcutt ganó un prestigioso premio de tesis por su investigación sobre el "aprendizaje seguro", un método que bautizó para eliminar los errores de etiqueta en el aprendizaje automático.

Durante un trabajo de verano en el grupo de investigación sobre IA de Facebook de Yann LeCun en 2016, Northcutt se hartó de lo que consideraba errores humanos en los datos que comprometían los enormes conjuntos de datos de Facebook. Se puso en contacto con otros dos doctores del MIT -Mueller, que ayudó a crear las herramientas AutoML de Amazon, y Athalye, un investigador en informática cuyo trabajo ha sido destacado 30.000 veces en GitHub- para crear una herramienta de código abierto que detectara automáticamente los errores de etiquetado en esos datos, llamada cleanlab, que incorporó a su investigación.

Northcutt fundador de Cleanlab


Northcutt siguió probando el software Cleanlab durante sus estancias en Amazon y Google, donde trabajó en proyectos de aprendizaje automático para mejorar las capacidades de Alexa y Google Home para detectar y despertar a las órdenes de voz (los dispositivos, en parte debido a datos de entrenamiento imperfectos, no siempre detectaban sus indicaciones de despertar). 

Después de cofundar y trabajar brevemente en una startup de IA de ventas como su director de tecnología, Northcutt se reunió con Mueller y Athalye en 2021 para trabajar en Cleanlab a tiempo completo. Armados con una ronda semilla de 5 millones de dólares liderada por Bain Capital Ventures, se mantuvieron casi en silencio hasta julio de 2023, cuando anunciaron al mundo su producto para empresas, Cleanlab Studio.

Mientras que los equipos de grandes empresas como Chase y Tesla llevan años utilizando la versión de código abierto, los clientes de pago de Cleanlab son mucho más recientes. 

Inteligencia artificial, transformación digital, IA

Un gigante de la tecnología que Northcutt dijo que no podía revelar ya está pagando 600.000 dólares al año para mejorar sus datos, tanto para el análisis de sus productos principales como para los modelos de IA, afirmó el CEO. 

Asimismo, la empresa de consultoría Berkeley Research Group ahorró a un cliente jurídico unos 30 millones de dólares en costes al utilizar Cleanlab Studio para mejorar automáticamente los datos de los documentos jurídicos y los modelos entrenados con esos datos para el descubrimiento y marcado de documentos privilegiados, dijo Northcutt. 

El popular unicornio de la IA Hugging Face, que ayuda a los usuarios a alojar, entrenar y desplegar modelos, se ha apuntado tanto a la versión de pago como a la de código abierto, añadió. (Cleanlab aclaró posteriormente que aún no había cerrado un acuerdo empresarial con la empresa).

 

Cleanlab está lejos de ser la única startup que promete la salvación de datos para las empresas que buscan construir o hacer uso de herramientas de IA. 

Scale AI alcanzó una valoración de 7.300 millones de dólares al ofrecer a empresas como OpenAI servicios de etiquetado de datos que mezclan la automatización con mano de obra humana mal pagada en el mundo en desarrollo. Snorkel AI tuvo una valoración de 1.000 millones de dólares en 2021 por sus propias herramientas de etiquetado automatizado. Y Dataiku, que ofrece su versión de software de preparación de datos, recaudó 200 millones de dólares a una valoración reducida de 3.700 millones de dólares el pasado diciembre.

Los inversores Matt Murphy y Schuster Tanger, que codirigieron la ronda de Cleanlab y se unieron a su consejo de administración, argumentaron que Cleanlab es “mucho más que una empresa de etiquetado”. Cleanlab puede hacer mucho de lo que hace una etiquetadora, argumentaron, pero no al revés. 

Cleanlab

Pruebas como las de Databricks demuestran que Cleanlab puede hacer que los modelos sean más valiosos después de su lanzamiento, no sólo durante su formación. “La gente tendrá más confianza en estos modelos porque [Cleanlab] también puede medir un resultado”, añadió Murphy.

Por supuesto, Northcutt y el equipo de Cleanlab tendrán que convencer a las empresas de que no pueden beneficiarse de esas mejoras simplemente utilizando la versión gratuita de su software en su lugar, incluso mientras se enfrentan a un campo bien financiado de competidores de infraestructuras que probablemente buscarán adentrarse más en su terreno. (Otra razón para contar con Databricks como aliado).

Northcutt está jugando a más largo plazo. Ya está trabajando en las formas en que Cleanlab puede hacer que los modelos diminutos y de código abierto se enfrenten a los más grandes mantenidos por los gigantes de la IA. 

El creador de Cleanlab ya está pensando en qué modelos podrían venir después de que la ola de la LLM haya llegado a su cresta.

"La mayor barrera a la innovación en este momento para los autos autodirigidos, la adopción empresarial de la IA generativa y el análisis en tiempo real es la falta de datos curados y precisos", dijo Northcutt. "No importa qué modelo salga en el futuro, dependerá de los datos, y Cleanlab estará ahí".

 

Nota publicada en Forbes US.