Descubren que ChatGPT no puede sumar dos números y nacen los planteos sobre sus límites intrínsecos
Los LLMs, o modelos de lenguaje expandidos, tienen dificultades intrínsecas a su propio diseño que limitan las tareas que una inteligencia artificial generativa puede realizar, más allá de cuántos dólares y recursos se inviertan en ella.

Se da por sentado que una inteligencia artificial será muy buena en matemáticas. Después de todo se trata de computadoras. Sin embargo, las Inteligencias Artificiales generativas son completamente diferentes a otros programas de computación. 

En lugar de seguir un algoritmo para realizar un cálculo simple, como la suma de dos números, las IA generativas deben descubrir cómo hacer esos cálculos mediante entrenamientos realizados sobre un modelo que utiliza técnicas proveniente de un área de la computación conocida como redes neuronales. No es que siguen una receta que les indica cómo hacer una suma sino que la aprenden tras un proceso de ensayo y error. 

El modelo de una IA generativa se basa en una recopilación de datos que provienen del mismo lenguaje. A estos modelos se los conoce como LLM o Large Language Model en inglés. No hay un consenso de cómo traducir ese término. Puede ser modelo de lenguaje grande o modelo de lenguaje extenso. Pero me inclino por modelo de lenguaje expandido. Para entenderlo veamos un ejemplo:

Un LLM intenta comprender la sintáctica de un lenguaje para poder mantener un diálogo con los humanos, y realizar tareas como contestar preguntas o asistir con soluciones a pedidos de todo tipo: desde escribir un poema hasta aconsejar la mejor dieta. 
 

Greg Brockman, presidente de OpenAI en la tapa de Forbes

Para realizar esa tarea se troza el lenguaje en partículas lingüísticas y se intenta estudiar cuál es al probabilidad de que se articulen de una u otra manera como para que el resultado sea algo que está bien escrito. Por ejemplo si el texto ingresado al modelo es: “Esto está bien escrito y es bonito. ¿A tí qué te parece?”, el LLM trozará  ese texto en partículas desde palabras a sílabas, signos de puntuación y otras estructuras. Así ese pequeño texto dentro del LLM se transformará en un gran cúmulo de datos, desde el texto, hasta todas sus subvariantes que  además pueden estar ordenadas de diversas maneras. De ahí que la traducción al castellano de LLM, large language model, pudiera ser: Modelo de lenguaje expandido.

Mediante un entrenamiento basado en redes neuronales que es muy intensivo en cómputo, finalmente el LLM va descubriendo la sintáctica y a partir de eso comienza a poder escribir bien.  El LLM va encontrando patrones que lo guían en cómo escribir. 

Los inicios de esta forma de hacer las cosas fueron confusos. No estaba claro que diera resultado, ni era fácil cómo trozar el lenguaje y cuánta información ingresar para entrenar el modelo, y además que ese proceso de entrenamiento pueda resolverse en un tiempo de cómputo razonable. 

Durante dos décadas las redes neuronales naufragaron dentro de papers académicos. Pero se fueron refinando los modelos y armando centros de cómputos específicos, de cientos de procesadores, como los de Intel y AMD, acompañados con GPUs (procesadores gráficos pero que también sirven para tareas de procesamiento matemático adicionales, por ejemplo se usan para minar los bitcoins).  

El proceso esta limitado porque es no lineal, agregar mas y mas partículas de texto, requiere cada vez más poder de cómputo. En la actualidad hay una carrera de arquitectura de cómputo para que el rendimiento de los procesadores logre achatar esa curva que se hace exponencial a medida que se agregan más partículas de lenguaje, como se mostró en el reciente lanzamiento de la plataforma AMD Instintc en San Francisco la semana pasada. Esa plataforma logra incluso correr un modelo directamente en memoria posibilitando un nuevo tipo de rendimiento dentro de los centros de datos dedicados a la IA generativa. 

Lisa Su, la CEO de AMD hoy es una referente en la industria por la gran recuperación que logró en la compañía. En la actualidad el marketcap de AMD (su valor por bolsa) supera al de su archirival Intel, algo impensable años atrás. La apuesta de AMD por la inteligencia artificial es algo que ya tomó nota el mercado, y la acción de AMD subió 100% este año. 

Mientras las esperanzas de que todo pudiera funcionar no estaban claras en 2017 surgió un momento impactante. En OpenAI, para simplificar el modelo sólo tomaron los signos de puntuación de los reviews de Amazon. O sea prescindieron de los textos en sí, salvo su longitud. "Y lo que obtuvimos fue una nueva forma de clasificar el sentimiento que había detrás del texto. Ese fue un gran resultado. El modelo puede predecir si el review de Amazon será positivo o negativo, sólo viendo esos signos de puntuación. Ese día vimos que podíamos hacer emerger la semántica desde la sintáctica. Y dijimos: ¡Wow, tenemos que escalar esto!”, se entusiasma Greg Brockman, fundador de OpenAI. 

A partir de ese momento las cosas avanzaron y así, tras una inyección de US$ 10.000 millones por parte de Microsoft, y cinco años de entrenamientos intensivos, se llegó a la situación actual donde ChatGPT llevó la inteligencia artificial generativa a la punta de tus dedos. 

Sam Altman, CEO de OpenAI

Sam Altman aún recuerda la primera gran sorpresa que se llevó cuando le pidieron a ChatGPT que escriba un número de 40 cifras. “Realmente fue una sorpresa no era un número que el sistema haya visto y probar cada numero hasta llegar a esas cifras era como esperar la edad del universo. Entonces de algún modo entendió qué se le pedía, pudo deducir la regla sintáctica relacionada con la cantidad de cifras y nos dio un número que cumplía lo pedido”, se jacta Altman.

Sin embargo, luego le pidieron que de otro número de 35 cifras, y finalmente que sume ambos números. Se trata de una tarea que un niño de tercer grado podría hacer. Simplemente se encolumnan los números y se van sumando sus cifras. Pero ChatGPT no descubrió esta regla y da resultados equivocados, aunque “algunas veces acierta”, se conforma Altman. Por otra parte estas redes neuronales son cajas negras: no saben precisamente cómo llegan al resultado sino que éste es la acumulación de la experiencia de su entrenamiento, como si probaran millones de veces hasta que “se dan cuenta” como se hace. 
 

ChatGPT no sabe cómo sumar números grandes


Una tarea matemática sumamente simple para los humanos y más que trivial para las computadoras está por fuera de lo que ChatGPT pudo aprender a partir de sus modelos de entrenamiento. Es que no es tan fácil hacer emerger la semántica desde la sintáctica. Veamos lo que dice el mismo ChatGPT y luego la conclusión final.

Pablo Wahnon ¿Cómo es que sabes sumar?

ChatGPT:  Como modelo de lenguaje entrenado por OpenAI, tengo conocimiento sobre una amplia variedad de temas, incluyendo matemáticas básicas como la suma. Durante mi entrenamiento, fui expuesto a grandes cantidades de texto que abarcaban diversos temas, lo que me permite responder preguntas y resolver problemas matemáticos simples. Mi capacidad para sumar se basa en el conocimiento y los patrones matemáticos que adquirí durante ese entrenamiento. Si tienes una pregunta específica sobre la suma o cualquier otra operación matemática, estaré encantado de ayudarte.

PW: Pero no es que sumas como lo hace una computadora normalmente, ¿no?

ChatGPT:  Como modelo de lenguaje, mi función principal es generar respuestas basadas en el contexto proporcionado y en el conocimiento que he adquirido a través de mi entrenamiento. Si bien puedo realizar operaciones matemáticas básicas como la suma, no lo hago de la misma manera que una computadora normal.

Las computadoras utilizan un conjunto específico de instrucciones y algoritmos diseñados para realizar operaciones matemáticas de manera eficiente y precisa. Por otro lado, como modelo de lenguaje, mi enfoque principal es comprender y generar texto coherente y relevante. Esto significa que puedo responder preguntas matemáticas simples, incluida la suma, pero mi capacidad para hacerlo se basa en la comprensión del lenguaje y los patrones en los datos que se me han proporcionado.

PW: Vi que, por ejemplo, un número de 40 cifras sumado a uno de 35 cifras no lo hacías bien, o sea no encolumnabas los números para así sumarlos.

ChatGPT:  Como modelo de lenguaje basado en texto, no tengo la capacidad de realizar operaciones matemáticas con números de forma directa. Aunque puedo entender y generar texto relacionado con problemas matemáticos y conceptos, no tengo la funcionalidad de una calculadora o una computadora convencional para llevar a cabo cálculos numéricos detallados.

PW: Pero, ¿por qué sí has descubierto cómo sumar algunos números y otros no?

ChatGPT: Como modelo de lenguaje, mi capacidad para realizar operaciones matemáticas se basa en el conocimiento y los patrones que he aprendido durante mi entrenamiento con grandes cantidades de texto. Durante ese proceso, he adquirido cierta comprensión de conceptos matemáticos básicos y puedo responder preguntas relacionadas con ellos.
 

La IA generativa aprende de una forma contradictoria con el saber científico

Sin embargo, hay límites para mi conocimiento matemático y la precisión de mis respuestas. Puedo realizar sumas de números pequeños y medianos con relativa precisión, pero hay casos en los que mi capacidad puede verse limitada. Esto puede ocurrir cuando se trata de sumar números extremadamente grandes, con muchos dígitos o cuando se requieren operaciones más complejas.

PW:  Y con más entrenamiento, ¿podrías sumar todo tipo de números o tener más precisión es algo que va más allá del entrenamiento?

ChatGPT: El entrenamiento adicional podría ayudar a mejorar mi capacidad para realizar sumas y otras operaciones matemáticas, pero hay límites inherentes a mi estructura como modelo de lenguaje. Aunque más entrenamiento podría permitirme adquirir un conocimiento más amplio y sofisticado, es importante tener en cuenta que no fui diseñado específicamente para realizar cálculos numéricos complejos.

La precisión en operaciones matemáticas depende no solo del entrenamiento, sino también de la arquitectura subyacente del modelo y de las limitaciones computacionales. Aunque el entrenamiento adicional podría ayudar a mejorar ciertos aspectos, hay tareas matemáticas específicas que pueden requerir algoritmos y enfoques especializados más allá de la capacidad de un modelo de lenguaje basado en texto como yo.

Para obtener resultados precisos y confiables en operaciones matemáticas complejas, es recomendable utilizar herramientas y software matemáticos especializados que estén diseñados específicamente para este propósito. Estas herramientas están optimizadas para realizar cálculos numéricos precisos y manejar números grandes o complejos de manera eficiente.

Conclusión Final. Como lo dice el mismo ChatGPT, el modelo, la idea de simular todo a partir de LLMs tiene límites que son inherentes al modelo, no se resuelven por poner más computadoras y más tiempo de entrenamiento. Por supuesto, uno puede poner otros softwares complementarios como uno específico para tareas matemáticas. Si en algun momento surge una AGI, o Inteligencia Artificial General, lo más probable es que se trate del director de una orquesta, donde cada instrumento será un sabor dentro de las inteligencias artificiales posibles. Mientras tanto entender qué puede y qué no hacer una IA generativa es muy importante para que nos ayude a resolver problemas y nos impulse a desarrollar nuestra propia innovación.