La demanda feroz del New York Times contra OpenAI que determinar� el rumbo de la IA

El medio busca un camino legal para apuntar a OpenAI por escanear y utilizar piezas publicadas en el NYT para crear y entrenar las aplicaciones de IA generativa de la empresa, incluida ChatGPT.

Eliot Lance

Una feroz batalla legal que afecta el futuro de la IA generativa dio un giro fascinante la semana pasada en una demanda por infracci�n de derechos de autor que hab�a interpuesto un importante editor contra OpenAI, creador de ChatGPT. El caso implica al New York Times (NYT), que busca un camino legal para apuntar a OpenAI por escanear y utilizar piezas publicadas en el NYT para crear y entrenar las aplicaciones de IA generativa de la empresa, incluida ChatGPT.

Este caso tiene profundas implicaciones.

Para ser claros, los posibles resultados legales de este caso ser�n enormes y se aplicar�n en �ltima instancia a casi todos los creadores de IA y a todas las aplicaciones de IA generativa. Cada movimiento durante el proceso presagia repercusiones significativas. Est� en juego el futuro de la IA generativa. Puede parecer una exageraci�n, pero por varias razones que detallar� a continuaci�n, las consecuencias potenciales de lo que podr�a ocurrir.

En breve llegar� al �ltimo giro que sacudir� los cimientos de este caso, as� que aguant�, es realmente impactante.

En primer lugar, algunas observaciones r�pidas sobre el escenario.

Si te interesa el aspecto legal de la IA, te recomiendo mi exhaustiva cobertura, que encontrar�s en este enlace. En el fascinante tema de los derechos de propiedad intelectual y la IA, como los derechos de autor y las patentes, mis an�lisis te proporcionar�n informaci�n valiosa. Tambi�n trat� la propuesta controvertida de los derechos de la personalidad jur�dica para la IA, pod�s verlo en este enlace. Adem�s, hay muchos otros art�culos que forman parte de mi an�lisis continuo sobre las �ltimas novedades en Derecho y �tica de la IA, disponibles ac�.

Desgranemos a continuaci�n los aspectos de inter�s period�stico que tuvieron lugar recientemente.

El Imperio contraataca

Por si no est�s al tanto de la pol�mica en juego, OpenAI, al igual que otros grandes creadores de IA, evit� pagar o incluso pedir permiso para escanear obras publicadas en Internet que tienen derechos de autor. Los fabricantes de IA suelen argumentar que esto es aceptable. Dicen que, al igual que las personas leen y analizan el contenido, la IA generativa deber�a tener la misma libertad para usar esos datos sin problemas. Punto, fin de la historia.

El contraargumento de los editores y propietarios de derechos de autor es que los creadores de IA est�n haciendo una "apropiaci�n" indebida del contenido publicado, sin el permiso de los leg�timos due�os. Adem�s, los creadores de IA est�n generando grandes sumas de dinero gracias a esta pr�ctica considerada il�cita, mientras que los editores y propietarios de derechos de autor no reciben nada de esa gran cantidad de dinero.

Los editores y los propietarios de los derechos de autor se jactan de que los creadores de IA �quieren robar codiciosamente lo que no les pertenece para lucrar con ello. Indignante. Huele a los tiempos del Salvaje Oeste. Se iniciaron una serie de demandas. En cierto modo, se trata de una lucha lenta. La guerra por los datos online se libra a paso de tortuga en los tribunales, mientras tanto, las aplicaciones de IA generativa avanzan y se producen a toda velocidad.

Los creadores de IA insisten en que si alguien publica contenidos en Internet para que la gente los lea, son para ser le�dos. El hecho de que el editor o el propietario de los derechos de autor no haya encontrado formas adicionales de obtener ingresos de sus obras no significa que los enfoques emprendedores alternativos deban desembolsar nada, ni siquiera diez c�ntimos. Si vos pon�s tus cosas en la red para que los humanos las vean y las consuman, es l�gicamente razonable afirmar que la IA puede hacer lo mismo.

Hace unos meses, un art�culo de blog de Harvard Law Review titulado "NYT v. OpenAI: The Times's About Face" (NYT contra OpenAI: la cara oculta del Times), de Audrey Pope, 10 de abril de 2024, hac�a estos destacados comentarios en general sobre esta particular batalla legal que nos ocupa (extractos):

"El New York Times demand� a OpenAI y Microsoft por el uso no permitido de art�culos del Times para entrenar modelos de lenguaje de gran tama�o GPT".
"Estas herramientas son grandes modelos ling��sticos (LLM), que se construyen mediante "entrenamiento" en corpus masivos de texto".
"En la ra�z de la denuncia est� que este conjunto de datos contiene una "masa de contenido protegido por derechos de autor del Times".
"La alegaci�n central es que OpenAI est� infringiendo los derechos de autor mediante el uso y la reproducci�n sin licencia y sin autorizaci�n de obras del Times durante el entrenamiento de sus modelos".
“El caso podr�a tener un impacto significativo en la relaci�n entre la IA generativa y la ley de derechos de autor, en particular con respecto al uso justo, y podr�a determinar en �ltima instancia si se construyen modelos de IA y c�mo se construyen”.

Lo esencial de las consideraciones en curso

Todo est� en juego. Cuando saco a colaci�n este tema en las conferencias sobre IA durante mis diversos discursos y presentaciones, algunos dejan de prestar atenci�n al instante porque suponen falsamente que se trata s�lo de un mont�n de disputas legales y s�lo un tema de importancia para los de la IA y los abogados que hacen dinero con esto.

Hay mucho m�s.

Asumamos que la IA generativa es una forma potente que seguir� impregnando nuestra vida cotidiana en casa, en el trabajo y en los juegos. Se est� convirtiendo en omnipresente. A veces se utiliza de forma aut�noma, como en el caso de ChatGPT, GPT-4o, Claude, Gemini, Bard, etc., mientras que en muchos otros casos, la IA generativa est� integrada en otras aplicaciones. Casi todos los tipos de aplicaciones acabar�n teniendo una conexi�n con una aplicaci�n de IA generativa. Puede que sea en el backend, y que no se acceda a ella abiertamente, pero est� ah� por debajo y se conf�a plenamente en ella.

La forma habitual de conseguir una IA generativa moderna implica utilizar un gran modelo de lenguaje o LLM como pilar fundamental.

En resumen, se establece un modelo inform�tico del lenguaje humano que a gran escala tiene una estructura de datos y realiza un ajuste de patrones a escala masiva a trav�s de un gran volumen de datos utilizados para el entrenamiento inicial de los mismos. �stos se suelen encontrar escaneando ampliamente Internet en busca de montones y montones de ensayos, blogs, poemas, narraciones y similares. El emparejamiento matem�tico y computacional de patrones se centra en c�mo escriben los humanos y, a partir de ah�, genera respuestas a las preguntas planteadas aprovechando esos patrones identificados. Se dice que imita la escritura de los humanos.

Volviendo al quid de la cuesti�n.

En general, la enorme cantidad de datos que se utiliz� para idear aplicaciones de IA generativa tuvo un costo casi nulo para sus creadores. As� es, dije un costo casi nulo. Aparte de su software y de los servidores necesarios para realizar el escaneado de Internet, rara vez pagaron algo por el contenido real escaneado. Todos esos vol�menes colosales de datos fueron necesarios para llevarla a la condici�n o estado computacional que ahora conocemos como relativamente fluido en el patr�n de la escritura humana.

Lo consiguieron por casi nada.

Los datos son tan vitales para el avance continuo de la IA generativa que existe una preocupaci�n abrumadora sobre si hay suficientes datos en Internet para sostener el crecimiento de la IA generativa, Pod�s ver mi an�lisis en este enlace. La preocupaci�n es que con los creadores de IA buscando en todos los rincones imaginables de Internet, se quedar�n sin datos en alg�n momento (las conjeturas van desde dentro de 5 a�os hasta otros que dicen que es m�s bien para el a�o 2050). Una alternativa que se baraja es hacer que produzca datos, conocidos como datos sint�ticos, e introducirlos en la IA generativa para un entrenamiento adicional, lo que algunos temen que lleve a lo que se conoce como un colapso catastr�fico del modelo.

Algunas personas comparan los datos con el petr�leo. Proclaman que la necesidad y la b�squeda de datos es an�loga a la b�squeda de petr�leo. Todos somos conscientes de que la maquinaria moderna, como autos, aviones, etc., depende de la disponibilidad de petr�leo. El petr�leo es lo que hace girar al mundo, seg�n dicen. La idea es que los datos son lo que hace funcionar la IA generativa. El petr�leo es un bien precioso. Tambi�n los datos.

Sin datos, no hay IA generativa

Consider� lo que presagian las demandas actuales contra los fabricantes de IA. Supongamos que los tribunales deciden que los creadores de IA hicieron una estafa virtual y ahora deben pagar a los editores y a los propietarios de los derechos de autor alguna compensaci�n por lo ocurrido. Observ� que no se trata simplemente de una base de pago a futuro. La idea es que tambi�n hay que pagar por lo anterior. Todos esos datos que ya se escanearon deber�an tener un reembolso monetario a los editores y a los propietarios de los derechos de autor.

No hay problema, pensar�s, esos creadores de IA se estuvieron enriqueciendo y, desde luego, pueden permitirse unos cuantos c�ntimos aqu� y all� para pagar a las editoriales y a los propietarios de los derechos de autor. Sin embargo, el objetivo de algunos editores y propietarios es recibir una compensaci�n considerable. Adem�s, buscan imponer sanciones econ�micas significativas. Imaginalo como los intereses adeudados por el uso no autorizado de esos datos. Una tarificaci�n retroactiva deber�a servir de advertencia a los creadores de IA por su supuesta intrusi�n escandalosa y su transgresi�n sin disculpas.

Algunos sostienen que esto podr�a significar el fin de los creadores de IA, dejando a las aplicaciones de IA generativa en un segundo plano.

Las aplicaciones de IA generativa existentes apenas podr�an seguir funcionando. Dejar�an de ser avanzadas porque el costo de los datos superar�a lo que se puede pagar. Al igual que la analog�a de los datos con el petr�leo, si el petr�leo se vuelve demasiado caro, todo el mundo que depende de �l para hacer funcionar la maquinaria tambi�n se ver�a afectado. La IA generativa se extinguir�a r�pidamente debido al exorbitante precio de los datos disponibles. Esta es, en parte, la raz�n por la cual la idea de sustituir los datos con artificiales, que son baratos de producir, est� siendo investigada (para m�s detalles, vean mi discusi�n en este enlace).

Otra cosa que podr�a ocurrirles a los creadores de IA es que si �stos no est�n dispuestos a pagar o desean evitar hacerlo, al menos deber�an verse obligados legalmente a eliminar cualquier cosa de su respectiva aplicaci�n de IA generativa que se base en el escaneo de dichos datos protegidos por derechos de autor. Parece f�cil. Si la aplicaci�n de IA generativa utiliz� tal o cual dato protegido por derechos de autor durante el escaneado, basta con entrar en la IA generativa y eliminar cualquier aspecto que dependiera de esos datos. La eliminaci�n es una especie de soluci�n considerada.

Como se ve en el enlace de ac�, la eliminaci�n de todas y cada una de las facetas internas que est�n interconectadas con escaneos de datos particulares es una tarea enorme y bastante problem�tica tecnol�gicamente para intentar llevarla a cabo. Se est� investigando mucho sobre el llamado "desaprendizaje" con respecto a la IA generativa. Los avances son lentos. Es un problema dif�cil de resolver.

Lo m�s probable es que su eliminaci�n fuera costosa, suponiendo que pudiera hacerse a gran escala. Tambi�n ser�a inesperado conseguirlo todo, y quedar�an aspectos residuales. Peor a�n, es probable que el resultado socavara la IA generativa de tal manera que �sta se hubiera hecho pedazos y ya no funcionara en absoluto como lo hac�a antes de emprender este proceso.

Un punto de vista es que los creadores de la IA bien podr�an desechar lo que idearon y empezar de nuevo, empezando de cero y asegur�ndose esta vez de hacer tratos con los editores y los propietarios de los derechos de autor (probablemente hayas visto en las noticias que esos tratos ya se est�n haciendo, en parte para hacer frente al s�rdido pasado que se cierne sobre los creadores de la IA y en parte para hacer que el camino futuro est� menos lleno de baches legales). Empezar de nuevo tiene muchos inconvenientes.

Una respuesta a esta situaci�n es que no deber�amos sentir l�stima ni mostrar empat�a por los creadores de la IA.

Ellos mismos se metieron en este l�o. Escanearon datos con gusto sabiendo o debiendo saber que estaban protegidos por derechos de autor. Deber�an haber pedido permiso desde el principio. En lugar de eso, decidieron tomar lo que quer�an primero y responder a las preguntas despu�s. Es el cl�sico comportamiento de esos magos de la IA cargados de ego y excesivamente confiados. Los riesgos eran elevados y pensaron que alg�n d�a tendr�an que lidiar con las consecuencias, tal vez, si finalmente los agarraban con las manos en la masa.

Hasta ahora, tuvieron una buena tajada. �Alg�n d�a tendr�n que afrontar las consecuencias. Eso es lo que algunos editores y propietarios de derechos de autor proclaman como base de sus demandas judiciales.

Esto ser�a como pegarnos un tiro en el pie.

Nos estamos convirtiendo en altamente dependientes de la IA generativa. Si los creadores de IA no pueden mantener la IA generativa o no avanzan, las esperadas curas del c�ncer gracias a la IA generativa no se van a materializar. La sociedad va a sufrir un retroceso. La IA generativa se convirti� en algo demasiado grande e importante como para permitir que flaquee o fracase.

De hecho, todo el asunto se parece escalofriantemente a un juego, en el que los editores y los propietarios de derechos de autor se dirigen directamente contra los creadores de IA, y �stos contra ellos, por lo que parece estar en juego un choque con consecuencias para todos los implicados. �Saldr�n todos heridos? �Saldr� herido s�lo uno de los bandos? �Nadie saldr� herido?

Nadie puede asegurarlo.

La esencia de los derechos de autor es el factor clave

Volviendo a las batallas legales en curso, la cuesti�n clave es si el uso de datos de Internet protegidos por derechos de autor para entrenar IA generativa se considerar� una violaci�n de las leyes de propiedad intelectual.

Esto puede resolverse de dos maneras.

Si los tribunales determinan que la IA generativa no infringe las leyes, los creadores de IA estar�n euf�ricos y seguramente lo celebrar�n con champ�n. Por otro lado, los editores y propietarios de derechos de autor sentir�n que se los perjudic� y que sus derechos no fueron protegidos adecuadamente.

Si los tribunales fallan a favor de que la IA generativa viola los derechos de autor, la cuesti�n ser� c�mo compensar a quienes fueron perjudicados. Esto se resolver�a caso por caso, aunque los precedentes legales anteriores influir�n, as� como cualquier fallo inicial que establezca una referencia.

Los creadores de IA se enojar�n si pierden. Es de esperar que apelar�n y el asunto podr�a prolongarse durante a�os en los tribunales.

Es probable que se entablen negociaciones para llegar a un acuerdo, lo que dar�a a los editores y propietarios de derechos de autor una ventaja adicional al tener un fallo a su favor. Ya hay un tira y afloja sobre si los creadores de IA deben intentar resolver los casos legales existentes ahora o esperar a ver qu� pasa. El dinero est� potencialmente disponible ahora para los propietarios de derechos de autor, lo que podr�a ser beneficioso, pero probablemente no tanto como una bonanza de dinero m�s adelante si las victorias son contundentes.

Se trata de una tirada de dados.

Las consecuencias en general ser�n en cascada si la demanda por infracci�n prevalece. En primer lugar, el ganador de una batalla legal concreta tratar� de obtener alg�n tipo de pago del fabricante de IA declarado infractor. En segundo lugar, otros editores y propietarios de derechos de autor que no hayan emprendido acciones legales se animar�n a hacerlo. Se producir� una avalancha de dinero. Otros fabricantes de IA que pueden estar bajo el radar ahora mismo tambi�n se convertir�n en nuevos objetivos de demandas y/o di�logos para hacer acuerdos antes de ir por la v�a judicial. El vencedor que se enfrent� a un fabricante de IA mirar� a su alrededor para ver qu� otros fabricantes de IA son tambi�n probables infractores.

Y as� sucesivamente, la pelota rebota, como suele decirse.

La pregunta del mill�n, entonces, sobre la que debemos reflexionar detenidamente es si la IA generativa concebida de la manera prescrita es, de hecho, una forma de infracci�n de los derechos de autor.

�Qu� opin�s al respecto?

Yo dir�a que deber�amos examinarlo m�s de cerca. Lo primero que hay que examinar es lo que constituyen los derechos de autor, la infracci�n de los derechos de autor y los elementos relacionados.

Ac� una definici�n pr�ctica de los derechos de autor en EE.UU.:

“La infracci�n de los derechos de autor es el uso no autorizado de la obra de otro. Se trata de una cuesti�n legal que depende, en primer lugar, de si la obra est� o no protegida por derechos de autor, as� como de aspectos espec�ficos como cu�nto se utiliza y la finalidad del uso. Si se copia demasiado de una obra protegida, o se copia con un fin no autorizado, el simple reconocimiento de la fuente original no resolver� el problema. S�lo solicitando el permiso previo del titular de los derechos de autor se evita el riesgo de ser acusado de infracci�n” - (Facultad de Derecho de la Universidad de Duke, publicaci�n en la web).

Veamos c�mo afecta esa definici�n a la IA generativa y a la producci�n de resultados de IA generativa.

La IA generativa se concibe habitualmente para realizar un ajuste de patrones cuando se lleva a cabo el entrenamiento inicial de los datos. En cierto sentido, se construye una plantilla de lo que escriben los humanos mediante el escaneo de montones y montones de ensayos. Adem�s, normalmente, se utiliza un enfoque probabil�stico o estad�stico al generar un ensayo o texto como salida. Esto ayuda a producir lo que parecen ser nuevos ensayos o salidas de texto totalmente �nicos cada vez que se formula una pregunta a la IA o se introduce una indicaci�n. De lo contrario, cada vez que se generara una redacci�n o un texto de salida, podr�a parecer, palabra por palabra, exactamente igual a una salida anterior que hubiera generado la IA.

Sin embargo, existe un problema potencial.

A veces, la coincidencia de patrones no se presenta como una plantilla, sino como una copia digital palabra por palabra de algo que se escane�. Esto podr�a luego reproducirse textualmente como salida, mostrando pr�cticamente una copia exacta del contenido escaneado. Es un territorio arriesgado que sugiere una infracci�n casi flagrante de los contenidos protegidos por derechos de autor que fueron escaneados sin licencia o sin el permiso expl�cito del propietario de los derechos.

Ese es el tal�n de Aquiles para los creadores de IA y sus aplicaciones de IA generativa.

Debe tener derechos de autor y ser susceptible de derechos de autor

Ahora llegamos al giro importante que mencion� antes.

La regla general es que una obra protegida por derechos de autor debe estar protegida formalmente, por ejemplo, mediante la obtenci�n de una certificaci�n oficial gubernamental de derechos de autor, y tambi�n debe ser susceptible de derechos de autor. Esto significa que, si escrib�s una historia y obten�s formalmente un copyright para ella (tambi�n hay un aspecto impl�cito de copyright, pero no voy a entrar en eso ac�), tu obra est� protegida. Ac� el enlace.

Felizmente, obten�s la certificaci�n oficial de derechos de autor y crees que hiciste todo lo que ten�as que hacer. Resulta que puede que no est�s tan contento como supon�as, ya que, unos meses m�s tarde, aparece un tercero que escribi� una historia que parece infringir tus derechos de autor.

Decid�s demandarlos por infracci�n.

Es probable que primero quieran ver pruebas de que tu obra est� protegida por derechos de autor, junto con la fecha en que lo fue realizado el tr�mite y cualquier otra cosa que pueda empa�ar tu afirmaci�n de que tu obra est� protegida. Es una l�nea de ataque que cualquier abogado emprender�a. Socavar los derechos de autor y, por lo tanto, reducir la reclamaci�n de infracci�n.

Otra l�nea de ataque viable es si tu contenido supuestamente protegido por derechos de autor es susceptible de derechos de autor. Si no es as�, se encuentra en una posici�n dif�cil. Supongamos, por ejemplo, que tu historia es en realidad una copia palabra por palabra de una historia que escribi� otra persona. Supongamos que tu relato viola o infringe los derechos de autor de otra persona (y supongamos que esto no es jur�dicamente defendible, aunque estoy seguro de que lo intentar�as). En cierto sentido, �no ten�s algo sujeto a derechos de autor, a pesar de que cre�as que s�, aunque hayas registrado el contenido y obtenido una certificaci�n de derechos de autor.

Ahora est�s perjudicado.

Me gustar�a subrayar que estoy simplificando la naturaleza de los derechos de autor y que existe mucha complejidad adicional. Te insto a que te asegures de contar con un buen abogado especializado en derechos de propiedad intelectual que te ayude a proteger suficientemente cualquier contenido que tengas. Los derechos de autor son un asunto bizantino, eso seguro.

Por ejemplo, hay varias limitaciones asociadas de hasta d�nde llega la ley de derechos de autor, consider� estos puntos cruciales:

"Los derechos de autor no protegen las ideas, s�lo la expresi�n espec�fica de una idea. Por ejemplo, un tribunal decidi� que Dan Brown no infringi� los derechos de autor de un libro anterior cuando escribi� El C�digo Da Vinci porque lo �nico que tom� prestado de la obra anterior fueron las ideas b�sicas, no los detalles espec�ficos de la trama o el di�logo. Dado que los derechos de autor pretenden fomentar la producci�n creativa, utilizar las ideas de otra persona para elaborar una obra nueva y original defiende el prop�sito de los derechos de autor, no los infringe. S�lo si uno copia la expresi�n de otro sin permiso se infringen potencialmente los derechos de autor" (Facultad de Derecho de la Universidad de Duke, publicaci�n en la p�gina web).
Existen numerosas excepciones permitidas para poder copiar legalmente materiales protegidos por derechos de autor, como menciona esta nota citada de la p�gina web de la Oficina de Derechos de Autor de EE.UU. (extracto):
"Las excepciones y limitaciones de la Ley de Derechos de Autor que se encuentran en las secciones 107-122 incluyen el uso justo, la "doctrina de la primera venta", algunas reproducciones por parte de bibliotecas y archivos, ciertas actuaciones y exhibiciones, transmisiones de programas de radiodifusi�n por cable y sat�lite, por nombrar algunas. �Te interesa obtener m�s informaci�n sobre el uso justo? Ech� un vistazo a nuestro �ndice de uso leg�timo. La lista completa de exenciones a la protecci�n de los derechos de autor se encuentra en el Cap�tulo 1 del T�tulo 17 del C�digo de los Estados Unidos. Tambi�n puede utilizar obras que sean de dominio p�blico. Las obras de dominio p�blico son aquellas que nunca estuvieron protegidas por derechos de autor (como hechos o descubrimientos) o las obras cuyo plazo de protecci�n �finalizaron, bien porque finaliz�, bien porque el propietario no cumpli� una formalidad requerida previamente. En la actualidad, todas las obras estadounidenses anteriores a 1926 son de dominio p�blico porque la protecci�n de los derechos de autor finaliz� para esas obras" (p�gina web de la Oficina de Derechos de Autor de Estados Unidos).
Es posible que hayas observado en esa descripci�n citada que los elementos considerados de dominio p�blico pueden utilizarse normalmente sin invocar una violaci�n de los derechos de autor.

Aqu� te subimos c�mo se plantea eso en relaci�n con la IA generativa.

Algunos creadores de IA intentan a veces limitar su IA generativa a que los datos se entrenen �nicamente con obras que son de dominio p�blico y que tambi�n se encuentran en bibliotecas de acciones online para cuyo uso se les concedi� la licencia. En definitiva, el objetivo es entrenar los datos �nicamente con contenidos sobre los que haya poca o ninguna posibilidad de que se produzca una infracci�n de los derechos de autor. Si su elemento generativo producido por la IA es id�ntico a un elemento de dominio p�blico, presumiblemente no tendr� problemas. Si su objeto producido por la IA generativa es id�ntico a un objeto de la biblioteca de acciones online para el que el fabricante de la IA le concedi� una licencia, presumiblemente no tendr� problemas si se atiene a cualquier otra estipulaci�n que el fabricante de la IA haya impuesto sobre la realizaci�n de dicha copia (aseg�rese de revisar detenidamente el acuerdo de licencia de la aplicaci�n de IA generativa).

Desde luego, pod�s alegrarte que este enfoque basado en el entrenamiento de datos te ayude.

Se plantean cuestiones como si se dispone de suficientes datos de este tipo. Otro factor es el costo que supone pagar a las bibliotecas de acciones online por el acceso y el uso de sus materiales protegidos por derechos de autor. La relativa escasez de datos de dominio p�blico y el exorbitante costo de obtener acceso a datos de precio tasado podr�an no ser suficientes para elaborar una IA generativa digna de nuestra embelesada atenci�n. Ser� insignificante en comparaci�n con la IA generativa a la que estamos s�lidamente acostumbrados ahora. Esa l�gubre IA generativa es esencialmente una IA generativa sin valor o in�til.

Bien, digamos que el escaneo de datos protegidos por derechos de autor va a estar generalmente permitido (as� lo decretaremos), pero asegur�te que la IA generativa no se pasa de la raya y no puede usar palabra por palabra como un imitador. Basta con echar un vistazo a los ensayos y textos protegidos por derechos de autor, hacer un cotejo de patrones a una distancia prudencial y acabar con todo este enredo.

Lo siento, eso tampoco es tan bueno.

Recordemos que la definici�n utilizada anteriormente sobre los derechos de autor es que se puede ser un infractor incluso si no se copia �ntegra y precisamente el art�culo protegido por derechos de autor. La indicaci�n era que si "uno copia demasiado de una obra protegida" es cuando puede meterse en problemas. Se trata de un �mbito poco preciso, y es probable que las partes contrarias presenten argumentos legales de que o bien se copi� demasiado de una obra protegida o bien la copia cay� por debajo de un umbral argumentado.

La llegada de la IA generativa plante� una serie de cuestiones espinosas sobre las leyes de derechos de autor.

Quiz� haya que perfeccionar las leyes existentes para tener en cuenta los aspectos de la IA generativa. Algunos exhortan a que hace tiempo que se deber�an haber revisado las leyes de derechos de autor, y que la IA generativa es un detonante bienvenido para hacerlo. Algunos creen que no se necesitan nuevas leyes ni cambios en las leyes. Creen que las leyes tradicionales de derechos de autor son plenamente aplicables y manejan la gama de todo lo que la IA generativa plantea legalmente.

Reciente defensa de OpenAI en el caso del New York Times

En el caso legal actual del New York Times que acusa a OpenAI de infringir derechos de autor, las partes est�n en la fase de descubrimiento. Seguro conoc�s esta etapa por casos judiciales de alto perfil que se transmiten en vivo o se difunden en videos grabados en las redes sociales (adem�s de las numerosas pel�culas de ficci�n y programas de televisi�n que representan de manera semirrealista estos procesos judiciales).

Cada parte intenta que la otra muestre lo que tiene, casi como cuando se juega una partida de p�quer y se espera descubrir qu� cartas tiene la otra parte.

El juez debe con frecuencia tomar decisiones dif�ciles sobre las peticiones de cualquiera de las partes. No todo lo que se solicita ser� necesariamente aplicable desde el punto de vista legal y el juez rechazar� tales peticiones. Por lo general, las partes intentan conseguir lo que creen que ser� mejor para sus intereses, actuando como defensores a ultranza de su parte del caso. Plantear�n o har�n argumentos legales que el juez revisar� y entonces el juez decidir� o dictaminar� si las diversas peticiones pueden seguir adelante, incluyendo hasta qu� punto una determinada petici�n debe ser cumplida por la otra parte del caso.

Tenelo en cuenta mientras analizamos las recientes presentaciones.

OpenAI present� el 1 de julio de 2024 una documentaci�n que est� a disposici�n del p�blico sobre el proceso de descubrimiento en curso, proporcionando una visi�n �til de las idas y venidas durante esta fase del caso. A continuaci�n, ofrecer� algunos extractos de esa presentaci�n, correspondiente al caso "The New York Times Company contra Microsoft Corp. y otros", Caso n� 1:23-cv-11195-SHS. Tambi�n mostrar� partes de la respuesta presentada por los abogados del New York Times, fechada el 3 de julio de 2024.

Si te interesa este complejo asunto legal, te recomiendo leer los escritos completos de ambas partes para entender en su totalidad los temas de descubrimiento que se est�n tratando. Aqu� solo selecciono algunos puntos destacados.

En la presentaci�n del 1 de julio de 2024, OpenAI explica por qu� est� solicitando diversos materiales del New York Times como parte del proceso de descubrimiento (extracto):

"El descubrimiento de esas obras protegidas por derechos de autor es directamente relevante tanto para la reclamaci�n del Times de infracci�n de los derechos de autor como para las defensas de OpenAI (como el uso justo, que examina, entre otras cosas, varios aspectos de las obras en cuesti�n). El Times s�lo puede alegar infracci�n sobre aquellas partes de las obras que son (a) originales del autor, y (b) propiedad o licencia exclusiva del Times". (ibid).

OpenAI argumenta que existe una base s�lida para su solicitud de revelaci�n de pruebas, buscando materiales del New York Times para determinar si las obras cuya infracci�n se reclama son susceptibles de derechos de autor y est�n protegidas por los mismos.

OpenAI parece estar buscando datos concretos sobre c�mo fueron concebidas por NYT las obras en cuesti�n. As�, la expresada necesidad de poder inspeccionar las notas del reportero, los materiales que se utilizaron en la formulaci�n de las obras y otros aspectos relacionados (extracto):

"Cualquier ambig�edad se resolvi� durante las conferencias de las partes cuando OpenAI explic� que buscaba 'notas del reportero subyacente, memos de entrevistas, registros de materiales citados u otros archivos para cada obra reivindicada'". (ibid).

OpenAI sostiene que esta solicitud es de buena fe y por razones adicionales (extracto):

“Dicho descubrimiento tambi�n es relevante para otras afirmaciones que el Times hizo, incluidas las relativas a c�mo cre� las obras en cuesti�n. El Times alega, por ejemplo, que ”para producir periodismo de primera clase", “invierte una enorme cantidad de tiempo, experiencia y talento”, incluso a trav�s de “profundas investigaciones -que normalmente llevan meses y a veces a�os informar y producir- sobre �reas complejas e importantes de inter�s p�blico”. Habiendo optado por poner directamente en cuesti�n c�mo cre� el Times las obras en cuesti�n -incluyendo los m�todos, el tiempo, el trabajo y la inversi�n- OpenAI tiene derecho a que se descubra lo mismo". (ibid).

En resumen, OpenAI busca conocer los detalles del desarrollo de las obras protegidas por derechos de autor en cuesti�n.

�Es una solicitud razonable o un exceso? �Deber�a el juez aprobarla o rechazarla? �Cu�les son las razones para cada decisi�n?

Las preguntas abundan.

Tomate un momento para reflexionar sobre esto desde ambos lados del caso en cuesti�n.

Desde la perspectiva de un editor, esto puede resultar inquietante. Los editores y propietarios de derechos de autor podr�an verse obligados a revelar sus secretos m�s profundos y oscuros sobre c�mo crean sus obras publicadas. Como sab�s, siempre hubo una lucha constante para proteger a los periodistas de investigaciones externas y garantizar la inviolabilidad de la libertad de prensa. Este enigma fue una preocupaci�n social desde los tiempos de la Constituci�n.

Incluso si se pudieran excluir las facetas privilegiadas de alguna manera, �la revelaci�n de los procesos internos de creaci�n de noticias podr�a reflejarse negativamente en un editor y sus periodistas? Ser�a como entrar en una cafeter�a y pasear por la trastienda para ver c�mo se prepara y cocina la comida. A veces, eso est� bien; otras veces, puede resultar desconcertante.

�Qu� cree que dir�an los abogados del NYT a este intento de descorrer el velo?

En la respuesta del NYT, fechada el 3 de julio de 2024 y disponible p�blicamente en el marco de este caso judicial, el peri�dico respondi� con firmeza.

Ac� un extracto:

"La afirmaci�n de OpenAI �que necesita todas las "notas del reportero, memorandos de entrevistas, registros de materiales citados u otros 'archivos' de cada obra reivindicada" -supuestamente para determinar si las obras del Times son de hecho propiedad intelectual protegible- no tiene precedentes y pone patas arriba la ley de derechos de autor. OpenAI no cita ninguna jurisprudencia que permita un descubrimiento tan invasivo, y por una buena raz�n. Est� muy fuera del alcance de lo permitido por las Reglas Federales y no tiene otro prop�sito que el acoso y la represalia por la decisi�n de The Times de presentar esta demanda". (ibid).

Contin�an diciendo tambi�n esto:

"Permitir que OpenAI investigue el proceso privilegiado de recopilaci�n de noticias de The Times tendr�a graves consecuencias negativas y de gran alcance. Implicar�a la divulgaci�n de los archivos confidenciales de los reporteros de The Times sobre reportajes de investigaci�n de asuntos muy delicados, incluidos los relacionados con los propios demandados. La petici�n de OpenAI impone una carga indebida al Times que es desproporcionada (y, de hecho, totalmente ajena) a las necesidades de este caso". (ibid).

Y, en un lenguaje bastante provocador, subrayan esto

El Tribunal deber�a rechazar el intento de OpenAI de usar el descubrimiento como una herramienta para acceder a informaci�n confidencial e irrelevante que respalda los reportajes de The Times. No est� en juicio el proceso de recopilaci�n de noticias del Times, sino la infracci�n de OpenAI y Microsoft sobre millones de obras registradas con derechos de autor de The Times.

Eso suena bastante contundente. As� son las cosas en el amor, la guerra y las batallas legales.�

Volviendo al ojo por ojo.

En la presentaci�n del 1 de julio por parte de OpenAI, en general hab�an anticipado un desaire legal y hab�an declarado de forma preventiva que (extractos):

"Para empezar, la Ley del Escudo de Nueva York no es aplicable porque este caso no implica una reclamaci�n bajo la ley estatal". (ibid).
"Y el privilegio de los reporteros en virtud de la ley federal no justifica la retenci�n de los materiales en cuesti�n aqu� porque (i) son de probable relevancia para una cuesti�n significativa en el caso -si el Times est� haciendo valer la protecci�n de los derechos de autor sobre obras o partes de las mismas en las que no tiene derechos de autor- y (ii) no son razonablemente obtenibles de otras fuentes disponibles". (ibid).

Esto sigue y sigue en ambas presentaciones. Creo que se entiende la idea general.

Las partes tambi�n discuten sobre otras facetas, como las certificaciones de derechos de autor, pero preveo que esas disputas se resolver�n de alguna manera. Los otros elementos no tienen el mismo grado de contenci�n y magnitud. Revelar los detalles internos del proceso, bueno, ese es el gran tema en la sala.

Este vistazo es solo un poco de las estrategias y t�cticas legales enfrentadas que surgen a medida que se producen numerosos movimientos y contramovimientos en un caso de esta envergadura. Hay mucho en juego. Se trata de pesos pesados enfrentados. Las consecuencias son enormes para ellos y, sobre todo, para el futuro de la IA generativa.

Desde la perspectiva de un observador, esto representa un desaf�o significativo.

La importancia de este tema

Analicemos por qu� exigir la divulgaci�n de las notas de los reporteros y otros materiales es tan controvertido y debatido.

Una perspectiva es que, si este caso judicial espec�fico procede a hacer cumplir tal solicitud, otros casos similares podr�an seguir el mismo camino. Esto podr�a ser positivo o negativo, dependiendo de tu punto de vista. De repente, muchos periodistas podr�an verse obligados a revelar legalmente aspectos de sus reportajes que hasta ahora se cre�an protegidos.

Podr�as argumentar que ya existen pocas excepciones a la regla, pero entonces surge la cuesti�n de si la "mera" infracci�n de los derechos de autor es una causa lo suficientemente elevada e importante como para justificar un paso tan audaz. Algunos dir�an que se est� abriendo la caja de Pandora. �En qu� sentido? Los creativos malintencionados podr�an entablar demandas por derechos de autor con el principal objetivo de acceder a las notas del periodista, mientras que los problemas de derechos de autor del caso en s� les importan menos. Es una especie de caballo de Troya.

Eso cubre el enigma de lo que me viene a la mente.

Otro ser�a la verg�enza potencial y el da�o a la reputaci�n que podr�a suponer para el editor o el propietario de los derechos de autor. Si el p�blico en general cree que los periodistas trabajan diligentemente y con sumo cuidado, pero si las notas y los materiales sugieren lo contrario, ser� un d�a oscuro para esos periodistas y para el periodismo de campo en general.

Tal vez esos puntos te hagan pensar que esa petici�n no est� justificada.

Veamos cu�l puede ser el otro punto de vista.

Si la IA generativa va a ser potencialmente afectada por cuestiones de derechos de autor, y si en el fondo de nuestro coraz�n creemos que la IA generativa proporciona un gran beneficio p�blico, entonces es fundamental estar completamente seguros de que realmente se produjo una infracci�n de los derechos de autor. Si los derechos de autor no son v�lidos por cualquier raz�n legal, habr�a que explorar todas las posibilidades para demostrar por qu� es as�. No permitamos que una revisi�n superficial determine el destino de la IA generativa.

En cuanto al da�o a la reputaci�n, este es un asunto que recae sobre los hombros de quienes realizan el trabajo period�stico. �stos deben estar dispuestos a mantener la cabeza alta y sentirse orgullosos del trabajo que realizan, no solo en los resultados, sino tambi�n mostrando abiertamente la minuciosidad y la fiabilidad de c�mo se obtuvieron esos resultados.

�Eso te inclina hacia otra direcci�n?

En definitiva, pod�s ver que esta es una decisi�n dif�cil de tomar. Cada lado tiene un argumento legal convincente. Y cada uno se burla del otro diciendo que no tiene un caso s�lido. As� es, un d�a m�s en el campo contencioso del derecho.

Nada est� claro.

Otro punto de vista intrigante es si obligar a los editores a mostrar su trabajo subyacente podr�a revelar algo m�s de gran inter�s para este caso legal espec�fico sobre el uso de la IA generativa.

El asunto es el siguiente.

Existe una doctrina jur�dica conocida como "tener las manos sucias". La idea es bastante clara: si una de las partes incurri� en alguna mala conducta, su capacidad para defenderse se ve mermada y deben pagar por esto. Si ambas partes en un conflicto tienen las manos sucias, podr�a considerarse una especie de paridad. Tal vez se les diga a ambas que se retiren, manteniendo el statu quo, porque ninguna de las partes estaba en una posici�n �tica s�lida.

Ac� hay una definici�n formal de esta construcci�n legal que implica manos limpias y manos sucias (extracto):

"La doctrina de las manos limpias es el principio seg�n el cual la propia falta de equidad de una parte impide la recuperaci�n basada en reclamaciones o defensas equitativas. La doctrina exige que una parte act�e con equidad en el asunto para el que busca un remedio. Una parte que viol� un principio equitativo, como la buena fe, se describe como que tiene "manos sucias". La doctrina de las manos limpias se invoca cuando una parte que busca un remedio equitativo o que reclama una defensa basada en la equidad ha violado por s� misma un deber de buena fe o ha actuado de forma desleal en relaci�n con el mismo asunto del que reclama un derecho de remedio". (Facultad de Derecho de Cornell, Instituto de Informaci�n Jur�dica, publicaci�n "Clean-Hands Doctrine").
Un caso crucial del Tribunal Supremo de EE.UU. de 1945 sent� las bases de esta doctrina (extracto):
“Esta m�xima es mucho m�s que una mera banalidad. Es una ordenanza autoimpuesta que cierra las puertas de un tribunal de equidad a quien est� manchado de iniquidad o mala fe en relaci�n con el asunto en el que busca reparaci�n, por muy impropio que haya sido el comportamiento del demandado. Esa doctrina est� arraigada en el concepto hist�rico del tribunal de equidad como veh�culo para hacer cumplir afirmativamente los requisitos de conciencia y buena fe”. (Tribunal Supremo de EE.UU., Precision Instrument Mfg. Co. contra Automotive Maintenance Machinery Co., 324 U.S. 806, 1945).

Varios otros casos legales han refinado el alcance y la naturaleza de esta doctrina, indicando generalmente que la cuesti�n de tener las manos limpias o sucias debe ser pertinente al tema central del asunto y no a cuestiones perif�ricas. Aqu� algunos extractos:

“La doctrina de las manos sucias no niega la reparaci�n a un demandante culpable de cualquier mala conducta pasada; s�lo la mala conducta directamente relacionada con el asunto en el que busca reparaci�n activa la defensa” - (Bodega Kendall-Jackson contra Tribunal Superior, 76 Cal. App. 4th 970, Cal. Ct. App., 1999).

�C�mo encaja esto con la IA generativa?

Imaginate esto. Quiero que te alejes de cualquier caso judicial existente. Hac� un experimento mental conmigo.

La IA generativa son datos entrenados sobre montones de material aparentemente protegido por derechos de autor en Internet. Esto se presenta como manos sucias. Supongamos que, tras un examen m�s detallado, el material del que se dijo que ten�a derechos de autor hubiera seguido el mismo tipo de aprovechamiento y se hubiera apoyado en otros materiales con derechos de autor para idear el contenido que ahora se impugna por ser escaneado y violar los derechos de autor. Los humanos, quiz�s en el papel de reporteros o periodistas, digamos que fueron por ah� y "escanearon" montones de materiales protegidos por derechos de autor y luego en sus mentes los reajustaron para convertirlos en contenidos aparentemente protegidos por derechos de autor.

�Podr�amos decir quiz�s que se trata de otro caso de manos sucias? Podr�amos ver esto como que ambas partes enfrentadas tienen las manos sucias. Si es as�, el que afirma haber sido perjudicado por la infracci�n de los derechos de autor hizo esencialmente lo mismo que hicieron aquellos a los que acusa. Claro, uno podr�a ser por cognici�n humana, mientras que el otro por esfuerzos matem�ticos y computacionales de IA, pero ambos presumiblemente mezclan obras anteriores protegidas por derechos de autor para hacer sus presuntas obras proclamadas protegibles por derechos de autor.

Pens� en esto. Hay puntos y contrapuntos, que voy a dejar para otro post ya que me estoy alargando en esta discusi�n.

Conclusi�n

�Es el asunto legal de la IA generativa y los derechos de autor una cuesti�n simple y obvia a simple vista, o conlleva capas y capas de intrincadas consideraciones que implican disposiciones legales, sociales, culturales y �ticas?

Bienvenido a un debate oneroso que tiene implicaciones significativas.

Ac� ten�s algunas reflexiones finales.

Una famosa frase del jurista ingl�s John Selden dec�a lo siguiente "La ignorancia de la ley no excusa a nadie".

Sin duda, los editores y los propietarios de los derechos de autor argumentar�an con vehemencia que, aunque los creadores de la IA pudieran no ser conscientes de que hab�an violado las leyes de derechos de autor (lo que, para los editores y los propietarios de los derechos de autor lleva la credulidad m�s all� de lo cre�ble), en cualquier caso, esto no ofrece ninguna excusa para lo que hicieron.�

El enunciador romano Marco Tulio Cicer�n indic� esta observaci�n vital: "El bien del pueblo es la ley suprema".

Si los creadores de IA realmente escanearon obras protegidas por derechos de autor, y el resultado es una IA generativa asombrosamente fluida que ayuda a resolver muchos problemas clave a los que se enfrenta la humanidad, y si esto nos est� conduciendo a alguna forma m�s avanzada de IA como la Inteligencia General Artificial (AGI) que transformar� y elevar� dr�sticamente la forma en que los humanos viven y trabajan, �no ser�amos negligentes si tom�ramos medidas dr�sticas en esta coyuntura?

El precio de compensar a los titulares de los derechos de autor podr�a perturbar y frenar el avance de la IA generativa. Es como si estuvi�ramos en camino de aterrizar en la luna y ech�ramos por tierra el viaje por un tecnicismo. Nuestros ojos tienen que estar puestos en el premio que est� al final del camino. No dejemos que las indulgencias a corto plazo nos distraigan de las ventajas a largo plazo.

Ac� ten�s dos puntos de vista opuestos.

Como juez de sill�n, segu� adelante y tom� tu desici�n.

Otro aspecto, cuando se trata de la ley y de tomar decisiones basadas en la ley, por favor, recuerd� las c�lebres palabras de Oliver Wendell Holmes Jr, considerado una de las mentes jur�dicas m�s grandes de todos los tiempos, en las que dec�a claramente esto "La ley es algo vivo".

Que todos vivamos y aprendamos en armon�a.

Nota publicada por Forbes US