Una feroz batalla legal que afecta el futuro de la IA generativa dio un giro fascinante la semana pasada en una demanda por infracción de derechos de autor que había interpuesto un importante editor contra OpenAI, creador de ChatGPT. El caso implica al New York Times (NYT), que busca un camino legal para apuntar a OpenAI por escanear y utilizar piezas publicadas en el NYT para crear y entrenar las aplicaciones de IA generativa de la empresa, incluida ChatGPT.
Este caso tiene profundas implicaciones.
Para ser claros, los posibles resultados legales de este caso serán enormes y se aplicarán en última instancia a casi todos los creadores de IA y a todas las aplicaciones de IA generativa. Cada movimiento durante el proceso presagia repercusiones significativas. Está en juego el futuro de la IA generativa. Puede parecer una exageración, pero por varias razones que detallaré a continuación, las consecuencias potenciales de lo que podría ocurrir.
En breve llegaré al último giro que sacudirá los cimientos de este caso, así que aguantá, es realmente impactante.
En primer lugar, algunas observaciones rápidas sobre el escenario.
Si te interesa el aspecto legal de la IA, te recomiendo mi exhaustiva cobertura, que encontrarás en este enlace. En el fascinante tema de los derechos de propiedad intelectual y la IA, como los derechos de autor y las patentes, mis análisis te proporcionarán información valiosa. También traté la propuesta controvertida de los derechos de la personalidad jurídica para la IA, podés verlo en este enlace. Además, hay muchos otros artículos que forman parte de mi análisis continuo sobre las últimas novedades en Derecho y Ética de la IA, disponibles acá.
Desgranemos a continuación los aspectos de interés periodístico que tuvieron lugar recientemente.
El Imperio contraataca
Por si no estás al tanto de la polémica en juego, OpenAI, al igual que otros grandes creadores de IA, evitó pagar o incluso pedir permiso para escanear obras publicadas en Internet que tienen derechos de autor. Los fabricantes de IA suelen argumentar que esto es aceptable. Dicen que, al igual que las personas leen y analizan el contenido, la IA generativa debería tener la misma libertad para usar esos datos sin problemas. Punto, fin de la historia.
El contraargumento de los editores y propietarios de derechos de autor es que los creadores de IA están haciendo una "apropiación" indebida del contenido publicado, sin el permiso de los legítimos dueños. Además, los creadores de IA están generando grandes sumas de dinero gracias a esta práctica considerada ilícita, mientras que los editores y propietarios de derechos de autor no reciben nada de esa gran cantidad de dinero.
Los editores y los propietarios de los derechos de autor se jactan de que los creadores de IA quieren robar codiciosamente lo que no les pertenece para lucrar con ello. Indignante. Huele a los tiempos del Salvaje Oeste. Se iniciaron una serie de demandas. En cierto modo, se trata de una lucha lenta. La guerra por los datos online se libra a paso de tortuga en los tribunales, mientras tanto, las aplicaciones de IA generativa avanzan y se producen a toda velocidad.
Los creadores de IA insisten en que si alguien publica contenidos en Internet para que la gente los lea, son para ser leídos. El hecho de que el editor o el propietario de los derechos de autor no haya encontrado formas adicionales de obtener ingresos de sus obras no significa que los enfoques emprendedores alternativos deban desembolsar nada, ni siquiera diez céntimos. Si vos ponés tus cosas en la red para que los humanos las vean y las consuman, es lógicamente razonable afirmar que la IA puede hacer lo mismo.
Hace unos meses, un artículo de blog de Harvard Law Review titulado "NYT v. OpenAI: The Times's About Face" (NYT contra OpenAI: la cara oculta del Times), de Audrey Pope, 10 de abril de 2024, hacía estos destacados comentarios en general sobre esta particular batalla legal que nos ocupa (extractos):
- "El New York Times demandó a OpenAI y Microsoft por el uso no permitido de artículos del Times para entrenar modelos de lenguaje de gran tamaño GPT".
- "Estas herramientas son grandes modelos lingüísticos (LLM), que se construyen mediante "entrenamiento" en corpus masivos de texto".
- "En la raíz de la denuncia está que este conjunto de datos contiene una "masa de contenido protegido por derechos de autor del Times".
- "La alegación central es que OpenAI está infringiendo los derechos de autor mediante el uso y la reproducción sin licencia y sin autorización de obras del Times durante el entrenamiento de sus modelos".
- El caso podría tener un impacto significativo en la relación entre la IA generativa y la ley de derechos de autor, en particular con respecto al uso justo, y podría determinar en última instancia si se construyen modelos de IA y cómo se construyen.
Lo esencial de las consideraciones en curso
Todo está en juego. Cuando saco a colación este tema en las conferencias sobre IA durante mis diversos discursos y presentaciones, algunos dejan de prestar atención al instante porque suponen falsamente que se trata sólo de un montón de disputas legales y sólo un tema de importancia para los de la IA y los abogados que hacen dinero con esto.
Hay mucho más.
Asumamos que la IA generativa es una forma potente que seguirá impregnando nuestra vida cotidiana en casa, en el trabajo y en los juegos. Se está convirtiendo en omnipresente. A veces se utiliza de forma autónoma, como en el caso de ChatGPT, GPT-4o, Claude, Gemini, Bard, etc., mientras que en muchos otros casos, la IA generativa está integrada en otras aplicaciones. Casi todos los tipos de aplicaciones acabarán teniendo una conexión con una aplicación de IA generativa. Puede que sea en el backend, y que no se acceda a ella abiertamente, pero está ahí por debajo y se confía plenamente en ella.
La forma habitual de conseguir una IA generativa moderna implica utilizar un gran modelo de lenguaje o LLM como pilar fundamental.
En resumen, se establece un modelo informático del lenguaje humano que a gran escala tiene una estructura de datos y realiza un ajuste de patrones a escala masiva a través de un gran volumen de datos utilizados para el entrenamiento inicial de los mismos. Éstos se suelen encontrar escaneando ampliamente Internet en busca de montones y montones de ensayos, blogs, poemas, narraciones y similares. El emparejamiento matemático y computacional de patrones se centra en cómo escriben los humanos y, a partir de ahí, genera respuestas a las preguntas planteadas aprovechando esos patrones identificados. Se dice que imita la escritura de los humanos.
Volviendo al quid de la cuestión.
En general, la enorme cantidad de datos que se utilizó para idear aplicaciones de IA generativa tuvo un costo casi nulo para sus creadores. Así es, dije un costo casi nulo. Aparte de su software y de los servidores necesarios para realizar el escaneado de Internet, rara vez pagaron algo por el contenido real escaneado. Todos esos volúmenes colosales de datos fueron necesarios para llevarla a la condición o estado computacional que ahora conocemos como relativamente fluido en el patrón de la escritura humana.
Lo consiguieron por casi nada.
Los datos son tan vitales para el avance continuo de la IA generativa que existe una preocupación abrumadora sobre si hay suficientes datos en Internet para sostener el crecimiento de la IA generativa, Podés ver mi análisis en este enlace. La preocupación es que con los creadores de IA buscando en todos los rincones imaginables de Internet, se quedarán sin datos en algún momento (las conjeturas van desde dentro de 5 años hasta otros que dicen que es más bien para el año 2050). Una alternativa que se baraja es hacer que produzca datos, conocidos como datos sintéticos, e introducirlos en la IA generativa para un entrenamiento adicional, lo que algunos temen que lleve a lo que se conoce como un colapso catastrófico del modelo.
Algunas personas comparan los datos con el petróleo. Proclaman que la necesidad y la búsqueda de datos es análoga a la búsqueda de petróleo. Todos somos conscientes de que la maquinaria moderna, como autos, aviones, etc., depende de la disponibilidad de petróleo. El petróleo es lo que hace girar al mundo, según dicen. La idea es que los datos son lo que hace funcionar la IA generativa. El petróleo es un bien precioso. También los datos.
Sin datos, no hay IA generativa
Considerá lo que presagian las demandas actuales contra los fabricantes de IA. Supongamos que los tribunales deciden que los creadores de IA hicieron una estafa virtual y ahora deben pagar a los editores y a los propietarios de los derechos de autor alguna compensación por lo ocurrido. Observá que no se trata simplemente de una base de pago a futuro. La idea es que también hay que pagar por lo anterior. Todos esos datos que ya se escanearon deberían tener un reembolso monetario a los editores y a los propietarios de los derechos de autor.
No hay problema, pensarás, esos creadores de IA se estuvieron enriqueciendo y, desde luego, pueden permitirse unos cuantos céntimos aquí y allá para pagar a las editoriales y a los propietarios de los derechos de autor. Sin embargo, el objetivo de algunos editores y propietarios es recibir una compensación considerable. Además, buscan imponer sanciones económicas significativas. Imaginalo como los intereses adeudados por el uso no autorizado de esos datos. Una tarificación retroactiva debería servir de advertencia a los creadores de IA por su supuesta intrusión escandalosa y su transgresión sin disculpas.
Algunos sostienen que esto podría significar el fin de los creadores de IA, dejando a las aplicaciones de IA generativa en un segundo plano.
Las aplicaciones de IA generativa existentes apenas podrían seguir funcionando. Dejarían de ser avanzadas porque el costo de los datos superaría lo que se puede pagar. Al igual que la analogía de los datos con el petróleo, si el petróleo se vuelve demasiado caro, todo el mundo que depende de él para hacer funcionar la maquinaria también se vería afectado. La IA generativa se extinguiría rápidamente debido al exorbitante precio de los datos disponibles. Esta es, en parte, la razón por la cual la idea de sustituir los datos con artificiales, que son baratos de producir, está siendo investigada (para más detalles, vean mi discusión en este enlace).
Otra cosa que podría ocurrirles a los creadores de IA es que si éstos no están dispuestos a pagar o desean evitar hacerlo, al menos deberían verse obligados legalmente a eliminar cualquier cosa de su respectiva aplicación de IA generativa que se base en el escaneo de dichos datos protegidos por derechos de autor. Parece fácil. Si la aplicación de IA generativa utilizó tal o cual dato protegido por derechos de autor durante el escaneado, basta con entrar en la IA generativa y eliminar cualquier aspecto que dependiera de esos datos. La eliminación es una especie de solución considerada.
Como se ve en el enlace de acá, la eliminación de todas y cada una de las facetas internas que están interconectadas con escaneos de datos particulares es una tarea enorme y bastante problemática tecnológicamente para intentar llevarla a cabo. Se está investigando mucho sobre el llamado "desaprendizaje" con respecto a la IA generativa. Los avances son lentos. Es un problema difícil de resolver.
Lo más probable es que su eliminación fuera costosa, suponiendo que pudiera hacerse a gran escala. También sería inesperado conseguirlo todo, y quedarían aspectos residuales. Peor aún, es probable que el resultado socavara la IA generativa de tal manera que ésta se hubiera hecho pedazos y ya no funcionara en absoluto como lo hacía antes de emprender este proceso.
Un punto de vista es que los creadores de la IA bien podrían desechar lo que idearon y empezar de nuevo, empezando de cero y asegurándose esta vez de hacer tratos con los editores y los propietarios de los derechos de autor (probablemente hayas visto en las noticias que esos tratos ya se están haciendo, en parte para hacer frente al sórdido pasado que se cierne sobre los creadores de la IA y en parte para hacer que el camino futuro esté menos lleno de baches legales). Empezar de nuevo tiene muchos inconvenientes.
Una respuesta a esta situación es que no deberíamos sentir lástima ni mostrar empatía por los creadores de la IA.
Ellos mismos se metieron en este lío. Escanearon datos con gusto sabiendo o debiendo saber que estaban protegidos por derechos de autor. Deberían haber pedido permiso desde el principio. En lugar de eso, decidieron tomar lo que querían primero y responder a las preguntas después. Es el clásico comportamiento de esos magos de la IA cargados de ego y excesivamente confiados. Los riesgos eran elevados y pensaron que algún día tendrían que lidiar con las consecuencias, tal vez, si finalmente los agarraban con las manos en la masa.
Hasta ahora, tuvieron una buena tajada. Algún día tendrán que afrontar las consecuencias. Eso es lo que algunos editores y propietarios de derechos de autor proclaman como base de sus demandas judiciales.
Esto sería como pegarnos un tiro en el pie.
Nos estamos convirtiendo en altamente dependientes de la IA generativa. Si los creadores de IA no pueden mantener la IA generativa o no avanzan, las esperadas curas del cáncer gracias a la IA generativa no se van a materializar. La sociedad va a sufrir un retroceso. La IA generativa se convirtió en algo demasiado grande e importante como para permitir que flaquee o fracase.
De hecho, todo el asunto se parece escalofriantemente a un juego, en el que los editores y los propietarios de derechos de autor se dirigen directamente contra los creadores de IA, y éstos contra ellos, por lo que parece estar en juego un choque con consecuencias para todos los implicados. ¿Saldrán todos heridos? ¿Saldrá herido sólo uno de los bandos? ¿Nadie saldrá herido?
Nadie puede asegurarlo.
La esencia de los derechos de autor es el factor clave
Volviendo a las batallas legales en curso, la cuestión clave es si el uso de datos de Internet protegidos por derechos de autor para entrenar IA generativa se considerará una violación de las leyes de propiedad intelectual.
Esto puede resolverse de dos maneras.
Si los tribunales determinan que la IA generativa no infringe las leyes, los creadores de IA estarán eufóricos y seguramente lo celebrarán con champán. Por otro lado, los editores y propietarios de derechos de autor sentirán que se los perjudicó y que sus derechos no fueron protegidos adecuadamente.
Si los tribunales fallan a favor de que la IA generativa viola los derechos de autor, la cuestión será cómo compensar a quienes fueron perjudicados. Esto se resolvería caso por caso, aunque los precedentes legales anteriores influirán, así como cualquier fallo inicial que establezca una referencia.
Los creadores de IA se enojarán si pierden. Es de esperar que apelarán y el asunto podría prolongarse durante años en los tribunales.
Es probable que se entablen negociaciones para llegar a un acuerdo, lo que daría a los editores y propietarios de derechos de autor una ventaja adicional al tener un fallo a su favor. Ya hay un tira y afloja sobre si los creadores de IA deben intentar resolver los casos legales existentes ahora o esperar a ver qué pasa. El dinero está potencialmente disponible ahora para los propietarios de derechos de autor, lo que podría ser beneficioso, pero probablemente no tanto como una bonanza de dinero más adelante si las victorias son contundentes.
Se trata de una tirada de dados.
Las consecuencias en general serán en cascada si la demanda por infracción prevalece. En primer lugar, el ganador de una batalla legal concreta tratará de obtener algún tipo de pago del fabricante de IA declarado infractor. En segundo lugar, otros editores y propietarios de derechos de autor que no hayan emprendido acciones legales se animarán a hacerlo. Se producirá una avalancha de dinero. Otros fabricantes de IA que pueden estar bajo el radar ahora mismo también se convertirán en nuevos objetivos de demandas y/o diálogos para hacer acuerdos antes de ir por la vía judicial. El vencedor que se enfrentó a un fabricante de IA mirará a su alrededor para ver qué otros fabricantes de IA son también probables infractores.
Y así sucesivamente, la pelota rebota, como suele decirse.
La pregunta del millón, entonces, sobre la que debemos reflexionar detenidamente es si la IA generativa concebida de la manera prescrita es, de hecho, una forma de infracción de los derechos de autor.
¿Qué opinás al respecto?
Yo diría que deberíamos examinarlo más de cerca. Lo primero que hay que examinar es lo que constituyen los derechos de autor, la infracción de los derechos de autor y los elementos relacionados.
Acá una definición práctica de los derechos de autor en EE.UU.:
- La infracción de los derechos de autor es el uso no autorizado de la obra de otro. Se trata de una cuestión legal que depende, en primer lugar, de si la obra está o no protegida por derechos de autor, así como de aspectos específicos como cuánto se utiliza y la finalidad del uso. Si se copia demasiado de una obra protegida, o se copia con un fin no autorizado, el simple reconocimiento de la fuente original no resolverá el problema. Sólo solicitando el permiso previo del titular de los derechos de autor se evita el riesgo de ser acusado de infracción - (Facultad de Derecho de la Universidad de Duke, publicación en la web).
Veamos cómo afecta esa definición a la IA generativa y a la producción de resultados de IA generativa.
La IA generativa se concibe habitualmente para realizar un ajuste de patrones cuando se lleva a cabo el entrenamiento inicial de los datos. En cierto sentido, se construye una plantilla de lo que escriben los humanos mediante el escaneo de montones y montones de ensayos. Además, normalmente, se utiliza un enfoque probabilístico o estadístico al generar un ensayo o texto como salida. Esto ayuda a producir lo que parecen ser nuevos ensayos o salidas de texto totalmente únicos cada vez que se formula una pregunta a la IA o se introduce una indicación. De lo contrario, cada vez que se generara una redacción o un texto de salida, podría parecer, palabra por palabra, exactamente igual a una salida anterior que hubiera generado la IA.
Sin embargo, existe un problema potencial.
A veces, la coincidencia de patrones no se presenta como una plantilla, sino como una copia digital palabra por palabra de algo que se escaneó. Esto podría luego reproducirse textualmente como salida, mostrando prácticamente una copia exacta del contenido escaneado. Es un territorio arriesgado que sugiere una infracción casi flagrante de los contenidos protegidos por derechos de autor que fueron escaneados sin licencia o sin el permiso explícito del propietario de los derechos.
Ese es el talón de Aquiles para los creadores de IA y sus aplicaciones de IA generativa.
Debe tener derechos de autor y ser susceptible de derechos de autor
Ahora llegamos al giro importante que mencioné antes.
La regla general es que una obra protegida por derechos de autor debe estar protegida formalmente, por ejemplo, mediante la obtención de una certificación oficial gubernamental de derechos de autor, y también debe ser susceptible de derechos de autor. Esto significa que, si escribís una historia y obtenés formalmente un copyright para ella (también hay un aspecto implícito de copyright, pero no voy a entrar en eso acá), tu obra está protegida. Acá el enlace.
Felizmente, obtenés la certificación oficial de derechos de autor y crees que hiciste todo lo que tenías que hacer. Resulta que puede que no estés tan contento como suponías, ya que, unos meses más tarde, aparece un tercero que escribió una historia que parece infringir tus derechos de autor.
Decidís demandarlos por infracción.
Es probable que primero quieran ver pruebas de que tu obra está protegida por derechos de autor, junto con la fecha en que lo fue realizado el trámite y cualquier otra cosa que pueda empañar tu afirmación de que tu obra está protegida. Es una línea de ataque que cualquier abogado emprendería. Socavar los derechos de autor y, por lo tanto, reducir la reclamación de infracción.
Otra línea de ataque viable es si tu contenido supuestamente protegido por derechos de autor es susceptible de derechos de autor. Si no es así, se encuentra en una posición difícil. Supongamos, por ejemplo, que tu historia es en realidad una copia palabra por palabra de una historia que escribió otra persona. Supongamos que tu relato viola o infringe los derechos de autor de otra persona (y supongamos que esto no es jurídicamente defendible, aunque estoy seguro de que lo intentarías). En cierto sentido, no tenés algo sujeto a derechos de autor, a pesar de que creías que sí, aunque hayas registrado el contenido y obtenido una certificación de derechos de autor.
Ahora estás perjudicado.
Me gustaría subrayar que estoy simplificando la naturaleza de los derechos de autor y que existe mucha complejidad adicional. Te insto a que te asegures de contar con un buen abogado especializado en derechos de propiedad intelectual que te ayude a proteger suficientemente cualquier contenido que tengas. Los derechos de autor son un asunto bizantino, eso seguro.
Por ejemplo, hay varias limitaciones asociadas de hasta dónde llega la ley de derechos de autor, considerá estos puntos cruciales:
- "Los derechos de autor no protegen las ideas, sólo la expresión específica de una idea. Por ejemplo, un tribunal decidió que Dan Brown no infringió los derechos de autor de un libro anterior cuando escribió El Código Da Vinci porque lo único que tomó prestado de la obra anterior fueron las ideas básicas, no los detalles específicos de la trama o el diálogo. Dado que los derechos de autor pretenden fomentar la producción creativa, utilizar las ideas de otra persona para elaborar una obra nueva y original defiende el propósito de los derechos de autor, no los infringe. Sólo si uno copia la expresión de otro sin permiso se infringen potencialmente los derechos de autor" (Facultad de Derecho de la Universidad de Duke, publicación en la página web).
Existen numerosas excepciones permitidas para poder copiar legalmente materiales protegidos por derechos de autor, como menciona esta nota citada de la página web de la Oficina de Derechos de Autor de EE.UU. (extracto): - "Las excepciones y limitaciones de la Ley de Derechos de Autor que se encuentran en las secciones 107-122 incluyen el uso justo, la "doctrina de la primera venta", algunas reproducciones por parte de bibliotecas y archivos, ciertas actuaciones y exhibiciones, transmisiones de programas de radiodifusión por cable y satélite, por nombrar algunas. ¿Te interesa obtener más información sobre el uso justo? Echá un vistazo a nuestro Índice de uso legítimo. La lista completa de exenciones a la protección de los derechos de autor se encuentra en el Capítulo 1 del Título 17 del Código de los Estados Unidos. También puede utilizar obras que sean de dominio público. Las obras de dominio público son aquellas que nunca estuvieron protegidas por derechos de autor (como hechos o descubrimientos) o las obras cuyo plazo de protección finalizaron, bien porque finalizó, bien porque el propietario no cumplió una formalidad requerida previamente. En la actualidad, todas las obras estadounidenses anteriores a 1926 son de dominio público porque la protección de los derechos de autor finalizó para esas obras" (página web de la Oficina de Derechos de Autor de Estados Unidos).
Es posible que hayas observado en esa descripción citada que los elementos considerados de dominio público pueden utilizarse normalmente sin invocar una violación de los derechos de autor.
Aquí te subimos cómo se plantea eso en relación con la IA generativa.
Algunos creadores de IA intentan a veces limitar su IA generativa a que los datos se entrenen únicamente con obras que son de dominio público y que también se encuentran en bibliotecas de acciones online para cuyo uso se les concedió la licencia. En definitiva, el objetivo es entrenar los datos únicamente con contenidos sobre los que haya poca o ninguna posibilidad de que se produzca una infracción de los derechos de autor. Si su elemento generativo producido por la IA es idéntico a un elemento de dominio público, presumiblemente no tendrá problemas. Si su objeto producido por la IA generativa es idéntico a un objeto de la biblioteca de acciones online para el que el fabricante de la IA le concedió una licencia, presumiblemente no tendrá problemas si se atiene a cualquier otra estipulación que el fabricante de la IA haya impuesto sobre la realización de dicha copia (asegúrese de revisar detenidamente el acuerdo de licencia de la aplicación de IA generativa).
Desde luego, podés alegrarte que este enfoque basado en el entrenamiento de datos te ayude.
Se plantean cuestiones como si se dispone de suficientes datos de este tipo. Otro factor es el costo que supone pagar a las bibliotecas de acciones online por el acceso y el uso de sus materiales protegidos por derechos de autor. La relativa escasez de datos de dominio público y el exorbitante costo de obtener acceso a datos de precio tasado podrían no ser suficientes para elaborar una IA generativa digna de nuestra embelesada atención. Será insignificante en comparación con la IA generativa a la que estamos sólidamente acostumbrados ahora. Esa lúgubre IA generativa es esencialmente una IA generativa sin valor o inútil.
Bien, digamos que el escaneo de datos protegidos por derechos de autor va a estar generalmente permitido (así lo decretaremos), pero aseguráte que la IA generativa no se pasa de la raya y no puede usar palabra por palabra como un imitador. Basta con echar un vistazo a los ensayos y textos protegidos por derechos de autor, hacer un cotejo de patrones a una distancia prudencial y acabar con todo este enredo.
Lo siento, eso tampoco es tan bueno.
Recordemos que la definición utilizada anteriormente sobre los derechos de autor es que se puede ser un infractor incluso si no se copia íntegra y precisamente el artículo protegido por derechos de autor. La indicación era que si "uno copia demasiado de una obra protegida" es cuando puede meterse en problemas. Se trata de un ámbito poco preciso, y es probable que las partes contrarias presenten argumentos legales de que o bien se copió demasiado de una obra protegida o bien la copia cayó por debajo de un umbral argumentado.
La llegada de la IA generativa planteó una serie de cuestiones espinosas sobre las leyes de derechos de autor.
Quizá haya que perfeccionar las leyes existentes para tener en cuenta los aspectos de la IA generativa. Algunos exhortan a que hace tiempo que se deberían haber revisado las leyes de derechos de autor, y que la IA generativa es un detonante bienvenido para hacerlo. Algunos creen que no se necesitan nuevas leyes ni cambios en las leyes. Creen que las leyes tradicionales de derechos de autor son plenamente aplicables y manejan la gama de todo lo que la IA generativa plantea legalmente.
Reciente defensa de OpenAI en el caso del New York Times
En el caso legal actual del New York Times que acusa a OpenAI de infringir derechos de autor, las partes están en la fase de descubrimiento. Seguro conocés esta etapa por casos judiciales de alto perfil que se transmiten en vivo o se difunden en videos grabados en las redes sociales (además de las numerosas películas de ficción y programas de televisión que representan de manera semirrealista estos procesos judiciales).
Cada parte intenta que la otra muestre lo que tiene, casi como cuando se juega una partida de póquer y se espera descubrir qué cartas tiene la otra parte.
El juez debe con frecuencia tomar decisiones difíciles sobre las peticiones de cualquiera de las partes. No todo lo que se solicita será necesariamente aplicable desde el punto de vista legal y el juez rechazará tales peticiones. Por lo general, las partes intentan conseguir lo que creen que será mejor para sus intereses, actuando como defensores a ultranza de su parte del caso. Plantearán o harán argumentos legales que el juez revisará y entonces el juez decidirá o dictaminará si las diversas peticiones pueden seguir adelante, incluyendo hasta qué punto una determinada petición debe ser cumplida por la otra parte del caso.
Tenelo en cuenta mientras analizamos las recientes presentaciones.
OpenAI presentó el 1 de julio de 2024 una documentación que está a disposición del público sobre el proceso de descubrimiento en curso, proporcionando una visión útil de las idas y venidas durante esta fase del caso. A continuación, ofreceré algunos extractos de esa presentación, correspondiente al caso "The New York Times Company contra Microsoft Corp. y otros", Caso nº 1:23-cv-11195-SHS. También mostraré partes de la respuesta presentada por los abogados del New York Times, fechada el 3 de julio de 2024.
Si te interesa este complejo asunto legal, te recomiendo leer los escritos completos de ambas partes para entender en su totalidad los temas de descubrimiento que se están tratando. Aquí solo selecciono algunos puntos destacados.
En la presentación del 1 de julio de 2024, OpenAI explica por qué está solicitando diversos materiales del New York Times como parte del proceso de descubrimiento (extracto):
- "El descubrimiento de esas obras protegidas por derechos de autor es directamente relevante tanto para la reclamación del Times de infracción de los derechos de autor como para las defensas de OpenAI (como el uso justo, que examina, entre otras cosas, varios aspectos de las obras en cuestión). El Times sólo puede alegar infracción sobre aquellas partes de las obras que son (a) originales del autor, y (b) propiedad o licencia exclusiva del Times". (ibid).
OpenAI argumenta que existe una base sólida para su solicitud de revelación de pruebas, buscando materiales del New York Times para determinar si las obras cuya infracción se reclama son susceptibles de derechos de autor y están protegidas por los mismos.
OpenAI parece estar buscando datos concretos sobre cómo fueron concebidas por NYT las obras en cuestión. Así, la expresada necesidad de poder inspeccionar las notas del reportero, los materiales que se utilizaron en la formulación de las obras y otros aspectos relacionados (extracto):
- "Cualquier ambigüedad se resolvió durante las conferencias de las partes cuando OpenAI explicó que buscaba 'notas del reportero subyacente, memos de entrevistas, registros de materiales citados u otros archivos para cada obra reivindicada'". (ibid).
OpenAI sostiene que esta solicitud es de buena fe y por razones adicionales (extracto):
- Dicho descubrimiento también es relevante para otras afirmaciones que el Times hizo, incluidas las relativas a cómo creó las obras en cuestión. El Times alega, por ejemplo, que para producir periodismo de primera clase", invierte una enorme cantidad de tiempo, experiencia y talento, incluso a través de profundas investigaciones -que normalmente llevan meses y a veces años informar y producir- sobre áreas complejas e importantes de interés público. Habiendo optado por poner directamente en cuestión cómo creó el Times las obras en cuestión -incluyendo los métodos, el tiempo, el trabajo y la inversión- OpenAI tiene derecho a que se descubra lo mismo". (ibid).
En resumen, OpenAI busca conocer los detalles del desarrollo de las obras protegidas por derechos de autor en cuestión.
¿Es una solicitud razonable o un exceso? ¿Debería el juez aprobarla o rechazarla? ¿Cuáles son las razones para cada decisión?
Las preguntas abundan.
Tomate un momento para reflexionar sobre esto desde ambos lados del caso en cuestión.
Desde la perspectiva de un editor, esto puede resultar inquietante. Los editores y propietarios de derechos de autor podrían verse obligados a revelar sus secretos más profundos y oscuros sobre cómo crean sus obras publicadas. Como sabés, siempre hubo una lucha constante para proteger a los periodistas de investigaciones externas y garantizar la inviolabilidad de la libertad de prensa. Este enigma fue una preocupación social desde los tiempos de la Constitución.
Incluso si se pudieran excluir las facetas privilegiadas de alguna manera, ¿la revelación de los procesos internos de creación de noticias podría reflejarse negativamente en un editor y sus periodistas? Sería como entrar en una cafetería y pasear por la trastienda para ver cómo se prepara y cocina la comida. A veces, eso está bien; otras veces, puede resultar desconcertante.
¿Qué cree que dirían los abogados del NYT a este intento de descorrer el velo?
En la respuesta del NYT, fechada el 3 de julio de 2024 y disponible públicamente en el marco de este caso judicial, el periódico respondió con firmeza.
Acá un extracto:
- "La afirmación de OpenAI que necesita todas las "notas del reportero, memorandos de entrevistas, registros de materiales citados u otros 'archivos' de cada obra reivindicada" -supuestamente para determinar si las obras del Times son de hecho propiedad intelectual protegible- no tiene precedentes y pone patas arriba la ley de derechos de autor. OpenAI no cita ninguna jurisprudencia que permita un descubrimiento tan invasivo, y por una buena razón. Está muy fuera del alcance de lo permitido por las Reglas Federales y no tiene otro propósito que el acoso y la represalia por la decisión de The Times de presentar esta demanda". (ibid).
Continúan diciendo también esto:
- "Permitir que OpenAI investigue el proceso privilegiado de recopilación de noticias de The Times tendría graves consecuencias negativas y de gran alcance. Implicaría la divulgación de los archivos confidenciales de los reporteros de The Times sobre reportajes de investigación de asuntos muy delicados, incluidos los relacionados con los propios demandados. La petición de OpenAI impone una carga indebida al Times que es desproporcionada (y, de hecho, totalmente ajena) a las necesidades de este caso". (ibid).
Y, en un lenguaje bastante provocador, subrayan esto
El Tribunal debería rechazar el intento de OpenAI de usar el descubrimiento como una herramienta para acceder a información confidencial e irrelevante que respalda los reportajes de The Times. No está en juicio el proceso de recopilación de noticias del Times, sino la infracción de OpenAI y Microsoft sobre millones de obras registradas con derechos de autor de The Times.
Eso suena bastante contundente. Así son las cosas en el amor, la guerra y las batallas legales.
Volviendo al ojo por ojo.
En la presentación del 1 de julio por parte de OpenAI, en general habían anticipado un desaire legal y habían declarado de forma preventiva que (extractos):
- "Para empezar, la Ley del Escudo de Nueva York no es aplicable porque este caso no implica una reclamación bajo la ley estatal". (ibid).
- "Y el privilegio de los reporteros en virtud de la ley federal no justifica la retención de los materiales en cuestión aquí porque (i) son de probable relevancia para una cuestión significativa en el caso -si el Times está haciendo valer la protección de los derechos de autor sobre obras o partes de las mismas en las que no tiene derechos de autor- y (ii) no son razonablemente obtenibles de otras fuentes disponibles". (ibid).
Esto sigue y sigue en ambas presentaciones. Creo que se entiende la idea general.
Las partes también discuten sobre otras facetas, como las certificaciones de derechos de autor, pero preveo que esas disputas se resolverán de alguna manera. Los otros elementos no tienen el mismo grado de contención y magnitud. Revelar los detalles internos del proceso, bueno, ese es el gran tema en la sala.
Este vistazo es solo un poco de las estrategias y tácticas legales enfrentadas que surgen a medida que se producen numerosos movimientos y contramovimientos en un caso de esta envergadura. Hay mucho en juego. Se trata de pesos pesados enfrentados. Las consecuencias son enormes para ellos y, sobre todo, para el futuro de la IA generativa.
Desde la perspectiva de un observador, esto representa un desafío significativo.
La importancia de este tema
Analicemos por qué exigir la divulgación de las notas de los reporteros y otros materiales es tan controvertido y debatido.
Una perspectiva es que, si este caso judicial específico procede a hacer cumplir tal solicitud, otros casos similares podrían seguir el mismo camino. Esto podría ser positivo o negativo, dependiendo de tu punto de vista. De repente, muchos periodistas podrían verse obligados a revelar legalmente aspectos de sus reportajes que hasta ahora se creían protegidos.
Podrías argumentar que ya existen pocas excepciones a la regla, pero entonces surge la cuestión de si la "mera" infracción de los derechos de autor es una causa lo suficientemente elevada e importante como para justificar un paso tan audaz. Algunos dirían que se está abriendo la caja de Pandora. ¿En qué sentido? Los creativos malintencionados podrían entablar demandas por derechos de autor con el principal objetivo de acceder a las notas del periodista, mientras que los problemas de derechos de autor del caso en sí les importan menos. Es una especie de caballo de Troya.
Eso cubre el enigma de lo que me viene a la mente.
Otro sería la vergüenza potencial y el daño a la reputación que podría suponer para el editor o el propietario de los derechos de autor. Si el público en general cree que los periodistas trabajan diligentemente y con sumo cuidado, pero si las notas y los materiales sugieren lo contrario, será un día oscuro para esos periodistas y para el periodismo de campo en general.
Tal vez esos puntos te hagan pensar que esa petición no está justificada.
Veamos cuál puede ser el otro punto de vista.
Si la IA generativa va a ser potencialmente afectada por cuestiones de derechos de autor, y si en el fondo de nuestro corazón creemos que la IA generativa proporciona un gran beneficio público, entonces es fundamental estar completamente seguros de que realmente se produjo una infracción de los derechos de autor. Si los derechos de autor no son válidos por cualquier razón legal, habría que explorar todas las posibilidades para demostrar por qué es así. No permitamos que una revisión superficial determine el destino de la IA generativa.
En cuanto al daño a la reputación, este es un asunto que recae sobre los hombros de quienes realizan el trabajo periodístico. Éstos deben estar dispuestos a mantener la cabeza alta y sentirse orgullosos del trabajo que realizan, no solo en los resultados, sino también mostrando abiertamente la minuciosidad y la fiabilidad de cómo se obtuvieron esos resultados.
¿Eso te inclina hacia otra dirección?
En definitiva, podés ver que esta es una decisión difícil de tomar. Cada lado tiene un argumento legal convincente. Y cada uno se burla del otro diciendo que no tiene un caso sólido. Así es, un día más en el campo contencioso del derecho.
Nada está claro.
Otro punto de vista intrigante es si obligar a los editores a mostrar su trabajo subyacente podría revelar algo más de gran interés para este caso legal específico sobre el uso de la IA generativa.
El asunto es el siguiente.
Existe una doctrina jurídica conocida como "tener las manos sucias". La idea es bastante clara: si una de las partes incurrió en alguna mala conducta, su capacidad para defenderse se ve mermada y deben pagar por esto. Si ambas partes en un conflicto tienen las manos sucias, podría considerarse una especie de paridad. Tal vez se les diga a ambas que se retiren, manteniendo el statu quo, porque ninguna de las partes estaba en una posición ética sólida.
Acá hay una definición formal de esta construcción legal que implica manos limpias y manos sucias (extracto):
- "La doctrina de las manos limpias es el principio según el cual la propia falta de equidad de una parte impide la recuperación basada en reclamaciones o defensas equitativas. La doctrina exige que una parte actúe con equidad en el asunto para el que busca un remedio. Una parte que violó un principio equitativo, como la buena fe, se describe como que tiene "manos sucias". La doctrina de las manos limpias se invoca cuando una parte que busca un remedio equitativo o que reclama una defensa basada en la equidad ha violado por sí misma un deber de buena fe o ha actuado de forma desleal en relación con el mismo asunto del que reclama un derecho de remedio". (Facultad de Derecho de Cornell, Instituto de Información Jurídica, publicación "Clean-Hands Doctrine").
Un caso crucial del Tribunal Supremo de EE.UU. de 1945 sentó las bases de esta doctrina (extracto): - Esta máxima es mucho más que una mera banalidad. Es una ordenanza autoimpuesta que cierra las puertas de un tribunal de equidad a quien esté manchado de iniquidad o mala fe en relación con el asunto en el que busca reparación, por muy impropio que haya sido el comportamiento del demandado. Esa doctrina está arraigada en el concepto histórico del tribunal de equidad como vehículo para hacer cumplir afirmativamente los requisitos de conciencia y buena fe. (Tribunal Supremo de EE.UU., Precision Instrument Mfg. Co. contra Automotive Maintenance Machinery Co., 324 U.S. 806, 1945).
Varios otros casos legales han refinado el alcance y la naturaleza de esta doctrina, indicando generalmente que la cuestión de tener las manos limpias o sucias debe ser pertinente al tema central del asunto y no a cuestiones periféricas. Aquí algunos extractos:
- La doctrina de las manos sucias no niega la reparación a un demandante culpable de cualquier mala conducta pasada; sólo la mala conducta directamente relacionada con el asunto en el que busca reparación activa la defensa - (Bodega Kendall-Jackson contra Tribunal Superior, 76 Cal. App. 4th 970, Cal. Ct. App., 1999).
¿Cómo encaja esto con la IA generativa?
Imaginate esto. Quiero que te alejes de cualquier caso judicial existente. Hacé un experimento mental conmigo.
La IA generativa son datos entrenados sobre montones de material aparentemente protegido por derechos de autor en Internet. Esto se presenta como manos sucias. Supongamos que, tras un examen más detallado, el material del que se dijo que tenía derechos de autor hubiera seguido el mismo tipo de aprovechamiento y se hubiera apoyado en otros materiales con derechos de autor para idear el contenido que ahora se impugna por ser escaneado y violar los derechos de autor. Los humanos, quizás en el papel de reporteros o periodistas, digamos que fueron por ahí y "escanearon" montones de materiales protegidos por derechos de autor y luego en sus mentes los reajustaron para convertirlos en contenidos aparentemente protegidos por derechos de autor.
¿Podríamos decir quizás que se trata de otro caso de manos sucias? Podríamos ver esto como que ambas partes enfrentadas tienen las manos sucias. Si es así, el que afirma haber sido perjudicado por la infracción de los derechos de autor hizo esencialmente lo mismo que hicieron aquellos a los que acusa. Claro, uno podría ser por cognición humana, mientras que el otro por esfuerzos matemáticos y computacionales de IA, pero ambos presumiblemente mezclan obras anteriores protegidas por derechos de autor para hacer sus presuntas obras proclamadas protegibles por derechos de autor.
Pensá en esto. Hay puntos y contrapuntos, que voy a dejar para otro post ya que me estoy alargando en esta discusión.
Conclusión
¿Es el asunto legal de la IA generativa y los derechos de autor una cuestión simple y obvia a simple vista, o conlleva capas y capas de intrincadas consideraciones que implican disposiciones legales, sociales, culturales y éticas?
Bienvenido a un debate oneroso que tiene implicaciones significativas.
Acá tenés algunas reflexiones finales.
Una famosa frase del jurista inglés John Selden decía lo siguiente "La ignorancia de la ley no excusa a nadie".
Sin duda, los editores y los propietarios de los derechos de autor argumentarían con vehemencia que, aunque los creadores de la IA pudieran no ser conscientes de que habían violado las leyes de derechos de autor (lo que, para los editores y los propietarios de los derechos de autor lleva la credulidad más allá de lo creíble), en cualquier caso, esto no ofrece ninguna excusa para lo que hicieron.
El enunciador romano Marco Tulio Cicerón indicó esta observación vital: "El bien del pueblo es la ley suprema".
Si los creadores de IA realmente escanearon obras protegidas por derechos de autor, y el resultado es una IA generativa asombrosamente fluida que ayuda a resolver muchos problemas clave a los que se enfrenta la humanidad, y si esto nos está conduciendo a alguna forma más avanzada de IA como la Inteligencia General Artificial (AGI) que transformará y elevará drásticamente la forma en que los humanos viven y trabajan, ¿no seríamos negligentes si tomáramos medidas drásticas en esta coyuntura?
El precio de compensar a los titulares de los derechos de autor podría perturbar y frenar el avance de la IA generativa. Es como si estuviéramos en camino de aterrizar en la luna y echáramos por tierra el viaje por un tecnicismo. Nuestros ojos tienen que estar puestos en el premio que está al final del camino. No dejemos que las indulgencias a corto plazo nos distraigan de las ventajas a largo plazo.
Acá tenés dos puntos de vista opuestos.
Como juez de sillón, seguí adelante y tomá tu desición.
Otro aspecto, cuando se trata de la ley y de tomar decisiones basadas en la ley, por favor, recuerdá las célebres palabras de Oliver Wendell Holmes Jr, considerado una de las mentes jurídicas más grandes de todos los tiempos, en las que decía claramente esto "La ley es algo vivo".
Que todos vivamos y aprendamos en armonía.