El entrenamiento de modelos de Inteligencia Artificial Generativa (IAG) como ChatGPT o Google Gemini representa un reto por la cantidad de datos que requieren para funcionar de manera adecuada.
No sorprende por ello que OpenAI y Google hayan expresado su deseo de relajar las normativas de derechos de autor o copyright en Estados Unidos con el fin de pulir su IAG.
En ese sentido, el pasado 10 de mayo la Oficina de Derechos de Autor de los Estados Unidos lanzó el documento llamado Entrenamiento Generativo de Inteligencia Artificial (IA), tercera parte de un extenso informe del organismo en el que se expresan preocupaciones e interrogantes alrededor del uso de material protegido por copyright por parte de modelos de IAG.
Aunque es una versión preliminar, en respuesta a consultas del Congreso de Estados Unidos y las partes interesadas (empresas como OpenAI y Google), la Oficina expresó que no se esperan cambios sustantivos en el análisis o las conclusiones.
Por ello, la posición respecto al "fair use" o uso legítimo del material protegido por derechos de autor o copyright arroja algunas luces sobre el complejo entrenamiento de modelos IAG.
En primer lugar, deja claro que hacer un uso comercial de vastos conjuntos de datos de obras protegidas para generar contenido que expresamente compite con ellas en los mercados existentes, en especial si se accede a estos datos de forma ilegal, supera los límites del uso legítimo.
Trasladando esto a un ejemplo concreto. Si una productora de música para videos de publicidad u otros fines de entretenimiento, emplea un modelo de IAG entrenada con base en millones de canciones protegidas por copyright para generar contenido y ofrece sus servicios bajo una modalidad de suscripción o algún otro cobro, compitiendo directamente con creadores humanos en los mismos mercados, es posible que esto no sea considerado "fair use" por alguna autoridad judicial.
Para mayor claridad: si entrenas modelos de IAG usando material protegido no podrás lucrar con ello.
"El primer perjuicio a considerar es la 'sustitución real o potencial del mercado', es decir, si el mercado de la obra original se ve suplantado 'hasta el punto de privar al titular de los derechos de unos ingresos significativos debido a la probabilidad de que los compradores potenciales opten por adquirir la copia en lugar del original'.
"Los tribunales no solo tienen en cuenta el perjuicio derivado de un uso concreto, sino también si se produciría un 'impacto sustancialmente adverso' en el mercado en caso de que dicho uso quedará 'sin restricciones' y 'generalizado'", precisó el organismo.
El punto anterior se relaciona con otro de los puntos novedosos: el carácter de uso.
La Oficina de Copyright estableció el término "transformador", es decir, el entrenamiento con un conjunto de datos enorme y diversos de un modelo de IA fundacional, como ChatGPT, será transformador porque la herramienta resultante es distinta a los propósitos originales de las obras individuales del entrenamiento.
En otras palabras, si un gran modelo de lenguaje (LLM) es entrenado con novelas o artículos periodísticos podría usarse para ayudar a una persona a aprender un idioma extranjero, pues los contenidos en que se basó el LLM no tenían ese propósito.
La Oficina puntualizó que estos modelos serán considerados más o menos transformadores según su uso. Por ejemplo, un LLM empleado para investigación o un sistema cerrado para tareas no sustitutivas sería considerado transformador.
En cambio, será considerado menos transformador si el modelo se entrena para generar contenido similar a las obras protegidas empleadas para entrenar al LLM o que se crean para competir con ellas en el mercado.
Más claro. Si una IAG se entrena con novelas y escribe una obra del mismo estilo que compite en el mismo mercado que las obras que lo entrenaron, se considerará menos "fair use".
Finalmente, ante la complejidad que sería regular el contenido protegido por copyright, la Oficina de Derechos de Autor de los Estados Unidos se inclinó por soluciones de mercado en lugar de normativas legislativas.
Citó el ejemplo de los mercados de licencias voluntarias, o sea, autores cediendo parte de su contenido a empresas para el entrenamiento de sus modelos de Inteligencia Artificial Generativa y obtener pago o regalías por el uso de su trabajo.
El organismo consideró que la intervención gubernamental sería prematuro y recomienda dejar que el mercado de licencias se desarrolle sin obstáculos. Aunque sí sugirió al Departamento de Justicia proveer guías ante posibles creaciones de monopolios.
El informe reconoce la rápida evolución de la tecnología y el mercado, y se comprometió a seguir monitoreando la situación.
En conclusión, la Oficina aseguró que el marco legal existente, con el "fair use" en su núcleo, es adaptable, pero su aplicación debe buscar un equilibrio que fomente la innovación tecnológica sin socavar los derechos y los incentivos de quienes crean las obras que alimentan estos nuevos sistemas.
"Al abordar las reclamaciones de uso legítimo relacionadas con las nuevas tecnologías, los tribunales han tratado de promover el 'objetivo básico' de los derechos de autor de fomentar el progreso mediante la búsqueda de un equilibrio entre la protección de los derechos exclusivos de los autores sobre sus obras y la posibilidad de que otros se basen en esas obras", indicó la institución.