La reciente demanda colectiva presentada en contra de GitHub, Microsoft, OpenAI y Open AI Codex, por 9 mil millones de dólares, es la evidencia de un problema que se veía venir para la #inteligenciaartificial: su desarrollo puede infringir el #copyright y hay que operar con mucho cuidado.
La citada acción judicial cuestiona la legalidad del uso de los repositorios de GitHub para el entrenamiento de GitHub Copilot, un servicio que autocompleta código de programación utilizando la inteligencia artificial. La demanda, impulsada por Matthew Butterick, argumenta que se han violado 11 licencias de código abierto y los derechos de autor como tal.
¿Cómo funcionan los sistemas de Inteligencia Artificial?
Y es que el entrenamiento de sistemas de IA requiere de su alimentación con enormes bases de datos (como las que se encuentran en GitHub), para el desarrollo de los grandes modelos de lenguaje (LLM) que potencian dicha tecnología.
En el caso que nos ocupa, se trata de una gran base de datos con código #opensource. Este código, utilizado para entrenar a la IA, puede ser copyleft -con licencias víricas- o con licencias permisivas -que son menos abiertas-. En todo caso requieren el respeto por los derechos del autor.
Esto puede obligar a quien usa código open source a notificar de su uso, a atribuir su origen al autor y a adherirse a los términos de la licencia, que entre otras cosas, puede requerir mantener el código abierto para las versiones extendidas o modificadas del mismo o para aquel código en que se integre como una parte.
Contenido que infringe Derechos de Autor
Pues bien, tal cosa no sucede con el servicio de GitHub Copilot, que no solo violaría dichos derechos y términos, sino que promovería la violación del copyright entre sus usuarios, ya que estos no son conscientes de que las piezas de código que autocompletan el suyo pertenecen a alguien más. Así, pueden incluso estar elaborando código comercial sin verdadera libertad de uso del código proveído por Github Copilot para este fin.
De esta misma forma están siendo desarrollados los sistemas de IA de otras compañías como Google o Facebook. Y no solo están utilizando el código de programación como combustible de esta tecnología, sino otros tipos de textos protegidos por copyright, como obras literarias, textos periodísticos, música, etc.
Por esta razón, muchos expertos están cuestionándose si el uso de dichas obras para alimentar el desarrollo de esta tecnología es válido y qué medidas hay que tomar para que lo sea. Desde luego, la inspiración humana bebe de las fuentes y no de la nada, y es legítimo que la IA haga igual, pero, ¿qué medidas hay que tomar para que la IA no genere, tras la lectura de esas fuentes, contenido que infringe derechos de autor?
Como mínimo, esto obligará a las compañías que usen Github Copilot y otras herramientas similares a realizar intensas auditorías de código. De lo contrario, se juegan que todo su trabajo no sea explotable comercialmente, entre otras cosas.
Alberto López Cazalilla, abogado en ELZABURU