La recent demanda col·lectiva presentada en contra de GitHub, Microsoft, OpenAI i Open AI Codex, per 9 mil milions de dòlars, és l'evidència d'un problema que es veia venir per a la #intel·ligènciaartificial: el seu desenvolupament pot infringir el #copyright i cal operar amb molt de compte.
L'acció judicial esmentada qüestiona la legalitat de l'ús dels repositoris de GitHub per a l'entrenament de GitHub Copilot, un servei que autocompleta codi de programació utilitzant la intel·ligència artificial. La demanda, impulsada per Matthew Butterick, argumenta que s?han violat 11 llicències de codi obert i els drets d?autor com a tal.
Com funcionen els sistemes d'intel·ligència artificial?
I és que l'entrenament de sistemes d'IA requereix la seva alimentació amb bases de dades enormes (com les que es troben a GitHub), per al desenvolupament dels grans models de llenguatge (LLM) que potencien aquesta tecnologia.
En el cas que ens ocupa, és una gran base de dades amb codi #codi obert. Aquest codi, utilitzat per entrenar la IA, pot ser copyleft –amb llicències víriques– o amb llicències permissives –que són menys obertes-. En tot cas, requereixen el respecte pels drets de l'autor.
Això pot obligar a qui utilitza codi open source a notificar-ne l'ús, a atribuir-ne l'origen a l'autor ia adherir-se als termes de la llicència, que entre altres coses, pot requerir mantenir el codi obert per a les versions esteses o modificades o per aquell codi en què s'integri com una part.
Contingut que infringeix Drets d'Autor
Doncs bé, això no passa amb el servei de GitHub Copilot, que no només violaria aquests drets i termes, sinó que promouria la violació del copyright entre els seus usuaris, ja que aquests no són conscients que les peces de codi que autocompleten el seu pertanyen a algú més. Així, fins i tot poden estar elaborant codi comercial sense veritable llibertat d'ús del codi proveït per Github Copilot per a aquest fi.
D'aquesta mateixa manera s'estan desenvolupant els sistemes d'IA d'altres companyies com Google o Facebook. I no només estan utilitzant el codi de programació com a combustible d'aquesta tecnologia, sinó també altres tipus de textos protegits per copyright, com ara obres literàries, textos periodístics, música, etc.
Per aquesta raó, molts experts s'estan qüestionant si l'ús de les obres esmentades per alimentar el desenvolupament d'aquesta tecnologia és vàlid i quines mesures cal prendre perquè ho sigui. Per descomptat, la inspiració humana beu de les fonts i no del no-res, i és legítim que la IA faci igual, però, quines mesures cal prendre perquè la IA no generi, després de llegir aquestes fonts, contingut que infringeix drets d'autor?
Com a mínim, això obligarà les companyies que usin Github Copilot i altres eines similars a realitzar intenses auditories de codi. En cas contrari, es juguen que tota la seva feina no sigui explotable comercialment, entre altres coses.
Alberto López Cazalilla, advocat a ELZABURU


