Meta accusata di aver usato 82TB di contenuti piratati per addestrare Llama
Meta è al centro di una class-action per presunta violazione del copyright e concorrenza sleale nell’addestramento del modello AI Llama.
Secondo documenti legali pubblicati da vx-underground, l’azienda avrebbe scaricato quasi 82 terabyte di libri piratati da archivi non ufficiali come Anna’s Archive, Z-Library e LibGen per addestrare i suoi sistemi di intelligenza artificiale.
Alcuni dipendenti avevano sollevato dubbi etici già nel 2022. Un ricercatore aveva espresso chiaramente la sua preoccupazione affermando che non sarebbe stato corretto utilizzare materiale piratato, mentre un altro aveva dichiarato che l’uso di questi contenuti avrebbe superato qualsiasi soglia etica accettabile.
Meta ha cercato di non farsi scoprire
Nonostante queste preoccupazioni, Meta non solo sembra aver proseguito nell’addestramento del modello, ma avrebbe anche preso misure per evitare di essere scoperta. Nell’aprile 2023, un dipendente avvertì di non usare indirizzi IP aziendali per accedere a contenuti piratati, mentre un altro fece notare che scaricare torrent da un laptop aziendale non sembrava una buona idea, aggiungendo un’emoji di risata.
Ci sarebbero state anche discussioni interne su come evitare che l’infrastruttura di Meta fosse direttamente collegata ai download, sollevando dubbi sul fatto che l’azienda potesse aver deliberatamente cercato di aggirare le leggi sul copyright.
Nel gennaio 2023, Mark Zuckerberg avrebbe partecipato a una riunione in cui avrebbe spinto per l’implementazione dell’intelligenza artificiale all’interno della società, nonostante le obiezioni interne.
Meta non è l’unica azienda a dover affrontare cause legali per l’addestramento dei suoi modelli. OpenAI è stata citata in giudizio più volte per l’uso non autorizzato di libri protetti da copyright, incluso un caso avviato dal New York Times nel dicembre 2023.
Anche Nvidia è sotto osservazione per aver addestrato il modello NeMo su quasi duecentomila libri. Inoltre, un ex dipendente ha rivelato che l’azienda raccoglieva ogni giorno oltre quattrocentoventiseimila ore di video per lo sviluppo dell’intelligenza artificiale.
Di recente, OpenAI ha anche accusato DeepSeek di aver ottenuto in modo illecito dati dai suoi modelli, evidenziando le continue questioni etiche e legali legate all’addestramento delle intelligenze artificiali.
Via Tom’s Hardware
Read MoreLatest from TechRadar IT-IT