🤖 La guerra dello scraping – Legge Zero #24
Si moltiplicano le azioni legali contro i provider di IA per l'addestramento dei loro modelli su contenuti protetti da diritto d'autore. Il futuro lo decideranno i Tribunali o nuove norme?
🧠 Alla ricerca di un equilibrio
"Questa causa non è uno scontro tra nuova tecnologia e vecchia tecnologia. Non è uno scontro tra un settore imprenditoriale fiorente e uno in transizione. Sicuramente non è una battaglia per risolvere tutte le questioni sociali, politiche, morali ed economiche sollevate dall'IA generativa. Questa causa riguarda il modo in cui i provider di IA utilizzano, senza autorizzazione, i contenuti protetti da copyright dei giornali per costruire le loro nuove imprese da miliardi di dollari, senza pagare per tali contenuti. Come dimostrerà questa causa, gli imputati devono ottenere il consenso degli editori per utilizzare i loro contenuti e pagare un giusto valore per tale uso."
Queste parole sono contenute nelle 294 pagine dell’atto introduttivo del giudizio intrapreso nei giorni scorsi da otto giornali americani - New York Daily News, Chicago Tribune, Orlando Sentinel, South Florida Sun Sentinel, San Jose Mercury News, Denver Post, Orange County Register, St Paul Pioneer Press - contro OpenAI e Microsoft (potete scaricare l’atto cliccando qui sotto).
Gli editori contestano alle due società di aver utilizzato gli articoli per formare i propri chatbot, ChatGPT e Copilot, in violazione delle norme sul diritto d’autore. Come prova, i promotori dell’azione hanno presentato estratti di conversazioni con i chatbot che riproducono ampi passaggi dei loro articoli senza un link agli originali. Hanno inoltre evidenziato che a queste citazioni vengono spesso associati dati e informazioni errati.
I lettori più affezionati di questa newsletter noteranno che è un’azione molto simile a quella promossa pochi mesi fa dal New York Times sempre nei confronti di Microsoft e OpenAI (ne abbiamo parlato in Legge Zero #6). Giudizi che sono tutto fuorché casi isolati.
Impossibile non vedere che, tra i tanti fronti aperti dalla repentina evoluzione dell’IA, ce n’è uno più caldo degli altri. Un fronte costellato di scontri giudiziari, ormai quotidiani, più o meno importanti, ma che fanno parte di un unico scenario. È il prodotto del modo - parassitario, secondo tanti - con cui sono state fin qui addestrati tutti i principali modelli di intelligenza artificiale.
Come abbiamo imparato negli ultimi mesi, infatti, i LLM - i modelli che stanno dietro i sistemi di IA generativa - per fornire risposte sempre migliori hanno bisogno di essere addestrati con dati, tanti dati, sempre più dati. Contenuti e dati che, fin qui, sono stati utilizzati senza il consenso dei rispettivi titolari, permettendo loro esclusivamente un opt-out (la possibilità cioè di richiederne la rimozione successivamente). È la pratica che prende il nome di web-scraping, o più semplicemente scraping (dall’inglese ‘to scrape’, raschiare), che consiste nella raccolta indiscriminata e automatizzata di estrazione dei dati dai siti web.
Soltanto negli ultimi giorni, davanti ai Tribunali USA sono stati promossi questi contenziosi:
la fotografa Jingna Zhang e le disegnatrici Sarah Andersen, Hope Larson e Jessica Fink hanno promosso una class action contro Google, accusandola di aver addestrato i suoi modelli sulle loro creazioni e di aver creato opere derivate, senza loro autorizzazione;
il romanziere Andre Dubus III e la giornalista e scrittrice Susan Orlean hanno promosso una class action contro Nvidia che avrebbe addestrato i suoi modelli (anche) sulle opere dei due scrittori, senza chiedere un’autorizzazione o corrispondere loro un compenso;
gli scrittori Rebecca Makkai e Jason Reynolds hanno citato Mosaic e Databricks per aver addestrato i loro modelli sulle loro opere, sempre senza autorizzazione.
Anche in Europa lo scraping è al centro del dibattito giuridico sull’IA. Il Garante Privacy dei Paesi Bassi ha messo nero su bianco che lo scraping è “quasi sempre illegale” (lo abbiamo scritto in Legge Zero #23).
Inoltre, con un provvedimento di cui si è parlato molto poco, l’Autorità francese per la concorrenza ha comminato a Google (Alphabet) una multa da 250 milioni di euro per aver utilizzato gli articoli di giornali francesi - senza autorizzazione - per addestrare il suo sistema di IA (Gemini). Google, inoltre, è stata sanzionata perché avrebbe eliminato dai propri servizi i contenuti di quei giornali che avevano richiesto di non essere utilizzati per l’addestramento di Gemini.
Il bollettino (parziale) di questi ultime due settimane sul fronte scraping dimostra che, anche per i provider, è forse più conveniente - anche economicamente - ragionare su un accordo con i titolari dei diritti, evitando incertezze e contenziosi. Lo testimonia un post pubblicato sul sito di OpenAI dal titolo “Our approach to data and AI” in cui la società ammette che il sistema di opt-out fin qui realizzato può essere insoddisfacente per i titolari di diritti sui contenuti. Per questo motivo, oltre agli accordi già sottoscritti con diversi editori (da Financial Times a Le Monde), OpenAI sta lavorando a uno strumento (Media Manager) che dovrebbe consentire ai creatori e ai titolari di disporre se e come desiderano che i loro contenuti siano inclusi o esclusi nell’apprendimento dei sistemi di IA.
Ma il Media Manager non sarà operativo prima del 2025 e funzionerà soltanto per i modelli di OpenAI, con il rischio - se non diventerà uno standard - di rendere oltremodo complesso per i titolari dei diritti esercitare opt-out per tutti i modelli (vecchi e nuovi).
Nel frattempo, i contenziosi proseguono. Arriveranno prima le decisioni dei giudici, nuove norme o un accordo tra tutti gli attori coinvolti?
🔊 Un vocale da… Francesco Di Costanzo (PA Social): a che punto sono le pubbliche amministrazioni italiane nell’uso dell’intelligenza artificiale? Nel messaggio di questa settimana, approfondiamo gli elementi che occorrono, in ambito pubblico, per passare dalle sperimentazioni (riuscite) all’uso dell’IA su larga scala.
📰 Microsoft: nel mondo 🌍 3 lavoratori su 4 usano l’IA (e spesso il datore di lavoro non lo sa)
Microsoft e Linkedin hanno pubblicato un interessante report intitolato "AI at Work: Here Comes the Hard Part" che esplora come l'intelligenza artificiale stia già trasformando il mondo del lavoro. Il documento è il risultato di una rilevazione che ha coinvolto 31.000 persone in 31 Paesi (Italia inclusa) e dimostra come i lavoratori siano più avanti rispetto ai datori di lavoro.
Infatti, il 75% dei lavoratori della conoscenza già usa sistemi di intelligenza artificiale. Molto spesso tale uso avviene all’insaputa del datore di lavoro (quindi senza che siano tracciati non solo i rischi ma anche i vantaggi, ad esempio in termini di incremento della produttività) e senza che esistano regole interne e formazione sull’uso dell’IA.
Altri numeri da segnalare:
il 73% dei lavoratori si aspetta che l'IA abbia un impatto significativo sul loro lavoro nei prossimi cinque anni;
il 53% ha affermato di temere che se i loro datori di lavoro sapessero che stanno utilizzando l'intelligenza artificiale per essere più produttivi o creativi, il loro posto di lavoro sarebbe a rischio;
il 67% dei dirigenti crede che l'IA sia essenziale per la competitività futura, ma meno della metà ha già una propria strategia.
Insomma, è urgente definire policy interne per evitare che qualcosa vada storto, anche dal punto di vista legale
📰 L’OCSE aggiorna le proprie raccomandazioni sull’uso dell’IA
In risposta ai recenti sviluppi, in particolare l'emergere dell'IA generativa, l’Organizzazione per la cooperazione e lo sviluppo economico (OCSE) ha aggiornato i propri principi fondamentali per promuovere un'intelligenza artificiale etica e responsabile.
I principi aggiornati - che rappresentano un importante standard internazionale anche per i legislatori - affrontano le sfide associate all'IA che riguardano la privacy, i diritti di proprietà intellettuale, la sicurezza e l'integrità delle informazioni.
I principali aggiornamenti sono relativi a:
trasparenza e spiegabilità dei sistemi di IA;
ruolo del fornitore in tutto il ciclo di vita di un sistema di IA;
sostenibilità ambientale dei sistemi di IA;
importanza di predisporre meccanismi per affrontare eventuali problemi di sicurezza e danni causati dall’IA.
⚖️ Noyb contro ChatGPT dinanzi al Garante austriaco 🇦🇹: fornisce informazioni false sulle persone
L'organizzazione per i diritti digitali Noyb ha reso noto di aver avviato un’azione contro ChatGPT di OpenAI a causa delle allucinazioni del sistema IA: infatti, il chatbot produce dati inesatti su individui, in violazione del Regolamento generale sulla protezione dei dati (GDPR) dell'UE. Noyb, con sede in Austria, ha presentato un reclamo all'autorità per la protezione dei dati austriaca, sollecitando un'azione contro la società statunitense per assicurare il rispetto della normativa europea.
Secondo Noyb, in base al GDPR:
qualsiasi informazione personale diffusa online deve essere corretta e verificabile;
tutti gli utenti devono avere accesso sia ai dati che alle loro fonti.
Tuttavia, l’associazione sostiene che OpenAI ha riconosciuto di non poter correggere le erronee informazioni generate da ChatGPT né di poter identificare l'origine dei dati.
Staremo a vedere quale sarà la decisione del Garante Privacy austriaco e se Noyb coinvolgerà anche la differente Agenzia austriaca competente in materia di IA (ne abbiamo parlato in Legge Zero #18).
⚖️ I Garanti privacy tedeschi 🇩🇪 pubblicano una guida su IA e rispetto del GDPR
La Conferenza delle autorità indipendenti per la protezione dei dati della Germania ha pubblicato una guida sull'uso dell'IA nel rispetto del GDPR.
La guida è destinata ad aziende, agenzie governative e altre organizzazioni, e contiene un focus sui Large Language Models (LLM). Nel documento si trovano anche indicazioni interessanti (es. sulle policy o sulle tipologie di input consigliati), utili per tutti i titolari del trattamento che devono applicare il GDPR.
Lo trovate a questo link in tedesco, oppure qui sotto potete scaricarne una traduzione in inglese (realizzata con Deepl).
😂 IA Meme
Se ve la prendete con l’IA per i suoi errori, c’è qualcosa che vi sfugge.
📚 Consigli di visione: l’evoluzione dell’IA secondo Anthropic
Sono tra i protagonisti della scena mondiale dell’IA, ma sono meno noti di Sam Altman, Satya Nadella o Elon Musk. Sono Dario e Daniela Amodei, fratelli e co-fondatori di Anthropic, la società che sta dietro Claude, LLM che su alcuni parametri ha battuto GPT-4 di OpenAI.
Questa settimana, vi consigliamo di ascoltare l’intervista - registrata nel corso di un evento di Bloomberg - in cui hanno condiviso la loro visione sul futuro dell'intelligenza artificiale. L'intervista si intitola "Anthropic Founders Share Roadmap to Advance AI" e offre diversi spunti interessanti anche per chi si occupa di regole (es. nella parte dedicata alla differenza tra Claude e gli altri LLM per quanto attiene sicurezza e affidabilità).
📣 Eventi
Constitutional Democracy in the Age of Artificial Intelligence - Webinar, 14.05.2024
Procedamus 2024 - Salerno, 23.05.2024
Intelligenza artificiale per le pubbliche amministrazioni: gli obblighi dell'AI Act e le implicazioni del DDL del Governo - Webinar, 07.06.2024
🙏 Grazie per averci letto!
Per ora è tutto, torniamo la prossima settimana. Se la newsletter ti è piaciuta, commenta o fai girare.