🤖 I modelli non sono tutti uguali - Legge Zero #105
In questo numero ci occupiamo di modelli IA generativa. Quali sono le differenze tra le diverse soluzioni? Quanto sono trasparenti? Quanto sono affidabili? E quanto contano i guardrail?

🧭 TL;DR: ecco di cosa ci occupiamo in questo numero
🐸 L’agente diventato rana. In uno sperduto dipartimento di polizia dello Utah, un verbale ufficiale generato da IA racconta che un agente si è trasformato in una rana. Non è una fiaba: è un’allucinazione finita in un documento pubblico perché nessuno l’ha ricontrollata. Un caso apparentemente divertente che dice molto su come stiamo usando (male) l’IA generativa.
🧠 Non esiste “l’IA”, esistono i modelli. A fine 2025 erano disponibili oltre 3.200 modelli di IA. Solo negli scorsi 12 mesi ne sono stati lanciati più di 80 di rilevanti. Il mercato è dinamico, affollato e difficile da comprendere anche per i regolatori.
📊 Alcuni modelli sono molto più affidabili di altri. I dati sulle allucinazioni mostrano differenze enormi: Gemini-2.0-Flash-001 scende sotto l’1% di risposte inventate, mentre modelli molto noti come Claude 3 Sonnet arrivano a sfiorare il 15%.
⚖️ Il diritto è il contesto più fragile. Le allucinazioni non si distribuiscono in modo uniforme: nel dominio giuridico i tassi di errore sono significativamente più alti rispetto al dominio generalista.
🇮🇹 Il caso AGCM-DeepSeek. In Italia, l’AGCM ha trattato la mancata informazione sulle allucinazioni di DeepSeek come possibile pratica commerciale scorretta. Se il tuo servizio può inventare risposte e non lo dici chiaramente agli utenti, stai ingannando il consumatore.
🇨🇳 La sentenza cinese di Hangzhou. Un tribunale cinese ha escluso la responsabilità automatica del provider per le allucinazioni, ma fissa un doppio principio: dovere di diligenza e trasparenza per chi sviluppa i modelli, uso responsabile e controllo umano per chi li impiega.
🔍 Sappiamo sempre meno di come funzionano i modelli. Il Transparency Index di Stanford mostra un dato inquietante: la trasparenza dei principali provider sta peggiorando. E le regole UE finora non hanno inciso davvero.
⚠️ Il caso Grok. Quando si rilasciano modelli senza guardrail adeguati, i rischi diventano concreti: deepfake pornografici, abusi digitali, persino materiale pedopornografico. Non è un problema tecnico, ma una scelta di design (e di responsabilità).
👀 Human or Not. Chiudiamo con un gioco che è anche un test sociale: capire se stai parlando con un umano o con un’IA è sempre più difficile. Il confine tra uomo e macchina, nella vita quotidiana, è già saltato. Mettiti alla prova.
🐸 L’agente ranocchio
È stato allora che abbiamo imparato l’importanza di correggere i rapporti generati dall’intelligenza artificiale.
Sono le parole di Rick Keel, sergente del dipartimento di polizia di Heber City, cittadina dello Utah (USA) a un'ora di macchina da Salt Lake City. Keel ha dovuto spiegare all’emittente locale Fox 13 News come fosse possibile che in un rapporto ufficiale della polizia ci fosse scritto che un agente si era trasformato in una rana. Non una metafora, non un errore di battitura, una vera e propria metamorfosi messa nero su bianco in un documento ufficiale. In questo caso, però, non c’era nulla di magico, bensì l’umanissimo errore di chi si è fidato troppo dell’intelligenza artificiale. Infatti, a dicembre 2025 il dipartimento di polizia di Heber City ha iniziato a testare due nuovi software IA per velocizzare le pratiche: Draft One e Code Four, sistemi progettati per ascoltare l'audio delle bodycam degli agenti e trasformarlo automaticamente in verbali (semplificando il lavoro).
Durante uno degli interventi della polizia, la bodycam di un agente ha registrato la scena. In sottofondo, da qualche parte nell’ambiente, stava passando “La principessa e il ranocchio”, il film d’animazione Disney del 2009. Il software Draft One - che utilizza l’IA di OpenAI - non ha distinto le parole dell’agente da quelle del film in sottofondo e ha generato un testo surreale che, però, non è stato ricontrollato dagli esseri umani ed è finito nel verbale. Quando il documento è diventato pubblico, il dipartimento di polizia di Heber City ha dovuto giustificare l’errore e ha preso coscienza del fatto che l’IA generativa può sbagliare (e che quindi i verbali devono essere comunque controllati). Questo episodio potrebbe sembrare un caso isolato, un fatto curioso accaduto in una sconosciuta cittadina dello Utah. Ma non lo è. A luglio 2025, la Electronic Frontier Foundation (storica organizzazione per la tutela delle libertà digitali) ha pubblicato i risultati di un’indagine su Draft One condotta in decine di dipartimenti di polizia americani (dalla California alla Florida, passando per lo Utah). Il quadro che emerge è più preoccupante dell’aneddoto. Il software non indica quali verbali siano stati prodotti usando l’IA e solo pochi uffici hanno adottato policy che impongono agli agenti di controllare prima di firmare i verbali.
Il che significa che nessuno sa quanti verbali della polizia USA contengano errori (anche meno eclatanti). È la dimostrazione di come l’IA generativa è entrata nelle nostre vite, oltre che di quanto noi ci fidiamo pur senza aver capito davvero cosa siano, come funzionino e come usare responsabilmente i modelli di intelligenza artificiale.
֎ La carica degli LLM
Un modello linguistico è un sistema che ha imparato, studiando su miliardi di testi, audio video, a predire quale parola viene dopo, avendo interiorizzato i pattern statistici del linguaggio umano. Quando risponde alle nostre domande, un LLM non "sa" nulla: predice, parola dopo parola, la sequenza più probabile sulla base di ciò che ha visto durante l'addestramento.
Il grande pubblico ha preso confidenza con il termine LLM dopo il lancio di ChatGPT (poco più di tre anni fa). Da quel momento, i modelli sono sempre più presenti nelle nostre vite visto che li usiamo per generare documenti lavorativi, avere idee per ricette o itinerari di viaggio, modificare foto o generare meme, scrivere canzoni o creare video, chiedere consulti medici o avere compagnia.

Attenzione però: è importante comprendere non esiste un’unica IA, i modelli di intelligenza artificiale generativa sono ormai centinaia (e a loro volta sono incorporati in centinaia di software, come quello che aiuta nella redazione dei verbali della polizia USA).
Secondo i dati di Epoch AI, solo nel 2025 sono stati lanciati 150 modelli di grandi dimensioni, di cui 84 rilevanti (come le nuove versioni di ChatGPT, Gemini, Grok o Claude). Il ritmo è notevolissimo, quasi due ogni settimana. Difficilissimo starci dietro e capire quali sono le caratteristiche di ciascuno, ad esempio capire quale è migliore per fare sintesi di documento o scrivere le mail e quale invece è più adatto in ambito medico-sanitario o legale. Difficile anche per i regolatori stare al passo con le caratteristiche e i difetti di ciascun sistema.

😵💫 Il nodo delle allucinazioni
Uno dei temi principali da affrontare (e ce ne siamo occupati più volte anche con riferimento specifico al settore legale) è quello delle allucinazioni.
Quando i dati sono insufficienti o ambigui, oppure quando all’IA manca il contesto - come nel caso di Heber City - il modello riempie i vuoti con qualcosa di plausibile (che può essere corretto oppure completamente inventato).
Tuttavia, sapere che le allucinazioni sono endemiche nei modelli di intelligenza artificiale è doveroso, ma insufficiente. I modelli non allucinano tutti allo stesso modo, né con la stessa frequenza.
I dati dell’AI Hallucination Scoreboard mostrano differenze molto marcate tra i principali LLM oggi in circolazione. Ad esempio, Google Gemini-2.0-Flash-001 è attualmente il modello più attendibile tra quelli noti, con un tasso di allucinazione stimato intorno allo 0,7%: meno di una risposta inventata ogni cento. All’estremo opposto, tra i modelli comunque diffusi e riconosciuti, Claude 3 Sonnet arriva a sfiorare il 15%, con quasi una risposta su sei contenente informazioni false o non affidabili. In mezzo c’è un’intera scala di attendibilità che rende evidente un punto spesso rimosso dal dibattito pubblico (e dall’uso individuale): non esiste “l’IA”, esistono modelli con livelli di affidabilità molto diversi.
C’è poi un dato che, per chi usa l’IA in ambito professionale, è particolarmente rilevante. Le allucinazioni non si distribuiscono in modo uniforme per settore. Nei domini di conoscenza generale, ormai, i modelli mantengono tassi di errore abbastanza bassi. Ma quando si entra in contesti specialistici - ad esempio nel dominio amministrativo o giuridico - la situazione cambia sensibilmente.
Alcune analisi indicano che le risposte su temi giuridici presentano tassi di allucinazione significativamente più alti, anche in modelli considerati affidabili: si parla di valori medi superiori al 6%, contro meno dell’1% di allucinazioni nelle risposte di carattere generale. Questo significa che bisogna conoscere e testare il modello che si usa (e periodicamente verificare se ne esistono di più affidabili nel nostro specifico settore).
Non si tratta solo di un tema tecnico. È un problema giuridico nuovo, e come tale ha già iniziato a produrre effetti regolatori e giurisprudenziali.
🇮🇹 Il caso AGCM-DeepSeek
A giugno 2025, l’Autorità Garante della Concorrenza e del Mercato ha avviato un’istruttoria nei confronti del provider cinese DeepSeek, contestando una possibile violazione delle norme del Codice del consumo relative alle pratiche commerciali scorrette.
La contestazione era precisa: DeepSeek non informava in modo chiaro, immediato e comprensibile gli utenti italiani sul rischio che le risposte generate dall’intelligenza artificiale potessero contenere allucinazioni.
Nei giorni scorsi, l’AGCM ha chiuso il procedimento senza accertare l’infrazione, accettando gli impegni proposti da DeepSeek. La stessa azienda cinese, nel corso dell’istruttoria, aveva riconosciuto che il fenomeno delle allucinazioni rappresenta una sfida oggettiva e ineliminabile per tutti gli operatori del settore e che nessun provider IA ha trovato un metodo per risolvere definitivamente questo fenomeno.
Gli impegni, che DeepSeek dovrà attuare in Italia nei prossimi 120 giorni, prevedono quattro interventi:
l’inserimento di un banner informativo permanente in italiano sotto la finestra di dialogo (”Contenuto generato da IA. Verificare le informazioni importanti”);
lo stesso avviso nella pagina di registrazione, prima del pulsante di iscrizione;
un ulteriore banner specifico al termine delle risposte su argomenti sensibili - medici, legali, finanziari - con il testo “Questa risposta è generata da IA. Controllarne l’accuratezza”;
la traduzione integrale in italiano dei termini d’uso, inclusa la sezione sui rischi di allucinazione.
DeepSeek si è inoltre impegnata a migliorare tecnicamente i propri modelli per ridurre la frequenza delle allucinazioni.
Staremo a vedere, ma l’istruttoria AGCM segna comunque un passaggio importante: è il primo caso in cui un'autorità nazionale ha trattato la mancata informazione sulle allucinazioni IA come pratica commerciale scorretta. Non si parla di privacy, di copyright o di sicurezza nazionale, ma di tutela del consumatore. Insomma, se vendi un servizio che può inventare gli output e non lo dici chiaramente, stai ingannando chi lo usa.
🇨🇳 La sentenza del Tribunale di Hangzhou sulle allucinazioni
Nel dicembre 2025 il Tribunale di Internet di Hangzhou ha emesso la prima sentenza cinese che affronta la responsabilità per allucinazioni generate da un sistema di intelligenza artificiale. Il caso nasceva da un’azione civile promossa da un utente nei confronti di un fornitore di servizi IA generativa (il nome del servizio non è stato reso noto). L’utente aveva chiesto informazioni sulle procedure di iscrizione a una determinata Università, ricevendo risposte errate e perfino una dichiarazione generata dal sistema che prometteva un risarcimento in caso di errore. Visto che le informazioni erano scorrette, l’utente ha portato in Tribunale il provider, chiedendo un risarcimento di 9.999 yuan (circa 1.200 euro).
Il Tribunale però ha rigettato la domanda, stabilendo che i contenuti generati dall’IA non costituiscono dichiarazioni di volontà giuridicamente vincolanti attribuibili al fornitore e che il provider aveva adempiuto al proprio dovere di diligenza adottando misure tecniche per incrementare l’affidabilità del modello e comunicando agli utenti che i risultati generati potevano non essere accurati. La linea tracciata dal giudice cinese è chiara:
da un lato, i fornitori hanno un dovere di diligenza, dovendo adottare misure tecniche idonee a migliorare l’affidabilità dei modelli e informare chiaramente gli utenti dei loro limiti;
dall’altro, gli utenti non possono fare affidamento cieco sull’output dell’IA: l’uso deve restare responsabile e sotto controllo umano, soprattutto in ambiti sensibili come quello giuridico.
🔍 Sappiamo sempre meno di come funzionano i modelli di IA
Se gli errori delle IA generano preoccupazioni (e contenzioso), non conforta sapere che i livelli di trasparenza nel settore stanno peggiorando. Il Foundation Model Transparency Index 2025 della Stanford University - ricerca giunta alla terza edizione - traccia un quadro preoccupante. L’Index assegna a ogni provider un punteggio (da 0 a 100) in base a quanto il fornitore rende noto su aspetti chiave dei propri modelli: dati di addestramento, architettura, misure di mitigazione dei rischi, impatti ambientali e sociali.
Nel 2024 la media era 58/100, nel 2025 è scesa a 40/100. Meta, prima in classifica nel 2023, è precipitata a 31/100 (non ha nemmeno pubblicato un technical report per Llama 4). OpenAI è scesa di 14 punti. Mistral - che vanta di essere conforme all’AI Act - ha perso 37 punti (il calo più drastico). Google ha ritardato a lungo la pubblicazione della model card di Gemini 2.5, attirandosi critiche dei parlamentari britannici per aver violato impegni pubblici di trasparenza.
Le model card sono documenti tecnici che descrivono come un LLM è stato costruito, con quali dati, per quali scopi è stato progettato, quali limiti ha e quali rischi presenta. Per chi usa questi sistemi in contesti professionali - sanità, finanza, giustizia, pubblica amministrazione - sono informazioni essenziali: senza di esse è impossibile valutare se un modello sia adatto a un determinato impiego, quali precauzioni adottare, come interpretarne gli output.
In generale, secondo i dati del Transparency Index, i provider si dividono in tre blocchi:
in cima IBM, Writer e AI21 Labs con una media di 78 punti (IBM totalizza un punteggio di 95 su 100, condividendo informazioni che nessun altro fornisce, come l’accesso ai dataset di training);
un blocco centrale attorno ai 35 punti (in cui rientrano OpenAI, Google e DeepSeek);
un gruppo di coda sotto i 15 (in cui figurano xAI e Midjourney che non rivelano praticamente nulla: né quali dati usano per addestrare i modelli, né quali rischi hanno identificato, né come intendono mitigarli).
La conclusione dei ricercatori di Stanford è chiara: le pratiche di trasparenza attuali riflettono semplicemente la priorità che ogni singola azienda sceglie di assegnarvi. Chi serve clienti enterprise - come IBM - ha ragioni commerciali per essere trasparente: le aziende e le amministrazioni vogliono sapere cosa c’è nei prodotti che acquistano. Chi opera nel mercato consumer non ha la stessa pressione.
È interessante notare che, stando ai dati di Stanford, gli obblighi di trasparenza per i modelli previsti dall'AI Act europeo, finora, non hanno prodotto alcun miglioramento della situazione. Servirà attendere l'entrata a regime dell'enforcement da parte delle autorità europee, prevista per agosto 2026, per capire se le regole UE riusciranno a far invertire la rotta ai provider.

⚠️ Il caso Grok e i rischi della mancata trasparenza
Che la scarsa trasparenza dei provider IA non sia solo una questione accademica lo dimostra ciò che è accaduto nei giorni scorsi con Grok, il chatbot di xAI (società di Elon Musk) integrato in X. Nel giro di poche settimane, gli utenti hanno scoperto che lo strumento di generazione immagini permetteva di “spogliare” virtualmente qualsiasi persona a partire da foto normalissime, creando deepfake pornografici non consensuali. Il trend “put her in a bikini” è esploso viralmente: da poche decine di richieste giornaliere a metà dicembre, si è arrivati a quasi 200.000 richieste il 2 gennaio e fino a 6.000 all’ora nei giorni successivi.
Secondo fonti interne riportate dai media, Musk avrebbe personalmente espresso frustrazione per le restrizioni precedentemente imposte a Grok, ottenendo un allentamento dei guardrails.
Le vittime di questi deepfake includono donne comuni, celebrità, ma anche minori. L’Internet Watch Foundation ha denunciato che, su forum del dark web, alcuni criminali si vantavano di aver usato Grok per creare materiale pedopornografico con immagini di bambine tra gli 11 e i 13 anni.
La situazione ha scatenato reazioni istituzionali senza precedenti:
l’Indonesia ha bloccato l’accesso a Grok, così come anche la Malesia fino all’implementazione di misure di protezione efficaci;
la Commissione Europea ha ordinato al provider di conservare tutti i documenti interni relativi a Grok, verosimilmente per poter poi aprire un’istruttoria sulla violazione delle norme UE (in particolare il Digital Services Act);
in UK, Ofcom - l’autorità competente nel settore delle comunicazioni - ha aperto un’istruttoria e il premier Keir Starmer ha definito la vicenda “disgustosa”;
in India, il Ministero della tecnologia ha inviato una diffida formale al provider, invitandolo all’adozione di misure correttive;
in Francia, la procura di Parigi ha aperto un’indagine penale.
Dopo giorni di polemiche, la reazione di xAI è stata molto contenuta: il provider ha limitato la generazione di immagini pubbliche agli abbonati X Premium (se paghi, puoi scavalcare i guardrail). Tuttavia, secondo alcuni analisti, Grok continua a generare circa 1500 immagini dannose ogni ora.
In attesa di capire quali saranno le conseguenze delle istruttorie aperte dalle autorità di mezzo mondo, il caso Grok dimostra quali siano alcuni dei pericoli concreti che derivano dal rilasciare modelli generativi senza adeguate misure di sicurezza: pedopornografia, violenza e umiliazione digitale delle vittime, normalizzazione dell’abuso.
Ciò che rende questo un caso emblematico è il confronto tra Grok e i suoi concorrenti. Google, OpenAI, Anthropic e Meta - così come la gran parte dei provider IA - hanno implementato guardrails che impediscono la creazione di contenuti sessualmente espliciti o la manipolazione di immagini di persone reali senza consenso.
La differenza non è solo tecnica: mentre altri provider hanno optato per un approccio responsabile by design, limitando i modelli (anche per evitare contenziosi e istruttorie), xAI ha scelto deliberatamente di ridurre i controlli, trasformando il chatbot in uno strumento che può essere usato su larga scala per commettere abusi digitali.
È verosimile che - davanti alle contestazioni - la risposta di Grok sarà quella di rovesciare tutte le responsabilità sugli utenti che hanno usato il modello IA per commettere attività illecite.
Vedremo se sarà sufficiente.
👀 Human or Not: il test di Turing trasformato in un gioco
Vi siete mai chiesti se riuscireste a capire, in pochi minuti, se state parlando con un umano o con un’intelligenza artificiale? Human or Not prende questa domanda e la trasforma in un gioco. Si tratta di una sfida ispirata al classico Turing test, concepito da Alan Turing negli anni ’50 per capire se una macchina potesse comportarsi in modo indistinguibile da un essere umano durante una conversazione.
Il gioco è molto semplice nella sua impostazione: entrate nel sito, iniziate una chat di circa due minuti con un interlocutore sconosciuto e poi dovete indovinare se dall’altra parte c’è un umano o un bot IA. L’esperienza è volutamente essenziale e scarna.
Mettetevi alla prova!
😂 IA Meme
In quale delle due categorie rientrate?
🙏 Grazie per averci letto!
Per ora è tutto, torniamo la prossima settimana.
Se la newsletter ti è piaciuta, sostienici: metti like, commenta o fai girare!







