Anthropic rilascia il test open source AI Bias Test, mettendo Claude contro GPT-5, Gemini e Grok nella corsa per la neutralità dell'IA

Giovedì Anthropic ha rilasciato un framework open source per misurare l’imparzialità politica nei modelli di intelligenza artificiale, posizionando il suo chatbot Claude in una corsa a livello di settore per la neutralità contro i rivali di OpenAI e Meta.

Il nuovo benchmark pubblico dell'azienda afferma che i suoi modelli Claude sono più bilanciati rispetto al GPT-5 di OpenAI e al Llama 4 di Meta.

L’iniziativa arriva nel mezzo di un intenso controllo politico sui pregiudizi legati all’intelligenza artificiale, evidenziato da un recente ordine esecutivo della Casa Bianca che chiede “neutralità ideologica” alle aziende tecnologiche. La mossa spinge il dibattito su ciò che costituisce un’intelligenza artificiale veramente obiettiva in prima linea nell’agenda del settore.

Il framework "equità" di Anthropic entra nell'arena dei pregiudizi dell'intelligenza artificiale

La nuova metodologia “Paired Prompts” di Anthropic,dettagliato in un post sul blog aziendale, mira a fornire un modo trasparente e replicabile per valutare il modo in cui i modelli di intelligenza artificiale gestiscono argomenti politicamente sensibili.

Il suo obiettivo è garantire che i modelli trattino punti di vista opposti con uguale profondità e qualità. Nel suo annuncio, Anthropic ha dichiarato: "Vogliamo che Claude adotti un approccio imparziale quando si tratta di politica".

Il quadro valuta i modelli in base a tre criteri chiave: se si impegnano con i suggerimenti delle ideologie opposte in modo equilibrato, se riconoscono le controargomentazioni e quanto spesso si rifiutano di rispondere.

Il sistema è progettato per catturare sottili forme di pregiudizio che vanno oltre i semplici errori fattuali.

Secondo i risultati pubblicati da Anthropic, i suoi modelli più capaci, Claude Opus 4.1 e Sonnet 4.5, hanno ottenuto rispettivamente il 95% e il 94% sulla metrica dell'imparzialità.

Questi punteggi li collocano leggermente dietro al Gemini 2.5 Pro di Google (97%) e al Grok 4 di xAI (96%). Tuttavia, la valutazione mostra che Claude ha superato significativamente l'ultimo modello GPT-5 di OpenAI, che ha ottenuto l'89%, e Llama 4 di Meta, che è rimasto notevolmente indietro al 66%.

L’imparzialità si traduce in Claude e altri modelli (Fonte: Anthropic)

Rendendo open source la sua valutazione, Anthropic invita al controllo e allo stesso tempo spinge per uno standard di misurazione comune per l’intero settore.

Un settore fratturato: filosofie concorrenti sulla neutralità dell’intelligenza artificiale

L’annuncio è l’ultima mossa di una lotta più ampia a livello di settore per definire e gestire i bias dell’intelligenza artificiale, con ogni principale laboratorio che adotta una strategia distinta.

Proprio il mese scorso, OpenAI ha pubblicato il proprio quadro dettagliato, sostenendo di aver ottenuto una riduzione del 30% dei pregiudizi politici per GPT-5.

La posizione ufficiale di OpenAI è che "ChatGPT non dovrebbe avere pregiudizi politici in nessuna direzione". Il suo approccio si concentra sull’identificazione e sulla mitigazione di cinque specifici “assi” di pregiudizio: invalidazione dell’utente, escalation dell’utente, espressione politica personale, copertura asimmetrica e rifiuto politico, comedettagliata nella sua ricerca.

Questo metodo mira a creare una visione olistica del comportamento del modello sotto pressione.

Mentre concorrenti come Meta si sono concentrati sulla correzione dei risultati percepiti come di sinistra, Anthropic e OpenAI stanno costruendo strumenti di misurazione.

Risultati di prospettiva opposti in Claude e altri modelli (Fonte – Anthropic)

Ad aprile, Meta ha annunciato che stava mettendo a punto attivamente i suoi modelli Llama 4 per contrastare quello che ha descritto come un disallineamento storico.

Nel suo annuncio, Meta ha affermato: "È noto che tutti i principali LLM hanno avuto problemi con i pregiudizi, in particolare, storicamente si sono inclinati a sinistra quando si tratta di argomenti politici e sociali dibattuti".

Questa filosofia di risintonizzazione attiva, volta a presentare “entrambe le parti”, contrasta nettamente con l'approccio basato sulla misurazione dei suoi rivali e si allinea con un cambiamento più ampio nelle politiche sui contenuti di Meta.

Lettura consigliata:Grok 2.5 di xAI diventa (più o meno) open source: cosa significa per la corsa all'intelligenza artificiale

L'xAI di Elon Musk rappresenta un terzo approccio, più controverso: incorporare deliberatamente uno specifico punto di vista ideologico. Si è scoperto che la sua Grokipedia, lanciata di recente, copiava le pagine di Wikipedia iniettando allo stesso tempo un taglio di destra su argomenti come il cambiamento climatico e il genere.

Tuttavia, la metrica imparziale di Anthropic dà a Grok voti ancora migliori di quelli di Claude e Grok è stato trovato innumerevoli volte mentre correggeva false dichiarazioni di Elon Musk.

Sembra che Grok venga adattato manualmente per cluster di argomenti molto specifici secondo il gradimento di Elon Musk.

Grok era stato precedentemente sorpreso con istruzioni di censurare le critiche nei confronti di Musk e Donald Trump e, in un incidente separato, aveva generato contenuti antisemiti.

Pressione politica e ricerca di uno standard industriale

In mezzo a un’intensa pressione politica sull’obiettività dell’intelligenza artificiale, le aziende tecnologiche stanno navigando in un panorama complesso.

La corsa per la neutralità dell’IA non è solo un esercizio accademico; è una risposta diretta alle minacce normative. Nel luglio 2025, la Casa Bianca ha emesso unordine esecutivo volto a prevenire “Woke AI”nel governo federale.

L’ordinanza richiede “neutralità ideologica” e ordina all’Ufficio di gestione e bilancio di emanare linee guida sugli appalti entro il 20 novembre.

Ciò crea un potente incentivo finanziario affinché le aziende dimostrino l'obiettività dei loro modelli ed evitino le ideologie che compongono l'ordine come fonte di pregiudizi.

Questo contesto politico rende gli standard trasparenti e misurabili per i pregiudizi più critici che mai. Tuttavia, come ammette la stessa Anthropic, il compito è carico di ambiguità.

L’azienda ha riconosciuto nel suo rapporto che “non esiste una definizione concordata di pregiudizio politico, né consenso su come misurarlo”.

Diversi studi hanno scoperto che i modelli possono apparire distorti semplicemente aderendo all’accuratezza fattuale quando i fatti stessi sono contestati politicamente. Ciò evidenzia la sfida principale: la neutralità di una persona è il pregiudizio di un’altra.

Nonostante queste sfide, la spinta verso un punto di riferimento comune sta guadagnando slancio. Rilasciando pubblicamente i suoi strumenti, Anthropic sta tentando di modellare la conversazione e stabilire uno standard affidabile.

L’azienda spera che il suo lavoro porti a un insieme di regole condivise per l’intero settore, andando oltre le valutazioni proprietarie e esclusivamente interne.

Come ha concluso Anthropic, “Uno standard condiviso per misurare i pregiudizi politici andrà a beneficio dell’intero settore dell’intelligenza artificiale e dei suoi clienti”.

Se l’industria possa coalizzarsi attorno a un’unica definizione di equità rimane una questione aperta, ma i tentativi di crearne una sono ora centrali per il futuro dello sviluppo dell’IA e della fiducia del pubblico.