Come interpretare i reward model: cosa ci dicono le parole premiate (e quelle penalizzate)
Analisi dello studio “Reward Model Interpretability via Optimal and Pessimal Tokens” (Oxford, 2025)
Chi lavora con i grandi modelli di linguaggio sa bene che il loro comportamento non è dettato unicamente dai dati su cui sono stati addestrati. C’è un altro fattore cruciale che plasma le loro risposte: i criteri che definiscono cosa sia una “buona” interazione. Nel gergo tecnico, questa funzione è affidata ai reward model, sistemi che assegnano un punteggio a ogni risposta generata, premiando quelle ritenute più utili, sicure o allineate a specifici valori.
Ma come operano davvero questi processi di valutazione? E, soprattutto, possiamo riporre fiducia in questi “valutatori automatici” se non abbiamo modo di comprendere le fondamenta dei loro giudizi?
Come funzionano (davvero) i reward model
I reward model non sono onniscienti: apprendono osservando.
Durante la fase di addestramento, si parte da una serie di risposte generate da un modello. A queste risposte viene chiesto a dei valutatori umani di dare un giudizio: quale preferisci? quale ti sembra più utile, più chiara, più sicura? Il reward model impara a riprodurre quel giudizio, cercando schemi ricorrenti.
In pratica, cerca di prevedere il “voto” che darebbe un essere umano. Quando funziona, riesce ad assegnare un punteggio numerico che riflette — almeno in parte — la qualità della risposta.
Ma è un giudizio imitato, non compreso. E dipende integralmente da ciò che è stato premiato (o penalizzato) in fase di addestramento.
A queste domande ha tentato di dare una risposta un gruppo di ricercatori dell’Università di Oxford, tra cui Brian Christian, con uno studio che merita attenzione per la sua chiarezza metodologica e le sue concrete implicazioni. Il titolo è tanto semplice quanto efficace: “Interpretabilità dei Reward Model tramite Token Ottimali e Pessimali”.
Capire il giudizio una parola alla volta
L’idea alla base è sorprendentemente lineare.
Invece di analizzare frasi complesse, lo studio osserva quale singola parola riceve il punteggio più alto (token ottimale) o più basso (token pessimo) da un reward model, quando viene proposta come possibile risposta a una domanda.
Questo permette di “radiografare” le preferenze implicite del modello.
Ad esempio, se alla domanda “Qual è il ruolo delle donne nella leadership?” un modello premia parole come “supportiva” e penalizza “autoritaria”, non serve molto per intuire che sta già applicando un filtro valoriale.
Non arbitrario, certo, ma neppure neutrale.
Un esempio concreto: cosa premia (e cosa penalizza) un reward model
Per chiarire, ecco una visualizzazione ottenuta replicando il metodo su una domanda a contenuto sociale.
I token premiati sono in verde, quelli penalizzati in rosso. Il modello tende a preferire parole vagamente concilianti (collaborativa, supportiva, competenze), mentre assegna punteggi molto bassi a termini come incapace o autoritaria.
Al centro, in zona arancio, troviamo parole ambigue (madre, emozionale, ambiziosa) che spesso portano con sé significati culturali stratificati.

Non è difficile intuire che dietro ogni punteggio c’è una scelta implicita su cosa sia considerato socialmente accettabile o desiderabile.
Modelli diversi, risposte diverse
Uno dei risultati più interessanti è che i reward model non sono intercambiabili. Anche se addestrati con lo stesso obiettivo (per esempio: “favorire risposte sicure e utili”), assegnano punteggi diversi alle stesse parole.
Cambia il modello, cambia il comportamento dell’IA.
Questo significa che il modo in cui un chatbot risponde può dipendere meno dai dati, e più da chi ha costruito il modello di reward — con tutte le conseguenze del caso.
Influenza della formulazione: il “bias del framing”
Altro aspetto critico: la forma della domanda cambia il risultato.
Due domande semanticamente simili possono portare a valutazioni opposte solo per via del tono usato, proprio come accade nella comunicazione umana.
Un esempio?
-
“Quali sono i punti di forza dell’attivismo climatico?”
-
“In cosa l’attivismo climatico può essere pericoloso?”
Le parole premiate in un caso vengono penalizzate nell’altro, suggerendo che i reward model, proprio come noi, sono sensibili al framing. E quindi anche manipolabili.

Bias impliciti, effetti concreti
Lo studio rivela che alcuni modelli mostrano preferenze sistematiche verso certi gruppi sociali, oppure penalizzano termini associati a minoranze o a espressioni culturali non centrali. Questi bias non nascono per malizia, ma spesso da un tentativo maldestro di evitare contenuti dannosi. Il problema è che, così facendo, si rischia di escludere voci marginalizzate o di rafforzare stereotipi.
Dire che un reward model è “leggermente sbilanciato” può sembrare un tecnicismo. Ma in certi contesti, anche piccole deviazioni hanno un impatto concreto.
Facciamo un esempio ipotetico.
Un’IA viene usata per dare consigli su percorsi accademici a studenti delle scuole superiori. Se il reward model che la guida ha imparato — anche in modo implicito — che parole come “ingegneria” o “leadership” sono più appropriate se collegate a soggetti maschili, e penalizza combinazioni linguistiche diverse (tipo “una ragazza brillante in informatica”), il risultato sarà un sistema che consiglia meno alle giovani donne certe strade. Non per malizia. Per automatismo.
Altro esempio: se il modello penalizza parole come “ball culture”, “identità fluide” o “lingua madre”, tenderà a generare risposte meno sensibili alle esperienze di chi non appartiene alla cultura dominante.
Questi non sono dettagli stilistici: sono meccanismi attraverso cui l’IA contribuisce (senza saperlo) a rafforzare le asimmetrie già esistenti.
Un linguaggio sempre più piatto?
Altro dato da non trascurare: i modelli tendono a premiare le parole più comuni.
Risultato? Le risposte generate possono diventare sempre più simili, generiche, poco espressive.
Un’involuzione verso la banalità, dove il linguaggio si appiattisce per paura di sbagliare.
Un metodo che potremmo usare di più
La proposta dello studio non è solo critica, ma anche costruttiva:
Analizzare i token ottimali e pessimali potrebbe diventare un modo standard per verificare cosa realmente incoraggiano i reward model.
Utile sia per chi sviluppa IA, sia per chi ne fa auditing o ne valuta l’impatto in ambiti delicati (scuola, medicina, giustizia, comunicazione pubblica).
L’interpretabilità non è un optional
Lo studio che abbiamo analizzato propone un metodo utile: osservare come il reward model valuta ogni parola, per capire meglio cosa sta premiando. Ma non è l’unica strada. E non basta da sola.
Altri approcci oggi in discussione includono:
-
tecniche di attribution, che cercano di capire quali parti del testo (o del modello) influenzano maggiormente la decisione;
-
analisi di salienza, che evidenziano le parole o i concetti che attivano le valutazioni più forti;
-
reward model progettati fin dall’inizio per essere “spiegabili”, cioè dotati di un meccanismo interno che renda tracciabile il motivo di una valutazione.
In prospettiva, si lavora anche su modelli che sappiano giustificare le proprie scelte (“perché ho penalizzato questa frase?”), aprendo un canale di comunicazione tra essere umano e sistema automatico.
Non sarà semplice, ma è essenziale. Perché finché i reward model restano scatole nere, ogni punteggio resta una questione di fiducia. E la fiducia, nel tempo, non si delega. Si costruisce.
Considerazioni finali
Questo studio tocca un nervo scoperto dell’intelligenza artificiale moderna: l’illusione che basti “punire e premiare” un modello per renderlo etico.
In realtà, decidere cosa premiare è un’operazione politica, sociale, culturale. Non si può ridurre a un punteggio numerico senza rischiare semplificazioni pericolose.
Chi costruisce questi sistemi ha una responsabilità enorme. E chi li studia — come in questo caso — ci ricorda che trasparenza e interpretabilità non sono optional.
Sono condizioni minime per mantenere controllo e fiducia in strumenti sempre più pervasivi.
🔗 Fonti e letture consigliate





