Modelli di Scelta Binaria: Guida a Logit e Probit (con Esercizi Svolti)

Notiamo che stai usando un AdBlocker.

Gli annunci pubblicitari ci aiutano a mantenere questo sito gratuito e accessibile a tutti. Ti saremmo davvero grati se volessi disattivare AdBlocker per il nostro sito: niente pubblicità invasive, promesso! Grazie per il tuo supporto ❤️Our team work realy hard to produce quality content on this website and we noticed you have ad-blocking enabled.

Modelli Logit e Probit Guida Pratica alla Regressione Binaria

Spesso chi analizza dati si trova di fronte a bivi netti: un cliente acquista o non acquista? Un finanziamento viene restituito o va in default? Un paziente reagisce a una cura oppure no?

La realtà è piena di situazioni in cui il risultato non è una sfumatura, ma un interruttore acceso o spento: $1$ o $0$ . In questi casi, la classica regressione lineare non funziona (rischierebbe di restituirti probabilità assurde, come il -20% o il 130%).

È qui che entrano in gioco i modelli di scelta binaria, in particolare i modelli Logit e Probit. L’idea di base è elegante: esiste una propensione nascosta (variabile latente) che non possiamo osservare direttamente. Quando questa propensione supera una certa soglia, la decisione scatta e osserviamo il nostro $1$ .

Vediamo come la statistica traduce questo meccanismo in formule e, soprattutto, come applicarlo nella pratica.

Introduzione ai modelli di scelta binaria: Probit e Logit

I modelli di scelta binaria sono utilizzati quando la variabile dipendente [math]Y[/math] può assumere solo due valori,
tipicamente [math]1[/math] (successo, evento, scelta) e [math]0[/math] (insuccesso, non evento).
Ad esempio: acquistare o non acquistare un prodotto, votare un partito o non votarlo, essere ammesso o respinto a un esame.

L’idea di base è che esiste una variabile latente [math]Y^*[/math] non osservabile, determinata da una
combinazione lineare di variabili esplicative [math]X[/math] più un errore casuale:

[math]Y^* = X\beta + \varepsilon[/math]

L’osservazione binaria [math]Y[/math] è determinata da una soglia (tipicamente 0):

[math]Y = 1 \text{ se } Y^* > 0, Y = 0 \text{ altrimenti.}[/math]

Di conseguenza:

[math]\displaystyle \begin{aligned}
P(Y=1 \mid X) &= P(\varepsilon > -X\beta) \\
&= 1 – F(-X\beta) = F(X\beta)
\end{aligned}[/math]

dove [math]F[/math] è la funzione di ripartizione del termine di errore [math]\varepsilon[/math].

Se [math]\varepsilon[/math] ha distribuzione logistica standard (media 0, varianza [math]\pi^2/3[/math]),
si parla di modello Logit:

[math]\displaystyle \begin{aligned}
P(Y=1) &= \Lambda(X\beta) = \frac{e^{X\beta}}{1+e^{X\beta}} \\
&= \frac{1}{1+e^{-X\beta}}
\end{aligned}[/math]

Se [math]\varepsilon[/math] ha distribuzione normale standard (media 0, varianza 1),
si parla di modello Probit:

[math]\displaystyle \begin{aligned}
P(Y=1) &= \Phi(X\beta) \\
&= \int_{-\infty}^{X\beta} \frac{1}{\sqrt{2\pi}} e^{-t^2/2} dt
\end{aligned}[/math]

Entrambi i modelli producono stime simili, ma differiscono nella forma delle code (il Logit ha code leggermente più pesanti).
La scelta è spesso dettata da convenienza computazionale o tradizione disciplinare.

Assunzioni Implicite dei Modelli Logit e Probit

Ogni modello statistico funziona bene solo quando le sue assunzioni sono ragionevolmente rispettate. Logit e Probit non fanno eccezione.

1. Indipendenza delle osservazioni

I dati devono essere indipendenti tra loro. Questo significa che l’esito di un’osservazione non deve influenzare l’esito di un’altra.

Violazioni: Studenti dello stesso corso (cluster), membri della stessa famiglia o misure ripetute nel tempo sullo stesso individuo.

👉 Soluzioni: Modelli gerarchici, multilevel, modelli panel o standard error clusterizzati.

2. Forma funzionale corretta dell’indice lineare

Il modello assume che la variabile latente sia lineare rispetto alle variabili esplicative:

[math]Y^* = X\beta + \varepsilon[/math]

Violazioni: Relazioni non lineari, interattive o soggette a soglie.

👉 Soluzioni: Aggiungere termini quadratici ([math]x^2[/math]), interazioni, spline o valutare modelli GAM (Generalized Additive Models).

3. Varianza dell’errore fissata

In un modello binario non possiamo identificare contemporaneamente la scala dei coefficienti e la varianza dell’errore. Per convenzione:

Nel Probit, la varianza dell’errore è fissata a 1.
Nel Logit, la varianza è fissata a [math]\pi^2/3 \approx 3.29[/math].

Conseguenze: I coefficienti non sono direttamente confrontabili (differiscono per un fattore di scala di circa 1.6) e la loro magnitudine ha solo un significato relativo.

4. Assenza di multicollinearità forte

Se due variabili esplicative sono quasi perfettamente correlate, le stime diventano instabili e gli standard error “esplodono”.

👉 Soluzioni: Rimuovere variabili ridondanti, utilizzare la PCA o tecniche di regolarizzazione (Lasso, Ridge).

5. Assenza di separazione perfetta

Se una variabile separa perfettamente i casi 0 dai casi 1, il modello non riesce a convergere (Maximum Likelihood failure).

Esempio: “Ogni cliente con reddito > 100k restituisce sempre il prestito”.

👉 Soluzioni: Firth Logit (penalizzazione), approccio Bayesiano o aggregazione delle categorie.

Forse potrebbe interessarti anche: Distribuzione Gamma: 6 Esercizi con Soluzioni e Codice per Calcolare Probabilità, Media e Inferenza Bayesiana

6. Assunzione di monotonicità

Logit e Probit assumono che l’effetto di una variabile sia monotono: all’aumentare di [math]x[/math], la probabilità aumenta (o diminuisce) sempre.

Violazioni: Relazioni a forma di “U” o a “S” invertita.

👉 Soluzioni: Trasformazioni polinomiali, spline o modelli non parametrici.

Esercizio 1 (Facile) – Calcolo della probabilità con Logit

Testo

Un’azienda di credito vuole prevedere la probabilità che un cliente restituisca un prestito ([math]Y=1[/math])
in base al rapporto debito/reddito ([math]x[/math], misurato in punti percentuali).

Stima un modello Logit e ottiene:

[math]\hat{\beta}_0 = -1.5, \quad \hat{\beta}_1 = 0.2[/math]

Calcola la probabilità di restituzione per un cliente con [math]x = 10[/math] (cioè debito/reddito = 10%).
Commenta il risultato.

Soluzione

Passo 1 – Scrivere l’indice lineare

Per il modello Logit, la probabilità è:

[math]\displaystyle P(Y=1 \mid x) = \frac{e^{\beta_0 + \beta_1 x}}{1 + e^{\beta_0 + \beta_1 x}}[/math]

Sostituiamo i valori per calcolare l’esponente [math]z[/math]:

[math]\displaystyle \begin{aligned}
z &= \beta_0 + \beta_1 x \\
&= -1.5 + 0.2 \times 10 \\
&= -1.5 + 2 = 0.5
\end{aligned}[/math]

Passo 2 – Applicare la funzione logistica

[math]\displaystyle \begin{aligned}
P &= \frac{e^{0.5}}{1 + e^{0.5}} \\
&= \frac{1.64872}{1 + 1.64872} \\
&= \frac{1.64872}{2.64872} \approx 0.6225
\end{aligned}[/math]

Passo 3 – Interpretazione

Il cliente con rapporto debito/reddito del 10% ha una probabilità stimata del
62.25% di restituire il prestito.

💡 Osservazione – La funzione logistica mappa qualsiasi numero reale [math]z[/math]
nell’intervallo [math](0,1)[/math]. Quando [math]z=0[/math], [math]P=0.5[/math]; quando [math]z[/math] è
grande positivo, [math]P[/math] si avvicina a 1; quando [math]z[/math] è grande negativo,
[math]P[/math] si avvicina a 0.

Perché non usare semplicemente la regressione lineare?

Si potrebbe pensare di modellare direttamente [math]P(Y=1) = X\beta[/math] con i minimi quadrati ordinari,
approccio noto come Modello di Probabilità Lineare (LPM). Tuttavia, questo metodo presenta due gravi limiti strutturali:

Probabilità fuori intervallo: Per valori estremi di [math]X[/math], la previsione [math]\hat{P}[/math]
può risultare [math]< 0[/math] o [math]> 1[/math]. Matematicamente è un controsenso: non esiste una probabilità del 110%
o del -15%.
Effetti marginali costanti: La regressione lineare assume che l’impatto di [math]X[/math] sia sempre lo stesso.
Ma nel mondo reale, passare da 0 a 1 ora di studio ha un impatto diverso rispetto a passare da 20 a 21 ore.
L’LPM non coglie la tipica forma a “S” (sigmoide) della probabilità.

⚠️ Esempio Pratico: Il fallimento dell’LPM

Supponiamo di voler evitare le complessità del Logit e di usare un semplice Modello di Probabilità Lineare (LPM)
con i dati dell’Esercizio 1:

[math]P = -1.5 + 0.2x[/math]

Vediamo cosa succede alla probabilità stimata al variare del rapporto debito/reddito [math]x[/math]:

✅ Per [math]x=10[/math]: [math]P = -1.5 + 0.2(10) = 0.5[/math].
Risultato accettabile (probabilità del 50%).
❌ Per [math]x=0[/math]: [math]P = -1.5 + 0.2(0) = -1.5[/math].
Assurdo! Una probabilità negativa non ha senso matematico.
❌ Per [math]x=20[/math]: [math]P = -1.5 + 0.2(20) = 2.5[/math].
Impossibile! La probabilità è maggiore di 1 (250%).

Questo dimostra visivamente perché il modello lineare è inadeguato: “spara” i risultati fuori dai confini naturali
della probabilità non appena ci allontaniamo dai valori medi di [math]x[/math].

Confronto tra modelli di scelta binaria Logit, Probit e LPM

Analisi del grafico: Logit, Probit e LPM a confronto

Logit (linea blu continua) – Funzione logistica: si avvicina asintoticamente a 0 e 1.
Le sue code sono “più pesanti” rispetto al Probit, il che significa che assegna probabilità leggermente
più alte agli eventi estremi.
Probit (linea rossa tratteggiata) – Funzione di ripartizione normale standard:
tende a 0 e 1 più rapidamente del Logit (code più leggere), “schiacciandosi” prima verso gli asintoti.
LPM (linea verde puntinata) – Modello lineare di probabilità: è una retta.
Nell’esempio scelto (pendenza 0.25, intercetta 0.5) si vede chiaramente il suo limite strutturale:
- Per [math]z < -2[/math], la probabilità diventa negativa (zona di errore inferiore).
- Per [math]z > 2[/math], la probabilità supera 1 (zona di errore superiore).

Mentre Logit e Probit restano confinati con eleganza tra 0 e 1,
il modello LPM attraversa i confini in modo “indisciplinato”, dimostrando graficamente perché
è inutilizzabile per previsioni realistiche al di fuori di un intervallo molto ristretto di valori centrali.

Probit vs Logit: Una questione di “scuole di pensiero”

Oltre alle differenze matematiche, la scelta tra i due modelli è spesso una questione di pedigree disciplinare:

Forse potrebbe interessarti anche: Price Sensitivity con Python: Calcolo dell'Elasticità e Ottimizzazione del Profitto

Il mondo dell’Economia (Probit): Gli economisti tendono a preferire il modello Probit. Il motivo risiede nell’assunzione di normalità degli errori. In economia, molti fenomeni sono visti come la somma di tantissimi piccoli shock indipendenti che, per il Teorema del Limite Centrale, convergono verso una distribuzione Normale. Usare il Probit significa scommettere che la “propensione nascosta” segua la curva a campana più famosa della statistica.

Medicina e Machine Learning (Logit): In questi ambiti regna il Logit. Perché? Per la sua incredibile proprietà comunicativa: gli Odds Ratio. In medicina, dire che un farmaco “raddoppia le probabilità di guarigione” (interpretazione diretta dei coefficienti Logit) è molto più immediato e utile che parlare di variazioni nella deviazione standard di una variabile latente. Nel Machine Learning, inoltre, la funzione logistica è computazionalmente più “leggera” da gestire su milioni di dati rispetto all’integrale della normale.

Domanda di riflessione

Quale proprietà della funzione logistica garantisce che i valori di probabilità siano sempre compresi tra 0 e 1?

Esercizio 2 (Facile/Medio) – Calcolo della probabilità con Probit e confronto con Logit

Testo

Un ricercatore studia la probabilità che uno studente superi un esame ([math]Y=1[/math])
in base alle ore di studio settimanali ([math]x[/math]). Stima un modello Probit:

[math]\hat{\beta}_0 = -2, \quad \hat{\beta}_1 = 0.4[/math]

Calcola la probabilità di superare l’esame per uno studente che studia 8 ore a settimana.
Successivamente, supponendo di avere gli stessi coefficienti in un Logit, calcola la probabilità Logit e confronta i due risultati.

Soluzione

Passo 1 – Indice lineare per il Probit

[math]\displaystyle \begin{aligned}
z &= \beta_0 + \beta_1 x \\
&= -2 + 0.4 \times 8 \\
&= -2 + 3.2 = 1.2
\end{aligned}[/math]

Passo 2 – Calcolare [math]\Phi(1.2)[/math]

La funzione di ripartizione normale standard [math]\Phi(z)[/math] si trova tramite tabelle o calcolatrice.
Per [math]z=1.2[/math]:

[math]\Phi(1.2) \approx 0.8849[/math]

Quindi la probabilità Probit è 88.49%.

Passo 3 – Stessi coefficienti nel Logit

[math]\displaystyle \begin{aligned}
P_{Logit} &= \frac{e^{1.2}}{1 + e^{1.2}} \\
&= \frac{3.3201}{4.3201} \approx 0.7685 \quad (76.85\%)
\end{aligned}[/math]

Passo 4 – Confronto

Il Probit dà una probabilità più alta (88.5% vs 76.9%). Questo accade perché le distribuzioni sono diverse:
per [math]z=1.2[/math] la normale standard ha un’area cumulata maggiore rispetto alla logistica.

In generale i due modelli producono stime simili dopo una trasformazione di scala
(tipicamente [math]\beta_{\text{Logit}} \approx 1.6 \times \beta_{\text{Probit}}[/math]),
ma qui abbiamo usato gli stessi coefficienti a titolo di confronto didattico.

💡 Osservazione – Nella pratica i coefficienti stimati nei due modelli non sono
direttamente confrontabili perché la varianza dell’errore è diversa (1 per Probit,
[math]\pi^2/3 \approx 3.29[/math] per Logit). Per confrontare le probabilità predette, spesso si
standardizzano i coefficienti.

Domanda di riflessione

Perché sia il Logit che il Probit utilizzano una funzione di ripartizione per trasformare l’indice lineare in probabilità?

Esercizio 3 (Medio) – Effetto marginale nel Logit

Testo

Sulla base dello stesso modello Logit dell’Esercizio 1 ([math]\beta_0 = -1.5, \beta_1 = 0.2[/math]),
calcola l’effetto marginale del rapporto debito/reddito sulla probabilità di restituzione per un cliente con [math]x=10[/math].
In termini pratici, cosa significa questo valore?

Soluzione

Passo 1 – Formula dell’effetto marginale per Logit

L’effetto marginale di una variabile continua [math]x[/math] è la derivata della probabilità rispetto a [math]x[/math]:

[math]\displaystyle \frac{\partial P}{\partial x} = \beta_1 \cdot P(1 – P)[/math]

dove [math]P = \Lambda(\beta_0 + \beta_1 x)[/math].

Passo 2 – Calcolare [math]P[/math] per [math]x=10[/math]

Recuperiamo il valore calcolato nell’Esercizio 1:

[math]P = 0.6225[/math]

Passo 3 – Applicare la formula

[math]\displaystyle \begin{aligned}
\frac{\partial P}{\partial x} &= 0.2 \times 0.6225 \times (1 – 0.6225) \\
&= 0.2 \times 0.6225 \times 0.3775 \\
&= 0.2 \times 0.2350 \approx 0.0470
\end{aligned}[/math]

Passo 4 – Interpretazione

Un incremento di 1 punto percentuale nel rapporto debito/reddito (da 10% a 11%) aumenta la
probabilità di restituzione di circa 4.7 punti percentuali, quando ci si trova nei pressi di
[math]x=10[/math].

Forse potrebbe interessarti anche: Capire il Teorema di Bayes passo a passo

Attenzione: l’effetto marginale non è costante; cambia al variare di [math]x[/math].

💡 Osservazione – La quantità [math]P(1 – P)[/math] è massima quando [math]P=0.5[/math]
(pari a 0.25) e si riduce verso gli estremi. Quindi l’effetto marginale è maggiore nelle zone di incertezza.

Domanda di riflessione

Se [math]x[/math] fosse una variabile binaria (ad esempio, genere), come cambierebbe il calcolo dell’“effetto marginale”?

Risposte alle domande di riflessione

Esercizio 1

Proprietà della funzione logistica – La funzione [math]\Lambda(z) = \frac{e^z}{1+e^z}[/math]
è una funzione di ripartizione continua che mappa [math]\mathbb{R}[/math] in [math](0,1)[/math] perché il numeratore e il denominatore sono sempre positivi e il numeratore è minore del denominatore per ogni [math]z[/math] reale.
Inoltre [math]\lim_{z\to -\infty} \Lambda(z)=0[/math] e [math]\lim_{z\to +\infty} \Lambda(z)=1[/math].

Esercizio 2

Uso delle funzioni di ripartizione – Sia Logit che Probit sono modelli basati su una variabile latente:
[math]Y=1[/math] se [math]\varepsilon > -X\beta[/math].

La probabilità [math]P(Y=1) = P(\varepsilon > -X\beta) = 1 – F(-X\beta) = F(X\beta)[/math] per simmetria se [math]F[/math] è simmetrica intorno a 0. Quindi la funzione di ripartizione dell’errore diventa il “link” che trasforma l’indice lineare in probabilità. Questo garantisce che le probabilità siano sempre nell’intervallo [math][0,1][/math].

Esercizio 3

Variabile binaria – Se [math]x[/math] è binaria (0/1), l’effetto marginale non è una derivata ma una
differenza finita:

[math]\Delta P = P(x=1) – P(x=0)[/math]

Si può comunque calcolare come [math]\beta_1 \cdot \overline{P(1-P)}[/math] usando un qualche valore medio delle altre variabili, ma la formula esatta è la differenza delle due probabilità.

Dietro le quinte degli esercizi: perché sono importanti nella pratica?

Sull’Esercizio 1 (Credit Scoring)

Questo esercizio è un classico scenario da Risk Management bancario. La peculiarità qui è il risultato: una probabilità del [math]62.25\%[/math].
Nel mondo reale, le banche usano i modelli Logit per stabilire un cutoff (una soglia di taglio).

Il [math]62\%[/math] è spesso considerato una “zona grigia”. In termini applicativi, questo esercizio dimostra come il Logit non prenda la decisione finale,
ma fornisca un punteggio di rischio continuo su cui il management imposterà le proprie policy di accettazione.

Sull’Esercizio 2 (La trappola dei coefficienti)

Questo è forse l’esercizio didatticamente più prezioso. È interessante perché smonta il classico errore del principiante: confrontare direttamente i coefficienti stimati ([math]\beta[/math]) di un Logit con quelli di un Probit.

Poiché la varianza della normale standard è [math]1[/math] e quella della logistica è circa [math]3.29[/math], i coefficienti vivono su scale diverse.
L’esercizio dimostra numericamente che, se forziamo gli stessi coefficienti nei due modelli, otteniamo probabilità drasticamente differenti
([math]88.5\%[/math] contro [math]76.9\%[/math]).

Sull’Esercizio 3 (Il paradosso degli effetti marginali)

Nella regressione lineare semplice, se il coefficiente è [math]0.2[/math], significa che all’aumentare di [math]x[/math], [math]y[/math] aumenta sempre di [math]0.2[/math].
Il Logit scardina questa comodità.

L’esercizio è fondamentale perché dimostra che l’impatto di un aumento del debito/reddito dipende da chi stiamo analizzando.
Se il cliente fosse stato quasi certamente un pagatore sicuro (es. [math]P=0.95[/math]), l’effetto marginale sarebbe crollato.

L’impatto di [math]x[/math] è massimo solo quando l’incertezza è massima ([math]P=0.5[/math]).

Questo riflette perfettamente la psicologia umana: convincere un indeciso è molto più facile che far cambiare idea a chi ha già preso una posizione estrema.

Articoli di approfondimento