Intervalli di Confidenza e t di Student: Esercizi Svolti e Spiegati

Cerca:

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Guida Pratica agli Intervalli di Confidenza - La t di Student

Hai solo 12 recensioni per il tuo nuovo prodotto. Come fai a capire se piace davvero o se è solo un caso fortunato?

📊 La statistica serve a questo: a prendere decisioni sensate quando i dati scarseggiano.

Nel nuovo articolo abbiamo risolto 3 casi pratici sugli Intervalli di Confidenza:

✅ Come usare la t di Student con campioni piccoli.
✅ Come calcolare quanti utenti intervistare (senza sprecare budget!).
✅ Come confrontare due prodotti concorrenti (il temuto test di Welch).

E in fondo trovi i 5 errori “killer” da evitare assolutamente all’esame o sul lavoro.

Pubblicità

Esercizio 1: Varianza ignota e campione piccolo – La t di Student

Testo del problema

Un piccolo produttore artigianale di cioccolato ha lanciato un nuovo prodotto e vuole stimare il gradimento medio basandosi sulle recensioni online. Dopo un mese, ha raccolto solo 12 recensioni con valutazioni in stelle (da 1 a 5). La media delle valutazioni è 4,2 stelle e la deviazione standard campionaria è 0,6 stelle. Supponendo che le valutazioni seguano una distribuzione approssimativamente normale, costruisci un intervallo di confidenza al 95% per la vera media delle valutazioni della popolazione.


Soluzione commentata

💡 Richiamo teorico fondamentale: Con [math]\sigma[/math] ignota e campione piccolo ([math]n < 30[/math]), non possiamo più usare la normale. La quantità:

[math]\frac{\bar{x} – \mu}{s / \sqrt{n}}[/math]

segue una distribuzione t di Student con [math]n-1[/math] gradi di libertà.

La t di Student ha code più pesanti della normale, riflettendo la maggiore incertezza dovuta alla stima di [math]\sigma[/math].

Passo 1: Identificare i dati

  • [math]\bar{x} = 4,2[/math] stelle
  • [math]s = 0,6[/math] stelle
  • [math]n = 12[/math] (campione piccolo)
  • Gradi di libertà: [math]gdl = n – 1 = 11[/math]
  • Livello di confidenza: 95% [math]\Rightarrow \alpha = 0,05, \, \alpha/2 = 0,025[/math]

Passo 2: Trovare il valore critico [math]t_{\alpha/2, n-1}[/math]

Dobbiamo cercare sulle tavole della distribuzione t di Student il valore che lascia un’area di 0,025 nella coda destra, con 11 gradi di libertà:

[math]t_{0,025; 11} = 2,201[/math]

Nota: Questo valore è maggiore di 1,96 (valore della normale), riflettendo la maggiore incertezza dovuta al campione limitato.

Passo 3: Calcolare l’errore standard e il margine d’errore

[math]\displaystyle \begin{aligned}
\text{Errore Standard} &= \frac{s}{\sqrt{n}} = \frac{0,6}{\sqrt{12}} \\
&\approx \frac{0,6}{3,464} \approx 0,173 \text{ stelle}
\end{aligned}[/math]

[math]\displaystyle \begin{aligned}
ME &= t_{\alpha/2; n-1} \cdot \frac{s}{\sqrt{n}} \\
&= 2,201 \cdot 0,173 \approx 0,381 \text{ stelle}
\end{aligned}[/math]

Passo 4: Costruire l’intervallo

[math]IC_{95\%} = 4,2 \pm 0,381 = (3,819; 4,581)[/math]

Interpretazione: Siamo confidenti al 95% che la vera valutazione media del cioccolato nella popolazione sia compresa tra 3,82 e 4,58 stelle.


Domanda di riflessione: Cosa succederebbe all’ampiezza dell’intervallo se, a parità di media e deviazione standard, avessimo 30 recensioni invece di 12? Come cambierebbe il valore critico [math]t[/math] all’aumentare dei gradi di libertà?

Esercizio 2: Determinazione della numerosità campionaria

Testo del problema

Un’agenzia di ricerche di mercato deve stimare la soddisfazione media per un nuovo servizio di streaming, misurata su una scala da 0 a 100. Da studi precedenti su servizi simili, si stima che la deviazione standard della popolazione sia [math]\sigma = 12[/math]. L’agenzia vuole che l’intervallo di confidenza al 95% abbia un margine d’errore non superiore a 3 punti.

Qual è la numerosità campionaria minima necessaria?


Soluzione

💡 Strategia risolutiva: La formula del margine d’errore (ME) per la media con [math]\sigma[/math] nota è:

[math]ME = z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}[/math]

Poiché vogliamo trovare [math]n[/math] affinché il margine non superi un valore prefissato [math]E[/math], risolviamo l’equazione rispetto a [math]n[/math]:

[math]n = \left( \frac{z_{\alpha/2} \cdot \sigma}{E} \right)^2[/math]

Passo 1: Identificare i dati

  • [math]\sigma = 12[/math]
  • Livello di confidenza = 95% [math]\Rightarrow z_{\alpha/2} = 1,96[/math]
  • Margine d’errore desiderato ([math]E[/math]) = 3
Forse potrebbe interessarti anche:  Catene di Markov in Python: Modellare Funnel, Retention e Churn oltre le classiche dashboard

Passo 2: Applicare la formula

[math]\displaystyle \begin{aligned}
n &= \left( \frac{1,96 \cdot 12}{3} \right)^2 \\
n &= \left( \frac{23,52}{3} \right)^2 \\
n &= (7,84)^2 = 61,4656
\end{aligned}[/math]

Passo 3: Arrotondare sempre per eccesso

La numerosità campionaria deve essere un numero intero. Per garantire che il margine d’errore sia effettivamente minore o uguale a 3, dobbiamo arrotondare sempre per eccesso, anche se la parte decimale è piccola.

[math]n_{min} = 62[/math]

Verifica:

  • Con [math]n = 62[/math]: [math]ME = 1,96 \cdot \frac{12}{\sqrt{62}} \approx 2,99 < 3[/math] (OK)
  • Con [math]n = 61[/math]: [math]ME = 1,96 \cdot \frac{12}{\sqrt{61}} \approx 3,01 > 3[/math] (Errore troppo grande)

Interpretazione: L’agenzia deve intervistare almeno 62 utenti per stimare la soddisfazione media con un margine d’errore di ±3 punti e una confidenza del 95%.


Domanda di riflessione: Se volessimo dimezzare il margine d’errore (da 3 a 1,5), come cambierebbe la numerosità campionaria? Ricorda che [math]n[/math] dipende dal quadrato del margine d’errore al denominatore…

Esercizio 3: Caso complesso – Confronto tra due prodotti ([math]\sigma[/math] ignote)

Testo del problema

Un sito di comparazione prodotti vuole confrontare le valutazioni medie di due smartphone concorrenti, A e B.
Per il modello A, vengono analizzate 18 recensioni con media 4,3 e deviazione standard 0,5.
Per il modello B, si considerano 15 recensioni con media 4,0 e deviazione standard 0,7.
Supponendo che le valutazioni seguano una distribuzione normale e che le varianze delle due popolazioni siano diverse ([math]\sigma_A \neq \sigma_B[/math]), costruisci un intervallo di confidenza al 95% per la differenza tra le medie ([math]\mu_A – \mu_B[/math]).


Soluzione

💡 Approfondimento teorico:

Per il confronto tra due medie con varianze ignote e potenzialmente diverse, utilizziamo la procedura di Welch. I gradi di libertà vengono approssimati con la formula di Welch-Satterthwaite e l’intervallo si basa sulla distribuzione t di Student.

L’intervallo per [math]\mu_1 – \mu_2[/math] è:

[math]IC = (\bar{x}_1 – \bar{x}_2) \pm t_{\alpha/2, gdl} \cdot \sqrt{\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2}}[/math]

Passo 1: Identificare i dati

  • Smartphone A: [math]\bar{x}_1 = 4,3[/math], [math]s_1 = 0,5[/math], [math]n_1 = 18[/math]
  • Smartphone B: [math]\bar{x}_2 = 4,0[/math], [math]s_2 = 0,7[/math], [math]n_2 = 15[/math]
  • Differenza osservata: [math]\bar{x}_1 – \bar{x}_2 = 4,3 – 4,0 = 0,3[/math]

Passo 2: Calcolare l’errore standard della differenza (SE)

[math]\displaystyle \begin{aligned}
SE &= \sqrt{\frac{0,5^2}{18} + \frac{0,7^2}{15}} = \sqrt{\frac{0,25}{18} + \frac{0,49}{15}} \\
&\approx \sqrt{0,01389 + 0,03267} = \sqrt{0,04656} \approx 0,2158
\end{aligned}[/math]

Passo 3: Calcolare i gradi di libertà (Formula di Welch)

[math]\displaystyle gdl = \frac{(\frac{s_1^2}{n_1} + \frac{s_2^2}{n_2})^2}{\frac{(\frac{s_1^2}{n_1})^2}{n_1-1} + \frac{(\frac{s_2^2}{n_2})^2}{n_2-1}}[/math]

Sostituendo i valori:

  • Numeratore: [math](0,04656)^2 = 0,002168[/math]
  • Denominatore: [math]\frac{(0,01389)^2}{17} + \frac{(0,03267)^2}{14} \approx 0,00001135 + 0,00007621 = 0,00008756[/math]
  • [math]gdl = \frac{0,002168}{0,00008756} \approx 24,76[/math]

Arrotondiamo per difetto a 24 gradi di libertà (approccio conservativo).

Passo 4: Trovare il valore critico

Dalle tavole t di Student con [math]gdl = 24[/math] e [math]\alpha/2 = 0,025[/math]:

[math]t_{0,025; 24} = 2,064[/math]

Passo 5: Calcolare il margine d’errore (ME) e l’intervallo

[math]ME = 2,064 \cdot 0,2158 \approx 0,445[/math]

[math]IC_{95\%} = 0,3 \pm 0,445 = (-0,145; 0,745)[/math]

Interpretazione Finale:

L’intervallo di confidenza per la differenza delle medie contiene lo zero. Ciò significa che, al livello di confidenza del 95%, non abbiamo prove sufficienti per affermare che esista una differenza reale tra le valutazioni dei due smartphone. La differenza di 0,3 osservata nel campione potrebbe essere dovuta puramente al caso.


Domanda di riflessione: Cosa significa, in termini pratici per un consumatore, che l’intervallo di confidenza per la differenza contenga lo zero? Se dovessi scrivere un titolo per un articolo basato su questi dati, useresti “A è migliore di B” o “Nessuna differenza provata tra A e B”?

Risposte alle Domande di Riflessione 

Esercizio 1: Impatto della numerosità campionaria sulla t di Student

Domanda: Cosa succederebbe all’ampiezza dell’intervallo se, a parità di media e deviazione standard, avessimo 30 recensioni invece di 12?

Forse potrebbe interessarti anche:  Correzione per Test Multipli: Guida a Bonferroni, Holm e FDR con Esempi Python

L’ampiezza dell’intervallo diminuirebbe significativamente per due motivi tecnici:

  • Riduzione dell’Errore Standard: Poiché [math]n[/math] aumenta, il denominatore della frazione [math]s/\sqrt{n}[/math] cresce. Avremmo [math]0,6 / \sqrt{30} \approx 0,11[/math] invece di 0,173.
  • Riduzione del Valore Critico: Con più gradi di libertà (29 invece di 11), la distribuzione t di Student si “stringe” e si avvicina alla normale. Il valore critico passerebbe da [math]t_{0,025; 11} = 2,201[/math] a [math]t_{0,025; 29} \approx 2,045[/math].

Il nuovo margine d’errore sarebbe circa [math]2,045 \cdot 0,11 \approx 0,225[/math]. L’intervallo risultante [math](3,975; 4,425)[/math] è molto più preciso del precedente, illustrando come campioni più grandi riducano l’incertezza.


Esercizio 2: Relazione quadratica nel campionamento

Domanda: Se volessimo dimezzare il margine d’errore (da 3 a 1,5), come cambierebbe la numerosità campionaria?

La relazione tra [math]n[/math] e il margine d’errore ([math]ME[/math]) è quadratica inversa: [math]n \propto 1/ME^2[/math]. Questo significa che per dimezzare l’errore, non basta raddoppiare il campione, ma bisogna quadruplicarlo.

Verifica: [math]n = \left( \frac{1,96 \cdot 12}{1,5} \right)^2 \approx 245,8 \rightarrow 246[/math].

Confrontando con il risultato precedente ([math]n=62[/math]), notiamo che [math]246 / 62 \approx 4[/math]. Questo spiega perché ottenere stime estremamente precise sia molto “costoso” in termini di raccolta dati.


Esercizio 3: Significato dello “Zero” nell’intervallo

Domanda: Cosa significa, in termini pratici per un consumatore, che l’intervallo di confidenza per la differenza contenga lo zero?

Per un consumatore, questo è un segnale di equivalenza statistica. Se l’intervallo per [math]\mu_A – \mu_B[/math] contiene lo zero (nel nostro caso da -0,145 a 0,745), significa che:

  1. La differenza reale potrebbe essere a favore di A (fino a +0,75 stelle).
  2. Ma potrebbe anche essere a favore di B (fino a -0,15 stelle).
  3. Non esiste evidenza empirica sufficiente per scartare l’ipotesi che i due smartphone siano graditi esattamente allo stesso modo.

In pratica, il consumatore non dovrebbe scegliere il modello A solo perché ha una media campionaria leggermente più alta (4,3 vs 4,0), poiché tale scarto rientra nella variabilità casuale. La scelta dovrebbe basarsi su altri criteri come prezzo o design.

Perché questi esercizi sono fondamentali? 

Questi esercizi non sono semplici astrazioni accademiche; sono simulazioni di scenari che ogni analista, imprenditore o ricercatore affronta regolarmente.

Ecco il valore profondo di ciò che abbiamo risolto:

🍫 Esercizio 1: Il Cioccolato Artigianale (Small Data)

Questo è il “pane quotidiano” delle startup. Al lancio di un prodotto non si hanno mai migliaia di recensioni. Usare la t di Student insegna che l’incertezza ha un prezzo concreto: l’intervallo si allarga per proteggerci.

Il valore didattico: Mostra perfettamente come i gradi di libertà penalizzino l’ignoranza della varianza della popolazione. Meno dati hai, più la statistica ti chiede di essere prudente.

💰 Esercizio 2: Ricerche di Mercato (Costi e Pianificazione)

Questa è applicazione aziendale pura. In un contesto di business, determinare [math]n[/math] equivale a rispondere alla domanda: “Quanto budget dobbiamo allocare per questo sondaggio?”.

Il valore didattico: Fondamentale per comprendere la relazione quadratica. Se il tuo capo ti chiede di dimezzare il margine d’errore, devi essere pronto a spiegare che i costi (il campione) dovranno quadruplicare. È una lezione di statistica che diventa una lezione di economia.

📱 Esercizio 3: Lo Scontro tra Smartphone (A/B Testing Reale)

Un classico esempio di A/B Testing. Il realismo qui sta nel rifiuto dell’omoschedasticità: assumere che due popolazioni diverse abbiano la stessa varianza è quasi sempre un errore nei dati reali.

Il valore didattico: La procedura di Welch è la risposta moderna e robusta. L’inclusione dello zero nell’intervallo insegna la lezione più difficile per un analista: una differenza numerica (4,3 vs 4,0) non è necessariamente una differenza statistica. Non lasciarti ingannare dalle apparenze.

Forse potrebbe interessarti anche:  Rilevazione Anomalie in Python con Isolation Forest: Guida ed Esercizi

⚠️ Guida agli Errori Comuni: Non cadere in queste trappole!

Anche con le formule corrette, è facile interpretare male i risultati.

Ecco i 5 errori “killer” da evitare assolutamente:

1. Confondere Deviazione Standard (s) ed Errore Standard (SE)

Questo è l’errore più frequente.

  • La Deviazione Standard descrive la variabilità dei dati individuali (quanto sono distanti tra loro i voti dei consumatori).
  • L’Errore Standard descrive l’incertezza della media campionaria (quanto è precisa la nostra stima della media).

Regola d’oro: Per l’intervallo di confidenza devi usare sempre l’Errore Standard [math]s/\sqrt{n}[/math].

2. Pensare che il 95% di Confidenza significhi “95% di probabilità”

Attenzione alla terminologia! Una volta calcolato l’intervallo (es. 3,8 – 4,5), la vera media o è lì dentro o non lo è. Non è corretto dire che “c’è il 95% di probabilità che la media sia qui”.

L’interpretazione corretta: “Se ripetessimo il campionamento 100 volte, 95 di questi intervalli conterrebbero la vera media della popolazione”.

3. Dimenticare l’Arrotondamento per Eccesso in “n”

Se il calcolo per la numerosità campionaria ti dà [math]n = 61,02[/math], non arrotondare a 61.
Arrotonda sempre a 62. Se scegli 61, il tuo margine d’errore sarà (anche se di pochissimo) superiore a quello che avevi promesso.

4. Ignorare i Gradi di Libertà (gdl) nella t di Student

Molti studenti usano erroneamente [math]n[/math] invece di [math]n-1[/math] per cercare il valore critico sulle tavole. Ricorda che la distribuzione t è più “panciuta” e richiede questo aggiustamento per compensare l’incertezza dovuta al piccolo campione.

5. Interpretare l’intervallo che contiene lo “0” come “Nessun Risultato”

Se l’intervallo della differenza tra due medie contiene lo zero, non significa che l’esperimento è fallito. Significa che hai ottenuto un risultato non statisticamente significativo. È un’informazione preziosa: ti dice che i due prodotti sono, per quanto ne sappiamo, equivalenti.

📌 Tabella Rapida: Quale distribuzione usare?

Scenario Distribuzione Valore Critico
Media ([math]\sigma[/math] nota o [math]n > 30[/math]) Normale (Z) 1,96 (per 95%)
Media ([math]\sigma[/math] ignota e [math]n < 30[/math]) t di Student Da tavole con [math]n-1[/math] gdl
Proporzioni (Sì/No, Percentuali) Normale (Z) 1,96 (per 95%)

I seguenti articoli trattano aspetti fondamentali della statistica inferenziale, con focus su:

🔹 Intervalli di confidenza come strumento decisionale
🔹 Distribuzione t di Student e casi per piccoli campioni
🔹 Test d’ipotesi (Z-test, t, ANOVA, proporzioni) spiegati con esempi
🔹 Esercizi pratici con commenti e contesti reali
🔹 Scelta del test statistico supportata da esempi e codice Python

Questa selezione è perfetta per chi vuole approfondire le tecniche inferenziali e applicarle ad analisi dati reali, soprattutto in ambito aziendale o di business intelligence.

Pubblicità