Quante ore durerà davvero la batteria del tuo nuovo PC? L’azienda dichiara una media di 8 ore, ma il tuo ultimo campione ne è durato 7.5.
Quanto è affidabile quel “7.5”? È solo un numero.
Nel lavoro (e nella vita) un singolo numero è quasi sempre insufficiente, a volte persino ingannevole. Abbiamo bisogno di qualcosa di più: un intervallo di valori plausibili.
Invece di dire “la media è 7.5 ore”, cosa succederebbe se potessimo affermare con un livello di fiducia del 95% che la vera durata media è compresa “tra 7.2 e 7.8 ore”? Questo ci dà un quadro molto più onesto della realtà, mostrandoci la precisione (o l’imprecisione) della nostra stima.
Questo concetto è l’Intervallo di Confidenza (IC). È uno degli strumenti più usati nell’analisi dei dati, nel controllo qualità, nella finanza e nella ricerca.
In questa guida non ci limiteremo a imparare la formula. Attraverso 8 esercizi pratici e progressivi, impareremo a ragionare con gli intervalli di confidenza. Vedremo come calcolarli, come cambiano al variare dei dati e, soprattutto, cosa fare quando le assunzioni teoriche (come un campione grande o una distribuzione perfetta) non reggono nel mondo reale.
Concetti Chiave:
L’intervallo di confidenza (IC) per la media [math]\mu[/math] di una popolazione, quando la varianza [math]\sigma^2[/math] è nota, si basa sul Teorema del Limite Centrale (TLC).
La formula generale per l’IC è:
[math]\displaystyle \begin{aligned}
IC &= \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
\end{aligned}[/math]
Dove:
- [math]\bar{x}[/math]: Media campionaria (stima puntuale di [math]\mu[/math]).
- [math]Z_{\alpha/2}[/math]: Valore critico (quantile) della distribuzione Normale Standard [math]Z \sim N(0, 1)[/math], che delimita l’area [math]\alpha/2[/math] nelle code.
- [math]\sigma[/math]: Deviazione standard della popolazione (nota).
- [math]n[/math]: Dimensione del campione.
- [math]E = Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}[/math]: Margine di errore (o errore massimo di stima).
Intervalli di confidenza (varianza nota)
| Livello di confidenza | Valore critico [math]Z_{\alpha/2}[/math] | Effetto sull’ampiezza dell’intervallo | Nota interpretativa |
|---|---|---|---|
| 90% | [math]1.645[/math] | Intervallo più stretto | Maggiore precisione, ma minore sicurezza |
| 95% | [math]1.960[/math] | Intervallo di ampiezza intermedia | Compromesso più usato in statistica applicata |
| 99% | [math]2.576[/math] | Intervallo più ampio | Massima sicurezza, ma minore precisione |
Spunti didattici
All’aumentare del livello di confidenza → cresce il valore di [math]Z[/math] → l’intervallo si allarga.
C’è sempre un trade-off tra precisione (intervallo stretto) e certezza (livello di confidenza alto).
mini-esempio numerico comparativo che mostra come cambia l’ampiezza dell’intervallo di confidenza al variare del livello di confidenza, mantenendo fissi media, deviazione standard e numerosità campionaria.
Esempio numerico
- Media campionaria: [math]\bar{x} = 100[/math]
- Deviazione standard della popolazione: [math]\sigma = 15[/math]
- Campione: [math]n = 36[/math]
- Errore standard:
[math]\displaystyle \begin{aligned}
\frac{\sigma}{\sqrt{n}} &= \frac{15}{\sqrt{36}} \\
&= \frac{15}{6} = 2.5
\end{aligned}[/math]
Calcolo degli intervalli
| Livello di confidenza | Valore critico [math]Z_{\alpha/2}[/math] | Margine d’errore [math]E[/math] | Intervallo di confidenza |
|---|---|---|---|
| 90% | [math]1.645[/math] | [math]1.645 \times 2.5 = 4.11[/math] | [math][95.89; 104.11][/math] |
| 95% | [math]1.960[/math] | [math]1.960 \times 2.5 = 4.90[/math] | [math][95.10; 104.90][/math] |
| 99% | [math]2.576[/math] | [math]2.576 \times 2.5 = 6.44[/math] | [math][93.56; 106.44][/math] |
Interpretazione
Aumentando il livello di confidenza, il valore di [math]Z[/math] cresce → l’intervallo si allarga.
C’è un trade-off:
- 90% → intervallo più stretto, ma meno sicuro.
- 95% → compromesso più usato.
- 99% → intervallo molto ampio, ma con massima sicurezza.
Esercizio 1: Il Calcolo Base (Livello Facile)
Testo
Un’azienda produttrice di batterie al litio per monopattini elettrici sa, da studi storici approfonditi, che la deviazione standard della durata di vita delle sue batterie è [math]\sigma = 150[/math] giorni. Per stimare la durata media [math]\mu[/math] di un nuovo lotto, viene selezionato un campione casuale di [math]n=100[/math] batterie. La durata media campionaria osservata è [math]\bar{x} = 1200[/math] giorni.
Obiettivo: Calcola l’intervallo di confidenza al 95% per la vera durata media [math]\mu[/math] delle batterie.
Soluzione
1. Identificazione dei Dati e del Livello di Confidenza
- Media campionaria ([math]\bar{x}[/math]): 1200 giorni.
- Deviazione standard della popolazione ([math]\sigma[/math]): 150 giorni (varianza nota).
- Dimensione del campione ([math]n[/math]): 100.
- Livello di Confidenza ([math]1-\alpha[/math]): [math]95\% = 0.95[/math].
2. Determinazione del Valore Critico ([math]Z_{\alpha/2}[/math])
Il livello di significatività è [math]\alpha = 1 – 0.95 = 0.05[/math]. Il valore critico [math]Z_{\alpha/2}[/math] corrisponde al valore che lascia un’area di [math]\alpha/2 = 0.05/2 = 0.025[/math] in ciascuna coda della distribuzione normale standard. Consultando le tabelle della Normale Standard, o utilizzando un calcolatore statistico, si trova:
[math]\displaystyle \begin{aligned} Z_{0.025} = 1.96 \end{aligned}[/math]
💡 Osservazione Strategica: Il valore [math]Z=1.96[/math] è il più comune in statistica inferenziale, associato a un livello di confidenza del 95%. Significa che il 95% dell’area sotto la curva normale standard è compreso tra [math]-1.96[/math] e [math]+1.96[/math].
3. Calcolo dell’Errore Standard della Media
L’errore standard della media ([math]\sigma_{\bar{x}}[/math]) misura la variabilità della media campionaria rispetto alla media della popolazione:
[math]\displaystyle \begin{aligned}
\sigma_{\bar{x}} &= \frac{\sigma}{\sqrt{n}} = \frac{150}{\sqrt{100}} \\
&= \frac{150}{10} = 15
\end{aligned}[/math]
4. Calcolo del Margine di Errore ([math]E[/math])
Il margine di errore è il prodotto del valore critico per l’errore standard:
[math]\displaystyle \begin{aligned}
E &= Z_{\alpha/2} \cdot \sigma_{\bar{x}} \\
&= 1.96 \cdot 15 = 29.4
\end{aligned}[/math]
5. Costruzione dell’Intervallo di Confidenza
L’intervallo è dato da [math]\bar{x} \pm E[/math]:
[math]\displaystyle \begin{aligned}
IC_{95\%} &= 1200 \pm 29.4 \\
IC_{95\%} &= [1200 – 29.4; 1200 + 29.4] \\
IC_{95\%} &= [1170.6; 1229.4] \text{ giorni}
\end{aligned}[/math]
Conclusione: Siamo fiduciosi al 95% che la vera durata media [math]\mu[/math] di tutte le batterie di quel lotto sia compresa tra 1170.6 e 1229.4 giorni.
Mini Quiz e Riflessione
Domanda: Qual è il ruolo del Teorema del Limite Centrale (TLC) in questo esercizio, anche se non è esplicitamente menzionato che la popolazione è Normale?
Risposta Approfondita:
Il TLC è fondamentale. Esso afferma che, se la dimensione del campione [math]n[/math] è sufficientemente grande ([math]n \ge 30[/math] è una regola pratica), la distribuzione della media campionaria ([math]\bar{x}[/math]) è approssimativamente Normale, indipendentemente dalla forma della distribuzione della popolazione originale. Poiché [math]n=100[/math] è grande, possiamo usare la distribuzione [math]Z[/math] (Normale Standard) per calcolare l’intervallo di confidenza, giustificando l’uso di [math]Z_{\alpha/2}=1.96[/math].
Esercizio 2: Variazione del Livello di Confidenza (Livello Intermedio)
Testo
Un ingegnere del suono sta analizzando il tempo di latenza (in millisecondi, ms) di un nuovo sistema audio. Sa che la deviazione standard della latenza del sistema è [math]\sigma = 4.5[/math] ms. Un campione di [math]n=49[/math] misurazioni produce una latenza media campionaria di [math]\bar{x} = 22.8[/math] ms.
Obiettivo: Calcola e confronta l’intervallo di confidenza per la vera latenza media [math]\mu[/math] ai livelli di confidenza del 90% e del 99%.
Soluzione
1. Dati Iniziali
- [math]\bar{x} = 22.8[/math] ms.
- [math]\sigma = 4.5[/math] ms.
- [math]n = 49[/math].
2. Calcolo dell’Errore Standard (Comune a entrambi i livelli)
[math]\displaystyle \begin{aligned}
\sigma_{\bar{x}} &= \frac{\sigma}{\sqrt{n}} = \frac{4.5}{\sqrt{49}} \\
&= \frac{4.5}{7} \approx 0.6429 \text{ ms}
\end{aligned}[/math]
3. Calcolo per il Livello di Confidenza del 90%
- [math]1-\alpha = 0.90 \implies \alpha = 0.10 \implies \alpha/2 = 0.05[/math].
- Valore critico: [math]Z_{0.05} = 1.645[/math].
- Margine di Errore ([math]E_{90\%}[/math]):
[math]\displaystyle \begin{aligned}
E_{90\%} &= 1.645 \cdot 0.6429 \\
&\approx 1.0578 \text{ ms}
\end{aligned}[/math] - Intervallo di Confidenza ([math]IC_{90\%}[/math]):
[math]\displaystyle \begin{aligned}
IC_{90\%} &= 22.8 \pm 1.0578 \\
&= [21.7422; 23.8578] \\
&\approx [21.74; 23.86] \text{ ms}
\end{aligned}[/math]
4. Calcolo per il Livello di Confidenza del 99%
- [math]1-\alpha = 0.99 \implies \alpha = 0.01 \implies \alpha/2 = 0.005[/math].
- Valore critico: [math]Z_{0.005} = 2.576[/math].
- Margine di Errore ([math]E_{99\%}[/math]):
[math]\displaystyle \begin{aligned}
E_{99\%} &= 2.576 \cdot 0.6429 \\
&\approx 1.6575 \text{ ms}
\end{aligned}[/math] - Intervallo di Confidenza ([math]IC_{99\%}[/math]):
[math]\displaystyle \begin{aligned}
IC_{99\%} &= 22.8 \pm 1.6575 \\
&= [21.1425; 24.4575] \\
&\approx [21.14; 24.46] \text{ ms}
\end{aligned}[/math]
5. Confronto dei Risultati
| Livello di Confidenza | Valore Critico ([math]Z_{\alpha/2}[/math]) | Margine di Errore ([math]E[/math]) | Intervallo di Confidenza | Ampiezza ([math]2E[/math]) |
|---|---|---|---|---|
| 90% | 1.645 | 1.0578 | [21.74; 23.86] | 2.1156 |
| 99% | 2.576 | 1.6575 | [21.14; 24.46] | 3.3150 |
Conclusione: L’intervallo al 99% è più ampio di quello al 90%.
Grafico

Mini Quiz e Riflessione
Domanda: Spiega la relazione inversa tra il livello di confidenza e l’ampiezza dell’intervallo, tenendo fissa la dimensione del campione.
Risposta Approfondita: Per aumentare il livello di confidenza (cioè, la probabilità che l’intervallo contenga il vero parametro [math]\mu[/math]), dobbiamo aumentare il margine di errore ([math]E[/math]). Matematicamente, un livello di confidenza maggiore richiede un valore critico ([math]Z_{\alpha/2}[/math]) maggiore. Poiché [math]E[/math] è direttamente proporzionale a [math]Z_{\alpha/2}[/math], l’intervallo risultante ([math]\bar{x} \pm E[/math]) sarà più ampio. In termini intuitivi, per essere “più sicuri” che l’intervallo catturi la media della popolazione, dobbiamo allargare la “rete” di cattura.
Esercizio 3: Determinazione della Dimensione Campionaria (Livello Intermedio-Avanzato)
Testo
Un’agenzia immobiliare vuole stimare il prezzo medio [math]\mu[/math] degli appartamenti in una specifica area. Sulla base di dati storici, la deviazione standard dei prezzi è nota essere [math]\sigma = 25.000[/math] euro. L’agenzia desidera che la stima della media campionaria sia precisa entro un margine di errore ([math]E[/math]) di 5.000 euro, con un livello di confidenza del 98%.
Obiettivo: Determina la dimensione minima del campione ([math]n[/math]) necessaria per soddisfare questi requisiti.
Soluzione
1. Identificazione dei Dati e dell’Obiettivo
- Deviazione standard della popolazione ([math]\sigma[/math]): 25.000 euro.
- Margine di Errore desiderato ([math]E[/math]): 5.000 euro.
- Livello di Confidenza ([math]1-\alpha[/math]): [math]98\% = 0.98[/math].
- Obiettivo: Trovare [math]n[/math].
2. Determinazione del Valore Critico ([math]Z_{\alpha/2}[/math])
- [math]1-\alpha = 0.98 \implies \alpha = 0.02 \implies \alpha/2 = 0.01[/math].
- Valore critico: [math]Z_{0.01} = 2.33[/math].
3. Utilizzo della Formula per la Dimensione Campionaria
La formula del margine di errore è [math]E = Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}[/math].
L’equazione per calcolare la dimensione campionaria n partendo dal Margine di Errore E è:
[math]\displaystyle \begin{aligned}
\sqrt{n} &= \frac{Z_{\alpha/2} \cdot \sigma}{E}
\end{aligned}[/math]
Risolvendo per n, si ottiene la formula finale per la dimensione campionaria:
[math]\displaystyle \begin{aligned}
n &= \left( \frac{Z_{\alpha/2} \cdot \sigma}{E} \right)^2
\end{aligned}[/math]
4. Sostituzione dei Valori e Calcolo
[math]\displaystyle \begin{aligned}
n &= \left( \frac{2.33 \cdot 25000}{5000} \right)^2 \\
n &= \left( 2.33 \cdot 5 \right)^2 \\
n &= \left( 11.65 \right)^2 \\
n &= 135.7225
\end{aligned}[/math]
5. Arrotondamento
Poiché la dimensione del campione deve essere un numero intero e dobbiamo garantire che il margine di errore sia al massimo [math]5.000[/math] euro, si arrotonda sempre per eccesso al numero intero successivo.
[math]\displaystyle \begin{aligned}
n_{minimo} = 136
\end{aligned}[/math]
Conclusione: L’agenzia immobiliare deve selezionare un campione minimo di 136 appartamenti per essere sicura al 98% che la media campionaria stimata non si discosti dalla vera media della popolazione per più di [math]5.000[/math] euro.
Mini Quiz e Riflessione
Domanda: Cosa succederebbe alla dimensione campionaria [math]n[/math] se l’agenzia decidesse di ridurre il margine di errore desiderato [math]E[/math] da [math]5.000[/math] a [math]2.500[/math] euro, mantenendo invariato il livello di confidenza?
Risposta Approfondita:
Poiché [math]n[/math] è inversamente proporzionale al quadrato del margine di errore [math]E[/math] (cioè [math]n \propto 1/E^2[/math]), se il margine di errore viene dimezzato (da [math]5.000[/math] a [math]2.500[/math]), la dimensione campionaria [math]n[/math] dovrà essere quadruplicata.
[math]\displaystyle \begin{aligned}
n_{nuovo} &= \left( \frac{2.33 \cdot 25000}{2500} \right)^2 \\
&= \left( 2.33 \cdot 10 \right)^2 = (23.3)^2 = 542.89
\end{aligned}[/math]
Quindi, [math]n_{nuovo} = 543[/math]. L’aumento di precisione (riduzione di [math]E[/math]) comporta un costo significativo in termini di raccolta dati.
Esercizio 4: Interpretazione e Confronto di Campioni (Livello Avanzato)
Testo
Due diversi stabilimenti (A e B) producono lo stesso tipo di cavo in fibra ottica. La deviazione standard della resistenza alla trazione (in Newton, N) è nota e identica per entrambi: [math]\sigma = 8[/math] N.
- Stabilimento A: Campione di [math]n_A = 64[/math] cavi, media campionaria [math]\bar{x}_A = 150[/math] N.
- Stabilimento B: Campione di [math]n_B = 100[/math] cavi, media campionaria [math]\bar{x}_B = 153[/math] N.
Obiettivo:
- Calcola l’intervallo di confidenza al 95% per la resistenza media [math]\mu[/math] di ciascuno stabilimento.
- Determina se i due intervalli si sovrappongono e cosa implica questa sovrapposizione (o non sovrapposizione) sulla differenza tra le vere medie di popolazione [math]\mu_A[/math] e [math]\mu_B[/math].
Soluzione
1. Dati Comuni e Valore Critico
- [math]\sigma = 8[/math] N.
- [math]1-\alpha = 0.95 \implies Z_{0.025} = 1.96[/math].
2. Calcolo per lo Stabilimento A
- [math]n_A = 64[/math], [math]\bar{x}_A = 150[/math].
- Errore Standard ([math]\sigma_{\bar{x}A}[/math]):
[math]\displaystyle \begin{aligned}
\frac{8}{\sqrt{64}} &= \frac{8}{8} = 1 \text{ N}
\end{aligned}[/math] - Margine di Errore ([math]E_A[/math]):
[math]\displaystyle \begin{aligned}
1.96 \cdot 1 &= 1.96 \text{ N}
\end{aligned}[/math] - Intervallo di Confidenza ([math]IC_A[/math]):
[math]\displaystyle \begin{aligned}
IC_A &= 150 \pm 1.96 \\
&= [148.04; 151.96] \text{ N}
\end{aligned}[/math]
3. Calcolo per lo Stabilimento B
- [math]n_B = 100[/math], [math]\bar{x}_B = 153[/math].
- Errore Standard ([math]\sigma_{\bar{x}B}[/math]):
[math]\displaystyle \begin{aligned}
\frac{8}{\sqrt{100}} &= \frac{8}{10} = 0.8 \text{ N}
\end{aligned}[/math] - Margine di Errore ([math]E_B[/math]):
[math]\displaystyle \begin{aligned}
1.96 \cdot 0.8 &= 1.568 \text{ N}
\end{aligned}[/math] - Intervallo di Confidenza ([math]IC_B[/math]):
[math]\displaystyle \begin{aligned}
IC_B &= 153 \pm 1.568 \\
&= [151.432; 154.568] \text{ N}
\end{aligned}[/math]
4. Analisi della Sovrapposizione
| Stabilimento | Intervallo di Confidenza al 95% |
|---|---|
| A | [148.04; 151.96] |
| B | [151.432; 154.568] |
- Il limite superiore di [math]IC_A[/math] è 151.96.
- Il limite inferiore di [math]IC_B[/math] è 151.432.
Poiché [math]151.432 < 151.96[/math], gli intervalli si sovrappongono.
💡 Osservazione Strategica (Interpretazione della Sovrapposizione):
Quando due intervalli di confidenza al 95% per due medie di popolazione si sovrappongono, non possiamo concludere, con un livello di significatività del 5%, che le due vere medie di popolazione ([math]\mu_A[/math] e [math]\mu_B[/math]) siano significativamente diverse.
Grafico

- L’intervallo [math]IC_A[/math] suggerisce che [math]\mu_A[/math] potrebbe essere [math]151.96[/math].
- L’intervallo [math]IC_B[/math] suggerisce che [math]\mu_B[/math] potrebbe essere [math]151.432[/math].
Poiché esiste un’area di valori comuni (da [math]151.432[/math] a [math]151.96[/math]), è plausibile che [math]\mu_A = \mu_B[/math]. Per una conclusione definitiva sulla differenza, si dovrebbe eseguire un test d’ipotesi specifico per la differenza tra due medie.
Mini Quiz e Riflessione
Domanda: Perché l’intervallo di confidenza per lo Stabilimento B ([math]IC_B[/math]) è più stretto di quello per lo Stabilimento A ([math]IC_A[/math]), nonostante abbiano la stessa deviazione standard della popolazione e lo stesso livello di confidenza?
Risposta:
La larghezza dell’intervallo è determinata dal margine di errore [math]E = Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}[/math]. Poiché [math]Z_{\alpha/2}[/math] e [math]\sigma[/math] sono costanti, l’ampiezza è inversamente proporzionale a [math]\sqrt{n}[/math]. Lo Stabilimento B ha una dimensione campionaria maggiore ([math]n_B=100[/math]) rispetto allo Stabilimento A ([math]n_A=64[/math]). Un campione più grande fornisce una stima della media campionaria più precisa (minore errore standard [math]\sigma_{\bar{x}}[/math]), risultando in un intervallo di confidenza più stretto.
Esercizio 5: Stima con Popolazione Non Normale e Campione Piccolo (Livello Avanzato/Critico)
Testo
Un biologo sta studiando il tempo di germinazione (in ore) di un seme raro. La deviazione standard della popolazione è storicamente nota come [math]\sigma = 10[/math] ore. Il biologo ha selezionato un campione molto piccolo di [math]n=16[/math] semi e ha osservato un tempo medio di germinazione campionario di [math]\bar{x} = 55[/math] ore.
Obiettivo:
- Calcola l’intervallo di confidenza al 99% per il tempo medio di germinazione [math]\mu[/math].
- Discuti criticamente la validità di questo intervallo, considerando la dimensione del campione e l’assunzione implicita necessaria.
Soluzione
1. Dati e Calcolo
- [math]\bar{x} = 55[/math] ore.
- [math]\sigma = 10[/math] ore.
- [math]n = 16[/math] (Campione piccolo, [math]n < 30[/math]).
- [math]1-\alpha = 0.99 \implies Z_{0.005} = 2.576[/math].
2. Calcolo dell’Errore Standard
[math]\displaystyle \begin{aligned}
\sigma_{\bar{x}} &= \frac{\sigma}{\sqrt{n}} = \frac{10}{\sqrt{16}} \\
&= \frac{10}{4} = 2.5 \text{ ore}
\end{aligned}[/math]
3. Calcolo del Margine di Errore ([math]E[/math])
[math]\displaystyle \begin{aligned}
E &= Z_{\alpha/2} \cdot \sigma_{\bar{x}} \\
&= 2.576 \cdot 2.5 = 6.44 \text{ ore}
\end{aligned}[/math]
4. Costruzione dell’Intervallo di Confidenza
[math]\displaystyle \begin{aligned}
IC_{99\%} &= 55 \pm 6.44 \\
IC_{99\%} &= [48.56; 61.44] \text{ ore}
\end{aligned}[/math]
5. Discussione Critica della Validità
💡 Osservazione Strategica (Assunzione di Normalità):
La formula [math]IC = \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}[/math] è valida se:
- La popolazione è distribuita Normalmente.
- Oppure, la dimensione del campione [math]n[/math] è sufficientemente grande ([math]n \ge 30[/math], per il TLC).
In questo caso, [math]n=16[/math] è piccolo. Pertanto, l’uso del valore critico [math]Z[/math] e della formula dell’IC è valido solo se si assume che la popolazione dei tempi di germinazione sia distribuita in modo Normale. Se la popolazione non fosse Normale (ad esempio, se fosse molto asimmetrica), l’intervallo calcolato non avrebbe un livello di confidenza effettivo del 99%, e la stima sarebbe inaffidabile.
Strategia Risolutiva: In un contesto reale, il biologo dovrebbe:
- Verificare la normalità della popolazione (es. con un test di Shapiro-Wilk).
- Se la popolazione è Normale, l’IC è valido.
- Se la popolazione non è Normale, l’intervallo è approssimativo; sarebbe preferibile aumentare la dimensione del campione.
Mini Quiz e Riflessione
Domanda: Se la varianza della popolazione ([math]\sigma^2[/math]) non fosse stata nota, ma avessimo usato la deviazione standard campionaria ([math]s[/math]), quale distribuzione avremmo dovuto usare per trovare il valore critico e perché?
Risposta: Se la varianza della popolazione ([math]\sigma^2[/math]) non fosse nota, avremmo dovuto usare la distribuzione t di Student invece della distribuzione [math]Z[/math] (Normale Standard). Questo è necessario perché, sostituendo [math]\sigma[/math] (parametro noto) con [math]s[/math] (statistica campionaria), si introduce un’ulteriore fonte di incertezza nella stima. La distribuzione t di Student tiene conto di questa maggiore incertezza, specialmente con campioni piccoli, ed è caratterizzata dai gradi di libertà ([math]g.d.l. = n-1[/math]).
Esercizio 6: Impatto della Varianza e Analisi di Sensibilità (Livello Difficile)
Testo
Un istituto di ricerca finanziaria sta analizzando la volatilità dei rendimenti giornalieri di un indice azionario. La deviazione standard storica (volatilità) dell’indice è nota come [math]\sigma = 1.2\%[/math]. Un campione di [math]n=225[/math] giorni di trading mostra un rendimento medio campionario di [math]\bar{x} = 0.05\%[/math].
Obiettivo:
- Calcola l’IC al 95% per il rendimento medio giornaliero [math]\mu[/math].
- Analizza come cambierebbe l’ampiezza dell’IC se la vera volatilità dell’indice fosse in realtà [math]\sigma’ = 2.4\%[/math] (il doppio), mantenendo invariati tutti gli altri parametri.
- Determina il fattore di aumento dell’ampiezza dell’IC.
Soluzione
1. Calcolo Base (Volatilità [math]\sigma = 1.2\%[/math])
- [math]\bar{x} = 0.05\%[/math].
- [math]\sigma = 1.2\%[/math].
- [math]n = 225[/math].
- [math]Z_{0.025} = 1.96[/math].
- Errore Standard ([math]\sigma_{\bar{x}}[/math]):
[math]\displaystyle \begin{aligned}
\sigma_{\bar{x}} &= \frac{1.2}{\sqrt{225}} = \frac{1.2}{15} \\
&= 0.08\%
\end{aligned}[/math] - Margine di Errore ([math]E_{base}[/math]):
[math]\displaystyle \begin{aligned}
E_{base} &= 1.96 \cdot 0.08 \\
&= 0.1568\%
\end{aligned}[/math] - Ampiezza dell’IC ([math]A_{base}[/math]):
[math]\displaystyle \begin{aligned}
A_{base} &= 2 \cdot E_{base} = 2 \cdot 0.1568 \\
&= 0.3136\%
\end{aligned}[/math] - Intervallo di Confidenza ([math]IC_{base}[/math]):
[math]\displaystyle \begin{aligned}
IC_{base} &= 0.05 \pm 0.1568 \\
&= [-0.1068\%; 0.2068\%]
\end{aligned}[/math]
2. Analisi di Sensibilità (Volatilità [math]\sigma’ = 2.4\%[/math])
- [math]\bar{x} = 0.05\%[/math].
- [math]\sigma’ = 2.4\%[/math] (il doppio di [math]\sigma[/math]).
- [math]n = 225[/math].
- [math]Z_{0.025} = 1.96[/math].
- Errore Standard ([math]\sigma’_{\bar{x}}[/math]):
[math]\displaystyle \begin{aligned}
\sigma’_{\bar{x}} &= \frac{2.4}{\sqrt{225}} = \frac{2.4}{15} \\
&= 0.16\%
\end{aligned}[/math] - Margine di Errore ([math]E_{nuovo}[/math]):
[math]\displaystyle \begin{aligned}
E_{nuovo} &= 1.96 \cdot 0.16 \\
&= 0.3136\%
\end{aligned}[/math] - Ampiezza dell’IC ([math]A_{nuovo}[/math]):
[math]\displaystyle \begin{aligned}
A_{nuovo} &= 2 \cdot E_{nuovo} = 2 \cdot 0.3136 \\
&= 0.6272\%
\end{aligned}[/math] - Intervallo di Confidenza ([math]IC_{nuovo}[/math]):
[math]\displaystyle \begin{aligned}
IC_{nuovo} &= 0.05 \pm 0.3136 \\
&= [-0.2636\%; 0.3636\%]
\end{aligned}[/math]
3. Determinazione del Fattore di Aumento
Il fattore di aumento è dato dal rapporto tra l’ampiezza nuova e l’ampiezza base:
[math]\displaystyle \begin{aligned}
\text{Fattore} &= \frac{A_{nuovo}}{A_{base}} = \frac{0.6272}{0.3136} \\
&= 2
\end{aligned}[/math]
Conclusione: Se la deviazione standard della popolazione ([math]\sigma[/math]) raddoppia, anche l’ampiezza dell’intervallo di confidenza raddoppia, mantenendo costanti [math]n[/math] e [math]1-\alpha[/math].
💡 Osservazione Strategica (Relazione Lineare):
Il margine di errore [math]E[/math] è dato da [math]E = Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}[/math]. Poiché [math]Z_{\alpha/2}[/math] e [math]\sqrt{n}[/math] sono costanti, [math]E[/math] è direttamente proporzionale a [math]\sigma[/math]. Questo significa che qualsiasi variazione percentuale in [math]\sigma[/math] (la variabilità intrinseca della popolazione) si traduce nella stessa variazione percentuale nell’ampiezza dell’intervallo.
Mini Quiz e Riflessione
Domanda: Qual è il vantaggio di usare un campione di [math]n=225[/math] rispetto a un campione di [math]n=100[/math] (a parità di [math]\sigma[/math] e [math]1-\alpha[/math])? Qual è il fattore di riduzione dell’errore standard?
Risposta: Il vantaggio di usare un campione più grande è ottenere un intervallo di confidenza più stretto, ovvero una stima più precisa. L’errore standard è [math]\sigma_{\bar{x}} = \frac{\sigma}{\sqrt{n}}[/math].
- Per [math]n=100[/math]: [math]\sigma_{\bar{x}, 100} = \frac{\sigma}{\sqrt{100}} = \frac{\sigma}{10}[/math].
- Per [math]n=225[/math]: [math]\sigma_{\bar{x}, 225} = \frac{\sigma}{\sqrt{225}} = \frac{\sigma}{15}[/math].
Il fattore di riduzione è il rapporto tra i due errori standard:
[math]\displaystyle \begin{aligned}
\text{Fattore di Riduzione} &= \frac{\sigma_{\bar{x}, 225}}{\sigma_{\bar{x}, 100}} = \frac{\sigma/15}{\sigma/10} \\
&= \frac{10}{15} = \frac{2}{3} \approx 0.667
\end{aligned}[/math]
Passando da [math]n=100[/math] a [math]n=225[/math], l’errore standard si riduce di circa il 33.3%, e di conseguenza anche l’ampiezza dell’intervallo si riduce dello stesso fattore.
Esercizio 7: Intervallo di Confidenza con Dati Grezzi (Livello Intermedio)
Testo
Un team di controllo qualità in un’industria alimentare sta monitorando il peso (in grammi) di confezioni di pasta. La deviazione standard del processo di riempimento è nota: [math]\sigma = 5[/math] grammi. Viene selezionato un campione casuale di [math]n=9[/math] confezioni e i pesi registrati sono:
{498, 505, 502, 495, 501, 503, 500, 499, 504}
Obiettivo: Calcola l’intervallo di confidenza al 95% per il vero peso medio [math]\mu[/math] delle confezioni.
Soluzione
1. Calcolo della Media Campionaria ([math]\bar{x}[/math])
La media campionaria è la somma dei valori divisa per il numero di osservazioni:
[math]\displaystyle \begin{aligned}
\bar{x} &= \frac{498 + 505 + 502 + 495 + 501 + 503 + 500 + 499 + 504}{9} \\
&= \frac{4507}{9} \approx 500.78 \text{ grammi}
\end{aligned}[/math]
2. Dati e Valore Critico
- [math]\bar{x} \approx 500.78[/math] g.
- [math]\sigma = 5[/math] g.
- [math]n = 9[/math].
- [math]1-\alpha = 0.95 \implies Z_{0.025} = 1.96[/math].
3. Calcolo dell’Errore Standard
[math]\displaystyle \begin{aligned}
\sigma_{\bar{x}} &= \frac{\sigma}{\sqrt{n}} = \frac{5}{\sqrt{9}} \\
&= \frac{5}{3} \approx 1.6667 \text{ g}
\end{aligned}[/math]
4. Calcolo del Margine di Errore ([math]E[/math])
[math]\displaystyle \begin{aligned}
E &= Z_{\alpha/2} \cdot \sigma_{\bar{x}} = 1.96 \cdot 1.6667 \\
&\approx 3.2667 \text{ g}
\end{aligned}[/math]
5. Costruzione dell’Intervallo di Confidenza
[math]\displaystyle \begin{aligned}
IC_{95\%} &= 500.78 \pm 3.27 \\
IC_{95\%} &= [500.78 – 3.27; 500.78 + 3.27] \\
IC_{95\%} &= [497.51; 504.05] \text{ grammi}
\end{aligned}[/math]
Conclusione: Siamo fiduciosi al 95% che il vero peso medio delle confezioni sia compreso tra 497.51 e 504.05 grammi.
Mini Quiz e Riflessione
Domanda: Se il peso target per le confezioni di pasta è [math]500[/math] grammi, cosa suggerisce l’intervallo di confidenza calcolato riguardo al rispetto di questo target da parte del processo?
Risposta: L’intervallo di confidenza al 95% è [math][497.51; 504.05][/math] grammi. Poiché il peso target di [math]500[/math] grammi è incluso all’interno di questo intervallo, non ci sono prove statisticamente significative, al livello di confidenza del 95%, per concludere che il processo di riempimento sia fuori target. È plausibile che la vera media [math]\mu[/math] sia effettivamente [math]500[/math] grammi.
Esercizio 8: Analisi dell’Impatto del Campione Piccolo (Livello Difficile)
Testo
Riprendiamo l’Esercizio 7, dove [math]n=9[/math] è un campione piccolo. Supponiamo che il team di controllo qualità abbia un motivo per credere che la distribuzione del peso delle confezioni sia fortemente asimmetrica (non Normale).
Obiettivo: Spiega perché l’intervallo di confidenza calcolato nell’Esercizio 7 è problematico in questo nuovo scenario e suggerisci due azioni che il team dovrebbe intraprendere per ottenere una stima più affidabile.
Soluzione
1. Analisi del Problema Statistico
La formula [math]IC = \bar{x} \pm Z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}[/math] si basa sull’assunzione che la distribuzione della media campionaria ([math]\bar{x}[/math]) sia Normale.
- Caso [math]n[/math] grande ([math]n \ge 30[/math]): Il Teorema del Limite Centrale (TLC) garantisce la Normalità di [math]\bar{x}[/math], indipendentemente dalla forma della popolazione.
- Caso [math]n[/math] piccolo ([math]n < 30[/math]): La Normalità di [math]\bar{x}[/math] è garantita solo se la popolazione originale è Normale.
Nel nuovo scenario, la popolazione è fortemente asimmetrica e [math]n=9[/math] è piccolo. Pertanto, la distribuzione della media campionaria [math]\bar{x}[/math] non è Normale. L’uso del valore critico [math]Z=1.96[/math] (derivato dalla distribuzione Normale Standard) non è corretto e l’intervallo calcolato non avrà un livello di confidenza effettivo del 95%.
2. Azioni Correttive
Il team ha due vie principali per rendere la stima più affidabile:
Azione 1: Aumentare la Dimensione del Campione
- Strategia: Aumentare la dimensione del campione [math]n[/math] fino a quando il TLC non può essere invocato con sicurezza (tipicamente [math]n \ge 30[/math]).
- Motivazione: Un campione più grande (es. [math]n=40[/math]) renderebbe la distribuzione di [math]\bar{x}[/math] approssimativamente Normale, anche se la popolazione è asimmetrica, convalidando l’uso della formula [math]Z[/math] e garantendo che l’IC abbia il livello di confidenza desiderato (95%).
Azione 2: Utilizzare Metodi Non Parametrici
- Strategia: Se non è possibile aumentare il campione, si dovrebbero considerare metodi di stima non parametrici, come l’uso del Bootstrap.
- Motivazione: Il Bootstrap è una tecnica di ricampionamento che non richiede l’assunzione di Normalità della popolazione o della statistica campionaria. Permette di stimare la distribuzione campionaria di [math]\bar{x}[/math] direttamente dai dati osservati e costruire un intervallo di confidenza empirico e più robusto per la media [math]\mu[/math].
Mini Quiz e Riflessione
Domanda: Se il team potesse scegliere solo tra raddoppiare la dimensione del campione (da [math]n=9[/math] a [math]n=18[/math]) o dimezzare la deviazione standard della popolazione (da [math]\sigma=5[/math] a [math]\sigma=2.5[/math]), quale scelta porterebbe a un intervallo di confidenza più stretto?
Risposta: L’ampiezza dell’intervallo è proporzionale a
[math]\frac{\sigma}{\sqrt{n}}[/math]
.
- Raddoppio di [math]n[/math]: L’ampiezza sarebbe proporzionale a:
[math]\displaystyle \begin{aligned}
\frac{\sigma}{\sqrt{18}} \approx \frac{\sigma}{4.24}
\end{aligned}[/math] - Dimezzamento di [math]\sigma[/math]: L’ampiezza sarebbe proporzionale a:
[math]\displaystyle \begin{aligned}
\frac{0.5\sigma}{\sqrt{9}} = \frac{0.5\sigma}{3} \approx \frac{\sigma}{6}
\end{aligned}[/math]
Poiché [math]\frac{1}{6} < \frac{1}{4.24}[/math], dimezzare la deviazione standard ([math]\sigma[/math]) porta a un intervallo di confidenza significativamente più stretto (più preciso). Questo evidenzia che la variabilità intrinseca del processo ([math]\sigma[/math]) ha un impatto maggiore sulla precisione (ampiezza dell’IC) rispetto a un modesto aumento della dimensione campionaria [math]n[/math].
Articoli di approfondimento
- 👉 Teorema del Limite Centrale (TLC): guida completa all’analisi dati con spiegazione, esercizi Python e i casi in cui fallisce
- 👉 La distribuzione normale standardizzata
- 👉 Excel e la distribuzione normale
- 👉 Excel: la funzione inversa della distribuzione normale
- 👉 Quantili della distribuzione normale: definizione, calcolo ed esercizi pratici
- 👉 6 esercizi svolti di statistica inferenziale con soluzioni
- 👉 Intervallo di confidenza della media con varianza nota
- 👉 Le 7 distribuzioni statistiche che ogni data scientist deve conoscere





