La statistica non è solo numeri 💡
Quando navighiamo nel mare dei dati, spesso ci ritroviamo con una domanda fondamentale: il cambiamento che vediamo è reale, o è solo fortuna? La statistica inferenziale è l’arte di rispondere proprio a questo. Non stiamo parlando di algoritmi aridi o formule astratte, ma della capacità critica di prendere una piccola fotografia del mondo (il campione) e dedurre con sicurezza ciò che accade nell’universo intero (la popolazione).
Per un controllore di qualità, un politico o un data scientist, l’inferenza è lo strumento che separa l’intuizione dalla prova scientifica. In questa guida, lasciamo da parte la teoria pesante e ci sporchiamo le mani con 8 esercizi originali e progressivi.
Ti accompagneremo passo dopo passo, dall’impostare il giusto sospetto (l’ipotesi) fino a trarre conclusioni robuste, imparando a misurare l’efficacia di un nuovo programma di allenamento o il rischio di produrre cavi difettosi.
Pronto a trasformare il tuo sospetto in una decisione informata?
Esercizio 1 (Facile) – Il Fondamento: Ipotesi Nulla e Alternativa
Testo:
Un produttore di biscotti afferma che il suo macchinario riempie ogni busta con un peso medio di 200g. Tu, in qualità di controllore di qualità, sospetti che il macchinario sia sregolato e che il peso medio sia diverso da quello dichiarato. Descrivi come formalizzeresti questo problema in un test di ipotesi, specificando l’ipotesi nulla ([math]H_0[/math]) e l’ipotesi alternativa ([math]H_1[/math]).
Risoluzione:
Identificazione del Parametro di Interesse:
Il parametro che vogliamo testare è la media della popolazione ([math]\mu[/math]), ovvero il vero peso medio di tutte le buste di biscotti prodotte dal macchinario.
Formulazione dell’Ipotesi Nulla ([math]H_0[/math]):
L’ipotesi nulla rappresenta sempre lo “status quo” o l’affermazione che si presume vera fino a prova contraria.
[math]H_0: \mu = 200\text{g}[/math]
(Il peso medio è esattamente 200g).
Formulazione dell’Ipotesi Alternativa ([math]H_1[/math]):
Il nostro sospetto è che il peso medio sia diverso da 200g (non sappiamo se maggiore o minore). Questo definisce un test bidirezionale (o a due code).
[math]H_1: \mu \neq 200\text{g}[/math]
(Il peso medio è diverso da 200g).
💡 Osservazione:
La scelta tra un test a una coda ([math]H_1: \mu > 200\text{g}[/math] o [math]H_1: \mu < 200\text{g}[/math]) e un test a due code ([math]H_1: \mu \neq 200\text{g}[/math]) è cruciale e dipende dal contesto del problema. Un test a una coda si usa quando si ha un sospetto specifico sulla direzione della differenza.
Domanda di Riflessione:
Perché in questo caso abbiamo scelto un’ipotesi alternativa “[math]\neq[/math]” invece di “[math]>[/math]” o “[math]<[/math]”?”
Esercizio 2 (Facile) – Il Punto di Vista del Produttore
Testo:
Riprendendo l’esercizio precedente, immagina ora di essere il produttore. Vuoi assicurarti che il tuo macchinario non stia sotto-riempiendo le buste, un problema che potrebbe portare a multe. Come cambierebbero le ipotesi nulla e alternativa?
Risoluzione Passo-Passo:
Identificazione del Parametro di Interesse:
Il parametro è sempre la media della popolazione ([math]\mu[/math]).
Formulazione dell’Ipotesi Nulla ([math]H_0[/math]):
Lo “status quo” è che il macchinario funzioni correttamente o sovra-riempia. Formalmente, possiamo pensare a [math]H_0[/math] come “non c’è sotto-riempimento”.
[math]H_0: \mu \geq 200\text{g}[/math]
(Il peso medio è almeno 200g).
Formulazione dell’Ipotesi Alternativa ([math]H_1[/math]):
Il produttore teme specificamente il sotto-riempimento. Questa è l’ipotesi che vuole verificare.
[math]H_1: \mu < 200\text{g}[/math]
(Il peso medio è inferiore a 200g).
💡 Osservazione:
L’ipotesi alternativa ([math]H_1[/math]) contiene sempre l’ipotesi che vogliamo dimostrare o verificare. In questo caso, il produttore sta cercando attivamente evidenza a supporto di [math]H_1[/math].
Domanda di Riflessione:
Quale proprietà del test (livello di significatività [math]\alpha[/math], potenza) è più importante per il produttore in questo scenario e perché?
Esercizio 3 (Facile/Medio) – Calcolo e Interpretazione del P-value
Testo:
Stai conducendo un test d’ipotesi bilaterale sulla media di una popolazione, con [math]H_0: \mu = 50[/math] e [math]H_1: \mu \neq 50[/math]. Da un campione, ottieni una statistica test [math]Z[/math] (distribuita normalmente) pari a 2.1.
a) Trova il p-value approssimato per questo test.
b) Interpreta il p-value alla luce di un livello di significatività [math]\alpha = 0.05[/math]. Cosa concludi?
Risoluzione:
Richiamo Teorico:
Il p-value è la probabilità, supponendo [math]H_0[/math] vera, di osservare un valore della statistica test altrettanto o più estremo di quello effettivamente osservato.
Calcolo del P-value (Test a Due Code):
Poiché il test è bilaterale ([math]H_1: \mu \neq 50[/math]), “più estremo” significa valori di [math]Z[/math] maggiori di [math]|2.1|[/math] o minori di [math]-|2.1|[/math].
[math]\displaystyle \begin{aligned}
P(Z > 2.1) &= 1 – P(Z < 2.1) \\
&{} \quad \text{(Dalle tavole, } P(Z < 2.1) \approx 0.9821) \\ P(Z > 2.1) &= 1 – 0.9821 = 0.0179 \\
\text{p-value} &\approx 2 \times 0.0179 = \mathbf{0.0358}
\end{aligned}[/math]
Decisione e Interpretazione:
Confrontiamo il p-value con [math]\alpha = 0.05[/math].
Regola decisionale: Se [math]\text{p-value} \leq \alpha[/math], si rifiuta [math]H_0[/math].
[math]0.0358 < 0.05[/math].
Conclusione: Rifiutiamo l’ipotesi nulla [math]H_0[/math]. Abbiamo evidenza statistica sufficiente, a un livello di significatività del [math]5\%[/math], per affermare che la media della popolazione è diversa da 50.
💡 Osservazione:
Un p-value basso (minore di [math]\alpha[/math]) è una “prova contro [math]H_0[/math]”. Indica che, se [math]H_0[/math] fosse vera, l’evento che abbiamo osservato nel campione sarebbe molto improbabile.
Domanda di Riflessione:
Se avessimo usato [math]\alpha = 0.01[/math], la nostra conclusione sarebbe cambiata?
Esercizio 4 (Medio) – Test Z su una Media (Varianza Nota)
Testo:
Un’azienda produce cavi con una resistenza media alla trazione di 3000 kg e una deviazione standard nota [math]\sigma = 85\text{ kg}[/math]. Dopo un cambio di fornitore della materia prima, si estrae un campione di 50 cavi, ottenendo una resistenza media campionaria di 2970 kg. Verifica, con un livello di significatività [math]\alpha = 0.05[/math], se il cambio di fornitore ha ridotto la resistenza media.
Risoluzione:
Impostazione delle Ipotesi:
Sospettiamo una riduzione, quindi è un test a coda sinistra.
[math]H_0: \mu \geq 3000\text{ kg}[/math]
[math]H_1: \mu < 3000\text{ kg}[/math]
Scelta della Statistica Test:
La deviazione standard della popolazione ([math]\sigma[/math]) è nota e la dimensione campionaria ([math]n=50[/math]) è grande. Usiamo il test Z per una media.
[math]Z=\frac{\bar{x}-\mu_0}{\sigma/\sqrt{n}}[/math]
Calcolo della Statistica Test:
[math]\displaystyle \begin{aligned}
Z &= \frac{2970 – 3000}{85/\sqrt{50}} \\
&= \frac{-30}{85/7.071} \\
&\approx \frac{-30}{12.02} \approx \mathbf{-2.50}
\end{aligned}[/math]
Regione di Rifiuto:
Per un test a coda sinistra con [math]\alpha=0.05[/math], il valore critico ([math]-z_c[/math]) è -1.645.
La nostra statistica test [math]Z = -2.50[/math] cade nella regione di rifiuto (poiché [math]-2.50 < -1.645[/math]).
Conclusione:
Rifiutiamo [math]H_0[/math]. Al livello di significatività del [math]5\%[/math], esiste evidenza statistica sufficiente per concludere che il cambio di fornitore ha portato a una riduzione della resistenza media dei cavi.
Domanda di Riflessione:
Quali sono le due condizioni principali che ci hanno permesso di utilizzare il test Z in questo caso?
Esercizio 5 (Medio) – Test t su una Media (Varianza Incognita)
Testo:
Un personal trainer sostiene che il suo nuovo programma aumenta il numero di flessioni che i suoi clienti riescono a fare. I dati (numero di flessioni) per un campione di 8 clienti, prima e dopo il programma, sono riportati di seguito. Verifica l’efficacia del programma a un livello [math]\alpha = 0.05[/math].
- Clienti: 1, 2, 3, 4, 5, 6, 7, 8
- Prima: 18, 22, 25, 27, 20, 30, 24, 19
- Dopo: 21, 24, 30, 29, 24, 32, 28, 23
Risoluzione:
Impostazione del Problema:
Questo è un problema per campioni appaiati. Calcoliamo la differenza ([math]D = \text{Dopo} – \text{Prima}[/math]).
Differenze ([math]D[/math]): [3, 2, 5, 2, 4, 2, 4, 4]
Testiamo se la media delle differenze ([math]\mu_D[/math]) è maggiore di zero.
[math]H_0: \mu_D \leq 0 \quad \text{(Il programma non ha effetto)}[/math]
[math]H_1: \mu_D > 0 \quad \text{(Il programma ha un effetto positivo)}[/math]
Scelta della Statistica Test:
La deviazione standard della popolazione delle differenze è sconosciuta e [math]n<30[/math]. Usiamo un test t di Student per un campione sulle differenze, con [math]n-1[/math] gradi di libertà ([math]gdl[/math]).
[math]t=\frac{\bar{d}-\mu_0}{s_d/\sqrt{n}}[/math]
Calcoli:
[math]\displaystyle \begin{aligned}
\text{Media campionaria } \bar{d} &= \frac{3+2+5+2+4+2+4+4}{8} = \frac{26}{8} = \mathbf{3.25} \\
\text{Deviazione standard } s_d &\approx 1.165 \\
\text{Statistica test } t &= \frac{3.25 – 0}{1.165/\sqrt{8}} \\
&= \frac{3.25}{0.412} \approx \mathbf{7.89}
\end{aligned}[/math]
Gradi di libertà: [math]gdl = n – 1 = 7[/math].
Decisione (Valore Critico):
Per un test a coda destra con [math]\alpha=0.05[/math] e [math]gdl=7[/math], il valore critico [math]t_c[/math] è circa 1.895.
La nostra statistica test [math]t = 7.89[/math] è molto maggiore di [math]1.895[/math], quindi cade nella regione di rifiuto.
Conclusione:
Rifiutiamo [math]H_0[/math]. Al livello di significatività del [math]5\%[/math], esiste evidenza statistica sufficiente per concludere che il programma del personal trainer ha aumentato in modo significativo il numero di flessioni.
Domanda di Riflessione:
Perché in questo caso abbiamo usato il test t invece del test Z?
Esercizio 6 (Medio/Difficile) – Test per una Proporzione
Testo:
Un sondaggio politico nazionale indica che un candidato ha il [math]45\%[/math] dei consensi. Un giornalista sospetta che questo supporto sia diverso in una specifica regione. Intervista 200 elettori di quella regione e trova che 98 di loro supporterebbero il candidato. Condurre un test di ipotesi a un livello [math]\alpha = 0.10[/math] per verificare il sospetto del giornalista.
Risoluzione:
Impostazione delle Ipotesi:
Il parametro è la proporzione della popolazione ([math]p[/math]) nella regione.
[math]H_0: p = 0.45 \quad \text{(La proporzione è uguale a quella nazionale)}[/math]
[math]H_1: p \neq 0.45 \quad \text{(La proporzione è diversa; test bilaterale)}[/math]
Scelta della Statistica Test:
Usiamo il test Z per una proporzione.
[math]Z=\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}[/math]
Calcoli:
[math]\displaystyle \begin{aligned}
\text{Proporzione campionaria } \hat{p} &= 98/200 = 0.49 \\
\text{Errore standard } SE &= \sqrt{\frac{0.45 \times 0.55}{200}} \\
&= \sqrt{0.0012375} \approx 0.03518 \\
\text{Statistica test } Z &= \frac{0.49 – 0.45}{0.03518} \\
&\approx \frac{0.04}{0.03518} \approx \mathbf{1.14}
\end{aligned}[/math]
Decisione (P-value):
Per un test bilaterale, [math]\text{p-value} = 2 \times P(Z > |1.14|)[/math].
[math]\displaystyle \begin{aligned}
P(Z > 1.14) &\approx 1 – 0.8729 = 0.1271 \\
\text{p-value} &\approx 2 \times 0.1271 = \mathbf{0.2542}
\end{aligned}[/math]
Confronto con [math]\alpha=0.10[/math]: [math]0.2542 > 0.10[/math].
Conclusione:
Non riusciamo a rifiutare [math]H_0[/math]. Al livello di significatività del [math]10\%[/math], non c’è evidenza statistica sufficiente per affermare che il supporto per il candidato nella regione sia diverso da quello nazionale.
Domanda di Riflessione:
Perché nell’errore standard della proporzione usiamo [math]p_0[/math] e non [math]\hat{p}[/math]?
Esercizio 7 (Difficile) – Errori di I e II Tipo e Potenza del Test
Testo:
Torniamo all’Esercizio 4 sul produttore di cavi. Il macchinario necessita di una revisione costosa se la resistenza media scende sotto i 2980 kg.
a) Definisci, nel contesto di questo problema, l’Errore di I Tipo e l’Errore di II Tipo.
b) Supponiamo che la vera resistenza media dopo il cambio fornitore sia di 2970 kg (con [math]\sigma=85\text{ kg}[/math]). Calcola la potenza del test con [math]\alpha=0.05[/math] e [math]n=50[/math].
Risoluzione:
Definizione degli Errori:
- Errore di I Tipo ([math]\alpha[/math]): Rifiutare [math]H_0[/math] quando [math]H_0[/math] è vera.
Contesto: Concludere che la resistenza è diminuita ([math]\mu < 3000[/math]) quando in realtà non lo è. Conseguenza: Fare una revisione costosa non necessaria. - Errore di II Tipo ([math]\beta[/math]): Non rifiutare [math]H_0[/math] quando [math]H_0[/math] è falsa (e [math]H_1[/math] è vera).
Contesto: Concludere che la resistenza è accettabile ([math]\mu \geq 3000[/math]) quando in realtà è scesa (es. a [math]2970\text{ kg}[/math]). Conseguenza: Non fare la revisione, rischiando di produrre cavi difettosi.
Calcolo della Potenza del Test:
La potenza è la probabilità di rifiutare correttamente [math]H_0[/math] quando [math]H_1[/math] è vera ([math]1 – \beta[/math]). [math]H_1[/math] è vera, e stabiliamo che il vero [math]\mu = 2970[/math].
Passo 1: Trova il valore critico in termini di [math]\bar{x}[/math].
Sotto [math]H_0[/math] ([math]\mu=3000[/math]), la regione di rifiuto per [math]\alpha=0.05[/math] è [math]Z < -1.645[/math].
[math]\displaystyle \begin{aligned}
\bar{x}_c &= \mu_0 + Z_{\text{crit}} \times \left(\frac{\sigma}{\sqrt{n}}\right) \\
\bar{x}_c &= 3000 + (-1.645) \times \left(\frac{85}{\sqrt{50}}\right) \\
\bar{x}_c &\approx 3000 – 1.645 \times 12.02 \\
&\approx 3000 – 19.77 \approx 2980.23
\end{aligned}[/math]
Rifiutiamo [math]H_0[/math] se [math]\bar{x} < 2980.23[/math].
Passo 2: Calcola la probabilità di rifiutare [math]H_0[/math] sotto [math]H_1[/math] vera.
Ora, se la vera media è [math]\mu_1 = 2970[/math], dobbiamo trovare [math]P(\bar{x} < 2980.23 \mid \mu=2970)[/math].
[math]\displaystyle \begin{aligned}
Z &= \frac{\bar{x}_c – \mu_1}{\sigma/\sqrt{n}} \\
&= \frac{2980.23 – 2970}{12.02} \approx \frac{10.23}{12.02} \approx 0.85
\end{aligned}[/math]
[math]P(\bar{x} < 2980.23 \mid \mu=2970) = P(Z < 0.85)[/math].
Dalle tavole, [math]P(Z < 0.85) \approx 0.8023[/math].
Conclusione:
La potenza del test è circa [math]0.8023[/math] o [math]80.23\%[/math]. C’è un [math]80\%[/math] di probabilità di rilevare correttamente che la resistenza media è scesa a [math]2970\text{ kg}[/math].
Domanda di Riflessione:
Come aumenteresti la potenza di questo test?
Esercizio 8 (Difficile) – Confronto tra Due Medie (Test t per Campioni Indipendenti)
Testo:
Un insegnante vuole valutare l’efficacia di due metodi di insegnamento (A e B). Assegna casualmente 12 studenti al metodo A e 15 al metodo B. Alla fine del corso, i punteggi medi sono [math]\bar{x}_A=78[/math] e [math]\bar{x}_B=82[/math]. Le deviazioni standard campionarie sono [math]s_A = 5[/math] e [math]s_B = 6[/math].
Assumendo popolazioni normali con varianze diverse, verifica l’ipotesi che il metodo B produca punteggi medi più alti del metodo A, usando [math]\alpha = 0.05[/math].
Risoluzione:
Impostazione delle Ipotesi:
Siano [math]\mu_A[/math] e [math]\mu_B[/math] le medie delle popolazioni per i due metodi.
[math]H_0: \mu_B \leq \mu_A \quad \text{o} \quad H_0: \mu_B – \mu_A \leq 0[/math]
[math]H_1: \mu_B > \mu_A \quad \text{o} \quad H_1: \mu_B – \mu_A > 0[/math]
Scelta della Statistica Test:
Campioni indipendenti, varianze non note e assunte diverse. Usiamo il test t per campioni indipendenti con varianze non poolizzate (test t di Welch).
[math]t=\frac{\bar{x}_B – \bar{x}_A}{\sqrt{\frac{s_B^2}{n_B} + \frac{s_A^2}{n_A}}}[/math]
I gradi di libertà ([math]gdl[/math]) sono approssimati dalla formula di Welch-Satterthwaite.
Calcoli:
[math]\displaystyle \begin{aligned}
\text{Differenza delle medie: } \bar{x}_B – \bar{x}_A &= 82 – 78 = 4 \\
\text{Errore standard: } SE &= \sqrt{\frac{6^2}{15} + \frac{5^2}{12}} \\
&= \sqrt{\frac{36}{15} + \frac{25}{12}} \\
&= \sqrt{2.4 + 2.083} = \sqrt{4.483} \approx 2.117 \\
\text{Statistica test } t &= \frac{4}{2.117} \approx \mathbf{1.89}
\end{aligned}[/math]
Gradi di Libertà (approssimati):
[math]\displaystyle \begin{aligned}
gdl &\approx \frac{\left(\frac{s_A^2}{n_A} + \frac{s_B^2}{n_B}\right)^2}{\frac{(s_A^2/n_A)^2}{n_A – 1} + \frac{(s_B^2/n_B)^2}{n_B – 1}} \\
&\approx \frac{(4.483)^2}{\frac{(2.083)^2}{11} + \frac{(2.4)^2}{14}} \\
&\approx \frac{20.09}{0.394 + 0.411} \approx \frac{20.09}{0.805} \approx 24.95
\end{aligned}[/math]
Approssimiamo per eccesso a [math]gdl = 25[/math].
Decisione (Valore Critico):
Per un test a coda destra con [math]\alpha=0.05[/math] e [math]gdl=25[/math], il valore critico [math]t_c[/math] è circa 1.708.
La nostra statistica test [math]t = 1.89[/math] è maggiore di [math]1.708[/math], quindi cade nella regione di rifiuto.
Conclusione:
Rifiutiamo [math]H_0[/math]. Al livello di significatività del [math]5\%[/math], esiste evidenza statistica sufficiente per concludere che il metodo B produce punteggi medi più alti del metodo A.
Domanda di Riflessione:
Qual è l’ipotesi semplificante più forte in questo test, e perché l’assegnazione casuale degli studenti è fondamentale per la sua validità?
Domande di Riflessione: Risposte Approfondite
Domanda 1 (Esercizio 1): Ipotesi Bidirezionale vs. Unidirezionale
Perché in questo caso abbiamo scelto un’ipotesi alternativa “[math]\neq[/math]” invece di “[math]>[/math]” o “[math]<[/math]”?
Risposta Approfondita:
La scelta tra un’ipotesi alternativa bidirezionale ([math]H_1: \mu \neq \text{valore}[/math]) e unidirezionale ([math]H_1: \mu > \text{valore}[/math] o [math]H_1: \mu < \text{valore}[/math]) dipende dal contesto della ricerca e dalla natura del sospetto.
- Test Bidirezionale (a Due Code): Si utilizza quando non si ha un’aspettativa specifica sulla direzione dell’effetto, o si è interessati a qualsiasi tipo di deviazione dall’ipotesi nulla. Nell’Esercizio 1, il controllore di qualità sospetta che il macchinario sia “sregolato”. Questo implica che potrebbe sia sotto-riempire che sovra-riempire le buste. Entrambi gli esiti sono problemi di qualità. Pertanto, si deve testare qualsiasi scostamento da 200g: [math]H_1: \mu \neq 200\text{g}[/math].
- Test Unidirezionale (a Una Coda): Si utilizza quando l’interesse o la teoria scientifica è specificamente diretta verso un solo tipo di effetto (es. nel successivo Esercizio 2, il produttore teme solo il sotto-riempimento).
Implicazione Pratica: Il test a due code è più conservativo. Divide il livello di significatività [math]\alpha[/math] (es. [math]0.05[/math]) tra le due code della distribuzione ([math]0.025[/math] per coda), rendendo più difficile rifiutare [math]H_0[/math]. Richiede quindi un’evidenza campionaria più forte per dimostrare la non conformità rispetto a un test a una coda.
Domanda 2 (Esercizio 2): Priorità tra α e Potenza
Quale proprietà del test (livello di significatività [math]\alpha[/math], potenza) è più importante per il produttore in questo scenario e perché?
Risposta Approfondita:
Per il produttore, che teme specificamente il sotto-riempimento e le conseguenze legali/reputazionali, la proprietà più importante è la Potenza del Test ([math]1 – \beta[/math]).
- Potenza (1 – β): È la probabilità di scoprire un problema reale (rifiutare [math]H_0: \mu \geq 200\text{g}[/math] quando è falsa, cioè quando [math]\mu < 200\text{g}[/math]).
- Errore di II Tipo (β): Un alto [math]\beta[/math] significa che il produttore rischia di non accorgersi che il macchinario sta effettivamente sotto-riempiendo. Questo porta a vendere buste sottopeso, con il rischio di sanzioni legali e gravi danni alla reputazione, conseguenze spesso più gravi del costo di un falso allarme ([math]\alpha[/math]).
Pertanto, il produttore dovrebbe progettare il test (ad esempio, aumentando la dimensione del campione [math]n[/math]) per massimizzare la potenza, garantendo un’alta probabilità di individuare un guasto reale.
Domanda 3 (Esercizio 3): L’Impatto della Variazione di α
Se avessimo usato [math]\alpha = 0.01[/math], la nostra conclusione sarebbe cambiata?
Risposta Approfondita:
Sì, la conclusione sarebbe cambiata in modo cruciale:
- Con [math]\alpha = 0.05[/math]: p-value [math](0.0358) \leq \alpha (0.05) \rightarrow[/math] Rifiutiamo [math]H_0[/math].
- Con [math]\alpha = 0.01[/math]: p-value [math](0.0358) > \alpha (0.01) \rightarrow[/math] Non possiamo rifiutare [math]H_0[/math].
Interpretazione: Il p-value di [math]0.0358[/math] (evidenza che si verifica nel [math]3.58\%[/math] dei casi sotto [math]H_0[/math]) è sufficientemente forte per soddisfare la soglia del [math]5\%[/math] ([math]\alpha=0.05[/math]), ma non riesce a superare la soglia più stringente dell'[math]1\%[/math] ([math]\alpha=0.01[/math]).
[math]\alpha[/math] rappresenta la nostra tolleranza per il rischio di un falso allarme (Errore di I Tipo). Abbassando [math]\alpha[/math], si diventa più conservativi e più esigenti prima di dichiarare che un effetto è “statisticamente significativo”.
Domanda 4 (Esercizio 4): Condizioni per il Test Z
Quali sono le due condizioni principali che ci hanno permesso di utilizzare il test Z in questo caso?
Risposta Approfondita:
Le due condizioni fondamentali che autorizzano l’uso del Test Z per la media sono:
- La Deviazione Standard della Popolazione ([math]\sigma[/math]) è Nota:
Questo è l’assunto basilare che permette di utilizzare la distribuzione normale standard ([math]Z[/math]). Quando [math]\sigma[/math] è sconosciuta, si deve stimarla con la deviazione standard campionaria ([math]s[/math]) e si è costretti a passare alla distribuzione t di Student. - La Dimensione del Campione ([math]n[/math]) è Grande ([math]n \geq 30[/math]):
La nostra dimensione [math]n=50[/math] è grande. Ciò ci permette di invocare il Teorema del Limite Centrale (TLC). Il TLC garantisce che, anche se la distribuzione della resistenza dei cavi non fosse normale, la distribuzione delle medie campionarie sarà approssimativamente normale. Questo autorizza l’uso delle tavole Z per l’inferenza.
Domanda 5 (Esercizio 5): L’Utilizzo del Test t
Perché in questo caso abbiamo usato il test t invece del test Z?
Risposta Approfondita:
Abbiamo usato il test t di Student per un motivo fondamentale: la deviazione standard della popolazione ([math]\sigma[/math]) era sconosciuta.
Quando [math]\sigma[/math] non è nota, la dobbiamo sostituire con la sua stima campionaria ([math]s[/math]). Questa sostituzione introduce un’ulteriore incertezza statistica. La distribuzione t di Student è una famiglia di distribuzioni con code più pesanti rispetto alla normale Z. Queste code più “larghe” compensano l’incertezza aggiuntiva derivante dall’uso di [math]s[/math] invece di [math]\sigma[/math], prevenendo la sottostima del $p$-value e il rischio di Errore di I Tipo. Man mano che il campione [math]n[/math] cresce ([math]n > 30[/math]), l’incertezza aggiuntiva svanisce e la distribuzione t converge alla Z (normale standard).
Domanda 6 (Esercizio 6): Errore Standard per Proporzioni
Perché nell’errore standard della proporzione usiamo [math]p_0[/math] e non [math]\hat{p}[/math]?
Risposta Approfondita:
Questa è una sottigliezza cruciale del test di ipotesi. Usiamo [math]p_0[/math] (la proporzione ipotizzata in [math]H_0[/math]) per calcolare l’errore standard perché stiamo calcolando la probabilità sotto l’assunzione che [math]H_0[/math] sia vera.
- Il p-value è definito come la probabilità, dato che [math]H_0[/math] è vera, di osservare un risultato estremo.
- Se [math]H_0: p = p_0[/math] è vera, la migliore stima per l’errore standard della proporzione è [math]\sqrt{p_0(1-p_0)/n}[/math].
Usare [math]\hat{p}[/math] (la proporzione del nostro campione) significherebbe “inquinare” il calcolo con i dati osservati, quando in realtà vogliamo misurare quanto sia “inusuale” il nostro campione in un mondo in cui l’ipotesi nulla ([math]p_0[/math]) è la verità. L’errore standard deve riflettere la variabilità teorica sotto l’ipotesi nulla.
Domanda 7 (Esercizio 7): Aumento della Potenza
Come aumenteresti la potenza di questo test?
Risposta Approfondita:
La potenza di un test ([math]1-\beta[/math]) è la probabilità di rilevare correttamente una vera differenza. Può essere aumentata agendo su tre leve:
- Aumentare la Dimensione Campionaria ([math]n[/math]):
Questo è il metodo più efficace e controllabile. Un [math]n[/math] maggiore riduce l’errore standard ([math]\sigma/\sqrt{n}[/math]), rendendo la distribuzione campionaria più “stretta”. Questo riduce la sovrapposizione tra le distribuzioni sotto [math]H_0[/math] e [math]H_1[/math], rendendo più facile la distinzione tra di esse. - Aumentare il Livello di Significatività ([math]\alpha[/math]):
Alzando [math]\alpha[/math] (es. da [math]0.01[/math] a [math]0.05[/math]), la regione di rifiuto si espande, aumentando la potenza. Tuttavia, questo avviene al costo di aumentare il rischio di Errore di I Tipo (falso allarme). È un compromesso. - Ridurre la Variabilità ([math]\sigma[/math]) della Popolazione:
Utilizzare strumenti di misura più precisi, procedure standardizzate o un disegno sperimentale più controllato può ridurre la varianza, rendendo il segnale (la differenza delle medie) più evidente rispetto al rumore di fondo.
Domanda 8 (Esercizio 8): Ipotesi Semplificanti e Randomizzazione
Qual è l’ipotesi semplificante più forte in questo test, e perché l’assegnazione casuale degli studenti è fondamentale per la sua validità?
Risposta Approfondita:
L’ipotesi semplificante più forte nel confronto tra due medie è l’Omoschedasticità (varianze uguali): [math]\sigma_A^2 = \sigma_B^2[/math].
- Ipotesi Semplificante:
Quando si assume che le varianze siano uguali, è possibile “poolizzare” (combinare) le deviazioni standard campionarie ([math]s_A[/math] e [math]s_B[/math]) per ottenere una stima dell’errore standard comune più robusta. Se questa ipotesi è falsa, il test t poolizzato può portare a conclusioni errate. Nel nostro esercizio, abbiamo usato il Test t di Welch (varianze non poolizzate), che è un approccio più generale e robusto che non fa questa forte assunzione. - Fondamentalità dell’Assegnazione Casuale (Randomizzazione):
L’assegnazione casuale è fondamentale per la validità interna dell’esperimento. Garantisce che, in media, i due gruppi ([math]A[/math] e [math]B[/math]) siano comparabili per tutte le caratteristiche rilevanti (abilità, motivazione, ecc.) che potrebbero influenzare il punteggio, sia quelle note che quelle ignote. Senza randomizzazione, non potremmo mai sapere se la differenza di punteggio (il [math]82[/math] vs [math]78[/math]) sia dovuta al metodo di insegnamento o a una preesistente differenza tra gli studenti. La randomizzazione ci permette di stabilire una relazione causale tra il metodo e il risultato.
Articoli di approfondimento
- 👉 Statistica per Data Science: esercizi di base e fondamenti teorici
- 👉 Guida pratica al T-test di Welch: esercizi e soluzioni passo-passo
- 👉 Test T di Welch: guida completa con esercizi risolti
- 👉 Il test-T per dati appaiati
- 👉 Test T appaiato: esempio, calcoli e codice Python (SciPy)
- 👉 Il p-value: una spiegazione dettagliata
- 👉 Teorema del limite centrale (TLC): guida completa con esempi Python ed eccezioni
Il Valore Aggiunto di Ogni Esercizio
| Esercizio | Contesto Applicativo | Peculiarità | Concetti Inferenziali Sviluppati |
| 1: Ipotesi Bidirezionale | Controllo Qualità (Peso di un prodotto) | Insegna che l’inferenza inizia con la formalizzazione del sospetto. Mostra la necessità di un Test a Due Code ([math]H_1: \mu \neq \mu_0[/math]) quando la deviazione in entrambe le direzioni (sovrappeso o sottopeso) è un problema. | [math]H_0[/math] e [math]H_1[/math] (Formalizzazione) |
| 2: Ipotesi Unidirezionale | Conformità Legale/Regolamentare (Rischi di sanzioni) | Sottolinea come l’interesse dell’osservatore cambi le ipotesi. Passare a un Test a Una Coda ([math]H_1: \mu < \mu_0[/math]) riflette un rischio asimmetrico e aumenta la potenza nella direzione d’interesse. | Test a Una Coda (Direzionalità) |
| 3: P-value | Interpretazione Universale | Isola il concetto di p-value come probabilità di eventi estremi, indipendente dalla statistica test. Ottimo per chiarire il confronto p-value vs. [math]\alpha[/math] e l’impatto della scelta di [math]\alpha[/math] sulla conclusione. | p-value e Livello di Significatività |
| 4: Test Z | Ingegneria/Produzione (Resistenza dei materiali) | Esercizio canonico per l’uso del Test Z, evidenziando la condizione chiave di avere la deviazione standard della popolazione σ nota (o [math]n[/math] molto grande, grazie al TLC). Test a una coda per la riduzione. | Test Z, Errore Standard Popolazione |
| 5: Test t Appaiato | Medicina/Sport/Formazione (Misure pre-post) | L’uso di Campioni Appaiati è cruciale. Riconoscerlo semplifica l’analisi, trasformando due campioni correlati in un solo campione di differenze. È più potente di un test per campioni indipendenti perché rimuove la variabilità individuale (“rumore”). | Test t (Varianza Incognita), Campioni Appaiati |
| 6: Test per Proporzione | Sondaggi/Marketing/Politica (Quote di mercato) | Introduce un tipo di dato diverso (proporzioni categoriali), essenziale per l’analisi di dati binari. Sottolinea la necessità di usare p0 nell’errore standard, un punto teorico fondamentale. | Test Z per Proporzioni, Errore Standard sotto [math]H_0[/math] |
| 7: Potenza del Test | Gestione del Rischio Aziendale | Affronta gli Errori di I e II Tipo in un contesto decisionale reale. Il calcolo della Potenza ([math]1-\beta[/math]) è un esercizio di alto livello che mostra come si quantifica l’efficacia di un test nel rilevare un effetto reale. | Potenza, Errore di I e II Tipo, Valore Critico [math]\bar{x}[/math] |
| 8: Test t Indipendente (Welch) | Ricerca Accademica/Esperimenti (Efficacia di un metodo) | Esercizio complesso che gestisce l’incertezza delle varianze sconosciute e presunte diverse (Test t di Welch). La necessità di calcolare i gradi di libertà di Welch-Satterthwaite è l’elemento di difficoltà che insegna a non assumere l’omoschedasticità. | Test t (Varianze Diverse), Campioni Indipendenti |




