In questo articolo, esploreremo i concetti statistici fondamentali attraverso esercizi pratici, fornendovi le basi per affrontare le sfide dell’analisi dati. Preparatevi a immergervi nel mondo della media, della varianza, della probabilità e dei test di ipotesi, e a scoprire come questi strumenti si applicano nel contesto della data science
Esercizi di statistica
Esercizio 1: Calcolo della media e della varianza
Testo: Dato il seguente dataset: {2, 4, 6, 8, 10}, calcola la media e la varianza.
Soluzione:
Media ([math]\mu[/math]):
[math]\mu = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6[/math]
Varianza ([math]\sigma^2[/math]):
[math]\sigma^2 = \frac{(2 – 6)^2 + (4 – 6)^2 + (6 – 6)^2 + (8 – 6)^2 + (10 – 6)^2}{5}[/math]
[math]\sigma^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8[/math]
Teoria:
La media è una misura di tendenza centrale.
La varianza è una misura di dispersione. Più è alta, più i dati sono “sparsi”.
Esercizio 2: Distribuzione di probabilità (lancio di un dado)
Testo: Calcola la probabilità di ottenere un numero pari lanciando un dado a 6 facce.
Soluzione:
I numeri pari su un dado sono {2, 4, 6}, quindi ci sono 3 risultati favorevoli.
I risultati possibili sono 6 (le facce del dado).
La probabilità [math]P[/math] è:
[math]P(\text{pari}) = \frac{\text{risultati favorevoli}}{\text{risultati possibili}} = \frac{3}{6} = 0.5[/math]
Teoria:
La probabilità di un evento è il rapporto tra i casi favorevoli e i casi possibili, assumendo che tutti i risultati siano equiprobabili.
Esercizio 3: Intervallo di confidenza per la media
Testo: Supponiamo di avere un campione di 30 osservazioni con media [math]\bar{x} = 50[/math] e deviazione standard [math]s = 10[/math]. Calcola un intervallo di confidenza al 95% per la media della popolazione.
Soluzione:
Usiamo la formula per l’intervallo di confidenza:
[math]IC = \bar{x} \pm z \cdot \frac{s}{\sqrt{n}}[/math]
dove [math]z[/math] è il valore critico della distribuzione normale standard per un livello di confidenza del 95% ([math]z = 1.96[/math]).
Calcoliamo l’errore standard:
[math]SE = \frac{s}{\sqrt{n}} = \frac{10}{\sqrt{30}} \approx 1.825[/math]
Calcoliamo l’intervallo:
[math]IC = 50 \pm 1.96 \cdot 1.825 \approx 50 \pm 3.58[/math]
Quindi, l’intervallo di confidenza è (46.42, 53.58).
Teoria:
Un intervallo di confidenza fornisce un range di valori entro cui è probabile che si trovi il parametro della popolazione (es. la media), con un certo livello di confidenza (es. 95%).
Esercizio 4: Test di ipotesi (media campionaria)
Testo: Un’azienda afferma che il peso medio dei suoi prodotti è 100 g. Un campione di 25 prodotti ha una media di 98 g e una deviazione standard di 5 g. Esegui un test di ipotesi per verificare se il peso medio è diverso da 100 g, con un livello di significatività del 5%.
Soluzione:
Ipotesi:
[math]H_0: \mu = 100[/math] (ipotesi nulla)
[math]H_1: \mu \neq 100[/math] (ipotesi alternativa)
Calcoliamo la statistica test [math]t[/math]:
[math]t = \frac{\bar{x} – \mu}{s / \sqrt{n}} = \frac{98 – 100}{5 / \sqrt{25}} = \frac{-2}{1} = -2[/math]
Troviamo il valore critico [math]t_{\alpha/2}[/math] per [math]n – 1 = 24[/math] gradi di libertà e [math]\alpha = 0.05[/math]. Dalle tabelle, [math]t_{\alpha/2} \approx 2.064[/math].
Confrontiamo [math]|t| = 2[/math] con [math]t_{\alpha/2} = 2.064[/math]. Poiché [math]|t| < t_{\alpha/2}[/math], non rifiutiamo [math]H_0[/math].
Teoria:
Un test di ipotesi verifica se un’ipotesi su un parametro della popolazione è supportata dai dati. Si confronta una statistica test con un valore critico per decidere se rifiutare l’ipotesi nulla.
Esercizio 5: Distribuzione normale
Testo: Supponiamo che l’altezza degli studenti di una scuola segua una distribuzione normale con media [math]\mu = 170[/math] cm e deviazione standard [math]\sigma = 10[/math] cm. Calcola la probabilità che uno studente scelto a caso sia alto più di 180 cm.
Soluzione:
Standardizziamo il valore 180 cm:
[math]z = \frac{x – \mu}{\sigma} = \frac{180 – 170}{10} = 1[/math]
Usiamo la tabella della distribuzione normale standard per trovare [math]P(Z > 1)[/math]. Dalla tabella, [math]P(Z < 1) \approx 0.8413[/math].
La probabilità richiesta è:
[math]P(Z > 1) = 1 – P(Z < 1) = 1 – 0.8413 = 0.1587[/math]
Teoria:
La distribuzione normale è una distribuzione continua a forma di campana, caratterizzata da media [math]\mu[/math] e deviazione standard [math]\sigma[/math]. La standardizzazione ([math]z[/math]) permette di calcolare probabilità usando tabelle.





