Statistica per Data Science: Esercizi di Base e Fondamenti Teorici

Cerca:

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Fondamenti di Statistica per Data Science

In questo articolo, esploreremo i concetti statistici fondamentali attraverso esercizi pratici, fornendovi le basi per affrontare le sfide dell’analisi dati. Preparatevi a immergervi nel mondo della media, della varianza, della probabilità e dei test di ipotesi, e a scoprire come questi strumenti si applicano nel contesto della data science

Esercizi di statistica

Esercizio 1: Calcolo della media e della varianza

Testo: Dato il seguente dataset: {2, 4, 6, 8, 10}, calcola la media e la varianza.

Soluzione:

Media ([math]\mu[/math]):

[math]\mu = \frac{2 + 4 + 6 + 8 + 10}{5} = \frac{30}{5} = 6[/math]

Varianza ([math]\sigma^2[/math]):

[math]\sigma^2 = \frac{(2 – 6)^2 + (4 – 6)^2 + (6 – 6)^2 + (8 – 6)^2 + (10 – 6)^2}{5}[/math]

[math]\sigma^2 = \frac{16 + 4 + 0 + 4 + 16}{5} = \frac{40}{5} = 8[/math]

Teoria:

La media è una misura di tendenza centrale.

La varianza è una misura di dispersione. Più è alta, più i dati sono “sparsi”.

Esercizio 2: Distribuzione di probabilità (lancio di un dado)

Testo: Calcola la probabilità di ottenere un numero pari lanciando un dado a 6 facce.

Soluzione:

I numeri pari su un dado sono {2, 4, 6}, quindi ci sono 3 risultati favorevoli.

I risultati possibili sono 6 (le facce del dado).

La probabilità [math]P[/math] è:

[math]P(\text{pari}) = \frac{\text{risultati favorevoli}}{\text{risultati possibili}} = \frac{3}{6} = 0.5[/math]

Teoria:

La probabilità di un evento è il rapporto tra i casi favorevoli e i casi possibili, assumendo che tutti i risultati siano equiprobabili.

Esercizio 3: Intervallo di confidenza per la media

Testo: Supponiamo di avere un campione di 30 osservazioni con media [math]\bar{x} = 50[/math] e deviazione standard [math]s = 10[/math]. Calcola un intervallo di confidenza al 95% per la media della popolazione.

Soluzione:

Usiamo la formula per l’intervallo di confidenza:

[math]IC = \bar{x} \pm z \cdot \frac{s}{\sqrt{n}}[/math]

Forse potrebbe interessarti anche:  Valor medio: caso discreto. Giochi Equi. Esercizi risolti

dove [math]z[/math] è il valore critico della distribuzione normale standard per un livello di confidenza del 95% ([math]z = 1.96[/math]).

Calcoliamo l’errore standard:

[math]SE = \frac{s}{\sqrt{n}} = \frac{10}{\sqrt{30}} \approx 1.825[/math]

Calcoliamo l’intervallo:

[math]IC = 50 \pm 1.96 \cdot 1.825 \approx 50 \pm 3.58[/math]

Quindi, l’intervallo di confidenza è (46.42, 53.58).

Teoria:

Un intervallo di confidenza fornisce un range di valori entro cui è probabile che si trovi il parametro della popolazione (es. la media), con un certo livello di confidenza (es. 95%).

Esercizio 4: Test di ipotesi (media campionaria)

Testo: Un’azienda afferma che il peso medio dei suoi prodotti è 100 g. Un campione di 25 prodotti ha una media di 98 g e una deviazione standard di 5 g. Esegui un test di ipotesi per verificare se il peso medio è diverso da 100 g, con un livello di significatività del 5%.

Soluzione:

Ipotesi:

[math]H_0: \mu = 100[/math] (ipotesi nulla)

[math]H_1: \mu \neq 100[/math] (ipotesi alternativa)

Calcoliamo la statistica test [math]t[/math]:

[math]t = \frac{\bar{x} – \mu}{s / \sqrt{n}} = \frac{98 – 100}{5 / \sqrt{25}} = \frac{-2}{1} = -2[/math]

Troviamo il valore critico [math]t_{\alpha/2}[/math] per [math]n – 1 = 24[/math] gradi di libertà e [math]\alpha = 0.05[/math]. Dalle tabelle, [math]t_{\alpha/2} \approx 2.064[/math].

Confrontiamo [math]|t| = 2[/math] con [math]t_{\alpha/2} = 2.064[/math]. Poiché [math]|t| < t_{\alpha/2}[/math], non rifiutiamo [math]H_0[/math].

Teoria:

Un test di ipotesi verifica se un’ipotesi su un parametro della popolazione è supportata dai dati. Si confronta una statistica test con un valore critico per decidere se rifiutare l’ipotesi nulla.

Esercizio 5: Distribuzione normale

Testo: Supponiamo che l’altezza degli studenti di una scuola segua una distribuzione normale con media [math]\mu = 170[/math] cm e deviazione standard [math]\sigma = 10[/math] cm. Calcola la probabilità che uno studente scelto a caso sia alto più di 180 cm.

Forse potrebbe interessarti anche:  Applicare il Metodo Montecarlo: Guida Passo Passo

Soluzione:

Standardizziamo il valore 180 cm:

[math]z = \frac{x – \mu}{\sigma} = \frac{180 – 170}{10} = 1[/math]

Usiamo la tabella della distribuzione normale standard per trovare [math]P(Z > 1)[/math]. Dalla tabella, [math]P(Z < 1) \approx 0.8413[/math].

La probabilità richiesta è:

[math]P(Z > 1) = 1 – P(Z < 1) = 1 – 0.8413 = 0.1587[/math]

Teoria:

La distribuzione normale è una distribuzione continua a forma di campana, caratterizzata da media [math]\mu[/math] e deviazione standard [math]\sigma[/math]. La standardizzazione ([math]z[/math]) permette di calcolare probabilità usando tabelle.

 

Pubblicità