Teorema di Čebyšëv: Esercizi Svolti e Guida Pratica alla Probabilità “Senza Distribuzione”

Cerca:

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Come applicare la disuguaglianza di Chebyshev

Oltre la Gaussiana: Imparare a Ragionare con Dati “Sporchi”

C’è una bugia rassicurante che ci raccontiamo spesso quando analizziamo i dati: “Assumiamo che la distribuzione sia Normale”. È comodo. La curva a campana è elegante, simmetrica e facile da gestire.

Ma se lavori nella finanza algoritmica, nel controllo qualità industriale o nell’analisi di reti sociali, sai che il mondo reale raramente è così educato. I dati reali sono asimmetrici, hanno “code grasse” e spesso non sappiamo nulla della loro forma geometrica. È qui che la maggior parte degli analisti si blocca.

Non serve bloccarsi. Serve il Teorema di Čebyšëv.

Questo teorema è il “coltellino svizzero” della probabilità: forse non ti darà la precisione chirurgica di una Gaussiana, ma ha un vantaggio imbattibile: funziona sempre. Non importa quanto sia strana o sconosciuta la distribuzione dei tuoi dati, Čebyšëv ti offre una garanzia matematica inviolabile sui tuoi intervalli di confidenza.

In questa guida non ci limiteremo alle definizioni. Attraverso 6 esercizi progressivi, smonteremo il teorema per usarlo come strumento di indagine, per prendere decisioni in condizioni di incertezza e per smascherare affermazioni statistiche dubbie.

Il teorema di Čebyšëv (o disuguaglianza di Čebyšëv)

Il teorema di Čebyšëv (o disuguaglianza di Čebyšëv) è un risultato molto utile in statistica e probabilità che ti dice quanto i dati sono concentrati intorno alla media, anche quando non sai nulla sulla forma della distribuzione (a differenza del più famoso 68-95-99.7 della distribuzione normale).

Versione super semplice

Per qualsiasi distribuzione (anche brutta, asimmetrica, con code pesanti, ecc.) vale sempre:

  • Almeno il 75% dei dati sta entro 2 deviazioni standard dalla media
  • Almeno il 89% dei dati sta entro 3 deviazioni standard dalla media
  • Almeno il 93,75% dei dati sta entro 4 deviazioni standard dalla media

e in generale…

Formula facile da ricordare

[math]\displaystyle \begin{aligned}
&\text{Almeno } 1 – \frac{1}{k^2} \text{ dei dati sono entro} \\
&\pm k \text{ deviazioni standard dalla media}
\end{aligned}[/math]

dove [math]k > 1[/math] è un numero che scegli tu.

Esempi pratici:

[math]k=2[/math]

[math]k=2: 1 – \frac{1}{4} = 0,75 \to \text{almeno il } 75\%[/math]

[math]k=3[/math]

[math]k=3: 1 – \frac{1}{9} \approx 0,889 \to \text{almeno l’88,9 %}[/math]

[math]k=4[/math]

[math]k=4: 1 – \frac{1}{16} = 0,9375 \to \text{almeno il } 93,75\%[/math]

[math]k=5[/math]

[math]k=5: 1 – \frac{1}{25} = 0,96 \to \text{almeno il } 96\%[/math]

Perché è così utile?

La regola empirica (68-95-99.7) vale solo per distribuzioni più o meno normali.

Čebyšëv invece vale SEMPRE, per qualsiasi distribuzione con media e varianza finite.

Il prezzo da pagare è che è più “pessimista”: ti garantisce meno dati vicini alla media rispetto alla normale, ma almeno sei sicuro al 100% che è vero.


Esercizio 1 (Facile) – Comprensione della Disuguaglianza

Testo:
Un’azienda di componenti elettronici afferma che la durata media dei suoi chip è di 10.000 ore, con una deviazione standard di 500 ore. Secondo il Teorema di Čebyšëv, qual è la percentuale minima di chip che ci si aspetta duri tra 9.000 e 11.000 ore?

Risoluzione:

Identificare i Parametri:

  • Media ([math]\mu[/math]) = 10.000 ore
  • Deviazione Standard ([math]\sigma[/math]) = 500 ore
  • L’intervallo dato è [9.000, 11.000].

Trovare la Distanza dalla Media ([math]k[/math]):

L’intervallo è simmetrico attorno alla media. La distanza tra la media e ciascun estremo è 1.000 ore.

Per trovare [math]k[/math], il numero di deviazioni standard che questa distanza rappresenta, usiamo:

[math]\displaystyle \begin{aligned}
k\sigma &= |\mu – \text{estremo}| \\
k \times 500 &= 1000 \implies k = \frac{1000}{500} = 2
\end{aligned}[/math]

Quindi, l’intervallo [9.000, 11.000] corrisponde a [math]\mu \pm 2\sigma[/math].

Applicare il Teorema di Čebyšëv:

Il teorema afferma che la probabilità che un valore sia entro [math]k[/math] deviazioni standard dalla media è almeno [math]1 – \frac{1}{k^2}[/math].

[math]\displaystyle \begin{aligned}
P(|X-\mu| < k\sigma) &\geq 1 – \frac{1}{k^2} \\
\text{Sostituendo } k=2: \\
P(|X-10000| < 1000) &\geq 1 – \frac{1}{2^2} \\
&= 1 – \frac{1}{4} = \frac{3}{4}
\end{aligned}[/math]

Interpretare il Risultato:

La frazione [math]\frac{3}{4}[/math] corrisponde al 75%. Quindi, almeno il 75% dei chip avrà una durata tra 9.000 e 11.000 ore.

💡 Osservazione:
Il teorema fornisce un limite inferiore (minimo garantito) per la probabilità. La percentuale reale potrebbe essere (e molto probabilmente è) più alta, ma Čebyšëv ci assicura che non sarà mai più bassa del 75% in questo scenario.

Domanda di Riflessione:
Se l’intervallo fosse stato tra 8.500 e 11.500 ore, quale sarebbe stata la percentuale minima garantita?


Esercizio 2 (Facile) – Stima di una Probabilità “Al Di Fuori”

Testo:
Il punteggio medio in un test di ingresso è 70 punti, con una varianza di 25. Utilizzando il Teorema di Čebyšëv, qual è la probabilità massima che un candidato scelto a caso abbia un punteggio che si discosti dalla media di almeno 10 punti?

Risoluzione:

Identificare i Parametri:

  • Media ([math]\mu[/math]) = 70
  • Varianza ([math]\sigma^2[/math]) = 25 [math]\implies[/math] Deviazione Standard ([math]\sigma[/math]) = 5
  • Siamo interessati a [math]P(|X-\mu| \geq a)[/math], dove [math]a=10[/math].

Trovare [math]k[/math]:

Troviamo quanta deviazione standard è la distanza [math]a[/math].

[math]\displaystyle \begin{aligned}
k &= \frac{a}{\sigma} = \frac{10}{5} = 2
\end{aligned}[/math]

Quindi, l’evento “discostarsi dalla media di almeno 10 punti” equivale a [math]|X-\mu| \geq 2\sigma[/math].

Applicare Čebyšëv (Forma Complementare):

La forma standard del teorema è [math]P(|X-\mu| < k\sigma) \geq 1 – \frac{1}{k^2}[/math].

L’evento complementare è [math]P(|X-\mu| \geq k\sigma)[/math].

Poiché [math]P(A)=1-P(A^c)[/math], possiamo scrivere:

[math]\displaystyle \begin{aligned}
P(|X-\mu| \geq k\sigma) &\leq \frac{1}{k^2} \\
\text{Questa è la forma che ci serve! Sostituiamo } k=2: \\
P(|X-70| \geq 10) &\leq \frac{1}{2^2} = \frac{1}{4} = 0.25
\end{aligned}[/math]

Interpretare il Risultato:

La probabilità che un candidato abbia un punteggio al di fuori dell’intervallo [60, 80] è al massimo del 25%.

💡 Osservazione:
Čebyšëv è spesso usato proprio in questo modo: per delimitare la probabilità degli eventi “rari” o “estremi”, anche quando non conosciamo la distribuzione esatta della variabile.

Domanda di Riflessione:
Quale proprietà del calcolo delle probabilità abbiamo sfruttato per passare dalla forma “entro [math]k\sigma[/math]” alla forma “al di fuori di [math]k\sigma[/math]”?

Forse potrebbe interessarti anche:  Calcolo Combinatorio: Guida Definitiva a Permutazioni, Disposizioni e Combinazioni con Esempi

Esercizio 3 (Medio) – Dalla Percentuale all’Intervallo

Testo:
In una grande popolazione, il reddito annuo ha una distribuzione con media €35.000 e scarto quadratico medio €7.000. Sapendo che almeno l’84% della popolazione ha un reddito in un certo intervallo simmetrico attorno alla media, determina tale intervallo.

Risoluzione:

Identificare i Parametri:

  • [math]\mu[/math] = €35.000
  • [math]\sigma[/math] = €7.000
  • Probabilità minima ([math]P_{\text{min}}[/math]) = 84% = 0.84

Ricavare [math]k[/math] dalla Disuguaglianza:

La disuguaglianza di Čebyšëv ci dice che [math]P_{\text{min}} = 1 – \frac{1}{k^2}[/math]. Possiamo usare questa formula per trovare [math]k[/math].

[math]\displaystyle \begin{aligned}
0.84 &= 1 – \frac{1}{k^2} \\
\frac{1}{k^2} &= 1 – 0.84 = 0.16 \\
k^2 &= \frac{1}{0.16} = 6.25 \\
k &= \sqrt{6.25} = 2.5
\end{aligned}[/math]

(Prendiamo il valore positivo poiché [math]k[/math] rappresenta un numero di deviazioni standard).

Costruire l’Intervallo:

L’intervallo è [math]\mu \pm k\sigma[/math].

[math]\displaystyle \begin{aligned}
\text{Limite inferiore}: &{} \quad 35.000 – (2.5 \times 7.000) \\
&= 35.000 – 17.500 = 17.500 \\
\text{Limite superiore}: &{} \quad 35.000 + (2.5 \times 7.000) \\
&= 35.000 + 17.500 = 52.500
\end{aligned}[/math]

Conclusione:

L’intervallo di reddito che contiene almeno l’84% della popolazione è [€17.500, €52.500].

💡 Osservazione:
Questo esercizio inverte la logica degli altri: parte dalla probabilità desiderata per ricavare l’intervallo di confidenza. È un’applicazione molto pratica del teorema.

Domanda di Riflessione:
Perché in questo caso possiamo essere sicuri che l’84% è il minimo e non la percentuale esatta?


Esercizio 4 (Medio) – Confronto tra Due Situazioni

Testo:
Due macchine imbustatrici, A e B, riempono sacchetti di caffè. La macchina A produce sacchetti con un peso medio di 250g e una varianza di [math]100g^2[/math]. La macchina B ha una media di 251g e una varianza di [math]64g^2[/math]. Quale macchina è più probabile che produca un sacchetto con un peso compreso tra 240g e 260g? (Supponi di non conoscere la distribuzione esatta dei pesi).

Risoluzione:

Analizzare la Macchina A:

  • [math]\mu_A[/math] = 250g, [math]\sigma^2_A = 100g^2 \implies \sigma_A = 10g[/math].
  • L’intervallo [240, 260] è [math]\mu_A \pm 10[/math]. Quindi, [math]k_A = 10/10 = 1[/math].
  • Applicando Čebyšëv: [math]P_A \geq 1 – \frac{1}{1^2} = 0[/math].

Il teorema non fornisce alcuna informazione utile per [math]k=1[/math] (il limite inferiore è 0).

Analizzare la Macchina B:

  • [math]\mu_B[/math] = 251g, [math]\sigma^2_B = 64g^2 \implies \sigma_B = 8g[/math].
  • L’intervallo [240, 260] non è simmetrico rispetto a [math]\mu_B[/math]. La distanza massima dalla media è [math]|251-240|=11[/math] e [math]|251-260|=9[/math]. Prendiamo il valore più grande (11) per essere conservativi.
  • [math]k_B = 11/8 = 1.375[/math].

Applicando Čebyšëv:

[math]\displaystyle \begin{aligned}
P_B &\geq 1 – \frac{1}{(1.375)^2} \\
&= 1 – \frac{1}{1.8906} \approx 1 – 0.529 = 0.471
\end{aligned}[/math]

Quindi, per la macchina B, almeno il 47.1% dei sacchetti è nell’intervallo.

Confronto e Risposta:

Per la macchina A, Čebyšëv non ci garantisce nulla ([math]P \geq 0\%[/math]). Per la macchina B, garantisce almeno il 47.1%. Poiché la varianza della macchina B è minore (i suoi valori sono più concentrati attorno alla media), possiamo concludere che è più probabile che la macchina B produca un sacchetto nell’intervallo richiesto.

💡 Osservazione Strategica:
Quando un intervallo non è simmetrico rispetto alla media, per applicare Čebyšëv in modo conservativo si considera la massima distanza [math]a[/math] tra un estremo e la media, e si calcola [math]k=a/\sigma[/math]. Questo garantisce che l’intero intervallo sia coperto dalla stima.

Domanda di Riflessione:
Perché, nonostante la media della macchina B non sia centrata perfettamente nell’intervallo, essa risulta comunque più “affidabile” della macchina A in questo caso?


Esercizio 5 (Difficile) – Applicazione a una Trasformazione Lineare

Testo:
Sia [math]X[/math] una variabile aleatoria con valore atteso [math]E[X] = 8[/math] e Varianza [math]\text{Var}(X) = 4[/math]. Considera la variabile trasformata [math]Y = 3X – 5[/math].

a) Calcola media e varianza di [math]Y[/math].
b) Utilizza il Teorema di Čebyšëv sulla variabile [math]Y[/math] per stimare la probabilità che [math]Y[/math] sia maggiore di 30.

Risoluzione:

Parte (a) – Calcolo di Media e Varianza di [math]Y[/math]:

Media di [math]Y[/math]:

[math]\displaystyle \begin{aligned}
E[Y] &= E[3X-5] = 3E[X] – 5 \\
&= 3(8) – 5 = 24 – 5 = 19
\end{aligned}[/math]

Varianza di [math]Y[/math]:

[math]\displaystyle \begin{aligned}
\text{Var}(Y) &= \text{Var}(3X-5) \\
\text{La varianza è invariante per traslazioni: } &{} \quad \text{uno scalare viene elevato al quadrato} \\
\text{Var}(3X-5) &= 3^2 \text{Var}(X) = 9 \times 4 = 36 \\
\implies \sigma_Y &= \sqrt{36} = 6
\end{aligned}[/math]

Parte (b) – Applicazione di Čebyšëv a [math]Y[/math]:

Ci viene chiesto [math]P(Y>30)[/math]. Per usare Čebyšëv, che è simmetrico, ragioniamo sul complementare.
Notiamo che [math]P(Y>30) = P(Y-19>11)[/math]. Per una stima, è meglio considerare:

[math]\displaystyle \begin{aligned}
P(Y>30) &\leq P(|Y-19| \geq 11) \\
&{} \quad \text{(l’evento ‘Y > 30’ è contenuto nell’evento simmetrico} \\
&{} \quad \text{‘la distanza dalla media è almeno 11’)}
\end{aligned}[/math]

Troviamo [math]k[/math]:

[math]\displaystyle \begin{aligned}
k\sigma_Y &= 11 \implies k \times 6 = 11 \\
k &= \frac{11}{6} \approx 1.833
\end{aligned}[/math]

Applichiamo la forma “al di fuori” di Čebyšëv:

[math]\displaystyle \begin{aligned}
P(|Y-\mu_Y| \geq k\sigma_Y) &\leq \frac{1}{k^2} \\
P(|Y-19| \geq 11) &\leq \frac{1}{(11/6)^2} \\
&= \frac{1}{(121/36)} = \frac{36}{121} \approx 0.2975
\end{aligned}[/math]

Poiché [math]P(Y>30) \leq P(|Y-19| \geq 11)[/math], concludiamo che:

[math]P(Y>30) \leq 0.2975[/math]

La probabilità che [math]Y[/math] sia maggiore di 30 è al massimo del 29.75%.

💡 Osservazione:
Questo esercizio combina le proprietà di valor atteso e varianza con Čebyšëv. È cruciale ricordare come queste grandezze si trasformano: [math]E[aX+b]=aE[X]+b[/math] e [math]\text{Var}(aX+b)=a^2\text{Var}(X)[/math].

Domanda di Riflessione:
La stima che abbiamo ottenuto, [math]P(Y>30) \leq 29.75\%[/math], è molto precisa? Perché?


Esercizio 6 (Difficile) – Verifica di un’Affermazione

Testo:
Un produttore di cavi d’acciaio afferma che la resistenza alla trazione [math]X[/math] dei suoi cavi ha una media di 5.000 N e che il 96% di tutti i cavi ha una resistenza tra 4.400 N e 5.600 N. Assumendo che l’affermazione sulla percentuale sia corretta, qual è il valore massimo possibile della deviazione standard [math]\sigma[/math] secondo il Teorema di Čebyšëv?

Risoluzione:

Analisi del Problema:

L’affermazione del produttore è che [math]P(4400 \leq X \leq 5600) = 0.96[/math]. Questo implica che [math]P(|X-5000| \leq 600) = 0.96[/math], poiché l’intervallo è simmetrico attorno a [math]\mu=5000[/math].

Forse potrebbe interessarti anche:  Esercizi svolti di calcolo delle probabilità per biostatistica

Čebyšëv dice che [math]P(|X-\mu| < k\sigma) \geq 1 – \frac{1}{k^2}[/math].

Affinché l’affermazione del produttore ([math]P=0.96[/math]) sia compatibile con il limite inferiore di Čebyšëv, deve valere:

[math]1 – \frac{1}{k^2} \leq 0.96[/math]

Se [math]1 – 1/k^2[/math] fosse maggiore di 0.96, il teorema richiederebbe una probabilità almeno pari a quel valore più alto, contraddicendo l’affermazione del produttore che la probabilità è esattamente 0.96.

Risolvere la Disuguaglianza per [math]k[/math]:

[math]\displaystyle \begin{aligned}
1 – \frac{1}{k^2} &\leq 0.96 \\
– \frac{1}{k^2} &\leq 0.96 – 1 = -0.04 \\
\frac{1}{k^2} &\geq 0.04 \\
&{} \quad \text{(Moltiplicando per -1 e invertendo il segno)} \\
k^2 &\leq \frac{1}{0.04} = 25 \\
k &\leq 5
\end{aligned}[/math]

Quindi, la distanza di 600 N dalla media deve essere al massimo 5 deviazioni standard.

Trovare il Massimo Valore di [math]\sigma[/math]:

Sappiamo che [math]k\sigma = 600[/math], quindi [math]k = \frac{600}{\sigma}[/math].

La condizione [math]k \leq 5[/math] implica:

[math]\displaystyle \begin{aligned}
\frac{600}{\sigma} &\leq 5 \\
600 &\leq 5\sigma \\
\sigma &\geq \frac{600}{5} = 120
\end{aligned}[/math]

Conclusione:

Il Teorema di Čebyšëv, da solo, ci permette solo di dire che, affinché l’affermazione del produttore sia possibile e non contraddica il teorema, la deviazione standard deve essere almeno 120 N. Non fornisce un limite massimo significativo, poiché una [math]\sigma[/math] molto grande rende [math]k[/math] molto piccolo, portando il limite di Čebyšëv a 0, che è sempre compatibile con [math]P=0.96[/math] (sebbene non informativo).

💡 Osservazione Strategica:
Čebyšëv è uno strumento per trovare limiti inferiori di probabilità (o superiori per gli eventi complementari). Usarlo per “invertire” il problema e trovare un limite superiore per [math]\sigma[/math] richiede un’analisi più sofisticata. Questo esercizio mostra i limiti del teorema: fissa un limite inferiore per la dispersione ([math]\sigma[/math]), ma non un limite superiore coerente con l’affermazione.

Domanda di Riflessione:
Perché in questo problema Čebyšëv ci fornisce un limite inferiore per [math]\sigma[/math] ([math]\sigma \geq 120[/math]) e non un limite superiore, nonostante la domanda chiedesse il “valore massimo”?

Pubblicità

Risposte alle Domande di Riflessione

Risposta Esercizio 1

Testo: Se l’intervallo fosse stato tra 8.500 e 11.500 ore, quale sarebbe stata la percentuale minima garantita?

L’intervallo [math][8.500, 11.500][/math] è centrato sulla media di 10.000 ore. La distanza da ciascun estremo è 1.500 ore.

Calcoliamo [math]k[/math]:

[math]k = \frac{1500}{500} = 3[/math]

Applichiamo Čebyšëv:

[math]\displaystyle \begin{aligned} P &\geq 1 – \frac{1}{3^2} \\ &= 1 – \frac{1}{9} \\ &= \frac{8}{9} \approx 88.9\% \end{aligned}[/math]

Approfondimento: Questo mostra una proprietà fondamentale del teorema: all’aumentare di [math]k[/math] (cioè all’allargarsi dell’intervallo considerato), la percentuale minima garantita aumenta rapidamente verso il 100%. Tuttavia, la crescita non è lineare: per raddoppiare [math]k[/math] da 1 a 2, la probabilità minima passa da 0% a 75%; per passare da [math]k=2[/math] a [math]k=3[/math], si guadagna “solo” un ulteriore 13.9%. Questo perché il termine [math]\frac{1}{k^2}[/math] decresce molto rapidamente.


Risposta Esercizio 2

Testo: Quale proprietà del calcolo delle probabilità abbiamo sfruttato per passare dalla forma “entro [math]k\sigma[/math]” alla forma “al di fuori di [math]k\sigma[/math]”?

Abbiamo sfruttato la regola del complemento (o degli eventi complementari).

Sia [math]A[/math] l’evento “il punteggio è entro [math]k[/math] deviazioni standard dalla media”:

[math]A = \{|X-\mu| < k\sigma\}[/math]

Il suo complementare [math]A^c[/math] è l’evento “il punteggio è al di fuori di [math]k[/math] deviazioni standard”:

[math]A^c = \{|X-\mu| \geq k\sigma\}[/math]

Per la regola del complemento:

[math]P(A) + P(A^c) = 1[/math]

Čebyšëv ci dice che:

[math]P(A) \geq 1 – \frac{1}{k^2}[/math]

Da questo deduciamo:

[math]\displaystyle \begin{aligned} P(A^c) &= 1 – P(A) \\ &\leq 1 – \left(1 – \frac{1}{k^2}\right) \\ &= \frac{1}{k^2} \end{aligned}[/math]

Approfondimento: Questa trasformazione è cruciale perché spesso nella pratica siamo più interessati a delimitare la probabilità di eventi “anomali” o “estremi” (guasti, picchi di domanda, errori gravi) piuttosto che di quelli “normali”. Čebyšëv ci fornisce così uno strumento per quantificare il rischio massimo anche in condizioni di grande incertezza sulla distribuzione.


Risposta Esercizio 3

Testo: Perché in questo caso possiamo essere sicuri che l’84% è il minimo e non la percentuale esatta?

Il Teorema di Čebyšëv fornisce un limite inferiore universale che vale per qualsiasi distribuzione di probabilità con media e varianza finite.

L’affermazione del teorema è:

[math]P(|X-\mu| < k\sigma) \geq 1 – \frac{1}{k^2}[/math]

Il simbolo “[math]\geq[/math]” significa “maggiore o uguale”. Quindi:

  • La probabilità reale non può essere minore di [math]1 – \frac{1}{k^2}[/math]
  • Ma può essere uguale a questo valore (per distribuzioni “peggiori caso”)
  • O può essere molto maggiore (per distribuzioni più “concentrate” attorno alla media)

Approfondimento: Per esempio, se la distribuzione fosse normale, la percentuale nell’intervallo [math]\mu \pm 2.5\sigma[/math] sarebbe circa il 98.8%, ben superiore al nostro 84% minimo. Čebyšëv è quindi uno strumento “conservativo”: ci garantisce una sicurezza minima, ma nella pratica le cose potrebbero andare molto meglio. La sua forza sta proprio nel non dover fare assunzioni sulla forma della distribuzione.


Risposta Esercizio 4

Testo: Perché, nonostante la media della macchina B non sia centrata perfettamente nell’intervallo, essa risulta comunque più “affidabile” della macchina A in questo caso?

Il concetto chiave qui è la dispersione dei dati, misurata dalla varianza/deviazione standard.

  • Macchina A: [math]\sigma = 10g[/math] → alta dispersione
  • Macchina B: [math]\sigma = 8g[/math] → bassa dispersione

Anche se la media della macchina B è leggermente decentrata (251g vs un centro ideale a 250g), la sua minore dispersione significa che i suoi valori sono più “concentrati” attorno a 251g. Questo fa sì che meno sacchetti si allontanino eccessivamente verso i valori estremi dell’intervallo [math][240g, 260g][/math].

Approfondimento: Possiamo pensare a due tiratori:

  • Il tiratore A spara centrando perfettamente il bersaglio ma con uno spread ampio (alta varianza)
  • Il tiratore B spara leggermente decentrato ma con uno spread molto stretto (bassa varianza)

Spesso il secondo è preferibile, perché i suoi colpi cadono tutti in un’area ristretta, anche se non perfettamente centrata. La bassa varianza della macchina B “compensa” il leggero disallineamento della media. Čebyšëv quantifica matematicamente questo vantaggio.

Forse potrebbe interessarti anche:  La Distribuzione Binomiale Negativa: Un'Analisi Approfondita con Esempi

Risposta Esercizio 5

No, la stima [math]P(Y > 30) \leq 29.75\%[/math] non è per niente precisa per due ragioni:

  1. Maggiorazione dell’evento: Abbiamo sostituito l’evento di interesse [math]\{Y > 30\}[/math] con l’evento più ampio [math]\{|Y-19| \geq 11\}[/math]. Questo secondo evento include sia i valori di [math]Y > 30[/math] che i valori di [math]Y < 8[/math]. La nostra stima quindi somma le probabilità di due code, mentre a noi interessa solo la coda destra.
  2. Conservatività di Čebyšëv: Anche se considerassimo solo la coda destra, Čebyšëv fornisce comunque un limite superiore molto lasco per distribuzioni “ben comportate”. Per esempio, se [math]Y[/math] avesse distribuzione normale, la probabilità [math]P(Y > 30)[/math] sarebbe circa 3.4%, non 29.75%.

Approfondimento: Questo evidenzia il trade-off del teorema:

  • Vantaggio: Estrema generalità (vale per qualsiasi distribuzione)
  • Svantaggio: Stime spesso molto conservative per distribuzioni comuni

In pratica, quando si conosce la distribuzione esatta (normale, esponenziale, etc.), si usano metodi specifici che forniscono stime molto più precise. Čebyšëv è prezioso proprio quando questa informazione manca.


Risposta Esercizio 6

Questa è la domanda più sottile. Čebyšëv ci fornisce un limite inferiore per [math]\sigma[/math] ([math]\sigma \geq 120[/math]) anziché un limite superiore perché:

Il teorema fissa un “pavimento” per la probabilità, non un “soffitto”.

Analizziamo la logica:

L’affermazione è:

[math]P(|X-5000| < 600) = 0.96[/math]

Čebyšëv dice:

[math]\displaystyle \begin{aligned} P(|X-5000| < 600) &\geq 1 – \frac{1}{k^2} \\ \text{dove } k &= \frac{600}{\sigma} \end{aligned}[/math]

Affinché l’affermazione sia possibile, deve essere:

[math]1 – \frac{1}{k^2} \leq 0.96[/math]

Questo vincolo impone che il limite inferiore di Čebyšëv non superi la probabilità dichiarata. Risolvendo, otteniamo [math]\sigma \geq 120[/math].

Perché non abbiamo un limite superiore?

Perché se [math]\sigma[/math] fosse molto grande (es. [math]\sigma = 1000[/math], quindi [math]k = 0.6[/math]), Čebyšëv richiederebbe:

[math]\displaystyle \begin{aligned} P &\geq 1 – \frac{1}{0.6^2} \\ &= 1 – 2.78 \\ &= -1.78 \end{aligned}[/math]

che è sempre vero (le probabilità sono [math]\geq 0[/math]). Quindi, un’alta varianza è compatibile con Čebyšëv, ma non è informativa.

Approfondimento: In realtà, se [math]\sigma[/math] fosse troppo grande, la probabilità reale di cadere in un intervallo fisso [math][4400, 5600][/math] diminuirebbe, contraddicendo l’affermazione del produttore. Ma per dimostrarlo servirebbero strumenti più potenti di Čebyšëv, o l’assunzione di una distribuzione specifica. Čebyšëv ci dà solo una condizione necessaria ([math]\sigma[/math] deve essere almeno 120), non una condizione sufficiente.

Questa analisi mostra come Čebyšëv possa essere usato per smascherare affermazioni false: se il produttore avesse dichiarato [math]\sigma = 100[/math], avremmo potuto confutarlo usando Čebyšëv, ma non possiamo usare Čebyšëv da solo per verificare completamente un’affermazione quando [math]\sigma[/math] è grande.

Pubblicità

Analisi Strategica degli Esercizi (Perché sono importanti?)

Esercizio 1 (I Chip): La Garanzia Legale.

Questo è l’uso classico “contrattuale”. Se sei un fornitore, Čebyšëv ti dice cosa puoi scrivere sul contratto di garanzia senza temere di essere smentito, indipendentemente da come il processo produttivo fluttui (purché media e varianza restino quelle). È la stima più prudente possibile.

Esercizio 2 (Il Test): Gestire l’Anomalia.

Qui lavoriamo sulle code (gli estremi). In contesti come la Cybersecurity o il controllo qualità, non ci interessa la normalità, ma l’eccezione (l’hacker, il pezzo difettoso). Questo esercizio insegna a delimitare il rischio massimo di un evento estremo.

Esercizio 3 (Redditi): Reverse Engineering.

Spesso il capo non chiede “qual è la probabilità?”, ma “dammi un range dove sta l’84% dei clienti”. Questo esercizio ribalta la formula. È fondamentale nel dimensionamento di sistemi (es. server, magazzini) dove devi coprire una certa % di utenza.

Esercizio 4 (Le Macchine): La Battaglia tra Precisione e Accuratezza.

Questo è l’esercizio più “visionario”. Mostra che una macchina leggermente starata ma molto precisa (bassa varianza) è spesso preferibile a una centrata ma instabile. Inoltre, insegna il “worst-case scenario” per intervalli asimmetrici, una skill rara.

Esercizio 5 (Trasformazione Lineare): L’Invarianza.

Utile per chi fa conversioni di unità (es. da Celsius a Fahrenheit, o valute) o applica margini di guadagno fissi. Dimostra che non serve ricalcolare la statistica da zero sui dati grezzi; basta trasformare media e varianza e riapplicare il teorema.

Esercizio 6 (I Cavi): Forensic Statistics.

Questo è un esercizio di “Audit”. Ci insegna a usare la matematica per verificare la veridicità delle affermazioni dei fornitori. Ci dice che c’è un limite fisico alla concentrazione dei dati (deviazione standard minima) per poter garantire certe percentuali.

Pubblicità