Cos’è un Boxplot

Cerca:

Generic selectors
Exact matches only
Search in title
Search in content
Post Type Selectors
Il boxplot

Cos’è il Boxplot

Il diagramma a ramo-e-foglia e l’istogramma danno una visione generale (qualitativa) di un insieme di dati. Singoli valori numerici come la media, la varianza o i quartili forniscono informazioni puntuali (quantitative) su uno specifico aspetto del campione.

Forse potrebbe interessarti anche:  Il diagramma Ramo-Foglia (stem and leaf)

Un indicatore grafico (visione d’insieme) che descrive anche e contemporaneamente diverse importanti caratteristiche quantitative del campione è il box plot: è una scatola delimitata dai quartili, e “tagliata” dalla mediana, che riporta anche due baffi estesi fino a “circa” 1.5 volte il range interquartile (DIQ=Q3-Q1).

Eventuali punti esterni ai baffi vengono riportati singolarmente (outliers).
Un punto più lontano di 3 range interquartili, dal quartile corrispondente, è detto outlier estremo.

Il boxplot

Boxplot con punti esterni

Boxplot con punti esterni

Inter Quartile Range IQR ≡ DIQ : delimita la “scatola” (box) che contiene il 50%, centrale, dei dati

DIQ=Q3-Q1 Range interquartile
WL,lim=Q1-1.5DIQ limite inferiore per il baffo basso
WH,lim =Q3+1.5DIQ limite superiore per il baffo alto

Boxplot con punti esterni

I dati nell’intervallo [Q1-1.5DIQ , Q3+1.5DIQ] sono punti interni.
I dati entro gli intervalli [Q1-3DIQ , Q1-1.5DIQ] oppure [Q3+1.5DIQ , Q3+3DIQ] sono detti punti esterni (outliers).
I  dati con valore inferiore a Q1-3DIQ o superiore a Q3+3DIQ sono punti esterni estremi.

La linea centrale nella scatola rappresenta la mediana dei dati. La metà dei dati si trova sopra questo valore, l’altra metà sotto. Se i dati sono simmetrici, la mediana è al centro della scatola. Se, invece, i dati sono asimmetrici, la mediana sarà più vicina alla parte superiore o a quella inferiore della scatola.

Mediana

Guarda la linea al centro della scatola che rappresenta la mediana. Il valore centrale della distribuzione dei dati è utile in presenza di molti outliers in quanto sintetizza meglio il fenomeno rispetto ad una media.

Variabilità

Osserva l’altezza della scatola e la lunghezza dei baffi. Dimensioni maggiori corrispondono a una maggiore dispersione della variabile rispetto al valore mediano.

Asimmetria

Se uno dei due baffi è più lungo rispetto all’altro si ha una asimmetria, una tendenza dei dati a disperdersi verso valori più grandi o più piccoli rispetto a quello centrale. In particolare, se il baffo inferiore è più pronunciato si ha una asimmetria sinistra, ossia i valori più piccoli della variabile sono più dispersi; viceversa, se il baffo superiore è più lungo si avrà una asimmetria destra e quindi i valori più dispersi saranno quelli più alti.

Utilità dei boxplot

I box plot sono molto utili per il confronto diretto (visivo) di dati provenienti da campioni diversi: in figura si riportano gli indici di qualità riferiti a tre impianti di produzione:

Utilità dei boxplot

 

Esempio 1:

il  seguente è box plot relativo alle misure di pressione, a destra del diagramma ramo-e-foglia corrispondente.

Utilità dei boxplot

pos. centrale ∼160 psi
dispersione ∼±20 psi

simmetria: SI
punti esterni: SI

In conclusione:

Il box plot è un indicatore grafico che fornisce importanti informazioni quantitative su un insieme di dati:
– Posizione e tendenza centrale
– Variabilità e dispersione
– Simmetria o asimmetria
– Identificazione dei punti esterni

Pubblicità