- Riprendi la spiegazione della deviazione standard (nb: altro non è che la radice quadrata della
varianza)
- Esercizio: nella tabella ci sono i livelli di Hb in un campione di 70 donne. Bisogna determinare
la varianza e deviazione standard della distribuzione, raggruppati in intervalli di classe.
Vado poi a contare la frequenza in ogni classe con una frequenza totale di 70.
Trovo poi la media (o punto centrale) di ogni singola classe (perché al momento devo ragionare
sulla classe, per diminuire i calcoli da fare) e infine trovo il valore medio; si calcola con media
x frequenza: 9,5 x 4 = 38 ; 10,5x14 = 247 ecc. Faccio poi la somma di tutti i valori / frequenza
totale = 841/70 = 12,01.
Trovo poi la devianza che si calcola con: (media - valore medio)2 x frequenza /(n-1 visto che 70
è un valore piccolo) 131,49 : 69 = 1,90. Da qui calcolo la deviazione standard che non è
altro che a radice quadrata di 1,90 1,38.
In questo calcolo, nonostante sia più rapido, mi sono persa delle informazioni: facendo invece
media e frequenza di ogni singolo valore, esce un risultato diverso (11,9)!!!!. In questi calcoli
non si arrotonda mai per eccesso/difetto.
Nb: sigma ^ 2 è un altro modo per etichettare la varianza.
18/11
- Coefficiente di variazione (CV) = ci permette di misurare la variabilità, indipendentemente
dalla grandezza e dalla scala di misura delle osservazioni:
dev standard
CV = media aritmetica
La variabilità guarda alle differenze tra le unità sperimentali. È però evidente che il significato
pratico dipende dal livello del fenomeno considerato; quindi può essere interessante disporre di
variabilità “aggiustata” in qualche maniera per tener conto del livello del fenomeno.
Esempio analizziamo due gruppi con valori medi molto distanti. Abbiamo:
3 neonati con 3,4 e 5kg (con 4kg di media e 1kg di deviazione standard)
3 bambini di un anno pesano 10, 11 e 12 kg (con 11kg di media e 1kg di deviazione
standard)
La deviazione standard è uguale nei due insiemi (= 1kg), ma il buon senso ci suggerisce che la
variabilità del peso sia maggiore nei neonati. Perché? Calcoliamo il coefficiente di variazione:
dev standard / media = 25,0%, mentre se la calcoliamo nei bambini di 1 anno, il CV è molto
più piccolo nei neonati (9,1%). Quindi la variabilità relativa è maggiore nei neonati e
diminuisce con l’età.
Altro esempio possono essere 4 neonati con 4kg di media e 1 kg di deviazione standard (CV =
0,25 e quindi 25%) e tre adulti con media 67kg e deviazione standard di 1kg (CV = 1%);
tradotto significa che c’è più variabilità nei neonati anche perché hanno una curva di crescita
molto più vasta rispetto all’adulto (i bambini devono ancora crescere: per un adulto 1kg di
deviazione standard è praticamente nullo, ma nei neonati 1kg di deviazione standard è
tantissimo).
- Grafico a torta viene utilizzato per rappresentare un’unica variabile qualitativa; gli spicchi
sono tanti quanti le modalità della variabile qualitativa. È preferibile utilizzarlo quando le
modalità non sono molte e possiamo decidere se inserire le frequenze assolute o relative o
percentuali. Gli spicchi ricoprono un’area del cerchio pari alla frequenza percentuale.
Esempio:
- Grafico a barre può sintetizzare una o due variabili qualitative; nel caso sintetizzi una sola
variabile, le barre sono tante quanto le modalità della variabile. Nell’asse delle ordinate
possiamo decidere di inserire le frequenze assolute, relative o percentuali (le altezze dei
rettangoli quindi dipendono dalle frequenze assolute/relative/percentuali delle categorie). Qusto
grafico può essere utilizzato in presenza di molte modalità.
Esempio:
Un altro tipo di grafico a barre è quello per due variabili qualitative sintetizza una tabella
di contingenza. La variabile di exposure viene messa sull’asse orizzontale mentre la variabile di
outcome definisce i rettangoli per ciascun gruppo identificato dalla variabile di exposure.
Ad esempio, si vuole rappresentare la percezione del dolore in base al sesso del neonato:
Altre rappresentazioni del grafico a barre = ognuno ha il proprio vantaggio (ad esempio in
quello a destra riusciamo a capire le unità intervistate):
- Box-plot = è l’unico grafico che permette di rappresentare tutti i valori come mediana o quartili
e soprattutto i valori fuori soglia (detti anche outlier). Questi grafici ci aiutano a capire come e
dove sono posizionate le osservazioni.
Esempio:
Nel caso in cui volessimo valutare la relazione di una variabile qualitativa e un’altra potremmo
creare tanti grafici box-plot quante sono le modalità della variabile qualitativa:
Stringendo sempre più gli intervalli, otterremo la distribuzione della variabile. L’istogramma ci
aiuta a vedere graficamente la “forma” della distribuzione
- Attenzione agli errori e distorsioni che portano ad un’analisi incorretta dei dati:
Il titolo è incompleto o poco chiaro,
Non segnare i riferimenti identificativi delle variabili (quindi ascisse e ordinate),
Assenza del riferimento delle unità di misura utilizzate,
Non segnalare i valori significativi,
Dimensione del grafico inadatta allo spazio utilizzato,
Unità grafiche inadatte (usare un grafico a torta per confrontare tanti elementi),
Mancato rispetto delle unità grafiche.
Esempio: elaborazione OASI nelle regioni della disposizione dei posti letto per 1000 abitanti
(del 2019):
Il grafico (istogramma) ci fa vedere nell’ultimo rettangolo la media in Italia dei posti letto
disponibili e sono 3,51; vengono poi segnati per ogni regione. A lato sono segnate le specialità.
Il grafico ci dice che il Piemonte è quello che ha più posti letto disponibili (3,83), mentre la
Campania è quella che ne ha meno (3.00).
Da questo grafico vediamo anche che le riabilitazioni (viola) sono maggiori in Lombardia,
Piemonte, Lazio e Veneto rispetto alle altre.
Questo grafico in altre parole è ben fatto, non presenta errori o distorsioni e ci descrive quindi
in maniera corretta i dati.