Sei sulla pagina 1di 9

Nona lezione statistica (17/11)

- Riprendi la spiegazione della deviazione standard (nb: altro non è che la radice quadrata della
varianza)
- Esercizio: nella tabella ci sono i livelli di Hb in un campione di 70 donne. Bisogna determinare
la varianza e deviazione standard della distribuzione, raggruppati in intervalli di classe.

Bisogna raggruppare i dati in intervalli di ampiezza 1g/100ml


(quindi 9-10, 10-11, 11-12... in questo caso in ogni intervallo si
esclude il secondo valore estremo, quindi ad esempio tra 9-10 si
considerano i numeri tra 9 e 9.99 e così via e si riprende il 10
nella classe successiva).

Vado poi a contare la frequenza in ogni classe con una frequenza totale di 70.
Trovo poi la media (o punto centrale) di ogni singola classe (perché al momento devo ragionare
sulla classe, per diminuire i calcoli da fare) e infine trovo il valore medio; si calcola con media
x frequenza: 9,5 x 4 = 38 ; 10,5x14 = 247 ecc. Faccio poi la somma di tutti i valori / frequenza
totale = 841/70 = 12,01.
Trovo poi la devianza che si calcola con: (media - valore medio)2 x frequenza /(n-1 visto che 70
è un valore piccolo)  131,49 : 69 = 1,90. Da qui calcolo la deviazione standard che non è
altro che a radice quadrata di 1,90  1,38.
In questo calcolo, nonostante sia più rapido, mi sono persa delle informazioni: facendo invece
media e frequenza di ogni singolo valore, esce un risultato diverso (11,9)!!!!. In questi calcoli
non si arrotonda mai per eccesso/difetto.
Nb: sigma ^ 2 è un altro modo per etichettare la varianza.
18/11
- Coefficiente di variazione (CV) = ci permette di misurare la variabilità, indipendentemente
dalla grandezza e dalla scala di misura delle osservazioni:

dev standard
CV = media aritmetica

La variabilità guarda alle differenze tra le unità sperimentali. È però evidente che il significato
pratico dipende dal livello del fenomeno considerato; quindi può essere interessante disporre di
variabilità “aggiustata” in qualche maniera per tener conto del livello del fenomeno.
Esempio  analizziamo due gruppi con valori medi molto distanti. Abbiamo:
 3 neonati con 3,4 e 5kg (con 4kg di media e 1kg di deviazione standard)
 3 bambini di un anno pesano 10, 11 e 12 kg (con 11kg di media e 1kg di deviazione
standard)
La deviazione standard è uguale nei due insiemi (= 1kg), ma il buon senso ci suggerisce che la
variabilità del peso sia maggiore nei neonati. Perché? Calcoliamo il coefficiente di variazione:
dev standard / media = 25,0%, mentre se la calcoliamo nei bambini di 1 anno, il CV è molto
più piccolo nei neonati (9,1%). Quindi la variabilità relativa è maggiore nei neonati e
diminuisce con l’età.

Altro esempio possono essere 4 neonati con 4kg di media e 1 kg di deviazione standard (CV =
0,25 e quindi 25%) e tre adulti con media 67kg e deviazione standard di 1kg (CV = 1%);
tradotto significa che c’è più variabilità nei neonati anche perché hanno una curva di crescita
molto più vasta rispetto all’adulto (i bambini devono ancora crescere: per un adulto 1kg di
deviazione standard è praticamente nullo, ma nei neonati 1kg di deviazione standard è
tantissimo).

E ancora: in 91 ragazze matricole dell’AA 2021/2022 abbiamo:


1) Media del peso = 55.1kg con deviazione standard = 5,7kg
2) Media della statura = 166,1cm con deviazione standard = 6.1cm
È maggiore la variabilità del peso o statura? Qui troviamo due variabili diverse con diverse
unità di misura; applichiamo quindi la formula:
1) 5.7 / 55.1 = 0,103 = 10,3%
2) 6,1 / 166,1 = 0,037 = 3,7%
In conclusione la variabilità del peso è maggiore rispetto a quello della statura.
Statistiche descrittive per popolazioni
- Le principali statistiche per descrivere gli eventi nelle popolazioni sono:
1) Proporzione = è il rapporto in cui il numeratore (più piccolo) è contenuto nel
denominatore (più grande); possiamo trovare ad esempio:
- Percentuale  in un campione di 500 soggetti, 150 sono donne:
% donne = 150/500 = 30%.
- Prevalenza  in un campione da 500, 25 soggetti sono asmatici:
Prevalenza = 25/500 = 5%.
- Incidenza cumulativa  su 500 soggetti sani seguiti per un anno, 3 si sono
ammalati d’asma:
Incidenza (*1000) = 3/500 = 0,006 x1000 (oppure direttamente 6)
2) Tasso = indica il rapporto tra il numero di eventi e l’esperienza-tempo che li ha
generati. Troviamo ad esempio:
- Tasso di mortalità  in una popolazione stazionaria di 10000 abitanti si
verificano 200 decessi per leucemia in 10 anni:
Tasso(*1000) = [200 / (10000x10)] x 1000 = 2x1000 py,
- Tasso di incidenza  in una coorte di 150 pazienti seguiti per 2 anni, 20
hanno una recidiva nel primo anno e 10 alla fine del follow-up:
Tasso di recidiva (%) = 30 / (20 x 1y) + (130x2y) = 7.1 x 100y
Nb: visto che consideriamo la recidiva, la differenza è che i 20 li devo
togliere al secondo anno, perché hanno avuto la recidiva nel primo anno;
quindi 150-20 = 130.
3) Rapporto = sono il quoziente tra due quantità o frequenze che possono avere unità
di misura differente. Troviamo ad esempio:
- Rapporto  sessi alla nascita:
1057 M / 1000 F = 1,057 (si può scrivere anche rapporto 1:1)
- Densità di popolazione qui abbiamo elementi differenti:
25000abitanti / 23km2 = 1087
- Esiste un indicatore legato al “rischio”, gli odds ratio che si calcolano con la
probabilità che un evento si realizzi / probabilità che un evento non si realizzi
(vi do l’esempio, ma la prof non li vuole sapere).
Se una morte neonatale si verifica in 20 neonati su 100 nati pretermine, il
rischio di mortalità perinatale è 20 / 100 = 0,20 e cioè 20%. L’odds di
mortalità perinatale invece è il numero di neonati che muoiono (20) contro i
neonati che sopravvivono (100-20 = 80)  20 / 80 = 0,25 = 25% [detto in
altre parole possiamo dire “in rapporto 1 a 4”].

Di base però sono tutti QUOZIENTI (quindi con numeratore e denominatore)


19/11
RAPPRESENTAZIONE GRAFICA
- È un primo approccio di facile e chiara lettura della lettura dell’analisi statistica. Un grafico
deve fornire al lettore un’informazione diretta e facile da interpretare. Il grafico sarebbe la
rappresentazione di un fenomeno tramite disegno. C’è un fattore importante da considerare: la
scelta del grafico giusto, poiché c’è il rischio di non riuscire a rappresentare correttamente i
dati. Cosa si prende in considerazione?
1) Natura del fenomeno che si vuole rappresentare,
2) Tipo di carattere che descrive il fenomeno
3) Numero di caratteri coinvolti nel fenomeno.

- Grafico a torta  viene utilizzato per rappresentare un’unica variabile qualitativa; gli spicchi
sono tanti quanti le modalità della variabile qualitativa. È preferibile utilizzarlo quando le
modalità non sono molte e possiamo decidere se inserire le frequenze assolute o relative o
percentuali. Gli spicchi ricoprono un’area del cerchio pari alla frequenza percentuale.
Esempio:

- Grafico a barre  può sintetizzare una o due variabili qualitative; nel caso sintetizzi una sola
variabile, le barre sono tante quanto le modalità della variabile. Nell’asse delle ordinate
possiamo decidere di inserire le frequenze assolute, relative o percentuali (le altezze dei
rettangoli quindi dipendono dalle frequenze assolute/relative/percentuali delle categorie). Qusto
grafico può essere utilizzato in presenza di molte modalità.
Esempio:
Un altro tipo di grafico a barre è quello per due variabili qualitative  sintetizza una tabella
di contingenza. La variabile di exposure viene messa sull’asse orizzontale mentre la variabile di
outcome definisce i rettangoli per ciascun gruppo identificato dalla variabile di exposure.
Ad esempio, si vuole rappresentare la percezione del dolore in base al sesso del neonato:

Altre rappresentazioni del grafico a barre = ognuno ha il proprio vantaggio (ad esempio in
quello a destra riusciamo a capire le unità intervistate):
- Box-plot = è l’unico grafico che permette di rappresentare tutti i valori come mediana o quartili
e soprattutto i valori fuori soglia (detti anche outlier). Questi grafici ci aiutano a capire come e
dove sono posizionate le osservazioni.
Esempio:

Nel caso in cui volessimo valutare la relazione di una variabile qualitativa e un’altra potremmo
creare tanti grafici box-plot quante sono le modalità della variabile qualitativa:

- Scatterplot  sintetizza due variabili quantitative; la variabile di exposure viene messa in


ascissa, mentre quella di out come nell’ordinata. I punti rappresentati sono le singole unità
statistiche. Grazie a questo grafico possiamo vedere come varia l’outcome in base all’exposure.
Esempio:
Come possiamo osservare graficamente come varia il peso in funzione all’altezza?

- Istogramma  la variabile viene suddivisa in classi di ampiezza costante o variabile e viene


posta sull’asse delle ascisse. L’ordinata (cioè l’altezza del rettangolo) è uguale:
 Alla frequenza (il numero delle osservazioni che ricadono in quell’intervallo) se le
classi hanno ampiezza costante
 Al rapporto della frequenza / ampiezza della base se gli intervalli non hanno
ampiezza costante. Questo rapporto viene chiamato densità e in caso di classi di
ampiezza non costante è necessario utilizzare le densità in ordinata, mentre per classi
di egual misura è indifferente.
Poligono di frequenza

Stringendo sempre più gli intervalli, otterremo la distribuzione della variabile. L’istogramma ci
aiuta a vedere graficamente la “forma” della distribuzione

- Attenzione agli errori e distorsioni che portano ad un’analisi incorretta dei dati:
 Il titolo è incompleto o poco chiaro,
 Non segnare i riferimenti identificativi delle variabili (quindi ascisse e ordinate),
 Assenza del riferimento delle unità di misura utilizzate,
 Non segnalare i valori significativi,
 Dimensione del grafico inadatta allo spazio utilizzato,
 Unità grafiche inadatte (usare un grafico a torta per confrontare tanti elementi),
 Mancato rispetto delle unità grafiche.
Esempio: elaborazione OASI nelle regioni della disposizione dei posti letto per 1000 abitanti
(del 2019):
Il grafico (istogramma) ci fa vedere nell’ultimo rettangolo la media in Italia dei posti letto
disponibili e sono 3,51; vengono poi segnati per ogni regione. A lato sono segnate le specialità.
Il grafico ci dice che il Piemonte è quello che ha più posti letto disponibili (3,83), mentre la
Campania è quella che ne ha meno (3.00).
Da questo grafico vediamo anche che le riabilitazioni (viola) sono maggiori in Lombardia,
Piemonte, Lazio e Veneto rispetto alle altre.
Questo grafico in altre parole è ben fatto, non presenta errori o distorsioni e ci descrive quindi
in maniera corretta i dati.

Potrebbero piacerti anche