Sei sulla pagina 1di 15

STATISTICA MEDICA LEZ.

STATISTICA: analizza in termini quantitativi (andiamo a dare un numero ad un evento) i fenomeni


collettivi, così definito se il suo studio necessita l’osservazione di un insieme di manifestazioni
individuali [una unità statistica può essere un pz affetto da una determinata sindrome, può essere
un’azienda; rappresenta il dato statistico su cui si basa lo studio]

ES. altezza o peso degli studenti iscritti alla facoltà di medicina, il consumo di bevande analcoliche,
il reddito di un insieme di individui assegnato...

La statistica si definisce come un insieme di metodologie orientate a raccogliere, analizzare,


presentare ed interpretare i dati al fine di ottenere informazioni che siano di supporto alle decisioni.

Partiamo sempre dal capire la natura del dato per scegliere l’insieme alle metodologie utilizzabili
per raggiungere lo scopo dello studio.

- Un dato è una qualsiasi misurazione di un qualsiasi fenomeno


- Un’informazione è un dato o un insieme di dati, elaborati o grezzi, che servono per capire,
controllare o prevedere un determinato fenomeno

Questa distinzione è fondamentale in quanto avere dati a disposizione non significa avere delle
informazioni. Es. vecchio elenco telefonico/pagine bianche fornivano un elevato numero di dati. Se
mi venisse chiesto qual è il quartiere di Napoli con più farmacie, tecnicamente i dati sono li dentro
ma è praticamente impossibile estrarre l’informazione perché dovrei sfogliare ogni singola pagina.
Attualmente non è più così in quanto i dati sono tutti racchiusi in un database che facilita il tutto.

Il nostro lavoro consiste nell’andare ad estrarre informazioni utili a partire da un insieme di dati.

La STATISTICA MEDICA non differisce dalla STATISTICA ma presenta delle applicazioni


specifiche e metodologie specifiche.

La statistica medica si definisce come un insieme di metodologie per lo studio del vivente.
Le cui modalità sono:

1. Stabilire il modo di osservazione dei fenomeni, in termini di raccolta dei dati, identificazione dei
soggetti su cui effettuare le misurazioni.

2. Sintetizzare i dati raccolti, in modo da estrarre l’informazione in essi contenuta.

3. Verificare se il risultato di una misurazione sia da considerarsi valido in generale, relativamente


al fenomeno oggetto di studio.
GLOSSARIO

- CARATTERE STATISTICO (comunemente chiamate variabili): ciascuna delle


caratteristiche osservate sulle unità statistiche come altezza, peso, colore degli occhi, se si
tratta di aziende il numero di dipendenti, fatturato annuo…

In corrispondenza di una unità statistica, un carattere assume una determinata modalità:

- Numeriche (età, peso, pressione…)  CARATTERI QUANTITATIVI

- Non numeriche (patologia, tipo di trattamento cui un paziente `e stato sottoposto) 


CARATTERI QUALITATIVI

- CAMPO DI VARIAZIONE: insieme delle modalità che un carattere può assumere


Se la variabile è numerica generalmente va dal minimo al massimo osservato.

- POPOLAZIONE: l’insieme di individui, oggetti o eventi oggetto di uno studio statistico. Per
identificare una popolazione necessario specificare una o più caratteristiche.

- CAMPIONE: sottoinsieme della popolazione. Questo risulta più attendibile quanto più
estratto casualmente, non scegliamo il campione (RANDOM SAMPLING)

Ci sono delle volte in cui è necessario estrarre un campione casuale per limitare tempi e costi
dell’analisi e perché si sta studiando una popolazione infinita.

Le tecniche di tipo statistico si dividono in:

- DESCRITTIVA costituita da strumenti per la descrizione e la semplificazione


dell’informazione contenuta in un insieme di dati.

- INFERENZIALE: consentono lo studio delle proprietà di una o più popolazioni sulla base di
un campione casuale da essa estratto.

Se osservo un evento particolarmente eclatante sul campione sono portato a credere che questo
valga anche a livello di popolazione.
Esempio se utilizzo un farmaco per ridurre la P.A. e questo fa abbassare notevolmente la pressione
al mio campione scelto rispetto al placebo, se questo dato è evidente sono portato a credere che
questo sia applicabile all’intera popolazione. Motivo per il quale il campione deve essere scelto
bene e in maniera random.

Gli studi statistici si dividono in:

- OSSERVAZIONALI: in tali studi ci si limita a monitorare, rilevando le caratteristiche di


interesse, ad esempio presenza di malattie, predisposizioni. Non interferiscono con il
processo che genera i dati a disposizione.

- SPERIMENTALI: sono quegli studi in cui si interviene attivamente per modificare uno più
fattori che influiscono su una malattia, in modo da poterne misurare l’effetto. Si
somministrano ad esempio due diversi trattamenti (o un trattamento e un placebo) a due
gruppi omogenei di pazienti, per studiare gli effetti sulla patologia.
ESEMPIO: Si supponga di voler studiare gli effetti dell’utilizzo di device device di tipo blu-screen
(tablet, smartphone) prima di dormire sulla soglia di attenzione.

 SETUP OSSERVAZIONALE scelgo due gruppi e chiedo se utilizzano il tablet o lo


smartphone prima di andare a dormire:

- GRUPPO CHE LO UTILIZZA

- GRUPPO CHE NON LO UTILIZZA

Dopodiché si calcola la soglia di media in ciascun gruppo, se si osservano differenze, si conclude di


aver osservato una (cor)relazione tra utilizzo dei device e soglia di attenzione.

La “pecca” di questo studio è che non possiamo sapere se ci siano altre caratteristiche che
influenzano la loro soglia di attenzione come ad esempio alcuni componenti del gruppo utilizzano
di più i device durante la giornata rispetto ai componenti dell’altro gruppo.

È per questo che, soprattutto in campo medico si preferisce utilizzare studi di tipi sperimentali.
Ossia prendo due gruppi di volontari.
(Gli individui vengono assegnati in modo casuale a due gruppi, random assignment)
Ad un gruppo dico di utilizzare il device prima di andare a dormire per un mese.
Ad un altro gruppo di non utilizzarlo per un mese.

Cosicché i due gruppi risulteranno equilibrati, perché nel primo gruppo così come nel secondo tanto
ci saranno quelli che lo utilizzano molto durante la giornata che quelli che lo useranno meno.

Le eventuali differenze nella soglia di attenzione media, sarebbero da ascrivere all’utilizzo dei
device prima di dormire (rapporto di causazione).

Il problema consiste nel fatto che non posso selezionare persone casualmente e dirgli di non
utilizzare i device, non c’è una selezione casuale ma bensì una autoselezione (attraverso degli
annunci o questionari).

RANDOM ASSIGNMENT: ossia assegno in maniera casuale gli elementi del campione; questo
consente di identificare rapporti di causazione.

RANDOM SAMPLING: campione selezionato in modo casuale.

Il vantaggio di avere un campione casuale è la generalizzazione; se questo non è casuale non posso
generalizzare. Se riesco ad effettuare un random assignment l’effetto che osservo lo posso
considerare di causazione.
Correlazione NON E’ Causazione. Non è che se due variabili variano in modo simile una è la causa
della variazione dell’altra.

- Carattere qualitativo o MUTABILE, se le modalità sono di tipo non numerico. Si


suddividono ulteriormente in:
SCONNESSE (genere, clinica di ricovero)
ORDINALI o RETTILINEE (titolo di studio)

- Carattere quantitativo o VARIABILE, se le modalità sono di tipo numerico. Si suddividono


ulteriormente in:
DISCRETE (giorni di degenza) [Non ci può essere arrotondamento es. 2.1 giorni, 2.3
figli…]
CONTINUE (pressione sistolica, altezza)

I caratteri (mutabili e variabili) sono classificabili in base al livello di misurazione:

SCALA NOMINALE: sono rappresentate da mutabili sconnesse, non esiste ordine tra le modalità;

SCALA ORDINALE: rappresentate dalle mutabili rettilinee, possibile stabilire una relazione
d’ordine ma non mettere in relazione grandezze

SCALA A INTERVALLI: sono tali i caratteri per i quali possibile ordinare le modalit`a e stabilire
di quanto una modalità minore di un’altra (es. misurazione della temperatura in gradi
centigradi, i punteggi di un test attitudinale)

SCALA DI RAPPORTI: sono un tipo di scale a intervalli in cui esiste uno zero assoluto. I rapporti
tra le modalità possono essere interpretati

DISTRIBUZIONE: un insieme di dati da cui solitamente si parte.


DISTRIBUZIONE UNITARIA SEMPLICE: Elenco delle modalità assunte dal carattere
rispetto a ciascuna delle unità considerate.
DISTRIBUZIONE DI FREQUENZA: Non è altro che una rappresentazione sintetica dei dati.
Più sintetizzo più facilito il tutto.
L’informazione contenuta nella distribuzione unitaria di un carattere diventa difficilmente fruibile
all’aumentare del numero di unità statistiche considerate.
Quindi:

distribuzione unitaria  sintesi  distribuzione di frequenza


FREQUENZA:
La frequenza assoluta di una modalità di un carattere corrisponde al numero di unità statistiche che
presentano quella modalità.

Distribuzione di frequenze semplice


La distribuzione di frequenze semplice associa alle modalità di un carattere X le corrispondenti
frequenze assolute. Il carattere X può essere quantitativo (variabile) o qualitativo (mutabile).

Sia X un carattere con K modalità osservato su un collettivo di n individui:


- Le differenti modalità sono A1, A2…AJ…Ak
- Le frequenze assolute associate alle modalità sono n1,n2….nj…nk

Rappresentazione in tabelle: notazione generale ed esempi

VARIABILE MUTABILE
X= giorni di degenza Y= clinica ricovero

Xj Nj Yj Nj
1 24 Pronto soccorso 15
2 20 Chirurgia 35
3 16 Ortopedia 25
4 12 Rianimazione 5
5 8 tot 80
tot 80

Una distribuzione di frequenze di una Una distribuzione di frequenze di una mutabile


variabile (quantitativa) si definisce anche (qualitativa) si definisce anche serie.
seriazione.

Se il numero di modalità che il carattere può assumere è molto elevato, la distribuzione di frequenza
diventa di difficile comprensione.

Se il carattere è qualitativo si ricorre ad un accorpamento delle modalità.


Se il carattere è quantitativo si procede alla suddivisione in classi ossia l’insieme dei possibili valori
viene suddiviso in intervalli tra loro disgiunti.

Indipendentemente dalla natura del carattere (qualitativa/quantitativa), la definizione di classi di


modalità deve rispondere ai seguenti criteri:

- Il numero di classi deve essere abbastanza piccolo da fornire un’adeguata sintesi ma


abbastanza grande da mantenere un livello accettabile di dettaglio dell’informazione

- Le classi devono essere disgiunte e comprendere tutte le modalità del carattere possibili

- Le classi devono avere la stessa ampiezza (solo per le quantitative)


ESEMPIO [fatto in aula]:
“[“ = estremo non compreso

X (altezza) Xj (classi) Nj (frequenza assoluta)


173 [150, 161[ 4
164
160 [161, 172[ 2
182
150 [172, 183] 2
165
175
183 n.tot = 8
155

Come faccio ad ottenere le classi e il range?


Per le classi le scelgo di ampiezza equiampia (ossia in questo caso di 5 in 5).
Il range lo calcolo andando a sottrarre il minimo dal massimo cosi da ottenere l’ampiezza. In questo
caso 183-150 = 33.
Quante classi (K) voglio? In questo caso ne voglio 3, quindi l’ampiezza sarà data dal range/k 
33/3 = 11.

N.B. nel caso in cui mi trovassi di fronte a dei valori estremamente bassi o alti, vado a riordinare e
scegliere la frequenza.
ESEMPIO SLIDE:

Osservando un data set

Si possono costruire le distribuzioni di frequenza a partire dalle variabili frame (qualitativa) e


colesterolo (quantitativa). [quelle cerchiate in rosso].

DISTRIBUZIONE DI FREQ. DISTRIBUZIONE DI FREQ. DI UNA VARIABILE


DI UNA MUTABILE (FRAME) (COLESTEROLO)

Frame Fr. Abs Fr. rel Fr. % Colester. Soglia sup. Fr. Abs Fr. rel Fr. %
Small 2 0.07 6.67 Classe 1 128,75 1 0.03 3.33
Medium 16 0.53 53.33 Classe 2 179.5 3 0.10 10.00
Large 12 0.40 40.00 Classe 3 230.25 16 0.53 53.33
totale 30 1 100.00 Classe 4 281 10 0.33 33.33
Totale 30 1.00 100.00
FREQUENZA CUMULATA
La frequenza assoluta cumulata corrispondente ad una data modalità di un carattere,
indica il numero di unità della popolazione considerata che presentano un valore del
carattere minore o uguale a quella modalità. Analogamente, le frequenze cumulate
relative e percentuali fanno riferimento a frazioni del collettivo considerato.

La frequenza assoluta cumulata Nj della j-esima modalità è data da:


Nj = n1+n2+…+nj

Colester. Soglia sup. Fr. Abs Fr. rel Fr. % F.a.cumulat. F.r cumulat Fr.% cumulat
Classe 1 128,75 1 0.03 3.33 1.00 0.03 3.33
Classe 2 179.5 3 0.10 10.00 4.00 0.13 13.33
Classe 3 230.25 16 0.53 53.33 20.00 0.67 66.67
Classe 4 281 10 0.33 33.33 30.00 1.00 100.00
Totale 30 1.00 100.00

Ottenute così:
- Fr. A. cumulata: somma di tutti i valori in giallo.
- Fr. R. cumulata: somma di tutti i valori in verde.
- Fr. % cumulata: somma di tutti i valori in rosso.

Al di là della creazione di tabelle al fine di riassumere i dati conosciuti hanno grande valenza anche
le rappresentazioni grafiche.
Oggigiorno soprattutto sui giornali troviamo gli Infografici, questi penalizzano la qualità dei dati in
quanto se in statistica un determinato dato devo rappresentarlo con un punto, deve essere così non
posso rappresentarlo con un animaletto, un fiore o un cuoricino.
Nelle infografiche purtroppo si tende a valorizzare l’aspetto estetico penalizzando la qualità dei dati.

Gli aspetti di cui tenere conto per una efficace rappresentazione sono:
- Accuratezza
- Semplicità
- Chiarezza
- Aspetto
- Struttura

A seconda della variabile devo utilizzare il grafico adatto/corrispondente.


Tali grafici sono univariati (ossia ad una variabile).

N.B. abbiamo la statistica univariata (una variabile per volta), bivariata (due variabili), multivariata
(più variabili contemporaneamente).

Hj (Variabile Zj (Variab. Yj (Var. Xj (variab. Nj (frequenza


ordianale) discreta) sconnessa) continua) assoluta)
*lvl. Istruzione* *n. figli* *Paese* *altezza*
Diploma 0 Italia [150,160[ 4
Laurea 1 Germania [160,175[ 2
Phd 2 Spagna [175,183] 2
Quando ho variabili di tipo categorico o qualitativo il grafico che posso utilizzare è il diagramma a
barre. Dove ciascuna barra è associata ad una categoria o modalità del carattere considerato.
L’altezza è proporzionale alla frequenza assoluta.
La larghezza è uguale per tutti.

VARIABILE SCONNESSA

5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Yj

Italia Germania Spagna

VARIABILE ORDINALE

4.5
4
Dov’è l’errore in questo grafico?
3.5
3
L’errore sta nella disposizione dei dati.
2.5 Quando vado a rappresentare una variabile qualitativa
2 ordinale devo rispettare l’ordine nel quale si presentano
1.5 le categorie. In questo caso l’ordine corretto non sarà
1 Laurea- Diploma- Phd ma bensì Diploma-Laurea-Phd.
0.5
0
Hj

Laurea Diploma Phd


Quindi il grafico corretto sarà:

4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Hj

Diploma Laurea Phd

N.B. una cosa che si fa con il diagramma a barre è prendere ordinarlo in ordine decrescente in base
alla frequenza.
Altro grafico frequentemente utilizzato per le variabili qualitative è il diagramma a torta:
è utile per rappresentare la composizione di un aggregato.
Ciascuna fetta di torta (tecnicamente settore circolare) è associata ad una modalità del carattere.
L’ampiezza di ciascuna fetta è proporzionale alla frequenza della modalità.
L’angolo al centro gi associato all’i-esima modalità con percentuale pi è dato da:
p i∗360
pi : 100 = gi : 360 da cui  gi = 100

Più è ampia la “fetta” maggiore sarà la distribuzione di


frequenza.

VARIABILI DI TIPO DISCRETO:

4.5 Tale rappresentazione è molto utilizzata per le variabili


4 discrete ma è fuorviante. Sarebbe appropriato utilizzare
3.5
un diagramma ad aste.
3
2.5
2
1.5
1
0.5
0
Zj

0 figli 1 figlio 2 figli

Spesso possiamo trovare le barre riordinate dalla più grande alla più piccola in quel caso siamo di
fronte al diagramma di Pareto.
VARIABILE DI TIPO QUANTITATIVA CONTINUA:
4.5
4
La rappresentiamo con l’istogramma, costituito da barre
3.5 non distanziate, con basi non necessariamente uguali;
3 l’area di ogni barra è proporzionale alla frequenza della
2.5 modalità cui si riferisce.
2
1.5 Se il carattere è quantitativo, discreto o continuo, la
1 distribuzione di frequenza può essere ottenuta a partire
0.5 da classi di stessa ampiezza o ampiezze diverse; nel
0
Nj primo caso si avrà un istogramma a basi regolari
[150,161[ [161,172[ [172,183]

Le barre sono continue in quanto rappresenta l’intervallo.


“Nj” rappresenta l’area non l’altezza.
L’altezza della barra è data dall’aerea (rappresentata dalla frequenza assoluta) fratto l’ampiezza
dell’intervallo. In questo caso 4 (area)/11 (ampiezza intervallo) = 0.36.
L’altezza viene definita densità di frequenza.

Quando passo da una distribuzione unitaria ad una classe di distribuzione ipotizzo che ci sia una
distribuzione equa (uno per tipo per intenderci).
Semplicemente l’altezza della barra deve essere proporzionale a quante osservazioni ci sono in una
classe indipendentemente dall’ampiezza di quest’ultima.

ESEMPIO 1:
Se volessi misurare la densità di persone che prende la metro:
Misuro dalle 12.30 alle 13.
Ne passano 100 in 30 min.
Se volessi misurarlo dalle 12.30 alle 14 (3 volte il tempo della prima misurazione):
Ne passano 280 in 1h e mezza.

In proporzione ne sono passate di più nel primo intervallo di tempo (ossia la prima mezz’ora) o
nell’ora successiva?
Nella prima mezz’ora. Se fosse stata una densità di frequenza uguale mi sarei dovuto aspettare 300
persone.

ESEMPIO 2:

Numero di vendite osservato dal numero di utenti entrati nell’ultimo giorno in un sito e-commerce
(A e B):
Osservando questo grafico diremmo che il numero di utenti
entrati nel sito A è quasi il triplo rispetto a B.
Ma se osserviamo alla base non c’è nessun numero di
riferimento, non c’è scritto che si parte da 0.

Se riportassi di lato che la frequenza in A è stata di 350 e in


B 330. Il grafico sarebbe lo stesso ma il negozio che è andato
meglio sicuramente è A ma non tre volte B.
A B
Non a caso esistono “lies, damned lies, and statistics” ossia bugie, bugie sfacciate e statistiche.

ESEMPIO 3:

2 anni fa avevamo un fatturato di 100 euro.


Da 2 anni fa a quest’anno abbiamo perso il 40%.
Dall’anno scorso a quest’anno siamo risaliti del 50%.

Analizziamo:
Da 2 anni fa a quest’anno abbiamo perso il 40%, quindi sono passato da un fatturato di 100 a 60.
Poi dall’anno scorso a quest’anno ho recuperato il 50%, il quale fa riferimento ai 60 guadagnati,
non ai 100 di due anni fa. Ma sto perdendo ugualmente 10%.

SCATTER PLOT o DIAGRAMMA DI DISPERSIONE

È una tipologia di grafico bivariato in quanto ci consente


di visualizzare due variabili alla volta.

[Non abbiamo l’immagine che ha mostrato lui]


Questa fa riferimento al PIL pro capite e l’aspettativa di
vita nel 1982 in tutti i paesi del mondo.

Cosa ci dice questo grafico? Ci dice tendenzialmente che


quando il PIL pro capite è basso l’aspettativa di vita è
bassa ma cresce molto rapidamente fino a 10.000 dollari
pro capite. Oltre questa soglia ci accorgiamo che si
stabilizza. Nel momento in cui si va oltre una determinata
soglia hai un effetto rispetto all’attesa di vita limitato.

Se invece del PIL pro capite andiamo a prendere il logaritmo del PIL pro capite semplicemente
perché ci sono molti paesi con un Pil pro capite molto basso e pochi paesi con un PIL molto alto
(America, Stati Uniti) che renderebbero la distribuzione asimmetrica.

Se utilizzo altre caratteristiche del grafico posso mappare altre variabili sul mio grafico e
aggiungere informazioni come nel grafico seguente (preso da internet perché queste slide mancano).
Man mano aggiungo sempre nuove variabili così da rendere
sempre più precisi i miei dati…

Osserviamo l’andamento di attesa di vita media nel corso degli anni. Per ogni anno ho calcolato
l’attesa di vita media e l’ho riportata. Invece di utilizzare lo scatter plot (ossia una nuvola di punti)
ho utilizzato un grafico differente (esempio, manca quello suo):
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0

BOX PLOT:
[Ossia grafico a scatola]
Il boxplot è un grafico statistico che si utilizza per
variabili quantitative.
E’ molto utile per capire se la distribuzione è simmetrica
oppure asimmetrica e per confrontare la forma di più
distribuzioni. Ma soprattutto ti permette di identificare in
modo rapido e preciso valori anomali e outliers.

ESEMPIO:
[attesa di vita]

Il primo grafico è simmetrico ma poco variabile


(guarda box plot)
M
E
D
I
A

M
Il secondo grafico è simmetrico e molto più
E variabile rispetto al primo (guarda box plot)
D
I
A Nella classe che contiene la media ci sono tante
persone che seppur scostandosi dalla media si
eguagliano dando comunque una media uguale.
Per questo motivo vado ad osservare altre
variabili/informazioni.

M
E Il terzo grafico è asimmetrico (guarda box plot)
D
I
A

INDICI SINTETICI: ci danno informazioni sulla caratteristica di una distribuzione di una variabile.
Esempio: se ho la distribuzione dell’altezza su 100 persone; immaginiamo che un indice di sintesi è
la media aritmetica. La media aritmetica per sapere l’altezza media di queste persone è 170 cm.
Immaginiamo abbia due insiemi di persone 100 e 100.
Un gruppo con un’altezza di 170 cm; nell’altro gruppo l’altezza media è sempre 170 cm ma ci sono
15 bambini di 5 anni e 15 giocatori di basket.

Risulta essere più rappresentativa la media del primo gruppo o quella del secondo gruppo?
Quella del primo perché il secondo gruppo presenta una variabilità maggiore perché ci sono sia
bambini che giocatori di basket.
Il primo aspetto rappresenta gli indici di tendenza centrale o posizione ossia dei valori che danno
una misura del centro della distribuzione (media aritmetica e la mediana).
La seconda caratteristica è la variabilità ossia l’attitudine di un carattere statistico ad assumere
modalità differenti.

Di una distribuzione si dice tendenzialmente la tendenza centrale (o posizione), la variabilità e la


forma.

Potrebbero piacerti anche