Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ES. altezza o peso degli studenti iscritti alla facoltà di medicina, il consumo di bevande analcoliche,
il reddito di un insieme di individui assegnato...
Partiamo sempre dal capire la natura del dato per scegliere l’insieme alle metodologie utilizzabili
per raggiungere lo scopo dello studio.
Questa distinzione è fondamentale in quanto avere dati a disposizione non significa avere delle
informazioni. Es. vecchio elenco telefonico/pagine bianche fornivano un elevato numero di dati. Se
mi venisse chiesto qual è il quartiere di Napoli con più farmacie, tecnicamente i dati sono li dentro
ma è praticamente impossibile estrarre l’informazione perché dovrei sfogliare ogni singola pagina.
Attualmente non è più così in quanto i dati sono tutti racchiusi in un database che facilita il tutto.
Il nostro lavoro consiste nell’andare ad estrarre informazioni utili a partire da un insieme di dati.
La statistica medica si definisce come un insieme di metodologie per lo studio del vivente.
Le cui modalità sono:
1. Stabilire il modo di osservazione dei fenomeni, in termini di raccolta dei dati, identificazione dei
soggetti su cui effettuare le misurazioni.
- POPOLAZIONE: l’insieme di individui, oggetti o eventi oggetto di uno studio statistico. Per
identificare una popolazione necessario specificare una o più caratteristiche.
- CAMPIONE: sottoinsieme della popolazione. Questo risulta più attendibile quanto più
estratto casualmente, non scegliamo il campione (RANDOM SAMPLING)
Ci sono delle volte in cui è necessario estrarre un campione casuale per limitare tempi e costi
dell’analisi e perché si sta studiando una popolazione infinita.
- INFERENZIALE: consentono lo studio delle proprietà di una o più popolazioni sulla base di
un campione casuale da essa estratto.
Se osservo un evento particolarmente eclatante sul campione sono portato a credere che questo
valga anche a livello di popolazione.
Esempio se utilizzo un farmaco per ridurre la P.A. e questo fa abbassare notevolmente la pressione
al mio campione scelto rispetto al placebo, se questo dato è evidente sono portato a credere che
questo sia applicabile all’intera popolazione. Motivo per il quale il campione deve essere scelto
bene e in maniera random.
- SPERIMENTALI: sono quegli studi in cui si interviene attivamente per modificare uno più
fattori che influiscono su una malattia, in modo da poterne misurare l’effetto. Si
somministrano ad esempio due diversi trattamenti (o un trattamento e un placebo) a due
gruppi omogenei di pazienti, per studiare gli effetti sulla patologia.
ESEMPIO: Si supponga di voler studiare gli effetti dell’utilizzo di device device di tipo blu-screen
(tablet, smartphone) prima di dormire sulla soglia di attenzione.
La “pecca” di questo studio è che non possiamo sapere se ci siano altre caratteristiche che
influenzano la loro soglia di attenzione come ad esempio alcuni componenti del gruppo utilizzano
di più i device durante la giornata rispetto ai componenti dell’altro gruppo.
È per questo che, soprattutto in campo medico si preferisce utilizzare studi di tipi sperimentali.
Ossia prendo due gruppi di volontari.
(Gli individui vengono assegnati in modo casuale a due gruppi, random assignment)
Ad un gruppo dico di utilizzare il device prima di andare a dormire per un mese.
Ad un altro gruppo di non utilizzarlo per un mese.
Cosicché i due gruppi risulteranno equilibrati, perché nel primo gruppo così come nel secondo tanto
ci saranno quelli che lo utilizzano molto durante la giornata che quelli che lo useranno meno.
Le eventuali differenze nella soglia di attenzione media, sarebbero da ascrivere all’utilizzo dei
device prima di dormire (rapporto di causazione).
Il problema consiste nel fatto che non posso selezionare persone casualmente e dirgli di non
utilizzare i device, non c’è una selezione casuale ma bensì una autoselezione (attraverso degli
annunci o questionari).
RANDOM ASSIGNMENT: ossia assegno in maniera casuale gli elementi del campione; questo
consente di identificare rapporti di causazione.
Il vantaggio di avere un campione casuale è la generalizzazione; se questo non è casuale non posso
generalizzare. Se riesco ad effettuare un random assignment l’effetto che osservo lo posso
considerare di causazione.
Correlazione NON E’ Causazione. Non è che se due variabili variano in modo simile una è la causa
della variazione dell’altra.
SCALA NOMINALE: sono rappresentate da mutabili sconnesse, non esiste ordine tra le modalità;
SCALA ORDINALE: rappresentate dalle mutabili rettilinee, possibile stabilire una relazione
d’ordine ma non mettere in relazione grandezze
SCALA A INTERVALLI: sono tali i caratteri per i quali possibile ordinare le modalit`a e stabilire
di quanto una modalità minore di un’altra (es. misurazione della temperatura in gradi
centigradi, i punteggi di un test attitudinale)
SCALA DI RAPPORTI: sono un tipo di scale a intervalli in cui esiste uno zero assoluto. I rapporti
tra le modalità possono essere interpretati
VARIABILE MUTABILE
X= giorni di degenza Y= clinica ricovero
Xj Nj Yj Nj
1 24 Pronto soccorso 15
2 20 Chirurgia 35
3 16 Ortopedia 25
4 12 Rianimazione 5
5 8 tot 80
tot 80
Se il numero di modalità che il carattere può assumere è molto elevato, la distribuzione di frequenza
diventa di difficile comprensione.
- Le classi devono essere disgiunte e comprendere tutte le modalità del carattere possibili
N.B. nel caso in cui mi trovassi di fronte a dei valori estremamente bassi o alti, vado a riordinare e
scegliere la frequenza.
ESEMPIO SLIDE:
Frame Fr. Abs Fr. rel Fr. % Colester. Soglia sup. Fr. Abs Fr. rel Fr. %
Small 2 0.07 6.67 Classe 1 128,75 1 0.03 3.33
Medium 16 0.53 53.33 Classe 2 179.5 3 0.10 10.00
Large 12 0.40 40.00 Classe 3 230.25 16 0.53 53.33
totale 30 1 100.00 Classe 4 281 10 0.33 33.33
Totale 30 1.00 100.00
FREQUENZA CUMULATA
La frequenza assoluta cumulata corrispondente ad una data modalità di un carattere,
indica il numero di unità della popolazione considerata che presentano un valore del
carattere minore o uguale a quella modalità. Analogamente, le frequenze cumulate
relative e percentuali fanno riferimento a frazioni del collettivo considerato.
Colester. Soglia sup. Fr. Abs Fr. rel Fr. % F.a.cumulat. F.r cumulat Fr.% cumulat
Classe 1 128,75 1 0.03 3.33 1.00 0.03 3.33
Classe 2 179.5 3 0.10 10.00 4.00 0.13 13.33
Classe 3 230.25 16 0.53 53.33 20.00 0.67 66.67
Classe 4 281 10 0.33 33.33 30.00 1.00 100.00
Totale 30 1.00 100.00
Ottenute così:
- Fr. A. cumulata: somma di tutti i valori in giallo.
- Fr. R. cumulata: somma di tutti i valori in verde.
- Fr. % cumulata: somma di tutti i valori in rosso.
Al di là della creazione di tabelle al fine di riassumere i dati conosciuti hanno grande valenza anche
le rappresentazioni grafiche.
Oggigiorno soprattutto sui giornali troviamo gli Infografici, questi penalizzano la qualità dei dati in
quanto se in statistica un determinato dato devo rappresentarlo con un punto, deve essere così non
posso rappresentarlo con un animaletto, un fiore o un cuoricino.
Nelle infografiche purtroppo si tende a valorizzare l’aspetto estetico penalizzando la qualità dei dati.
Gli aspetti di cui tenere conto per una efficace rappresentazione sono:
- Accuratezza
- Semplicità
- Chiarezza
- Aspetto
- Struttura
N.B. abbiamo la statistica univariata (una variabile per volta), bivariata (due variabili), multivariata
(più variabili contemporaneamente).
VARIABILE SCONNESSA
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Yj
VARIABILE ORDINALE
4.5
4
Dov’è l’errore in questo grafico?
3.5
3
L’errore sta nella disposizione dei dati.
2.5 Quando vado a rappresentare una variabile qualitativa
2 ordinale devo rispettare l’ordine nel quale si presentano
1.5 le categorie. In questo caso l’ordine corretto non sarà
1 Laurea- Diploma- Phd ma bensì Diploma-Laurea-Phd.
0.5
0
Hj
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
Hj
N.B. una cosa che si fa con il diagramma a barre è prendere ordinarlo in ordine decrescente in base
alla frequenza.
Altro grafico frequentemente utilizzato per le variabili qualitative è il diagramma a torta:
è utile per rappresentare la composizione di un aggregato.
Ciascuna fetta di torta (tecnicamente settore circolare) è associata ad una modalità del carattere.
L’ampiezza di ciascuna fetta è proporzionale alla frequenza della modalità.
L’angolo al centro gi associato all’i-esima modalità con percentuale pi è dato da:
p i∗360
pi : 100 = gi : 360 da cui gi = 100
Spesso possiamo trovare le barre riordinate dalla più grande alla più piccola in quel caso siamo di
fronte al diagramma di Pareto.
VARIABILE DI TIPO QUANTITATIVA CONTINUA:
4.5
4
La rappresentiamo con l’istogramma, costituito da barre
3.5 non distanziate, con basi non necessariamente uguali;
3 l’area di ogni barra è proporzionale alla frequenza della
2.5 modalità cui si riferisce.
2
1.5 Se il carattere è quantitativo, discreto o continuo, la
1 distribuzione di frequenza può essere ottenuta a partire
0.5 da classi di stessa ampiezza o ampiezze diverse; nel
0
Nj primo caso si avrà un istogramma a basi regolari
[150,161[ [161,172[ [172,183]
Quando passo da una distribuzione unitaria ad una classe di distribuzione ipotizzo che ci sia una
distribuzione equa (uno per tipo per intenderci).
Semplicemente l’altezza della barra deve essere proporzionale a quante osservazioni ci sono in una
classe indipendentemente dall’ampiezza di quest’ultima.
ESEMPIO 1:
Se volessi misurare la densità di persone che prende la metro:
Misuro dalle 12.30 alle 13.
Ne passano 100 in 30 min.
Se volessi misurarlo dalle 12.30 alle 14 (3 volte il tempo della prima misurazione):
Ne passano 280 in 1h e mezza.
In proporzione ne sono passate di più nel primo intervallo di tempo (ossia la prima mezz’ora) o
nell’ora successiva?
Nella prima mezz’ora. Se fosse stata una densità di frequenza uguale mi sarei dovuto aspettare 300
persone.
ESEMPIO 2:
Numero di vendite osservato dal numero di utenti entrati nell’ultimo giorno in un sito e-commerce
(A e B):
Osservando questo grafico diremmo che il numero di utenti
entrati nel sito A è quasi il triplo rispetto a B.
Ma se osserviamo alla base non c’è nessun numero di
riferimento, non c’è scritto che si parte da 0.
ESEMPIO 3:
Analizziamo:
Da 2 anni fa a quest’anno abbiamo perso il 40%, quindi sono passato da un fatturato di 100 a 60.
Poi dall’anno scorso a quest’anno ho recuperato il 50%, il quale fa riferimento ai 60 guadagnati,
non ai 100 di due anni fa. Ma sto perdendo ugualmente 10%.
Se invece del PIL pro capite andiamo a prendere il logaritmo del PIL pro capite semplicemente
perché ci sono molti paesi con un Pil pro capite molto basso e pochi paesi con un PIL molto alto
(America, Stati Uniti) che renderebbero la distribuzione asimmetrica.
Se utilizzo altre caratteristiche del grafico posso mappare altre variabili sul mio grafico e
aggiungere informazioni come nel grafico seguente (preso da internet perché queste slide mancano).
Man mano aggiungo sempre nuove variabili così da rendere
sempre più precisi i miei dati…
Osserviamo l’andamento di attesa di vita media nel corso degli anni. Per ogni anno ho calcolato
l’attesa di vita media e l’ho riportata. Invece di utilizzare lo scatter plot (ossia una nuvola di punti)
ho utilizzato un grafico differente (esempio, manca quello suo):
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
BOX PLOT:
[Ossia grafico a scatola]
Il boxplot è un grafico statistico che si utilizza per
variabili quantitative.
E’ molto utile per capire se la distribuzione è simmetrica
oppure asimmetrica e per confrontare la forma di più
distribuzioni. Ma soprattutto ti permette di identificare in
modo rapido e preciso valori anomali e outliers.
ESEMPIO:
[attesa di vita]
M
Il secondo grafico è simmetrico e molto più
E variabile rispetto al primo (guarda box plot)
D
I
A Nella classe che contiene la media ci sono tante
persone che seppur scostandosi dalla media si
eguagliano dando comunque una media uguale.
Per questo motivo vado ad osservare altre
variabili/informazioni.
M
E Il terzo grafico è asimmetrico (guarda box plot)
D
I
A
INDICI SINTETICI: ci danno informazioni sulla caratteristica di una distribuzione di una variabile.
Esempio: se ho la distribuzione dell’altezza su 100 persone; immaginiamo che un indice di sintesi è
la media aritmetica. La media aritmetica per sapere l’altezza media di queste persone è 170 cm.
Immaginiamo abbia due insiemi di persone 100 e 100.
Un gruppo con un’altezza di 170 cm; nell’altro gruppo l’altezza media è sempre 170 cm ma ci sono
15 bambini di 5 anni e 15 giocatori di basket.
Risulta essere più rappresentativa la media del primo gruppo o quella del secondo gruppo?
Quella del primo perché il secondo gruppo presenta una variabilità maggiore perché ci sono sia
bambini che giocatori di basket.
Il primo aspetto rappresenta gli indici di tendenza centrale o posizione ossia dei valori che danno
una misura del centro della distribuzione (media aritmetica e la mediana).
La seconda caratteristica è la variabilità ossia l’attitudine di un carattere statistico ad assumere
modalità differenti.