Sei sulla pagina 1di 25

La STATISTICA la disciplina che comprende le tecniche adatte alla raccolta e allelaborazione dei dati e che consente di trarre da essi

i delle informazioni

strumento di lavoro indispensabile in tutti i campi di studio in cui sia necessaria una valutazione critica dei dati
3

Esempi fuorvianti
il prodotto X particolarmente efficace contro il raffreddore; infatti su 100 pazienti trattati, ben 95, ovvero il 95% dei casi, hanno mostrato completa remissione della malattia entro una settimana di cura AFFERMAZIONE PRIVA DI SIGNIFICATO di solito (nel 95% dei casi) in una settimana il raffreddore passa anche senza trattamento
4

Esempi fuorvianti
il 75% delle persone intervistate si dichiarato favorevole al partito politico Y INFORMAZIONE NON ATTENDIBILE non viene indicata n la dimensione n la composizione del campione
(se si tratta di 4 persone, di cui 3 favorevoli e 1 contraria, non ha senso utilizzare questo dato ai fini di una previsione)
5

Metodologia statistica nellapplicazione del metodo scientifico


la conduzione di una indagine scientifica (o ESPERIMENTO) un percorso di ricerca scientifica articolabile in quattro fasi: definizione del problema ? formulazione di unipotesi per via induttiva ? verifica deduttiva dellipotesi mediante un esperimento ? analisi dei dati
?
6

Metodologia statistica nellapplicazione del metodo scientifico


1.

2.

3.

il rilevamento dei dati deve essere fatto sulla base di criteri precisi, che consentano di ottenere informazioni pertinenti circa il problema in studio i dati grezzi non sono, di solito, suscettibili di uninterpretazione diretta, ma necessario ridurre le osservazioni in forma sintetica e poi procedere allelaborazione i risultati dellelaborazione consentiranno di prendere una decisione quanto pi possibile obiettiva circa lipotesi formulata
7

Organizzazione dellesperimento
?

quali e quanti dati raccogliere raccolta dati accorgimenti tecnici che permettono ottenere risultati accettabili di

Esempio
Analisi del livello dinquinamento dei laghi di una regione ? indicazione geografica del campione ? il periodo o la data, lorigine del lago e le sue dimensioni, la profondit del lago e dove stato prelevato il campione, le portate in entrata e in uscita, le caratteristiche del bacino

Lanalisi finalizzata a conoscere quanto avviene nella popolazione, cio nellinsieme dei laghi, al variare delle condizioni ambientali e temporali
9

Rilevazione dei dati


?

Tipi di rilevazione (a seconda del metodo)


- possibile controllare le condizioni sotto le quali si svolge losservazione (es. sperimentazione di un farmaco) ? osservazionale si osserva la realt senza possibilit di modificarla (es. censimento ISTAT)
? sperimentale

Strumenti di rilevazione di dati


? questionario ? esperimento ? utilizzo

di info contenute in banche dati


10

Qualit dei dati

Errori di misurazione
? errori

casuali ? errori sistematici ? sviste

11

Errori casuali
errori che possono avvenire, con la stessa probabilit, sia in difetto che in eccesso alcune possibili fonti:
? variazione

del tempo di reazione da un soggetto ad un altro (e anche per lo stesso soggetto in situazioni diverse) ? errori di lettura di indici dovuti, ad es., ad un non perfetto allineamento tra l'osservatore e la scala graduata o imputabili ad una interpolazione errata ? semplici fluttuazioni del sistema in esame attribuibili 12 per esempio a degli sbalzi termici

Errori sistematici
incertezze sperimentali che non possono essere individuate attraverso la ripetizione delle misure alcune possibili fonti:
? difetto

dello strumento usato (es. sbagliata taratura dello strumento) ? interazione strumento sperimentatore ? errate condizioni di lavoro (situazioni in cui la taratura originale dello strumento viene meno)
13

Sviste
alcune possibili fonti:
? errori

sulla lettura dello strumento ? errori sulla trascrizione di dati ? errori dovuti a problemi di trasmissione dati ?

14

Errore Assoluto Errore Relativo


X valore esatto X valore approssimato Errore Assoluto = ?a = ? X? X? Errore Relativo = ?r = ? X? X? ?? X? errore misurato rispetto allordine di grandezza del dato. Errore percentuale (adimensionale).
15

errore misurato nella stessa unit di misura del campione

Errore Assoluto Errore Relativo (esempio)


Velocit della luce = c = 299792458.875 m/sec c = 299790000 m/sec ?a(c) = | 299792458.875 - 299790 | = 2458.875 ? = 3.14159265358979 ? = 3.14 ?a(? ) = | 3.14159265358979.. 3.14 | = 0.00159263

?r(c) = ?a(c ) /c ? 0.000008 ?r(? ) = ?a(? ) /? ? 0.0005 /?


16

Notazione scientifica
?

velocit della luce = 299792458.875 m/sec = 2.99792458875 x 108 m/sec ? 3 x 108 m/sec ? = 3.14159265358979 = = 3.14159265358979 x 100 ? 3.14 x 100 massa della terra ? 5.98 x 1024 kg

17

Ordine di grandezza
(*)

Ordine di grandezza di un numero x: x = ? ? ?10n con ? ? [1,10) (notazione esponenziale in base 10) x ha ordine di grandezza 10n e si scrive x = O(10n)
234 = 2.34? 102 = -234.567 = -2.34567 ? 2 -0.765 = -7.65 ? -1 10 10 = O(10 -1 ) O(102) = O(102)
(*) http://www.science.unitn.it/~fisica1/fisica1/appunti/mecc/appunti/introduzione/lunghezze.htm

18

Rappresentazione errori
x ? ? x ? x ? ?x ? ? x, x ? ? x?
Lerrore ?x rappresenta lampiezza dellintervallo entro il quale si trova il valore vero della quantit misurata

19

Rappresentazione errori
Esempio Temperatura corporea rilevata su 10 soggetti utilizzando un termometro digitale con le seguenti specifiche tecniche: - Campo di misurazione da 32C a 43.9C. - Precisione di 0.1C tra i 34C e i 42C ad una temperatura di misurazione ambientale dai 18C ai 28C. soggetto 1 2 3 4 5 6 7 8 9 10 C 36.2 36.5 36.8 36.4 36.7 36.8 36.5 36.4 37.0 36.1 intervallo di variabilit 36.1-36.3 36.4-36.6 36.7-36.9 36.3-36.5 36.6-36.8 36.7-36.9 36.4-36.6 36.3-36.5 36.9-37.1 36.0-36.2
37.2 37 temperatura (C) 36.8 36.6 36.4 36.2 36 35.8 0 1 2 3 4 5 sogetto 6 7 8 9 10

20

Rappresentazione errori
Esempio Volume di una pagnottella di pane al variare del tempo
Tempo (min)
0 5 10 15 20 25 30 45 60 75 90 105 120 135 150 165 180 195 210 225 240 255 270 285 300 volume 38.51 39.58 43.83 52.90 63.94 76.16 87.33 111.49 128.54 138.77 133.41 132.00 134.22 133.81 136.18 134.50 138.13 139.75 140.41 138.77 135.48 131.33 124.62 121.88 118.68 errore 7.12 7.86 10.04 15.00 16.68 17.91 17.60 27.74 28.70 20.74 10.83 15.16 12.43 11.20 13.64 12.67 10.93 8.86 6.58 11.79 13.41 12.92 14.54 11.09 10.08

180.00 160.00 140.00 120.00 volume 100.00 80.00 60.00 40.00 20.00 0.00 0 50 100 150 tempo (min) 200 250 300

21

Metodologia statistica nellapplicazione del metodo scientifico


1.

2.

3.

il rilevamento dei dati deve essere fatto sulla base di criteri precisi, che consentano di ottenere informazioni pertinenti circa il problema in studio i dati grezzi non sono, di solito, suscettibili di uninterpretazione diretta, ma necessario ridurre le osservazioni in forma sintetica e poi procedere allelaborazione i risultati dellelaborazione consentiranno di prendere una decisione quanto pi possibile obiettiva circa lipotesi formulata
22

10

Definizioni
insieme collezione di qualsiasi tipo di oggetti (individui, animali, piante, fenomeni, risposte, ) che presentino almeno una caratteristica comune ? variabile (carattere) caratteristica che pu assumere diversi valori, i quali costituiscono un insieme ? modalit modo di manifestarsi di una variabile
?

(es. sesso: M o F; peso: 65Kg., 82 Kg.)


24

Tipi di dati
?

QUALITATIVI le osservazioni possono essere classificate in base alla modalit con cui si presentano (es. sesso, regione di provenienza, colore del
mantello di un animale, forma della foglia di una pianta)

QUANTITATIVI le modalit sono espresse con valori numerici


? DISCRETI (es. numero di colonie batteriche su una piastra) ? CONTINUI (es. peso, altezza)
25

11

Rappresentazione dei dati

Rappresentazione dei dati


? Tabelle ? Grafici (diagrammi, istogrammi, torte,) ? Funzioni (relazioni funzionali fra grandezze. es. E=Mc2)

Analisi dei dati


? Visiva ? Grafica ? Funzionale
37

12

Una tabella consente di rappresentare informazioni di vario genere, in maniera sintetica e schematica.
Non necessariamente tali informazioni dovranno essere elaborate: la semplice rappresentazione delle informazioni un importante problema niente affatto banale!

Stazione di Cambio Partenza Arrivo Stazione Arrivo Treni Durata

18:20 19:21

18:52 19:57

00:32

NA C.LE NA C.LE

19:50 19:50

00:36

19:37

20:20

00:43

20:29

21:00

00:31 38

Variabile indipendente

Variabili dipendenti

giorno 0 1 2 3 4 5 6

Numero batteri Misura media Numero batteri Misura media di tipo A batteri tipo A di tipo B batteri tipo B 100000 654.7 12000 334 182000 754.4 20000 234 1004560 180 100000 56 200000 345.5 19500 100 24000 518.7 2000 120 18000 987.07 1500 256 16789 990 1400 350

Una tabella consente di rappresentare agevolmente dati multidimensionali. Mediante appositi programmi (ad es. Excel), dati rappresentati in forma di tabella possono essere elaborati in numerose e differenti maniere. Dalla tabella comunque gi possibile dedurre delle informazioni generali. Ad es. Qual landamento di crescita per le due popolazioni? Gli andamenti sono analoghi? E possibile individuare una dipendenza fra dimensione e numero di batteri? E possibile immaginare landamento futuro delle due popolazioni? 39

13

Lanalisi grafica dei dati


I grafici si scindono in due tipologie:
?

rappresentazioni dei dati grezzi: quella pi semplice quella sul piano cartesiano (grafico XY o a dispersione o scatterplot) rappresentazioni delle frequenze (assolute o relative) qui troviamo: diagrammi con rettangoli distanziati, diagrammi circolari, diagrammi con bastoncini, istogrammi

40

Diagrammi a dispersione scatterplot

41

14

Diagrammi con rettangoli distanziati


Laltezza del rettangolo proporzionale alla frequenza delli-esima modalit rappresentata.

42

Diagrammi con rettangoli


Famiglie povere per caratteristiche della famiglia Anno 1998 (ISTAT)
1998 TIPOLOGIE FAMILIARI Numero (migliaia) 98 127 738 420 521 252 190 851 2,557 Incidenza Incidence 4.8 5.6 14.8 9.5 13.4 23.6 11.7 13.9 11.8

Incidenza della povert per caratteristiche della famiglia Anno 1998 (ISTAT)

Persona sola < 65 anni di et Coppia,capofam. < 65 anni di et Sola e coppia con capofam > di 65 Coppia con 1 figlio Coppia con 2 figli Coppia con 3 o pi figli Monogenitore Famiglie con almeno un figlio minore TOTALE

Famiglie con almeno un figlio minore Monogenitore Coppia con 3 o pi figli Coppia con 2 figli Coppia con 1 figlio Sola e coppia con capofam > di 65 Coppia,capofam. < 65 anni di et Persona sola < 65 anni di et
0.0 5.0 10.0 15.0 20.0 25.0

Migliore percezione dellinformazione

43

15

Diagrammi con rettangoli


Popolazione per sesso e condizione anno 1999 (%)
Condizione Occupati In cerca di occup. Non FF.LL. et lav. Non FF.LL. et non lav. TOTALE Maschi Femmine 47.4 4.6 18.7 29.3 100 25.7 4.8 36.1 33.4 100

Popolazione per sesso e condizione anno 1999 (%)


Non FF.LL. et non lav.

Non FF.LL. et lav.

Femmine
In cerca di occup.

Maschi

Fonte: Istat, Rapporto sull'Italia edizione 2001, il Mulino

Occupati

10

15

20

25 condizione

30

35

40

45

50

Migliore percezione dellinformazione


44

Diagrammi con rettangoli


Forze lavoro per sesso e condizione anno 1999 (migliaia)
Condizione Occupati disoccupati in cerca di 1a occup. altri TOTALE Maschi 13090 588 607 118 14403 Femmine 7345 408 545 478 8776
16000 14000 12000 10000 8000 6000 4000 2000 0 Maschi Femmine
14000

Forze lavoro per sesso e condizione anno 1999 (migliaia)

12000

10000

8000

Maschi Femmine

6000

4000 2000

Occupati

disoccupati

in cerca di 1a occup.

altri

Fonte: Istat, Rapporto sull'Italia edizione 2001, il Mulino

altri in cerca di 1a occup. disoccupati Occupati

45

16

Diagrammi circolari
Larea (quindi gli angoli al centro) proporzionale alla frequenza delli-esima modalit rappresentata

46

Diagrammi circolari
Forze lavoro per condizione anno 1999 (migliaia) Forze lavoro per condizione anno 1999 (migliaia)
Condizione Occupati disoccupati in cerca di 1a occup. altri TOTALE
Fonte: Istat, Rapporto sull'Italia edizione 2001, il Mulino
25000 20000

TOTALE 20435 996 1152 596 23179

15000

10000

5000

0 Occupati disoccupati in cerca di 1a occup. altri

in cerca di 1a occup. disoccupati

altri

? ? 360 ? ?

nj N
47

Occupati

17

Diagrammi con bastoncini


Laltezza del bastoncino proporzionale alla frequenza delli-esima modalit rappresentata.

48

Diagrammi con bastoncini


Famiglie per numero di componenti. Italia 1998 (v.a e %)
Componenti 1 2 3 4 5 6 e pi Totale v.a. 4594130 5527810 4954870 4466810 1294420 381960 21220000 % 21.65 26.05 23.35 21.05 6.1 1.8 100
%
30

Famiglie per numero di componenti. Italia 1998 ( freq. rel. %)


25

20

15

10

0 0 1 2 3 4 5 6 7

Fonte: Istat, Rapporto sull'Italia edizione 2001, il Mulino

n. componenti

49

18

Istogramma
Larea del rettangolo proporzionale alla frequenza delliesima classe da rappresentare.

51

Rappresentazione Grafica Dei Dati (Istogrammi)


Altezza misurata in centimetri di un campione di 50 individui (campo di variazione: 155 185) Classi 155-161 161-167 167-173 173-179 179-185
25 20 frequenze 15 10 5 0 155-161 161-167 167-173 173-179 179-185
52

Valore centrale 158 164 170 176 182

fi 3 8 20 12 7

19

Utilizzo dei diagrammi


variabili qualitative variabili quantitative Nominali Ordinali Discrete Continue Dispersione Circolare Rettangoli Bastoncini Istogramma x x x x x(biv) x x x x
53

x(biv)

Scalatura dei dati


trasformazioni lineari ? scalatura normalizzata ? trasformazioni logaritmiche
?

54

20

Trasformazioni lineari
?

Cambiamento di origine
1200000 1000000

y? y? a

giorno 0 1 2 3 4 5 6

N. BatteriN. Batteri+100000 100000 200000 182000 282000 1004560 1104560 200000 300000 24000 124000 18000 118000 16789 116789

800000 600000 400000 200000 0 0 2 4 6 8

n. batteri n. batteri +100000

55

Trasformazioni lineari
?

Cambiamento di scala
2000000 1800000 1600000

y ? ay

giorno 0 1 2 3 4 5 6

N. Batteri N. Batteri x2 100000 200000 182000 364000 1004560 2009120 200000 400000 24000 48000 18000 36000 16789 33578

1400000 1200000 1000000 800000 600000 400000 200000 0 0 2 4 6 8

n. batteri n. batteri x 2

56

21

Scalatura normalizzata
?

yi- yi-1 ? i-ma Variazione relativa ( yi- yi-1 )/ yi-1


i-ma Variazione assoluta (la variazione normalizzata e quindi non dipende dallordine di grandezza dei valori considerati; la variazione quindi espressa in percentuale rispetto a yi )

57

Scalatura normalizzata
giorno 0 1 2 3 4 5 6 N. Batteri 100000 182000 1004560 200000 24000 18000 16789 Var. ass. Var. rel 0 0 82000 0.8200 822560 4.5196 -804560 -0.8009 -176000 -0.8800 -6000 -0.2500 -1211 -0.0673
Crescita Batterica
1200000 1000000 Batteri 800000 600000 400000 200000 0 0 1 2 3 4 5 6 7
N. Batteri

Giorno

variazione assoluta
1000000 500000 0 0 -500000 -1000000 1 2 3 4 5 6 7

Variazione relativa
5 4 3 2 1 0 -1 0 -2 1 2 3 4 5 6 7

58

22

Si supponga di voler confrontare la variazione nel tempo di due popolazioni di batteri (A e B).
giorno 0 1 2 3 4 5 6 Batteri A Var. ass. Var. rel Batteri B Var. ass. Var. rel. 100000 0 0 12000 0 0 182000 82000 0,8200 20000 8000 0,6667 1004560 822560 4,5196 100000 80000 4,0000 200000 -804560 -0,8009 19500 -80500 -0,8050 24000 -176000 -0,8800 2000 -17500 -0,8974 18000 -6000 -0,2500 1500 -500 -0,2500 16789 -1211 -0,0673 1400 -100 -0,0667

Confronto variazioni assolute


1000000 800000 600000 400000 200000 0 -200000 0 -400000 -600000 -800000 -1000000 1 2 3 4 5 6 7

Confronto variazioni relative


5 4 3 2 1 0 -1 -2 0 1 2 3 4 5 6 7

Il secondo grafico molto pi significativo del primo!!


59

Scalatura normalizzata
Tempo (min)
0 5 10 15 20 25 30 45 60 75 90 105 120 135 150 165 180 195 210 225 240 255 270

volume
2g 32.85 32.42 33.22 33.11 34.96 35.24 37.00 45.04 60.21 80.36 95.05 108.75 116.66 123.25 126.85 128.76 128.83 131.93 128.18 129.54 127.83 127.60 123.41 3g 33.78 32.58 33.37 37.25 43.04 47.57 55.26 78.62 94.50 110.20 119.85 122.88 123.92 128.74 130.33 130.23 131.43 128.84 124.96 122.09 123.37 120.33 114.54 4g 34.705 33.501 34.515 36.920 40.960 46.241 57.375 83.422 105.886 123.709 125.594 127.819 126.932 130.235 131.889 133.153 129.016 126.920 128.844 123.217 118.946 127.632 124.241

130.00 110.00 volume 90.00 70.00 50.00 30.00 0 50 100 150 200 250 300 tempo (min) 2g 3g 4g

60

23

Scalatura normalizzata
60.00 55.00 50.00 volume 45.00 40.00 35.00 30.00 0 5 10 15 tempo (min) 20 25 30 2g 3g 4g

38.00 37.00 36.00 volume 35.00 34.00 33.00 32.00 0 5 tempo (min) 10 15 2g 3g 4g

61

Scalatura normalizzata
Tempo (min)
0 5 10 15 20 25 30 45 60 75 90 105 120 135 150 165 180 195 210 225 240 255 270

volume
2g 1.0 1.0 1.0 1.0 1.1 1.1 1.1 1.4 1.8 2.4 2.9 3.3 3.6 3.8 3.9 3.9 3.9 4.0 3.9 3.9 3.9 3.9 3.8 3g 1.0 1.0 1.0 1.1 1.3 1.4 1.6 2.3 2.8 3.3 3.5 3.6 3.7 3.8 3.9 3.9 3.9 3.8 3.7 3.6 3.7 3.6 3.4 4g 1.0 1.0 1.0 1.1 1.2 1.3 1.7 2.4 3.1 3.6 3.6 3.7 3.7 3.8 3.8 3.8 3.7 3.7 3.7 3.6 3.4 3.7 3.6

1.1 1.1 1.1 1.1 volume 1.0 1.0 1.0 1.0 1.0 0.9 0 5 tempo (min) 10 15 2g 3g 4g

62

24

Trasformazioni logaritmiche
?

Scala semilogaritmica Scala logaritmica

y ? log x ? log y ? log

10

y x y

10

10

63

giorno 0 1 2 3 4 5 6

N. Batteri 100000 182000 1004560 200000 24000 18000 16789

Crescita Batterica
1200000 1000000 Batteri 800000 600000 400000 200000 0 0 1 2 3 4 5 6 7
N. Batteri

Giorno

giorno 0 1 2 3 4 5 6

log (N. Batteri) 5 5,260 6,002 5,301 4,380 4,255 4,225

Crescita Batterica
6 log(Batteri) 5.5 5 4.5 4 0 1 2 3 4 5 6 7 Giorno

log(N. 64 Batteri)

25