Sei sulla pagina 1di 28

Università degli Studi di Messina

Corso di Laurea in CTF

Elementi di Statistica

Docente: A. Tripodi
e-mail: tripodi@dipmat.unime.it

Anno accademico 2019/2020


Cosa è la Statistica?

La statistica è un complesso di metodi per


lo studio di fenomeni atipici considerati in un
collettivo di casi.

Un fenomeno atipico è un fenomeno che non si


manifesta con le stesse caratteristiche in ogni
circostanza in cui lo si osservi.

Fenomeno statistico: l’oggetto dell’indagine


statistica

Popolazione (statistica): l’insieme dei casi


da osservare

Unità statistica: il singolo elemento della po-


polazione

Esempio: studio della statura (fenomeno stati-


stico) in un gruppo di ragazzi (popolazione).

La finalità della statistica è quella di far emer-


gere le regolarità presenti anche nei fenomeni
atipici ma che non sono subito evidenti.
1
Fasi dell’indagine statistica

Rilevazione: acquisizione dei dati, ovvero del-


le informazioni sulle caratteristiche (caratteri
o variabili) che interessano per ciascuna unità
statistica. La rilevazione può essere effettuata
sull’intera popolazione (rilevazione totale), o
su un campione (rilevazione parziale)

Elaborazione: complesso di operazioni attra-


verso cui i dati rilevati vengono trasformati in
dati più sintetici ed espressivi

Presentazione: esposizione dei dati sintetiz-


zati attraverso tabelle, rappresentazioni grafi-
che, ...

Interpretazione: spiegazione dei risultati del-


l’indagine alla luce di considerazioni teoriche o
di altre indagini collegate
2
Ambiti della statistica e loro interazioni

Statistica Descrittiva: descrive i dati osser-


vati, prescindendo sia da un qualsiasi modello
probabilistico che descriva il fenomeno in esa-
me sia dal fatto che i dati siano stati rilevati
su un campione o sull’intera popolazione

Statistica Inferenziale: estende i risultati ot-


tenuti sul campione all’intera popolazione uti-
lizzando la probabilità

Probabilità: l’insieme dei metodi e dei cal-


coli per esprimere quantitativamente il nostro
grado di fiducia sul fatto che certi eventi si
verificheranno

Statistica Descrittiva + Probabilità

Statistica Inferenziale
3
Modalità di una variabile

Ogni variabile può assumere diverse modalità

Esempio: in una classe di studenti le modalità


del “voto in fisica” sono gli interi da 1 a 10.

Una variabile è:


• quantitativa se le sue modalità sono nume-
riche (es. l’età, la statura, il peso, in un
collettivo di ragazzi);
• qualitativa se le sue modalità sono non nu-
meriche (es. il sesso, il colore degli occhi
degli stessi ragazzi)

Una variabile quantitativa è:


• discreta se l’insieme dei valori che essa può
assumere è finito o numerabile (es. voto);
• continua se l’insieme dei valori che essa può
assumere è R o un suo intervallo (es. la
statura).

4
Frequenza di una modalità

Il modo in cui si dispongono le modalità di una


variabile costituisce una distribuzione statistica
semplice.

La frequenza assoluta di una modalità è il


numero di volte in cui tale modalità compare
nel collettivo osservato.

La frequenza relativa di una modalità è il rap-


porto tra la sua frequenza assoluta e il nume-
ro di unità statistiche del collettivo osservato.
La frequenza relativa espressa in percentuale è
detta anche frequenza percentuale.

Una distribuzione di frequenze è l’insieme delle


coppie ordinate in cui il primo elemento è una
modalità e il secondo è la sua frequenza.

Una tabella di dati rappresenta una distribuzio-


ne di frequenze; se riguarda una sola variabile,
essa è una distribuzione di frequenze semplice.
5
Esempio: voti riportati in matematica dagli
studenti delle classi terze di una scuola

voto fr. assol. fr. relat. fr. percent.


1 0 0 0.00
2 0 0 0.00
3 10 0.0336 3.36
4 25 0.0839 8.39
5 34 0.1141 11.41
6 136 0.4564 45.64
7 68 0.2282 22.82
8 22 0.0738 7.38
9 3 0.0101 1.01
10 0 0 0.00
totale 298 1 100.01

Osservazione:

• la somma delle frequenze assolute è uguale


al numero delle unità statistiche
• la somma delle frequenze relative è 1
• la somma delle frequenze percentuali è 100%

6
Frequenza cumulata di una modalità

La frequenza cumulata di una modalità xi è


il numero di unità statistiche che presentano
modalità minore o uguale a xi.

Osservazione: La frequenza cumulata di una


modalità xi è la somma delle frequenze delle
modalità minori o uguali a xi.

Aggregando i dati per classi, ciascuna conte-


nente quelli minori o uguali a una modalità xi,
si ottiene una distribuzione cumulata.

Osservazione: ci sono molti modi per raggrup-


pare i dati (vedi esempio). Se le classi hanno
ampiezze diverse allora per poterle confrontare
si introduce la
f requenza
densità di frequenza= ampiezza

classi di età 1-10 11-20 21-25 26-45


n◦ partecipanti
20 90 35 90
a un viaggio
ampiezza 10 10 5 20
densità di frequenza 2 9 7 4.5
7
Rappresentazioni grafiche

Per presentare i dati statistici, in alternativa al-


le tabelle si possono utilizzare rappresentazioni
grafiche.

Diagramma cartesiano: si rappresentano sul-


l’asse delle ascisse le modalità e su quello delle
ordinate le frequenze

Diagramma di aree (o istogramma): è mol-


to usato per rappresentare dati raggruppati in
classi e consiste in un insieme di rettangoli
aventi basi uguali alle ampiezze delle classi e
aree proporzionali alle frequenze (ogni rettan-
golo ha come altezza la densità di frequenza
della relativa classe)

Diagramma circolare (o a torta): le frequen-


ze percentuali sono rappresentate da settori
circolari aventi ampiezze è proporzionali alle
frequenze stesse
8
Indici di posizione

Media aritmetica semplice: è il rapporto tra


la somma di tutte le modalità xi della variabile
e il numero n delle unità

x + x2 + · · · + xn
µ= 1
n

Media aritmetica ponderata: è il rapporto


tra la somma di tutte le modalità xi della va-
riabile, ciascuna moltiplicata per la rispettiva
frequenza ai, e la somma delle frequenze

x1 · a1 + x2 · a2 + · · · + xk · ak
µ=
a1 + a2 + · · · + ak

Moda: è la modalità di maggiore frequenza e


si denota con Mo

Osservazione: la moda può non esistere o non


essere unica
9
Mediana: è la modalità che separa in due in-
siemi di uguale numerosità una distribuzione
ordinata e si denota con Me

Osservazione: se il numero delle modalità è di-


spari la mediana è la modalità che occupa la
posizione centrale, altrimenti è la media arit-
metica dei due termini centrali

Esempio: voti in matematica degli studenti di


una classe
voto 1 2 3 4 5 6 7 8 9 10
n◦ studenti 0 0 3 5 2 8 5 1 1 0

µ = 5.56, Mo=6, Me = 6 (la modalità relativa


al 13◦ voto)

Media, moda e mediana sono detti indici di po-


sizione o di tendenza centrale perché descrivo-
no attorno a quale valore è centrato l’insieme
dei dati.
10
Indici di dispersione

Varianza: è la media aritmetica dei quadrati


degli scarti della media

2 (x1 − µ)2 + (x2 − µ)2 + · · · + (xn − µ)2


σ =
n

Scarto quadratico medio (o deviazione stan-


dard): è la radice quadrata della varianza e si
denota con σ

Valgono le relazioni:

σ 2(X) = µ(X 2) − (µ(X))2,


q
σ(X) = µ(X 2) − (µ(X))2.

dove X è la variabile e X 2 è la variabile i cui


valori sono i quadrati delle modalità di X.
11
Esempio: prezzi in euro di un caffè in 6 locali
di altrettante capitali europee

città A B C D E F
prezzo 0.60 0.85 1.00 0.75 1.50 2.15

µ(X) = 1.14, (µ(X))2 = 1.2996,

città A B C D E F
prezzo2 0.36 0.7225 1.00 0.5625 2.25 4.6225

µ(X 2) = 1.5862

σ 2 = 1.5862 − 1.2996 = 0.2866,



σ = 0.2866 = 0.5354

Varianza e scarto quadratico medio sono det-


ti indici di dispersione o di variabilità perché
misurano la dispersione dei dati attorno alla
media.
12
Correlazione tra due variabili

Spesso nell’indagine statistica si osservano più


variabili su una medesima popolazione.

Quando si studiano due sole variabili si parla


di distribuzione statistica congiunta.

Una distribuzione congiunta di due variabili X


e Y si rappresenta con una tabella a doppia
entrata che contiene le frequenze congiunte.

Frequenza congiunta: numero di unità che


presentano la modalità xi di X e la modalità yi
di Y

voti in italiano
voti in
matematica 3 4 5 6 7 8 9 tot

3 7 3 2 12
4 1 13 10 13 1 38
5 2 5 12 9 5 2 35
6 3 7 90 14 3 117
7 1 2 15 42 7 67
8 1 9 5 9 2 26
9 1 1 1 3
totali 10 25 34 136 68 22 3 298
Distribuzioni condizionate e marginali

Da una tabella di distribuzione congiunta si


possono estrarre delle distribuzioni semplici “fis-
sando” una riga o colonna o considerando i
totali di riga o di colonna.

Distribuzione condizionata: è la distribuzio-


ne che si ottiene fissando una modalià per una
delle due variabili e considerando le frequenze
associate alle modalità dell’altra variabile

Osservazione: una distribuzione condizionata


è la distribuzione dei dati di una riga o colonna

Distribuzione marginale: è la distribuzione


che si ottiene considerando le frequenze asso-
ciate a una sola delle due variabili, indipenden-
temente dall’altra

Osservazione: una distribuzione marginale è la


distribuzione dei totali di riga o di colonna
14
Esempio: distribuzione congiunta relativa al-
la classe di iscrizione in un liceo e alla lingua
straniera studiata

lingua straniera studiata


classe di
iscrizione inglese francese tedesco spagnolo tot

I 102 45 37 15 199
II 114 53 19 10 196
III 98 41 18 13 170
IV 85 44 26 9 164
V 88 37 21 11 157
totali 487 220 121 58 886

• La distribuzione condizionata ai soli studenti iscritti


alla classe terza è quella corrispondente alla terza
riga

• La distribuzione condizionata ai soli studenti che


studiano tedesco è quella corrispondente alla terza
colonna

• La distribuzione dei totali per riga è la distribuzione


marginale relativa alla variabile “classe di iscrizione”

• La distribuzione dei totali per colonna è la distri-


buzione marginale relativa alla variabile “lingua stra-
niera studiata”
15
Dalla precedente tabella si possono derivare
diverse tabelle di frequenze relative

Tabella delle frequenze relative (in perc.) globali ?

frequenze
inglese francese tedesco spagnolo
marginali
I 11.5% 5.1% 4.2% 1.7% 22.5%
II 12.9% 6.0% 2.1% 1.1% 19.2%
III 11.1% 4.6% 2.0% 1.5% 19.2%
IV 9.6% 5.0% 2.9% 1.0% 18.5%
V 9.9% 4.2% 2.4% 1.2% 177.7%
frequenze
55.0% 24.9% 13.6% 6.5% 100.0%
marginali

? ottenuta dividendo ogni dato per il totale degli alunni

Tabella delle frequenze relative per riga †

inglese francese tedesco spagnolo totali

I 51.3% 22.6% 18.6% 7.5% 100%


II 58.2% 27.0% 9.7% 5.1% 100%
III 57.6% 24.1% 10.6% 7.6% 99.9%
IV 51.8% 26.8% 15.9% 5.5% 100%
V 56.1% 23.6% 13.4% 7.0% 100.1%
frequenze
55.0% 24.9% 13.6% 6.5% 100%
marginali

† ottenuta dividendo ogni dato per il totale della riga


Indipendenza statistica

Una variabile X è in assoluto indipendente


da una variabile Y se per ogni modalità xi di
X le frequenze relative delle modalità yi di Y
sono uguali.

Osservazione: se X è in assoluto indipenden-


te da Y allora le distribuzioni condizionate di
X hanno tutte la stessa distribuzione di fre-
quenze relative, coincidente anche con quella
marginale

frequenze
y1 y2 y3
marginali X è
x1 25% 25% 25% 25% in assoluto
x2 35% 35% 35% 35% indipendente
x3 40% 40% 40% 40% da Y
totali 100% 100% 100% 100%

frequenze
y1 y2 y3
marginali
x1 20% 25% 30% 28% X non è
x2 45% 40% 30% 45% indipendente
x3 35% 35% 40% 37% da Y
totali 100% 100% 100% 100%
L’indice chi quadrato

Il grado di dipendenza statistica tra due varia-


bili può essere misurato dall’indice

2 P (oij −aij )2
χ = i,j aij chi quadrato

dove

• oij sono le frequenze osservate

• aij sono le frequenze teoriche attese


(totale di riga i) · (totale di colonna j )
aij =
totale generale

• le differenze cij = oij − aij sono chiamate


contigenze

χ2 misura la distanza di una distribuzione os-


servata da quella teorica nel caso di indipen-
denza assoluta.

Nel caso di indipendenza assoluta χ2 = 0.


18
Esempio: dipendenza della var. “voto in mate-
matica” dalla var. “classe frequentata”

Tabella delle frequenze osservate


oij III A III B III C III D totali

3 1 3 4 1 9
4 6 4 5 3 18
5 3 2 3 4 12
6 10 13 9 14 46
7 5 4 5 2 16
8 1 1 0 2 4
totali 26 27 26 26 105

Tabella delle frequenze teoriche attese


aij III A III B III C III D totali

3 2.2 2.3 2.2 2.2 9


4 4.5 4.6 4.5 4.5 18
5 3.0 3.1 3.0 3.0 12
6 11.4 11.8 11.4 11.4 46
7 4.0 4.1 4.0 4.0 16
8 1.0 1.0 1.0 1.0 4
totali 26 27 26 26 105
19
Tabella delle contingenze
cij III A III B III C III D totali

3 -1.2 0.7 1.8 -1.2 0


4 1.5 -0.6 0.5 -1.5 0
5 0.0 -1.1 0.0 1.0 0
6 -1.4 1.2 -2.4 2.6 0
7 1.0 -0.1 1.0 -2.0 0
8 0.0 0.0 -1.0 1.0 0
totali 0 0 0 0

Tabella dei valori c2ij / aij

c2ij / aij III A III B III C III D

3 0.68 0.20 1.41 0.68


4 0.53 0.09 0.07 0.48
5 0.00 0.38 0.00 0.36
6 0.17 0.12 0.50 0.60
7 0.27 0.00 0.27 0.97
8 0.00 0.00 0.99 1.03

X c2ij
⇒ χ2 = = 9.8
aij
i,j
20
L’indice di contingenza di Cramer

L’indice χ2 ha un valore minimo uguale a 0 nel


caso di indipendenza assoluta.

Il valore massimo di χ2 dipende però dal nume-


ro n delle unità statistiche e dal numero delle
modalità assunte dalle variabili

χ2
C = n(h−1) indice di contingenza di Cramer

(h = min{numero di righe, numero di colonne})

Si dimostra che C varia tra 0 (indipendenza


assoluta) e 1 (dipendenza assoluta) e quindi
permette di confrontare la maggiore o minore
indipendenza tra due variabili.

Nell’esempio considerato C = 105·3 9.8 ∼ 0.03


=
(molto vicino allo zero!) e si può valutare che
tra le due variabili non ci sia dipendenza.
21
Funzioni statistiche e funzioni matematiche

Una tabella di coppie di dati osservati (xi, yi)


nel caso di due variabili X e Y è una funzione
statistica.

Domanda: esiste una funzione matematica f


tale che risulti “con buona approssimazione”

Y = f (X) ? (∗)

Se, rappresentando i dati in un riferimento car-


tesiano, si ottiene una “nuvola” di punti (scat-
ter ) schiacciata e allungata, è legittimo rite-
nere che tra le due variabili esista un legame
del tipo (∗) (funzione o curva di regressione).

In genere, il tipo di funzione è suggerito dalla


forma dello scatter.

22
Esempio: ossigeno Y consumato da una per-
sona che cammina, in corrispondenza della ve-
locità X.

velocità (km/h) 0 1 2 3 4 5 6 7

ossigeno (litri/h) 19 20 20.5 21 22 23 23 23.5

24
u
23 u u

22 u

21 u
u
20 u

19 u

0 1 2 3 4 5 6 7

I punti sono “quasi” in linea retta e quindi


appare adeguata la scelta di una funzione del
tipo
Y = aX + b retta di regressione
23
Metodo dei minimi quadrati

Un modo per determinare una legge che ap-


prossimi una funzione statistica è quello di ren-
dere minima la somma dei quadrati tra i da-
ti reali e quelli teorici (metodo dei minimi
quadrati).

In particolare, stabilito che i dati possono esse-


re approssimati da una retta del tipo Y = aX +
b, i coefficienti a e b si possono determinare
imponendo che sia minima la quantità
n
(axi + b − yi)2.
X

i=1

Quando, invece, lo scatter evidenzia una re-


lazione di tipo non lineare, si ricorre a poli-
nomi di grado superiore. Cosı̀, se la scelta
suggerita è una parabola, si cerca l’equazione
Y = aX 2 + bX + c per cui è minima la quantità
n
(ax2 2.
X
i + bx i + c − yi )
i=1

24
Correlazione lineare

Date n osservazioni congiunte (xi, yi) di due


variabili X e Y si introducono

• la covarianza di X e Y
Pn
(xi − µ(X))(yi − µ(Y ))
SXY = i=1 ,
n

• l’indice di correlazione di X e Y
SXY
r= .
σ(X)σ(Y )

Si dimostra che −1 ≤ r ≤ 1.
- Se r = ±1 i punti sono perfettamente alli-
neati.
- Se r = 0 le variabili non sono correlate.
- Se SXY > 0 tra X e Y c’è una correlazione
diretta (se X cresce allora Y cresce).
- Se SXY < 0 tra X e Y c’è una correlazione
inversa (se X cresce allora Y decresce).
25
Retta di regressione

Se il valore dell’indice di correlazione di due va-


riabili X e Y è prossimo a 1 o -1 ha senso deter-
minare l’equazione di una retta che approssimi
“nel modo migliore” i dati osservati.

Si dimostra che la retta di regressione di una


variabile Y su una variabile X si può ottenere
con il seguente modello di calcolo:

SXY
Y = 2 (X − µ(X)) + µ(Y )
σ (X)

Il coefficiente angolare della retta di regressio-


ne ha il segno della covarianza.


Se tra X e Y c’è una correlazione diretta (in-
versa) allora la retta di regressione sarà una
retta crescente (decrescente).
26
Esempio: ossigeno Y consumato da una per-
sona che cammina, in corrispondenza della ve-
locità X.

xi yi xi − µX yi − µY (xi − µX )(yi − µY ) (xi − µX )2 (yi − µY )2


0 19 -3.5 -2.5 8.75 12.25 6.25
1 20 -2.5 -1.5 3.75 6.25 2.25
2 20.5 -1.5 -1 1.5 2.25 1
3 21.5 -0.5 -0.5 0.25 0.25 0.25
4 22 0.5 0.5 0.25 0.25 0.25
5 23 1.5 1.5 2.25 2.25 2.25
6 23 2.5 1.5 3.75 6.25 2.25
7 23.5 3.5 2 7 12.25 4
µ 3.5 21.5 − − 3.4375 5.25 2.3125
µX e µY sono rispettivamente le medie di X e Y

Indice di correlazione lineare:


3, 4375
r=√ √ = 0, 9865
5, 25 2, 3125

Poiché r ≈ 1 tra le due variabili esiste una


dipendenza lineare

Retta di regressione:

Y = 0, 6547(X − 3.5) + 21.5


27