Sei sulla pagina 1di 55

Statistica

Capitolo 3

Descrizione Numerica dei Dati

Cap. 3-1
Obiettivi del Capitolo
Dopo aver completato il capitolo, sarete in grado di:
 Calcolare ed interpretare la media, la mediana e la moda di
un sett di d
datiti
 Trovare il campo di variazione, varianza, scarto quadratico
medio e coefficiente di variazione e conoscere il loro
medio,
significato
 Applicare
pp la regola
g empirica
p per descrivere la variazione
p
dei valori della popolazione attorno alla media
 Spiegare la media pesata e quando usarla
 Spiegare come una retta di regressione ottenuta con il
metodo dei minimi quadrati stima la relazione lineare fra
due variabili

Cap. 3-2
Argomenti Trattati nel Capitolo
 Misure di tendenza centrale, variabilità, e forma
 Media, mediana, moda, media geometrica
g
 Quartili
 Campop di variazione,, differenza interquartile,
q ,
varianza e scarto quadratico medio, coefficiente di
variazione
 Distribuzioni simmetriche e asimmetriche
 Misure di sintesi p
per la p
popolazione
p
 Media, varianza, e scarto quadratico medio
 La regola empirica e la disuguaglianza di Chebyshev

Cap. 3-3
Argomenti Trattati nel Capitolo
(continuazione)

 Cinque numeri di sintesi e Box Plot


 C
Covarianza
i e coefficiente
ffi i t di correlazione
l i
 Problemi con le misure usate p
per descrivere i
dati numericamente e considerazioni etiche

Cap. 3-4
Descrizione Numerica dei Dati
Descrizione numerica dei dati

Tendenza Centrale Variabilità

Media Aritmetica Campo di Variazione

Mediana Differenza Interquartile

Moda Varianza

Scarto Quadratico Medio

Coefficiente di Variazione

Cap. 3-5
Misure di Tendenza Centrale
Panoramica
a o a ca
Tendenza Centrale

M di
Media M di
Mediana M d
Moda

x i
x i 1
n
Media Valore centrale delle Valore più
Aritmetica osservazioni ordinate frequente

Cap. 3-6
Media Aritmetica
 La media
L di aritmetica
it ti ((media)
di ) è la
l misura
i di
tendenza centrale più comune
 Per una popolazione di N valori:
N

xx1  x 2    x N
i Valori della
μ 
i1
popolazione
N N
Dimensione della
popolazione
 Per un campione
p di dimensione n:
n

x i
x1  x 2    x n Valori osservati
x i1

n n
Dimensione del campione
Cap. 3-7
Media Aritmetica
(continuazione)

 La misura di tendenza centrale più comune


 Media = somma dei valori diviso il numero di valori
 Influenzata da valori estremi (outlier)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Media
ed a = 3 Media
ed a = 4
1  2  3  4  5 15 1  2  3  4  10 20
 3  4
5 5 5 5

Cap. 3-8
Mediana
 In una lista ordinata, la mediana è il valore
“centrale” (50% prima, 50% dopo)

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

Mediana = 3 Mediana = 3

 Non influenzata da valori estremi

Cap. 3-9
Trovare la Mediana

 La posizione della mediana:

n 1
Posizione Mediana  posizione nella sequenza ordinata
2
 Se il numero di valori è dispari, la mediana è il valore centrale
 Se il numero di valori è p
pari,, la mediana è la media dei due
valori centrali

n 1
 Nota che non è il valore della mediana, ma la
2
posizione della mediana nella sequenza ordinata

Cap. 3-10
Moda
 Una misura
U i di ttendenza
d centrale
t l
 Valore che ricorre più frequentemente
 Non influenzata da valori estremi
 Usata sia per dati numerici che categorici
 Può non esserci una moda
 Ci p
può
ò essere più di una
na moda

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 0 1 2 3 4 5 6

No Moda
Moda = 9
Cap. 3-11
Esempio Riepilogativo
 Cinque case su una collina presso una spiaggia
$2 000 K
$2,000
Prezzi delle case:

$2,000,000
500,000 $500 K
300,000
, $300 K
100,000
100,000

$100 K

$100 K

Cap. 3-12
Esempio Riepilogativo:
Mi
Misure di Si
Sintesi
t i

Prezzi delle case:


 Media: ($3,000,000/5)
$2,000,000 = $600,000
500,000
300 000
300,000
100,000  Mediana: valore centrale dei dati
100,000
ordinati
Somma 3,000,000 = $300,000

 Moda: valore più frequente


=$$100,000
,

Cap. 3-13
Quale misura di tendenza
centrale
t l è la
l ““migliore”?
i li ”?

 La media è usata in generale, a


meno che ci siano valori estremi
(outlier)
 La mediana è usata spesso siccome
non è influenzata da valori estremi.
 Esempio: Il prezzo mediano delle case
può essere riportato per una regione –
meno sensibile
ibil aglili outlier
tli

Cap. 3-14
Forma della Distribuzione

 Descrive come i dati sono distribuiti


 Mi
Misure d
della
ll forma
f
 Simmetrica o asimmetrica

Obliqua a sinistra Simmetrica Obliqua a destra


Media < Mediana Media = Mediana Media > Mediana

Cap. 3-15
Misure di Variabilità
Variabilità

Campo di Differenza Varianza Scarto Coefficiente


Variazione Interquartile Quadratico di Variazione
M di
Medio

 Le misure
L i di variabilità
i bilità
forniscono informazioni
sulla dispersione o
variabilità dei valori.

Stesso centro,
diversa variabilità
Cap. 3-16
Campo di Variazione

 La più semplice misura di variabilità


 Differenza tra il massimo e il minimo dei valori
osservati:

Campo di variazione = Xmassimo – Xminimo

Esempio:

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Campo di Variazione = 14 - 1 = 13

Cap. 3-17
Svantaggi del Campo di Variazione
 I
Ignora il modo
d iin cuii i d
dati
ti sono di
distribuiti
t ib iti

7 8 9 10 11 12 7 8 9 10 11 12
Campo di Var. = 12 - 7 = 5 Campo di Var. = 12 - 7 = 5

 Sensibile agli outlier


1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,5
Campo di Var. = 5 - 1 = 4

1,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4,120
C
Campo di Var
V = 120 - 1 = 119

Cap. 3-18
Differenza Interquartile

 Possiamo eliminare il problema degli outlier usando la


differenza interquartile
 Elimina i valori osservati più alti e più bassi e calcola il
campop di variazione del 50% centrale dei dati
 Differenza Interquartile = 3zo quartile – 1mo quartile
Si noti come il primo quartile è l’osservazione di
posizione 0.25(n+1) nella serie ordinata, mentre il terzo
quartile occupa la posizione 0.75(n+1)

IQR = Q3 – Q1

Cap. 3-19
Differenza Interquartile

Esempio:
X Mediana X
minimo Q1 (Q2) Q3 massimo

25% 25% 25% 25%

12 30 45 57 70

Differenza Interquartile
= 57 – 30 = 27

Cap. 3-20
Quartili
 I Quartili dividono la sequenza ordinata dei dati in 4
segmenti contenenti lo stesso numero di valori

25% 25% 25% 25%

Q1 Q2 Q3

 quartile, Q1, è il valore per il quale 25% delle


Il primo quartile
osservazioni sono minori e 75% sono maggiori di esso
 Q2 coincide con la mediana (50% sono minori, 50% sono
maggiori)
 Solo 25% delle osservazioni sono maggiori del terzo
quartile

Cap. 3-21
Formule per i Quartili

Un quartile si trova determinando il valore della


sua posizione nella sequenza ordinata dei dati
dati,
dove

Posizione primo quartile: Q1 = 0.25(n+1)

Posizione secondo quartile: Q2 = 0.50(n+1)


(la posizione della mediana)

Posizione terzo quartile: Q3 = 0.75(n+1)

dove n è il numero di valori osservati


Cap. 3-22
Quartili

 Esempio: Trova il primo quartile


Dati Campionari Ordinati: 11 12 13 16 16 17 18 21 22

(n = 9)
Q1 = è nella 0.25(9+1)=2.5 posizione nella sequenza
ordinata
di t dei
d i dati,
d ti usiamo
i quindi
i di la
l media
di fra
f il 2do
d e il 3zo

valore,
per cui Q1 = 12.5

Cap. 3-23
Varianza della Popolazione

 Media dei quadrati delle differenze fra ciascuna


osservazione e la media
N
 Varianza della Popolazione:  (x
( i  μ)) 2

σ 2 i 1
N
dove μ = media della popolazione
N = dimensione della popolazione
xi = iimo valore della variabile X
Cap. 3-24
Varianza Campionaria

 Media (approssimativamente) dei quadrati delle


differenze fra ciascuna osservazione e la media
n
 Varianza campionaria:
 (x  x) i
2

s 
2 i 1
n -1
dove X = media aritmetica
n = dimensione del campione
Xi = imo valore della variabile X
Cap. 3-25
S t Quadratico
Scarto Q d ti Medio
M di d
della
ll PPopolazione
l i

 Misura di variabilità comunemente usata


 Mostra la variabilità rispetto alla media
 Ha la stessa unità di misura dei dati originali

 Scarto Quadratico Medio della Popolazione:

 ((x i  μ) 2

σ i 1
N
Cap. 3-26
Scarto Quadratico Medio Campionario

 Misura di variabilità comunemente usata


 Mostra la variabilità rispetto alla media
 Ha la stessa unità di misura dei dati originali

 Scarto Quadratico Medio Campionario:

 (x  x)
i
2

S i1
n -1
Cap. 3-27
Esempio di Calcolo:
Scarto Quadratico Medio Campionario
Dati
Campionari (xi) : 10 12 14 15 17 18 18 24
n=8 Media = x = 16
(10  X ) 2  (12  x ) 2  (14  x ) 2    (24  x ) 2
s 
n 1

(10  16) 2  (12  16) 2  (14  16) 2    (24  16) 2



8 1

130 Una misura della


  4.3095 dispersione “media” attorno
7
alla media Cap. 3-28
Misurando la Variabilità

Scarto quadratico medio piccolo

Scarto quadratico medio grande

Cap. 3-29
Confrontando lo Scarto Quadratico
Medio

Dati A
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 3.338

Dati B
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 0.926
0 926

Dati
at C
Media = 15.5
11 12 13 14 15 16 17 18 19 20 21 s = 4.570

Cap. 3-30
Vantaggi della Varianza e
d ll S
dello Scarto
t QQuadratico
d ti M Medio
di

 Sono calcolati usando tutti i valori nel set di


dati

 Valori lontani dalla media hanno più peso


((poichè
i hè sii usa il quadrato
d t d delle
ll ddeviazioni
i i id dalla
ll
media)

Cap. 3-31
Teorema di Chebyshev

 Per ogni popolazione con media μ, scarto


quadratico
quad a co medio
ed o σ, e k > 1,, la
a pe
percentuale
ce ua e
di osservazioni che appartengono
all’intervallo
[μ - kσ ;μ + kσ]
è almeno

100[1  (1/k )]%2

Cap. 3-32
Teorema di Chebyshev
(continuazione)

 Indipendentemente da come i dati sono


distribuiti, almeno (1 - 1/k2) dei valori
cadranno entro k scarti quadratici medi
dalla media (per k > 1)
 Esempi:
Almeno entro
(1 - 1/12) = 0% ……..... k=1 (μ ± 1σ)
(1 - 1/22) = 75% …........ k=2 (μ ± 2σ)
(1 - 1/32) = 89% ………. k=3 (μ ± 3σ)

Cap. 3-33
La Regola Empirica

 Se la distribuzione dei dati ha una forma


simmetrica e campanulare, allora
l’intervallo:
 μ  1σ contiene
i circa
i 68% dei
d i valori
l id della
ll
popolazione o del campione

68%

μ
μ  1σ Cap. 3-34
La Regola Empirica
 μ  2σ contiene
ti circa
i 95% dei
d i valori
l id della
ll
popolazione o del campione
 μ  3σ contiene circa 99.7% dei valori della
popolazione
p p o del campione
p

95% 99.7%

μ  2σ μ  3σ

Cap. 3-35
Coefficiente di Variazione

 Misura la variabilità relativa


 S
Sempre in
i percentuale
t l (%)
 Mostra la variabilità relativa rispetto
p alla media
 Può essere usato per confrontare due o più set
di dati misurati con unità di misura diversa

    s 
CV     100% CV     100%
 |  |  | x |
Cap. 3-36
Confronto fra
C ffi i ti di V
Coefficienti Variazione
i i
 Azione A:
 Prezzo medio scorso anno = $50

 Scarto quadratico medio = $5

 s  $5
CVA    100%  100%  10% Entrambe le
 | x|  $50 azioni hanno lo
stesso scarto
 Azione B: quadratico
medio, ma
 Prezzo medio scorso anno = $100
l’azione B è
 Scarto quadratico medio = $5 meno variabile
rispetto al suo
 s  $5
CVB    100%  100%  5% prezzo medio
 | x|  $100
Cap. 3-37
Usando Microsoft Excel

 Statistica Descrittiva può essere


condotta
d tt usandod Mi Microsoft
ft® Excel
E l
 Seleziona il menu:
strumenti / analisi dati / statistica descrittiva

 Inserire i dettagli nella finestra di dialogo

Cap. 3-38
Usando Excel

 Seleziona il menu:
strumenti / analisi dati /
statistica descrittiva

Cap. 3-39
Using Excel
(continuazione)

 Inserire
se e dedettagli
ag
nella finestra di
dialogo

 Seleziona l’opzione
Riepilogo statistiche

 Cliccare su OK

Cap. 3-40
Output di Excel
Output di Microsoft Excel
di statistica descrittiva
usando i dati sul prezzo
delle case:

Prezzi delle case:

$2,000,000
$2 000 000
500,000
300,000
100 000
100,000
100,000

Cap. 3-41
Media Pesata

 La media pesata di un set di dati è


n

w x i i
w 1x1  w 2 x 2    w n x n
x i 1

n
w1  w 2    w n
w
i 1
i
i

 Dove wi è il peso assegnato alla ima osservazione

 Usata quando i dati sono già raggruppati in n classi,


con wi valori nella ima classe

Cap. 3-42
Approssimazioni per Dati
Raggruppati
Supponiamo un set di dati contiene i valori m1, m2, . . ., mk,
che occorrono con frequenze f1, f2, . . . fK

 Per una popolazione di N osservazioni la media è


K

 fimi K
dove N   f i
μ i1 i 1

N
 Per un campione
p di n osservazioni,, la media è
K

 fm i i
K
dove n   f i
x i 1
i
i 1

n
Cap. 3-43
Approssimazioni per Dati
Raggruppati
Supponiamo un set di dati contenga i valori m1, m2, . . ., k,
che occorrono con frequenze f1, f2, . . . fK

 Per una popolazione di N osservazioni la varianza è


K

i i
f (m  μ) 2

σ2  i1
N
 Per un campione di n osservazioni, la varianza è
K

i i
f (m  x) 2

s2  i1
n 1
Cap. 3-44
La Covarianza Campionaria
 La covarianza misura la forza della relazione lineare tra due
variabili

 La covarianza della popolazione:


p p
N

 (x   i x )(y i   y )
Cov (x , y)   xy  i1
N
 La covarianza campionaria:
n

 (x  x)(y  y)
i i
Cov (x , y)  s xy  i1
n 1
 Riguarda solo la forza della relazione
 Non implica un effetto casuale
Cap. 3-45
Interpretazione della Covarianza

 Covarianza tra due variabili:

Cov(x,y) > 0 x e y tendono a muoversi nella stessa direzione

Cov(x,y) < 0 x e y tendono a muoversi in direzioni opposte

Cov(x,y) = 0 x e y non mostrano una relazione lineare

Cap. 3-46
Coefficiente di Correlazione
 Misura la forza relativa della relazione lineare tra due
variabili

 Coefficiente di correlazione della popolazione:


Cov (x , y)
ρ
σXσY
 Coefficiente di correlazione campionario:
Cov (x
C ( , y))
r
sX sY

Cap. 3-47
Caratteristiche del Coefficiente
di C
Correlazione,
l i r
 Senza unità di misura
 Campo di variazione fra –1
1e1
 Quanto più è vicino a –1, tanto più è forte la relazione
lineare negati
negativa
a
 Quanto più è vicino a 1, tanto più è forte la relazione
lineare positiva
 Quanto più è vicino a 0, tanto più è debole la relazione
lineare

Cap. 3-48
Diagrammi di Dispersione con
V iC
Vari Coefficienti
ffi i ti di C
Correlazione
l i
Y Y Y

X X X
r = -1 r = -.6 r=0
Y
Y Y

X X X
r = +1 r = +.3 r=0
Cap. 3-49
Usando Excel per Calcolare
il C
Coefficiente
ffi i t di C
Correlazione
l i
 Selezionare
Strumenti/Analisi Dati
 Scegliere Correlazione
dal menu a scorrimento
 Cliccare su OK . . .

Cap. 3-50
Usando Excel per Calcolare
il C
Coefficiente
ffi i di C
Correlazione
l i
(continuazione)

 Inserire le celle contenenti i


d ti e selezionare
dati l i lle opzioni
i i
appropriate
 Cliccare su OK per ottenere
l’output
Cap. 3-51
Interpretazione dei Risultati
Diagramma a dispersione dei voti negli esami

 r = .733 100

95

 Esiste una relazione 90

Voto esame #2
lineare positiva 85

relativamente forte 80

tra i voti in esame #1 75

70
e i voti in esame #2 70 75 80 85 90 95 100
Voto esame #1

 Studenti con voti alti nel primo


esame tendono ad avere voti
alti
lti nell secondo
d esame

Cap. 3-52
Ottenere Relazioni Lineari

 Un’equazione può essere usata per


rappresentare la migliore relazione lineare tra
due variabili:

Y = β 0 + β 1X

Dove Y è la variabile dipendente e X è la variabile


esplicativa

Cap. 3-53
Regressione con il
Metodo dei Minimi Quadrati

 Le stime dei coefficienti β0 e β1 vengono calcolate


minimizzando la somma dei quadrati dei residui
 La regressione lineare con il metodo dei minimi quadrati,
basata sui valori campionati
campionati, è

yˆ  b0  b1 x
 Dove b1 è la pendenza della retta e b0 è l’ordinata
all origine:
all’origine:
Cov(x, y) sy
b1  2
r b0  y  b1x
sx sx
Cap. 3-54
Riepilogo del Capitolo
 Si sono descritte le misure di tendenza centrale
 Media, mediana, moda
 Illustrate la forma della distribuzione
 Simmetrica, asimmetrica
 Descritte le misure di variabilità
 Campo di variazione, differenza interquartile, varianza e scarto
quadratico
d ti medio,
di coefficiente
ffi i t di variazione
i i
 Discusse le misure per dati raggruppati
 Calcolate le misure delle relazioni tra variabili
 Covarianza e coefficiente di correlazione

Cap. 3-55

Potrebbero piacerti anche