Sei sulla pagina 1di 59

Modulo 2

Descrivere i dati

Prof.ssa Caterina Primi


Descrivere i dati

Statistica descrittiva
Distribuzioni di frequenza
Indici di tendenza centrale
Indici di variabilità
Indici di posizione
Rappresentazioni grafiche
Distribuzione di frequenza

Frequenza assoluta

La frequenza misura quante volte una certa modalità è stata


osservata nel campione

Sia X una generica variabile che si intende misurare.

Precisate le modalità in cui si articola la variabile oggetto


di studio, si dice frequenza assoluta il numero nj di unità
che presentano la modalità.
Distribuzione di frequenza

Distribuzione di frequenza assoluta

delle modalità della


variabile e le frequenze di ciascuna
modalità produce la distribuzione di
frequenza dei dati.
Distribuzione di frequenza

Per indicare la somma la notazione


usata è:

N= n1 + n2 m=
Distribuzione di frequenza
Distribuzione di frequenza assoluta
Materia preferita

Categoria f
Italiano 6
Scienze 10
Matematica 4
_____
20
Distribuzione di frequenza
Valore Frequenza
(xi) (fi)
1 1
Distribuzione di frequenza
2 1
assoluta 3 2
4 3
Competenze 5 1
6 4
matematiche: punteggio 7 2
9 2
10 1
11 2
12 1
n= 20
Distribuzione di frequenza relativa

Distribuzione di frequenza relativa

Si chiama frequenza relativa di una modalità xj la frazione o


proporzione di unità statistiche che presentano tale modalità
Distribuzione di frequenza relativa
Distribuzione di frequenza relativa
Materia preferita

Categoria f fj
Italiano 6 .30
Scienze 10 .50
Matematica 4 .20
20 1.00
Calcolare frequenza relativa
e trasformare in percentuale
Valore Frequenza
(xi) (fi)
1 1
2 1
3 2
4 3
5 1
6 4
7 2
9 2
10 1
11 2
12 1
n= 20
Calcolare frequenza relativa
e trasformare in percentuale

Valore Frequenza Calcolo Frequenza relativa


1 1 1/20= .05
2 1 1/20= .05
3 2 2/20= .10
4 3 3/20= .15
5 1 1/20= .05
6 4 4/20= .20
7 2 2/20= .10
9 2 2/20= .10
10 1 1/20= .05
11 2 2/20= .10
12 1 1/20= .05
______ _____
n= 20 1.00
Calcolare frequenza relativa
e trasformare in percentuale

Valore Frequenza Calcolo Frequenza percentuale


1 1 (1/20) 100= 5
2 1 (1/20) 100= 5
3 2 (2/20) 100= 10
4 3 (3/20) 100= 15
5 1 (1/20) 100= 5
6 4 (4/20) 100= 20
7 2 (2/20) 100= 10
9 2 (2/20) 100= 10
10 1 (1/20) 100= 5
11 2 (2/20) 100= 10
12 1 (1/20) 100= 5
______ _____
n= 20 100
Distribuzione di frequenza

Distribuzione di frequenza cumulata


Si chiama frequenza cumulata assoluta la somma delle
frequenze assolute sino alla modalità considerata.

Si chiama frequenza cumulata relativa la somma delle


frequenze relative sino alla modalità considerata.
Distribuzione di frequenza

Distribuzione di frequenza assoluta e cumulata


(Giudizio ad italiano)

Categoria f fc
Sufficiente 8 8
Buono 8 16 (8+8)
Distinto 3 19 (16+3)
Ottimo 1 20 (19+1)
Calcolare frequenza assoluta cumulata
Valore Frequenza
(xi) (fi)
1 1
2 1
3 2
4 3
5 1
6 4
7 2
9 2
10 1
11 2
12 1
n= 20
Calcolare frequenza assoluta cumulata
Valore Frequenza Calcolo Frequenza cumulata

1 1 1= 1
2 1 1+1= 2
3 2 2+2= 4
4 3 4+3= 7
5 1 7+1= 8
6 4 8+4= 12
7 2 12+2= 14
9 2 14+2= 16
10 1 16+1= 17
11 2 17+2= 19
12 1 19+1= 20
Indici di tendenza centrale

Indici di tendenza centrale


Consentono di sintetizzare una distribuzione di dati con un
singolo valore:
MODA
MEDIANA
MEDIA

Per ogni scala di misura dei dati occorre scegliere


adeguato.
Indici di tendenza centrale

Moda
Si può utilizzare per variabili misurate su tutte le scale.
rappresentata dalla categoria o dal valore più
frequente della distribuzione osservata.
Si indica con Mo, Mod.
Indici di tendenza centrale

Categoria Gr.A Gr.B Gr.C

Italiano 14 20 10
Scienze 30 20 25
Matematica 16 20 25

60 60 60
Unimodale
Amodale Bimodale
Indici di tendenza centrale
Mediana
Si può utilizzare solo per variabili misurate almeno su scala
ordinale.

rappresentata dal valore che occupa la posizione centrale

della distribuzione osservata valore al di sopra o al di sotto


del quale sta il 50% dei casi (o un uguale numero di casi).

Si indica con Me, Mdn.


Indici di tendenza centrale
Mediana
Per calcolare:
Ordinare i casi in modo crescente
Calcolare la frequenza cumulata
Calcolare la posizione
Casi dispari: n 1
PosMe
2

Casi pari:
n n
PosMd 1
2 2
Indici di tendenza centrale

Categoria f fc
n = 7 (7+1)/2=4
Sufficiente 2 2
Buono 3 5
n 1
Distinto 1 6 PosMe
2
Ottimo 1 7
_____ La mediana è la
7 categoria: Buono
Indici di tendenza centrale

Media
La media aritmetica è data dalla somma delle misure
osservate diviso il numero delle osservazioni fatte (totale
dei casi).

Si indica con M ( y ) per i campioni.

Quando ci si riferisce alla popolazione si indica con .


Indici di tendenza centrale

Media
n
xi
i 1
M
n
= sommatoria
xi= generica osservazione
n= totale casi osservati
Indici di tendenza centrale

ESEMPIO: Punteggio al test (scala metrica)


22, 14, 18, 22, 19, 28, 27, 10 (n=8)

22 14 18 22 19 28 27 10
M 20
8
Indici di tendenza centrale

k
f i xi
i 1
M
n
xi = generica osservazione
fi = frequenza associata ad ogni valore
k = numero dei diversi valori
n = totale casi osservati
Indici di tendenza centrale
ESEMPIO:

x: 12 14 17 18 19 22 (k=6)
f: 2 1 1 3 1 2 (n=10)

2(12) 14 17 3(18) 19 2(22)


M 17.2
10
Indici di tendenza centrale

Proprietà della Media


Il calcolo della media è appropriato solo per variabili
quantitative.

La media aritmetica è sempre compresa tra il minimo e il


massimo dei valori osservati (internalità).

La somma degli scarti dalla media è sempre uguale a zero.


Indici di tendenza centrale
Proprietà della Media
La media è il centro di gravità della distribuzione e risente
delle variazioni apportate dai valori anomali. Quei valori molto
al di sotto o al disopra di quello assunto dalla maggioranza
delle restanti osservazioni.
Tale valore prende il nome di outlier.
La media tende a spostarsi nella direzione della coda più lunga
della distribuzione.
Indici di tendenza centrale
Proprietà della Media

a
2 3 4

b 2 3 4 5 6

c
2 3 4 5 6 7 8
Indici di tendenza centrale

Media e valori anomali


La media aritmetica non è sempre che meglio rappresenta la
tendenza centrale di una distribuzione, in particolare, per la presenza di
valori anomali outlier.

In tali casi, la tendenza centrale della distribuzione è meglio rappresentata


dalla mediana.

Un compromesso viene calcolata la media (trimmed mean) eliminando i


valori estremi della distribuzione e facendo la media aritmetica dei dati
rimanenti.
Indici di tendenza centrale
Esempio 1:
2, 4, 5, 6, 7, 8, 9
Me=6 M=5.8

Esempio2:
2, 4, 5, 6, 7, 8, 99
Me=6 M=17.6

Esempio 3:
2, 4, 5, 6, 91, 98, 99
Me=6 M=43.6
Indici di tendenza centrale
Variabile Scala Nominale
Moda

Variabile Scala Ordinale


Moda
Mediana

Variabile Scala ad Intervalli e Scala a Rapporti


Moda
Mediana
Media
Indici di dispersione o di variabilità

Indici di dispersione
Le misure di tendenza centrale da sole non sono sufficienti a
descrivere in maniera adeguata la distribuzione di una variabile
quantitativa.
Indici di dispersione consentono di descrivere la variabilità
della distribuzione di frequenza tramite un unico
valore che ne sintetizza le caratteristiche.
Indici di dispersione o di variabilità

Indici di dispersione

Campo di variazione

Devianza

Varianza

Deviazione standard

Coefficiente di variazione
Indici di dispersione o di variabilità

Campo di variazione (range)


Il campo di variazione è dato dalla differenza tra il valore maggiore
e quello minore della distribuzione di frequenza osservata.

CV xmax xmin
Poco usato perché trascura la maggior parte
disponibile e risente dei valori estremi.
Indici di dispersione o di variabilità

Campo di variazione (range)


ESEMPIO
11 candidati per una selezione hanno ottenuto i seguenti
punteggi ad un test di memoria:
23 45 34 57 23 57 48 38 38 54 48
Definire il campo di variazione

CV=57-23 =34
Indici di dispersione o di variabilità
Devianza
la somma degli scarti dalla media al quadrato.

n
2
Dev( X ) xi M
i 1

Elevando al quadrato trascuriamo il segno degli scarti.

di misura è il quadrato di quella della variabile.


Indici di dispersione o di variabilità
Varianza

Indice unico e sintetico sulla variabilità

si calcolano gli scarti dei valori osservati dalla media,


elevati al quadrato si fa una media di questi scarti.

n
2
xi M
2 i 1
s
n
Indici di dispersione o di variabilità
Proprietà della Varianza
Sempre maggiore o uguale a zero, non è mai negativa.

Minore è la varianza più i casi Maggiore è la varianza più i


sono concentrati attorno alla casi sono dispersi attorno alla
media. media.

f f

M x M x
Indici di dispersione o di variabilità
Deviazione Standard
Radice quadrata della Varianza: indice di dispersone con
unità di misura uguale alla media.
Misura la dispersione intorno alla media.
Fortemente influenzata dai dati anomali.

n
2
xi M
i 1
s
n
Indici di dispersione o di variabilità
Deviazione Standard

ESEMPIO

8 9 5 4 7 8 9 7 4 3 (M = 6.4)

2 2 2 2
8 6.4 9 6.4 5 6.4 ... 3 6.4
s
10
2.56 6.76 1.96 ... 11.56
4.44 2.11
10
Indici di dispersione o di variabilità
Proprietà della Deviazione Standard
Maggiore o uguale a zero.

s=0 solo quando tutte le osservazioni hanno lo stesso valore.

Più grande è la variabilità intorno alla media, maggiore è il


valore si s.

Quando ci si riferisce al campione si indica con s (talvolta ds


o sd), quando ci si riferisce alla popolazione con .
Indici di dispersione o di variabilità

Coefficiente di variazione

s
CV 100
M
Determina la dispersione dei dati osservati mediante
della Media come unità di misura.

un indicatore di variabilità relativa.


Indici di dispersione o di variabilità

Le medie e le deviazioni standard del numero di parole


(prova di vocabolario) spiegate correttamente da due gruppi
di studenti provenienti da due licei scientifici sono
rispettivamente:

M1=84, DS1 =7 e M2=68, DS2 =6.

Quale è il liceo con maggior variabilità assoluta? E maggior


variabilità relativa?
Indici di dispersione o di variabilità

s1=7 > s2=6

Il 1° liceo ha una maggior variabilità assoluta

7 6
V1 100 8 V2 100 9
84 68

V1=8 < V2=9


Il 2° liceo ha una maggior variabilità relativa
Indici di posizione
Indici di posizione
Forniscono informazioni sul valore della variabile osservata al di
sotto del quale ricade una certa proporzione di osservazioni della
distribuzione
Quartili
Decili
Percentili
La variabile deve essere misurata almeno su una scala ordinale.
Indici di posizione

Per il calcolo:

1. Ordinare in senso crescente le modalità o valori della variabile.

2. Calcolare le frequenze cumulate.

3. Calcolare la posizione del quartile/decile/percentile con le apposite

formule.

4. Cercare nella distribuzione il valore corrispondente alla posizione trovata.


Indici di posizione

Quartile:
Valori in corrispondenza dei quali la distribuzione

viene suddivisa in quattro parti uguali. Sono tre:

1° quartile (o inferiore): valore sotto il quale ricade il 25% dei casi.

2° quartile (o mediano): valore sotto il quale ricade il 50% dei casi.

3° quartile (o superiore): valore sotto il quale ricade il 75% dei casi.


Indici di posizione
Formule per il calcolo della posizione:

n 1
Per il 1° quartile: posQ1 1
4

n 1
Per il 2° quartile: posQ2 2
4

n 1
Per il 3° quartile: posQ3 3
4
Indici di posizione

Punteggio f fcum 11 1
posQ1 1 3
23 2 2 4
34 1 3
38 2 5
45 1 6 11 1
posQ2 2 6
48 2 8 4
54 1 9
57 2 11 11 1
posQ3 3 9
5

Valore Posizione 4
Indici di posizione
Decili
Valori in corrispondenza dei quali la distribuzione viene
suddivisa in dieci parti uguali. Sono nove:
1° decile: valore sotto il quale ricade il 10% dei casi.

2° decile: valore sotto il quale ricade il 20% dei casi.

9° decile: valore sotto il quale ricade il 90% dei casi.


Indici di posizione
Percentili
Valori in corrispondenza dei quali la distribuzione viene
suddivisa in cento parti uguali. Sono novantanove:

24° percentile: valore sotto il quale ricade il 24% dei casi

89° percentile: valore sotto il quale ricade il 89% dei casi


Rappresentazioni grafiche

Grafico a barre
Rappresentazione grafica per una variabile qualitativa.

Altezza delle barre uguale al numero di osservazioni


(frequenza assoluta) o alla proporzione di osservazioni
(frequenza relativa o percentuale).
Rappresentazioni grafiche
Grafico a barre
12

10

0
Italian o Scien ze Matematica

Materia preferita
Rappresentazioni grafiche
Istogramma
Rappresentazione grafica di una distribuzione di frequenza per una variabile
quantitativa.
5

0
1 2 3 4 5 6 17 8 9 10 11 12

Risposte corrette
Rappresentazioni grafiche
Box plot
Il valore mediano (50° percentile);
Il 25° e il 75° percentile.
Rappresentazioni grafiche
Curva continua
Quando una variabile continua ha molti valori o classi e n è
grande il poligono diventa una curva.

Potrebbero piacerti anche