Sei sulla pagina 1di 43

Analisi statistica dei dati

Concetti introduttivi
Preparare il DB:
la decodifica dei dati

 Ad ogni variabile di risposta viene assegnato


uno specifico codice
 Conviene utilizzare un secondo database con la
decodifica delle variabili (codebook)
 Può essere assegnato un codice specifico alle
mancate risposte
Una struttura tipica di codebook

 Numero e testo della domanda

 Numero e nome della variabile

 Definizione delle categorie


Occorre distinguere tra:
 Analisi dei dati  Interpretazione dei
metodologia statistica dati
adoperata per attribuzione di uno
classificare ed specifico significato ai
elaborare i dati risultati ottenuti
disponibili attraverso l’analisi e la
successiva valutazione
delle possibili
applicazioni di ciò che
si è scoperto
Qual è la tecnica di analisi adatta?
Occorre rispondere alle seguenti domande:
 Quante sono le variabili da analizzare
contemporaneamente?
 Una, due, più di due
 Con quale tipo di scala posso rappresentare le
variabili?
 Nominali, ordinali, intervallo
 Di che procedimento statistico si tratta?
 Descrittivo, inferenziale
Le tecniche di analisi statistica
rispetto al numero di variabili

Tecniche di analisi

Univariate Bivariate Multivariate


Le tecniche di analisi statistica
rispetto al numero di variabili (segue)
Univariate

Scala a
Scala nominale Scala ordinale
intervallo

Moda Mediana Media

Frequenze
Deviazione
relative e Interquartile
Standard
assolute
Le tecniche di analisi statistica
rispetto al procedimento

Approccio

Descrittivo Inferenziale
Analisi statistica dei dati

Analisi univariata
Analisi Univariata
 Distribuzione di frequenza
Tabelle e grafici

 Misure di sintesi
Tendenza centrale e non centrale
Dispersione
Forma della distribuzione
Frequenza e intensità

Nello studio di un fenomeno collettivo, il numero


che si determina in corrispondenza a una data
modalità del suo carattere si chiama dato statistico.

Tale dato può avere due significati. Può esprimere:


 quante volte si è manifestata quella modalità, e
in tal caso si dice frequenza di quella modalità;
 O una misura, e in tal caso si chiama intensità di
quella modalità.
D is tr ib u z io n e d i fr e q u e n z a
F requ e
F requ en za
M o d a lità n za
r e la tiv a
a s s o lu ta
Ic e P a c k a g in g 14 0 ,2 8
A lim e n ta re 21 0 ,4 2
H e a lth C a r e 12 0 ,2 4
B evande 3 0 ,0 6
In simboli: T o ta le 50 1 ,0 0

X  Carattere osservato X n f  n n
n  Numero di unità statistiche
i i i

x1 n1 f1
k  Numero di x2 n 2 f2
modalità/intensità di X
  
xi  i-esima
modalità/intensità di X xi ni fi
n i  Frequenza assoluta   
della i-esima modalità xi xk n k fk
fi  Frequenza relativa della T o ta le n 1
i-esima modalità xi
12
In un sondaggio fatto all'interno di una facoltà composta da
250 studenti (la popolazione statistica), si intende rilevare il
carattere "gradimento dei professori", secondo le cinque
modalità "molto deluso", "insoddisfatto", "parzialmente

Esempio
soddisfatto", "soddisfatto", "entusiasta". 10 studenti si
dicono entusiasti dell'operato dei professori, 51 si dicono
soddisfatti, 63 mediamente soddisfatti, 90 insoddisfatti, 36
molto delusi.

Frequenze
Gradimento dei Frequenze Frequenze
relative Nel caso
professori assolute relative ipotizzato, la
cumulate colonna delle
frequenze
molto deluso 36 36/250 = 0,144 0,144 relative
cumulate
0,144+0,360 = mostra che è
insoddisfatto 90 90/250 = 0,360 molto deluso il
0,504 14,4% degli
studenti e che
parzialmente 0,504+0,252 = la percentuale
63 63/250 = 0,252 degli studenti
soddisfatto 0,756 non
La distribuzione di frequenza viene rappresentata pienamente
con una 51tabella come la seguente: 0,756+0,204 = soddisfatti
soddisfatto 51/250 = 0,204 (modalità da
0,960 "molto deluso"
a
0,960+0,040 = "parzialmente
entusiasta 10 10/250 = 0,040 soddisfatto")
1,000 arriva al 75,6%

250/250 =
Totali 250
1,000
Definizione di frequenza relativa
Suddivisione in classi

La suddivisione in classi
Le intensità di un carattere quantitativo
discreto possono essere suddivise in
classi.
Due possibili criteri di suddivisione:
1. Classi equamente ampie
2. Classi di diversa ampiezza e
frequenza

15
Rappresentazione grafica
dei fenomeni statistici

 Diagrammi circolari (o areogrammi)


 Istogramma
 Ortogrammi (o grafici a strisce o a
colonne)
 Ideogrammi
 Cartogrammi
 Poligoni di frequenze
Aerogramma
Diagramma Diagramma Diagramma
a torta a tabella a bolle

L'areogramma è un tipo di rappresentazione grafica in


cui le diverse percentuali dei risultati di
un'indagine statistica sono visualizzate da aree
proporzionali di una figura geometrica piana o
tridimensionale.
L'unità di misura utilizzata è, spesso, la percentuale.
Questo tipo di rappresentazione è particolarmente
adatto per operare confronti fra diverse grandezze,
senza necessariamente riferirsi ad un totale
Istogramma
L'istogramma è la rappresentazione grafica di
una distribuzione in classi di un carattere continuo.
È costituito da rettangoli adiacenti le cui basi sono allineate
su un asse orientato e dotato di unità di misura (l'asse ha
l'unità di misura del carattere e può tranquillamente essere
inteso come l'asse delle ascisse).
L'adiacenza dei rettangoli dà conto della continuità del
carattere. Ogni rettangolo ha base di lunghezza pari
all'ampiezza della corrispondente classe; l'altezza invece è
calcolata come densità di frequenza, ovvero essa è pari al
rapporto fra la frequenza (assoluta) associata alla classe e
l'ampiezza della classe
Ortogramma

L'ortogramma a nastro è un particolare mezzo usato


dagli statistici per effettuare un'indagine statistica.

Si tratta di una variante dell'istogramma, in cui la


frequenza assoluta è posizionata nell'asse delle
ascisse, mentre le diverse variabili sono associate
all'asse delle ordinate e rappresentate quindi come
rettangoli a sviluppo orizzontale
Ideogramma
Cartogramma

Un cartogramma è una carta geografica sulla quale


vengono rappresentati dei dati statistici, con colori e
simboli diversi a seconda dei valori del fenomeno
osservato, relativi al territorio che la cartina rappresenta.
I cartogrammi vengono utilizzati per dare una visione
immediata del rapporto tra territorio e valori del fenomeno.
Infatti è più facile osservare un solo grafico già completo
che confrontare e sovrapporre una cartina e un
istogramma. Come l'ideogramma, questo tipo di grafico è
molto approssimativo, sia per quanto riguarda il territorio
sia per l'analisi del fenomeno
Poligono
di
frequenza
Sintesi dei dati
Media aritmetica
Media ponderata
Media ponderata: esempio
Media ponderata: esercizio
Uno studente ha sostenuto i seguenti esami
del I anno del corso di laurea di EA.
Come calcola la media dei voti?
N. Esame voto cfu

1 Economia Aziendale 27 9
2 Ist. diritto pubblico 22 6
3 Metodi di matematica applicata 25 9
4 Macroeconomia 20 6
5 Ragioneria 28 9

27
Media ponderata: calcolo
N. voto cfu voto*cfu
Esame (xi) (pi) (xi*pi)
1 27 9 243
2 22 6 132
3 25 9 225
4 20 6 120
5 28 n
9 252
n

n
p i  39  xipi  972
xp
i1
i1
i i
972
xa  i1
n
  24,92 Il voto medio (su 39 cfu) è pari a
39
p
i1
i 24,92

28
Media da dati raggruppati
Moda
Classe modale
Mediana
Esempio calcolo della mediana
Misure non centrali: i quantili

 Quartili
 Percentili

Vengono utilizzati per riassumere e


descrivere dati quantitativi caratterizzati
da una grande varietà di classi di misura
Quartili
 Sono 3 indici di posizione, Q1 Q2 e Q3
xmin  x 1  x 2   ...  x n   xmax

Tra x(1) e Q1 è Tra Q3 e x(n) è


contenuto il 25% dei contenuto il 25% dei
valori (più bassi) valori (i più alti)

X(1) Q1 Q2=Me Q3 X(n)

Tra Q1 e Q2 è Tra Q2 e Q3 è
contenuto il 25% contenuto il
dei valori 25% dei valori

35
Calcolo dei quartili
La prima F ad essere maggiore
i
o uguale a 0,25 è la terza
Ricavi Ricavi Freq.
(valori cum. rel.
ordinati) Q 1  x ( 3 )  205
350 X(1)=180 1/9=0,11
Il 25% dei punti vendita con i ricavi
200 X(2)=200 2/9=0,22 più bassi registrano ricavi che non
600 X(3)=205 3/9=0,33 superano 205 mila euro
500 X(4)=270 4/9=0,44
La prima Fi ad essere maggiore o
270 X(5)=280 5/9=0,56 uguale a 0,75 è la settima
180 X(6)=340 6/9=0,67
205 X(7)=350 7/9=0,78 Q 3  x ( 7 )  350
340 X(8)=500 8/9=0,89 Per essere nel 25% dei punti
280 X(9)=600 9/9=1 vendita con i ricavi più alti si
devono superare 350 mila euro di
ricavi
36
Percentili
Sono quei valori che dividono la distribuzione
in cento parti di uguale numerosità
Mediana=50-esimo percentile
Q3= 75-esimo percentile

P10 = decimo percentile: lascia alla sua


sinistra il 10% dei valori
P90 = novantesimo percentile: lascia alla sua
destra il 10% dei valori

37
Indici di variazione

Servono per avere informazioni su come i dati


di una indagine statistica si distribuiscono
attorno ai valori di sintesi e quindi poter
confrontare distribuzioni, si studiano gli indici
di variabilità.
Campo di variazione
Campo di variabilità di un insieme di n dati
numerici x1, x2, ….. xn: differenza tra il valore
massimo e il valore minimo degli xi.
ESEMPIO

Supponiamo che i rilevamenti compiuti su un campione di individui sulla pressione minima sanguigna
abbia dato i seguenti risultati:

80 80 85 90 85 60 90 95 95 80 85 115

Il campo di variabilità di questi dati è dato da 115 – 60 = 55; se basassimo le nostre considerazioni
solo su questo valore, saremmo portati a dire che in quel gruppo di persone vi è un’alta variabilità fra
i dati, mentre in realtà, osservando meglio, si nota che la maggior parte di essi (tranne due) si
distribuiscono in un ambito più ristretto compreso fra 80 e 95. Questo è un indice poco sensibile che
è grandemente influenzato dai valori esterni.

39
Deviazione standard e varianza
Scarto quadratico medio o deviazione standard σ: media quadratica degli scarti dalla media aritmetica
M.


n
Σ (xi – M)2 Nel caso di dati semplici
σ= i=1
n


n
Σ {(xi – M)2  fi }
σ= i=1 Nel caso di dati ponderati con pesi fi
n
Σ fi
i=1

Varianza (σ)2: quadrato dello scarto quadratico medio.

Per il calcolo di σ (e quindi di σ2) si può anche usare la formula:

σ = √media dei quadrati degli xi − quadrato della media

40
ESEMPIO

Ad otto gruppi di persone è stato chiesto di provare due tipi particolari di shampoo che indicheremo
con A e B, e di sceglierne quindi uno. Gli esiti di questa scelta sono riportati nella seguente tabella.

A 15 12 10 8 11 18 20 10

B 15 12 24 12 14 2 10 18

Sommando le preferenze accordate ai due prodotti, sia A che B ne hanno totalizzate 104.

104
Mediamente = 13 voti da ciascun gruppo
8

continua
41
ESEMPIO

Calcoliamo lo scarto quadratico medio della distribuzione di A e di B.

Preferenze di A Scarti (Scarti)2 Preferenze di B Scarti (Scarti)2

15 2 4 12 -1 1
112 -1 1 12 -1 1
10 -3 9 24 11 121
8 -5 25 12 -1 1
11 -2 4 14 1 1
18 5 25 2 -11 121
20 7 49 10 -3 9
10 -3 9 18 5 25

TOTALE 126 TOTALE 280


8


8
Σ (xi – 13)2

Σ (x – 13)2

i=1 i 126 280
σA = = = 3,969 σB = i=1
= = 5,916
8 8 8 8

Lo shampoo A presenta una minore variabilità rispetto a B.


42
Coefficiente di variazione
È una misura relativa che viene espressa in
percentuale

Potrebbero piacerti anche