Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Statistica
Petracca Francesco Luigi
Prima Parte
Th
is
eb
oo nuvola di parole
ki
so
wn
ed
by
m
as
sim
o.
m
PETRACCA FRANCESCO LUIGI
i l.i
a
tm
ho
d o
on
m
o.
s im
as
m
by
e d
own
is
o ok
b dal corpus degli articoli de il sole 24 ore che
* In copertina “Nuvola di parole” proveniente
contengono l’espressione “big data” –eanno 2013
h is
T
Petracca Francesco L.
Th
is
eb
oo
………qualunque sia l’ambito di
k
is
applicazione, la statistica può essere vista
ow
ne
come uno strumento di supporto alle
by
d
decisioni in condizioni di incertezza.
as
m
si
m
o.
m
…..la statistica è la scienza dei fenomeni
on
do
collettivi. Ci aiuta a passare dalla estrema
tm
ho
variabilità dei fenomeni (economici,
l.i
ai
20
t2 demografici, sociali…) a modelli
20 interpretativi della realtà che ci circonda,
attraverso la classificazione e l’astrazione
1
Petracca Francesco L.
Fondamenti di Statistica
PETRACCA FRANCESCO LUIGI
Petracca Francesco L.
db wne
is
o ok
eb
is
Th
VALUTARE
SODDISFARE
CAPIRE CURIOSITA’
PERCHE’ LA
STATISTICA?
PREVEDERE/
SCEGLIERE/
OPERARE
DECIDERE
Petracca Francesco L.
Indice
Introduzione.……….………………………………………………………………..……….2
1.0 La statistica oggi…………………………………….………………………………….3
1.1 La statistica descrittiva e inferenziale…..…..……………………………….4
1.2 L’indagine statistica…….…………………………………………..………………..6
1.3 Rilevazione statistica………………………………………..……..………………..7
1.4 I caratteri o variabili casuali di una unità statistica………………….…11
1.5 Lo spoglio dei dati…………..……………………………………………………….14
1.6 Diagramma a blocchi per la statistica descrittiva………………………15
2.0 Rappresentazioni grafiche delle distribuzioni statistiche……….…17
2.1 Rappresentazioni grafiche di caratteri qualitativi ……………………17
2.2 Rappresentazioni grafiche di caratteri quantitativi ...................22
Th3.0
3.1
Indici di tendenza centrale....................................................……26
is media aritmetica …….………………………………………………………… 27
La
eb
3.2 Proprietà della media aritmetica………………..……........................29
3.3 Mediaoogeometrica…..………………………………………………………………30
ki
3.4 Media quadratica.……………………………………………………………….….30
so
wn
3.5 Media armonica……………………………………………………………….…..30
3.6.Scelta della media e e dordine delle medie …………………………………31
3.7 Medie di posizione (moda by e mediana)…………………………………….31
ma
4.0 La variabilità……..………..…………………………………………………………..37
ss
4.0 Interpretazione degli indici di variabilità………………………………….38
im
o.m
4.1 Campo di variazione C.V…………………………………………………………..38
on
4.2 Scarto quadratico medio (σ) e varianza (σ2)………………………………40
4.3 Dall’istogramma alla gaussiana………………………………………………..43 do
4.4 La forma della distribuzione normale……………………………………….46
ho
tm
4.5 La distribuzione normale standardizzata………………………………….47 ail
4.6 Quartili e percentili………………………………………………………………….50
.it
22
Glossario 02
Bibliografia 01
17
-0
1
Petracca Francesco L.
Th
is e
bo
Introduzione
ok
is o
w
ne per una esigenza pratica di
La Statistica nasce come altre scienze
db
risolvere problemi concreti, accompagnatay solo
m successivamente
as
sim
dalla trattazione teorica con la nascita della cosiddetta fase
o.m
onera
metodologica. Sappiamo dalla storia che nelle antiche civiltà
do
diffusa la pratica di ricorrere al conteggio e all’enumerazione per ho
tm
scopi fiscali e militari. Tra le civiltà che attuarono rilevazioni per
ail.
determinare la Popolazione nel suo complesso, gli uomini idonei alle
armi e la determinazione del gettito derivante dalle imposte,
ricordiamo per ordine cronologico:
Egitto ( III° millennio A.C. )
Mesopotamia ( 2800 A.C. )
Ebrei ( 1200 A.C. )
India ( 313 A.C. )
Cina
Roma: I° censimento 578 A.C.
Inghilterra: Guglielmo il Conquistatore “Domesday Book”
1086
Registri Veneziani 1268
I° censimento Americano 1790
I° censimento Inglese 1801
2
Petracca Francesco L.
Il vocabolo statistica risale al XVII sec. col significato di “Scienza dello
Stato”. Era, infatti, l’attività volta a raccogliere e ordinare
informazioni utili all’amministrazione pubblica: entità e
composizione della popolazione, movimenti migratori, mutamenti
anagrafici, tavole di natalità e mortalità, dati sui commerci, le
importazioni e le esportazioni, sui raccolti, sulla distribuzione della
ricchezza, sull’istruzione e la sanità.
y ma
l’interpretazione
ed b
dei dati osservati nelle scienze empiriche.
Attualmente la statistica applicata riguarda ambiti come:
own
Amministrazioni pubbliche
ok is
Economia
Ric. di Mercato e Sondaggi
ebo
Finanza
This
Genetica
Medicina
Psicologia,
Giurisprudenza
Studi storiografici e letterali
4
Petracca Francesco L.
Statistica inferenziale o induttiva: ricordiamo che una delle attività
della statistica è quella di trarre conclusioni riguardo al tutto
”popolazione” osservando una parte “campione”. Quando parliamo
di popolazione di individui pensiamo a persone, animali, bulloni
prodotti da una fabbrica, persone colpite da una malattia, cittadini
chiamati a votare etc. Quello che facciamo con la statistica
inferenziale è scegliere una parte della popolazione chiamata
"campione” e dai risultati ottenuti sul campione, “stimare” le
caratteristiche della popolazione. Attraverso le regole del calcolo
delle probabilità siamo in grado di valutare la qualità della stima
realizzata sul campione come il “livello di confidenza” o il “margine di
errore”. Quanto detto avrà senso solo se la scelta del campione è tale
da essere rappresentativo dell’insieme della popolazione.
s eb Thi
ki oo
s o w
d ne
by
5
m
Petracca Francesco L.
ass
im
1.2 L’indagine statistica
L’indagine statistica può essere definita come lo strumento
attraverso il quale si acquisiscono informazioni attraverso la
conoscenza delle sue manifestazioni su un collettivo di unità
statistiche (popolazione). L’indagine statistica si articola attraverso le
seguenti fasi:
Determinazione del fenomeno da
sottoporre alla ricerca statistica
Th
is
quel carattere
by
ma
dati
on
do
Ricavare previsioni
ail
decisioni
22
02
6
01
Petracca Francesco L.
17
ed by m
wn
1.3 Rilevazione statistica
ook is o
Riportiamo con uno schema sintetico le fasi della rilevazione
statistica con le rispettive caratteristiche e loro definizioni:
This eb
“popolazione”
unità statistiche
Caratteri Caratteri
qualitativi quantitativi
7
Petracca Francesco L.
Continuo: le intensità
formano un insieme
continuo
Caratteri
quantitativi
Discreto: le intensità
assumono soltanto
valori discreti
Definizioni:
Popolazione
statistica
Th
Unità statistica
ebo is
8
k o
Petracca Francesco L.
is o
n w
Dal grafico si vede che la popolazione statistica è l’insieme di tutti i
singoli elementi (unità statistiche) sui quali verranno raccolte le
informazioni.
3
Numeri 10,5,20,..rappresentano i dati statistici, meglio la
2- 0
frequenza con cui si presenta una certa modalità.
0
0117-02
Ortogramma_1
25
2
20
numero studenti
15 it 220
10
il .
o hotma
5
0
colore occhi
ond
1 1200
b y
2 2500
ed
3 4100
4 5234
wn
5 5300
ok is o
Totale 18334
eb o
10
is
Petracca Francesco L.
T h
Popolazione= abitazioni
Unità statistica singola abitazione appartenente alla
popolazione
Numero delle stanze=carattere quantitativo
Modalità(1,2,3,4,5)
Numeri 1200,2500,4100,..rappresentano i dati statistici,
meglio la frequenza con cui si presenta una certa modalità.
Ortogramma_2
on
6000
m
5000
o.
numero abitazioni
im
4000
s
as
3000
m
2000
by
1000
d
ne
0
numero stanze
ow
is
1 2 3 4 5
k
oo
eb
11
Petracca Francesco L.
quella modalità (frequenza della modalità), mentre la successione di
dati statistici prende il nome di serie statistica.
Sono caratteri di tipo quantitativo i caratteri che si esprimono con
modalità numeriche (peso, altezza, etc.), a seconda che queste siano
espresse da numeri o da intervalli numerici prendono il nome di
intensità o classi di intensità. Possiamo pensare al carattere
quantitativo “numero delle stanze” che si esprime con modalità
”1,2,3,4,5”, i cui dati statistici (numero delle abitazioni), riportati
nella tabella precedente rappresentano la frequenza la cui
successione prende il nome di seriazione statistica. I caratteri di una
unità statistica definiti anche variabili casuali si possono
ulteriormente classificare come segue:
continua discreta
12
own
Petracca Francesco L.
ed
Carattere o variabile qualitativa: assume valori non
numerici,
ordinale nominale
This
13
Petracca Francesco L.
1.5 Lo spoglio dei dati
Lo spoglio e la classificazione dei risultati avviene raggruppando gli
elementi raccolti secondo i “caratteri da rilevare” delle unità
statistiche, formando le tabelle di spoglio. Le tabelle sono formate da
colonne o righe che fanno riferimento ai diversi “caratteri oggetto di
rilevazione” delle unità statistiche considerate. In ogni colonna o riga
si riportano i “dati” statistici di frequenza rilevati. Le tabelle
statistiche si possono classificare in:
Tabelle semplici;
Tabelle a doppia entrata
Esempi:
Tabella semplice
T
14
Petracca Francesco L.
wned by ma
Tabella a doppia entrata
o
This ebook is
Popolazione= alunni
Unità statistica=singolo alunno
Primo Carattere qualitativo= professione del padre che si
esprime con le modalità (agricoltori, artigiani,
commercianti….);
Secondo Carattere qualitativo= tipo di scuola che si esprime
con le modalità (Licei Cl. e Sci.; Ist. Tecnici, ….);
Dati statistici= distribuzioni congiunte di frequenze che
formano una successione detta serie statistica.
15
Petracca Francesco L.
ondo hot
1° FASE Piano di
2° FASE
tabelle grafici
3° FASE
Calcolo: medie e
Indici di variabilità
16
Petracca Francesco L.
d by
k is owne
2.0 Rappresentazioni grafiche delle distribuzioni statistiche
This eboo
frequenze o intensità relative alle modalità associate ai rispettivi
caratteri qualitativi o quantitativi. Naturalmente in una indagine
statistica possiamo pensare di prendere in esame uno o più caratteri
con le rispettive modalità. Si possono presentare i seguenti casi:
17
Petracca Francesco L.
596
7
69-j
2
3-5 9 3
2-0 0 2
7-0
11 0
02 2
i l .it 2
a
tm o
18
Petracca Francesco L.
Th
is ebook is
by ma owned
ssimo.m o n d o h o tmail.it
ascisse
0 2 -0393-526
19
Petracca Francesco L.
Modalità_2: sesso(M/F)
b) grafici a nastri
T
20
Petracca Francesco L.
Th
is
eb
oo
Il grafico sopra riportato rappresenta la speranza di vita alla nascita
ki
per regioni nel 2003 su dati ISTAT
so
c) Areogrammi o grafici a torta
wn
La frequenza totale è rappresentata dalla superficie del cerchio di
ed
raggio unitario, la frequenza di ciascuna modalità è invece
by
rappresentata dall’area del settore circolare.
ma
ssim
o.m
on
do
ho
tm
ail
.it
22
02
0
Per determinare l’ampiezza α dell’angolo al centro di ciascun settore
circolare si imposta la proporzione
21
Petracca Francesco L.
2.2 Rappresentazione grafiche di caratteri quantitativi
a) L’Istogramma
Con l’istogramma rappresentiamo graficamente la forma di una
distribuzione di frequenze in classi, di una variabile quantitativa
continua X. Per costrire un istogramma si utilizza un sistema di
riferimento XOY e si dispongono sull’asse delle ascisse in ordine
crescente , le classi osservate della variabile quantitativa, ciascuna
con ampiezza [𝒙𝐢 , 𝒙𝐢 𝟏 ). Sull’asse delle ordinate invece disponiamo:
Esempio:
This
ebo
ok i
s ow
ned
by m
assCon classi di uguale ampiezza è indifferente utilizzare le due
imo
.mo rappresentazioni:
22
Petracca Francesco L.
23
Petracca Francesco L.
This ebook
is owned by
massimo.m
ondo hotm
o h o tm
.mond
Naturalmente con classi di ampiezza diversa avrei dovuto usare la
densità e non la frequenza assoluta Fa per non ottenere una
assimo
rappresentazione distorta del fenomeno.
b) Diagramma a bastoncini
E’ utilizzato in presenza di variabili quantitative discrete e i dati
d by m
tabellari sono forniti con una distribuzione di frequenze per modalità.
In questa rappresentazione utilizziamo il piano cartesiano XOY in cui
sull’asse delle ascisse riportiamo le modalità xk e sull’asse delle
ordinate le frequenze relative Fr. Il grafico in figura rappresenta il
s owne
diagramma a bastoncini del numero di componenti per famiglia di un
campione di donne:
book i
This e
24
Petracca Francesco L.
20 0
i l . i t 22
a tm
d o ho
n
.mo
c) Rappresentazione grafica di serie storiche
o
ssim a
Quando parliamo di serie storiche dobbiamo pensare a tabelle
ym
ed b
conteneti intesità di un carattere quantitativo rilevato per modalità
wn so
temporali (vendite di automobili negli ultimi 10 anni). Sull’asse delle
ok i
ascisse poniamo il tempo e sull’asse delle ordinate si riporta la ebo
frequenza.
This
25
20
15
10
0
0 2 4 6 8 10 12 14 16
25
Petracca Francesco L.
o w n e d by mas simo.mondo
This e b o o k is
26
Petracca Francesco L.
93-526
ondo hotmail.it 22020117-0202-03
Indice di tendenza centrale
Indice di dispersione
Indice di posizione
𝒏= 𝒇𝐢 = 𝒑 𝐢
𝐢 𝟏
T h
∑𝐧𝐢 𝟏 𝐱𝐢
is
𝐱𝟏 𝐟𝟏 𝐱𝟐 𝐟𝟐 𝐱𝟑 𝐟𝟑 .....𝐱𝐧 𝐟𝐧
Il valore della media 𝝁 = = rappresenta
𝐧 𝐟𝟏 𝐟𝟐 𝐟𝟑 ....𝐟𝐧
bo e
della proprietà che il suo valore sostituito a ciascuno degli Xi dati non
is
ne altera la somma:
w o
ne
𝐱𝟏 + 𝐱𝟐 + 𝐱𝟑 +. . . . . 𝐱𝐧
y
𝝁=𝑴=
𝐧
mas
28
Petracca Francesco L.
Per calcolare la media aritmetica lo studente dovrà sostituire ai dati
contenuti nelle classi il valore centrale (centro delle classi, media
aritmetica dei valori estremi) della classe considerata e poi procedere
al calcolo della media aritmetica con la formula usuale:
𝐧
∑𝐱𝐢 · 𝐟𝐢
𝐢 𝟏
𝑴=
∑𝐧𝐢 𝟏 𝐟𝐢
[8, 5, 7, 6, 35, 5, 4]
𝒙𝐢 − 𝑴
Si può verificare la proprietà che la somma algebrica di tutti gli scarti
dalla media M è uguale a zero perché la somma degli scarti positivi
è uguale in valore assoluto a quella degli scarti negativi:
𝐧
(𝐱𝐢 − 𝐌) = 0
𝐢 𝟏
29
Petracca Francesco L.
3.3 Media geometrica
𝑮= 𝐧
𝐱𝟏 · 𝐱𝟐 · 𝐱𝟑 ······· 𝐱𝐧 (media geometrica semplice)
𝑴𝟎 = media armonica;
𝑴= media geometrica
𝑴𝟏 =media aritmetica
𝑴𝟐 =media quadratica
31
Petracca Francesco L.
a) Moda: si definisce moda di una distribuzione di frequenze il
dato/modalità avente la massima frequenza, se i dati sono
raggruppati in classi allora la moda è il punto centrale della
classe più frequente.
Se la frequenza maggiore è presente in una sola modalità , la
distribuzione si dirà unimodale, se due bimodale, se tre
trimodale etc.
Ricordiamo infine che la moda è l’unica tra le medie che
ammette “caratteri” sia quantitativi che qualitativi anche se
il suo uso ha maggiore significato con i caratteri qualitativi.
Esempio:
supponiamo di aver costruito la seguente tabella
This Reddito
ebookinis
milioni Frequenza
owned babitanti)
(n°
y massim
0 o.m
14 ondo ho
tmail.it
5 26
10 44
moda Frequenza maggiore
15 56
20 34
30 22
40 20
50 14
totali 230
32
Petracca Francesco L.
ortogramma
60
50
40
frequenze
30
20
10
This
0
0 5 10 15 20 30 40 50
ebo
33
ail.it
Petracca Francesco L.
220
b) Mediana: rappresenta la modalità/dato che occupa la
posizione centrale di una distribuzione di dati “ordinata”. Per
determinare la mediana è importante che le modalità siano
disposte in ordine crescente o decrescente, la mediana è il
dato centrale. Si parla di mediana solo per caratteri
quantitativi o qualitativi ordinabili. Possiamo anche definire
la mediana come la modalità con frequenza cumulata pari al
50%. Nell’ordinare i dati in ordine crescente o decrescente
dobbiamo distinguere due casi:
Numero di modalità dispari: la mediana è il valore
centrale;
Numero di modalità pari: la mediana si ottiene
m a s s im o .mond
mediando i due dati centrali. ned by
h is e b o o k is ow
T di aver raccolto i seguenti dati(modalità)
Esempio_1: supponiamo
3 6 8 10 18
Media
La Mediana è il numero 8 perché esso rappresenta il dato centrale.
10 30 30 35 40 40
34
Petracca Francesco L.
Esempio_3: Mediana di una distribuzione di frequenze
35
Petracca Francesco L.
T his e
boo
Esempio_4: Mediana di una distribuzione di frequenze con dati
raggruppati in classi
is k
Termini Frequenze Frequenze
o w
cumulate
ne
20-30 db 60 60
30-40 92 152
40-50 114 266
ym
50-60 86 352
a
60-70 40 392
sim s
70-80 8 400
Totale N=400
.m o
on
mediana 40-50.
ho
36
Petracca Francesco L.
Scriviamo la seguente proporzione considerando i triangoli rettangoli
simili: (50-40):(266-152)=(x-40):(200-152) da cui si ricava
𝟏𝟎·𝟒𝟖
𝒙 − 𝟒𝟎 = = 𝟒, 𝟐𝟏 e quindi x=Mediana=44,21
𝟏𝟏𝟒
Osservazioni:
Media Aritmetica: e’ il valore più usato in docimologia per calcolare
il voto medio da assegnare agli studenti, nelle scienze sperimentali
per determinare la misura più probabile di una grandezza, in
meteorologia per calcolare la temperatura media o la caduta di
pioggia media, neve, grandine in un determinato intervallo di tempo,
in economia per calcolare salari medi, prezzi medi etc., in medicina
per scoprire la durata media di una malattia.
4.0 La variabilità
Campo di variazione
Scarto quadratico medio
Varianza
Coefficiente di variazione
Scostamento semplice medio
studenti voti
Marco 5 6 6 7
Lucia 4 5 7 8
Ludovica 3 4 8 9
38
Petracca Francesco L.
Marco
2,5
frequenze assolute
2
1,5
1
0,5
0
3 4 5 6 7 8 9
voti
Lucia
1,5
frequenze assolute
0,5
0
3 4 5 6 7 8 9
voti
Ludovica
1,2
frequenze assolute
1
0,8
0,6
0,4
0,2
0
3 4 5 6 7 8 9
voti
T his
39
eb
Petracca Francesco L.
o o
ki
o s
Dai grafici riportati possiamo notare che a parità di media aritmetica
M=M’=M’’=6 cambia l’intervallo di dispersione dei voti in quanto
esso aumenta passando dai voti di Marco a quelli di Ludovica.
40
Petracca Francesco L.
Possiamo dire che lo scarto misura la distanza di ciasun dato (x) dalla
media aritmetica(M).
𝐧
(𝐱
𝟏 𝐢
𝐌)𝟐
𝝈= con n= numero di osservazioni del campione
𝐧 𝟏
41
Petracca Francesco L.
ebo
This
μ=M
f
f
Esempio: f
μ=
Esercizio:
42
Petracca Francesco L.
4.3 Dall’istogramma alla Gaussiana
ned ow
ok is bo e
This
ook eb
is ow
ed n
by m
a s simo x
ondo .m
p(x)
otm h
a il . i t 2202
0 117-0 2 02-039
44
5 2
Petracca Francesco L.
j75 69-
im o.
m ass
e d by
n
ki s ow
eboo
This
La funzione densità di probabilità p(x) è simmetrica rispetto
al valore medio μ;
Il valore x=μ (media aritmetica) coincide anche con la moda
e la mediana della distribuzione continua della variabile
continua x
È asintotica all’asse delle x da entrambi i lati: la retta y=0 è
asintoto orizzontale della funzione
È crerscente per x<μ e decrescenter per x>μ
Possiede due punti di flesso per x=μ±σ (cambio di concavità
della funzione)
L’area sottesa dalla gaussiana vale 1 ( essendo 1 la probabilità
che una variabile casuale continua x sia compresa
nell’intervallo [+∞, -∞]
p(x) p(x)
x x
μ μ
45
Petracca Francesco L.
ebook is
his
99,73% dell’area è compresa tra μ-3σ e μ+3σ
T
p(x)
p(x)
p(x)
μ μ μ
x x x
piccolo σ grande σ
46
Petracca Francesco L.
4.5 La distribuzione Normale Standardizzata
(𝐱 𝛍)𝟐
𝟏
La funzione densità di probabilità 𝒑(𝒙) = 𝒇(𝒙) = 𝒆 𝟐𝛔𝟐 si
𝛔√𝟐𝛑
trasforma nella funzione normalizzata standardizzata per una
𝐱 𝛍
comodità nel calcolo delle aree. Posto 𝒛 = la nuova
𝛔
funzione densità di probabilità avrà media μ=0 e scarto
quadratico medio uguale a σ=1.
La nuova funzione densità di probabilità standardizzata avrà la
forma:
n d o hotma il.it 220
𝟏
ass im o 𝐳𝟐
.m o
is
𝒑(𝒛) =
owne by m
d 𝒇(𝒛) = 𝒆 𝟐
Th is e b o o k √𝟐𝛑
e grafico:
μ=0; σ=1
47
Petracca Francesco L.
Per calcolare l’area nell’intervallo [0,Z] possiamo utilizzare la tabella
in basso e nell’ipotesi di avere z=1,24 l’area sottesa dalla curva vale
0,3925 ottenuta come intersezione della riga 1,2 e della colonna 0,04
in quanto la loro somma deve essere uguale a 1,24.
Th
is e
bo
ok
is o
wn
ed
by
ma
ssi
mo
.m
on
do
ho
tm
ail.
it 2
2
48
Petracca Francesco L.
Il calcolo dell’area sottesa dalla gaussiana si presenta di facile
soluzione senza utilizzare l’integrale definito, utilizzando la tabella
sopra riportata e ricordando il significato pratico dell’area:
Th
is
eb
oo
ki
so
wn
𝟏.𝟗𝟔
ed
𝟏 𝐳𝟐 by
𝒆 𝟐 𝐝𝒛 = 𝟎. 𝟒𝟕𝟓𝟎 (tabella)
m
√𝟐𝛑 as
𝟎 sim
o.
m
on
do
ho
tm
ail
.i
49
Petracca Francesco L.
This e
𝟏.𝟎
𝐳𝟐
book
𝟏
𝒆 𝟐 𝐝𝒛 = 𝟎. 𝟔𝟖𝟐𝟔 (tabella)
√𝟐𝛑
𝟏.𝟎
is ow
ned
by ma
s
simo.
mond
o hot
𝟐.𝟓
mail.i
𝐳𝟐
𝟏
𝒆 𝟐 𝐝𝒛 = 𝟎. 𝟑𝟎𝟐𝟑 (tabella)
√𝟐𝛑
𝟎.𝟓
t 220
2011
50
Petracca Francesco L.
9-j7
Q3 è la mediana della seconda metà lasciando il 75% dei dati in basso
e il 25% in alto. Possiamo dire che oltre la mediana si definiscono
degli indici di posizione non centrale come i quartili Q1(detto 25-
esimo percentile) e Q3 (detto 75-esimo percentile), il quartile Q2(50-
esimo percentile) coincide come abbiamo visto con la mediana dei
dati. Per il calcolo dei quartili si segue una regola simile a quella usata
per il calcolo della mediana.
Esercizio:
Supponiamo di avere raccolto i seguenti dati:
[34,42,1,34,19,42,25,35,21,15,9,10,14,37]
[1,9,10,14,15,19,21,25,34,34,35,37,42,42]
La mediana M=Q2=
𝟐𝟏 𝟐𝟓
=
𝟒𝟔
= 𝟐𝟑 il.it2
𝟐 𝟐
t m a
do ho
M rappresenta anche il secondo quartile Q2 detto ancheo50-esimon
percentile in quanto lascia in basso il 50% dei datiim o.m Il quartile
ordinati.
s
b y mas trovando le mediane
Q1 e il quartile Q3 si determinano con facilità
della prima metà dei dati e dellaeseconda
d metà dei dati:
i s own
[1,9,10,14,15,19,21,25,34,34,35,37,42,42]
e b ook
Thi s
Q2=23
Q1=14 Q3=35
51
Petracca Francesco L.
-0 0 20117
Possiamo meglio rappresentare i quartili in questo modo:
22
Q1=14 [1,9,10,14,15,19,21,25,34,34,35,37,42,42]
ail . it
do hotm
25% 75%
Q2=23 [1,9,10,14,15,19,21,25,34,34,35,37,42,42]
o. m on
sim
Q3=35 [1,9,10,14,15,19,21,25,34,34,35,37,42,42] by mas
Il percentile del 15% rappresenta il dato che con tutti i dati ordinati
wned
52
Petracca Francesco L.
k
eboo
This
Linee percentili di crescita
53
Petracca Francesco L.
GLOSSARIO
-0 2
multivariata
s
Medie
ne
Di posizione Algebriche
o w
is
ok
-aritmetica
o
-moda
eb
-quadratica
-mediana
s
-geometrica
h i
T
-armonica
54
Petracca Francesco L.
Statistica Descrittiva= le informazioni provengono dall’intera
popolazione
Statistica inferenziale=le informazioni provengono dal
campione
Frequenza o frequenza assoluta= rappresenta il numero di
volte F in cui si ripete la modalità nel campione esaminato
Frequenza relativa= rappresenta il rapporto tra la frequenza
assoluta F e il numero delle unità statistiche N: f=F/N
Frequenza percentuale= rappresenta la frequenza relativa
per 100: f=(F/N)*100
Frequenza cumulata= rappresenta la somma delle frequenze
delle modalità inferiori o uguali ad una data modalità
𝑵 = ∑𝐅𝐢
ok
𝐢
o
= 𝟑𝟏𝟎
eb
Modalità
is
Th
55
Petracca Francesco L.
Con la statistica descrittiva si raccolgono le informazioni sull’intera
popolazione, si organizzano in distribuzioni semplici (univariate) o
complesse (almeno bivariate) con una successiva sintesi numerica
attraverso indici di tendeza centrale, indici di forma o rapporti by
statistici, per ultimo si rappresentano graficamente le
o o i s owned
principali
k
is eb descrittica si
Thstatistica
caratterisitche. I risultati che si ricavano dalla
definiscono “certi”.
56
Petracca Francesco L.
popolazione detta campione, all’intera popolazione a cui il campione
appartiene. Il campione è scelto solitamente mediante un
esperimento casuale (o aleatorio), detto schema di campionamento.
This
ebo 57
Petracca Francesco L.
Bibliografia
3
-0
9) Le Statistiche e la Statistica- prof. Tommaso Di Fonzo- Scuola
02
Superiore di Statistica e di Analisi Sociali ed Economiche
02
10) “Calcolo Combinatorio e delle Probabilità”- StreetLib- autore
7-
Petracca Francesco Luigi
11
20
11) Statistica & Società: rivista quadrimestrale per la diffusione della
20
cultura statistica anno III / 2014 – Numero Speciale
12) Appunti prof. Claudio Capiluppi Facoltà di Scienze dellat2
l.i
Formazione
ai
tm
58
eb
Petracca Francesco L.
is
Th
Th
i se
bo ok
is ow
n ed b y m a s