Sei sulla pagina 1di 64

Fondamenti di

Statistica
Petracca Francesco Luigi

Prima Parte

Th
is
eb
oo nuvola di parole
ki
so
wn
ed
by
m
as
sim
o.
m
PETRACCA FRANCESCO LUIGI

i l.i
a
tm
ho
d o
on
m
o.
s im
as
m
by
e d
own
is
o ok
b dal corpus degli articoli de il sole 24 ore che
* In copertina “Nuvola di parole” proveniente
contengono l’espressione “big data” –eanno 2013
h is
T

Petracca Francesco L.
Th
is
eb
oo
………qualunque sia l’ambito di
k
is
applicazione, la statistica può essere vista
ow
ne
come uno strumento di supporto alle
by
d
decisioni in condizioni di incertezza.
as
m
si
m
o.
m
…..la statistica è la scienza dei fenomeni
on
do
collettivi. Ci aiuta a passare dalla estrema
tm
ho
variabilità dei fenomeni (economici,
l.i
ai
20
t2 demografici, sociali…) a modelli
20 interpretativi della realtà che ci circonda,
attraverso la classificazione e l’astrazione
1

…la statistica aiuta dunque a


comprendere i fenomeni sociali e a fare
scelte … ed è condizione essenziale per la
partecipazione di tutti i cittadini alla vita
della collettività.

Petracca Francesco L.
Fondamenti di Statistica
PETRACCA FRANCESCO LUIGI

“…….. la statistica per aiutare il cittadino


ad inserirsi nel mondo del lavoro in una
società dell’informazione in veloce
cambiamento”.

Perché conoscere la Statistica?

Perché viviamo in una società complessa, basata


sull’informazione e la conoscenza, in cui si chiede ad ognuno di
prendere continuamente decisioni, avere la capacità di
comprendere e utilizzare la mole di informazioni diffuse dai
mezzi di comunicazione e quindi di decidere sulle scelte da fare.
Per il cittadino diventa pertanto importante possedere gli
strumenti necessari per fare una scelta oculata, consapevole
che si opera quotidianamente in condizioni di incertezza,
tenuto conto dei numerosi fattori che possono condizionare la
This

scelta. La statistica diventa così indispensabile in quanto


fornisce strumenti di studio e lettura della realtà al cittadino,
offrendo continue soluzioni a problemi concreti.
boo e
k i s o

Petracca Francesco L.
db wne
is
o ok
eb
is
Th

VALUTARE
SODDISFARE
CAPIRE CURIOSITA’

PERCHE’ LA
STATISTICA?

PREVEDERE/
SCEGLIERE/
OPERARE
DECIDERE

PER NON FARSI


IMBROGLIARE

Petracca Francesco L.
Indice
Introduzione.……….………………………………………………………………..……….2
1.0 La statistica oggi…………………………………….………………………………….3
1.1 La statistica descrittiva e inferenziale…..…..……………………………….4
1.2 L’indagine statistica…….…………………………………………..………………..6
1.3 Rilevazione statistica………………………………………..……..………………..7
1.4 I caratteri o variabili casuali di una unità statistica………………….…11
1.5 Lo spoglio dei dati…………..……………………………………………………….14
1.6 Diagramma a blocchi per la statistica descrittiva………………………15
2.0 Rappresentazioni grafiche delle distribuzioni statistiche……….…17
2.1 Rappresentazioni grafiche di caratteri qualitativi ……………………17
2.2 Rappresentazioni grafiche di caratteri quantitativi ...................22
Th3.0
3.1
Indici di tendenza centrale....................................................……26
is media aritmetica …….………………………………………………………… 27
La
eb
3.2 Proprietà della media aritmetica………………..……........................29
3.3 Mediaoogeometrica…..………………………………………………………………30
ki
3.4 Media quadratica.……………………………………………………………….….30
so
wn
3.5 Media armonica……………………………………………………………….…..30
3.6.Scelta della media e e dordine delle medie …………………………………31
3.7 Medie di posizione (moda by e mediana)…………………………………….31
ma
4.0 La variabilità……..………..…………………………………………………………..37
ss
4.0 Interpretazione degli indici di variabilità………………………………….38
im
o.m
4.1 Campo di variazione C.V…………………………………………………………..38
on
4.2 Scarto quadratico medio (σ) e varianza (σ2)………………………………40
4.3 Dall’istogramma alla gaussiana………………………………………………..43 do
4.4 La forma della distribuzione normale……………………………………….46
ho
tm
4.5 La distribuzione normale standardizzata………………………………….47 ail
4.6 Quartili e percentili………………………………………………………………….50
.it
22
Glossario 02
Bibliografia 01
17
-0

1
Petracca Francesco L.
Th
is e
bo
Introduzione
ok
is o
w
ne per una esigenza pratica di
La Statistica nasce come altre scienze
db
risolvere problemi concreti, accompagnatay solo
m successivamente
as
sim
dalla trattazione teorica con la nascita della cosiddetta fase
o.m
onera
metodologica. Sappiamo dalla storia che nelle antiche civiltà
do
diffusa la pratica di ricorrere al conteggio e all’enumerazione per ho
tm
scopi fiscali e militari. Tra le civiltà che attuarono rilevazioni per
ail.
determinare la Popolazione nel suo complesso, gli uomini idonei alle
armi e la determinazione del gettito derivante dalle imposte,
ricordiamo per ordine cronologico:
 Egitto ( III° millennio A.C. )
 Mesopotamia ( 2800 A.C. )
 Ebrei ( 1200 A.C. )
 India ( 313 A.C. )
 Cina
 Roma: I° censimento 578 A.C.
 Inghilterra: Guglielmo il Conquistatore “Domesday Book”
1086
 Registri Veneziani 1268
 I° censimento Americano 1790
 I° censimento Inglese 1801

2
Petracca Francesco L.
Il vocabolo statistica risale al XVII sec. col significato di “Scienza dello
Stato”. Era, infatti, l’attività volta a raccogliere e ordinare
informazioni utili all’amministrazione pubblica: entità e
composizione della popolazione, movimenti migratori, mutamenti
anagrafici, tavole di natalità e mortalità, dati sui commerci, le
importazioni e le esportazioni, sui raccolti, sulla distribuzione della
ricchezza, sull’istruzione e la sanità.

1.0 La statistica oggi


La statistica la possiamo definire come una scienza che studia i
fenomeni collettivi di “qualunque genere” servendosi di metodi
mo.m assi
matematici basati sul calcolo delle probabilità: la statistica è un
m
ne d b y
s ow ook i
metodo di studio di caratteri variabili rilevabili su collettività, avente
T h i s e b
lo scopo di sintetizzare le informazioni disponibili e di estendere
induttivamente i risultati a casi più generali. Essa si divide in
 Statistica metodologica
 Statistica applicata
Parlando di statistica metodologica facciamo riferimento al “metodo
Statistico” che consente all’uomo di studiare i “fenomeni” che gli
accadono intorno, attraverso:
 la raccolta
 la classificazione
 l’organizzazione
3
Petracca Francesco L.
do
mon
o.
ssim
 la sintesi
 l’analisi

y ma
 l’interpretazione

ed b
dei dati osservati nelle scienze empiriche.
Attualmente la statistica applicata riguarda ambiti come:

own
 Amministrazioni pubbliche

ok is
 Economia
 Ric. di Mercato e Sondaggi

ebo
 Finanza

This
 Genetica
 Medicina
 Psicologia,
 Giurisprudenza
 Studi storiografici e letterali

1.1 La statistica descrittiva e inferenziale


Statistica descrittiva: si occupa della raccolta completa dei dati
relativi a un certo campione di individui con lo scopo di sintetizzare,
ossia predisporre i dati raccolti in una forma ( tabelle, sintesi
numeriche, grafici) che consenta di comprendere in modo chiaro i
fenomeni per descrivere matematicamente il contenuto
dell’indagine svolta.

4
Petracca Francesco L.
Statistica inferenziale o induttiva: ricordiamo che una delle attività
della statistica è quella di trarre conclusioni riguardo al tutto
”popolazione” osservando una parte “campione”. Quando parliamo
di popolazione di individui pensiamo a persone, animali, bulloni
prodotti da una fabbrica, persone colpite da una malattia, cittadini
chiamati a votare etc. Quello che facciamo con la statistica
inferenziale è scegliere una parte della popolazione chiamata
"campione” e dai risultati ottenuti sul campione, “stimare” le
caratteristiche della popolazione. Attraverso le regole del calcolo
delle probabilità siamo in grado di valutare la qualità della stima
realizzata sul campione come il “livello di confidenza” o il “margine di
errore”. Quanto detto avrà senso solo se la scelta del campione è tale
da essere rappresentativo dell’insieme della popolazione.
s eb Thi
ki oo
s o w
d ne
by

5
m

Petracca Francesco L.
ass
im
1.2 L’indagine statistica
L’indagine statistica può essere definita come lo strumento
attraverso il quale si acquisiscono informazioni attraverso la
conoscenza delle sue manifestazioni su un collettivo di unità
statistiche (popolazione). L’indagine statistica si articola attraverso le
seguenti fasi:
Determinazione del fenomeno da
sottoporre alla ricerca statistica
Th
is

Determinazione della “popolazione”,


eb

oggetto dell’indagine statistica e delle


oo

“unità statistiche” che la compongono


ki
so

Determinazione dei caratteri per ogni


wn

“unità statistica” e delle “modalità” di


ed

quel carattere
by
ma

Rilevazione dei dati statistici


s sim

Spoglio e rappresentazione grafica dei


o.m

dati
on
do

Elaborazione dei dati statistici:


ho

 Formulare leggi empiriche


tm

 Ricavare previsioni
ail

 Operare scelte e prendere


.it

decisioni
22
02

6
01

Petracca Francesco L.
17
ed by m
wn
1.3 Rilevazione statistica

ook is o
Riportiamo con uno schema sintetico le fasi della rilevazione
statistica con le rispettive caratteristiche e loro definizioni:

This eb
“popolazione”

unità statistiche

Caratteri “unità statistiche”

Caratteri Caratteri
qualitativi quantitativi

modalità non modalità numeriche:


numeriche: intensità, oppure
aggettivi, nomi, classi d’intensità
professioni etc.

Serie statistica: seriazione statistica:


successione dei dati successione dei dati
statistici cioè delle statistici cioè delle
frequenze frequenze

7
Petracca Francesco L.
Continuo: le intensità
formano un insieme
continuo
Caratteri
quantitativi

Discreto: le intensità
assumono soltanto
valori discreti

Definizioni:

 Popolazione: insieme delle unità statistiche oggetto di


studio: si può trattare di popolazione di individui,
popolazione di pezzi prodotti da una fabbrica, insieme di
persone affette da una determinata malattia, le squadre di
calcio iscritte ai campionati professionistici, cittadini con
diritto di voto etc. Campione

Popolazione
statistica
Th

Unità statistica
ebo is

8
k o

Petracca Francesco L.
is o
n w
Dal grafico si vede che la popolazione statistica è l’insieme di tutti i
singoli elementi (unità statistiche) sui quali verranno raccolte le
informazioni.

=unità statistica: ogni singolo elemento della popolazione

unità statistica (es. 1 persona)

Carattere statistico (esempio: colore del


vestito)
Modalità (es. azzurro, viola)
This
eboo
k is o
campione: parte della popolazione scelto per fare una stimane
w
sulle
d by
caratteristiche della popolazione mass

1) Assegnata la seguente tabella possiamo stabilire il tipo di


carattere e la modalità in questo modo:

Colore degli occhi Numero di studenti


Celeste 10
Grigio 5
Castano 20
Nero 3
Totale 50

 Popolazione= studenti da cui si rileva il colore degli occhi


 Unità statistica studente appartenente alla popolazione
 Colore occhi=carattere qualitativo
9
Petracca Francesco L.
-j7 3 -5269
9
 Modalità(celeste, grigio, etc)

3
 Numeri 10,5,20,..rappresentano i dati statistici, meglio la

2- 0
frequenza con cui si presenta una certa modalità.

0
0117-02
Ortogramma_1
25

2
20
numero studenti

15 it 220
10
il .
o hotma
5

0
colore occhi
ond

Celeste Grigio Castano Nero


simo.m

2) Assegnata la seguente tabella possiamo stabilire il tipo di


carattere e la modalità in questo modo:
a s

Numero delle stanze Numero delle abitazioni


m

1 1200
b y

2 2500
ed

3 4100
4 5234
wn

5 5300
ok is o

Totale 18334
eb o

10
is

Petracca Francesco L.
T h
 Popolazione= abitazioni
 Unità statistica singola abitazione appartenente alla
popolazione
 Numero delle stanze=carattere quantitativo
 Modalità(1,2,3,4,5)
 Numeri 1200,2500,4100,..rappresentano i dati statistici,
meglio la frequenza con cui si presenta una certa modalità.

Ortogramma_2
on

6000
m

5000
o.

numero abitazioni
im

4000
s
as

3000
m

2000
by

1000
d
ne

0
numero stanze
ow
is

1 2 3 4 5
k
oo
eb

1.4 I caratteri o variabili casuali di una unità statistica


is

I caratteri di una unità statistica possono essere di tipo qualitativo o


Th

quantitativo. Sono caratteri di tipo qualitativo o categorici i caratteri


che si esprimono con aggettivi o nomi detti modalità. Possiamo
pensare al carattere “risultato di una partita di calcio” che si esprime
con aggettivi o modalità ”vinta, persa, pari”, oppure possiamo
pensare al carattere qualitativo “frutta” che si esprime con le
modalità ” mele, pesche, ciliegie, uva etc.” Ad ogni modalità si
associa un dato statistico che esprime quante volte si manifesta

11
Petracca Francesco L.
quella modalità (frequenza della modalità), mentre la successione di
dati statistici prende il nome di serie statistica.
Sono caratteri di tipo quantitativo i caratteri che si esprimono con
modalità numeriche (peso, altezza, etc.), a seconda che queste siano
espresse da numeri o da intervalli numerici prendono il nome di
intensità o classi di intensità. Possiamo pensare al carattere
quantitativo “numero delle stanze” che si esprime con modalità
”1,2,3,4,5”, i cui dati statistici (numero delle abitazioni), riportati
nella tabella precedente rappresentano la frequenza la cui
successione prende il nome di seriazione statistica. I caratteri di una
unità statistica definiti anche variabili casuali si possono
ulteriormente classificare come segue:

 Carattere o variabile quantitativa: assume valori numerici,

continua discreta

Assume valori continui in Assume valori discreti:


un intervallo: altezza, numero di figli, numero
peso, etc. di pazienti, etc.
This
ebo
o
k is

12
own

Petracca Francesco L.
ed
 Carattere o variabile qualitativa: assume valori non
numerici,

ordinale nominale

I dati sono in ordine Uomo/donna;


(titolo di studio) basso/medio/alto etc.

This

Esempi di caratteri/variabili di una unità statistica:

 Distanza tra la residenza e la scuola (carattere quantitativo)


 Risultato di una partita di calcio (carattere qualitativo)
 Numero di telefoni per famiglia (carattere quantitativo
discreto)
 Numero di telefonate per mese (carattere quantitativo
discreto)
 Titolo di studio (carattere qualitativo ordinale)
 Grado di soddisfazione (carattere qualitativo ordinale)
 Sesso(uomo/donna): carattere qualitativo nominale

13
Petracca Francesco L.
1.5 Lo spoglio dei dati
Lo spoglio e la classificazione dei risultati avviene raggruppando gli
elementi raccolti secondo i “caratteri da rilevare” delle unità
statistiche, formando le tabelle di spoglio. Le tabelle sono formate da
colonne o righe che fanno riferimento ai diversi “caratteri oggetto di
rilevazione” delle unità statistiche considerate. In ogni colonna o riga
si riportano i “dati” statistici di frequenza rilevati. Le tabelle
statistiche si possono classificare in:
 Tabelle semplici;
 Tabelle a doppia entrata
Esempi:
Tabella semplice
T

nella presente tabella si considera:

 Popolazione= 10.000 abitanti


 Unità statistica=singolo individuo
 Carattere quantitativo= statura espressa con modalità
numeriche e suddivisa in classi di intensità di 10 cm
 Dati statistici= distribuzione semplice di frequenze che
formano una successione detta seriazione

14
Petracca Francesco L.
wned by ma
Tabella a doppia entrata
o
This ebook is

nella presente tabella si considera:

 Popolazione= alunni
 Unità statistica=singolo alunno
 Primo Carattere qualitativo= professione del padre che si
esprime con le modalità (agricoltori, artigiani,
commercianti….);
 Secondo Carattere qualitativo= tipo di scuola che si esprime
con le modalità (Licei Cl. e Sci.; Ist. Tecnici, ….);
 Dati statistici= distribuzioni congiunte di frequenze che
formano una successione detta serie statistica.

1.6 Diagramma a blocchi per la statistica descrittiva


Riportiamo di seguito una sintesi a blocchi delle fasi che il lettore
seguirà nella lettura del manuale e che gli consentiranno di seguire
con linearità il testo:

15
Petracca Francesco L.
ondo hot
1° FASE Piano di

This ebook is owned by massimo.m


“Raccolta dei dati” rilevazione

2° FASE

“Rappresentazione dei dati”

tabelle grafici

3° FASE

“Elaborazione dei dati”

Calcolo: medie e
Indici di variabilità

16
Petracca Francesco L.
d by
k is owne
2.0 Rappresentazioni grafiche delle distribuzioni statistiche

Con le rappresentazioni grafiche rappresentiamo mediante figure


che possono essere linee, segmenti, solidi etc. una distribuzione di

This eboo
frequenze o intensità relative alle modalità associate ai rispettivi
caratteri qualitativi o quantitativi. Naturalmente in una indagine
statistica possiamo pensare di prendere in esame uno o più caratteri
con le rispettive modalità. Si possono presentare i seguenti casi:

 Distribuzione statistica semplice di un carattere qualitativo


o quantitativo;
 Distribuzione statistica doppia che può essere formata da
due caratteri qualitativi, due caratteri quantitativi o due
caratteri misti (qualitativi e quantitativi);
 Distribuzione statistica multipla con caratteri tutti qualitativi
o tutti quantitativi o misti.

Le distribuzioni sopra indicate si possono rappresentare mediante


tabelle o mediante grafici, ottenendo in quest’ultimo caso una
sintetica ed immediata descrizione e lettura dei dati. Riportiamo di
seguito i grafici utilizzati per rappresentare indagini statistiche dalla
cui unità statistica si rilevino caratteri qualitativi o quantitativi.

2.1 Rappresentazioni grafiche di caratteri qualitativi

a) grafici a barre od ortogrammi

Sono rappresentazioni simili agli istogrammi ma utilizzati per “serie


statistiche” ossia caratteri qualitativi. Possono anche caratterizzarsi
per più rettangoli affiancati.

17
Petracca Francesco L.
596
7
69-j
2
3-5 9 3
2-0 0 2
7-0
11 0
02 2
i l .it 2
a
tm o

La tabella riportata rappresenta due serie doppie sconnesse di


oh

frequenza (anno 1991 e 2003) riferite alla popolazione italiana


d

distinta per condizione e sesso. Di seguito rappresentiamo i caratteri


n
mo

qualitativi con un ortogramma a colonne riferito alla serie del 2003


con frequenze assolute .
.
s imo
s a m
by d
w ne
o
ok is
bo e is
Th

18
Petracca Francesco L.
Th
is ebook is
by ma owned
ssimo.m o n d o h o tmail.it

Popolazione italiana per condizione e sesso nel 2003


220201

Possiamo leggere quanto segue:

Unità statistiche: riferite alla popolazione italiana di età maggiore di


14 anni
1 7 -

Modalità_1 forze di lavoro, occupati, disoccupati, …..sull’asse delle


0 2

ascisse
0 2 -0393-526

19
Petracca Francesco L.
Modalità_2: sesso(M/F)

Frequenza assoluta con cui si presenta ogni modalità: riportata


sull’asse delle ordinate

b) grafici a nastri
T

Sono simili ai grafici a barre ma ruotati di 90°. I rettangolo hanno


his

altezze unitarie e di conseguenza le altezze delle basi sono uguali alle


eb

rispettive aree. A sinistra di ciascun rettangolo si pone l’etichetta


oo

della modalitò del carattere qualitativo, cui corrisponde la frequenza


k

rappresentata. Sotto tutti i nastri si riporta una scala di riferimento


i

orizzontale con l’indicazione delle frequenze rappresentate.

20
Petracca Francesco L.
Th
is
eb
oo
Il grafico sopra riportato rappresenta la speranza di vita alla nascita

ki
per regioni nel 2003 su dati ISTAT

so
c) Areogrammi o grafici a torta

wn
La frequenza totale è rappresentata dalla superficie del cerchio di

ed
raggio unitario, la frequenza di ciascuna modalità è invece

by
rappresentata dall’area del settore circolare.

ma
ssim
o.m
on
do
ho
tm
ail
.it
22
02
0
Per determinare l’ampiezza α dell’angolo al centro di ciascun settore
circolare si imposta la proporzione

Fa: Tutto= α: 360°


Tutte le rappresentazioni grafiche di caratteri qualitativi relativi a
serie sconnesse (modalità non ordinabili) sono tali che gli oggetti
usati per rappresentare le frequenze delle modalità possono essere
ordinati in qualsiasi modo in quanto le serie sconnesse non sono
ordinabili.

21
Petracca Francesco L.
2.2 Rappresentazione grafiche di caratteri quantitativi

a) L’Istogramma
Con l’istogramma rappresentiamo graficamente la forma di una
distribuzione di frequenze in classi, di una variabile quantitativa
continua X. Per costrire un istogramma si utilizza un sistema di
riferimento XOY e si dispongono sull’asse delle ascisse in ordine
crescente , le classi osservate della variabile quantitativa, ciascuna
con ampiezza [𝒙𝐢 , 𝒙𝐢 𝟏 ). Sull’asse delle ordinate invece disponiamo:

 Le frequenze assolute Fa o relative Fr delle classi, quando


hanno uguale ampiezza 𝒙𝐢 𝟏 − 𝒙𝐢 = 𝜹𝐢
 La densità come rapporto tra frequenza ed ampiezza della
𝐅𝐚
classe 𝒄𝐢 = , in questo modo l’area di ogni rettangolo
𝜹𝐢
rappresenta la frequenza assoluta Fa o relativa Fr: 𝐅𝐚 = 𝐜𝐢 ·
𝜹𝐢
 L’area di ogni istogramma rappresenta la somma delle
frequenze assolute ∑𝐅𝐚𝐢 o il valore 1 se si rappresentano le
frequenze relative Fr.

Esempio:

This
ebo
ok i
s ow
ned
by m
assCon classi di uguale ampiezza è indifferente utilizzare le due
imo
.mo rappresentazioni:

22
Petracca Francesco L.
23
Petracca Francesco L.
This ebook
is owned by
massimo.m
ondo hotm
o h o tm
.mond
Naturalmente con classi di ampiezza diversa avrei dovuto usare la
densità e non la frequenza assoluta Fa per non ottenere una

assimo
rappresentazione distorta del fenomeno.

b) Diagramma a bastoncini
E’ utilizzato in presenza di variabili quantitative discrete e i dati

d by m
tabellari sono forniti con una distribuzione di frequenze per modalità.
In questa rappresentazione utilizziamo il piano cartesiano XOY in cui
sull’asse delle ascisse riportiamo le modalità xk e sull’asse delle
ordinate le frequenze relative Fr. Il grafico in figura rappresenta il
s owne
diagramma a bastoncini del numero di componenti per famiglia di un
campione di donne:
book i
This e

24
Petracca Francesco L.
20 0
i l . i t 22
a tm
d o ho
n
.mo
c) Rappresentazione grafica di serie storiche
o
ssim a
Quando parliamo di serie storiche dobbiamo pensare a tabelle
ym
ed b
conteneti intesità di un carattere quantitativo rilevato per modalità
wn so
temporali (vendite di automobili negli ultimi 10 anni). Sull’asse delle
ok i
ascisse poniamo il tempo e sull’asse delle ordinate si riporta la ebo
frequenza.
This

25

20

15

10

0
0 2 4 6 8 10 12 14 16

Pensando naturalmente ad una tabella mista con caratteriri


qualitativi e quantitativi come quella riportata in figura, è possibile
utilizzare diverse rappresentazioni grafiche a seconda dei dati da
rappresentare.

25
Petracca Francesco L.
o w n e d by mas simo.mondo
This e b o o k is

Unità Varab. Varab. Varab. Varab.


statistiche Qualitativa Qualitativa Quantitativa Quantitativa
sconnessa ordinale discreta continua

3.0 Indice di tendenza centrale

In statistica avendo a disposizione una mole di dati è possibile


sintetizzare un insieme di misure ricorrendo ad un unico valore
“rappresentativo” che riassume o descrive i dati. Ci troviamo in una
fase dell’indagine statistica in cui i dati grezzi si trasformano in nuovi
dati caratterizzati dalla sinteticità. Considereremo tre indici
importanti:

26
Petracca Francesco L.
93-526
 ondo hotmail.it 22020117-0202-03
Indice di tendenza centrale
 Indice di dispersione
 Indice di posizione

Gli indicatori di tendenza centrale sono: la media, la mediana e la


moda.

3.1 La media aritmetica

La media aritmetica è una media algebrica che si ottiene


considerando tutti i dati e applicando una formula matematica, è
necessario pertanto che il carattere dell'indagine sia di tipo
quantitativo.
La media aritmetica è la misura di tendenza centrale per eccellenza.
This ebook is owned by massimo.m

La media aritmetica di un insieme di “n” valori x1, x2 ,……, xn di un


∑𝐧 𝐱 𝐱 𝐱 𝐱 𝐱 .... 𝐱
carattere quantitativo X è data da 𝝁 = 𝐢 𝟏 𝐢 = 𝟏 𝟐 𝟑 𝟒 𝐧
𝐧 𝐧
Possiamo dire che la media aritmetica ha le seguenti caratteristiche:

 Sintetizza la distribuzione di un carattere con un solo


valore;
 Dipende da tutti i valori osservati e pertanto risente dei
valori estremi (valori anomali)

Se indichiamo con p1, p2, p3, .., pn i pesi o frequenze possiamo


scrivere:
∑𝐧𝐢 𝟏 𝐱𝐢 𝐱𝟏 · 𝐩𝟏 + 𝐱𝟐 · 𝐩𝟐 + 𝐱𝟑 · 𝐩 + 𝐱𝟒 · 𝐩+. . . . +𝐱𝐧 · 𝐩𝐧
=
𝐧 𝐩𝟏 + 𝐩𝟐 + 𝐩𝟑 + 𝐩𝟒 . . . 𝐩𝐧
detta media ponderata.
Se prendiamo in esame la seguente tabella ottenuata dopo aver
determinato i dati grezzi di una indagine statistica
27
Petracca Francesco L.
dati frequenze
X1 f1=p1
X2 f2=p2
…….. ………
…….. ……..
Xn-1 fn-1=pn
Xn fn=pn-1
𝐧

𝒏= 𝒇𝐢 = 𝒑 𝐢
𝐢 𝟏
T h

∑𝐧𝐢 𝟏 𝐱𝐢
is

𝐱𝟏 𝐟𝟏 𝐱𝟐 𝐟𝟐 𝐱𝟑 𝐟𝟑 .....𝐱𝐧 𝐟𝐧
Il valore della media 𝝁 = = rappresenta
𝐧 𝐟𝟏 𝐟𝟐 𝐟𝟑 ....𝐟𝐧
bo e

la media ponderata perché ogni modalità del carattere quantitativo


o

si presenta con una frequenza fi. La media aritmetica gode inoltre


k

della proprietà che il suo valore sostituito a ciascuno degli Xi dati non
is

ne altera la somma:
w o
ne

𝐱𝟏 + 𝐱𝟐 + 𝐱𝟑 +. . . . . 𝐱𝐧 = 𝐌 + 𝐌 + 𝐌+. . . . . . . +𝐌 ricordando che


b d

𝐱𝟏 + 𝐱𝟐 + 𝐱𝟑 +. . . . . 𝐱𝐧
y

𝝁=𝑴=
𝐧
mas

Se siamo interessati a calcolare la media aritmetica per dati


s i

raggruppati in classi di intensità come in tabella:


mo .

Classi di voti Centri delle Frequenze (fi) Centri*frequenze


mo

classi (xi) (xi*fi)


[5; 5.5) 5.25 4 21.00
[5.5; 6) 5.75 5 28.75
[6; 6.5) 6.25 7 43.75
………………….. ………………. …………………. …………………….
𝐧 𝐧
∑ 𝒇𝐢 ∑𝐱𝐢 · 𝒇𝐢
𝐢 𝟏 𝐢 𝟏

28
Petracca Francesco L.
Per calcolare la media aritmetica lo studente dovrà sostituire ai dati
contenuti nelle classi il valore centrale (centro delle classi, media
aritmetica dei valori estremi) della classe considerata e poi procedere
al calcolo della media aritmetica con la formula usuale:
𝐧
∑𝐱𝐢 · 𝐟𝐢
𝐢 𝟏
𝑴=
∑𝐧𝐢 𝟏 𝐟𝐢

E’ importante sottolineare che la media aritmetica è influenzata dai


valori estremi della distribuzione, basti pensare che su una
distribuzione di dati come segue

[8, 5, 7, 6, 35, 5, 4]

la media M=10 non è un valore rappresentativo della distribuzione


perché solo un valore su 7 è superiore alla media.
is

3.2 Proprietà della media aritmetica


Th

Definiamo scarto della media aritmetica M, la differenza tra il valore


osservato e la media stessa:

𝒙𝐢 − 𝑴
Si può verificare la proprietà che la somma algebrica di tutti gli scarti
dalla media M è uguale a zero perché la somma degli scarti positivi
è uguale in valore assoluto a quella degli scarti negativi:
𝐧
(𝐱𝐢 − 𝐌) = 0
𝐢 𝟏

29
Petracca Francesco L.
3.3 Media geometrica

Se i valori sono tutti positivi e diversi da zero possiamo calcolare la


media geometrica con la formula

𝑮= 𝐧
𝐱𝟏 · 𝐱𝟐 · 𝐱𝟑 ······· 𝐱𝐧 (media geometrica semplice)

e rappresenta quel numero che sostituito ai valori 𝒙𝐢 lascia invariato


il prodotto. In presenza di dati 𝒙𝐢 con frequenza 𝒇𝐢 la formula
𝐍
diventa 𝑮 = 𝐱𝟏 𝐟𝟏 · 𝐱𝟐 𝐟𝟐 · 𝐱𝟑 𝐟𝟑 ······· 𝐱𝐧 𝐟𝐧 con 𝑵 = ∑𝐧𝐢 𝟏 𝒇𝐢

La media geometrica serve per distribuzioni che seguono una


progressione geometrica.

3.4 Media quadratica

Considerando i dati x1, x2, x3,………, xn, si definisce media quadratica


········
semplice l’espressione 𝑸 = 𝟏 𝟐 𝟑 𝐧
. In particolare
𝐧
se i dati x1, x2, x3,………, xn hanno frequenza f1, f2, f3,……………, fn la
Th
media quadratica è ponderata ed ha l’espressione:
is
eb
𝐱𝟏 ·𝐟𝟏 𝐱𝟐 ·𝐟𝟐 𝐱𝟑 ·𝐟𝟑 ········ 𝐱𝐧 ·𝐟𝐧
oo 𝐧
𝑸= con 𝑵 = ∑𝐟𝐢
𝐍 k 𝐢 𝟏
is
ow
ne
3.5 Media armonica
by
d
Considerando i dati x1, x2, x3,………, xn, si definisce media armonica
as
m
𝟏
simsemplice 𝑨 = 𝟏 𝟏 𝟏 𝟏 . In particolare se i dati x1, x2,
······
o. 𝐱𝟏 𝐱𝟐 𝐱𝟑 𝐱𝐧
m
on
d
30
Petracca Francesco L.
x3,………, xn hanno frequenza f1, f2, f3,……………, fn si ha la media
𝐍 𝐧
armonica ponderata: 𝑨 = 𝐟𝟏 𝐟𝟐 𝐟𝟑
Thi 𝐟𝐧 con 𝑵 = ∑𝐟𝐢 .
······ 𝐢 𝟏
𝐱𝟏 𝐱𝟐 𝐱𝟑
s eb 𝐱𝐧
ook
is o
wne
ym 3.6 Scelta della media e ordine delle medie
db
ass Possiamo solo dire che non esiste la media “migliore”, la media da
imo
. utilizzare deve essere scelta in funzione del problema da risolvere. La
media “migliore” da utilizzare va scelta a seconda dei dati e degli
scopi dell’elaborazione statistica.

Riguardo all’ordine delle medie, si dimostra che calcolando le medie


per gli stessi dati x1, x2, x3,………, xn, sussiste la seguente
diseguaglianza 𝑴𝟎 ≤ 𝑴 ≤ 𝑴𝟏 ≤ 𝑴𝟐 dove:

𝑴𝟎 = media armonica;

𝑴= media geometrica

𝑴𝟏 =media aritmetica

𝑴𝟐 =media quadratica

3.7 Medie di Posizione (moda e mediana)

A differenza delle medie algebriche, le medie di posizione


considerano soltanto alcuni dati che non sono eleborati con formule
matematiche ma si considera la loro posizione o ripetizione nella
distribuzione.

31
Petracca Francesco L.
a) Moda: si definisce moda di una distribuzione di frequenze il
dato/modalità avente la massima frequenza, se i dati sono
raggruppati in classi allora la moda è il punto centrale della
classe più frequente.
Se la frequenza maggiore è presente in una sola modalità , la
distribuzione si dirà unimodale, se due bimodale, se tre
trimodale etc.
Ricordiamo infine che la moda è l’unica tra le medie che
ammette “caratteri” sia quantitativi che qualitativi anche se
il suo uso ha maggiore significato con i caratteri qualitativi.

Esempio:
supponiamo di aver costruito la seguente tabella

This Reddito
ebookinis
milioni Frequenza
owned babitanti)
(n°
y massim
0 o.m
14 ondo ho
tmail.it
5 26

10 44
moda Frequenza maggiore
15 56

20 34

30 22

40 20

50 14

totali 230

32
Petracca Francesco L.
ortogramma
60
50
40
frequenze

30
20
10
This

0
0 5 10 15 20 30 40 50
ebo

Moda= 15 milioni reddito in ml


ok i
s ow

Possiamo dedurre sia dalla tabella che dalla rappresentazione grafica


che la modalità che ha maggiore frequenza è il reddito di 15 milioni a
ned

cui corrisponde la frequenza massima assoluta di 56 abitanti.

CLASSI MODALI: Se le modalità sono raggruppate in classi si


by m

determina la classe modale che ha frequenza maggiore nell’ipotesi


che le ampiezze delle classi siano costanti; in presenza di ampiezze di
ass

classi variabili come intervallo, si calcola la densità di frequenza


imo

dividendo ogni frequenza per l’ampiezza della relativa classe, in


questo caso la classe modale è individuata in corrispondenza della
.mo

densità di frequenza maggiore.


ndo h
otm

33
ail.it

Petracca Francesco L.
220
b) Mediana: rappresenta la modalità/dato che occupa la
posizione centrale di una distribuzione di dati “ordinata”. Per
determinare la mediana è importante che le modalità siano
disposte in ordine crescente o decrescente, la mediana è il
dato centrale. Si parla di mediana solo per caratteri
quantitativi o qualitativi ordinabili. Possiamo anche definire
la mediana come la modalità con frequenza cumulata pari al
50%. Nell’ordinare i dati in ordine crescente o decrescente
dobbiamo distinguere due casi:
 Numero di modalità dispari: la mediana è il valore
centrale;
 Numero di modalità pari: la mediana si ottiene
m a s s im o .mond
mediando i due dati centrali. ned by
h is e b o o k is ow
T di aver raccolto i seguenti dati(modalità)
Esempio_1: supponiamo

3 6 8 10 18

Media
La Mediana è il numero 8 perché esso rappresenta il dato centrale.

Esempio_2: supponiamo di aver raccolto i seguenti dati(modalità)

10 30 30 35 40 40

In questo caso poiché non esiste un dato centrale si calcolerà la


mediana fanendo la media aritmetica dei due dati centrali: Mediana
𝟑𝟎 𝟑𝟓 𝟔𝟓
= = ≈ 𝟑𝟐, 𝟓
𝟐 𝟐

34
Petracca Francesco L.
Esempio_3: Mediana di una distribuzione di frequenze

Nel caso di una distribuzione di frequenze è necessario calcolare le


frequenze cumulate.

Termini Frequenze Frequenze


This ebook is owned by mass Cumulate(*)
19 12 12
M= 21 20 32
23 18 50
25 7 57
27 2 59
30 1 60
Totale N=60
Se indichiamo con N la somma delle frequenze , si presentano due
casi:

- Medina = valore corrispondente a N/2 se N è pari


- Mediana=valore corrispondente a (N+1)/2 se N è dispari

Nel nostro caso N=60/2=30 con Mediana=21

(*)= vedi appendice

35
Petracca Francesco L.
T his e
boo
Esempio_4: Mediana di una distribuzione di frequenze con dati
raggruppati in classi

is k
Termini Frequenze Frequenze

o w
cumulate

ne
20-30 db 60 60
30-40 92 152
40-50 114 266
ym

50-60 86 352
a

60-70 40 392
sim s

70-80 8 400
Totale N=400
.m o
on

Poiché N è pari la mediana è il valore corrispondente ad N/2=200


d

come frequenza cumulata, che corrisponde al valore della classe


o

mediana 40-50.
ho

Per avere un valore preciso della mediana si imposta una proporzione


tm

dopo aver rappresentato i dati in un grafico sotto riportato, dove in


il.it a

ascissa riportiamo i termini e in ordinata le frequenze cumulate.


2 20
01 2
17-0

36
Petracca Francesco L.
Scriviamo la seguente proporzione considerando i triangoli rettangoli
simili: (50-40):(266-152)=(x-40):(200-152) da cui si ricava
𝟏𝟎·𝟒𝟖
𝒙 − 𝟒𝟎 = = 𝟒, 𝟐𝟏 e quindi x=Mediana=44,21
𝟏𝟏𝟒

Osservazioni:
Media Aritmetica: e’ il valore più usato in docimologia per calcolare
il voto medio da assegnare agli studenti, nelle scienze sperimentali
per determinare la misura più probabile di una grandezza, in
meteorologia per calcolare la temperatura media o la caduta di
pioggia media, neve, grandine in un determinato intervallo di tempo,
in economia per calcolare salari medi, prezzi medi etc., in medicina
per scoprire la durata media di una malattia.

Moda: molto utilizzata quando siamo interessati a considerare il dato


che si presenta con maggiore frequenza nell’insieme di modalità.

Mediana: meno utilizzata delle due precedenti, ma interessa nel


settore delle assicurazioni per determinare la lunghezza media della
vita, in farmacologia per determinare l’efficacia di un farmaco,
nell’industria per definire i livelli qualitativi di determinati prodotti.

4.0 La variabilità

I valori medi che abbiamo esaminato forniscono una descrizione


sintetica di una analisi statistica ma nulla ci dicono sulla dispersione
dei dati, ossia sulla variabilità. E’ necessario tenere presente che
l’informazione non può essere riassunta solo con le medie ma è
necessario tenere conto della variabilità dei “dati” o “modalità”.
Basti pensare che se un signore mangia un pollo e un altro non
mangia niente, la statistica utilizzando gli indici medi ci dice che i due Th
signori hanno mangiato mezzo pollo ciascuno e come questo altri
is e
37
Petracca Francesco L.
k
boo
e
his
T
esempi evidenzierebbero la contraddizione. Questo ci dice che per
riassumere l’informazione che i dati “modalità” contengono, è
necessario stimare la dispersione ricorrendo a misure di dispersione.
Gli indici di variabilità o indici di dispersione rappresentano gli
strumenti che consentono di stimare la variabilità di una
distribuzione statistica “quantitativa”. Per stimare la variabilità
ricorriamo ai seguenti indici di variabilità:

 Campo di variazione
 Scarto quadratico medio
 Varianza
 Coefficiente di variazione
 Scostamento semplice medio

4.0 Interpretazione degli indici di variabilità

4.1 Campo di variazione C.V.


Possiamo capire facilmente il problema se pensiamo di aver
effettuato una raccolta di dati su tre studenti nel pentamestre e di
aver rilevato le seguenti valutazioni in matematica:

studenti voti
Marco 5 6 6 7
Lucia 4 5 7 8
Ludovica 3 4 8 9

38
Petracca Francesco L.
Marco
2,5
frequenze assolute
2
1,5
1
0,5
0
3 4 5 6 7 8 9
voti

Lucia
1,5
frequenze assolute

0,5

0
3 4 5 6 7 8 9
voti

Ludovica
1,2
frequenze assolute

1
0,8
0,6
0,4
0,2
0
3 4 5 6 7 8 9
voti
T his

39
eb

Petracca Francesco L.
o o
ki
o s
Dai grafici riportati possiamo notare che a parità di media aritmetica
M=M’=M’’=6 cambia l’intervallo di dispersione dei voti in quanto
esso aumenta passando dai voti di Marco a quelli di Ludovica.

Se pensiamo al più semplice degli indici di variazione(C.V.) ovvero al


campo di variazione, dove 𝑪. 𝑽. = 𝑿𝐦𝐚𝐱 − 𝑿𝐦𝐢𝐧 possiamo osservare
che per ogni distribuzione di voti vista precedentemente, 𝑪. 𝑽.
fornisce una misura grossolana perché tiene conto del valore minimo
e del valore max trascurando i dati intermedi. Possiamo solo dire che
più C.V. è piccolo e più i dati sono concentrati, mentre più è grande
C.V. e più i dati sono dispersi. Considerando l’esempio delle tre
is e
Th distribuzioni di voto si ha:

𝑪. 𝑽.𝟏 = 𝟕 − 𝟓 = 𝟐 (minore dispersione dei voti)


b
𝑪. 𝑽.𝟐 = 𝟖 − 𝟒 = 𝟒
𝑪. 𝑽.𝟑 = 𝟗 − 𝟑 = 𝟔 (maggiore dispersione dei voti)

Analizzando gli indici di dispersione sappiamo solo che i voti di


Ludovica sono più dispersi dei voti di Lucia che a sua volta presenta
voti più dispersi di Marco.

4.2 Scarto quadratico medio (σ) e varianza (σ2)


Per utilizzare un indice di variabilità in grado di considerare tutte le
modalità dobbiamo introdurre il concetto di “scarto quadratico
medio”. Prima però è necessario introdurre la definizione di scarto
intendendo: scarto = x-media.
M x
Scarto=x-M

40
Petracca Francesco L.
Possiamo dire che lo scarto misura la distanza di ciasun dato (x) dalla
media aritmetica(M).

Assegnate le modalità 𝒙𝟏 , 𝒙𝟐 , 𝒙𝟑 , . . . . . 𝒙𝐧 sappiamo che la media


∑𝐧𝟏 𝐱 𝐢
aritmetica si calcola come 𝑴 = e gli scarti dalla media sono
𝐧
dati da: (𝐱𝟏 − 𝐌), (𝐱𝟐 − 𝐌), . . . . . . (𝐱𝐧 − 𝐌) detta successione degli
scarti, se gli eleviamo al quadrato si ottiene (𝐱𝟏 − 𝐌)𝟐 , (𝐱𝟐 −
𝐌)𝟐 , . . . . . . (𝐱𝐧 − 𝐌)𝟐 detta successione degli scarti quadratici che ha
la caratteristica che ogni elemento della successione è non negativo
e la loro somma e diversa da zero. Possiamo calcolare la nuova media
02
𝟐
𝐧
(𝐱
𝟏 𝐢
𝐌)𝟐
a i l . it 22
aritmetica degli scarti quadratici: 𝑴 = 𝝈 = che
𝐍
o h otmsi
chiama varianza. Per ottenere lo scarto quadraticoon d “σ” si
medio
. m
𝐧
(𝐱 𝐌)𝟐
𝟏 𝐢 s s imo
calcola 𝝈 = che hamlaa stessa unità di misura delle
d byalla formula precedente possiamo
𝐍
e
modalità iniziali. In alternativa
n
k i s ow 𝒏 𝒙𝟐𝒊·𝒇𝒊
boo 𝝈𝟐 = 𝟏 𝐍 − 𝑴𝟐 facilmente dimostrabile,
anche escrivere
s
hi
Tcon 𝑵 = ∑𝐧 𝐟 (numero di osservazioni dell’intera popolazione).
𝟏 𝐢
Se facciamo riferimento ad un campione di osservazione la formula
da utilizzare è la seguente:

𝐧
(𝐱
𝟏 𝐢
𝐌)𝟐
𝝈= con n= numero di osservazioni del campione
𝐧 𝟏

Diciamo subito che 𝝈 e 𝝈𝟐 forniscono informazione sulla


dispersione dei dati intorno al valore medio M; più sono piccoli e più
i dati sono concentrati, più sono grandi e maggiore è la loro
dispersione intorno al valore medio.

41
Petracca Francesco L.
ebo
This
μ=M
f

f
Esempio: f

μ=

Variazione di σ al variare della distribuzione delle frequenze (f) dei dati x

Esercizio:

Possiamo concludere dicendo che per il campione assegnato risulta


la media M=7 e la varianza σ2=27,5.

42
Petracca Francesco L.
4.3 Dall’istogramma alla Gaussiana
ned ow
ok is bo e
This

Consideriamo l’istogramma in figura ottenuto riportando sull’asse


delle ascisse la grandezza variabile “x” corrispondente ai valori
(x1,x2,x3,…..xn). Dividiamo l’asse delle x in intervalli di ampiezza ∆𝐱
tenedo presente che in detto intervallo possono essere comprese ni
valori della variabile x tali che l’area del singolo rettangolino soddisfi
𝐧𝐢
la condizione che ∆𝐱 · 𝒇𝐢 = . Ripetendo questo ragionamento per
𝐧
ogni rettangolino, si costruisce un grafico chiamato l’istogramma
delle frequenze , ossia un diagramma formato da rettangoli la cui
𝐧𝐢 𝐧𝐢
area soddisfa la condizione ∆𝐱 · 𝒇𝐢 = , dove rappresenta il
𝐧 𝐧
rapporto tra in numero dei casi favorevoli “ni” nell’intervallo ∆𝐱 e il
numero dei casi totali “n”.

All’aumentare del numero di osservazioni con ∆𝐱 → 𝒅𝐱 , l’istogramma


rappresentato tende alla curva di densità delle probabilità (vedi
Calcolo Combinatorio e delle Probabilità dello stesso autore)
43
Petracca Francesco L.
This
p(x) Curva inviluppo

ook eb
is ow
ed n
by m
a s simo x
ondo .m

p(x)
otm h
a il . i t 2202
0 117-0 2 02-039

La curva inviluppo dell’istogramma è rapresentata da una funzione a


campana riportata in figura, avente le seguenti caratteristiche:
3 -

44
5 2

Petracca Francesco L.
j75 69-
im o.
m ass
e d by
n
ki s ow
eboo
This
 La funzione densità di probabilità p(x) è simmetrica rispetto
al valore medio μ;
 Il valore x=μ (media aritmetica) coincide anche con la moda
e la mediana della distribuzione continua della variabile
continua x
 È asintotica all’asse delle x da entrambi i lati: la retta y=0 è
asintoto orizzontale della funzione
 È crerscente per x<μ e decrescenter per x>μ
 Possiede due punti di flesso per x=μ±σ (cambio di concavità
della funzione)
 L’area sottesa dalla gaussiana vale 1 ( essendo 1 la probabilità
che una variabile casuale continua x sia compresa
nell’intervallo [+∞, -∞]

p(x) p(x)

x x
μ μ

Sappiamo che la probabilità che la variabile casuale continua X sia

compresa nell’intervallo [c,d] è data da

Sappiamo inoltre che:

 68,26% dell’area è compresa tra μ-σ e μ+σ


 95,44% dell’area è compresa tra μ-2σ e μ+2σ

45
Petracca Francesco L.
ebook is
his
 99,73% dell’area è compresa tra μ-3σ e μ+3σ
T

Quindi la probabilità che la variabile casuale continua x sia compresa


nell’intervallo μ-σ e μ+σ è del 68,26%, la probabilità che la variabile
casuale continua x sia compresa nell’intervallo μ-2σ e μ+2σ è del
95,44%, la probabilità che la variabile casuale continua x sia
compresa nell’intervallo μ-3σ e μ+3σ è del 99,73%.

4.4 La forma della distribuzione Normale

p(x)

p(x)

p(x)

μ μ μ
x x x
piccolo σ grande σ

Abbiamo visto che la gaussiana presenta dei punti di flesso simmetrici


rispetto all’asse di simmetria, punti di flesso che hanno ascissa x=μ±σ.
Dai tre grafici di gaussiane riportati in alto si nota come la distanza
dei punti di flesso dall’asse di simmetria varia al variarte di σ e
passando dal grafico (a) al grafico (b) e (c) possiamo solo dire che la
campana passa da una forma stretta e slanciata verso l’alto (a) ad una
forma schiacciata e dilatata orizzontalmente (c) indicando che si
passa da un forte addensamento dei dati in un intorno della media μ
ad una forte dispersione dei dati in un intorno della media μ.

46
Petracca Francesco L.
4.5 La distribuzione Normale Standardizzata
(𝐱 𝛍)𝟐
𝟏
La funzione densità di probabilità 𝒑(𝒙) = 𝒇(𝒙) = 𝒆 𝟐𝛔𝟐 si
𝛔√𝟐𝛑
trasforma nella funzione normalizzata standardizzata per una
𝐱 𝛍
comodità nel calcolo delle aree. Posto 𝒛 = la nuova
𝛔
funzione densità di probabilità avrà media μ=0 e scarto
quadratico medio uguale a σ=1.
La nuova funzione densità di probabilità standardizzata avrà la
forma:
n d o hotma il.it 220
𝟏
ass im o 𝐳𝟐
.m o
is
𝒑(𝒛) =
owne by m
d 𝒇(𝒛) = 𝒆 𝟐

Th is e b o o k √𝟐𝛑
e grafico:

μ=0; σ=1

47
Petracca Francesco L.
Per calcolare l’area nell’intervallo [0,Z] possiamo utilizzare la tabella
in basso e nell’ipotesi di avere z=1,24 l’area sottesa dalla curva vale
0,3925 ottenuta come intersezione della riga 1,2 e della colonna 0,04
in quanto la loro somma deve essere uguale a 1,24.

Th
is e
bo
ok
is o
wn
ed
by
ma
ssi
mo
.m
on
do
ho
tm
ail.
it 2
2

48
Petracca Francesco L.
Il calcolo dell’area sottesa dalla gaussiana si presenta di facile
soluzione senza utilizzare l’integrale definito, utilizzando la tabella
sopra riportata e ricordando il significato pratico dell’area:

Th
is
eb
oo
ki
so
wn
𝟏.𝟗𝟔
ed
𝟏 𝐳𝟐 by
𝒆 𝟐 𝐝𝒛 = 𝟎. 𝟒𝟕𝟓𝟎 (tabella)
m
√𝟐𝛑 as
𝟎 sim
o.
m
on
do
ho
tm
ail
.i

49
Petracca Francesco L.
This e
𝟏.𝟎
𝐳𝟐
book
𝟏
𝒆 𝟐 𝐝𝒛 = 𝟎. 𝟔𝟖𝟐𝟔 (tabella)
√𝟐𝛑
𝟏.𝟎
is ow
ned
by ma
s
simo.
mond
o hot

𝟐.𝟓
mail.i

𝐳𝟐
𝟏
𝒆 𝟐 𝐝𝒛 = 𝟎. 𝟑𝟎𝟐𝟑 (tabella)
√𝟐𝛑
𝟎.𝟓
t 220
2011

4.6 Quartili e percentili

Abbiamo visto che assegnata una distribuzione di dati (modalità),


7-020

disposti in ordine crescente o decrescente, X1, X2,…..Xn, la mediana


detta anche secondo quartile Q2 è definità come il minimo valore
osservato tale che almeno il 50% (=1/2) dei dati è minore o uguale a
2-039

questo. Il primo quartile Q1 è la mediana della prima metà, lasciando


il 25% (=1/4) dei dati in basso e il 75% dei dati in alto, il terzo quartile
3-526

50
Petracca Francesco L.
9-j7
Q3 è la mediana della seconda metà lasciando il 75% dei dati in basso
e il 25% in alto. Possiamo dire che oltre la mediana si definiscono
degli indici di posizione non centrale come i quartili Q1(detto 25-
esimo percentile) e Q3 (detto 75-esimo percentile), il quartile Q2(50-
esimo percentile) coincide come abbiamo visto con la mediana dei
dati. Per il calcolo dei quartili si segue una regola simile a quella usata
per il calcolo della mediana.

Esercizio:
Supponiamo di avere raccolto i seguenti dati:

[34,42,1,34,19,42,25,35,21,15,9,10,14,37]

per calcolare la mediana li ordiniamo in ordine crescente:

[1,9,10,14,15,19,21,25,34,34,35,37,42,42]

La mediana M=Q2=
𝟐𝟏 𝟐𝟓
=
𝟒𝟔
= 𝟐𝟑 il.it2
𝟐 𝟐
t m a
do ho
M rappresenta anche il secondo quartile Q2 detto ancheo50-esimon
percentile in quanto lascia in basso il 50% dei datiim o.m Il quartile
ordinati.
s
b y mas trovando le mediane
Q1 e il quartile Q3 si determinano con facilità
della prima metà dei dati e dellaeseconda
d metà dei dati:
i s own
[1,9,10,14,15,19,21,25,34,34,35,37,42,42]
e b ook
Thi s
Q2=23

Q1=14 Q3=35

51
Petracca Francesco L.
-0 0 20117
Possiamo meglio rappresentare i quartili in questo modo:

22
Q1=14 [1,9,10,14,15,19,21,25,34,34,35,37,42,42]

ail . it
do hotm
25% 75%

Q2=23 [1,9,10,14,15,19,21,25,34,34,35,37,42,42]

o. m on
sim
Q3=35 [1,9,10,14,15,19,21,25,34,34,35,37,42,42] by mas

Il percentile del 15% rappresenta il dato che con tutti i dati ordinati
wned

in ordine crescente lascia in basso il 15% dei dati.


o o k is o
eb This

52
Petracca Francesco L.
k
eboo
This
Linee percentili di crescita

I grafici sopra riportati rappresentano le linee percentili che


definiscono il range considerato accettabile a seconda dell’età. È
preferibile che la curva di crescita non sia troppo al di sotto o al di
sopra la linea con percentile 50%. Un percentile in altezza di 50%
significa che il 50% dei bambini della sua età sono più alti e l’altro 50%
sono pi bassi.

53
Petracca Francesco L.
GLOSSARIO
-0 2

 Carattere= manifestazione del fenomeno economico-sociale


20

 Variabile=carattere che assume valori diversi


-0 7

 Dati= raccolta e analisi di informazioni sul fenomeno


11

statistico in forma numerica


0 2

 (Variabile/Carattere) qualitativa= si esprime mediante


20

aggettivi o nomi dette modalità (colore degli occhi, religione)


2

 (Variabile/Carattere) quantitativa= si esprime con modalità


l .it

numeriche (intensità) o intervalli numerici (classi di


a i
otm

intensità), esempio:statura, peso, durata delle batterie.


 Unità statistica= qualsiasi elemento portatore del carattere
h

o dei caratteri; su ciascuna unità statistica possaimo rilevare:


o
nd

- Una sola variabile/carattere: statistica univariata


o

- Due caratteri contemporaneamente: statistica bivariata


o.m

- Tre o più caratteri contemporaneamente:statistica


im

multivariata
s

 Indice di tendenza centrale= comprendono gli indici di


as

tendenza centrale (media, mediana, moda)


m y
db

Medie
ne

Di posizione Algebriche
o w
is
ok

-aritmetica
o

-moda
eb

-quadratica
-mediana
s

-geometrica
h i
T

-armonica

54
Petracca Francesco L.
 Statistica Descrittiva= le informazioni provengono dall’intera
popolazione
 Statistica inferenziale=le informazioni provengono dal
campione
 Frequenza o frequenza assoluta= rappresenta il numero di
volte F in cui si ripete la modalità nel campione esaminato
 Frequenza relativa= rappresenta il rapporto tra la frequenza
assoluta F e il numero delle unità statistiche N: f=F/N
 Frequenza percentuale= rappresenta la frequenza relativa
per 100: f=(F/N)*100
 Frequenza cumulata= rappresenta la somma delle frequenze
delle modalità inferiori o uguali ad una data modalità

Voto Frequenza Frequenza Frequenza Frequenza


relativa relativa cumulata
percentuale
6 62 0.20 20% 62
7 89 0.29 28.71% 151
8 87 0.28 28.06% 238
9 66 0.21 21.29% 304
10 6 0.02 1.94 310
is

𝑵 = ∑𝐅𝐢
ok

𝐢
o

= 𝟑𝟏𝟎
eb

Modalità
is
Th

 Popolazione= insieme delle unità statistiche portatrice della


Variabile /Carattere qualitativo o quantitativo

55
Petracca Francesco L.
Con la statistica descrittiva si raccolgono le informazioni sull’intera
popolazione, si organizzano in distribuzioni semplici (univariate) o
complesse (almeno bivariate) con una successiva sintesi numerica
attraverso indici di tendeza centrale, indici di forma o rapporti by
statistici, per ultimo si rappresentano graficamente le
o o i s owned
principali
k
is eb descrittica si
Thstatistica
caratterisitche. I risultati che si ricavano dalla
definiscono “certi”.

Esempi: censimento della popolazione italiana, rilevazione del


gradimento di una scuola.

Glossario per la Statistica Inferenziale


 Campione= è un sottoinsieme di unità statistiche estratte
dalla popolazione con opportuni criteri, in base ad un dato
schema di campionamento

Analisi inferenziale= si esegue attraverso:

- sintesi numerica: considerando le stime campionarie: la


media (μ), la varianza (σ2) e la deviazione standard (σ).
- Rappresentazione grafica della distribuzione del fenomeno
nel campione.

L’inferenza statistica studia come estendere i risultati e le


conclusioni che provengono dall’osservazione di una parte della

56
Petracca Francesco L.
popolazione detta campione, all’intera popolazione a cui il campione
appartiene. Il campione è scelto solitamente mediante un
esperimento casuale (o aleatorio), detto schema di campionamento.

L’inferenza statistica può essere definita come un processo opposto


al calcolo probabilistico, possiamo capire meglio se pensiamo ad una
estrazione di una pallina da un’urna contenente 6 palline rosse e 4
bianche. L’estrazione a caso di una pallina bianca ha la probabilità
(vedi libro dell’autore “Calcolo Combinatorio e delle Probabilità”) 0,4 di
essere estratta. Nel problema di inferenza statistica si estraggono a
caso “n” palline da un’urna di cui non si conosce la composizione, e a
partire dal colore delle palline estratte si cerca di inferire la
composizione dell’urna.
Esempi: proiezioni sull’esito delle elezioni politiche, verifica della
durata delle batterie prodotte per un modello di cellulare.

This
ebo 57
Petracca Francesco L.
Bibliografia

1) Storia della Statistica”Maria Pia Perelli D’Argenzio”


2) Fonte ISTAT (Istituto Nazionale di Statistica)
3) Matematica Sperimentale di Battelli e Moretti – C.P.E.
4) Appunti di Statistica prof. Fernando Di Gennaro
5) Fabio Aiello: Appunti di Statistica Sociale Università Kore di Enna
6) Blog dell’autore https://matepetracca.blogspot.it
7) Canale youTube “Petracca Francesco” dell’autore
8) Appunti prof. Paola Bortot Dipartimento di Scienze Statistiche
Università di Bologna

3
-0
9) Le Statistiche e la Statistica- prof. Tommaso Di Fonzo- Scuola

02
Superiore di Statistica e di Analisi Sociali ed Economiche

02
10) “Calcolo Combinatorio e delle Probabilità”- StreetLib- autore

7-
Petracca Francesco Luigi

11
20
11) Statistica & Società: rivista quadrimestrale per la diffusione della

20
cultura statistica anno III / 2014 – Numero Speciale
12) Appunti prof. Claudio Capiluppi Facoltà di Scienze dellat2
l.i
Formazione
ai
tm

13) Appunti di Andrea Pavan sulla distribuzione Normale


ho

14) Zuliani A., Statistiche come e perché. A cosa servono, come si


do

usano, Roma, Donzelli, 2010.


on

15) La certezza assoluta e le altre finzioni- Mondo Matematico


m
o.
m
si
as
m
by
d
ne
ow
is
k
oo

58
eb

Petracca Francesco L.
is
Th
Th
i se
bo ok
is ow
n ed b y m a s

Potrebbero piacerti anche