Sei sulla pagina 1di 155

lOMoARcPSD|7763213

Dispensa Statistica

Statistica (Università degli Studi di Napoli Federico II)

StuDocu is not sponsored or endorsed by any college or university


Downloaded by Francesca Maisto (francescamais22@gmail.com)
lOMoARcPSD|7763213

Nuova
Dispensa
Statistica

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

LA RILEVAZIONE STATISTICA
La statistica è la disciplina che ha come fine lo studio quantitativo e qualitativo di un particolare
fenomeno. Studia i modi (descritti sotto formule matematiche) in cui una realtà fenomenica,
limitatamente ai fenomeni collettivi, può essere sintetizzata e quindi compresa.

La scienza statistica è comunemente suddivisa in due branche principali:

- La statistica descrittiva: ha lo scopo di sintetizzare i dati attraverso i suoi strumenti grafici e


indici che descrivono gli aspetti salienti dei dati osservati.
- La statistica inferenziale: che ha come obiettivo quello di stabilire le caratteristiche dei dati e
dei comportamenti delle misure rilevate con possibilità di errore predeterminato. La
statistica inferenziale è fortemente legata alla teoria delle probabilità. Sotto questo aspetto
descrive in termini probabilistici o statistici un fenomeno aleatorio nel tempo,
caratterizzabile dunque da una variabile aleatoria (casuale) vuol dire descriverlo in termini
di densità di distribuzione di probabilità e dei suoi parametri di medio o valore atteso e
varianza.

Allo stesso tempo possiamo suddividere la statistica descrittiva in:


- Univariata, dove vi è un’unica variabile
- Bivariata, dove vi sono due variabili e si studia il nesso tra le due.

Oggetto della statistica è lo studio delle unità statistiche ovvero quegli elementi sui quali viene
effettuata la rivelazione e la misurazione di uno o più fenomeni, oggetti dell’indagine.
Tali unità statistiche vengono studiate attraverso uno specifico CARATTERE (o variabile).
Il carattere è uno degli aspetti delle unità statistiche oggetto di studio. Di ogni unità interessa
rilevare uno o più caratteri; se si considerano i ragazzi iscritti alla facoltà di ingegneria, sono esempi
di carattere il sesso, l’età, l’anno di corso, il tipo di auto posseduta etc.

Ogni carattere (o variabile), deve essere inquadrato in una delle seguenti categorie. Può essere
infatti:
- Quantitativo, qualora esprima un dato numericamente associabile; si pensi al voto in
statistica come in qualsiasi materia, questo può essere 18, 19, 20 e così via.
- Qualitativo, qualora esprima un dato numericamente non associabile; si pensi ai colori
dell’arcobaleno (blu, giallo etc.) oppure come vengono divisi i territori geografici (nord, sud,
centro)

Le variabili o i caratteri qualitativi si dividono inoltre in:


- Ordinali, ovvero in merito ad unità che posseggono naturalmente un ordine
- Nominali, ovvero per unità che non hanno ordine naturale (le malattie ad esempio)

Ogni carattere viene indicato con una lettera maiuscola dell’alfabeto. Ad esempio X = “Voto in
statistica”. Naturalmente il voto in statistica, come un qualsiasi altro carattere, si può manifestare in
diversi modi: può essere un qualsiasi valore da 18 a 30. Introduciamo quindi un ulteriore concetto
base della statistica: la MODALITA’.

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

La modalità, come si può facilmente intuire, rappresenta i diversi modi in cui si può manifestare il
carattere. Ad esempio il carattere X “lancio della moneta” si può manifestare come testa o croce.
Testa e croce rappresenteranno ciascuna una modalità del carattere suddetto. Il carattere sesso ha
modalità “maschio” e “femmina” e così via per ciascun carattere.
La modalità viene indicata con la stessa lettera con cui si indica il carattere, in formato minuscolo,
aggiungendo alla fine una lettera “i” come pedice. Tenendo conto dei carattere precedenti, le loro
modalità si indicheranno come segue:

𝐱𝐢
Dopo la raccolta dei singoli dati del carattere cui siamo interessati si passa ad una loro
catalogazione, attraverso un processo che prende il nome di DISTRIBUZIONE con la quale le
diverse modalità del carattere si distribuiscono nelle unità statistiche che compongono il collettivo
oggetto di studio.

Capita spesso che durante uno studio una singola modalità di verifichi più volte. Si pensi alla prima
sessione d’esame di statistica, ci saranno stati diversi voti pari a 18. Per non catalogare ogni singolo
voto che è stato conseguito all’esame per ciascuna persona (si dovrebbe segnare su un foglio tanti
18 quante sono le persone che hanno preso questo voto; ciò vorrebbe dire scrivere decine di volte
diciotto) si fa ricorso ad un ulteriore elemento: la FREQUENZA. La frequenza mi indica infatti
il numero delle volte che la modalità si è frequentata ovvero verificata. Si indica con 𝐧𝐢

𝐱 𝐢 𝐧𝐢 Prendiamo ad esempio alcuni dei voti dell’esame di statistica. Indichiamo quindi ciascuna
modalità e frequenza. Questa tabella ci dice che il voto 18 si è verificato dieci volte, il
18 10
voto 20 quindici volte e il voto 25 diciannove volte.
20 15 Quella riportata qui di fianco è un esempio di DISTRIBUZIONE PER FREQUENZE, in
25 19 quanto ad ogni modalità ricolleghiamo una determinata frequenza.

Se la variabile statistica presenta numerose modalità è conveniente un accorpamento delle stesse, si


opera quindi una DISTRIBUZIONE IN CLASSI. Si pensi alle possibili altezze di un uomo, queste
possono essere diversi valori che difficilmente, qualora si faccia uno studio su un determinato
quantitativo di persone, si ripeteranno per più volte. Per procedere quindi alle analisi statistiche si
preferisce creare una classe di valori, ovvero un intervallo tra due valori possibili cui si manifesti il
carattere. Nel caso delle altezze una classe potrebbe essere 1,30m – 1,50m nella cui classe cadranno
tutti quei soggetti che hanno un’altezza compresa tra 1,30m e 1,50m.
I valori che definiscono la classe presa in considerazione vengono separati per un piccolo
contrassegno al quale spesso si accompagna ad una delle due estremità dello stesso una sbarra. Tale
sbarra sta a significare che quel valore al suo fianco non viene preso in considerazione

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Una possibile distribuzione in classi potrebbe essere la seguente, nella quale indichiamo come
carattere il peso rilevato in un determinato collettivo di persone prese in studio:

𝐱𝐢 𝐧𝐢
50 -ǀ 55 5
55 -ǀ 60 6
60 -ǀ 65 4

Leggiamo quindi che 5 tra le persone studiate presentano un peso compreso tra 50 e 55 kg (con 55
escluso, in quanto abbiamo la sbarra di cui abbiamo parlato sopra), 6 persone hanno un peso
compreso tra 55 e 60 (con 60 escluso) mentre 4 persone hanno un peso compreso tra 60 e 65 (con
65 escluso).

Nel momento in cui si stia studiando una distribuzione in classi è necessario anche riportare per
ciascuna classe la corrispettiva AMPIEZZA (hi ). Questa è semplicemente data dalla differenza tra
il limite superiore e il limite inferiore della classe di riferimento. Si prenda ad esempio la prima
classe della tabella precedente; la sua ampiezza è data dalla differenza tra 55 e 50 quindi ha
un’ampiezza pari a 5. Questo concetto ci servirà in seguito.

Ritornando alla frequenze per ogni distribuzione che si incontrerà è sempre opportuno segnare al
termine della colonna delle frequenze ni il totale di frequenze che indicheremo semplicemente con
“n”, questo dato ci farà saltare immediatamente all’occhio quante persone o dati sono stati rilevati.
Riprendendo la distribuzione in classi precedenti si scriverà quindi:
𝐱𝐢 𝐧𝐢
50 -ǀ 55 5
55 -ǀ 60 6
60 -ǀ 65 4
n =15

Il dato n=15 ci dice quindi che sono stati rilevati in toto 15 dati.

Un’ultima precisazione n merito alle frequenze. Quelle che finora abbiamo indicato con ni
rappresentano le FREQUENZE ASSOLUTE. Si rilevano oltre a queste, in una qualsivoglia
distribuzione, ulteriori frequenze, prime fra tutte le FREQUENZE RELATIVE, indicate con fi .
Queste nascono dall’utilità di dividere ciascuna frequenza assoluta per il numero totale delle unità
statistiche n. Ogni frequenza relativa è quindi data da una semplice divisione, basti dividere ogni
singola frequenza assoluta per il totale di frequenze.

ni
fi = con 0 ≤ fi ≤1 ∑ fi = 1( ) 1

(1) Ricordarsi che la sommatoria delle singole frequenze relative è sempre 1.


4

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si considerino poi le FREQUENZE RELATIVE CUMULATE, indicate con Fi . La frequenza


relativa cumulata, come suggerisce lo stesso verbo “cumulare, sinonimo di “addizionare” nasce
dalla somma della frequenza relativa di riferimento e di quelle che la precedono.

Tali concetti risulteranno più chiari presentando un esempio. Si studi ad esempio il carattere X
“altezza delle persone”. Nello studio che si è operato si è deciso di dividere le singole altezze
rilevate per classi e si sono rilevate le relative frequenze:

𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢 𝐡𝐢
1.50 -ǀ 1.60 5 5/15 = 0.33 0.33+0 = 0.33 0.1
1.60 -ǀ 1.70 6 6/15 = 0.4 0.33+0.4 = 0.73 0.1
1.70 -ǀ 1.80 4 4/15 = 0.26 1 0.1
n =15 1

La frequenza relativa per ciascuna modalità è data semplicemente dalla frequenza assoluta
corrispondente divisa per il totale di frequenze. Al termine della colonna nella quale si epilogano le
frequenze relative è necessario controllare che la somma delle stesse sia pari ad 1 in quanto è una
condizione assolutamente necessaria (anche se la somma delle varie frequenze relative non fosse
esattamente 1 come in questo caso, lo si scriva lo stesso. Se tuttavia avessimo constatato che la
somma delle frequenze relative non dava un valore pari ad 1 o un valore almeno prossimo ad 1
allora era assolutamente necessario andare a ricontrollare i calcoli per ciascuna frequenza relativa).

Le frequenze relative cumulate non sono altro che la somma della frequenza relativa corrispondente
e di tutte quelle che la precedono. Nel caso della classe 1.50 -ǀ 1.60, ad esempio, dobbiamo
sommare la frequenza relativa 0.33 con le frequenze relative precedenti; ovviamente non ci sono
frequenze relative prima di questa e quindi si ha una frequenza relativa cumulata uguale alla
frequenza relativa (per la prima modalità questa condizione si deve verificare sempre). Inoltre
all’ultima modalità si rileva una frequenza relativa cumulata pari ad 1; anche questa è una
condizione che si deve necessariamente verificare, in quanto l’ultima frequenza relativa cumulata
sta ad indicare la somma dell’ultima frequenza relativa e di tutte quelle che la precedono, il che sta
a significare, sommare tutte le frequenze relative, la cui operazione deve darci un risultato
necessariamente pari ad 1.

Poiché si sta trattando una distribuzione per classi, è necessario anche definire le singole ampiezze.
Queste, si ricordi, sono date dalla differenza tra l’estremo superiore e l’estremo inferiore di ogni
classe. Quindi, considerando la prima classe, la corrispettiva ampiezza è data da 1.60 – 1.50 = 0.1

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

LE MEDIE
Primo fra gli indici statistici è la MEDIA. Questa si può distinguere in:

- Media razionale o algebrica: ovvero quelle che risultano dal concorso di tutti i valori assunti
dalla variabile statistica mediante un’espressione algebrica e sono le medie di potenza.
- Medie posizionali: sono quelle che risultano da particolari elementi della distribuzione, esse
sono: la moda, la mediana e i quartili.

Le prime risentono della numerosità del collettivo e le seconde no.

Per media si intende quella quantità 𝐱 che se sostituita a ciascun termine lascia inalterato il
risultato delle operazioni f eseguite.

Se f è la somma di termini, nel caso in cui le unità n statistiche sono disposte in una distribuzione
per unità, la media è data da:

2 ∑K
i=1 xi
𝐱= =M
n

Tale valore è la media aritmetica e viene indicato con M o anche con (x) . La media aritmetica è il
rapporto tra l’ammontare totale del carattere e il totale delle modalità.

Nel caso di una distribuzione di frequenze, con ni il numero di volte che il termine xi si ripete nel
collettivo, l’ammontare totale del carattere X si può ottenere secondo i prodotti della modalità e
delle relative frequenze.
In questo caso, se si tratta una distribuzione di frequenze la media, che prende il nome tecnico di
media ponderata, sarà data da:

∑K
i=1 xi ∙ni ( )
3
𝐱=
n
Con n si indica il totale delle frequenze.

Nella MEDIA PONDERATA (media pesata) i singoli valori prima di essere sommati vengono
moltiplicati per il peso a loro assegnato. Il peso generalmente è la frequenza ma può significare
anche l’importanza che il singolo valore riveste nella distribuzione. Ad esempio all’università di
economia è naturale che rivesta un peso maggiore l’esame di economia aziendale piuttosto che
quello di lingua francese, allora sarà naturale assegnare ai voti ottenuti un peso maggiore all’esame
di Economia Aziendale. In questo modo se anche si è preso un 25 a francese e 30 ad Economia
Aziendale la media si avvicinerà di più al voto con maggiore importanza, in questo caso economia
aziendale, poiché pesa maggiori crediti.

(2) Tale simbolo matematico viene letto”sommatoria per i che va da 1 a k”. Vuol dire che bisogna sommare tutte le
modalità da quella indicata con Xi fino a Xn, ovvero dalla prima all’ultima.
(3) Nella distribuzione per frequenze come si può desumere ogni modalità ha una propria frequenza e quindi ogni
modalità viene moltiplicato per la frequenza associata, per poi dividere la sommatoria per il totale delle frequenze.
6

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Prendiamo la seguente distribuzione:

𝐱𝐢 𝐧𝐢
18 5
20 3
22 1
n=9

Come calcoliamo la media di questa distribuzione? Seguendo la formula precedente basti sommare
i singoli prodotti tra singole modalità e corrispettive frequenze per poi dividere il tutto per il totale
di frequenze. Quindi avremo:
18∗5+20∗3+22∗1
x̅ =
9

90+60+22 172
x̅ = = = 19.11
9 9

La MEDIA ARMONICA è il reciproco della media aritmetica dei reciproci dei termini. È
particolarmente utile per qualche tipo di variabili come ad esempio per calcolare la velocità media
lungo un percorso.
n
Ma(4) = ni
∑k
i=1 xi
Quando si ha quindi a che fare con modalità che rappresentano delle velocità, che vengono quindi
misurate in km/h è necessario utilizzare questo tipo di media e non quella aritmetica, in quanto le
singole modalità sono espresse in un’unità di misura che rappresenta un rapporto tra due singole
misure: i chilometri e le ore.

Ad esempio, si voglia calcolare la media delle seguenti prestazioni offerte da una macchina: 80km/h
90km/h e 100km/h. Seguendo la formula precedente porremo al numeratore il numero totale di
frequenze e al denominatore la sommatoria dei rapporti tra frequenze e modalità. Ponendo tutto in
tabella abbiamo:

𝐱𝐢 80km/h 90kn/h 100km/h


𝐧𝐢 1 1 1 n=3

Ogni singola modalità del carattere X “velocità della macchina” si verifica una singola volta.
Questo è un esempio di quella che viene definita DISTRIBUZIONE PER UNITA’ in quanto tutte le
modalità si verificano una sola volta.

(4) È nient’altro che il reciproco della media normale. Si prenda infatti l’equazione alla nota 3 e si capovolga ogni
termine.
7

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Seguendo la formula avremo:

3
Ma = 1 1 1 = 89.25 km/h
+ +
80 90 100

La MEDIA GEOMETRICA avviene in caso di una f operazione di prodotto di termini, ad


esempio i tassi di crescita (inflazione, interessi, infatti ogni tasso è ricavato da un tasso precedente e
quindi la formazione di un tasso è legato a quello precedente e così via)

n(5)
Mg = √∏ki=1 xi ∙ ni

Il simbolo matematico Π (pi-greco) sta per “produttoria”. Come per il simbolo di sommatoria si
intendeva sommare tutti i singoli prodotti delle modalità per le rispettive frequenze, in questo caso,
è necessario moltiplicarli l’uno con l’altro. Si eseguano quindi prima di tutto le moltiplicazioni tra
modalità e frequenza e si moltiplichino poi tutti i valori, eseguendo in questo modo la produttoria.

ESERCIZIO: Negli ultimi cinque anni sono stati rilevati i seguenti tassi d’inflazione: 3.2% per il
1997, 2.7% per il 1998, 2.8% per il 1999, 2.2% per il 2000, 3.2% per il 2001

Trattandosi di valori percentuali dividiamo per 100 e sommiamo 1. Otteniamo così


1.032; 1.027; 1.028; 1.022; 1.032

5(6)
Quindi: ∏𝑖=1 𝑋𝑖 = 1.032*1.027*1.028*1.022*1.032=1.149142

Estraendo la radice quinta:


5
Mg = √1.1491 = 1.0281

A questo punto si sottragga al valore 1 precedentemente addizionato e si moltiplichi per 100. Il


tasso d’inflazione medio sarà quindi pari a 2.81%

(5) N è la somma di tutte le frequenze


(6) L’estremo superiore è 5, e il simbolo pi greco sta a dire che bisogna moltiplicare tutte le modalità fino alla quinta che
qui è 1.032
8

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

LA MEDIA QUADRATICA è il particolare tipo di operazione che viene eseguita per calcolare il
valore medio di modalità che sono espresse in un’unità di misura al quadrato come ad esempio il
metro quadrato (m2 ).

∑ x2i ∙ni
Mq = √
n

Quando si ha quindi a che fare con modalità espresse in unità di misura al quadrato si utilizzi questa
particolare formula.

ESEMPIO: Tizio ha due campi quadrati, uno di lato 1km il secondo di 2km. Vuole avere due
campi di uguale estensione, ovvero avere due campi quadrati che abbiano lo stesso lato.
Si ragioni, non basta fare la semplice media aritmetica tra 1 e 2. Infatti operando in questo modo
avremo un lato di 1.5km. Calcoliamo ora l’area di un campo quadrato con questo lato; questa sarà
data da 1.52 ovvero 2.25km2 . Considerando che Tizio possiede due campo di questo lato, avrebbe
in totale un campo di 5.5km2 . Questa operazione non è corretta in quanto Tizio possiede un’area
totale di 12 + 22 = 5 km2 . Si ricorre quindi per calcolare la lunghezza del lato del campo quadrato
alla formula della media quadratica:

12 + 22
Mq = √ = 1.58 km
2

Elevando infatti 1.582 avremo l’area di un singolo campo. Poiché Tizio ne possiede due con lo
stesso lato, basti moltiplicare l’area precedentemente calcolata per 2. Si noti quindi che si raggiunge
l’area totale a disposizione del nostro soggetto ovvero 5 km2 .

SIA BEN CHIARO! LE MEDIE SI APPLICANO PER VARIABILI QUANTITATIVE E


NON QUALITATIVE.

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

PROPRIETA’ DELLA MEDIA ARITMETICA SEMPLICE E PONDERATA

- Internalità: considerata una distribuzione in senso non decrescente,

x1 ≤ ……≤ xi ≤……. ≤ xn

la media aritmetica deve essere necessariamente interna alla distribuzione:

x1 ≤ M ≤ xn

Si pensi ad esempio ai seguenti valori: 1, 2 e 3. La media aritmetica (x̅) è pari a 2. Si può quindi
vedere che la proprietà dell’internalità è rispettata in quanto 2 è un valore compreso tra l’estremo
superiore e l’estremo inferiore della distribuzione, rispettivamente 1 e 3.

- Omogeneità: Moltiplicando (o dividendo) per una costante c appartenente all’insieme dei


numeri R i termini della distribuzione, la media risulta moltiplicata (o divisa) per la stessa
costante c.
Si faccia un esempio:

xi : 7 10 13 Mx : 10 c: 2
yi : 14 20 26 My : 20 = Mx * c

Si può quindi osservare che moltiplicando le modalità della distribuzione X , per la cui distribuzione
la media è pari a 10, per una costante pari a 2, giungiamo ad una nuova distribuzione che
indichiamo con la lettera Y. Questa distribuzione risulterà quindi con una nuova media che,
rispettando la legge dell’omogeneità risulta essere la media vecchia per la costante.

- Traslatività: Sommando (sottraendo) una costante c appartenente all’insieme dei numeri R


ai termini di una distribuzione la stessa costante è aggiunta (sottratta) alla media aritmetica.

Riprendiamo la distribuzione precedente e aggiungiamo ai termini della distribuzione una costante


c = 2:

xi : 7 10 13 Mx : 10 c: 2

Sommando questa costante a tutti i termini della distribuzione arriviamo a una nuova distribuzione:

yi : 9 12 15 My : 12 = Mx + c

Come si può vedere la media della nuova distribuzione risulta essere pari alla media vecchia,
sommata la costante pari a 2.

Combinando le due precedenti proprietà si può desumere che la media segue una distribuzione
̅ = 𝐚 + 𝐛𝐱̅
lineare del tipo y = a + bX. La media della nuova distribuzione Y è uguale a 𝐲

10

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

- Associatività: Dividendo un collettivo di numerosità n in c sottogruppi, la media aritmetica


ponderata è uguale alla media ponderata delle medie dei sottogruppi con pesi pari alla
frequenza di ogni sottogruppo.

Quindi dividiamo il campo di studio in due sottogruppi e invece di trovare subito la media totale
troviamo prima la media ponderata dei due sottogruppi e poi andiamo a ponderare queste ultime per
giungere alla media ponderata del complesso

Facciamo un esempio:

VOTO M F TOTALE
18 10 15 25
20 20 10 30
23 8 9 17
25 13 12 25
28 10 10 20
30 8 3 11
TOTALE 69 59 128

Per questa proprietà possiamo scindere il totale studenti in due gruppi al fine di effettuare
un’indagine più accurata. A tal proposito studiamo la MEDIA PONDERATA dei due sottogruppi.

1808+400+184+325+280+240
Xm(7) = = 23.32
69

270+200+207+300+280+90
Xf = = 22.83
59

I risultati scaturiscono dalla media ponderata a ciascun gruppo.. Ora bisogna corporale per trovare
la media ponderata totale. A tal fine si moltiplicherà la media per ogni gruppo per il totale delle
frequenze riferite a ciascuno e per poi dividere per il totale delle frequenze del complessivo.

xm∙nm + xf∙nf
x̅ =
nm+nf

23.32∗69+22.83∗59
x̅ = = 23.09
128

Per la proprietà associativa questa media deve essere uguale alla media dei totali se non avessimo
operato la divisione in sottogruppi, ovvero:

450(9)+600+391+625+560+330
x̅ = = 23.09
128

(7) La media ponderata riferita solo alle frequenze del sottogruppo maschile.
(8) Questo valore è dato dal prodotto di 18*10 ovvero la modalità per le frequenze del solo sottogruppo maschile. Gli
altri valori seguono la stessa logica.
(9) Questo valore è dato da 18*25 ovvero modalità per il totale delle frequenze riferite a ciascuna.
11

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: In un’azienda, il reddito medio degli impiegati uomini è di circa euro 35.000 annui,
quello delle donne impiegate è di euro 25.000, mentre il reddito medio generale è di euro 32.000.
Calcolare le frequenze relative degli impiegati uomini e delle impiegate donne.

xm = 35000

xf = 25000

xTOT = 32000

Si sa che la media totale è data, per la proprietà associativa da:


xm nm + xf nf
xTOT =
nm + nf
Quindi:
35000nm + 25000nf
xTOT =
nm + nf

A questo punto si possono rilevare, invece che le frequenze assolute, le frequenze relative (è come
se dividessi numeratore e denominatore per uno stesso numero, in questo caso le frequenze totali).
35000fm + 25000ff
xTOT =
fm + ff 1
Sappiamo che necessariamente la somma di tutte le frequenze relative deve essere uguale a 1 e
quindi si può creare il sistema:

35000fm + 25000ff = 32000 𝐟𝐦 = 𝟎. 𝟕


{
fm + ff = 1

35000fm + 25000ff = 32000 𝐟𝐟 = 𝟎. 𝟑


{
fm = 1 − ff

35000(1 − ff ) + 25000ff = 32000


{
fm = 1 − ff
35000 − 35000ff + 25000ff = 32000
{
fm = 1 − ff

10000ff = 3000
{
fm = 1 − ff

12

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

LE MEDIE DI POSIZIONE

LA MODA

La moda (𝐌𝟎 ) è la modalità che assume la massima frequenza. Prendendo la seguente distribuzione
la moda sarà ma modalità xi pari a 25

𝐱𝐢 𝐧𝐢

18 10

25 20

30 13

Si faccia molta attenzione quindi. La moda non è la massima frequenza, bensì la modalità che
assume la massima frequenza.

L’identificazione della moda, che risulta obbiettivamente facile da individuare in una distribuzione
per frequenze, richiede un ulteriore passaggio nel momento in cui si valuti una distribuzione per
classi. Prendiamo la seguente distribuzione:
𝐱𝐢 𝐧𝐢 𝐡𝐢 (10) In questo caso la moda è la classe 22 –ǀ 26 in quanto ha la
18 –ǀ 20 10 4 frequenza maggiore 50. Ma l’individuazione è stata facile
perché tutte le classi hanno la stessa ampiezza.
20 –ǀ 26 50 4
26–ǀ 30 20 4

Vediamo il caso in cui l’ampiezza non è uguale per le varie classi:

𝐱𝐢 𝐧𝐢 𝐡𝐢 𝐝𝐢 (𝐧𝐢 / 𝐡𝐢 )
18 –ǀ 20 10 2 5
20 –ǀ 26 15 6 2.5
26–ǀ 30 12 4 3

In questo caso in cui le ampiezze sono diverse, non si può dire che la moda appartiene alla classe
20 –ǀ 26 perché tali classi non sono omogenee, non hanno ovvero, la stessa ampiezza. Ho bisogno di
studiare un ulteriore parametro, la densità di frequenze. Questa, mettendo a rapporto il numero di
frequenze assolute e l’ampiezza della classe fornirà un dato utile alla rilevazione della moda. La
moda sarà quindi la modalità con densità di frequenza maggiore, in questo caso la classe 18 –ǀ 20.

(10) L’ampiezza h della classe è data dalla differenza tra l’estremo superiore e quello inferiore, in questo caso 22-18
13

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

LA MEDIANA

La MEDIANA è quel valore che una distribuzione ordinaria (dal più piccolo al più grande) la divide
a metà.

Esistono diversi metodi di calcolo della mediana, a seconda che si stia valutando una distribuzione
per unita, per frequenze o per classi.

Per quanto riguarda la DISTRIBUZIONE PER UNITA’, che ricordiamo è quel tipo di distribuzione
che si verifica qualora le diverse modalità si verificano una sola volta e solo una volta vengono
prese in considerazione (il che significa che si considera che tutte abbiano frequenza pari a 1),
abbiamo due metodi di calcolo della mediana che si differenziano l’uno dall’altro a seconda che il
totale di frequenze (che coincide con il numero delle modalità prese in considerazione – in quanto
hanno tutte frequenza pari a uno) sia pari o dispari.

- n = dispari
10 13 18 25 27

La mediana viene calcolata con la seguente formula:


n+1
Med = =
2

In questo esercizio avremo:


5+1
Med = =3
2

Quindi in questo esempio la mediana è alla terza posizione (18).

Si faccia quindi ATTENZIONE, che la mediana non presenta, in una distribuzione per unità il
valore medio, ma bensì la posizione del valore.
- n = pari
10 13 18 25 27 30
In questo caso la mediana viene calcolata con la seguente formula:

n n
+ +1
2 2
Med =
2

In questo caso, sostituendo, avremo un risultato pari a 3.5. Questo vuol dire che la mediana sta tra la
terza e la quarta posizione, cioè tra 18 e 25. Quindi si faccia la media aritmetica tra i due (18+25)/2
= 21.5

Fissato questo valore ci sono lo stesso numero di modalità a destra e sinistra.

14

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Analizziamo ora il metodo di procedimento per il calcolo della mediana in una DISTRIBUZIONE
PER FREQUENZE. Avvaliamoci della seguente tabella:

𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢 Si proceda con il calcolo delle frequenze relative fi e si


segua poi con le frequenze relative cumulate Fi (12).
18 10 0.243 0.243
25 13 0.317 0.56(11) Si vada a vedere quale frequenza relativa cumulata per
28 8 0.195 0.755 prima ha al suo interno il valore 0.5 che in termini di
30 10 0.243 1 frequenze relative cumulate (Fi ) mi indica una divisione
n = 41 della distribuzione in parti uguali.

In questo caso, quindi, la mediana è rappresentata dalla modalità 25 in quanto è la modalità che ha
per prima una frequenza relativa cumulata che comprende 0.5 al suo interno.

Passiamo ora al calcolo della mediana per una DISTRIBUZIONE IN CLASSI. Prendiamo in
considerazione della tabella seguente:

Per prima cosa si individui la classe mediana, quella che


𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢 ha per prima una frequenza relativa cumulata
18 –ǀ 23 10 0.243 0.243 Fi con 0.5 compreso. La classe mediana è quindi
23 –ǀ 26 13 0.317 0.56 23 –ǀ 26 e di continuo si usa la seguente formula:
26 –ǀ 28 8 0.195 0.755
28 –ǀ 30 10 0.243 1 𝐡𝐢 (𝟎.𝟓− 𝐅𝐢−𝟏 )
n = 41 Med = Limite inferiore +
𝐅𝐢 −𝐅𝐢−𝟏

Con il simbolo Fi−1 si intende la frequenza relativa cumulata precedente alla classa mediana
precedentemente individuata, quindi in questo caso 0.243.
Sostituendo i valori nella formula avremo:

3 (0.5− 0.243)
Med = 23 + = 25.4
0.56−0.243

NOTA BENE: La mediana, come anche i quartili, possono essere calcolati sia sulle variabili
quantitative che le variabili qualitative. Per queste ultime tuttavia deve verificarsi una precisa
condizione: le modalità devono rispettare un ordine naturale. Ad esempio non rispetta un ordine
naturale la variabile X “colori dell’arcobaleno”. Come si può dire infatti che il colore giallo deve
venire prima del colore blu? Non si può. Al contrario la variabile X “ripartizione geografica”
possiede un intrinseco ordine naturale. Si può infatti catalogare le singole modalità in ordine: nord,
centro e sud. Quindi nel momento in cui stiamo studiando una variabile qualitativa, prima di poter
procedere al calcolo della mediana (e dei quartili che vedremo in seguito) bisogna valutare se le
modalità possono essere naturalmente ordinate.

(11) In questo caso questo valore è dato da 0.317 + 0.243


(12) Ricordiamo le Frequenze relative cumulate, ovvero la frequenza relativa assegnata a ciascuna modalità sommate
quelle che la precedono
15

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

I QUARTILI

I quartili sono valori che ripartiscono una distribuzione in quattro parti ugualmente popolate.
Riconosciamo il primo quartile (𝐐𝟏 ), che divide la distribuzione in ¼ a sinistra e ¾ a destra,
secondo quartile (𝐐𝟐 ) che coincide con la mediana in quanto divide la distribuzione in ½ a destra e
½ a sinistra e il terzo quartile (𝐐𝟑 ) che divide la distribuzione in ¾ a sinistra e ¼ a destra.

Come per la mediana procediamo a particolari calcoli qualora si stia valutando una distribuzione per
unità, frequenze o per classi.

DISTRIBUZIONE PER UNITA’

- n = dispari

𝐧+𝟏 𝟑(𝐧+𝟏)
𝐐𝟏 = 𝐐𝟑 =
𝟒 𝟒

- n = pari

𝐧 𝐧
+ +𝟏 𝟑𝐧 𝟑𝐧
𝐐𝟏 = 𝟒 𝟒
𝐐𝟑 = + +𝟏
𝟐 𝟒 𝟒

Anche in questo caso il valore che risulterà dalla formula indicherà la posizione, nella distribuzione
per unità ordinata in maniera crescente, del valore del primo o terzo quartile.

DISTRIBUZIONE PER FREQUENZA

Il primo quartile 𝑄1 è quello che include 0.25 tra le Fi


𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢
Il terzo quartile 𝑄3 è quello che per primo ingloba 0.75
18 10 0.243 0.243
25 13 0.317 Si tenga inoltre presente che tranquillamente a una stessa modalità
0.56
28 8 0.195 possono corrispondere più quartili. Ad esempio può avvenire che
0.755
30 10 0.255 una stessa modalità ha al suo interno sia primo che secondo
1
quartile (o mediana). In questo caso infatti abbiamo che la
modalità 25 è sia primo quartile che mediana, in quanto la sua frequenza relativa cumulata è la
prima ad avere al suo interno 0.25 (che identifica il primo quartile) e 0.50 (che quantifica la
mediana).

16

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

DISTRIBUZIONE IN CLASSI

𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢 Per trovare 𝑄1 definiamo prima la classe primo quartile,


18 –ǀ 23 10 0.243 0.243 ovvero quella avente per prima una frequenza relativa
23 –ǀ 26 13 0.317 0.56 cumulata che ingloba 0.25 (in questo caso la classe 23 –ǀ
26) poi si usi la formula:
26 –ǀ 28 8 0.195 0.755
28 –ǀ 30 10 0.243 1 𝐡𝐢 (𝟎.𝟐𝟓− 𝐅𝐢−𝟏 )
𝐐𝟏 = limite inferiore +
𝐅𝐢−𝐅𝐢−𝟏

3 (0.25− 0.243)
= 23+ = 23.04
0.56−0.234

Specularmente per calcolare il terzo quartile bisogna prima definire la classe terzo quartile, quella
avente per prima una frequenza relativa cumulata che ingloba 0.75 (in questo caso la classe 26 –ǀ
28) per poi utilizzare la seguente formula:

𝐡𝐢 (𝟎.𝟕𝟓− 𝐅𝐢−𝟏 )
𝐐𝟑 = limite inferiore +
𝐅𝐢−𝐅𝐢−𝟏
2 (0.75− 0.56)
= 26 +
0.755−0.56

17

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

LA VARIABILITA’
La variabilità di un carattere X rilevato su “n” unità statistiche è l’attitudine di questo a manifestarsi
in diversi modi, ossia con diverse modalità.

Quando il carattere è quantitativo, la variabilità può essere misurata usando indici basati sulla
distanza delle modalità rispetto ad un indice di posizione (generalmente la media aritmetica o la
mediana).
Gli indici di variabilità più utilizzati sono la DEVIANZA, la VARIANZA e la DEVIAZIONE
STANDARD.

Se invece il carattere è qualitativo allora la variabilità verrà misurata con un INDICE DI


ETEROGENEITA’.

È necessario quindi operare un’importante distinzione. Per le variabili quantitative si parla di


VARIABILITA’ mentre per le variabili qualitative di parlerà di ETEROGENEITA’ o mutabilità.

Si possono avere:
- Indici di variabilità assoluta, che sono espressi nella stessa unità di misura delle unità
statistiche quindi non consentono di fare confronti tra le variabilità di distribuzioni espresse
in unità diverse di misura.
- Indici di variabilità relativa, sono indipendenti dall’’unità di misura (sono numeri puri
ovvero numeri senza unità di misura) e permettono confronti tra le distribuzioni.

INDICI DI VARIABILITA’ ASSOLUTA

DEVIANZA

La devianza (Dev(X)) è un indice di dispersione dei dati data dalla sommatoria degli scarti
quadratici:

Dev(X) = ∑(xi − x)2 ∙ ni

Guardando la formula di derivazione della devianza si arriva ad un’importantissima considerazione.


Siccome essa è data dalla sommatoria degli scarti al quadrato, la devianza deve essere un valore
NECESSARIAMENTE POSITIVO. Qualora si dovesse scrivere per la devianza un valore negativo,
questo sarebbe un errore di grandissima gravità.

18

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Consideriamo la seguente distribuzione e calcoliamo la devianza seguendo la formula precedente.

𝐱𝐢 𝐧𝐢 È prima di tutto necessario calcolare la media della distribuzione.


18 10
18∗10+25∗13+28∗8+30∗10
25 13 x̅ = = 25.09
41
28 8
30 10 Adesso procediamo a calcolare gli scarti tra le singole modalità e la media, si
n = 41 elevano al quadrato e si moltiplicano per la relativa frequenza. Successivamente si
sommi il tutto.

(𝐱 𝐢 − 𝐱)𝟐 RISULTATI
2
(18 − 25.09) * 10 502.68
(25 − 25.09)2 *13 0.1053
(28 − 25.09)2 * 8 67.74
(30 − 25.09)2 *10 241.08
Dev(X) = 811.60

La sommatoria dei valori mi da la devianza della distribuzione.

Continuando a trattare la devianza introduciamo ora le due SCOMPOSIZIONI DELLA


DEVIANZA:

- La devianza, unicamente in una DISTRIBUZIONE PER UNITA’, può essere scomposta


come la differenza tra il quadrato della media quadratica e il quadrato della media
aritmetica:

𝟐
Dev(X) = ∑ 𝐱 𝐢𝟐 - 𝐧𝐱

- La devianza può essere ulteriormente scomposta in due quantità (qualora tra le modalità e le
frequenze totali vi siano dei gruppi che scindono le frequenze riferite a ciascuna modalità,
come nel caso precedente studenti: maschi-femmine):
Devianza interna ai gruppi (DEVIANZA WITHIN): Somma delle devianze delle singole
distribuzioni e ci indica la variabilità interna ai gruppi (da qui within.)

Devianza tra i gruppi (DEVIANZA BETWEEN): Pari alla devianza delle medie
condizionate rispetto alla media generale. Descrive la variabilità interna ai gruppi cioè la
somma delle variabilità in ciascun gruppo.

19

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Questa scomposizione è tale che:

Dev(Tot) = Dev(W) + Dev(B)

∑(xi − x)2 ∙ ni = ∑ ∑(13)(xi − xj )2 nij + ∑(xj − x)2 n.j

Al fine di chiarire meglio tale scomposizione sarà necessario introdurre la cosiddetta tabella a
doppia entrata, con la quale tuttavia abbiamo già familiarizzato in precedenza:

1° gruppo J° gruppo C° gruppo


𝒙𝟏 𝑛1.
𝒙𝒊 𝑛𝑖𝑗 𝑛𝑖.
𝒙𝒌 𝑛𝑘.
𝑛.1 𝑛.𝑗 𝑛.𝑐

Questa tabella, che può sembrare tanto difficile da interpretare, è abbastanza intuitiva. Sulla prima
colonna a sinistra segniamo le modalità che vengono indicate con Xi e vanno da 1 a k. Sulla riga in
alto segniamo i sottogruppi indicati con J e vanno da 1 a C. Con 𝑛𝑖𝑗 indichiamo quella frequenza
assoluta riferita alla modalità i e al gruppo j. Si pensi ad un sistema tipo “battaglia navale” se dicessi
𝑛12 dovrei prendere quella frequenza assoluta riferita alla prima modalità e al secondo gruppo.

Con 𝑛𝑖. si indica le FREQUENZE ASSOLUTE TOTALI riferite a ciascuna modalità (in quanto c’è
i e con la lettera i sono indicate le modalità)

Con 𝑛.𝑗 si indicano le FREQUENZE ASSOLUTE TOTALI riferite a ciascun gruppo (in quanto con
la lettere j si indicano i gruppi).

Si faccia un esempio di tabella a doppia entrata:

VOTO M F TOTALE
18 10 15 25
20 20 10 30
23 8 9 17
25 13 12 25 𝑛𝑖.
28 10 10 20
30 8 3 11
TOTALE 69 59 128

𝑛.𝑗

(13) Questo simbolo sta a dire sommatoria delle sommatorie, ovvero prima si sommano gli scarti quadratici tra le
modalità e le medie riferite ai singoli gruppi e poi si sommano nuovamente i valori ottenuti. (si hanno almeno due
sommatorie in quanto si avrà sempre a che fare con almeno due gruppi e poiché ognuno di loro avrà una media
specifica calcolata sulle loro frequenze si calcoleranno più scarti che verranno poi sommati).
20

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Le frequenze del gruppo maschile e di quello femminile rappresentano le nostre 𝑛𝑖𝑗 .


128 rappresenta il totale di tutte le frequenze, ovvero il totale delle persone concorse nella nostra
indagine, sia maschi che femmine.

Facciamo un esempio in merito alla scomposizione.

Si consideri la distribuzione dei voti di statistica di 40 studenti suddivisi secondo la frequenza o me


meno al corso universitario:

Voti Studenti non frequentati Studenti frequentati Totale


18 3 1 4
20 5 3 8
24 8 8 16
30 3 9 12
Totale 19 21 40

Calcoliamo prima di tutto le medie riferite a ciascun gruppo, le nostre xj :

18∗3+20∗5+24∗8+30∗3
x1 = = 22.95
19

18∗1+20∗3+24∗8+30∗9
x2 = 21
= 25.71

18∗4+20∗8+24∗16+30∗12
Media totale (M) = = 24.4
40

Calcoliamo ora la devianza totale della distribuzione, come se non fosse stata operata alcuna
divisione in sottogruppi.

Dev(X) = (18 − 24.4)2 ∗ 4 + (20 − 24.4)2 ∗ 8 + (24 − 24.4)2 ∗ 16 + (30 − 24.4)2 ∗ 12

= 697.60

Dev(B) = (22.95 − 24.4)2 ∗ 19 + (25.7 − 24.4)2 ∗ 21 = 75.43

Dev(W) = Dev(X) – Dev(B) = 622.17

Si tenga presente che qualora si abbia a che fare con una scomposizione della devianza in devianza
between e within, e assolutamente necessario che queste due devianze risultino minori o al massimo
uguali alla devianza totale.

Al fine di chiarire meglio questi concetti presentiamo un ulteriore esercizio sulle devianze.

21

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Calcolare Dev(W) e Dev(B):

𝐱𝐢 𝐧𝐢𝐀 𝐧𝐢𝐁 TOT


18 5 8 13
20 3 9 12
24 8 1 9
30 3 3 6
TOT 19 21 40

Si è diviso il collettivo in due sottogruppi, il gruppo A e il gruppo B. Passiamo al calcolo della


media totale e delle due medie parziali, una riferita al gruppo A, per cui si utilizzeranno le
frequenze niA , e l’altra riferita al gruppo B, per cui si utilizzeranno le frequenze niB .

234+240+216+180
𝐱̅ 𝐓𝐎𝐓 = = 21.75
40

xA = 22.74

xB = 20.85

Calcoliamo poi la devianza totale calcolando i singoli scarti al quadrato e moltiplicando per la
relativa frequenza assoluta.

( 𝐱 𝐢 − 𝐱)𝟐 𝐧𝐢
182.81
36.75
45.56
408.37
Dev(X) = 673.49

Dev(B) = (22.74 − 21.75)2 ∙ 19 + (20.85 − 21.75)2 ∙ 21 = 35.63

Dev(W) = Dev(TOT) – Dev(B)

= 673.49 – 35.63 = 637.86

VARIANZA

Segue alla devianza, la varianza, che fornisce una misura di quanto siano vari i valori assunti nella
distribuzione, ovvero di quanto si discostino dalla media. Essa è semplicemente definita come il
rapporto tra la devianza e il totale di frequenze della distribuzione.

Dev(X) ∑(xi−x)2 ∙ ni
𝛔𝟐 = Var(X) = =
n n

La varianza viene anche indicata con il simbolo 𝛔𝟐 che prende il nome di “sigma-quadro”
22

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Dalla varianza si deriva la DEVIAZIONE STANDARD o scarto quadratico medio dato


semplicemente dalla radice quadrata della varianza:

σ = √Var(X)

Si noti quindi che una volta calcolata la devianza di una distribuzione, calcolare la corrispettiva
varianza e deviazione standard, diventa relativamente facile, basti seguire questa sequenza:

Dev(X) = ∑(𝐱𝐢 − 𝐱)𝟐 ∙ 𝐧𝐢 Var(X) = 𝛔𝟐 = 𝐃𝐞𝐯(𝐗) Deviazione standard (σ) = √𝐕𝐚𝐫(𝐗)


𝐧

PROPRIETA’ DELLA VARIANZA

Si tenga conto delle seguenti proprietà della varianza:

- Se tutti i dati della distribuzione sono uguali la varianza è pari a 0. Questo è facile da capire,
infatti qualora tutte le modalità siano uguali, la variabilità, ovvero l’attitudine del carattere di
presentarsi in diverse modalità non si verifica. È ragionevole quindi che la varianza, come la
devianza, come la deviazione standard, saranno pari a 0.

- Se si aggiunge una costante “C” a tutti i membri di una distribuzione, questa non influisce
sulla varianza. Verifichiamo questa proprietà. Prendiamo ad esempio una semplice
distribuzione per unità costituita da tre valori 1, 2 e 3 (x̅ = 2) la cui varianza è pari a 0.66.
Operiamo ora la trasformazione dettata dalla proprietà, aggiungiamo ovvero a tutti i valori
della distribuzione una costante che poniamo, ad esempio, pari a 4. Avremo quindi la nuova
distribuzione di valori che segue 5, 6 e 7 (x̅ = 6) la cui varianza è sempre pari a 0.33. Come
si vede quindi, la proprietà è verificata.

- Se ogni modalità della distribuzione X viene moltiplicata per una costante “C” si ha che la
varianza della nuova distribuzione è pari alla varianza vecchia moltiplicata per la costante al
quadrato.

σ2aX = a2 σ2X

Riprendendo la distribuzione precedente 1, 2 e 3 con varianza 0.66, moltiplichiamo i valori


della distribuzione per la costante C pari, ad esempio a 2. Avremo quindi una nuova
distribuzione con modalità 2, 4 e 6 con varianza pari a 2.66, che corrisponde (non proprio
esattamente per colpa dei decimali periodici) alla varianza precedente per la costante al
quadrato.
2.66 = 22 ∗ 0.66

23

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

INDICE DI VARIABILITA’ RELATIVA

Gli indici di variabilità fino ad ora analizzati sono tutti espressi nella stessa unità di misura del
carattere X eccetto la varianza che usa il quadrato dell’unità di misura. Gli indici di variabilità, pur
rappresentando degli efficaci strumenti per misurare la variabilità di una distribuzione, non possono
essere utilizzati se si vuole effettuare un confronto sulla variabilità di due distribuzioni aventi unità
di misura differenti oppure medie differenti.
Se calcolassimo ad esempio la varianza per due distribuzioni, una in cui le modalità sono espresse
in pesi, e un’altra in cui le modalità sono espresse in metri, le due varianze non possono essere
paragonate, non si può dire ovvero quale distribuzione presenta maggiore variabilità.
Per superare questo inconveniente si ricorre agli indici di variabilità relativi, ricavabili rapportando
gli indici di variabilità assoluti al valore medio oppure al valore massimo. Si prenda in
considerazione uno di questi indici.

COEFFICIENTE DI VARIAZIONE

Tra gli indici di variabilità relativi rispetto al valore medio si prenderà in considerazione il
coefficiente di variazione, un indice di dispersione che permette di confrontare misure di fenomeni
riferite a unità di misura differenti. Con indici di variabilità relativa come questo infatti, vengono
meno gli inconvenienti precedentemente esposti.

Viene definito come il rapporto tra la deviazione standard (σ) e il valore assoluto(14) della media
aritmetica (x):
σ
CV =
|x|

Questo valore ci permette di valutare la dispersione dei valori interno alla media indipendentemente
dall’unità di misura.

ESERCIZIO: In un grande centro sportivo, un allenatore deve decidere quale ragazzo mandare per
le gare sportive regionali di salto in lungo. Sceglie due ragazzi e ogni giorno misura le migliori
distanze da loro raggiunte. I valori di 5 giorni di allenamento sono rispettivamente i seguenti. Si
valuti quale dei due ragazzi verrà scelto dall’allenatore.

Ragazzo
315 347 355 368 401
A
Ragazzo
343 358 366 380 391
B

L’esercizio implicitamente ci richiede di utilizzare il coefficiente di variazione perché mi interessa


sapere in questo caso sia qual è il giocatore con la migliore performance (e qui entra in gioco la

(14) Sarebbe a dire il numero senza segno. È necessario porre il valore assoluto in quanto si potrebbe parlare anche di
valori negativi come le temperature sotto lo zero etc.
24

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

media) ma anche chi è il più costante (che sarà indicato dalla deviazione standard). Qual è
quell’indice che sintetizza questi due valori? Proprio il coefficiente di variazione.
Per utilizzare questo indice è necessario calcolare la media e la deviazione standard per ciascun
giocatore.
315+347+355+368+401
x̅a = = 357.2
5

343+358+366+380+391
xb =
̅̅̅ = 367.6
5

Si calcoli ora la deviazione standard, che ricordiamo è semplicemente data dalla radice quadrata
della varianza. Questo richiede dapprima calcolare la devianza per ciascun giocatore.

Dev(A) = (315 − 357.2)2 ∗ 1 + (347 − 357.2)2 ∗ 1 + (355 − 357.2)2 ∗ 1 + (368 − 357.2)2 ∗


1 + (401 − 357.2)2 ∗ 1 = 3924.8

Dev(B) = (343 − 367.6)2 ∗ 1 + (358 − 367.6)2 ∗ 1 + (366 − 367.6)2 ∗ 1 + (380 − 367.6)2 ∗


1 + (391 − 367.6)2 ∗ 1 = 1401.17

1780.84 + 104.04 + 4.84 + 116.64 + 1918.44 3924.8


𝛔𝐚 = √ =√ = 28.01
5 5

605.16 + 92.16 + 2.56 + 153.73 + 547.56 1401.17


𝛔𝐛 = √ =√ = 16.74
5 5

Avendo tutti i dati necessari, passiamo al calcolo del coefficiente di variazione per ciascun
giocatore.
28.01
CVa = = 0.078
357.2

16.74
CVb = = 0.045
367.6

L’allenatore allora opterà per il secondo ragazzo in quanto ha una variabilità minore e quindi è più
costante, più efficiente.
Quando si opererà con questo indice, quindi, la nostra scelta ricadrà sul carattere che presenta
COEFFICIENTE DI VARIAZIONE MINORE, in quanto quel carattere sarà più efficiente.

INDICI DI MUTABILITA’

Finora gli indici di variabilità studiati si riferivano unicamente a caratteri quantitativi. Per i caratteri
qualitativi vi è un concetto analogo alla variabilità: la mutabilità, ovvero l’attitudine di un carattere
qualitativo ad assumere differenti modalità.

Gli indici di variabilità precedentemente studiati possono essere usati unicamente con caratteri
quantitativi mentre gli indici di mutabilità possono essere utilizzati sia con i caratteri qualitativi che
quantitativi.
25

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

INDICE DI ETEROGENEITA’

L’unico indice di mutabilità che tratteremo sarà l’indice di eterogeneità. Esso rappresenta un
indicatore di mutabilità o variabilità per variabili qualitative o quantitative. Offre una misura
dell’eterogeneità di una distribuzione statistica a partire dai valori delle frequenze relative associate
alle “k” modalità di una generica variabile X.

Esso è dato da:


n
IE = 1 – ∑( i )2
n

Sarà quindi dapprima necessario calcolare i singoli rapporti tra ciascuna frequenza assoluta e il
totale di frequenze (il che corrisponde a definire le frequenze relative). Una volta calcolate le si
elevano al quadrato e la sommatoria di queste ultime verrà sottratta all’unità.

Tuttavia il valore scaturito da questa formula non mi dice se la distribuzione è molto o è poco
eterogenea. Perché questo dato possa essere definito è necessario rapportare l’indice al suo valore
massimo. Si pensi al perché: una persona non può definirsi bassa se prima non conosce l’altezza
media delle persone, se quindi non abbiamo un canone di paragone. Allo stesso modo rapportando
l’indice di eterogeneità al suo massimo possiamo dire se la distribuzione risulta essere molto o poco
eterogenea.

Il massimo dell’indice di eterogeneità è dato nella maniera seguente:

k−1
Max IE =
k

Dove con “k” si indica il numero di modalità considerate nella distribuzione.

Rapportando l’indice di eterogeneità al suo massimo, otteniamo l’INDICE DI ETEROGENEITA’


NORMALIZZATO (indicato con IEk ). Il valore calcolato con questo indice deve risultare
necessariamente compreso tra 0 e 1 (compresi).

IE
IEk = k−1 con 0 ≤ IEk ≤ 1
k

Nel momento in cui il valore di questo indice risulta essere più prossimo allo zero, diremo che la
distribuzione risulta essere poco eterogenea. Al contrario se risulta essere più prossimo all’unità
allora questa sarà molto eterogenea.

Presentiamo un esercizio per chiarire questo indice.

26

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Descrivere statisticamente la variabile di ripartizione geografica:

BASSA MEDIA ALTA TOTALE


NORD 7 12 32 31
CENTRO 23 45 8 76
SUD 39 25 17 81
ISOLE 12 8 7 27
81 90 64 235

Questo esercizio risulta molto semplice se si capisce cosa esso richiede. Ci si chiede di studiare
unicamente la variabile di ripartizione geografica. Essendo questa una variabile qualitativa e senza
un ordine che ci si può naturalmente conferire, non si può calcolare né la media né la devianza
(ricordiamo che la media è studiabile solo riguardo le variabili quantitative!!!) né la mediana né i
quartili. Non si può dire che questa variabile abbia un ordine naturale unicamente per la modalità
ISOLE, infatti questa modalità non può essere naturalmente collocata prima o dopo di una qualsiasi
delle altre modalità.

Al contrario si poteva calcolare la mediana per l’altra variabile. Difatti le modalità BASSA MEDIA
e ALTA possono essere naturalmente ordinate.

Si potrebbe calcolare solo la moda, che in questo caso coincide con la modalità CENTRO

L’unica cosa che si può calcolare in merito alla variabile di ripartizione geografica, è l’indice di
eterogeneità. A questo fine riclassifichiamo la tabella. Poiché dobbiamo descrivere statisticamente e
quindi offrire tutti i possibili indici statistici finora studiati, unicamente la variabile di ripartizione
geografica, tralasciamo le modalità BASSA, MEDIA e ALTA.

𝐧𝐢 𝐟𝐢 𝐟𝐢𝟐
NORD 31 0.13 0.017
CENTRO 76 0.32 0.104
SUD 81 0.34 0.118
ISOLE 27 0.11 0.013
2
235 1 ∑ fi =0.252

Ricordiamo che necessariamente la sommatoria delle frequenze relative deve essere pari a 1 o
almeno un valore prossimo ad esso (in quanto per ciascuna frequenza relativa non sono state
elencate tutte le cifre decimali). La vera somma delle frequenze relative in questo caso darebbe un
valore pari a 0.9 ma la parte restante è sicuramente dovuta al fatto che sono state tralasciate delle
cifre decimali.

Elevate al quadrato le singole frequenze relative e sommate queste ultime, passiamo al calcolo
dell’indice di eterogeneità.

27

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

IE = 1 − ∑ fi2

= 1 – 0.252 = 0.748

Prima di poter affermare che la distribuzione è molto eterogenea bisogna calcolare l’indice di
eterogeneità normalizzato. Bisogna quindi dapprima calcolare il massimo dell’indice di eterogeneità
k−1
Max IE =
k

Ricordiamo che k rappresenta il numero di modalità, in questo esercizio le modalità sono quattro
quindi:
4−1
= = 0.75
4

Passiamo ora all’indice di eterogeneità normalizzato:


IE
IEk = k−1
k

0.748
= = 0.99
0.75

Questo risulta essere un valore accettabile per l’indice di eterogeneità normalizzato, in quanto
risulta essere compreso tra 0 e 1. Siccome risulta essere molto prossimo all’unità si può affermare
che la distribuzione risulta essere MOLTO ETEROGENEA.

28

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

INDICI DI FORMA
Un collettivo statistico può essere descritto sotto diversi profili. Un'ulteriore proprietà della
distribuzione è la FORMA, cioè il modo in cui i dati sono distribuiti. Quindi gli indici di forma
sono indici che mettono in evidenza ulteriori aspetti rilevanti.

L’ASIMMETRIA

Una distribuzione è simmetrica se le modalità che sono equidistanti dalla mediana hanno la stessa
frequenza.
Se una distribuzione è simmetrica, l’indice di asimmetria è 0. Ma se partiamo dal fatto che l’indice
di asimmetria sia 0 non possiamo dire con certezza che la distribuzione è simmetrica, potrebbe solo
esserlo.(15)

INDICE DI ASIMMETRIA ASSOLUTA

𝐀𝐒𝟏 = Q1 + Q 3 − 2Med

Se AS1 > 0 la distribuzione è asimmetrica positiva.


Se AS1 < 0 la distribuzione è asimmetrica negativa.
Se AS1 = 0 condizione necessaria ma non sufficiente per definire la distribuzione simmetrica.

Il Max di questo indice è + (Q3 + Q1), mentre il min è – (Q3 – Q1). L’indice si può quindi
relativizzare per il suo massimo; come per l’indice di eterogeneità normalizzato si giunge ad
all’INDICE DI ASIMMETRIA NORMALIZZATO (ASk ) che, poiché rapporta il valore dell’indice
di asimmetria assoluta al suo massimo, è in grado di fornirci l’informazione per cui la distribuzione
potrà essere definita poco o molto asimmetrica (negativa o positiva)

Q1 + Q3 − 2Med
𝐀𝐒𝐤 = con -1 ≤ 𝐀𝐒𝐤 ≤ 𝟏
Q1 + Q3

Se il valore dell’indice normalizzato è pari ad 1 la distribuzione risulta essere totalmente


asimmetrica positiva, mentre se risulta essere pari a -1 allora la distribuzione sarà totalmente
asimmetrica negativa. Avendo questo intervallo di valori possiamo quindi dire se una distribuzione
risulta essere molto o poco asimmetrica positiva (se ASk > 0) o negativa (se ASk < 0).

Se una distribuzione è simmetrica, la media e la media e la moda coincidono. Tenendo conto che la
mediana è un valore interno alla moda e alla media si ha che una distribuzione non è simmetrica se
si verificano diverse situazioni:
1) Asimmetria positiva: se moda < mediana < media. Vi è un maggiore addensamento di dati
osservati in corrispondenza dei valori più bassi.
2) Asimmetria negativa: se media < mediana < moda. Vi è un maggior addensamento di dati in
corrispondenza dei valori più alti.
3) Simmetria: se Moda = Media = Mediana.

(15) Si tratta di un concetto molto importante ripetuto in classe.


29

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

RAPPRESENTAZIONI GRAFICHE
BOX – PLOT

È una rappresentazione grafica utilizzata per descrivere la distribuzione di un campione tramite


semplici indici di dispersione e di posizione. Viene rappresentato tramite un rettangolo diviso in due
parti da cui escono due segmenti. Il rettangolo è delimitato dal primo e il terzo quartile e diviso al
suo interno dalla mediana. I segmenti sono delimitati dal minimo e dal massimo dei valori della
distribuzione.

In questo modo vengono rappresentati graficamente i quattro intervalli ugualmente popolati


delimitati dai quartili.

Min Q1 Med Q3 Max

Il box plot consente con un colpo d’occhio di valutare:


1) Il valore della tendenza centrale
2) La dispersione che dipende dall’ampiezza del rettangolo
3) La simmetria, infatti se i dati sono simmetrici si ha: MED – Q1 = Q3 – MED

Per non essere influenzati da dati anomali si calcolano due quantità:

- Limite inferiore = Q1− 1.5(Q3 − Q1) se questo valore è inferiore al minimo della
distribuzione non va preso, altrimenti si.
- Limite superiore = Q3 + 1.5(Q3 − Q1) se questo valore è superiore al limite massimo della
distribuzione non va preso, altrimenti si.

30

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Descrivere statisticamente la seguente distribuzione.

𝐕𝐜𝐢 𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢
57.5 55 −ǀ 60 6 0.06 0.06
62.5 60 −ǀ 65 10 0.1 0.16
Q1 67.5 65 −ǀ 70 20 0.2 0.36
Med e M0 72.5 70 −ǀ 75 25 0.25 0.61
Q3 77.5 75 −ǀ 80 18 0.18 0.79
82.5 80 −ǀ 85 13 0.13 0.92
87.5 85 −ǀ 90 8 0.08 1
n = 100

Perché si possa calcolare la media in una distribuzione in classi è necessario definire quello che è il
VALORE CENTRALE della distribuzione (Vci ), infatti una qualsiasi classe presenta diversi valori
al suo interno (si pensi alla prima classe, tra 55 e 60 esistono infiniti valori), allora quale di questi
valori verrà preso in considerazione per effettuare le diverse operazioni che saranno richieste?
Proprio il valore centrale, che non è altro che una media dei valori della classe cui si riferisce. Nel
caso della prima classe il valore centrale corrispondente non deriva che dalla media tra 55 e 60 che
corrisponde appunto a 57.5.

57.5∗6 + 62.5∗10 + 67.5∗20 + 72.5∗25 + 77.5∗18 + 82.5∗13 + 87.5∗8


x̅ = = 73
100

Si calcolino i Quartili e la Mediana:

hi (0.5− Fi−1 )
Med = Limite inferiore +
Fi−Fi−1

5(0.5−0.36)
= 70 +
0.61−0.36

Med = 72.8

hi (0.25− Fi−1 )
𝐐𝟏 = Limite inferiore +
Fi−Fi−1

5(0.25−0.16)
= 65 +
0.36−0.16

𝐐𝟏 = 67.25

hi (0.75− Fi−1 )
𝐐𝟑 = limite inferiore +
Fi−Fi−1

5(0.75−0.61)
= 75 +
0.79−0.61

𝐐𝟑 = 78.88

31

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Calcoliamo ora la devianza, prendendo come modalità sempre il calore centrale della classe.

Dev(X) = (57.5 − 73)2 ∗ 6 + (62.5 − 73)2 ∗ 10 + (67.5 − 73)2 ∗ 20 + (72.5 − 73)2 ∗ 25 +


(77.5 − 73)2 ∗ 18 + (82.5 − 73)2 ∗ 13 + (87.5 − 73)2 ∗ 8

Dev(X) = 6375
6375
Var(X) = = 63.75
100

Deviazione standard (σ) = √Var(X) = √63.75 = 7.98

Ricordando che descrivere statisticamente una distribuzione consiste nel definire tutti gli indici
statistici che le possono essere applicati, possiamo anche calcolare il coefficiente di variazione:

σ 7.98
CV = = = 0.109
|x| 73

Gli indici di variabilità non possono essere estesi a variabili quantitative ma gli indici di mutabilità
come l’indice di eterogeneità possono essere utilizzati sui caratteri quantitativi.

IE = 1 – ∑ fi2

Si ricordi che seguendo giustamente la formula è necessario per primo elevare le singole frequenze
relative al quadrato e poi sommarle. Avremo quindi:

= 1 – 0.1718 = 0.828

Ricordando che da solo l’indice di eterogeneità non mi offre un grado della mutabilità della
distribuzione, ricorriamo all’indice di eterogeneità normalizzato il quale, oscillando tra 0 e 1, mi
dirà se la distribuzione è poco eterogenea (se si avvicina a 0) oppure è molto eterogenea (se si
avvicina a 1).
IE 0.828 0.828
𝐈𝐄𝐤 = k−1 = 7−1 = = 0.96
0.85
k 7

Siccome l’indice di eterogeneità normalizzato risulta essere più vicino all’unità che a zero, è
ragionevole dire che la distribuzione è particolarmente eterogenea.

32

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Passiamo ora con l’analizzare gli indici di forma, andiamo quindi a verificare se la distribuzione
gode di asimmetria positiva o negativa. Si potrebbe immediatamente dire subito che è positivamente
simmetrica dato che la moda(16) (MO = 72.5) è minore della mediana (Med = 72.8) e minore della
Media (x = 73). Calcoliamo tuttavia l’opportuno indice di asimmetria assoluta.

AS = Q1 + Q3 - 2Med

AS = 67.25 + 78.88 – 145.6 = 0.53

Siccome il valore calcolato risulta essere positivo, possiamo affermare che la distribuzione è
asimmetrica positiva. Per poter dire se questa asimmetria sia poco o molto accentuata è necessario
ricorrere all’indice di asimmetria normalizzato:
Q1 + Q3 − 2Med 0.53
𝐀𝐒𝐤 = = = 0.0036
Q1 + Q3 146.13

Poiché questo indice oscilla tra -1 e 1 possiamo dire che la distribuzione è leggermente asimmetrica
positiva.

Avvalendoci ora di rappresentazioni grafiche come il BOX-PLOT rappresentiamo i singoli valori


finora calcolati.

55 67.25 72.8 78.8 90

Troviamo ora il limite inferiore della distribuzione per vedere se ci sono dati anomali:

Limite inferiore = Q1 -1.5 (Q3-Q1) = 67.25 – 17.445 = 49.805


Poiché questo valore è minore del minimo della distribuzione vuol dire che 55 non è un dato
anomalo e la distribuzione incomincia a 55.

Limite superiore = Q3 -1.5 (Q3-Q1) = 78.88 + 1.5(11.63) = 96.32


Poiché il limite superiore supera il valore massimo della distribuzione (90) questo vuol dire che 90
non è un dato anomalo e quindi la distribuzione termina a 90.

(16) Ricordiamo che la moda qui è facile da individuare in quanto tutte le classi hanno la stessa ampiezza h. altrimenti
bisognava calcolare le densità di frequenza.
33

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Descrivere statisticamente la seguente distribuzione.

𝐕𝐜𝐢 𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢 𝐡𝐢 𝐝𝐢 (𝐧𝐢 ⁄𝐡𝐢 ) (17)


150 0 −ǀ 300 8 0.16 0.16 300 0.026
Q1 e Med 400 300 −ǀ 500 20 0.4 0.56 200 0.1
Q3 650 500 −ǀ 800 10 0.2 0.76 300 0.03
900 800 −ǀ 1000 8 0.16 0.92 300 0.026
1100 1000 −ǀ 1200 4 0.08 1 200 0.02
n = 50
Per poter trovare la moda, siccome le ampiezze non sono tutte uguali, è necessario guardare alle
densità di frequenze. Quindi si può dire che la moda è la classe 500 −ǀ 800 con valore centrale 400,
in quanto questa modalità ha densità di frequenza maggiore.

150∗8 + 400∗20 + 650∗10 + 900∗8 + 1100∗4


𝐱= = 546
50

200(0.5−0.16)
Med = 300 + = 470
0.56−0.16
200(0.25−0.16)
𝐐𝟏 = 300 + = 345
0.56−0.16

300(0.75−0.56)
𝐐𝟑 = 500 + = 785
0.76−0.56

Dev(X) = (150 − 546)2 ∗ 8 + (400 − 546)2 ∗ 20 + (650 − 546)2 ∗ 10 + (900 − 546)2 ∗ 8 +


(1100 − 546)2 ∗ 4 = 4019200

4019200
Var(X) = = 80384
50

σ = √80384 = 283.52

283.52
CV =
546
= 0.51

IE = 1 – 0.2576 = 0.7424
0.7424 0.7424
𝐈𝐄𝐤 = 5−1 =
0.8
= 0.92
5

In quanto l’indice di eterogeneità normalizzato risulta essere particolarmente vicino a 1 si può dire
che la distribuzione risulta essere molto eterogenea.

17
Dobbiamo calcolare necessariamente le densità di frequenze in quanto le classi non hanno la stessa ampiezza (h)
34

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

AS = 345 + 785 – 2(470) = 190

Possiamo dire quindi che la distribuzione presenta un’asimmetria positiva. Al fine di definire di che
grado sia l’asimmetria positiva, utilizziamo l’indice di asimmetria normalizzato.
190
ASk = = 0.16
345+785

Siccome questo indice oscilla tra -1 e 1 possiamo dire che la distribuzione risulta essere di poco
asimmetrica positiva.

Inoltre si può immediatamente notare, anziché usare l’indice di asimmetria, che la distribuzione è
asimmetrica positivamente in quanto la moda è minore della mediana, che è minore della media.

400 < 470 < 546

Sintetizziamo gli indici nel BOX-PLOT

0 345 470 785 1200

Limite inferiore = Q1 - 1.5 (Q3 − Q1 )

= 345 – 1.5(785 − 345) = - 315

Visto che questo valore è minore del minimo della distribuzione, quest’ultimo, che in questo
esercizio è pari a 0, non è un dato anomalo e allora la distribuzione partirà da li.

Limite superiore = Q3 - 1.5 (Q3 − Q1 )

= 785 + 1.5(785 − 345) = 1445

Visto che questo valore è maggiore del massimo della distribuzione, 1200 non è un dato anomalo e
li finirà la distribuzione.

35

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

MODELLI TEORICI
Diversi eventi presenti nella realtà che ci circonda possono essere messi a paragone con un modello
teorico. Si pensi ad esempio alla modello di concorrenza perfetta dei mercati. Questi sono
organizzati in maniera perfettamente concorrenziale se sussistono alcune fattispecie (ad esempio
una perfetta informazione degli agenti). Tali modelli teorici difficilmente vengono riscontrati nella
realtà, ma costituiscono, tuttavia, un utile canone di paragone per poter compiere diverse
operazioni.

In statistica infatti, ci avvaliamo di alcune distribuzioni teoriche, ovvero, di modelli, per poter
approssimativamente descrivere le variabili oggetto di studio.

Prima ed essenziale nel campo statistico tra le distribuzioni teoriche è la DISTRIBUZIONE


NORMALE.

DISTRIBUZIONE NORMALE

La distribuzione normale entra in merito ad un adattamento di una qualsiasi distribuzione ad una


distribuzione teorica, ovvero una qualsiasi distribuzione può essere associata a questo modello.

Per distribuzione normale intendiamo una distribuzione SIMMETRICA e campanulare per


definizione, introdotta dallo studioso Carl Gauss (per questo detta anche distribuzione gaussiana).
Essendo simmetrica, riprendendo gli accenni di asimmetria precedenti, presenterà perfetta
coincidenza tra media, moda e mediana. La distribuzione viene disegnata come segue:

36

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Tale modello è una FUNZIONE CONTINUA, ovvero va da -∞ a +∞, e viene definita dalla
seguente legge o funzione(18):
2
1  X  
1  
2  

f (X )  e
 2
In tale funzione le uniche variabili sono la media (in questo caso indicata con la lettera greca µ) e la
varianza (σ2 ). Riprendendo alcuni ricordi di matematica per l’economia, ricordiamo che una
funzione, in un piano cartesiano, può essere iscritta unicamente per una variabili. Quindi questa
funzione è iscrivibile solo e unicamente se si setta un valore per la media o per la varianza.

Qualora una variabile X segua una distribuzione normale, quest’affermazione verrà indicata come:

X ~ N(x̅ ; σ2 )

leggendo “la variabile X segue una distribuzione normale con media 𝑥 e varianza 𝜎 2 ”.

Continuiamo con altri accenni di teoria in merito alla distribuzione normale.

Supponendo la varianza uguale a una costante ipotizziamo un cambiamento della media da 𝑥 a 𝑥1


dove il secondo è maggiore del primo. Con questa variazione, la posizione della curva normale si
sposta lungo l’asse delle ascisse senza alterare la sua forma.

𝐱𝟐 < 𝐱 < 𝐱𝟏

𝐱𝟐 𝐱 𝐱𝟏
Supponendo invece di fissare la media ad una costante, ipotizziamo una variazione della varianza
da σ2 a σ12 dove il secondo è maggiore del primo. La forma della normale cambia, infatti cambia
l’ordinata del suo punto massimo. Al crescere della varianza la curva si appiattisce mentre al
decrescere della varianza la curva si allunga.

(18) Un ulteriore modo per indicare la media aritmetica oltre a 𝑥 è con la lettera greca “mi” µ
37

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

(19)

È inoltre necessario tenere bene a mente due proprietà della distribuzione normale:

1- È una funzione simmetrica rispetto alla retta parallela dell’asse delle ordinate.
2- Tende asintoticamente a zero per x che tende all’infinito

Ricordando che si tratta di una distribuzione simmetrica per definizione, intuiamo che la moda è
uguale alla media che è uguale alla mediana.

A COSA SERVE LA DISTRIBUZIONE NORMALE? A questa domanda rispondiamo che essa


serve per calcolare la FREQUENZA RELATIVA CUMULATA di un determinato intervallo [a,b].
Facciamo un esempio per chiarire questo concetto prendendo la seguente distribuzione.

Fi

A B

Definendo due valori per A e per B attraverso la distribuzione normale possiamo dire qual è la
frequenza relativa cumulata che corrisponde a quell’intervallo. Facendo un esempio, pensiamo di
prendere in considerazione l’altezza degli italiani e di considerare che sia una variabile distribuita
normalmente. I valori di A e B, estremi di un ipotetico intervallo, potrebbero essere valori come
1.70m e 1.80m. Avvalendomi quindi della distribuzione normale vengo a sapere quale sia la
frequenza relativa cumulata di tutte le modalità che vanno da 1.70m a 1.80m.

19
Come si vede al variare della varianza la curva si allunga ma mantiene la stessa media.
38

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Fatta questa considerazione, è indispensabile dire che l’intera area sottesa dalla curva della normale
è pari a 1. Questo sembra piuttosto evidente in quanto ricordiamo che la somma di tutte le frequenze
relative è pari a 1. Sommando quindi le frequenze relative di tutti i possibili intervalli tra -∞ e +∞
(essendo questi gli estremi della distribuzione normale) il risultato sarà uguale all’unità che
corrisponde appunto all’intera area della curva.
Tuttavia subentra una forte difficoltà nel calcolo matematico delle frequenze relative cumulate che
ci interessano. Essendo la distribuzione normale una distribuzione definibile unicamente da due
valori ben precisi, la MEDIA e la VARIANZA, ci sono tante distribuzioni normali, ognuna delle
quali con precise caratteristiche, quante sono le possibili coppie di media e varianza, ovvero
infinite.
Per poter calcolare l’area della curva riferita ad un qualsiasi intervallo si possono utilizzare delle
tavole numeriche già predisposte, ma potendoci essere infinite coppie di valori per media e
varianza, questo vorrebbe dire servirsi di infinite tavole numeriche, il che risulta essere
oggettivamente e praticamente impossibile.

Si opera dunque, per poter superare questo inconveniente, ad una trasformazione della distribuzione
normale, per arrivare a quella che è definita la DISTRIBUZIONE NORMALE
STANDARDIZZATA (con medesima rappresentazione grafica della distribuzione normale, e
quindi anch’essa campanulare e simmetrica).

Questa, a differenza della semplice distribuzione normale, che può operare su qualsiasi coppia di
media e varianza, risulta avere un’unica coppia di valori, il che permette di utilizzare un’unica
tavola numerica che ci permetta di arrivare al nostro obiettivo: quantificare la frequenza relativa
cumulata dell’intervallo. La distribuzione normale standardizzata opera sempre infatti su valori di
media e varianza rispettivamente uguali a 0 e a 1 (x̅ = 0 σ2 = 1)

Per passare dai valori della distribuzione normale a quelli della distribuzione normale standardizzata
è necessario operare una trasformazione ai singoli valori 𝐱 𝐢 della distribuzione. Questa
trasformazione porta questi valori a diventare “valori standardizzati” indicati altresì nella forma 𝐙𝐢

La trasformazione per giungere dai valori normale della distribuzione ai valori standardizzati risulta
essere la seguente:

xi − x
𝐙𝐢 =
σ

Commentandola possiamo dire che i valori Zi sono dati “centrando” (ovvero sottraendo) i singoli
valori xi riferiti alla distribuzione normale NON standardizzata per la media e dividendo il tutto per
la deviazione standard.

Operando questa trasformazione passiamo da uno qualsiasi dei valori della distribuzione normale ai
valori della distribuzione normale standardizzata, la quale, essendo definita per x̅ = 0 σ2 = 1, ci
permette attraverso l’utilizzo di una tabella che fra poco introdurremo di calcolare l’area e quindi la
frequenza relativa cumulata interessata. Vediamo come, avvalendoci del seguente esempio.
39

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESEMPIO: Si prenda in considerazione la seguente variabile quantitativa X e si tenga in


considerazione che essa segua una distribuzione normale.

𝐱𝐢 Poiché l’impostazione precisa che la variabile segue una distribuzione normale andiamo a
1 calcolare i valori per cui una qualsiasi distribuzione normale viene definita ovvero media e
2 varianza. Operando semplici calcoli arriviamo a dire che x = 2, σ2 = 0.66, σ = 0.81
3

Nel momento in cui possediamo questi dati, per meglio impostare scrivere che X ~ N (2;0.66),
che, ripetiamo, viene letto come “la variabile X segue una distribuzione normale con media 2 e
varianza 0.66”.

Disegniamo dunque la distribuzione e chiediamoci di calcolare la frequenza relativa riferita


all’intervallo 2 – 3.

Fi

2 3

Per i motivi di cui si è largamente parlato sopra, passiamo da questa distribuzione normale alla
distribuzione normale standardizzata giungendo ad una nuova distribuzione di valori, gli Zi che
presentano Media = 0 e Varianza = 1. Operiamo quindi la trasformazione, attraverso la formula
precedente, di questi valori.

xi − x
𝐙𝐢 =
σ

1− 2
𝐙𝐢 = = − 1.23
0.81

2− 2
𝐙𝐢 = =0
0.81

3−2
𝐙𝐢 = = 1.23
0.81

40

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Quindi in riferimento a ciascun valore della distribuzione X avremo:

𝐱𝐢 𝐙𝐢
1 − 1.23
2 0
3 1.23

Qualora si calcoli la media e la varianza delle Zi ci si accorgerà che, come si voleva ottenere,
risulteranno rispettivamente valori pari a 0 e 1.

L’esercizio richiede di calcolare l’area riferita all’intervallo 2 – 3. A questo proposito è necessario


standardizzare i due valori (si guardi la tabella) e fare alcune considerazioni su questi ultimi.
Considerando la seguente come la distribuzione normale standardizzata avremo:

Fi

0 1.23

Il valore 0 corrisponde al valore della media della vecchia distribuzione (2 appunto) e 1.23
corrisponde al valore 3 sempre nella vecchia distribuzione.

Possiamo quindi ricorrere alle tavole numeriche predisposte nel libro di Luigi D’Ambra a pagina
413 del libro “inferenza Statistica”. All’interno di questa pagina sono elencati tutti i possibili valori
di Zi .
A ciascun valore Zi corrisponde un’area ben precisa, e si faccia attenzione ad imparare questo
meccanismo. L’area cui fa riferimento il valore Zi è l’area compresa dal valore stesso alla media
della distribuzione. Ovvero:

41

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si prenda dunque il valore Zi = 1.23, ovvero il valore corrispondente al valore non standardizzato
pari a 3 e quindi il valore che mi indica l’area dalla media 2 al valore 3, sulla tavola predisposta.
Come leggere la tabella? È necessario scomporre il valore Zi in due valori: 1.2 + 0.03 (sul libro
indicato come .03 considerando come assunto che prima del punto vi sia uno 0). Si prenda dunque il
primo valore alla sinistra della tabella e lo si incroci con il secondo indicato in alto, si arriva dunque
ad un valore pari a 0.4082. Questo è il valore che risponde all’esercizio, rappresenta dunque la
frequenza relativa riferita all’intervallo di valori 2 – 3.

Per pura correttezza, si tenga presente che in simboli matematici, scrivere che “l’area riferita al
valore Zi è uguale ad un determinato valore” viene indicato in questa maniera:

φZi = AREA

Nel nostro caso possiamo dunque scrivere:

φ1.23 = 0.4082

Quindi graficamente avremo:

0.4082

2 3

Puntualizziamo il modo in cui si è arrivato a definire l’area interessata. Si è standardizzato il valore


che indicava l’area dalla media al valore stesso e si è ripreso il valore standardizzato sull’’apposita
tabella di cui riportiamo questa piccola sezione. Si supponga di avere un valore standardizzato Zi
pari a 0.55. Si scomporrà questo valore in 0.5 + 0.005 e si ricercherà il primo valore sulla sinistra e
il secondo in alto. Al punto di intersezione tra i due avremo il valore corrispondente dell’area. Per
cui possiamo scrivere: φ0.55 = 0.2088

42

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Un’ulteriore precisazione sui valori standardizzati. Si può notare dalla tabella del libro che,
giustamente, non ci sono valori standardizzati negativi. Per quale motivo? Per il semplice fatto che,
essendo la distribuzione normale come anche quella standardizzata una distribuzione simmetrica, un
valore negativo legge la stessa area dello stesso valore ma con segno positivo. Quindi, qualora si
avesse necessità di ricercare un valore Zi negativo all’interno della tabella, si guardi allo stesso
valore ma con segno positivo, indicherà comunque la stessa area.

AREE
UGUALI

− Zi 0 Zi

Avendo questa base di studio in merito alla normale affrontiamo ora le singole fattispecie di calcolo
che si possono verificare nelle seguenti tipologie d’esercizio. Nelle prove d’esame che interessano
la normale poi, basti ricordare a quale esempio esse si riconducono.

TIPOLOGIA 1: Si consideri un’ipotetica variabile quantitativa X, e sapendo che X ~ N(22; 16), si


calcoli la frequenza relativa dei valori maggiori di 27.

Si analizzi dunque questa distribuzione normale che ha media 22 e varianza 16. Si iscriva dunque
questa distribuzione, segnalando nel grafico la parte che ci interessa, ovvero quella delle modalità
maggiori di 27.

22 27

Come suggerito dalla freccia, i valori maggiori di 27 sono quei valori che vanno da 27 ad infinito (si
ricordi infatti che la distribuzione normale è una distribuzione continua e quindi composta da valori
infiniti).

Ecco dunque come procediamo. Sapendo che la distribuzione normale è una distribuzione
simmetrica per definizione possiamo dire che il valore della media, in questo caso 22, coincide con
la mediana. La mediana è appunto quell’indice di posizione che divide perfettamente a metà le
43

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

frequenze relative cumulate dell’intera distribuzione, il che significa che a destra della mediana
saranno posizionati il 50% e alla sua sinistra il restante 50% dei valori della distribuzione; in questo
modo:

0.5 0.5

Tenendo bene a mente questa condizione essenziale della distribuzione normale risulta
relativamente facile calcolare l’area che ci interessa, ovvero l’area che mi indica la frequenza
relativa cumulata dei valori maggiori di 27. Riguardando la figura precedente basti calcolare l’area
sottesa dalla curva nell’intervallo 22 – 27 e successivamente sottrarre quest’area a 0.5. Si otterrà in
questo modo l’area corrispondente a 27 − ∞.

Per calcolare l’area riferita all’intervallo 22 – 27 basti standardizzare il valore 27 e giunger quindi al
valore Zi , letto su una distribuzione normale ora standardizzata. Poiché i valori Z indicano sempre
l’area riferita dalla media della distribuzione, standardizzano il valore 27 giungo giustappunto a
conoscenza dell’area che va da 22 a 27.

Si standardizzi dunque il valore 27:


27−22
Zi = = 1.25
4

Si legga quindi il valore 1.25 sulla tavola apposita, cercando sulla sinistra 1.2 e in alto 0.05. Quindi:

φ1.25 = 0.3944

Riclassificando tutti i valori nel grafico avremo:

0.1056
0.3944

22 27
𝐙𝐢
0 1.25

44

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Per non ripetere due volte lo stesso grafico, uno riferito alla distribuzione nomale e l’altro alla
distribuzione normale standardizzata si preferisce disegnare un unico grafico e al di sotto della linea
delle ascisse della distribuzione si traccia un’ulteriore linea dove vengono catalogati i valori
standardizzati (per questo si è posto Zi accanto). In questo modo si crea anche una obbiettiva
corrispondenza tra il valore standardizzato e il valore non standardizzato. Il valore della media nella
distribuzione normale 22, risulta essere pari a 0 nella distribuzione standardizzata, che ricordiamo
per l’ennesima volta ha sempre media 0 e varianza 1. Il valore standardizzato riferito al valore 27 è
invece, come calcolato dapprima, 1.25.

Una volta calcolata l’area riferita al valore Zi = 1.25 che abbiamo visto è pari a 0.3944, siccome ci
interessa l’area oltre quel valore, basti sottrarre l’area calcolata a 0.5, che rappresenta infatti il totale
delle frequenze relative cumulate alla destra come alla sinistra della media.

0.5 – 0.3944 = 0.1056

0.1506 rappresenta quindi l’area delle modalità tra 27 e infinito rappresenta quindi la frequenza
relativa di tutte le modalità maggiori di 27.

TIPOLOGIA 2: Si consideri un’ipotetica variabile quantitativa X, e sapendo che X ~ N(22; 16), si


calcoli la frequenza relativa dei valori compresi tra 25 e 20.

Aiutandoci con un grafico, andiamo a visualizzare sullo stesso la parte che mi indica le frequenze
relative della distribuzione riferite all’intervallo 25 – 20.

20 22 25

Quelle indicate sono le aree che ci preme andare a calcolare.

Come primo passo si vada prima di tutto a standardizzare la variabile X, che, come sappiamo dalla
traccia d’esercizio segue una distribuzione normale con una propria media (22) e varianza (16).
Attraverso questo processo arriveremo ad una distribuzione normale standardizzata che avrà sempre
media 0 e varianza pari all’unita.

𝐙𝐢
0
Si guardi ora il grafico. Le aree che a noi preme calcolare sono l’area che va da 22 a 20 e da 22 a
25, cioè le singole aree che vanno dalla media al valore interessato. Come ben ricordiamo e
dobbiamo ricordare, i valori Zi , i valori standardizzati, letti sulla tavola danno giustappunto l’area
che va dalla media a quel valore. Basti dunque andare a standardizzare ciascuno dei singoli valori e
riprendere il valore sulle tavole.
45

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si standardizzi dunque il valore 20 (ricordando che si divide per la deviazione standard e non per la
varianza che in questo caso è 16, ma bensì per la radice di 16, infatti la deviazione standard non è
altro che il valore risultante dalla radice della varianza).
20−22
Zi = = − 0.5
4

Standardizziamo il valore 25:


25−22
Zi = = 0.75
4

Riportando i valori sul grafico avremo:

20 22 25
𝐙𝐢 - 0.5 0 0.75

Come vediamo il valore standardizzato riferito a 20 risulta essere negativo. Non poteva essere
altrimenti dato che, essendo un valore che precede la media quando viene standardizzato, gli viene
sottratto un valore maggiore di lui. Inoltre essendo sempre un valore inferiore alla media, il suo
valore standardizzato risulterà necessariamente minore del valore standardizzato della media, che
ricordiamo è pari a 0. Si ricordi che sulla tabella delle aree della normale standardizzata non si
cercherà -0.5 ma 0.5, in quanto essendo una distribuzione simmetrica l’area riferita al valore
negativo sarà identica all’area dello stesso valore standardizzato positivo.

Per calcolare le due aree interessata basti dunque andare a vedere i rispettivi valori standardizzati
sulle tavole avendo dunque:

φ0.5 = 0.1915
φ0.75 = 0.2734
Riportando nel grafico:

0.1915 0.2734

𝐙𝐢 -0.5 0 0.75

46

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

La richiesta dell’esercizio era quella di calcolare le frequenze relative riferite all’intervallo 20 – 25.
La risposta è data semplicemente dalla somma delle due aree. Quindi:

Fi (20 – 25) = 0.4649

TIPOLOGIA 3: Si consideri un’ipotetica variabile quantitativa X, e sapendo che X ~ N(22; 16), si


calcoli la frequenza relativa dei valori compresi tra 26 e 35

22 26 35

Ecco come procederemo. Standardizzando la distribuzione sappiamo che giungiamo ad una nuova
distribuzione di forma identica con media 0 e varianza pari all’unità. Andando a standardizzare il
valore 26 il valore standardizzato mi darà l’indicazione dell’area che va dalla media al valore stesso
(stesso ragionamento per 35). Si standardizzino dunque i singoli valori e si rilevi per ciascuno l’area
di riferimento letta sulle tavole apposite:

26−22
Zi = =1 φ1 = 0.3413
4

35−22
Zi = = 3.25
4

Come si può notare, questo valore non è riscontrabile sulle tavole. Per valori maggiori di 3.09 si
prenda dunque l’ultimo valore Zi nell’angolo in basso a destra. Indichiamo quindi l’area riferita al
valore Zi = 3.25

φ3.25 = 0.4990

47

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Riportiamo dunque i valori sul grafico facendo attenzione a definire le singole aree lette da ciascun
valore:

Area letta dal valore Zi = 1


φ1 = 0.3413

Area letta dal valore Zi = 3.25


φ3.25 = 0.4990

𝐙𝐢
0 1 3.25

Scopo dell’esercizio è quello di individuare l’area compresa tra i valori 26 e 35, quella dunque tra i
valori standardizzati pari a 1 e 3.25.
Per calcolare l’area interessata sarà dunque necessario sottrarre all’area riferita al valore Zi = 3.25
l’area riferita a Zi = 1 in questo modo avremo l’area riferita ai valori 26 – 35.

Fi (26 – 35) = 0.4990 – 0.3413 = 0.1577

Leggiamo dunque che la frequenza relativa cumulata riferita all’intervallo è pari a 0.1577.

Una volta studiate queste tre tipologie di esercizi applicati alla normale, possiamo analizzare un
esercizio d’esame.

48

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: In un’industria di detersivi vi è una macchina confezionatrice la quale fornisce


scatole il cui peso non è costante, ma varia, e più precisamente segue una distribuzione normale con
media 10Kg e scarto quadratico medio 0.2Kg. Si vuole conoscere la frequenza relativa dei pesi
della scatola:
- Con più dell’1% di scarto dal peso medio.
- Abbia più dell’1% di scarto dal peso medio.

I valori che si discostano dal peso medio dell’1% sono rispettivamente 9.9 e 10.1. Infatti 1% di 10 è
pari a 0.1. Visto che uno scarto può essere visto sia in senso incrementativo che decrementativo
risulteranno i valori di cui sopra.

Riportiamo dunque i valori nel grafico:

9.9 10 10.1

Rispondendo al primo punto calcoliamo l’area dei valori che si discostano meno dell’1% dal peso
medio, ovvero si quei valori compresi tra 9.9 e 10.1.
A questo proposito andiamo a standardizzare i valori e riportiamo anche l’area corrispondente:

9.9 −10
Zi = = −0.5 φ0.5 = 0.1915
0.2

10.1 −10
Zi = = 0.5 φ0.5 = 0.1915
0.2

La frequenza relativa, dunque, riferita all’intervallo 9.9 – 10.1 è pari alla somma delle due aree,
ovvero a 0.383.

0.383

-0.5 0 0.5

Le modalità invece con uno scarto maggiore dell’1% del peso medio sono quelle che vanno da 10.1
ad infinito e da meno infinito a 9.9. Per calcolare dunque queste aree basti ricordare le diverse
proprietà della normale sopra menzionate.
49

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Siccome l’intera area sottesa dalla curva della normale è pari ad 1, per calcolare la restante parte
della curva, sapendo qual è la frequenza relativa dei valori compresi tra 9.9 e 10.1, basterà sottrarre
all’unità questo valore.

Fi (-∞ − 9.9; 10.1 − +∞) = 1 – 0.383 = 0.617

0.383
0.617

9.9 0 10.1

Si noti che sommando le due aree si giunge all’unità, ovvero il valore corrispondente all’intera area
sottesa dalla curva della normale.

50

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

RELAZIONI STATISTICHE
Si analizzeranno di seguito le relazioni statistiche esistenti tra due variabili e si esamineranno i
diversi indici che forniscono una misura del tipo di legame esistente tra di loro.

CONNESSIONE

Si consideri una variabile doppia i cui caratteri sono rappresentati da una distribuzione doppia (ad
esempio si consideri la variabile “essere umano”; sono molti i caratteri di un essere umano come ad
esempio l’altezza e il peso. Si descriverà quindi la variabile secondo due caratteri generici uno
indicato da X e uno da Y).

𝐗⁄𝐘 (20) 𝐲𝟏 𝐲𝐣 𝐲𝐜 TOT


𝐱𝟏 n1.
𝐱𝐢 𝑛𝑖𝑗 ni.
𝐱𝐫 nr.
TOT 𝑛.1 𝑛.𝑗 𝑛.𝑐 n

Si parla di CONNESSIONE tra due fenomeni associati quando al variare delle modalità del
carattere statistico X le modalità del carattere Y variano. Possiamo avere una relazione di:

- INTERDIPENDENZA: Quando al variare di X varia Y e al variare di Y varia X, quindi


entrambe le variabili sono effetto e causa (si pensi ad esempio alla relazione tra prezzo e
domanda di una merce: il prezzo influisce sulla domanda e la domanda influisce sul prezzo).
- DIPENDENZA: Una variabile è funzione di un'altra ma non è vero il contrario (in
autostrada si paga per i chilometri percorsi e non il contrario, non si paga prima e poi entro
in autostrada).

Per capire se esiste una connessione tra le due variabili si parte dalla condizione di indipendenza
statistica, in questo modo se non viene verificata questa condizione si potrà dire che effettivamente
esiste una relazione tra le due variabili.

Nel caso di una distribuzione doppia si dice che vi è indipendenza statistica tra due variabili X e Y
se si verifica che:
𝐧𝐢𝐣 𝐧.𝐣
=
𝐧𝐢. 𝐧

Semplificando per nij :

𝐧𝐢. ∙ 𝐧.𝐣
𝐧𝐢𝐣 =
𝐧

(20) Non sta per X diviso Y ma il carattere X sulle righe e Y sulle colonne.
51

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Avremo quindi indipendenza statistica quando le singole nij , ovvero le frequenze di quando si
verificano combinatamente le modalità del carattere X e Y, sono uguali alla formula preposta.

Facendo un esempio:

𝐗⁄𝐘 𝟏𝟖 𝟐𝟎 𝟐𝟏 TOT
𝟏𝟖 1 7 4 12
𝟐𝟐 0 5 0 5
𝟐𝟑 5 6 1 12
TOT 6 18 5 29

Si consideri X = voto in statistica Y = voto in matematica. Vogliamo vedere quindi se esiste una
connessione tra le due variabili. A questo proposito muoveremo dalla condizione opposta,
verifichiamo se esiste una indipendenza statistica seguendo la formula precedente. Se la condizione
non si verifica vorrà dire che necessariamente esiste una connessione.

Si prenda dunque una generica nij , ad esempio 0, frequenza che mi indica quante volte si è
verificata la combinazione di voti Y = 18 e X = 22. Seguendo la formula precedente dobbiamo
verificare se questo valore è uguale al valore risultante dalla formula:
𝐧𝐢. ∙ 𝐧.𝐣
𝐧𝐢𝐣 =
𝐧

ni. rappresenta un generico totale delle righe, mentre n.j rappresenta un generico totale per le
colonne. Siccome stiamo esaminando nij = 0 dobbiamo prendere i totali per righe e colonne riferite
necessariamente a questo valore; dunque 5 e 6. Seguendo la formula avremo:

5∗6
𝐗⁄𝐘 𝟏𝟖 𝟐𝟎 𝟐𝟏 TOT = = 1.03
29
𝟏𝟖 1 7 4 12
Vediamo quindi che questo valore risulta essere differente da 0 e
𝟐𝟐 0 5 0 𝟓 questo sta a significare che per quella frequenza non si verifica la
𝟐𝟑 5 6 1 12 condizione di indipendenza statistica. Facendo questa
𝟔 18 5 considerazione per ciascuna frequenza si potrà dunque dire se tra il
TOT 29
carattere X e Y sussiste indipendenza statistica.

52

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

INDICI DI CONNESSIONE

Data una distribuzione doppia se tra le variabili non esiste connessione nulla, ovvero esiste un
legame di connessione, si è interessati a conoscere il grado di connessione fra le due variabili, a tale
scopo si utilizzeranno gli indici di connessione.

Gli indici devono assumere valore minimo in caso di connessione nulla, in genere 0, e devono
assumere il massimo in caso di dipendenza perfetta. Utilizzando la tabella a doppia entrata
precedente avremo che la frequenza assoluta osservata nij rappresenta il numero delle volte che si è
presentata la modalità di xi congiunta a yi

Perché si possa misurare il grado di connessione sarà necessario calcolare quelle che vengono
definite le FREQUENZE TEORICHE, ovvero quelle frequenze che, se vengono rilevate, fanno si
che non vi sia una connessione statistica. Da quello che abbiamo visto precedentemente, sappiamo
che non vi è connessione statistica e quindi si rileva un caso di indipendenza statistica quando
𝐧𝐢. ∙ 𝐧.𝐣
𝐧𝐢𝐣 = 𝐧

Indicheremo con n∗ij (letto come nij – star per via della stella in cima) le nostre frequenze toriche
come segue:

ni. ∙ n.j
n∗ij =
n

Infatti secondo questa formula siamo in grado di dire se esiste indipendenza statistica. Qualora le
frequenze rilevate nella tabella, siano uguali alle frequenze teoriche calcolate con la seguente
formula potremo dire che sussiste INDIPENDENZA STATISTICA.

CHI – QUADRO

Un indice di connessione assoluto è il χ2 (chi-quadro) di K. Pearson detto indice quadratico di


contingenza:
∗ 𝟐
(𝐧𝐢𝐣 −𝐧𝐢𝐣 )
𝟐
𝛘 = ∑𝐫𝐢=𝟏 ∑𝐜𝐣=𝟏
𝐧∗ 𝐢𝐣

Esso di annulla nel caso di connessione nulla, ossia quando le variabili sono perfettamente
indipendenti. L’indice sarà positivo nel caso in cui vi è indipendenza tra le variabili assumendo
valore tanto più grande quanto più le frequenze osservate si discostino da quelle teoriche. Si tenga
bene a mente che il chi-quadro deve essere NECESSARIAMENTE un valore positivo. qualora non
risultasse positivo si commetterebbe un errore gravissimo.

53

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Il Massimo dell’indice è dato da:

Max(𝛘𝟐 )= n[min(r-1;c-1)(21)

Tale indice χ2 rappresenta l’allontanamento dei dati dall’ipotesi di indipendenza fatta all’inizio, ma
non può costituire una misura di associazione in quanto dipende da n, il totale delle frequenze.

Per questo motivo si introduce un ulteriore indice di contingenza che non risente delle grandezza
del collettivo studiato misurato da n: L’INDICE DI CONTINGENZA QUADRATICA MEDIA.
Esso è dato da:

𝛘𝟐
𝛙𝟐 =
𝐧

Questo indice, indicato con ψ2 (psi − quadro) è nullo in caso di indipendenza ed il suo massimo è
dato da:

Max (𝛙𝟐 ) = Min(r-1;c-1)


Dove con “r” intendiamo il numero di righe della tabella considerata e con “c” il numero di
colonne. Il massimo è dato da il valore minimo tra il numero di righe diminuito di uno e il numero
di colonne diminuito di uno. Si supponga ad esempio di avere a che fare con una tabella che
presenti 5 righe e 3 colonne, allora il valore massimo che l’indice di contingenza quadratica media
sarà dato da il valore minimo tra 5-1 = 4 e 3-1 = 2 ovvero 2.

Un indice relativo di connessione è L’INDICE MEDIO DI CONTINGENZA proposto da


Cramer:

𝛙𝟐
𝛗𝟐 = 𝐌𝐢𝐧(𝐫−𝟏;𝐜−𝟏)

L’indice φ2 (phi – quadro) varia NECESSARIAMENTE tra 0 e 1, vale 0 in caso di connessione


nulla e vale 1 solo in caso di perfetta dipendenza.

Presentiamo dunque alcune tipologie di esercizio nelle quali bisogna calcolare il chi – quadro.

(21) Ovvero è il massimo del chi-quadro il minimo tra il numero di valori per riga diminuito di uno e il numero dei
valori per colonna diminuito di uno.
54

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Si consideri la seguente distribuzione del peso e dell’altezza e si verifichi una


relazione significativa tra le due variabili.

L’esercizio richiede dunque di calcolare il chi – quadro. Una volta calcolato il chi quadro sarà poi
necessario fare un ulteriore passaggio, il TEST del CHI – QUADRO, che sarà presentato nella parte
successiva della dispensa che tratta la statistica inferenziale. Solo facendo il test del chi quadro
possiamo dire se esistono le condizioni di poter dire che esiste una relazione tra le due variabili.
Ricordarsi dunque che al momento del calcolo del chi quadro, sarà sempre necessario fare il test del
chi quadro.

La tabella è la seguente:

155 −ǀ 160 160 −ǀ 170 170 −ǀ 180


𝐏𝐄𝐒𝐎⁄𝐒𝐓𝐀𝐓𝐔𝐑𝐀 TOT

55 −ǀ 60 20 0 0 20
60 −ǀ 70 30 10 5 45
70 −ǀ 80 0 10 3 13
TOT 50 20 8 78

Prendiamo una distribuzione doppia peso/statura e andiamo a calcolare il chi-quadro che ricordiamo
(nij −n∗ij )2
è uguale a: χ2 = ∑ri=1 ∑cj=1 n∗ij
ni. ∙ n
A questo proposito dobbiamo prima calcolare le frequenze teoriche date da: n∗ij = .j
n
A questo proposito si consiglia di operare in questo modo. Si fissi la prima ni. ovvero il primo totale
delle righe, in questo caso 20 e si moltiplichi, una alla volta, per le diverse n.j ovvero 50, 20 e 8, per
poi dividere ogni volta per il totale delle frequenze rilevate 78. Procediamo primariamente con ni. =
20
20∗50 20∗20 20∗8
n∗ij = = 12.82 n∗ij = = 5.12 n∗ij = = 2.05
78 78 78

Ora con ni. = 45

45∗50 45∗20 45∗8


n∗ij = = 28.85 n∗ij = = 11.54 n∗ij = = 4.61
78 78 78

Ora con ni. = 13

13∗50 13∗20 13∗8


n∗ij = = 8.33 n∗ij = = 3.33 n∗ij = = 1.33
78 78 78
Procedendo in questo modo, fissando quindi il valore di ni. e non nj. , e stando attenti a scrivere il
valori in orizzontale, arriviamo ad una nuova tabella:

12.82 5.13 2.03


28.85 11.54 4.61
8.33 3.33 1.33

55

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si è proceduto in questa maniera perché vi deve essere una perfetta corrispondenza tra le frequenze
teoriche e le frequenze rilevate. Ad esempio la frequenze 12.82 che è stata calcolata come
20∗50
n∗ij = = 12.82, deve far riferimento necessariamente alla frequenza rilevata nij corrispondente
78
al totale 20 per riga e al totale 50 per colonna. Deve far quindi riferimento a nij = 20. Andando
avanti con l’esercizio si capirà il perché.

Primo passo nel calcolo del chi quadro è calcolare il suo numeratore, ovvero (nij − n∗ij )2. Si
sottragga dunque a ciascuna frequenza rilevata nell’esercizio nij la corrispondente frequenza teorica
n∗ij .

Le frequenze rilevate sono le seguenti:

20 0 0
30 10 5
0 10 3

Le frequenze teoriche calcolate precedentemente sono:

12.82 5.13 2.03


28.85 11.54 4.61
8.33 3.33 1.33

Operando una perfetta corrispondenza tra le varie frequenze rilevate e toriche (quindi la frequenza
relativa del primo riquadro in alto a sinistra con la prima frequenza teorica nel primo riquadro in
alto a destra e così via), si calcolino gli scarti tra i due e si elevino al quadrato:

(20 − 12.82)2 (0 − 5.13)2 (0 − 2.03)2


(30 − 28.85)2 (10 − 11.54)2 (5 − 4.61)2
(0 − 8.33)2 (10 − 3.33)2 (3 − 1.33)2

Riordinando i dati:
51.55 26.31 4.12
1.32 2.37 0.15
69.39 44.48 2.78

Come si vede nella formula del chi quadro, una volta calcolati gli scarti al quadrato tra le frequenze
rilevate e quelle teoriche (che prendono il nome di CONTINGENZE), è necessario per ciascun
valore calcolato, dividerlo per la corrispondente frequenza teorica. Si faccia sempre attenzione a
operare sempre una perfetta corrispondenza fra i vari valori calcolati.

51.55 26.31 4.12


= 4.02 = 5.12 = 2.02
12.82 5.13 2.03
1.32 2.37 0.15
= 0.04 = 0.2 = 0.03
28.85 11.54 4.61
69.39 44.48 2.78
= 8.33 = 13.35 = 2.09
8.33 3.33 1.33

56

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Ora bisogna operare la doppia sommatoria, quella che nella formula del chi – quadro, viene indicata
con ∑𝐫𝐢=𝟏 ∑𝐜𝐣=𝟏.

Questo simbolo ci offre l’indicazione di sommare i valori ottenuti per riga (quindi andando dalla
prima riga all’ultima riga indicata con “r”) e tutti i valori per colonna (andando quindi a sommare
dalla prima colonna all’ultima indicata con “c”). Sommare per riga e per colonna sta a dire
sommare tutti i valori calcolati uno dopo l’altro.

Sommando tutti i valori presenti nella tabella arriviamo a definire l’entità del chi – quadro.

𝛘𝟐 = 4.02 + 0.04 + 8.33 + 5.12 + 0.2 + 13.35 + 2.02 + 0.03 + 2.09 = 35.2

Si facciano ora delle piccole considerazioni su questo valore. È un valore accettabile di chi – quadro
in quanto è un valore positivo e necessariamente deve esserlo. Siccome non è uguale a 0 possiamo
dire che potrebbe esserci una certa interdipendenza tra il carattere delle colonne e il carattere delle
righe, in questo caso il peso e l’altezza. Per VERIFICARE L’ESISTENZA DI UNA RELAZIONE
sarà necessario fare il TEST DEL CHI – QUADRO che sarà presentato successivamente nella parte
di inferenza.

Per avere una misura del grado di interdipendenza tra il carattere delle righe e quello delle colonne
calcoliamo l’indice di contingenza quadratica media (ψ2 ) dato dal chi – quadro fratto il numero
totale di frequenze:
χ2 35.26
ψ2 = = = 0.45
n 78

Si calcoli dunque il massimo di questo indice:

Max (ψ2 ) = Min(r-1;c-1)

Sapendo che il numero di righe in questo esercizio è pari a 3 così come il numero delle colonne
avremo:

Max (ψ2 ) = Min(3-1;3-1)

Max (ψ2 ) = Min(2;2)

Il valore minimo tra due e due è 2 e quindi possiamo calcolare l’indice di Cramer:
ψ2 0.45
φ2 = Min(r−1;c−1) = 2
= 0.22

Si tratta di un valore accettabile per l’indice di Cramer in quanto oscilla tra 0 e 1, ed essendo più
vicino a 0 che all’unità possiamo dire che esiste poca interdipendenza tra le righe e le colonne.
Ricordiamo infatti che quest’indice è pari a 0 quando sussiste indipendenza statistica, mentre è pari
a 1 quando vi è assoluta interdipendenza.

57

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

IL RAPPORTO DI CORRELAZIONE

Si supponga di avere una distribuzione doppia di una variabile Y quantitativa e di un variabile X


che può essere sia quantitativa che qualitativa e di voler misurare quanto Y dipenda in media da X.

Tale misura è data da un opportuno indice chiamato RAPPORTO DI CORRELAZIONE DI


PEARSON (ETA – QUADRO 𝛈𝟐 𝐘𝐗 ) dato da:

∑(𝐲̅ − 𝐲̅)𝟐 𝐧
𝛈𝟐 𝐘𝐗 = ∑(𝐲𝐢− 𝐲̅)𝟐 𝐧𝐢. con 0 ≤ 𝛈𝟐 𝐘𝐗 ≤ 𝟏
𝐣 .𝐣

Esso costituisce una misura normalizzata (poichè oscilla tra 0 e 1) di dipendenza in media di Y a X.

Considerando la scomposizione della devianza studiata precedentemente avremo quindi che l’indice
eta – quadro è dato da:

𝐃𝐄𝐕(𝐁𝐄𝐓𝐖𝐄𝐄𝐍)
𝛈𝟐 𝐘𝐗 =
𝐃𝐄𝐕(𝐓𝐎𝐓𝐀𝐋𝐄)

Tale indice interviene dunque, unicamente quando trattiamo una distribuzione doppia che analizza
una variabile dipendente Y e una variabile indipendente X. A tale proposito è INDISPENSABILE,
che la variabile dipendente sia quantitativa, mentre quella indipendente può essere sia qualitativa
che quantitativa.

Attraverso questo rapporto si è in grado di dire quanto dipenda in media la variabile Y dalla
variabile X. Questo è un punto essenziale da andare a precisare. È necessario infatti operare una
importante distinzione tra l’indice chi – quadro e l’indice eta – quadro.

L’indice chi – quadro offre una misura dell’INTERDIPENDENZA tra la variabile X e la variabile
Y.
L’indice ETA – QUADRO offre una misura della DIPENDENZA della variabile Y rispetto alla
variabile X

Perché si possa calcolare l’eta quadro, ricordiamo, è indispensabile avere una distribuzione doppia
di caratteri X e Y e inoltre è necessario definire quale sia la variabile dipendente e la variabile
indipendente. Si pensi ad esempio una tabella “voto in statistica”*”voto in matematica”. È
ragionevole pensare che il voto in statistica dipenda dal voto conseguito all’esame di matematica
quindi si porrà Y = VOTO IN STATISTICA e X = VOTO IN MATEMATICA.
Attraverso l’eta – quadro si avrà la possibilità di misurare la dipendenza in media del voto in
statistica rispetto al voto in matematica.

Facciamo un altro esempio.

Consideriamo una tabella “reddito”*”titolo di studio”. È ragionevole pensare che il reddito dipenda
dal titolo di studio che si è conseguito (diploma, laurea…) quindi si porrà Y = REDDITO e
X = TITOLO DI STUDIO. Attraverso il rapporto di correlazione si avrà modo di calcolare quanto il
reddito dipenda, in media, dal titolo di studio.
58

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Si consideri la seguente distribuzione del reddito e del titolo di studio:

Titolo di studio
(X) Laurea Diploma Altro TOTALE
Reddito (Y)
5 – 15 VC(10) 20 10 40 70
15 – 30 VC(22.5) 10 30 50 90
30 – 50 VC (40) 14 20 30 64
50 – 100 VC (75.5) 60 40 10 110
TOTALE 104 100 130 334

Calcolare un opportuno indice che misuri la relazione tra le due variabili.

Un tipico esercizio da chi – quadro, come quello precedente, avrebbe chiesto di verificare una
possibile relazione tra le due variabili. In questo caso vediamo invece che ci si chiede di calcolare
un opportuno indice che misuri la relazione tra le due variabili. Già possiamo quindi intuire che si
potrebbe dover calcolare un eta – quadro.
La conferma ci è tuttavia data da un attenta analisi delle variabili studiate.
- Notiamo infatti che il reddito e il titolo di studio, sono due variabili tra le quali può esiste
una dipendenza (il reddito che si percepisce dipende dal titolo di studio che si possiede, in
quanto un titolo più sofisticato consente di avere competenze maggiori che verranno
maggiormente riconosciute).
- La variabile dipendente (il reddito) è una variabile quantitativa.

Queste due condizioni ci permettono di calcolare il rapporto di correlazione eta – quadro.

Seguendo la formula precedente:


∑(y ̅)2 ni.
̅ −y
η2 YX = ∑(yi ̅) 2n
j− y .j

Notiamo di aver immediato bisogno della media totale della variabile dipendente y̅ (quindi del
reddito). Seguirà poi definire le medie parziali (yj ), riferite a ciascun sottogruppo.

Calcoliamo la media totale del reddito (i valori centrali sono indicati nella tabella):
10∗70+22.5∗90+40∗64+75.5∗110 13590
y̅ = = = 40.68
334 334

Calcoliamo dunque la devianza totale della variabile dipendente data da: ∑(yj − y̅)2 n.j , dove con
n.j intendiamo i totali riferiti alla variabile Y, quindi 70, 90, 64 e 110.

DEV(TOT) = (10 − 40.68)2 ∗ 70 + (22.5 − 40.68)2 ∗ 90 + (40 − 40.68)2 ∗ 64 +


(75.5 − 40.68)2 ∗ 110 = 229031.62

Per calcolare ora la devianza between, abbiamo bisogno di calcolare le singole medie parziali di Y,
vale a dire il reddito medio per i laureati, per i diplomati e così via.

59

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

10∗20+22.5∗10+40∗14+75.5∗60
y̅LAUREATI = = 48.03
104

10∗10+225.5∗30+40∗20+75.5∗40
y̅DIPLOMATI = = 45.95
100

10∗40+22.5∗50+40∗30+75.5∗10
y̅ALTRO = = 26.75
130

Si ricordi che al momento del calcolo delle medie parziali si considera il totale di frequenze riferito
unicamente a quella parte di tabella che si sta considerando. Così al momento del calcolo della
media dei diplomati si utilizzerà il totale di frequenze dei diplomati intervistati, peri i laureati il
totale dei laureati e così via.

Possiamo ora calcolare la devianza between della variabile dipendente Y, data da ∑(y̅i − y̅)2 ni. ,
bisogna dunque operare gli scarti fra le medie parziali e la media generale, elevarli al quadrato e
moltiplicare questo scostamento per quanto sono i totali della variabile X.

DEV(BET) = (48.03 − 40.68)2 ∗ 104 + (45.95 − 40.68)2 ∗ 100 + (26.75 − 40.68)2 ∗ 130 =
33621.46

Verificare sempre che, come in questo caso la devianza between sia sempre minore della devianza
totale. Questa è una condizione necessaria, in quanto essendo la devianza totale scomponibile in
devianza between sommata alla devianza within, ognuna di queste deve essere necessariamente
minore (o al massimo uguale) alla devianza totale.

Possiamo dunque calcolare il rapporto di correlazione eta – quadro:


DEV(BETWEEN) 33621.46
η2 YX = = η2 YX = = 0.14
DEV(TOTALE) 229031.62

Siccome l’eta quadro è un valore che oscilla tra 0 e 1 e presenta valore zero in caso di assoluta
indipendenza e valore pari all’unità in caso di assoluta dipendenza, possiamo dire che la variabile
reddito dipende leggermente dalla variabile titolo di studio, nella misura del 14% (se volessimo
porre il valore ottenuto sotto forma di percentuale)

60

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

CORRELAZIONE E REGRESSIONE

Due e più variabili hanno un legame o una relazione se le variazioni dell’una sono legate in qualche
modo alle variazioni dell’altra. Si pensi ad esempio alla relazione esistente tra il consumo dei grassi
alimentari e il numero di casi di obesità, tra il tasso di inquinamento atmosferico delle città e il
numero di casi di malattie respiratorie.

Le tecniche statistiche consentono di valutare il tipo e l’intensità della relazione che lega due o più
caratteri quantitativi, si dicono ANALISI DELLA REGRESSIONE e ANALISI DELLA
CORRELAZIONE.

L’analisi di regressione lineare consiste nello sviluppare un modello matematico per “prevedere” i
valori o le modalità di una variabile detta dipendente (Y) mediante i valori o le modalità di una altra
variabile detta indipendente (X).
L’analisi di correlazione consiste nella ricerca di una misura del grado di concordanza e discordanza
tra le variabili X e Y cioè se esiste una interdipendenza tra esse.

Quindi l’analisi della correlazione consente di valutare l’intensità della relazione esistente tra le
variabili, mentre quella della regressione valuta il tipo di relazione esistente.

Uno dei modelli di analisi di regressione più utilizzati è quello della RETTA DI REGRESSIONE

LA RETTA DI REGRESSIONE

In statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di
una variabile dipendente Y dati i valori di altre variabili indipendenti X.

Attraverso la retta di regressione che si andrà a definire si avrà modo di prevedere il valore atteso
della variabile dipendente Y in funzione di un'altra variabile, indipendente, X.
Si tratta dunque di un ulteriore studio in merito alle possibili relazioni statistiche tra due variabili.

L’ANALISI DI REGRESSIONE

Si prendano in considerazione due possibili variabili quantitative, ad esempio il tasso di


inquinamento cittadino e i casi di malattie respiratorie in ciascuna città. Si definisca quindi quali
delle due variabili è dipendente e quale indipendente. È naturale affermare che le malattie
respiratorie dipendano dal tasso di inquinamento cittadino, e quindi indicheremo con X la variabile
indipendente (in questo caso il tasso di inquinamento) e con la Y la variabile dipendente (in questo
caso la malattie respiratorie contratte).

Come per qualsiasi altro fenomeno si andranno a rilevare i valori per ciascun caso oggetto di studio
Riallacciandoci all’esempio precedente, si rileveranno i dati per ciascuna variabile, per quante sono
le città che rientrano nel nostro studio. Si rivelerà ad esempio il tasso di inquinamento atmosferico a
Roma, Milano, Torino, Capua ecc, per quanti sono i dati che vogliamo rilevare (possiamo rilevare
un numero a nostro piacimento di città), e in maniera corrispondente si rileveranno i casi di malattie
respiratorie in ciascuna città.
61

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si avranno così “n” coppie di valori di X e di Y per quante sono le “n” città oggetto di studio:

ROMA (x1 ; y1 ) (18; 20)


MILANO (x2 ; y2 ) (20; 23)
… … …
CAPUA (xn ; yn ) (53; 42)

Ad esempio, a Roma, leggiamo che per un valore x di tasso di inquinamento pari a 18 si sono
rilevati 20 casi di malattie respiratorie.
Si vadano ora riepilogare i vari dati in un piano di assi cartesiani come di seguito, dove a ogni punto
corrisponde una coppia di valori.

L’analisi di regressione lineare si propone l’obbiettivo di


calcolare quella retta che minimizza la somma delle distanze
tra ogni singolo punto rilevato e la retta di regressione (da
qui il METODO DEI MINIMI QUADRATI)

La relazione lineare tra la variabile X e la variabile Y che si


propone di andare a calcolare è la seguente:

𝐲̂𝐢 = 𝐛𝟎 + 𝐛𝟏 𝐱 𝐢
Con la dicitura ŷ (ipsilon – teoriche), intendiamo quel valore di Y secondo il modello teorico di
regressione lineare che andremo a costruire. Riprenderemo questo punto in seguito.
b0 rappresenta l’INTERCETTA della retta, indica ovvero il valore della Y quando X è uguale a 0.
b1 rappresenta invece il COEFFICIENTE ANGOLARE della retta e mi indica la variazione della Y
a una variazione unitaria della X.

Lo studio dell’analisi di regressione consiste unicamente dunque nel definire, attraverso i dati a
nostra disposizione i valori di b0 e di b1 , rispettivamente i valori dell’intercetta e del coefficiente
angolare.

Il coefficiente angolare è dato dalla formula seguente:


Cov(XY)
b1 =
Var(X)

Dove con Cov(XY) intendiamo la COVARIANZA tra la X e la Y e con Var(X) la varianza di X. La


covarianza è un numero che fornisce una misura di quanto le due varino assieme, ovvero della loro
dipendenza (nel nostro esempio darebbe una misura di quanto vari il numero di malattie respiratorie
al variare del tasso di inquinamento).

62

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Sapendo che la covarianza è data da ∑(xi − x)(yi − y)⁄n e la varianza è pari alla devianza fratto il
numero di frequenze (∑(xi − x)2 ⁄n) possiamo scrivere:

∑(xi − x)(yi −y)⁄n


b1 = ∑(xi − x)2 ⁄n

Ricordando le proprietà delle frazioni, si tenga a mente che dividendo o moltiplicando numeratore e
denominatore per una stessa quantità il risultato non cambia, quindi, possiamo dividere entrambi
per “n” risultando la formula seguente:

∑(𝐱 𝐢 − 𝐱)(𝐲𝐢 −𝐲)


𝐛𝟏 = ∑(𝐱 𝐢 − 𝐱)𝟐

In questo modo b1 non risulterà più essere il rapporto tra covarianza di XY e varianza di X, ma
bensì il rapporto tra la CODEVIANZA di XY e la DEVIANZA di X. Per i futuri esercizi si tenga
presente questa formula anziché la precedente perché risente di meno calcoli.
Si faccia presente che la codevianza, a differenza della devianza, che deve essere necessariamente
positiva, può essere anche un valore negativo.

Si può inoltre calcolare il coefficiente angolare della retta di regressione b1 , attraverso delle formule
alternative. Come per la devianza, che abbiamo visto nel paragrafo apposito può essere scomposta
2
per distribuzioni per unità come Dev(X) = ∑ xi2 - nx , la codevianza può essere scomposta come
segue:

Cod(XY) = ∑ 𝐱 𝐢 𝐲𝐢 − 𝐧𝐱𝐲
Quindi la formula di b1 può essere rivista come:

∑ 𝐱 𝐢 𝐲𝐢 −𝐧𝐱𝐲
𝐛𝟏 = 𝟐
∑ 𝐱 𝟐𝐢 − 𝐧𝐱

Una volta studiati i due modi di calcolo per il coefficiente angolare presentiamo l’unico modo per il
calcolo dell’intercetta, che è data da:

𝐛𝐨 = 𝐲 - 𝐛𝟏 𝐱
È quindi data dalla differenza tra la media dei valori riferiti alla variabile dipendente e il prodotto
del coefficiente angolare e la media riferita ai valori della variabile indipendente. Va da se che il
calcolo di bo richiede che prima si calcoli il coefficiente angolare.

63

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

A titolo semplificativo riportiamo nella seguente tabella i metodi di calcolo riassunti per il
coefficiente angolare e l’intercetta della retta di regressione.

𝐛𝟏 𝐛𝐨
∑(xi − x)(yi − y) y - b1 x
∑(xi − x)2

∑ xi yi − nxy
2
∑ xi2 − nx

Una volta conclusa l’analisi di regressione lineare che termina definendo i calori dell’intercetta e del
coefficiente angolare della retta di regressione generica ŷi = b0 + b1 xi , si passa all’analisi di
correlazione lineare.

64

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

L’ANALISI DI CORRELAZIONE

Attraverso il processo di analisi della correlazione lineare ci proponiamo di calcolare opportuni


indici che mi offrano un’idea del grado di attendibilità del modello lineare che si è costruito in fase
di regressione, e di determinare il tipo di relazione esistente tra la X e la Y (per intenderci se sono
inversamente o direttamente proporzionali). Ci chiediamo dunque quale sia il grado di adattamento
che esiste tra yi e ŷi , dove, ricordiamo, con yi indichiamo le modalità della variabile dipendente che
sono stati osservati a fronte dei dati della variabile dipendente X, mentre con ŷi indichiamo i valori
di Y attraverso il modello di regressione lineare costruito.

Chiariamo questo concetto.

Supponiamo che dai calcoli effettuati in merito allo studio Tasso di inquinamento/Malattie
respiratorie si siano rilevati i dati seguenti:

X (tasso di inquinamento) Y (malattie respiratorie)


18 20
20 23
53 42

La retta di regressione costruita è (esempio):

ŷi = 0.5 + 1.5xi


Con yi indichiamo i valori di Y rilevati nell’indagine (in questo caso 20, 23, 42) mentre con ŷi
indichiamo i valori di Y secondo il modello teorico lineare costruito. Queste andranno calcolate
sostituendo i singoli valori X all’interno della retta derivata calcolando così i valori di Y secondo il
modello. Avremo quindi:

ŷ1 = 0.5 + 1.5(18) = 27.5

ŷ2 = 0.5 + 1.5(20) = 30.5

ŷ3 = 0.5 + 1.5(53) = 80

Si rileva dunque per ciascun valore di Y il suo valore teorico:

𝐱𝐢 𝐲𝐢 𝐲̂𝐢
18 20 27.5
20 23 30.5
53 42 80

Naturalmente quanto più i valori rilevati si discostino dai valori teorici, minore validità avrà la retta
che abbiamo derivato. Ricordiamo sempre che il modello di regressione lineare è un modello di
stima dei valori futuri della Y ipotizzando un valore di X. Ad esempio attraverso la retta precedente
io avrei modo di stimare il numero di malattie respiratorie per una città con un tasso di
inquinamento pari a 30. Basti a questo proposito sostituire 30 all’interno della retta al posto della X.

65

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si avrà dunque:

ŷi = 0.5 + 1.5(30) = 45.5


Ovvero, ipotizzando un tasso di inquinamento pari a 30 si possono stimare 45.5 casi di malattie
respiratorie.

Tuttavia quando operiamo in questa maniera ci interessa sapere quanto sia attendibile il modello che
stiamo usando, ovvero quanto più presumibilmente si verificheranno i dati che esso va a prevedere.

A questo proposito interverranno opportuni indici che da qui in avanti andremo ad illustrare.

Al fine di andare a definire l’attendibilità del modello, occorre fare degli approfondimenti in merito
alla devianza della variabile dipendente Y. Ricordando che la devianza di una qualsiasi variabile è
data dalla sommatoria degli scarti al quadrato è possibile scomporre gli scarti dai valori osservati
dalla media in questa maniera:

(𝐲𝐢 − 𝐲) = (𝐲𝐢 − 𝐲̂𝐢 ) + (𝐲̂𝐢 − 𝐲)


- Il primo segmento misura la differenza tra l’ordinata osservata e quella teorica: esprime
l’accostamento dei valori osservati al modello di dipendenza teorica.
- Il secondo segmento misura la differenza tra l’ordinata teorica e l’ordinata della media
aritmetica del carattere: esprime il divario tra il modello di dipendenza lineare ŷi = b0 + b1 xi
e il modello di indipendenza lineare y = y

Elevando ciascun membro al quadrato e esprimendo la sommatoria di ciascuno possiamo scrivere:

∑(yi − y )2 = ∑(yi − ŷi )2 + ∑(ŷi − y)2


Il primo termine prende il nome di DEVIANZA RESIDUA (Dev(Res)) e indica il grado di
dispersione dei punti osservati intorno alla retta di regressione. È nulla nel caso in cui non vi è
dispersione, cioè se i punti osservati sono allineati alla retta di regressione. Il secondo termine
prende il nome di DEVIANZA DI REGRESSIONE (Dev(Reg)).
Dalla scomposizione della devianza totale, si ha che più piccola è la devianza residua tanto più
elevata è la devianza spiegata dalla regressione e quindi tanto più la retta di regressione si avvicina
ai punti osservati e meglio descrive la distribuzione osservata. Se ne trae che più alta è la devianza
di regressione tanto più la variabilità della Y è spiegata dalla relazione lineare.

Attraverso questa scomposizione possiamo introdurre un indice che misuri quanta parte della
devianza totale è spiegata o determinata dalla devianza di regressione, cioè la frazione della
variabilità della Y che è attribuibile alla dipendenza lineare di X: il COEFFICIENTE DI
DETERMINAZIONE LINEARE 𝐑𝟐 dato da:

Dev(Reg) ∑(ŷ − y)2


𝐑𝟐 = = ∑(yi 2
Dev(Y) i −y )

66

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Ricordando che la devianza della Y può essere scomposta come: Dev(Y) = Dev(Res) + Dev(Reg),
ne segue che sia la devianza residua che la devianza di regressione non possono essere
necessariamente maggiori della devianza totale della Y. Qualora questo non si verificasse sarà
necessario andare a ricontrollare i calcoli svolti. Tenendo a mente questa considerazione possiamo
osservare che:

- Quando la Dev(Reg) = Dev(Tot) e quindi Dev(Res) = 0 allora R2 = 1

In questa particolare condizione tutti i punti osservati, ovvero tutte le coppie di punte rilevate nel
piano cartesiano giacciono sulla retta definita. In questo caso la variabilità totale della Y è spiegata
totalmente dalla devianza di regressione.

- Nel caso in cui la Dev(Reg) = 0 e quindi Dev(Tot) = Dev(Res) allora R2 = 0. In questo caso
la devianza di regressione non spiega in nessuna parte la variabilità della Y.

Conoscendo queste condizioni di massimo e minimo

Possiamo quindi dire che:

0 ≤ 𝐑𝟐 ≤ 1
Qualora R2 non risulti compreso in questo intervallo, ovvero non sia un valore compreso tra 0 e 1
(valori compresi), sempre che si abbia il tempo materiale durante l’esame, si vadano a ricontrollare i
calcoli, altrimenti specificare affianco al valore che non è un valore accettabile per erre – quadro,
dimostrando così di sapere la condizione di esistenza accettabile dell’indice.

L’indice R2 esprime in quanta parte la variabilità della Y è spiegata dalla dipendenza lineare della X
(DOMANDA DA COMPITO). Qualora dunque si sia arrivati ad un valore di R2 = 0.83, si dirà
prima di tutto che è un valore accettabile questo indice in quanto è un valore presente nell’intervallo
preposto, e alla domanda di quanta parte della variabilità della Y può essere spiegata tramite la
relazione lineare risponderemo l’83%. Ne risulta, in quanto R2 ha un massimo valore pari a 1, che
la parte di variabilità non spiegata è data da 1 − R2 , in questo caso il 17%.

Per valutare la concordanza o discordanza tra le due variabili, si utilizza il COEFFICIENTE DI


CORRELAZIONE LINEARE di Bravis – Pearson, che fornisce una misura del grado di relazione
lineare reciproca che esiste tra le due variabili X e Y. È definito come il rapporto tra la codevianza e
il suo valore massimo teorico, la media geometrica delle devianze:

Codev(XY)
r= con -1 ≤ r ≤ 1
√Dev(X)Dev(Y)

Anche per questo indice si facciano le stesse considerazioni. Qualora durante l’esercizio il valore
calcolato non risulti compreso nell’intervallo specificato è necessario far presente nell’esercizio che
il valore a cui si è arrivato non è un valore accettabile per l’indice “r” in quanto deve oscillare in un
determinato intervallo.

67

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Una volta introdotto anche il coefficiente di determinazione lineare possiamo dire che l’indice R2
può essere dato anche come segue:

R2 = r*r

Al contrario conoscendo R2 , il coefficiente di determinazione lineare (r), non è dato


necessariamente dalla radice di R2 :

r ≠ √R2

Infatti come si può ricordare dal corso di matematica per l’economia, la radice di un valore positivo
(in quanto R2 deve risultare necessariamente un valore positivo), è sempre un valore positivo.
tuttavia sappiamo che l’indice “r” può risultare anche negativo (-1 ≤ r ≤ 1). Il valore che incide
sul segno dell’indice di determinazione lineare è la codevianza. Se la codevianza è negativa, r sarà
negativo. Se la codevianza è positiva r risulterà essere positivo. Dunque calcolare r facendo la
radice quadrata di R2 non risulta essere sbagliato; il valore sarà giusto, ma per quanto riguarda il
segno da attribuirgli sarà necessario guardare la codevianza calcolata.

r = √R2 CON LO STESSO SEGNO


DELLA CODEVIANZA

68

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Rilevando i seguenti dati nei quali si elenca la produzione (in migliaia di tonnellate)
di grano per ciascun anno, si determini la retta di regressione. Si calcoli inoltre la produzione attesa,
in base all’equazione della retta di regressione, nell’anno 2005.

Anno Produzione
1996 120
1997 150
1998 132
1999 140
2000 138
2001 146
2002 142

Prima di tutto, all’inizio di un compito in cui si chiede di costruire la retta di regressione, bisogna
definire la variabile X (indipendente) e quella dipendente Y. È ragionevole dire che la variabile X
indipendente è rappresentata dagli anni mentre la variabile dipendente è rappresentata dalla
produzione. Infatti è la produzione a dipendere dall’anno in corso, e non il contrario.

Tuttavia siccome gli anni vengono proposti in maniera crescente, un anno dopo l’altro, per
semplificare i calcoli poniamo come i valori xi i valori da 0 a 6 anziché l’anno. In questa maniera si
giungerà alla stessa retta di regressione, con lo stesso coefficiente angolare, l’unica cosa a risentire
di questo cambiamento sarà l’intercetta. Riscrivendo dunque la tabella avremo:

Anno Produzione
0 120
1 150
2 132
3 140
4 138
5 146
6 142

Per definire la retta di regressione è necessario calcolare b1 , il coefficiente angolare e b0 ,


l’intercetta della retta. Si parta con il calcolare b1 . Questo è dato dal rapporto tra la codevianza e la
devianza, in questo modo:

Cod(XY) ∑(xi − x)(y−y)


b1 = = ∑(xi −x)2
Dev(X)

Sappiamo inoltre che b1 può essere calcolato anche con delle formule alternative in questo modo:

∑ xi yi − nxy
b1 =
∑ x2i − nx2

69

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Ora sta a noi decidere con quale formula operare, si arriverà comunque allo stesso risultato. Si
consiglia comunque, quando si hanno a disposizione tutte le coppie di dati, come in questo caso, di
operare con la prima formula, in modo di non avere numeri ingombranti con cui fare le singole
operazioni.

Seguendo dunque la prima formula, notiamo che sono necessari per i nostri calcoli, la media per i
valori della variabile X e la media per i valori della variabile Y. Andiamo a calcolare ciascuna
media:

x=3

y = 138.28

Calcoliamo dunque, secondo la formula, i singoli scarti dei valori xi e yi dalla corrispettiva media:

𝐱𝐢 − 𝐱 𝐲𝐢 − 𝐲
-3 -18.28
-2 11.72
-1 -6.28
0 1.72
1 -0.28
2 7.72
3 3.72

Seguendo la formula si faccia attenzione ora a moltiplicare prima i singoli scarti e solo dopo si
sommi il tutto, nella maniera come segue:

(𝐱 𝐢 − 𝐱)(𝐲𝐢 − 𝐲)
54.84
-23.44
6.28
0
-0.28
15.44
11.16
TOT = COD (XY) = 64

70

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si calcoli ora la devianza di X:

(𝐱 𝐢 − 𝐱)2
9
4
1
0
1
4
9
TOT = 28
Abbiamo quindi a disposizioni i dati necessari per il calcolo del coefficiente angolare b1 :
64
b1 = = 2.28
28

Il valore di b1 mi offre l’indicazione della variazione della Y alla variazione unitaria della X. Si
tratta di una domanda spesso chiesta negli esercizi della regressione. Qualora quindi si domandasse
qual è la variazione di Y a una variazione unitaria della X si risponda con il valore risultante dal
calcolo del coefficiente angolare. Riferendoci all’esercizio in considerazione diremo, che alla
variazione unitaria degli anni, la produzione aumenta di 2.28.

Disponendo del valore del coefficiente angolare e delle singole medie dei valori possiamo ora
calcolare l’intercetta b0 :

b0 = y − b1 x

= 138.28 – (2.28)(3) = 131.44

Tale valore sta a dire che all’anno 0 la retta di regressione intercetta la produzione al valore 131.44

Una volta calcolati i valori dell’intercetta e del coefficiente angolare, si ricordi di scrivere
l’equazione della retta di regressione sostituendo i valori calcolati per b0 e b1 :

ŷi = 131.44 + 2.28xi


Una volta definita la retta possiamo rispondere alla domanda di quale sia la produzione attesa per
l’anno 2005. Nella sequenza degli anni che si è proposta all’inizio dell’esercizio per velocizzare i
calcoli l’ultimo valore di X pari a 6 fa riferimento all’anno 2002. Il valore di X che fa riferimento
all’anno 2005 sarà incrementato di 3 punti e quindi sarà X = 9. Sostituendo 9 nella retta, al posto
della xi avremo modo di calcolare la produzione attesa nell’anno 2005:

ŷi = 131.44 + 2.28(9) = 151.96

Possiamo dunque dire che la produzione attesa per l’anno 2005 è pari a 151.96

71

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Una volta calcolata la retta di regressione possiamo passare a calcolare R2 l’indice che mi offre una
misura del grado di attendibilità della retta costruita nel prevedere i valori futuri.

Come ricordiamo dalla teoria studiata in precedenza, l’indice di determinazione lineare R2 è dato
dal rapporto della devianza di regressione e la devianza totale della variabile dipendente Y. Perché
si possa calcolare la devianza di regressione è necessario per prima cosa calcolare quelle che sono le
frequenze teoriche. A questo proposito basti sostituire le diverse X rilevate all’interno
dell’equazione della retta che si è costruita è calcolare il valore di Y secondo il modello teorico.

𝐲̂
ŷi = 131.44 + 2.28(0) = 131.44
ŷi = 131.44 + 2.28(1) = 133.72
ŷi = 131.44 + 2.28(2) = 136
ŷi = 131.44 + 2.28(3) = 138.28
ŷi = 131.44 + 2.28(4) = 140.56
ŷi = 131.44 + 2.28(5) = 142.84
ŷi = 131.44 + 2.28(6) = 145.12

Calcolo ora la devianza totale della variabile dipendente Y. A questo proposito basti utilizzare gli
scarti (yi − y) precedentemente calcolati, elevarli al quadrato, e sommare tutti i valori.

Dev(Y) = 334.15 + 137.35 + 39.43 + 2.95 + 0.07 + 59.59 + 13.83

= 587.37

Calcolo ora la devianza di regressione, calcolando i singoli scarti dei valori teorici dalla media della
variabile dipendente Y:

( 𝐲̂ − 𝐲̿)2
46.78
20.79
5.19
0
5.19
20.79
46.78
Dev(Reg) = 145.5

Dev(Reg) 145.5
R2 = = = 0.25
Dev(Tot) 587.37

Si tratta di un valore accettabile per il coefficiente R2 in quanto oscilla tra 0 e 1. Inoltre questo
valore indica che il 25% della variabilità della Y è spiegata dalla relazione lineare. La parte che non
risulta spiegata dalla relazione lineare è il restante 75%

72

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si calcoli dunque il coefficiente di correlazione lineare r:


Cod(XY) 64
r= = = 0.49
√Dev(X)Dev(Y) √28∗587.37

Anche questo risulta essere un valore accettabile, in quanto è compreso nell’intervallo -1 e 1.

ESERCIZIO: Da una recente indagine si sono analizzate la variabile reddito (R) e la variabile
spesa in ristoranti (S) su un campione di 7 famiglie nell’arco di un anno. Si sono calcolate le
seguenti quantità:

∑ si = 11.2

∑ ri = 217

∑ si fi = 405.3

∑ 𝑠i 2 = 21.86

∑ 𝑟i 2 = 7735

Si ponga la variabile dipendente e la variabile è indipendente. È ragionevole pensare che la spesa in


ristoranti dipenda dal reddito che si possiede:

si = Y

ri = X

Avendo questi dati a disposizione, è facile intuire che non possiamo procedere alla maniera
dell’esercizio precedente, in quanto non abbiamo i singoli dati di X e di Y rilevati nell’indagine, le
singole coppie di dati, ma bensì diverse sommatorie delle stesse, come la sommatoria dei valori al
quadrato (∑ 𝑠i 2 ) o la sommatoria dei prodotti dei valori (∑ si fi ). Per questo motivo siamo costretti
ad utilizzare le formule alternative per calcolare il coefficiente angolare.

∑ xi yi − nxy
b1 = 2
∑ xi2 − nx

Dove n = numero di frequenze totali, in questo caso 7. Al fine di calcolare b1 calcoliamo prima di
tutto le medie per ciascuna variabile:
217
x𝑟 = 7
= 31

11.2
y𝑠 = = 1.6
7

Si può calcolare il coefficiente angolare:


405.3−(7)(31)(1.6) 405.3−347.2 58.1 Cod(XY)
b1 = = = = = 1.004
7735−7(31)2 7735−6727 1008 Dev(X)

73

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Quindi a una variazione 1 del reddito, la spesa in ristoranti varia di 1.004

Calcoliamo l’intercetta:

b0 = y − b1 x

= 1.6 - (1.004)(31) = - 29.52

L’equazione della retta di regressione è quindi la seguente:

ŷi = −29.52 + 1.004xi


Attraverso questo modello qual’e la spesa in ristorante che ci si può aspettare con un reddito pari a
40? Per rispondere a questa domanda si sostituisca 40 all’interno della retta:

ŷi = −29.52 + 1.004(40) = 10.64

Quindi la spesa che ci si può aspettare con un reddito pari a 40 è pari a 10.64.

Giungiamo ora al momento di calcolare l’indice di determinazione lineare erre – quadro. Per
calcolare questo indice tuttavia ricordiamo che servono sia la devianza di regressione che la
devianza totale della variabile dipendente Y. Perché si definisca la devianza di regressione tuttavia,
sono necessari i valori teorici, difatti:

Dev(Reg) = ∑(ŷi − y)2

Non avendo a disposizione i singoli valori di X, non possiamo calcolare i valori teorici di Y e di
conseguenza non possiamo calcolare la devianza di regressione. R2 non può essere calcolato
dunque con questa sequenza di operazioni. Possiamo invece calcolare l’indice di correlazione
lineare “r”, in quanto non richiede il calcolo dei valori teorici, e poi elevarlo al quadrato, in questo
modo giungeremo comunque a definire R2 .
Cod(XY)
r=
√Dev(X)Dev(Y)

Ricordando che abbiamo già i valori riferiti alla codevianza e alla devianza di X, in quanto sono
intervenuti nel calcolo di b1 , non ci resta che andare a calcolare la devianza della variabile
dipendente Y. A questo proposito si utilizzeranno sempre le formule alternative che giocano con le
diverse sommatorie:

Dev(Y) = ∑ yi2 − ny̅ 2

= 21.86 – 7(1.6)2

= 21.86 – 17.92 = 3.94

Avendo ora tutti i valori necessari calcoliamo l’indice r:


58.1
r= = 0.92
√1008∗3.94

Il seguente è un valore accettabile per r in quanto è compreso nell’intervallo -1 e 1.


74

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Calcoliamo dunque R2 :

R2 = r ∗ r

= 0.92*0.92 = 0.84

Il seguente è un valore accettabile per R2 , in quanto è compreso nell’intervallo 0 e 1. Questo valore


indica che il modello di regressione lineare costruito spiega l’84% della variabilità della Y.
La parte che risulta non essere spiegata è il restante 16%
Questo valore vuol dire che i valori teorici e osservati sono poco distinti. Quindi la correlazione
lineare è abbastanza forte.

ESERCIZIO: Calcolare la retta di regressione esistente tra la componente spesa (si ) e reddito (ri )
conoscendo i seguenti dati:

r (coefficiente di correlazione) = 0.92

∑ ri = 217

∑ si = 11.2

∑ ri 2 = 7735

∑ si 2 = 21.86

Abbiamo come variabili REDDITO/SPESA in ristoranti di 7 famiglie. Calcolare b1 .

Per prima cosa definire la variabile dipendente e quella indipendente. È ragionevole pensare che la
spesa sia dipendente dal reddito quindi:

reddito = X

spesa = Y

Si passi al calcolo di b1 , sempre utilizzando le fornule alternative, in quanto l’esercizio ci pone i


dati sotto forma di sommatorie e non ci da un’indicazione di ciascuna coppia di dati per X e per Y.

∑ xi yi −nxy
b1 = 2
∑ x2i − nx

Guardando i dati a nostra disposizione notiamo che non possediamo il valore ∑ xi yi , non abbiamo
quindi la possibilità di calcolare la Cod(XY). Allo stesso modo si noti che l’esercizio ci offre un
dato anomalo, da direttamente il coefficiente di correlazione “r”. Come sappiamo r è dato da:
Codev(XY)
r=
√Dev(X)Dev(Y)

75

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Possiamo quindi derivare da questa formula il valore corrispondente per Cod(XY), a questo
proposito ci servirà calcolare unicamente le devianze di X e di Y, e abbiamo a disposizione tutti i
dati per arrivare a questi valori.

Calcoliamo le singole medie:


217
x= 7
= 31

11.2
y= = 1.6
7

Calcoliamo dunque la devianza della variabile X e della variabile Y:

Dev(Y) = ∑ yi2 − ny̅ 2

21.86 – (7)(1.6)2 = 3.94

Dev(X) = ∑ xi2 − nx̅ 2

7735 – (7)(31)2 = 1008

Utilizziamo quindi il valore del coefficiente di correlazione (r) per trovare la codevianza.
Codev(XY)
0.92 = =
√1008∗3.94

Cod(XY)
0.92 =
63.01

Cod(XY) = 57.97

Possiamo ora calcolare il coefficiente angolare:


Cod(XY) 57.97 57.97
b1 = =
7735−7∙312
= = 0.056
Dev(X) 1008

Calcolo dunque l’intercetta:

b0 = y − b1 x = 1.6 – 0.056(31) = - 0.136

Scriviamo dunque l’equazione della retta calcolata:

ŷi = − 0.136 + 0.056xi


Si può stabilire attraverso questo modello, l’entità della spesa in ristorante prevista quando il reddito
è di un certo valore. Se il reddito è pari a 35, per calcolare la spesa corrispondente basti sostituire 35
all’interno della retta al posto della X (dopotutto abbiamo posto X come la variabile reddito):

ŷ = - 0.136 + 0.056(35) = 1.824

Quindi quando il reddito è pari a 35, la spesa in ristoranti è pari a 1.824

76

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Data una popolazione si vuole stimare la relazione tra pressione (p) ed età (e) su 7
individui.

R2 = 0.8445

∑(p̂i − p̅i )2 = 2183.75

pi = 143.542

∑ e2i = 19000

∑ ei = 346

∑ ei pi = 47630

Età = X

Pressione = Y

Calcoliamo prima di tutto la media della variabile età X:


346
x̅ = = 49.42
7

Calcoliamo dunque b1 :
∑ xi yi −nxy
b1 = 2
∑ x2i − nx

47630 – 7(143.542)(49.42) − 2026.91


= = = - 1.064
19000−7(49.42)2 1903.64

Il numeratore corrisponde alla codevianza scomposta e il denominatore alla devianza scomposta.

Calcoliamo dunque l’intercetta della retta:

b0 = y − b1 x

143.542 + 1.064(49.42) = 196.12

Si faccia attenzione in questo caso, essendoci il segno “meno” nella funzione, a cambiare segno.

L’indice R2 ci è già dato della traccia dell’esercizio, non ci resta che calcolare il coefficiente di
determinazione r.
Codev(XY)
r=
√Dev(X)Dev(Y)

Per calcolare r notiamo che manca la Dev(Y), inoltre non possiedo nemmeno i valori nella traccia
che mi diano la possibilità di calcolarla attraverso le formule alternative. Notiamo dunque che
l’esercizio ci offre un dato anomalo, un dato diverso dai dati che di solito ci offre l’impostazione
dell’esercizio, ovvero la devianza di regressione (∑(p̂i − p̅i )2 ). Associato a questo valore abbiamo
anche il valore di R2 . Ricordandoci che R2 è dato dalla formula seguente

77

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Dev(Reg)
R2 =
Dev(Y)

Risulta relativamente facile calcolare la devianza totale della variabile Y che andremo a isolare nel
modo seguente:
2183.75
0.8445 =
Dev(Y)

Moltiplicando entrambi i membri avremo:

Dev(Y) * 0.8445 = 2183.75

Si dividano entrambi i membri per 0.8445 e avremo:


2183.75
Dev(Y) = = 2585.8
0.8445

Possiamo ora calcolare r:


Codev(XY) −2036.97
r= = = - 0.91
√Dev(X)Dev(Y) √(1903.64)((2585.8)

Avremmo potuto calcolare r anche in ulteriore modo, facendo la radice quadrata del valore R2 , e
conferendo al valore risultante lo stesso segno della codevianza:

r = √0.8445 = 0.91 (segno della codevianza negativo e quindi) = - 0.91

78

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

L’INFERENZA STATISTICA è il procedimento per cui si definiscono le caratteristiche di una


popolazione attraverso l’osservazione di una parte di essa, detta campione, selezionata solitamente
mediante un esperimento casuale. Dal momento che si considera un esperimento casuale, si
coinvolge il calcolo delle probabilità.

ELEMENTI DI CALCOLO DELLE PROBABILITA’


Un concetto fondamentale del calcolo delle probabilità è quello di un evento associato ad un
determinato ESPERIMENTO CASUALE.

Un esperimento casuale, indicato con E, può essere considerato come una operazione il cui
risultato, quantitativo o qualitativo, non può essere previsto con certezza anche se è individuabile a
priori l’insieme dei risultati. La caratteristica dell’esperimento è quindi che il suo risultato non deve
essere certo.
Anche se non è possibile conoscere il risultato di un esperimento casuale, è tuttavia possibile
stabilire l’insieme di tutti i risultati dell’esperimento ed è proprio questa struttura che interessa.

L’insieme di tutti i possibili risultati connessi ad un dato esperimento casuale è detto SPAZIO
CAMPIONARIO ed è indicato con Ω (omega).

Facciamo un esempio per chiarire questi concetti. Il lancio di un dado è un esperimento casuale, in
quanto i suoi risultati sono determinati da eventi casuali. Uno spazio campionario per questo
esperimento potrebbe essere Ω = {1,2,3,4,5,6} in quanto questi sono i possibili valori che potranno
risultare dal lancio del dado. Lo spazio campionario è costituito da 6 eventi elementari.
Si immagini in sacco contenente tre palle di diverso colore (giallo, rosso e blu) e si consideri
l’esperimento casuale dato dall’estrazione di una singola pallina. Lo spazio campionario sarà quindi
definito da Ω = {𝐺𝑖𝑎𝑙𝑙𝑜, 𝑅𝑜𝑠𝑠𝑜, 𝐵𝑙𝑢}, tutti i possibili valori che possono risultare dall’esperimento
casuale, in questo caso l’estrazione.

LA PROBABILITA’

Dal momento che si considera un esperimento casuale, si coinvolge il calcolo delle probabilità.

Nella storia della statistica si sono sviluppati diversi approcci per definire la probabilità. Segue qui
il solo approccio classico in quanto le altre due, la frequentista e l’assiomatica, non sono presenti
nei compiti.

- APPROCCIO CLASSICO: La prima definizione fu data da Laplace secondo la quale la


probabilità di un evento A associato ad un esperimento casuale è data dal rapporto tra il
numero dei casi favorevoli al verificarsi di quel risultato e il numero totale dei risultati, tutti
giudicati ugualmente possibili e tutti escludentesi a vicenda:

𝐍𝐔𝐌𝐄𝐑𝐎 𝐃𝐈 𝐂𝐀𝐒𝐈 𝐅𝐀𝐕𝐎𝐑𝐄𝐕𝐎𝐋𝐈


P(A) =
𝐍𝐔𝐌𝐄𝐑𝐎 𝐃𝐈 𝐂𝐀𝐒𝐈 𝐓𝐎𝐓𝐀𝐋𝐈

79

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Questa condizione è basata sui concetti di perfezione e regolarità, condizioni necessarie per
assicurare una uguale possibilità a tutti i casi, ma tali condizioni si verificano difficilmente in
pratica.

Si facciano degli esempio. Si pensi al lancio del dado. Come sappiamo in questo caso lo spazio
campionario dei valori risultanti dal lancio del dado è dato da: Ω = {1,2,3,4,5,6}. Chiediamoci,
qual’e la probabilità che esca il valore 6? Seguendo la formula della probabilità dobbiamo rilevare il
numero di casi favorevoli e il numero di casi totali. Il numero di casi favorevoli perché esca il
valore 6 nel lancio del dado è 1, in quanto una sola faccia del dado ha 6. Il numero dei casi totali
invece è 6, infatti possono uscire 6 tipi di valori (1,2,3,4,5,6). Quindi la probabilità che esca 6 nel
lancio di un dado è dato da:
NUMERO CASI FAVOREVOLI 1
NUMERO CASI TOTALI
= = 0.166
6

Facciamo un ulteriore esempio. Supponiamo che in un cesto ci siano 7 tipi di magliette, ognuna con
un colore diverso: giallo, verde, rosso, blu marrone, viola e celeste. Chiediamoci quale sia la
probabilità di pescare a caso la maglietta di colore viola. In questo spazio campionario definito da
Ω = {verde, rosso, blu marrone, viola, celeste} il numero di casi favorevoli di pescare la maglietta
viola è pari a 1, siccome solo una maglietta viola è presente nel cestino. Invece il numero totale di
casi che si possono verificare è 7, infatti posso pescare fino a 7 magliette di colore diverso. La
probabilità di pescare la maglietta viola è quindi data da:
NUMERO CASI FAVOREVOLI 1
= = 0.14
NUMERO CASI TOTALI 7

ESERCIZIO: In un lancio di un dado si calcoli la probabilità di realizzare un valore pari. Lo spazio


campionario dei valori determinati dal lancio di un dado sono i seguenti: Ω = {1,2,3,4,5,6}. I numeri
pari sono 2,4,6. Quindi

Numero di casi favorevoli = 3


Numero casi totali = 6

La probabilità sarà data da:

NUMERO CASI FAVOREVOLI 3


NUMERO CASI TOTALI
= = 0.5
6

80

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

VARIABILI CASUALI

In teoria della probabilità, una VARIABILE CASUALE (o variabile aleatoria, indicata con v.c.)
può essere pensata come il risultato numerico di un esperimento quando questo non è prevedibile
con certezza (esperimento casuale). Ad esempio, il risultato del lancio di un dado a sei facce può
essere matematicamente modellato come una variabile casuale che può assumere uno dei sei
possibili valori 1,2,3,4,5,6.

La necessità di definire la v.c. è dovuta al fatto che i risultati dell’esperimento possono essere di
natura più disparata, quantitativi e anche qualitativi, e questo rende difficile la possibilità di
effettuare operazioni algebriche. Si pensi agli esempi fatti in via precedente: l’esperimento “lancio
del dado” è quantitativo mentre l’esperimento “estrazione colore della maglietta” è un esperimento
qualitativo.

Con la v.c. si ha la possibilità di poter quantificare gli eventi, ovvero trovare una regola in base alla
quale associare un numero reale ad ogni risultato di un esperimento, consentendo di trattare
matematicamente tali risultati (in questo modo anche l’esperimento “estrazione colore della
maglietta” può essere matematicamente trattato in quanto la variabile casuale ci permette di
associare a ogni colore un preciso numero)

La variabile casuale è dunque una funzione che associa un numero reale ad ogni risultato
dell’esperimento, contenuto all’interno dello spazio campionario consentendo di trattare
matematicamente tali risultati. Si tenga presente la seguente rappresentazione grafica che mette in
mostra l’azione della variabile casuale.

La funzione della variabile (indicata con X) casuale è indicata dalla prima freccia; la variabile
casuale associa ad un qualsiasi evento presente nello spazio campionario un numero reale (un
numero qualsiasi compreso tra - ∞ e + ∞) (indicato con x). In questo caso con la dicitura X(E) si
intende “la variabile casuale X associata all’esperimento casuale E.

Siccome i valori di una v.c. sono incerti, di conseguenza una vc X è sempre accompagnata dalla
sua funzione di probabilità P(X(E)) che esprime la probabilità con la quale la vc X può assumere i
suoi diversi valori. La probabilità associata a ciascuna variabile casuale può essere qualsiasi valore
reale compreso nell’intervallo [0; 1].

81

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Le variabili casuali si dividono in:

- Casuali discrete, se ad ogni evento A si associa uno ed un solo numero reale X(A)e ad ogni
possibile valore xi della variabile si associa una probabilità della variabile casuale X.(22)
- Casuali continue, se lo spazio campionario associato ad un esperimento è infinito o finito
non numerabile. In questo caso diventa difficile assegnare una probabilità ad un particolare
valore, poiché è impossibile poter distinguere gli infiniti valori che la vc assume. La
probabilità è uguale a zero in ogni punto. Ha significato per contro chiedersi qual è la
probabilità che la vc assuma in un intervallo.

Come per le variabili statistiche, anche per le variabili casuali hanno delle misure di sintesi. Quelle
che interessano per i calcoli che si affronteranno sono unicamente la media e la varianza, con
l’accorgimento che, quando si trattano variabili casuali, non si parlerà di media ma bensì di valore
atteso:

- Il VALORE ATTESO: Sia X una vc con funzione di probabilità pi ; il valore atteso di X è


definito come

E(X) = µ = ∑ 𝐱 𝐢 𝐩𝐢

Il valore atteso, indicato anche con µ (mi), lettera dell’alfabeto greco, è data quindi dalla
sommatoria di ciascun valore risultato dalla variabile casuale pesato con la probabilità
riferita a ciascuno di essi.

Come per le variabili statistiche anche per le variabili casuali si può calcolare la varianza

- La VARIANZA: La varianza per le variabili casuali è definita come:

Var(X) = σ2 = ∑(xi – E(X))2 *pi

La varianza è quindi data dalla sommatoria degli scarti al quadrato dei valori della variabile
casuale dal valore atteso, ciascuno dei quali moltiplicati per la corrispettiva probabilità

(22) Si faccia attenzione! La variabile casuale viene indicata con la lettera maiuscola, mentre i valori estratti con lettere
minuscole.
82

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Si lanci 3 volte una moneta e si consideri la v.c. che associa all’evento 3 croci 1, 3
teste, 3 e tutti gli altri 2. Calcolare:

- La distribuzione di probabilità
- La funzione di ripartizione
- La media e la varianza

Primo passo è quello di definire lo spazio campionario degli eventi associati a questo esperimento
casuale. Indicando testa con T e croce con C questi possono essere:

TTT La prima combinazione è TESTA – TESTA - TESTA, la seconda TESTA - TESTA -


TTC CROCE e così via. L’esercizio ci chiede dunque di considerare la variabile casale che
TCC associa all’evento 3 croci 1, 3 teste, 3 e tutti gli altri 2. Possiamo quindi associare a ciascun
CCC evento la variabile casuale indicata:
CCT
CTT
TCT
CTC

EVENTO V.C.
TTT 3
TTC 2
TCC 2
CCC 1
CCT 2
CTT 2
TCT 2
CTC 2

Andiamo ora ad accorpare i singoli valori ed associamo a ciascun evento la propria probabilità di
verificarsi, in questo modo si determina il primo punto richiesto nell’esercizio, si definisce la
DISTRIBUZIONE DI PROBABILITÀ’. Si pensi ad esempio la variabile casuale 3, questa si
verifica una sola volta su un totale di 8 eventi quindi questa variabile ha una probabilità di
verificarsi di 1/8. Si faccia lo stesso ragionamento per tutte le variabili e si avrà:

V.C. 𝐩𝐢
1 1/8
2 6/8
3 1/8
Serve ora calcolare la FUNZIONE DI RIPARTIZIONE indicata con F(X). Tale funzione ricopre
la stessa operazione delle frequenze relative cumulate, quindi per ogni valore rappresenta la
probabilità del valore a cui si riferisce sommata alle probabilità precedenti. Avremo quindi:

V.C. 𝐩𝐢 F(X)
1 1/8 1/8+0 = 1/8
2 6/8 1/8 + 6/8 = 7/8
3 1/8 1/8+6/8+7/8 = 1
1
83

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

La somma di tutte le probabilità come per le frequenze relative nelle distribuzioni precedentemente
svolte, deve essere sempre uguale a 1.

Si determini ora la media, ovvero il valore atteso:

E(X) = ∑ xi pi
E(X) = 1*1/8 + 2*6/8 + 3/1/8 = 2

Come vediamo il valore atteso è dato dalla sommatoria dei prodotti tra la variabile casuale e la
probabilità corrispondente.

Calcoliamo dunque la varianza:

Var(X) = ∑(xi – E(X))2 *pi

1 6 1
(1 − 2)2 ∗ + (2 − 2)2 ∗ + (3 − 2)2 ∗ = 0.25
8 8 8

ESERCIZIO: Si gettino due dadi ognuno dei quali ha due facce 1 due facce 2 e due facce 3. Si
studi la variabile casuale “somma dei punteggi”.

Come prima operazione bisogna definire tutte le possibili combinazioni di valori che si possono
creare lanciando i due dati, definire quindi lo spazio campionario. Lanciando i due dadi potrebbe
verificarsi che uno presenterà una faccia con 1 e un altro con faccia 2. Ecco, 1 – 2 sarà una delle
possibili combinazioni. Si definiscano tutte le combinazioni possibili:
DADO 1 DADO 2
1 1
1 2
1 3
2 1
2 2
2 3
3 1
3 2
3 3

Conoscendo le seguenti combinazioni si studi la variabile casuale “somma dei punteggi” avremo
quindi:

DADO 1 DADO 2 V.C. (somma dei punteggi)


1 1 2
1 2 3
1 3 4
2 1 3
2 2 4
2 3 5
3 1 6
3 2 5
3 3 4

84

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Accorpando i singoli risultati della variabile casuale e indicando per ciascuno la probabilità di
verificarsi andiamo a definire la distribuzione di probabilità. Si pensi ad esempio alla v.c. = 3 come
vediamo questa variabile non si verifica una sola volta ma un numero di volte pari a 2. Per questo la
probabilità di questa variabile sarà data dal rapporto tra i casi favorevoli perché esca la variabile 3
(2) e il numero dei casi totali dell’esperimento (che sono 9). Si faccia questo ragionamento per
ciascuna variabile e si arriverà alla seguente distribuzione di probabilità:

V.C. 𝐩𝐢 F(X)
2 1/9 1/9
3 2/9 3/9
4 3/9 6/9
5 2/9 8/9
6 1/9 1
1

Si è anche già definita la funzione di ripartizione, che ricordano definisce per ciascuna variabile la
somma della probabilità corrispondente e di tutte quelle che la precedono.

Si calcoli il valore atteso e la varianza:

E(X) = ∑ xi pi = 2*1/9+3*2/9+4*3/9+5*2/9+6*1/9 = 5.11

1 2 3
Var(X) = ∑(xi – E(X))2 *pi = (2 − 5.11)2 ∗ + (3 − 5.11)2 ∗ + (4 − 5.11)2 ∗ +
9 9 9
2 2 2 1
(5 − 5.11) ∗ + (6 − 5.11) ∗
9 9

Var(X) = 2.56

ESERCIZIO: Si lancia per tre volte una moneta bilanciata e si consideri la variabile casuale X
“numero di croci consecutive”. Calcolare:
1) La distribuzione di probabilità
2) La funzione di ripartizione
3) La media della v.c.
4) La varianza della v.c.

Si parta con il definire lo spazio campionario dell’esperimento casuale, ovvero le possibili


combinazioni di testa/croce che si possono formare lanciando tre volte una moneta. Esse sono:
EVENTO
TTT
TTC
TCC
CCC
CCT
CTT
TCT
CTC
85

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Attraverso la funzione della variabile casuale esposta in questo esercizio dobbiamo associare a
ciascun evento il “numero di croci consecutive”. Ad esempio nella combinazione CTC porremo
come variabile casuale 2, in quanto sono due le croci consecutive nella combinazione. Associando
ad ogni evento la sua variabile casuale avremo:

EVENTO V.C.
TTT 0
TTC 1
TCC 2
CCC 3
CCT 2
CTT 1
TCT 1
CTC 2

Accorpiamo le variabili casuali e associamo a ciascuna variabile la corrispettiva probabilità. Si


descriva inoltre la funzione di ripartizione. Avremo dunque:
V.C. 𝐩𝐢 F(X)
0 1/8 1/8
1 3/8 4/8
2 3/8 7/8
3 1/8 1
1

Calcoliamo la media e la varianza della distribuzione:

E(X) = ∑ xi pi = 0*1/8+1*3/8+2*3/8+3*1/8 = 1.5


2 1 3 3 1
Var(X) = ∑ (xi – E(X)) *pi = (0 − 1.5)2 ∗ + (1 − 1.5)2 ∗ + (2 − 1.5)2 ∗ + (3 − 1.5)2 ∗ =
8 8 8 8
Var(X) = 0.74

86

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

DISTRIBUZIONE DI PROBABILITA’
La maggior parte dei fenomeni statistici possono essere descritti da un numero di modelli
probabilistici o distribuzione di probabilità.

Andiamo a definire i principali.

DISTRIBUZIONE DI BERNOULLI

Una vc Y segue una distribuzione di Bernoulli con parametro p (0 ≤ p ≤ 1) se e soltanto se la sua


distribuzione di probabilità è data da:

P(Y = y)(23) = py (1 − p)1−y


La distribuzione di Bernoulli è associata ad un esperimento casuale i cui risultati sono classificati in
due categorie (successo o insuccesso, vero o falso, si o no ecc) assegnando loro valori 1 (in caso di
successo) e 0 (in caso di insuccesso), rispettivamente con probabilità p e q. Avremo quindi:

p = probabilità di successo

q = probabilità di insuccesso

Siccome la distribuzione, come si è detto, tratta eventi i cui risultati sono classificati solo in due
categorie (si pensi ad una domanda a risposta multipla, o la si sbaglia o la si risponde correttemente)
le singole probabilità associate all’evento di successo (p) e di insuccesso (q). sommate, devono dare
necessariamente 1. Per questo motivo, conoscendo la probabilità di successo, possiamo calcolare la
probabilità di insuccesso q:

q=1-p

Si userà la notazione Y ~ B(1,p) (la variabile Y segue la distribuzione di Bernoulli).

La distribuzione di Bernoulli è un modello matematico che consente di calcolare la probabilità di


successo di eventi, a patto che si verifichino le seguenti condizioni:

1) Eventi dicotomici (due soli risultati possibili)


2) Si conosce la probabilità p di uno di questi risultati
3) L’evento si verifica una sola volta.

Nel momento in cui l’esperimento bernoulliano viene ripetuto più volte, si passerà a una
DISTRIBUZIONE BINOMIALE

(23) Vuol dire “la probabilità che la variabile casuale Y esca y”


87

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

DISTRIBUZIONE BINOMIALE

Una vc X ha una distribuzione binomiale con parametri n (numero di volte che si ripete
l’esperimento) e p (probabilità di successo) (0 ≤ p ≤ 1) se e soltanto se la sua distribuzione di
probabilità è data da:

n
P(X = x) = ( ) px (1 – p)n−x
x

n n!
(x ) = coefficiente binomiale = (n−x)!x! (24)
n = numero prove
x: numero di successi che voglio nell’esperimento
p: probabilità di successo di ogni singola prova.

La distribuzione binomiale si applica a quei fenomeni che presentano le seguenti caratteristiche:


1) Eventi dicotomici, del tipo vero/falso, difettoso/non difettoso, successo/insuccesso e così
via.
2) La probabilità di successo di ogni singola prova è indicata con p e deve essere costante in
tutte le prove.
3) L’esperimento è ripetuto un numero fissato n di volte, nelle stesse condizioni ed ogni prova
è indipendente dalle altre.

Il valore atteso e la varianza della distribuzione binomiale sono dati nella maniera seguente:

E(X) = n*p Var(X) = n*p*q

Inoltre si tenga presente che qualora il numero di volte che si ripete l’esperimento (n) è maggiore o
uguale a 30, la distribuzione binomiale si approssima a una distribuzione normale, con media e
varianza calcolate come mostrato sopra.

24
Con ! si intende il fattoriale di quel numero. Ad esempio con 5! Si intende moltiplicare tutti i numeri da 5 scalando in
giù senza considerare 0 (5*4*3*2*1).
88

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Un’urna contiene 7 palline rosse e 5 nere. Si estraggono cinque palline con
reinserimento. Con quale probabilità tra le palline estratte 3 sono nere?

Prima di tutto si verifichino le condizioni per cui si debba utilizzare in questo esercizio la
distribuzione binomiale.

- Si tratta di un evento dicotomico, in quanto il risultato che uscirà dall’estrazione sarà o una
pallina nera o una pallina rossa.
- L’esperimento si verifica per più volte.
- Ciascuna probabilità, di successo e insuccesso, in tutte le estrazione rimane costante, in
quanto l’esercizio specifica che una volta estratta una pallina, la si REINSERISCE
all’interno della urna, in questo modo la probabilità di estrarre una pallina nera o una rossa
rimane la stessa.

Definiamo dunque prima di tutto la probabilità di successo e la probabilità di insuccesso. Volendo


noi estrarre 3 palline nere, la probabilità di successo sarà quella riferita alle palline nere. Il totale di
palline presenti nell’urna è pari a 12 (7 rosse + 5 nere). Ne segue che la probabilità di successo di
estrarre una pallina nera (la nostra probabilità di successo p) è data da:
5
p= = 0.41
12

Prima di operare i calcoli definiamo il numero di volte che si ripete l’esperimento (n) e il numero di
successi che si vogliono ottenere (x)

n=5

x=3

Abbiamo ora a disposizione tutti i dati necessari per il calcolo della probabilità P(X=3) cioè per il
calcolo della probabilità che, in cinque estrazioni, si abbia successo (in questo caso si estragga una
pallina nera) per 3 volte.
n
P(X = x) = ( ) px (1 – p)n−x
x

Si parta con il calcolare il coefficiente binomiale:


n 5! 120
( )= (5−3)!3!
= = 10
x 12

Sostituendo i vari valori nella funzione avremo:

P(X = 3) = 10 (0.41)3 (1 − 0.41)5−3

= 10 * 0.068 * 0.34 = 0.23

P(X = 3) = 0.23

La probabilità dunque, di estrarre in cinque estrazioni 3 palline nere, sarà pari a 0.23.

89

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Per entrare a far parte di un corso di laurea specialistica un candidato deve sottoporsi
ad una prova che consiste in 7 domande con tre possibili risposte di cui una sola vera. Il candidato
deve rispondere esattamente ad ALMENO 2 domande. Non conoscendo la sua preparazione,
calcolare la probabilità di superare la prova.

Si controlli se esistono le condizioni necessarie per utilizzare la distribuzione binomiale.

- Si tratta di un evento dicotomico, in quanto per ogni domanda, si può rispondere in maniera
giusta o sbagliata.
- L’esperimento, quello di rispondere a ciascuna domanda, viene ripetuto più volte (7 volte in
questo caso).
- La probabilità di successo e insuccesso rimane costante in tutto l’esercizio, in quanto
TUTTE le domande hanno, su tre domande, una sola risposta corretta.

Si faccia tuttavia attenzione alla traccia. Il testo precisa che il candidato passerà la prova se si
risponde almeno a 2 domande. Questo implica che il candidato passerà la prova sia se risponde a 2
domande sia che risponda a 3, sia che ne risponda a 4 e così via, fino all’eventuale possibilità di
rispondere anche a tutte le domande in maniera corretta. La probabilità dunque di rispondere
ALMENO a due domande (indicando questa condizione con P(X ≥ 2) sarà data dalla somma delle
diverse probabilità si successo per 3,4,5,6,7 domande:

P(X ≥ 2) = P(X=2) + P(X=3) + P(X=4) + P(X=5) + P(X=6) + P(X=7)

Per rispondere a questo esercizio sarebbe quindi necessario calcolare attraverso la distribuzione
binomiale ciascuna delle suddette probabilità.

Si capisce che questo comporterebbe una miriade di calcoli, ma esiste una tecnica che permette di
far risparmiare tempo prezioso e calcoli. Facciamo attenzione.

Sapendo che la probabilità totale di un qualsiasi esperimento è pari a 1, anche in questo specifico
esercizio possiamo dire che:

P(X=0) + P(X=1) + P(X=2) + P(X=3) + P(X=4) + P(X=5) + P(X=6) + P(X=7) = 1

A questo punto, sottraendo all’unità i valori di P(X=0) e P(X=1) possiamo calcolare più
velocemente la parte di probabilità che ci interessa. Basterà dunque calcolare solo due probabilità
attraverso la distribuzione binomiale.

Prima di fare questo definiamo la probabilità di successo e di insuccesso costante in ciascuna prova.
La probabilità di successo per ciascuna domanda, essendoci su tre domande una sola risposta vera,
sarà data da:
1
p = = 0.33
3

Ne segue che la probabilità di insuccesso è data da:

q = 1 – 0.33 = 0.67

90

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Sapendo che il numero di volte che si ripete l’esperimento è pari a 7 (il numero di domande alle
quali si risponde una alla volta) (n = 7), andiamo a calcolare la probabilità che si risponda
esattamente a 0 domande (P(X=0)) e la probabilità che si risponda correttamente a 1 domanda
(P(X=1)), che rappresentano le uniche condizioni in cui il candidato non passerà l’esame.
7
P(X=0) = ( ) (0.33)0 (0.67)7−0
0

Si calcoli il coefficiente binomiale:


7 7!
( ) = (7−0)!0!
0

Tenendo presente che 0! = 1 (condizione che non andiamo a spiegare, se si vuole approfondire si
cerchi fattoriale su wikipedia) avremo che:
7 7! 7!
( ) = (7−0)!0! = =1
0 7!

Tenendo presente inoltre che ogni numero elevato alla 0 è pari all’unità semplifichiamo i calcoli
arrivando a:

P(X=0) = 1 ∗ 1 ∗ 0.06 = 0.06

La probabilità di non rispondere esattamente ad alcuna domande, in queste condizioni, è pari a 0.06.

Si studio ora la probabilità di rispondere correttamente ad una domanda P(X=1):


7
P(X=1) = ( ) (0.33)1 (0.67)7−1
1

7 7! 5040
( ) = (7−1)!1! = =7
0 720

P(X=1) = 7 ∗ 0.33 ∗ 0.09 = 0.20

Sottraendo all’unità, la probabilità totale dell’esperimento le due probabilità così calcolare, che
corrispondono alle condizioni in cui il candidato non passi l’ammissione, si otterrà la probabilità
con cui il candidato può sperare, senza contare la sua preparazione, di passare l’esame.

P(X ≥ 2) = 1 – 0.20 – 0.06 = 0.74

ESERCIZIO: Data un’urna contenente 12 palline bianche e 8 azzurre, calcolare la probabilità di


estrarre meno di 3 palline azzurre in 8 estrazioni con reimmissione. Calcolare la media e la varianza
di tale variabile casuale.

Esistono tutte le condizioni necessarie per poter qualificare questo esperimento una variabile
casuale che segue una distribuzione binomiale.

91

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Definiamo la probabilità di successo, che in questo caso sta ad estrarre la palline azzurre. Ci sono 8
palline azzurre, in un’urna contenente in tutto 20 palline, la probabilità di estrarre una pallina
azzurra è quindi data da:
8
p= = 0.4
20

Ne segue che la probabilità di insuccesso è data da:

q = 1 – p = 1 – 0.4 = 0.6

Facendo attenzione a leggere bene la traccia dell’esercizio, si richiede di calcolare la probabilità di


estrarre MENO di 3 palline, il che corrisponde a estrarre 2, 1 o 0 palline. Sarà quindi necessario
calcolare P(X=0), P(X=1) e P(X=2).

Prima di procedere con i calcoli si vada a pagina 417 del libro di inferenza statistica e si legga la
tabella riferita alla distribuzione binomiale.
Tale tabella ci eviterà di fare numerosi calcoli, infatti definendo un valore per le variabili n; p e x,
rispettivamente numero di prove, probabilità di successo e numero di successi richiesti, definiamo
immediatamente il valore della probabilità che si tiene a calcolare.

Come si può tuttavia vedere della tabella, questa può essere utilizzata unicamente nel caso in cui i
valori della probabilità di successo (p), sono quelli esposti sul lato superiore (0.01, 0.05, 0.10……..
fino a 0.5). Negli esercizi precedenti non potevamo avvalerci della tabella in quanto la probabilità p
non configurava tra questi valori (si pensi alla probabilità dell’esercizio precedente p = 0.33).

In questo esercizio ci si può avvalere di questa tabella in quanto p = 0.40 e questo valore compare
alla nona colonna.

Volendo noi calcolare P(X=0), incrociamo il valore di n “numero di prove” pari a 8 (si effettuano 8
estrazioni), si prenda il valore di x = 0 e si vada alla nona colonna nella quale si specifica p = 0.40.
Il valore corrispondente ci offrirà la probabilità di estrarre 0 palline azzurre, in otto estrazioni. Il
valore che si ottiene è il seguente:

P(X=0) = 0.0168

Per definire P(X=1) si vada sempre a n = 8, si prenda x = 1 e si incroci il valore con la colonna che
specifica p = 0.40, si calcolerà così la probabilità di estrarre una pallina azzurra in otto estrazioni. Il
valore che risulterà è il seguente:

P(X=1) = 0.0896
Si calcoli poi la probabilità di estrarre 2 palline azzurre in otto estrazioni:

P(X=2) = 0.2090

La probabilità di estrarre meno di 3 palline azzurre, consistendo nell’estrarre tutti i valori minori di
3, quindi 0 palline, 1 pallina, 2 palline, risulterà dalla somma delle probabilità calcolate:
P(X< 3) = P(X=0) + P(X=1) + P(X=2) = 0.0168 + 0.0896 + 0.2090 = 0.3154.

La probabilità dunque di estrarre meno di tre palline azzurre (P(X< 3)) sarà dunque pari a 0.3154
92

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si tenga dunque presente che, quando il valore di p corrisponde a uno dei valori elencati nella
tabella della distribuzione binomiale a pag 417 (continua alle pagine successive fino a n = 30), non
è necessario andare a fare i conti, ma bensì basti incrociare nella tabella i valori di n, p e x che
risulteranno in ciascun esercizio. Se invece p non è contemplato nella tabella, non resta altro che
procedere ai calcoli tradizionali.

NOTA BENE

Quando l’esercizio specifica “ALMENO” un ipotetico valore di successi (x), si intende conoscere la
probabilità dei valori che vanno da x (compreso) a n.
Quando si intende “MENO” di un ipotetico valore di successi (x) si intende conoscere la probabilità
dei valori da 0 a x (escluso).
Quando si specifica “AL MASSIMO” di un ipotetico valore di successi (x), si intende conoscere la
probabilità dei valori che vanno da 0 a x (compreso).
Quando si specifica “PIÙ” di un ipotetico valore di successi (x), si intende conoscere la probabilità
dei valori che vanno da x (escluso) a n.

Se la traccia specifica ad esempio che in 8 estrazioni si voglio ottenere più di 3 successi si


cercheranno le probabilità dei successi che vanno da 3 (escluso) a 8. Se invece era specificato “al
massimo” 3 successi, si dovranno calcolare le probabilità dei successi che vanno da 0 a 3
(compreso)

93

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

DISTRIBUZIONE NORMALE

La distribuzione normale, della quale abbiamo già precedentemente parlato nella statistica
descrittiva, si applica a fenomeni che possono essere generati da un gran numero di cause che
agiscono in modo additivo e indipendente.

Si consideri ad esempio una macchina che produce bulloni e si X la vc il diametro di questi bulloni.
Se si osservano n bulloni e si costruisce l’istogramma, si noterà che la forma di questa distribuzione
richiama quella della distribuzione normale, in quanto le fluttuazioni delle misure sono il risultato di
un gran numero di cause (vibrazioni, qualità materiali ecc) che agiscono in modo additivo e
indipendente tra loro.

Si faccia attenzione a come leggere la distribuzione normale. Quando si trova il valore


standardizzato Zi questo valore corrisponde all’area che va da 0 (il centro della distribuzione
normale standardizzata, in questo caso media, moda e mediana anche) al valore appunto di Zi .

Per quanto riguarda gli esercizi con la distribuzione normale, in ambito di inferenza statistica, si
applicheranno gli stessi ragionamenti applicati in sede di statistica descrittiva, con l’unico
accorgimento associare all’area sottesa dalla curva non più il valore delle frequenze relativa fi ,
quanto il valore delle probabilità pi .

𝐩𝐢

ESERCIZIO (COMPITO 1/03/2010): Una macchina produce pezzi il cui peso è distribuito
normalmente con valore medio 18 grammi e deviazione standard di 1 grammo. Sapendo che devono
essere scartati i pezzi di peso superiore a 20.5 grammi o inferiore a 16.4 grammi si calcoli la
probabilità di scartare un pezzo. Si calcoli poi quanti pezzi ogni mille prodotti vengono mediamente
scartati.

La distribuzione risulta essere come segue, definendo i valori indicati nell’esercizio:

16.4 18 20.5
94

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Per i valori del peso del pezzo prodotto, maggiori di 20.5 e inferiori a 16.4, il pezzo verrà scartato,
ci interessa quindi di conoscere la probabilità che la macchina produca un pezzo di peso maggiore
di 20.5 e inferiore di 16.4. Tali probabilità sono definite nelle seguenti aree:

16.4 18 20.5

Andiamo quindi a calcolare le probabilità che ci interessano.

Perché possiamo calcolare le aree della distribuzione, siamo costretti a passare dalla distribuzione
normale, alla distribuzione normale standardizzata. Operando la standardizzazione avremo che la
media della distribuzione standardizzata sarà pari a 0 e la varianza pari a 1. Standardizziamo i valori
che ci interessano:
20.5 −18
Zi = = 2.5
1

16.4 −18
Zi = = −1.6
1

Per ciascun valore andiamo a leggere sulla tavola preposta anche l’area che gli si riferisce. Avremo
quindi:

φ2.5 = 0.4938 φ1.6 = 0.4452

Definiamo quindi i valori nella distribuzione avendo cura di tracciare una linea al di sotto della
stessa dove indicheremo i valori standardizzati Zi corrispondenti a ciascun valore (si ricordi sempre
che l’area letta dal valore è quella che va dalla media al valore stesso).

0.4452 0.4938

16.4 18 20.5
𝐙𝐢 - 1.6 0 2.5

95

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Siccome le aree da calcolare sono quelle precedentemente identificate e sapendo che ciascuna metà
della distribuzione normale ha un valore di probabilità pari a 0.5, possiamo procedere in questo
modo:

0.4452 0.4938

0.5 -0.4452 = 0.0548 0.5 -0.4938 = 0.0062

16.4 18 20.5
𝐙𝐢

Quindi indichiamo che la probabilità riferita ai valori della distribuzione X, minori di 16.4, è pari a
0.0548.

P(X< 16.4) = 0.0545

Sommando infatti 0.0548 e 0.4452, si arriva infatti a definire l’area della metà sinistra (come quella
destra) della distribuzione normale che deve essere necessariamente pari a 0.5

Invece la probabilità riferita ai valori della distribuzione X, maggiori di 20.5, è pari a 0.0062.

P(X> 20.5) = 0.0062

Sapendo che un pezzo costruito dalla macchina viene scartato quando risulta essere minore di 16.4 e
maggiore di 20.5, la probabilità che un pezzo venga scartato è data dalla somma delle probabilità
sopra calcolare:

PROBABILITA’ DI SCARTO = P(X< 16.4) + P(X> 20.5) = 0.0545 + 0.0062 = 0.0607

Essendo questa la probabilità di scarto di un singolo pezzo, ne risulta che se si prendono a caso
1000 pezzi quelli che verranno scartati saranno dati da:

1000*probabilità di scarto = 1000*0.0607 = 60.7

Quindi ogni mille pezzi si scarteranno in media circa 60.7 degli stessi.

96

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Data la seguente variabile casuale X~N(5;9), su tale v.c. viene effettuata la seguente
trasformazione lineare Y = 0.2X+3. Calcolare:
- P(4.5≤ Y ≤ 5)
- P(Y=7.5)

Per questo tipo di esercizio bisogna andare a riprendere le proprietà della media e della varianza.

Abbiamo una distribuzione X di valori con media 5 e varianza 9. Su tutti i valori della distribuzione
viene effettuata una trasformazione lineare per cui ogni valore è moltiplicato per 0.2 e sommato a 3.
Si arriva dunque a una nuova distribuzione Y, per la quale ci si chiede di calcolare determinate
probabilità. Perché possiamo operare sulla distribuzione Y, è necessario che andiamo a definire
anche per essa i parametri per cui è definita una qualunque distribuzione normale, cioè la media e la
varianza.

Riprendendo le proprietà della media, se ciascun valore della distribuzione è stato moltiplicato e
aggiunto per una costante, la media della nuova distribuzione risulterà uguale alla vecchia media
moltiplicata e aggiunta per la stessa costante. La media della distribuzione di Y risulterà quindi
essere uguale alla vecchia media, moltiplicata per 0.2 e aggiunta a 3:

y̅ = 0.2(5) + 3 = 4

Si passi ora a definire la varianza della nuova distribuzione. Per la proprietà della varianza, questa
non risulta essere intaccata dall’aggiunta o dalla sottrazione di costanti, varia invece quando i valori
della distribuzione sono moltiplicati per una costante. In questo caso la varianza della nuova
distribuzione risulta essere uguale alla varianza della vecchia distribuzione moltiplicata per la
costante al quadrato (e non per la semplice costante come avviene invece per la media).

σ2y =(0.2)2(9) = 0.36 (σ = 0.6)

La v.c. Y seguirà quindi una distribuzione normale con media 4 e varianza 0.36. Possiamo dunque
calcolare le probabilità richieste.

4 4.5 5
Standardizzando i valori avremo:
4.5 −4
Zi = = 0.83 φ0.83 = 0.2967 (area tra 4 e 4.5)
0.6

5 −4
Zi = = 1.66 φ1.66 = 0.4515 (area tra 4 e 5)
0.6

97

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

L’area dei valori compresi tra 4.5 e 5 sarà quindi data da:

P(4.5≤ Y ≤ 5) = 0.4515 – 0.2967 = 0.1548

Si faccia ora una considerazione sul calcolo della probabilità riferita al singolo valore 7.5
(P(Y=7.5)).
Ricordiamo che la distribuzione normale è una distribuzione costituita da infiniti valori. Quale è
dunque che la probabilità che su infiniti valori si estragga proprio 7.5? Naturalmente 0 in quanto in
questo caso la probabilità sarebbe data da:

NUMERO CASI FAVOREVOLI 1


=
NUMERO CASI TOTALI ∞

Un qualsiasi valore diviso per infinto è uguale a zero, si può dunque dire che:

P(Y=7.5) = 0

Per questo, in una distribuzione normale ha senso calcolare la probabilità unicamente dei valori
compresi in un intervallo. Si tenga dunque a mente che la probabilità che in una distribuzione
normale si verifichi UNO e un solo valore preciso (come in questo caso 7.5) per qualunque esso sia,
la probabilità sarà sempre uguale a 0

PROPRIETA’ RIPRODUTTIVA

La proprietà riproduttiva è una delle proprietà di cui gode una distribuzione normale.

Date n v.c. indipendenti X1 , X 𝑖 ….Xn , dove ognuna delle quali segue una distribuzione normale con
valori di media e varianza (X 𝑖 ~N(µ; σ2 )) per i = 1, ….,n. Si può creare una nuova distribuzione
normale Y che ha come media la somma delle medie delle varie distribuzioni e come varianza, la
somma delle varianze delle distribuzioni.

ESEMPIO: Una piastra metallica Y consiste di tre sole componenti X1 , X2 , X3 , tutte indipendenti
tra loro.

X1 ~N(12; 0.02) X2 ~N(24; 0.03) X1 ~N(18; 0.04)

La distribuzione normale Y è costituita dalle distribuzioni delle singole componenti, tutte


indipendenti tra loro. Seguendo la proprietà riproduttiva, la media della distribuzione Y sarà data
dalla somma delle singole medie delle varie distribuzioni:

µy = 12 + 24 + 18 = 54

La varianza delle nuova distribuzione è anch’essa data dalla somma delle singolo varianze:

σy 2 = 0.02 + 0.03 + 0.04 = 0.09

Possiamo dunque dire che la variabile casuale Y ~ N(54;0.09)

98

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

DISTRIBUZIONE CHI – QUADRATO

Siano X1 , X2 ….Xn n variabili casuali normali indipendenti. Con parametri µ1 e σ1 2 e sia Zi


(Xi −µ1 )
= , allora la v.c. Y:
σi

Y = ∑ Zi2 ~ χ2n
Segue una distribuzione chi – quadrato con n gradi di libertà (g.l)

Si parte quindi da n variabili casuali che hanno tutte distribuzione normale, poi si standardizzano e
la sommatoria di tutte le Zi elevate al quadrato da la distribuzione χ2 .

La distribuzione χ2 è per n < 2 monotona e decrescente. Per n > 2 la distribuzione è asimmetrica a


destra, tuttavia essa tende a divenite simmetrica quando il numero di gradi di libertà aumenta. Essa
si approssima alla distribuzione normale per n > 30.

Si tenga inoltre presente che consistendo in una sommatoria di valori elevati al quadrato la
distribuzione chi – quadrato è necessariamente una distribuzione totalmente positiva e si disegna
quindi come segue:

DISTRIBUZIONE t DI STUDENT

In teoria delle probabilità la distribuzione t di


Student è una distribuzione di probabilità continua
che governa il rapporto tra due variabili casuali, la
prima con distribuzione normale, la seconda con
distribuzione chi-quadrato.
X
tn =
√Y⁄n

Con n indichiamo i gradi di libertà.

La distribuzione presenta una forma simmetrica,


dipendente dai gradi di libertà. La distribuzione t di
Student si distingue dalla normale per avere una forma meno snella, le code più ingrossate e per
essere più appiattita. Questo significa che la sua dispersione, e quindi la sua varianza, è più grande
di quella della distribuzione normale. Al tendere di n all’infinito, la distribuzione tende alla normale
standardizzata. Tale approssimazione può ritenersi già soddisfacente per n > 30.

99

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

CAMPIONAMENTO
La statistica inferenziale è quel procedimento logico-induttivo mediante il quale si perviene alla
stima dei parametri ignoti della popolazione considerando le informazioni fornite dai valori
campionari.

Sia ha in effetti una conoscenza parziale di un fenomeno circoscritto ai valori campionari e si


vogliono trarre sulla base di questi dati, conclusioni più ampie relative alla popolazione dalla quale
sono stati estratti.
In statistica si intende per POPOLAZIONE qualsiasi INSIEME DI ELEMENTI che siano oggetto
di studio, ovvero l'insieme delle unità (dette unità statistiche) sulle quali viene effettuata la
rilevazione delle modalità con le quali il fenomeno studiato si presenta.
Nell’impossibilità o nella scarsa praticità di poter disporre di tutti i valori campionari ed essendo
interessati ad ottenere informazioni sui parametri della popolazione si procede all’estrazione di un
campione casuale, costituito da un numero limitato di elementi appartenenti alla popolazione stessa.

Pensiamo ad esempio di voler studiare la popolazione costituita da tutti gli italiani, e desideriamo
calcolare l’altezza media degli italiani. L’unico modo per poter calcolare precisamente tale valore,
sarebbe rilevare l’altezza per tutti i 60 milioni di italiani e fare la media. Si capisce che è questo
procedimento è praticamente impossibile. Si rilevano dunque un numero “n” di campioni, cioè un
numero di modalità per cui si rilevano i dati e si calcolano i diversi indici calcolati in sede di
statistica descrittiva, come la media. Il compito dell’inferenza statistica sarà quello di studiare le
condizioni per dire se quel valore, calcolato sui singoli campioni, può presumibilmente essere pari
alla media di tutta la popolazione.

Il concetto di popolazione è immediatamente collegato a quello di PARAMETRO col quale si


intende un valore che definisce una caratteristica relativamente costante di una funzione o di una
popolazione. Il parametro da stimare viene indicato con θ (theta) appartenente ad uno SPAZIO
CAMPIONARIO indicato con Θ (theta maiuscolo).

Un possibile parametro della popolazione potrebbe essere ad esempio la sua media o la sua
varianza. Come abbiamo specificato precedentemente questi valori saranno stimati facendo le
opportune considerazioni sui parametri dei campioni. Indicheremo quindi con µ (mi) la media
dell’intera popolazione, e con 𝛔𝟐 la varianza dell’intera popolazione, mentre la media dei singoli
campioni estratti (da qui MEDIA CAMPIONARIA di cui si parla in seguito) sarà indicata come 𝐱̅ ,
e la corrispettiva varianza (VARIANZA CAMPIONARIA) sarà indicata come 𝐒 𝟐 .

µ = MEDIA POPOLAZIONE

𝛔𝟐 = VARIANZA POPOLAZIONE

𝐱̅ = MEDIA CAMPIONARIA

𝐒 𝟐 = VARIANZA CAMPIONARIA

100

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

MEDIA CAMPIONARIA

Si consideri la vc X media campionaria, funzione tra le più semplici delle osservazioni campionarie.
Si supponga che la vc X ha media µ e varianza σ2 . Da questa popolazione, si estraggono campioni
di ampiezza n assimilabili a n variabili casuali, e per ogni campione si calcoli la media, si ottiene
così una vc X data dall’insieme di tutte le possibili medie campionarie.

Facciamo un esempio.

Si prenda una popolazione e si faccia inferenza su di essa. La popolazione è data da i seguenti


valori:

123

Poiché la popolazione è molto piccola possiamo calcolare quella che è la media e la varianza della
popolazione. Prendiamo in considerazione una popolazione tanto piccola per arrivare a delle
successive conclusioni.

µ =2

σ2 = 2/3 = 0.66

Si faccia attenzione che è solo un esempio, solo in questo caso che la popolazione è molto ristretta e
limitata a tre modalità che possiamo trovare immediatamente σ2 e µ, ma nella statistica inferenziale
il nostro obbiettivo è proprio stimare questi parametri, valutati in merito ad una popolazione assai
più ampia. Supponiamo di estrarre 2 campioni da questa popolazione e ad ogni estrazione di
reinserire il valore. Tutte le possibili combinazioni che si possono formare sono le seguenti:

𝐗𝟏 𝐗𝟐
1 1
1 2
1 3
2 1
2 2
2 3
3 1
3 2
3 3

Seguendo quanto detto all’inizio del paragrafo, per ogni campione (il primo campione è 1;1) si
calcoli la corrispettiva media (media campionaria) e si ottiene una distribuzione X ̅ (con lettera
maiuscola) costituita da tutte le singole medie campionarie x̅ (indicate con lettera minuscola). Ad
ogni valore della distribuzione ̅X si associa poi la distribuzione di probabilità P(X).

101

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

𝐗𝟏 𝐗𝟐 𝐗 P(𝐗)
1 1 1 1/9
1 2 1.5 2/9
1 3 2 3/9
2 1 1.5
2 2 2
2 3 2.5 2/9
3 1 2
3 2 2.5
3 3 3 1/9

Andiamo a studiare le misure di sintesi della distribuzione consistente da tutte le medie


campionarie; arriveremo ad importanti conclusioni.
Facendo la media di tutti i valori della distribuzione:

1 2 3 2 1
E(𝐗) = 1 ∗ 9 + 1.5 ∗ 9 + 2 ∗ 9 + 2.5 ∗ 9 + 3 ∗ 9 = 2

Questo valore corrispondere precisamente alla media della popolazione. Possiamo dunque
affermare che:

E(X) = µ

Calcolando invece la varianza della distribuzione:

1 2 3 2 1
Var(𝐗) = (1 − 2)2 ∗ 9 + (1.5 − 2)2 ∗ 9 + (2 − 2)2 ∗ 9 + (2.5 − 2)2 ∗ 9 + (3 − 2)2 ∗ 9 = 0.33

Questo valore non è uguale alla varianza della popolazione, che sappiamo è uguale a 0.66. Tuttavia
il valore risultante per Var(X) corrisponde alla varianza della popolazione (che sappiamo pari a
0.66), diviso per la numerosità campionaria n (abbiamo estratto 2 campioni).
Facendo infatti 0.66/2 = 0.33

Possiamo dunque affermare che:

σ2
Var(X) =
n

102

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

TEORIA DELLA STIMA STATISTICA


Si tratti ora della teoria della stima parametrica statistica definendo criteri e procedimenti che
tengono conto oltre dell’informazione campionaria del tipo di conoscenze a cui si vuole arrivare,
cercando di pervenire alla conoscenza del valore numerico (stima) di uno o più parametri incogniti
della popolazione.

Successivamente affronteremo un altro aspetto dell’inferenza, ovvero la verifica dell’ipotesi che


consiste nel sottoporre a verifica una certa affermazione fatta sui parametri della popolazione e se
essa debba ritenersi coerente o in contraddizione con le informazioni campionarie.

L’obiettivo che si propone la teoria della stima statistica è quello di formare dei criteri o delle
procedure per la conoscenza e la stima del valore incognito del parametro o dei parametri
caratterizzanti la distribuzione di una variabile casuale.

PER POTER FARE INFERENZA PARAMETRICA è necessario che si conosce o si suppone nota
la forma analitica della funzione di densità della variabile casuale X che descrive la popolazione,
ma non sono specificati i parametri che caratterizzano la funzione.

STIMATORE E STIMA

Sia X1 , X2 ….Xn un campione casuale estratto da una popolazione, si vuole stimare sulla base delle
osservazioni campionarie o di una funzione nota, il parametro incognito θ.

Si definisce STIMATORE T = t(X1 , X2 ….Xn ) del parametro θ una funzione che associa ad ogni
possibile campione un valore del parametro da stimare. È una funzione di un campione di dati
estratti casualmente da una popolazione.

Si definisce STIMA t = t(x1 , x2 ….xn ) il valore assunto dello stimatore per un dato campione di
ampiezza n.

È evidente che esistono infiniti stimatori di un parametro, la questione centrale della teoria della
stima è quella di cercare uno stimatore T di θ che fornisca buoni risultati.

Considerare attendibile un dato stimatore è, in larga misura, dovuto a certe attese che si nutrono
circa gli stimatori che possono essere sintetizzate nei criteri o proprietà atte a misurare l’affidabilità
degli stessi. È doveroso sottolineare comunque la relatività di qualsiasi criterio in base al quale
giudicare il comportamento di un certo stimatore.

Si elenchino le proprietà degli stimatori:

- CORRETTEZZA: Dato uno stimatore T è detto corretto se il suo valore atteso è uguale a
θ, altrimenti lo stimatore è distorto. La quantità E(T) – θ rappresenta la distorsione dello
stimatore T.
Prendiamo per esempio in considerazione lo stimatore media campionaria e calcoliamo il
suo valore atteso. Come sappiamo il risultato è uguale alla media della popolazione:

E(X) = µ

103

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Possiamo quindi dire che lo stimatore media campionaria è uno stimatore corretto.
Prendiamo invece lo stimatore varianza campionaria, (S 2 ) ovvero la varianza fra i campioni
osservati. Si può dimostrare che lo stimatore (S 2 ) del parametro σ2 (l’effettiva varianza
della popolazione) è distorto:

E(S 2 ) ≠ σ2

Fare quindi la media delle singole varianze fra i campioni non risulta essere uguale alla
varianza della popolazione.
Riprendendo l’esempio precedente, definiamo la varianza per ciascun campione:

𝐗𝟏 𝐗𝟐 𝐗 P(𝐗) 𝐒𝟐 P(𝐒 𝟐 )
1 1 1 1/9 0 3/9
1 2 1.5 2/9 0.25(25) 4/9
1 3 2 3/9 1 2/9
2 1 1.5 0.25
2 2 2 0
2 3 2.5 2/9 0.25
3 1 2 1
3 2 2.5 0.25
3 3 3 1/9 0

Sappiamo che la varianza effettiva della popolazione è 2/3 ma:

3 4 2
E(S 2 ) = 0 ∗ + 0.25 ∗ 9 + 1 ∗ 9 = 0.33 ≠ 2/3
9
Infatti:

2
E(S 2 ) = σ2 - σ ⁄n
Per ovviare questo inconveniente dello stimatore “varianza campionaria” (S 2 ) si apporta una
piccola modica perché lo stimatore possa diventare corretto. A questo proposito si calcola
quella che è definita come la VARIANZA CAMPIONARIA CORRETTA (Ŝ 2 ) (si scrive un
piccolo cappelletto sopra la S).Questa è data da:

∑(x −x) 2 ∙ ni Dev(X)


Ŝ 2 = i =
n−1 n−1

ovvero dalla devianza divisa, non più per n, il totale di frequenze (il che sta uguale a dire il
totale di campioni rilevati), ma per n diminuito di un’unità.
Per dimostrare che si tratta di uno stimatore corretto, per la distribuzione precedente,
rileviamo per ciascun campione la propria varianza campionaria corretta:

(25) Questo valore risulta dalla sommatoria degli scarti dei due valori, 1 e 2 dalla media (1.5), al quadrato diviso per il
totale di frequenze che si prendono in considerazione, cioè 2. [(1 − 1.5)2 + (2 − 1.5)2 ]/2 = 0.
104

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

𝐗𝟏 𝐗𝟐 𝐗 P(𝐗) 𝐒𝟐 𝐒̂ 𝟐 P(𝐒 𝟐 ) = P(𝐒̂ 𝟐 )


1 1 1 1/9 0 0 3/9
1 2 1.5 2/9 0.25 0.5 4/9
1 3 2 3/9 1 2 2/9
2 1 1.5 0.25 0.5
2 2 2 0 0
2 3 2.5 2/9 0.25 0.5
3 1 2 1 2
3 2 2.5 0.25 0.5
3 3 3 1/9 0 0

Calcoliamo dunque il valore atteso dello stimatore varianza campionaria corretta:

3 4 2
E(Ŝ 2 ) = 0 ∗ + 0.5 ∗ + 2 ∗ = 0.66
9 9 9

Essendo il valore atteso dello stimatore uguale al valore del parametro della popolazione che
si voleva calcolare (in questo caso la varianza), possiamo dire che lo stimatore “varianza
campionaria corretta” a differenza dello stimatore “varianza campionaria”, risulta essere
corretto.

E(Ŝ 2 ) = σ2

- EFFICIENZA: Nella classe degli stimatori corretti la scelta deve ricadere tra quelli che
presentano la dispersione più piccola. In effetti la varianza di uno stimatore corretto
rappresenta una misura della dispersione dello stimatore rispetto al parametro θ. Sembra
ragionevole preferire quindi, lo stimatore che presenta la varianza più piccola. Perché?
Perché ha una maggiore probabilità di estrarre una stima più vicina al parametro.

L’efficienza è quindi una caratteristica di uno stimatore rispetto a un altro. Non si può
parlare di stimatore efficiente se non messo a paragone con un altro meno efficiente.
L’efficienza è misurata dal rapporto:

Var(T∗)
Efficienza:
Var(T)

detto efficienza relativa dello stimatore T rispetto a T*.


Se è maggiore di 1 allora lo stimatore T è più efficiente di T* (perché la varianza del
numeratore è più alta).
Se è uguale a 1 allora i due stimatori sono equivalenti.
Se è minore di 1, T* è più efficiente relativamente a T.

Finora si è parlato unicamente di stimatori corretti ma esistono stimatori che seppur distorti
rivestono un certo interesse. È necessario quindi introdurre una misura della precisione di uno
stimatore che è fornito dall’EQM ovvero l’ERRORE QUADRATICO MEDIO:

105

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

EQM = Var(T) + d2

Dove con d2 = E(T) – θ Nel caso di stimatore corretto è uguale a 0, in quanto calcolare il valore
atteso dello stimatore è uguale a calcolare il parametro che lo stimatore si pone di calcolare. La
distorsione E(T) – θ può essere negativa, positiva e quindi lo stimatore sovrastimerà, sottostimerà in
media il parametro della popolazione (si sceglie, per paragonare due stimatori, quello con EQM più
piccolo).

- CONSISTENZA: Le proprietà esposte precedentemente (correttezza, efficienza) erano


basate su una grandezza fissata del campione. Si consideri ora una proprietà degli stimatori,
la consistenza, al variare della dimensione campionaria.
Uno stimatore risulta essere corretto qualora all’aumentare della numerosità campionaria n il
suo errore quadratico medio (EQM), che ricordiamo offre una misura della precisione dello
stimatore, diminuisce.

lim EQM(Tn) = 0
n~∞

Al tendere quindi della numerosità campionaria verso infinito, uno stimatore consistente
riduce a 0 il suo errore quadratico medio.

Si prenda lo stimatore media campionaria T = X (che sappiamo corretto)

EQM(X) = Var(X) + d2

In questo caso d2 = 0 poiché è corretto. Quindi:

σ2
EQM(X) = Var(X) =
n
Con n = ∞, il rapporto si annulla (un qualsiasi valore diviso per infinito è uguale a 0).
Quindi:

lim EQM(X) = 0
n~∞

Quindi lo stimatore media campionaria è corretto, efficiente e consistente.

106

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

TEORIA DELLA STIMA STATISTICA


I metodi di stima puntuale forniscono un valore del parametro più plausibile dopo aver osservato un
campione. In effetti, la teoria della stima fornisce criteri ottimali per la scelta di uno stimatore, ed
una volta estratto un campione, si ottiene il valore numerico della stima. Chiaramente questo valore
varierà al variare del campione, non ci si può attendere che le stime ottenute coincidano tutte con il
parametro della popolazione, poiché ci si dovrà sempre aspettare un certo errore di campionamento
rappresentato dalla differenza tra la stima e il parametro.

Infatti si può affermare che la probabilità di stimare il parametro θ di una popolazione senza
commettere errore è uguale a zero:

P(X = µ) = 0

Diventa naturale chiedersi quanto è vicina al vero valore centrale del parametro la stima ottenuta.
Nello stesso tempo sembra utile fornire un’indicazione della sua affidabilità e del grado di
precisione. Ciò può essere fatto con il metodo di stima per intervalli.

STIMA PER INTERVALLI

Sia X1 , X2 ….Xn un campione casuale estratto da una popolazione e date le statistiche T1 e T2 con
T1 < T2 e per le quali la P(T1 ≤ θ ≤ T2) = 1 – α, l’intervallo casuale, è chiamato intervallo di
confidenza per θ di probabilità 1 – α.

Con α si indica la misura dell’errore che si ritiene di poter compiere nell’esperimento. Siamo
costretti a posizionare un valore di errore, in quanto come abbiamo specificato prima la probabilità
di individuare il parametro di una popolazione senza commettere errore è uguale a zero. Ricordiamo
infatti che gli studi inferenziali, volti a stimare i parametri di una vasta, vastissima popolazione,
partono dallo studio dei vari campioni estraibili dalla popolazione stessa e questo fa si che non
necessariamente il parametro stimato per i campioni sia uguale a quello della popolazione. Se si
pensa nuovamente di voler calcolare l’altezza media di tutti gli italiani e a tal fine si estraggono vari
campioni non si può dire con certezza che la media dei campioni sia uguale alla media della
popolazione totale.
Indichiamo invece con la dicitura 1 – α, il livello di fiducia dell’intervallo

Con T1 e T2 si intendono gli estremi dell’intervallo che variano al variare dei valori campionari e
perciò si potrà parlare della probabilità che un intervallo casuale copra un certo parametro θ.
Si dirà quindi che qualunque sia θ, fissato α, estraendo un gran numero di volte campioni della
stessa ampiezza, l’intervallo conterebbe il parametro θ nel 100(1 – α)%

Per determinare gli intervalli di confidenza per la media µ di una popolazione è necessario
conoscere la distribuzione campionaria dello stimatore utilizzato in quanto dalla distribuzione è
possibile individuare un intervallo che include µ con una prefissata probabilità. Distinguiamo due
casi diversi a seconda che si conosca o no la varianza della popolazione σ2

107

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

INTERVALLI DI CONFIDENZA PER LA MEDIA µ DI UNA POPOLAZIONE NORMALE


CON VARIANZA DELLA POPOLAZIONE σ2 NOTA

Sia X1 , X2 ….Xn un campione casuale di ampiezza n campioni, estratto da una popolazione X che
segue una distribuzione normale con media µ e varianza σ2 . Si sa che la media campionaria di
2
questa distribuzione segue anch’essa una distribuzione normale, con media µ, ma con varianza σ ⁄n

Conoscendo la varianza della popolazione, l’intervallo di confidenza è dato come segue:


σ
̅ ± Zα
CONF(X )=1−α
2 √n

Per capire la dicitura qui definita andiamo a disegnare la distribuzione normale che segue la media
campionaria di una popolazione anch’essa che segue una distribuzione normale.

µ
Anche la distribuzione normale della media campionaria deve essere definita per un valore di media
e varianza. Ricordiamo a questo proposito, dagli studi fatti sugli stimatori come la media
campionaria, che il valore atteso (la media) dei valori assunti dalla distribuzione della media
campionaria è pari alla media della popolazione, mentre la varianza della distribuzione “media
campionaria” non coincide con il valore della varianza della popolazione, ma bensì al rapporto della
varianza della popolazione e il numero di campioni rilevati. Per questi motivi al centro della
distribuzione della media campionaria indichiamo µ, la media della popolazione in quanto:

̅) = µ
E(X

Riprendendo i concetti finora spiegati, l’intera area definita dalla curva normale mi indica la somma
di tutte le probabilità associate ad un esperimento che è pari all’unità. Il valore P = 1, sta a dire che
quell’evento associato a quella probabilità si verifica sempre, il 100% dei casi. Come abbiamo detto
tuttavia, non è possibile stimare un parametro senza commettere un eventuale errore (α) per questo
andiamo a posizionare l’errore, all’interno della distribuzione. A questo proposito si ricordi che
l’errore alfa, nell’intervallo di confidenza va diviso lungo le due code della distribuzione in maniera
α α
simmetrica, sta a dire nella coda di destra, e in quella di sinistra, cosicché la somma delle due
2 2
code mi dia l’errore totale che si è disposti a commettere che e pari a α.

108

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

α
α
2
2

-Z Z

Spartendo l’errore α alla destra e alla sinistra delle code della distribuzione, si arriverà, nella
maniera che segue, a dei valori standardizzati Z che interverranno nel calcolo dei valori
dell’intervallo di confidenza.

Si pensi di trovare l’intervallo di confidenza per la media ponendo α = 0.05. Va da se che con
questo valore di alfa, il livello di fiducia di questo intervallo (1 – α) è pari a 0.95
Nel calcolare tale intervallo di confidenza il nostro obiettivo è ricercare quell’intervallo costituito
dagli estremi T1 e T2, per cui la possibilità di estrarre il parametro θ, in questo caso la media sia di
0.95.

Ricordiamo che l’area totale della distribuzione normale che va da - ∞ a + ∞ è uguale a 1 e poiché
la media della distribuzione normale standardizzata, 0, è anche mediana, la probabilità dell’area alla
destra della media è uguale a 0.5 come anche l’area alla sinistra della media.
Definito il margine di errore α, questo va diviso simmetricamente ai due estremi della distribuzione.
Quindi:
µ

α/2 = 0.025 α/2 = 0.025


0.475 0.475

-Z 0 Z

Distribuito il margine di errore lungo le code (metà per ciascuna) le parti d’area restanti sono date
dalla differenza tra 0.5 (metà area di una distribuzione normale standardizzata) e 0.025. A questo
punto interviene il calcolo dei valori Z che facciano riferimento all’area che va dalla media
all’inizio della porzione di distribuzione definita con α/2. Si tratta appunto di definire quei valori che
nella formula dell’intervallo di confidenza sono indicati come ± Zα .
2

109

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Siccome ciascuno dei due valori Z e –Z indica l’area definita tra la media (in questo caso
standardizzata perché su quell’asse sono indicati i valori standardizzati) e il valore stesso, si deve
cercare sulle tavole quel valore di Z cui corrisponde un’area pari a 0.475
Si tratta di fare esattamente il ragionamento inverso fatto finora sulla distribuzione normale.
Dapprima calcolavamo il valore di Zi , e riportandolo sulla tavola della distribuzione normale alla
fine del libro, trovavamo l’area che andava da 0 a quel valore di Zi . Qui si tratta invece di fare il
ragionamento opposto: si ha l’area e si vuole trovare il valore standardizzato Zi . si vada quindi a
cercare 0.475 sulla tabella e si noti che esso corrisponde proprio all’intersezione di 1.9 e 0.06, vale a
dire che il valore standardizzato è 1.96 (essendo simmetrica la distribuzione il secondo valore sarà
uguale al primo solo con segno opposto). Per cui

± Zα = ±1.96
2

Possiamo quindi trovare l’intervallo di confidenza per stimare il parametro µ, sostituendo i valori
per la formula CONF(X̅ ± Zα σ ) = 1 − α. Avremo quindi:
2 n √

σ
̅ ± 1.96
CONF(X ) = 0.95
√n

Al momento che si hanno i valori della media campionaria, della deviazione standard e della
numerosità campionaria, possiamo definire i due valori (indicati come T1 e T2) nel cui intervallo,
da loro definito la media della popolazione è collocata con una probabilità di 0.95.

ESERCIZIO: Studiando le ore lavorate alla settimana da una casalinga con marito e due figli, per
un campione di 8 casalinghe, si sono rilevati i seguenti valori: 56, 54, 55, 58, 58, 56, 54, 55.
Supponendo che lo scarto quadratico medio della popolazione sia uguale a 1, calcolare l’intervallo
di confidenza.

Si definisca prima di tutto l’errore α. Qualora la traccia non specifichi il suo valore, allora siamo
costretti a rilevarlo noi stessi. Di solito si scelgono valori di alfa piuttosto piccoli come pari ad
esempio a 5% o 10%. Scegliamo α = 10% = 0.1. Ne segue quindi che il livello di fiducia è dato da
1 − 0.1 = 0.90

Definiamo poi la media rilevata sui campioni rilevati:

56+54+55+58+58+56+54+55
x̅ = = 55.75
8

Notando che la varianza della popolazione è conosciuta (in realtà si conosce lo scarto quadratico
medio, ma elevandolo al quadrato si arriva alla media, che sarà pari anch’essa a 1), SI PUÒ
UTILIZZARE LA DISTRIBUZIONE NORMALE. Si rilevi lungo le code l’errore definito:

110

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

α/2 = 0.05 α/2 = 0.05


0.45 0.45

-1.645 0 1.645

I valori di ±1.645 sono stati calcolati cercando nelle tavole il valore Z cui corrispondesse l’area di
0.45. Come si può notare questo valore non esiste, rileviamo invece l’area del valore Z = 1.64, che
definisce un area pari a 0.4495 e il valore Z = 1.65 al quale corrisponde un area di 0.4505. come
vediamo dunque non esiste un valore Z che definisca un’area precisamente pari a 0.45, per questo si
farà la media tra i due valori Z = 1.64 e Z = 1.65 ottenendo Z = 1.645. A questo valore
corrisponderà l’area pari a 0.45.

σ
̅ ± Zα
Sostituendo i valori nella formula dell’intervallo di confidenza CONF(X ) = 1 − α, che
2 √n
ricordiamo viene usata solo quando si conosce la varianza della popolazione,avremo:
1
CONF(55.75 ± 1.645 ) = 1 − 0.10
√8

1
CONF(55.75 ± 1.645 ) = 1 − 0.10
√8

CONF(55.75 ± 0.5833) = 0.90

Sottraendo e sommando alla media campionaria calcolata (pari a 55.75) 0.5833, che è il valore
1
risultato da 1.645 ∗ , definiremo gli estremi dell’intervallo di confidenza:
√8

CONF(55.16;56.33) = 0.90

Con un livello di fiducia quindi, pari a 0.90, si può dire che la media delle ore lavorative settimanali
di una casalinga con un marito e due figli, sia collocata tra i valori compresi fra 55.16 e 56.33.

111

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

INTERVALLI DI CONFIDENZA PER LA MEDIA µ DI UNA POPOLAZIONE NORMALE


CON VARIANZA NON NOTA E NUMERO DI CAMPIONI n < 30

L’intervallo di confidenza discusso precedentemente è utilizzabile solo se si conosce la varianza


della popolazione σ2 . Il più delle volte non si dispone di questa quantità. Si può superare questa
difficoltà considerando la varianza campionaria (𝐒 𝟐 ). Ricordiamo tuttavia che lo stimatore
“varianza campionaria” non risulta essere uno stimatore corretto, di usa dunque più preferibilmente
lo stimatore “varianza campionaria corretta” (𝐒̂ 𝟐 ).
Nelle seguenti condizioni:
- Numerosità campionaria n<30
- Non si conosce la varianza della popolazione, ma si può calcolare la varianza campionaria
corretta

Dato un campione casuale X1 , X2 ….Xn generato da una popolazione X che segue una distribuzione
normale con media µ e varianza σ2 , allora la variabile casuale t segue una distribuzione t di Student
con n-1 gradi di libertà.

X− µ
t = Ŝ ~ 𝐭 𝐧−𝟏

√n
Quindi qualora non si conosca la varianza effettiva della popolazione σ2 , allo statistico non resta
altro che estrarre n campioni e calcolare la loro varianza campionaria corretta.
La formula dell’intervallo di confidenza con varianza non nota è la seguente:


CONF(X ± t n−1a )=1–α
2 √n

Si ricordi che la distribuzione t di Student presenta una forma molto simile alla distribuzione
normale.

Come per il metodo di definizione dell’intervallo di confidenza precedente, anche in questa


condizione la prima operazione consiste nel definire agli estremi della distribuzione (in questo caso
però la t di Student) in maniera simmetrica l’errore alfa.
µ

α
α
2
2

-t t

112

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Con la differenza che sull’asse definiamo i valori “t” della distribuzione t di Student, e non più i
valori standardizzati Z.

È d’obbligo ora fare una piccola precisazione sui valori t della distribuzione Student. La
distribuzione t di Student infatti si legge diversamente dalla normale.

Ciascun valore di t non legge più l’area che va dalla media al valore stesso, ma bensì l’area che va
da -∞ a t (nel disegno identificata come l’area in bianco):

Facciamo un esempio. Supponiamo di studiare un errore alfa pari a 5%. Andiamo a vedere come
leggere la tabella t di Student.

Dividiamo in maniera uguale l’errore alfa lungo le code della distribuzione:


µ

0.025
0.025

0.975
-t 0 t

Prendiamo il valore t. Questo valore legge l’area che va da -∞ a t. A quanto è pari l’area che va da
-∞ a t? Sarà uguale a 1 (valore dell’intera area) diminuito di 0.025, quindi 0.975. Si prenda dunque,
sulla tavola dei valori per la t di Student sulla colonna l’area letta dal valore t che stiamo
considerando, in questo caso 0.975. Non è finita qui, dobbiamo ancora incrociare il valore della
colonna con quelli riferiti a n (numerosità campionaria). Si è visto tuttavia che per il calcolo di un
intervallo di confidenza con varianza non nota e n<30, la distribuzione t di Student va letta per
N – 1 GRADI DI LIBERTA’. Supponiamo a titolo d’esempio che siano stati rilevati 4 campioni,
si incrocerà dunque la colonna riferita all’area 0.975 con 4 – 1 = 3 rilevando in questa maniera un
valore di t pari a 3.182.

Essendo la distribuzione t di Student, come la distribuzione normale, una distribuzione simmetrica,


il valore di t sarà uguale al valore di – t ma con segno opposto (- 3.182).

113

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

ESERCIZIO: Sia X1 ,…, X4 un campione casuale estratto da una popolazione normale con media µ
e varianza σ2 entrambe incognite. Sapendo che ∑4i=1 xi = 65 e ∑4i=1 xi2 = 1093, si trovi un intervallo
di confidenza per µ al livello di fiducia del 90%

Siccome la varianza della popolazione non è conosciuta e i campioni estratti sono minori di 30 (ci
sono 4 campioni, si veda infatti che all’inizio si specifica che i valori vanno da 1 a 4) allora si
utilizzerà la formula dell’intervallo di confidenza riferito alla DISTRIBUZIONE T DI STUDENT.

Calcoliamo dunque prima di tutto la media campionaria. Questa sarà data da:

x̅ = 65/4 = 16.25

Perché si possa calcolare l’intervallo di confidenza è necessario tuttavia anche un valore di


varianza. Siccome la varianza della popolazione non è disponibile e la distribuzione t di Student si
legge per lo stimatore “varianza campionaria corretta” (Ŝ 2 ) andiamo a calcolarla.

Ricordando che:
Dev(X)
Ŝ 2 =
n−1

Si calcoli prima di tutto la devianza del nostro campione. L’esercizio ci offre i valori di sommatoria,
questo significa che bisognerà fare ricorso alle formule alternative.
2
Dev(X) = ∑ xi2 - nx

= 1093 – (4)(16.252 ) = 36.75


36.75
Ŝ 2 = 4−1 = 12.25

Nella formula dell’intervallo di confidenza è richiesto il valore della DEVIAZIONE STANDARD


CAMPIONARIA CORRETTA, intuitivamente data da:

Ŝ = √Ŝ 2
Per questo esercizio quindi:

Ŝ = √12.25 = 3.5

Passiamo ora a distribuire l’errore alfa nella distribuzione t di Student. Specificando l’esercizio un
valore del livello di fiducia pari al 90% (0.9) ne risulta che l’errore α = 10% (0.1)

114

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

α/2 = 0.05 0.95 α/2 = 0.05

-t 0 t

Il valore t legge l’area che va da meno infinito a t. Quest’area è pari a 0.95, in quanto si tratta di
sottrarre all’unità la parte di errore presente alla destra di t, ovvero quell’area che esso non legge. 1
– 0.05 = 0.95. Al momento di scegliere l’area riferita al valore t, ci si aiuti sempre con un supporto
grafico come quello sopra. Inoltre non fraintendere la dicitura 1 – α, che nella tabella significa
l’area letta dal valore, NON il livello di fiducia. L’errore in questo esercizio è pari a 0.1 ma questo
non significa che andiamo a prendere un valore di 1 – α nella tabella t di Student pari a 0.90.
prendiamo invece quell’area da meno infinito al valore t, cui lo stesso valore t si riferisce (in questo
caso 0.95)

Si incroci questo valore nella tavola della t di Student, con un valore di n pari a n – 1.
La numerosità campionaria in questo esercizio è pari a 4 (n=4) si legga quindi un valore 4 – 1 = 3.
Incrociando il valore di n = 3 e l’area pari a 0.95, si ottiene un valore di t = 2.353 (ne segue che
essendo simmetrica, - t = - 2.353).
µ

α/2 = 0.05 α/2 = 0.05

- 2.353 0 2.353

Disponiamo dunque di tutti i dati per calcolare l’intervallo di confidenza per la media µ.


CONF(X ± t n−1a )=1–α
2 √n

α
Con questo esercizio si può capire che la dicitura t n−1a , sta a dire “il valore t riferito all’errore 2,
2
letto sulla tabella a n-1 gradi di libertà”.


CONF(X ± t n−1a )=1–α
2 √n

3.5
CONF(16.25 ± 2.353 ) = 1 – 0.1
√4
115

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

CONF(16.25 ± 4.43) = 0.9

Sottraendo e aggiungendo alla media il valore di 4.43 si giunge rispettivamente all’estremo inferiore
e superiore dell’intervallo per il quale esiste una probabilità pari a 0.9 che la media sia presente al
suo interno:

CONF(11.81; 20.68) = 0.9

Si è dunque detto finora che, qualora la varianza della popolazione sia nota si utilizzerà la
distribuzione normale. Quando invece la varianza della popolazione non è nota e la numerosità
campionaria è minore di 30 si utilizzerà la distribuzione t di studenti.

Tuttavia, seppure non si conosca la varianza della popolazione, ma la numerosità campionaria è


sufficientemente grande (n ≥ 30), è ancora possibile utilizzare la distribuzione normale. In questa
particolare condizione, dove specifichiamo N ≥ 30, non conoscendo la varianza della popolazione,
si potrà calcolare la varianza campionaria corretta e dunque l’intervallo di confidenza sarà definito
come segue:


̅ ± Zα
CONF(X )=1−α
2 √n

Si opererà allo stesso modo del primo caso, solo che al posto della deviazione standard della
̂
popolazione, si utilizzerà la deviazione standard campionaria S

Alla luce di queste considerazioni definiamo una tabella per riassumere, a seconda delle condizioni,
quale distribuzione utilizzare, se la distribuzione normale, che indichiamo con Z, o la t di Student
che indicheremo con t.

VARIANZA DELLA
POPOLAZIONE N RISULTATO
POPOLAZIONE
Normale Nota n<30 Z
Normale Nota n≥30 Z
Normale Non nota n<30 t
normale Non nota n≥30 Z

116

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

LA VERIFICA DELL’IPOTESI

Nella parte precedente abbiamo sviluppato un aspetto dell’inferenza statistica: la teoria della stima
statistica. Un altro problema, che per molti aspetti è collegato s quello della stima, è la VERIFICA
DELL’IPOTESI che sarà oggetto di studio di questa sezione.
Accade talvolta che, nella ricerca sperimentale, l’obiettivo del problema sia costituito dalla sola
stima dei parametri, ma spesso lo scopo ultimo è quello di utilizzare la stima trovata al fine di avere
un’idea su alcuni aspetti rilevanti ma incogniti della popolazione, come possono esserlo la media e
la varianza.
Si potrebbe verificare per esempio se un nuovo metodo di costruzione delle pile aumenti la durata
delle stesse, se un nuovo prodotto farmaceutico sia più efficace nel trattamento di una certa
infezione, rispetto a quello tradizionale.
Considerando l’esempio delle pile supponiamo che la durata media delle stesse, costruite secondo
un procedimento tradizionale sia di µ0 ore. Viene introdotto un nuovo procedimento per la
produzione di pile e si vuole verificare se la durata delle pile costruite con il nuovo procedimento
aumenta rispetto al vecchio procedimento. Da analisi condotta in precedenza è noto che la durata
media della popolazione delle pile costruite secondo il vecchio procedimento sia di µ0 ore.
Il problema è quello di vedere se la durata media delle pile costruite secondo il nuovo procedimento
è maggiore o minore di µ0 ore.
Per risolvere il problema si fa l’ipotesi che la durata media µ1 delle pile costruite con il nuovo
procedimento possa essere maggiore o minore di µ0 .
Sulla base di un campione estratto dalla popolazione di pile costruite secondo il nuovo
procedimento accetteremo o rifiuteremo l’ipotesi formulata.

Delineate, per sommi capi, le problematiche connesse alla verifica delle ipotesi, procediamo ora a
definire il metodo per cui si accetterà l’una o l’altra ipotesi fatta intorno alla media della
popolazione. A questo proposito si tenga ben presente, che nel corso, è affrontato unicamente la
verifica delle ipotesi RIFERITA ALLA MEDIA DELLA POPOLAZIONE µ (siccome esistono
verifiche delle ipotesi anche intorno alla varianza della popolazione). A questo fine andranno
definite SEMPRE DUE TIPI DI IPOTESI µ0 e µ1.

La prima ipotesi che si va a definire è quella chiamata IPOTESI NULLA, la cui dicitura è H0 . Tale
ipotesi è quella per cui viene condotta la verifica, ci si chiede dunque se esistono le condizioni per
dire che la media della popolazione, secondo quest’ipotesi, (µ0 ), debba essere accettata o rifiutata.
Si scriverà dunque:

H0 : µ0

117

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Alternativamente all’ipotesi nulla formulata H0 , si pone un’altra ipotesi detta IPOTESI


ALTERNATIVA (µ1) per cui la media della popolazione non sarà pari al valore µ0 , ma bensì
MAGGIORE, MINORE O DIVERSO (quindi sia maggiore che minore), del valore µ0 . Per questi
motivi avremo:

H1 : µ1 > µ0

H1 : µ1 < µ0

H1 : µ1 ≠ µ0
Andiamo dunque ora a definire il ragionamento o la regola per cui si accetterà come media della
popolazione quella definita dall’ipotesi nulla H0 oppure quella definita dall’ipotesi alternativa H1

TEST E REGIONE CRITICA

Si definisce Y (regola di decisione) di un’ipotesi statistica H nella seguente maniera: si rifiuti


l’ipotesi statistica H se e solo se il valore calcolato appartiene a una regione critica detta Cy che
rappresenta un sottoinsieme dello spazio campionario delle osservazioni; Y è detto test statistico e
Cy è la regione critica corrispondente al test statistico Y.

Secondo quanto detto sopra, va prima definito il test statistico (normale o t di Student) da andare a
utilizzare per saggiare la bontà dell’ipotesi. Come per l’intervallo di confidenza, si utilizzerà la
tabella precedente. Definendo i valori della numerosità campionaria e valutando se si ha a
disposizione la varianza della popolazione, si sceglierà il test statistico “Z” oppure il test statistico
“t”.

Come per l’intervallo di confidenza, anche per la verifica dell’ipotesi va posto un’eventualità di
errore che indichiamo con alfa. Anche in questa circostanza l’errore andrà posizionato lungo le code
della distribuzione che si utilizza. Dobbiamo tuttavia distinguere 3 possibili situazioni a seconda che
l’ipotesi alternativa H1 proponga una media di popolazione µ1 che sia maggiore, minore o diversa
dalla media secondo la popolazione H0 .

1) 𝐇𝟏 : µ𝟏 > µ𝟎 (IPOTESI UNIDIREZIONALE)

In questa condizione l’errore alfa va posto completamente nella coda destra della distribuzione, in
quanto i valori di media, maggiori di µ0 , sono posti alla sua destra. Nella maniera seguente:

118

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

µ0

REGIONE DI 𝛂

ACCETTAZIONE
REGIONE DI
RIFIUTO

0 t (oppure Z)

Si pone quindi in questo caso l’errore alfa alla coda destra della distribuzione che può essere una
distribuzione o normale o t di Student. A questo punto si va a definire quel valore di Z o di t (a
seconda che si usi rispettivamente la normale o la t di Student) oltre il quale incomincia l’area
definita dall’errore che, che prende il nome di REGIONE DI RIFIUTO (per H0 ).
Se avremo a che fare con un valore di Z o di t, minore del valore di Z o di t, per cui si definisce la
regione di rifiuto, allora si accetterà la media della popolazione definita dall’ipotesi nulla e si rifiuta
l’ipotesi alternativa. Se invece avremo un valore maggiore, allora accetteremo l’ipotesi alternativa e
rifiuteremo l’ipotesi nulla.

2) 𝐇𝟏 : µ𝟏 < µ𝟎 (IPOTESI UNIDIREZIONALE)

In questa condizione l’errore alfa va posto completamente nella coda sinistra della distribuzione, in
quanto i valori di media, minori di µ0 , sono posti alla sua sinistra. Nella maniera seguente:
µ0

𝛂
REGIONE DI
REGIONE DI ACCETTAZIONE
RIFIUTO

- t (oppure -Z) 0

Posizionando l’errore alfa, totalmente alla sinistra della distribuzione, definiamo il valore di t o di Z,
oltre il quale incomincerà la regione di rifiuto e prima del quale incomincia la regione di
accettazione. Per valori dunque di t o di Z inferiore a quelli definiti nel grafico, si rifiuterà l’ipotesi
nullaH0 e si accetterà l’ipotesi alternativa H0 . Per valori invece di t o di Z, superiori a quelli definiti
nel grafico, si accetterà l’ipotesi H0 e si rifiuterà l’ipotesi H1

119

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

3) 𝐇𝟏 : µ𝟏 ≠ µ𝟎 (IPOTESI BIDIREZIONALE)

In questa condizione l’errore alfa va diviso egualmente lungo le due code della distribuzione. Infatti
dire che un valore è diverso da un altro sta a dire che quel valore può essere sia maggiore che
minore. Siccome tuttavia l’errore totale che si vuole commettere deve essere pari ad 𝛼,
α α
posizioniamo a destra e 2 a sinistra. Nella maniera seguente:
2
µ0

𝛂/𝟐 REGIONE DI 𝛂/𝟐


ACCETTAZIO
REGIONE DI NE REGIONE DI
RIFIUTO RIFIUTO

-t (oppure –Z) 0 t (oppure Z)

In questa condizione, definendo dunque due regioni di rifiuto, avremo come riferimento due valori
simmetrici di t o di Z. Quando avremo un valore di t o di Z compreso tra i valori esplicitati nel
grafico, oltre i quali inizia la regione di rifiuto, si accetterà l’ipotesi nulla e si rifiuterà l’ipotesi
alternativa. Quando invece avremo un valore di t o di Z inferiore o superiore dei valori esplicitati in
figura si accetterà l’ipotesi alternativa e si rifiuterà l’ipotesi nulla.

Ricordiamo sempre che in questa sede stiamo trattando la verifica dell’ipotesi della MEDIA
DELLA POPOLAZIONE. Utilizzando specifiche distribuzioni, tenendo presente la conoscenza
della varianza della popolazione e la numerosità campionaria, si andrà a STANDARDIZZARE LA
MEDIA CAMPIONARIA rilevata e si vedrà dove è collocato tale valore standardizzato, se nella
regione di rifiuto o nella regione di accettazione per l’ipotesi H0 .

PROCEDIMENTO PER VERIFICA DELL’IPOTESI


Una volta definito il sistema di ipotesi nulla e alternativa

IPOTESI NULLA = H0 : µ0
H1 : µ1 > µ0
IPOTESI ALTERNATIVA(solo 1 di queste) = {H1 : µ1 < µ0
H1 : µ1 ≠ µ0
È necessario seguire questi passaggi:
1) Definire i valori per MEDIA CAMPIONARIA, VARIANZA (della popolazione o
campionaria) e la NUMEROSITA’ CAMPIONARIA.
2) Sulla base dei dati precedenti definire se utilizzare la distribuzione normale o la t di Student.
3) Definire il grafico della distribuzione della media campionaria e posizionare l’errore alfa
secondo i modi esposti in precedenza

120

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

4) Definire i valori di t o di Z che delimiteranno la REGIONE DI RIFIUTO


5) Standardizzare la media campionaria secondo la formula:

̅− µ
X ̅− µ
X
oppure
σ⁄√n Ŝ⁄√n

A seconda che si conosca il valore della deviazione standard della popolazione (σ) oppure la
deviazione standard campionaria corretta (Ŝ).
6) Dire quale ipotesi accettare e quale rifiutare. A questo proposito bisogna vedere il valore
risultato dalla standardizzazione del punto precedente. Se il valore standardizzato si trova
nella regione di rifiuto si rifiuterà l’ipotesi nulla e si accetterà l’ipotesi alternativa, viceversa
se il valore standardizzato si colloca nella regione di accettazione.

ESERCIZIO: Una certa linea di produzione è dedicata al riempimento di confezioni di succhi di


frutta della capacità di 0.5 litri. È noto da precedenti esperienze che esiste una certa variabilità nella
capacità pari a 0.1 litri. È chiaro che confezioni che contengono più o meno di 0.5 litri di succo di
frutto costituiscono un problema che può far interrompere il processo produttivo. Un addetto al
controllo di qualità ha considerato un campione di 20 confezioni e sulla base dei dati raccolti deve
decidere se interrompere o meno il processo produttivo.
- Formulare il sistema di ipotesi (nulla e alternativa) più appropriato.
- Dire quale è la statistica test da utilizzare in questo caso
- Individuare, al livello di significatività α = 0.05, la regione di accettazione del test
- Dire se l’addetto deve interrompere il processo produttivo qualora rilevi una media per i 20
campioni pari a 0.57

Seguendo i passaggi esposti in precedenza, è necessario prima di tutto definire il sistema di ipotesi.
L’ipotesi nulla è che la capacità media dei succhi di frutta sia effettivamente di 0.5litri, nel sistema
della macchina confezionatrice si è infatti imposto che il quantitativo di succo all’interno di ciascun
succo di frutta deve essere pari a 0.5litri. Tuttavia per un motivo come un altro (corti circuiti del
sistema, blocchi nella catena di montaggio, errori di sistema) la macchina potrebbe non rispettare la
condizione che le si è imposta. Effettuiamo quindi una verifica dell’ipotesi formulata sulla media
della popolazione costituita da tutti i succhi di frutta prodotti dalla macchina.
Per l’azienda costituisce un problema sia il fatto che la media della popolazione sia effettivamente
più piccola di quanto dichiarato (potrebbero essere denunziati per pubblicità ingannevole, in quanto
dicono che la confezione contiene 0.5 litri ma in realtà ce n’è di meno) oppure più grande di quanto
dichiarato (in questo modo venderebbe al prezzo per le confezioni di 0.5litri, confezioni che
contengono effettivamente una maggiore quantità di succo). Sulla base di queste considerazioni, il
sistema delle ipotesi sarà il seguente:

H0 : µ0 = 0.5 l
H1 : µ1 ≠ 0.5 l
La prima domanda è dunque risposta. Ponendo questo sistema di ipotesi poniamo che per l’ipotesi
nulla, la media della popolazione risulta essere uguale al valore impostato nella macchina

121

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

confezionatrice. Come ipotesi alternativa si prende il caso in cui la media della popolazione possa
essere sia maggiore che minore del valore di medi impostato (dunque diverso).

Per rispondere quale statistica test utilizzare, bisogna andare a delineare i valori di numerosità
campionaria e di varianza (della popolazione o campionaria) rilevati in questo caso.
La numerosità campionaria è pari a 20 (n<30) e la varianza della popolazione è pari a 0.1 (dunque è
conosciuta). Riprendendo la tabella utilizzata per l’intervallo di confidenza possiamo dire che
bisogna utilizzare la DISTRIBUZIONE NORMALE, quindi la statistica test Z.

Andando ora a definire l’errore alfa nella distribuzione normale possiamo individuare la regione di
rifiuto e la regione di accettazione. Siccome rileviamo un’ipotesi bidirezionale, l’errore alfa (qui
pari a 0.05) va diviso a metà per ciascuna coda della distribuzione.
µ0

𝟎. 𝟎𝟐𝟓 𝟎. 𝟎𝟐𝟓

𝟎. 𝟒𝟕𝟓 𝟎. 𝟒𝟕𝟓

-Z 0 Z

Il valore Z, come il valore –Z (ma in maniera simmetrica), rispecchia l’area che va dalla media a se
stesso quindi un’area pari a 0.475. il valore Z che legge tale valore è pari a 1.96. la distribuzione
sarà quindi come segue:
µ0

𝟎. 𝟎𝟐𝟓 REGIONE DI 𝟎. 𝟎𝟐𝟓


ACCETTAZIO
REGIONE DI 𝟎. 𝟒𝟕𝟓 NE 𝟎. 𝟒𝟕𝟓 REGIONE DI
RIFIUTO RIFIUTO

-1.96 0 1.96

Per i valori standardizzati di Z compresi tra -1.96 e 1.96, si accetterà H0 e si rifiuterà H1 , viceversa
con valori inferiori di -1.96 o superiori di 1.96, in questo caso infatti ci si troverà nella regione di
rifiuto.
122

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Andiamo ora a capire quale decisione deve operare l’addetto rilevando una media per i 20 campioni
pari a ̅
X = 0.57.Si standardizzi questo valore di media campionaria:

̅− µ
X
=
σ⁄√n

0.57 – 0.5 0.07


= =
0.31⁄√20 0.31⁄4.47

0.07
0.069
= 1.01

Il valore Z = 1.01 si trova nella regione di accettazione, questo significa che la media della
popolazione dei succhi di frutta è effettivamente pari a 0.5 (come posto nell’ipotesi nulla) e non è
diversa da 0.5 (come posto nell’ipotesi alternativa). Si accetta dunque l’ipotesi H0 e si rifiuta H1 .
L’addetto non sarà quindi tenuto a interrompere la produzione.

Teniamo a mente lo stesso esercizio con la sola differenza che non si conosce la varianza della
popolazione, ma la varianza campionaria corretta (la poniamo sempre pari a Ŝ 2 = 0.1).
Operando questa piccola modifica l’esercizio cambia notevolmente.
Avendo numerosità campionaria pari a 20 (n<30) e non conoscendo più la varianza della
popolazione (σ2 = NON NOTO), ma al suo posto conosciamo la varianza campionaria corretta. Per
questi motivi la statistica test da utilizzare è la T DI STUDENT.
µ0

𝟎. 𝟎𝟐𝟓 𝟎. 𝟎𝟐𝟓

-t 0 t

Il valore t legge l’area da meno infinito a t , questa’area è pari all’unità meno 0.025, quindi 0.975. si
legga questo valore sulle tavole con n-1 gradi di libertà. Questi saranno dati da 20 – 1 = 19.
Incrociando il valore di n pari a 19 e 1− α = 0.95 si arriva ad un valore t = ±2.093

123

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

µ0

𝟎. 𝟎𝟐𝟓 REGIONE DI 𝟎. 𝟎𝟐𝟓


ACCETTAZIO
REGIONE DI NE REGIONE DI
RIFIUTO RIFIUTO

- 2.093 0 2.093

Standardizziamo il valore di media campionaria secondo la formula:

̅− µ
X
Ŝ⁄√n

Supponiamo, giusto per arrivare ad un valore diverso da quello calcolato in precedenza un valore di
media campionaria, rilevato sui 20 valori, pari a x̅ = 0.707
0.707− 0.5
0.31⁄√20
=3

Questo valore si trova nella regione di rifiuto, dunque si accetta la media sotto l’ipotesi alternativa e
si rifiuta la media dell’ipotesi nulla: la media della popolazione risulta essere effettivamente diversa
da 0.5. In queste circostanze dunque l’addetto dovrebbe interrompere la produzione.

ESERCIZIO: Una ditta produttrice di lampadine sostiene che la durata media delle lampadine
prodotte è di 1600 ore, con uno scarto quadratico medio pari a 120 ore. Supponendo che la durata
delle lampadine sia distribuita normalmente, si estrae un campione di 100 lampadine, sul quale si è
calcolata la durata media di 1570 ore. Stabilire se l’affermazione del produttore è corretta, usando
come ipotesi alternativa che la durata media sia:
A) Inferiore a quella dichiarata
B) Diversa da quella dichiarata

Il sistema di ipotesi che si formula è sempre costituito da due singole ipotesi, una nulla e una
alternativa. Si deve quindi fare un sistema di ipotesi per la durata media definita nel punto A e una
nel punto B.
L’ipotesi nulla sarà H0 : µ0 = 1600ore, si pone infatti a verifica questa condizione. Ci si chiede se
sulla base dei campioni rilevati si possa dire che effettivamente la media della popolazione sia pari a
1600 ore oppure questa sia inferiore o diversa di 1600.

124

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Definiamo quindi il primo sistema di ipotesi:

H0 : µ0 = 1600 ore
H1 : µ1 < 1600 𝑜𝑟𝑒

Non specificando l’esercizio il valore di errore “alfa” siamo costretti a porre per esso un valore a
nostro piacimento. Si scegli spesso un valore di α = 0.05.
Abbiamo dunque una numerosità campionaria di 100 lampadine e si sa che lo scarto quadratico
medio della popolazione σ = 120 (elevandolo al quadrato si può conoscere dunque la varianza della
popolazione; non eseguiamo questo calcolo dato che nella formula di standardizzazione è richiesto
il valore della deviazione standard anziché quello della varianza), per questi motivi la distribuzione
che studia la media campionaria sarà la DISTRIBUZIONE NORMALE (si utilizza la statistica test
Z).
Essendo un’ipotesi unidirezionale, dove l’ipotesi alternativa rispecchia che la media della
popolazione possa essere inferiore a 1600 ore, l’errore alfa va collocato completamente alla sinistra
della distribuzione normale:
µ0

𝟎. 𝟎𝟓
𝟎. 𝟒𝟓

- Z 0

Il valore –Z legge l’area che va da 0 a –Z. Quell’area è pari a 0.45 data dall’unità meno 0.05. Si
cerchi quindi il valore di Z che legga quest’area, questo valore è pari a 1.645, per cui si definirà la
distribuzione come segue:
µ0

𝟎. 𝟎𝟓
𝟎. 𝟒𝟓
REGIONE DI
REGIONE DI ACCETTAZIONE
RIFIUTO

- 1.645 0
125

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si standardizzi dunque il valore di media campionaria rilevato:

̅− µ
X
=
σ⁄√n

1570−1600 30
120⁄√100
= = -2.5
12

Il valore risultante dalla standardizzazione risulta quindi essere inferiore di -1.645, si trova dunque
nella regione di rifiuto. Per questo motivo si accetta l’ipotesi H1 e si rifiuta l’ipotesi H0 , ciò
significa che la media della popolazione definita per la durata media di tutte le lampadine risulta
essere effettivamente diversa da 1600 ore.

Possiamo fare ora la seconda verifica dell’ipotesi con sistema di ipotesi come segue:

H0 : µ0 = 1600 ore
H1 : µ1 ≠ 1600 ore
Rimanendo uguali le condizioni precedenti, vi è un solo cambiamento che essendo un’ipotesi
bidirezionale, l’errore alfa adesso viene ripartito lungo le due code della distribuzione:
µ0

𝟎. 𝟎𝟐𝟓 𝟎. 𝟎𝟐𝟓
𝟎. 𝟒𝟕𝟓 𝟎. 𝟒𝟕𝟓

-Z 0 Z
I valori di Z che rispecchiano l’area di 0.475 sono ± 1.96. Per cui:
µ0

𝟎. 𝟎𝟐𝟓 REGIONE DI 𝟎. 𝟎𝟐𝟓


𝟎.ACCETTAZIO
𝟒𝟕𝟓 𝟎. 𝟒𝟕𝟓
REGIONE DI NE REGIONE DI
RIFIUTO RIFIUTO

-1.96 0 1.96
126

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Standardizziamo dunque il valore di media campionaria:

̅− µ
X
=
σ⁄√n

1570−1600 30
120⁄√100
= = - 2.5
12

Questo valore, essendo minore di -1.96 risulta essere all’interno della regione di rifiuto, da qui si
rifiuta l’ipotesi nulla e si accetta l’ipotesi alternativa per cui la media della popolazione risulta
essere effettivamente diversa dal valore 1600 ore.

ESERCIZIO: E’ stata misurata su un campione di 6 famiglie l’altezza dei padri e l’altezza dei figli
ed è stata ottenuta la seguente quantità ∑ fi = 10.65; ∑ fi2 = 18.95. Verificare che l’altezza media
dei figli è pari a 1.8 metri.

Si tratta di una condizione di verifica dell’ipotesi, di chiede di verificare la condizione che l’altezza
media dei figli (intendendo di tutti i figli) sia uguale a 1.8. Non specificando l’ipotesi alternativa,
ma dicendo solamente che si vuole verificare che l’altezza dei figli sia pari ad un determinato
valore, prendiamo come ipotesi alternativa un’ipotesi bidirezionale, in modo che la media della
popolazione possa effettivamente essere maggiore o inferiore di 1.8. Quindi:

H0 : µ0 = 1.8 m
H1 : µ1 ≠ 1.8 m

Non viene fornito nemmeno un valore per l’errore alfa, si ponga quindi un valore a nostro
piacimento come α = 0.05.

Perché possiamo operare la verifica dell’ipotesi impostata abbiamo bisogno dei valori di media
campionaria e di varianza. Sapendo che la numerosità campionaria, ovvero i campioni rilevati, è
pari a 6 la media campionaria è facilmente calcolabile come:

10.65
̅
X= = 1.775
6

Oltre alla media campionaria è necessario rilevare un valore per la varianza. Siccome la varianza
della popolazione non è fornita non ci resta che calcolare quella campionaria corretta Ŝ 2 e avendo a
disposizione i valori di sommatoria dobbiamo utilizzare le formule alternative:
2
Dev(X) = ∑ xi2 - nx

= 18.95 – (6)(1.7752 ) = 0.046


0.046
Ŝ 2 = = 0.00925
6−1

Ŝ = √0.00925 = 0.096

127

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

La numerosità campionaria è minore di 30 (abbiamo 6 campioni) non si conosce la varianza della


popolazione, la statistica test da utilizzare in questo caso è la T DI STUDENT.

Si posizione l’errore alfa posto al 5% lungo le due code:


µ0

𝟎. 𝟎𝟐𝟓 REGIONE DI 𝟎. 𝟎𝟐𝟓


ACCETTAZIO
REGIONE DI NE REGIONE DI
RIFIUTO RIFIUTO

- 2.571 0 2.571

I valori di t definiti qui sono stati rilevati prendendo un valore di 1 – α = 0.975 e n-1 gradi di liberta,
in questo caso 5 per 6-1 = 5

Si standardizzi dunque la media:

̅− µ
X
̂S⁄√n
=

1.775− 1.8 −0.025 −0.025


0.096⁄√6
= = = 0.83
0.096⁄2.44 0.03

Questo valore è situato nella regione di accettazione dunque si accetta l’ipotesi nulla e si rifiuta
l’ipotesi alternativa, per questo motivo si può dire che la media dell’altezza della popolazione dei
figli è effettivamente pari a 1.8 m.

128

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

POTENZA DEL TEST

SI TENGA PRESENTE CHE AL CORSO E’ STATA STUDIATA LA POTENZA DEL TEST


UNICAMENTE IN MERITO ALLE DISTRIBUZIONI NORMALI (NON PER T DI STUDENT).

La potenza di un test è la misura della capacità o della sensibilità della regola di decisione o del test
di individuare la falsità di H0 o la verità di H1 e riflette la probabilità di una regola di decisione di
rilevare il rifiuto corretto dell’ipotesi nulla in circostanze diverse.

Consiste dunque nel definire la probabilità di aver accettato correttamente H0 quando H0 era vera,
oppure la probabilità di aver rifiutato correttamente H0 quando H0 era falsa.

Per spiegare il metodo di procedimento andiamo a riprendere un esercizio precedente, quello in


merito alle lampadine, per il quale era stato definito il seguente sistema di ipotesi.

H0 : µ0 = 1600 ore
H1 : µ1 < 1600 ore

Con i calcoli effettuati si è arrivati a dire che l’ipotesi H0 era da rifiutarsi. Attraverso la potenza del
test saremo in grado di definire la probabilità di aver fatto la scelta giusta, di aver quindi rifiutato
correttamente l’ipotesi nulla.
Al fine di eseguire la potenza del test dobbiamo definire un VALORE PRECISO, per l’ipotesi
alternativa. Siccome per questo sistema di ipotesi, si è definito un valore di media della
popolazione, secondo l’ipotesi alternativa, MINORE di 1600 ore, poniamo un valore a piacere che
rispecchi questa condizione (ad esempio 1500). (NOTA BENE: quando negli esercizi non è
specificato un valore definito di ipotesi alternativa, siamo costretti, per eseguire la potenza del test,
a fissarne uno a nostro piacimento).

Avremo quindi:

H0 : µ0 = 1600 ore
H1 : µ1 = 1500 ore

Supponiamo quindi che la media della popolazione, come ipotesi alternativa, sia pari a 1500, e
andiamo a calcolarci la probabilità di fare la scelta giusta.
Si disegnino quindi le due distribuzioni, una sotto ipotesi H0 e un’altra sotto ipotesi H1 . Poiché
come ipotesi alternativa abbiamo definito un valore preciso, che risulta essere minore della media
sotto ipotesi nulla, la seconda distribuzione andrà disegnata alla sinistra dell’ipotesi nulla.
µ1 = 1500 ore µ0 = 1600 ore

129

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Come per l’ipotesi H0 si definiva l’errore alfa. Anche per la seconda distribuzione definiremo un
livello di errore, che indichiamo con β (beta). Tale errore viene definito come errore di II tipo.

Siamo costretti a definire un errore anche per la distribuzione sotto ipotesi alternativa. Ricordiamo
infatti che la statistica non risulta essere una scienza certa e quindi, non avremo mai una potenza del
test pari a 1, non avremo mai quindi la completa e assoluta certezza di aver fatto la scelta giusta in
merito l’ipotesi nulla (cioè se è stata accettata o rifiutata correttamente).

Una volta definita la regione di errore alfa per la distribuzione dell’ipotesi nulla, si allunghi la linea
che definisce quest’ultima, affinché questa definisca anche una regione della seconda distribuzione.
La parte della seconda distribuzione definita in questo modo, e che viene collocata
immediatamente dopo l’errore di primo tipo α, è la regione dell’errore di secondo tipo β. In questo
modo:

µ1 = 1500 ore µ0 = 1600 ore

α β

Obiettivo dello studio della potenza del test è quello di definire la regione della seconda
distribuzione prima di β. Essendo l’area della distribuzione corrispondente all’unità questa sarà pari
a:

1 – β = POTENZA DEL TEST


Questo valore calcolato, mi darà il valore della probabilità di aver fatto la scelta giusta.

Ecco come procediamo. Si definisca prima la regione di errore per la prima distribuzione come
abbiamo fatto in sede di verifica dell’ipotesi:
µ1 µ0
β

α = 0.05

Valori Z
riferiti alla
distribuzione -1.645
𝐇𝟎
130

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Dobbiamo specificare il valore che definisca la regione di errore alfa, in questo caso -1.645.
Attraverso questo valore dobbiamo vedere quale sia il valore corrispondente di Z ma riferito alla
distribuzione µ1.

Ricordando che la formula dei valori standardizzati è la seguente:


̅− µ
X ̅− µ
X
oppure ̂S⁄√n
σ⁄√n

Per calcolare il valore di 1 – β dobbiamo calcolare il valore di media campionaria ̅ X corrispondente


alla regione di errore. Vogliamo quindi calcolare quel valore di media campionaria che se viene
standardizzato mi dia il valore oltre il quale si definisce la regione di errore (in questo caso -1.645).
̅− µ
X
= -1.645
σ ⁄√ n

Conosciamo perfettamente i valori di media della popolazione di deviazione standard campionaria e


numerosità campionaria (sempre in riferimento all’esercizio sulle lampadine) dunque procediamo a
̅:
calcolare X
̅− µ
X
= -1.645
σ ⁄√ n

̅ − 1600
X
= - 1.645
120⁄√100

Moltiplicando entrambi i membri per il denominatore 120⁄√100 e aggiungendo ad entrambi i


membri 1600, isoliamo il valore di media campionaria che ci interessa:

̅
X = 1576.48

Se si volesse provare, standardizzando questo valore di media campionaria, avremo un valore di Z


pari proprio a -1.645, per valori di media campionaria maggiori di quello definito quindi, l’ipotesi
nulla andrebbe rifiutata.

Ricordando che il nostro obiettivo è sempre quello di definire 1 – β, passiamo ora con
standardizzare il valore di media campionaria calcolato, ma secondo la NUOVA DISTRIBUZIONE
di H1 , per la quale esiste una nuova media di popolazione, che abbiamo posto a µ1 = 1500 ore.
Procedendo in questo modo troviamo il valore di Z secondo però la nuova distribuzione, oltre il
quale si trova la regione di errore del secondo tipo:

̅ − µ1
X
= Z (DISTRIBUZIONE H1 )
σ ⁄√ n

Andiamo a calcolare dunque questo valore:


̅ − µ1
X
=
σ⁄√n

1576.48− 1500
120⁄√100
= 6.37

131

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Sintetizziamo dunque tutti i valori nel grafico:

µ1 µ0 β

α = 0.05

Valori Z
riferiti alla
distribuzione
𝐇𝟎 -1.645 0
Valori Z
riferiti alla
distribuzione 0 6.37
𝐇𝟏

Dobbiamo definire necessariamente due assi di Z, perché i valori standardizzati dell’ipotesi nulla,
non sono uguali ai valori standardizzati dell’ipotesi alternativa, in quanto hanno media diversa.

Il valore 6.37, per la seconda distribuzione, legge l’area che va dalla media al valore stesso.
Riprendiamo il valore sulle tavole. Come vediamo questo valore non c’è, ma abbiamo specificato
che per valori maggiori dell’ultimo in basso a destra, si prende l’ultimo valore di area disponibile,
ovvero 0.4990. Quindi:

φ6.37 = 0.4990

Tuttavia questa è l’area corrispondente unicamente alla parte di distribuzione che va da 0 al valore
standardizzato 6.37. Vi è un’altra parte di distribuzione che non viene calcolata, tutta quella alla
sinistra della media. Sappiamo bene a quanto corrisponde il valore di una metà della distribuzione, è
pari infatti a 0.5.

µ1 µ0 β

0.

Valori Z
riferiti alla
0.5 4
9
9
0
α = 0.05

distribuzione -1.645 0
𝐇𝟎
Valori Z
riferiti alla
distribuzione 0 6.37
𝐇𝟏 132

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Possiamo dunque ora definire il valore di 1 – β. Questo sarà dato dalla somma dell’area definita dal
valore calcolato (0.4990) e dell’area alla sinistra della media della distribuzione (0.5)

1 – β = 0.5 + 0.4990 = 0.99

Esiste una probabilità pari a 0.99 (quindi molto alta) di aver operato la scelta giusta in sede di
verifica d’ipotesi, quindi di aver rifiutato correttamente l’ipotesi nulla H0 : µ0 = 1600 ore. La media
della popolazione risulta essere, con molta probabilità, effettivamente inferiore.

ESERCIZIO: Data la seguente tabella:

GRADO DI ISTRUZIONE
REDDITO LIC. MEDIA DIPLOMA LAURA
0 – 1.5 40 45 12
1.5 – 2.5 17 35 43
2.5 – 4 3 27 45
n=107

Si può affermare che il reddito medio mensile della popolazione dei diplomati sia inferiore a due
milioni? Calcolare la potenza del test con H1 = µ1= 1.73

Dobbiamo quindi eseguire una verifica delle ipotesi in quanto si vuole studiare la POPOLAZIONE
dei diplomati.

Per eseguire la verifica dell’ipotesi ci serviranno i valori di numerosità campionaria (qui pari a 107),
di media campionaria e di varianza (siccome non si conosce quella della popolazione si calcola la
varianza campionaria corretta).

Calcoliamo la media campionaria (siccome la distribuzione è in classi la modalità da moltiplicare


sarà il valore centrale), ricordando che il totale di frequenze da considerare in questo esercizio è
unicamente quello riferito ai diplomati presi in considerazione:

̅ = 0.75∗45+2∗35+3.25∗27 = 1.78
X
107

Passiamo a calcolare la varianza campionaria corretta, sempre dei diplomati intervistati:

Dev(X) = 265.92

Dev(X) 265.92
Ŝ 2 = n−1 = = 2.5
107−1

Ŝ = √2.5 = 1.58

Siccome n>30 e non si conosce la varianza della popolazione, si userà la distribuzione Normale,
questa sarà la statistica test da andare a utilizzare.

133

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Volendo verificare che la media del reddito della popolazione dei diplomati sia pari a due milioni, e
non specificando come ipotesi alternativa che essa possa essere maggiore o inferiore, impostiamo il
sistema di ipotesi come segue:

H0 : µ0 = 2 mln
H1 : µ1 ≠ 2 mln

Poniamo un livello di significatività α = 0.05 e rileviamo subito i valori Z oltre i quali si definisce la
regione di rifiuto:
µ0

𝟎. 𝟎𝟐𝟓 REGIONE DI 𝟎. 𝟎𝟐𝟓


𝟎.ACCETTAZIO
𝟒𝟕𝟓 𝟎. 𝟒𝟕𝟓
REGIONE DI NE REGIONE DI
RIFIUTO RIFIUTO

-1.96 0 1.96

Si standardizzi dunque la media campionaria:

1.78−2 −0.22 −0.22


1.58⁄√107
= = = 1.44
1.58⁄10.34 0.152

Essendo questo valore Z compreso nell’intervallo costituito da -1.96 e 1.96, trovandosi nella
regione di accettazione possiamo dire che il reddito medio percepito dalla popolazione dei
diplomati sia effettivamente di 2 milioni. Si accetta dunque l’ipotesi nulla e si rifiuta l’ipotesi
alternativa.

Attraverso la potenza del test saremo in grado di dire con quanta probabilità si è arrivati a formulare
la scelta giusta.

Come primo passo è necessario definire un valore ben definito come media alternativa che rispecchi
la condizione posta dall’ipotesi alternativa. Siccome l’ipotesi H1 richiama che la media della
popolazione può essere diversa da due milioni, ci basti definire un qualsiasi valore diverso da due
milioni, che possa quindi essere sia inferiore che superiore. È lo stesso esercizio a darci l’ipotesi
alternativa: H1 = µ1= 1.73. Definiamo quindi il sistema di ipotesi:

H0 = µ 0 = 2
H1 = µ1= 1.73

134

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si rappresentino graficamente dunque le due distribuzioni specificando sia l’errore alfa di primo
tipo, che l’errore beta di secondo tipo:
µ1 = 1.73 µ0 = 2
β

α = 0.025

Valori Z
riferiti alla
- 1.96
distribuzione
𝐇𝟎
Per giungere al valore di potenza del test, necessitiamo di quel valore di media campionaria che, se
standardizzato mi definisca proprio il limite della regione di errore “alfa”. Necessito quindi quel
valore di media campionaria che se standardizzato mi dia il valore Z pari a -1.96:
X̅− µ
𝑆̂⁄√n
= -1.96

̅− 2
X
= - 1.645
1.58⁄√107

̅ = 1.74
X

Standardizziamo dunque il valore di media campionaria così definito secondo la media della nuova
distribuzione µ1, in questo modo arriveremo ad un ulteriore valore Z ma riferito alla distribuzione
secondo l’ipotesi alternativa.
̅ − µ1
X
σ⁄√n
=
1.74−1.73
= 0.06
1.58⁄√107

Il valore sarà quindi definito come segue:


µ1 µ0
β

α = 0.05

Valori Z
riferiti alla
distribuzione -1.96 0
𝐇𝟎
Valori Z
riferiti alla
distribuzione 0 0.066
𝐇𝟏
135

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Il valore Z = 0.066, letto sulle tavole della distribuzione Z, mi conferirà l’area che va da 0 (valore
standardizzato per la media µ1) allo stesso valore 0.06. φ0.06 = 0.0239. Per quantificare 1 – β
tuttavia dobbiamo prendere in considerazione anche l’area che va da 0 a meno infinito, che è pari a
0.5. Avremo quindi che:

1 – β = 0.0239 + 0.5 = 0.5239

Esiste quindi una probabilità pari a 0.5239 di aver accettato correttamente l’ipotesi H0 .

VERIFICA DELL’IPOTESI DI UNA FREQUENZA RELATIVA

Fino ad ora si è trattato il singolo caso di verifica dell’ipotesi riguardo la media. Va da sé quindi che
l’unico caso finora trattato è stato quello in merito ad una variabile quantitativa. Possiamo allargare
l’orizzonte del campo della verifica dell’ipotesi, introducendo un’ulteriore verifica riguardo non più
la media, ma una semplice FREQUENZA RELATIVA, riferibile ad una variabile quantitativa come
ad una qualitativa.

Si consideri a titolo di esempio una popolazione le cui unità posseggono o meno una certa
caratteristica, ad esempio fumatori, non fumatori, possesso della patente o meno, ecc., ovvero le
unità statistiche possono essere classificate secondo un carattere qualitativo dicotomico (con due
unici possibili risultati). Si estrae un campione di ampiezza n e si indichi con f̂ = x/n, (x è il
numero di successi nel campione) la proporzione dei soggetti che posseggono la caratteristica in
esame, la proporzione invece dell’intera popolazione che è incognita e sempre lo sarà, sarà indicata
con p. Quello che sarà il nostro obbiettivo sarà di poter dire se, sulla base della frequenza relativa
riscontrata sul campione, l’intera popolazione riscontri una determinata proporzione p del dato in
esame.

Ad esempio, vogliamo capire quale sia la percentuale di fumatori nella popolazione italiana; si noti
a questo proposito che stiamo riscontrando, e sempre dovremo farlo, una variabile dicotomica: i
fumatori e i non fumatori. A tal fine intervistiamo a caso un numero n di persone, 50 persone ad
30
esempio, per le strade e notiamo che 30 di loro sono fumatori. Riscontriamo quindi una f̂ = =
50
0.6. Tuttavia questa è la percentuale riscontrata solo sui campioni, non sull’intera popolazione ed è
proprio quest’ultima che c’interessa. Attraverso quindi degli studi statistici si potrà affermare se,
sulla base della frequenza riscontrata sui campioni la proporzione della popolazione sia pari ad un
determinato valore (p).

Come nella precedente esposta verifica dell’ipotesi in merito alla media, ci servirà conoscere quale
sia la distribuzione di probabilità che segue una qualsivoglia variabile dicotomica. A tal proposito si
sappia che, per un’estrazione campionaria n sufficientemente grande (approssimazione valida per
n>30), la v.c. f̂ stimatore di p, la proporzione dell’intera popolazione, segue una distribuzione
normale con media p e varianza pq/n:

̂f ~ N(p, pq/n)

136

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

dove ricordiamo che con q intendiamo la probabilità di insuccesso e siccome stiamo trattando
variabili dicotomiche sarà pari a 1-p.

SI TENGA BEN PRESENTE che nelle lezioni non è stato affrontato il caso in cui n<30, quindi ci si
rifarà sempre a questa condizione!

Sappiamo quindi da queste considerazioni che lo stimatore f̂, per n sufficientemente grande segue
una semplice distribuzione normale. Possiamo ora procedere alla verifica d’ipotesi in maniera
analoga al test sulla media, con l’unica differenza che i sistemi d’ipotesi saranno i seguenti:

H0 : p = p 0 H0 : p = p 0 H0 : p = p 0
H1 : p ≠ p0 H1 : p < p0 H1 : p > p0

dove con p0 indicheremo una proporzione fissata dal ricercatore.

Analogamente al test sulla media si andrà prima di tutto a posizionare l’errore α a seconda che il
test sia bidirezionale o unidirezionale, si fisseranno le regioni d’errore e si procederà alla
standardizzazione della frequenza, centrando per la media e dividendo per lo scarto quadratico
medio. A seconda di dove si troverà il valore standardizzato si accetterà una delle due ipotesi.

ESERCIZIO: Una società multinazionale della cosmetica ha realizzato un sondaggio presso un


campione di 150 clienti, ripartiti in funzione del loro titolo di studio, ai quali ha chiesto di esprimere
la propria preferenza su un insieme di tre prodotti:

PRODOTTO
TITOLO DI STUDIO A B C
Media inferiore 46 1 3
Media superiore 2 55 7
Laurea 4 5 27
TOTALE 52 61 37

Da indagini precedenti è noto che la percentuale di coloro con un titolo di media inferiore che
preferiscono il prodotto A è uguale al 70%. Verificare che sia aumentata con un livello di
significatività del 5%.

Si tratta dunque a prima vista di un test sulla proporzione, in quanto vogliamo studiare una
frequenza di una variabile dicotomica, ovvero di coloro con un titolo di media inferiore che
preferiscono il prodotto A e di quelli che non lo preferiscono.
Prima di tutto quindi, andiamo a calcolare la frequenza relativa f̂ di quelli con un titolo di media
inferiore che preferiscono il prodotto A. Sommando per riga notiamo che il totale dei candidati che
riscontrano un titolo di media inferiore sono 46+1+3 = 50. La frequenza di coloro che preferiscono
il prodotto A sarà data semplicemente da:

x 46
f̂ = = = 0.92
n 50

137

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Questo dato rappresenta dunque la frequenza relativa calcolata sui campioni che presentano quel
dato preso in esame, ovvero il preferire il prodotto A. Ma sia ben chiaro, tale dato riveste solo la
particolarità del campione, e non di tutta la popolazione di coloro con un titolo di media inferiore,
per rispondere a questa domanda dobbiamo introdurre la verifica delle ipotesi.

Come da traccia ci è chiesto di verificare che la percentuale di coloro con un titolo di media
inferiore che preferiscono il prodotto A sia aumentata da un livello precedentemente riscontrato pari
al 70%. Tale intestazione ci permette di formulare il nostro sistema di ipotesi:

H0 : p = 0.70
H1 : p > 0.70

Una volta formulato il sistema di ipotesi chiediamoci a quale distribuzione di probabilità dobbiamo
rifarci. Come precedentemente spiegato lo stimatore f̂ di p, ovvero la percentuale della popolazione
che riscontra il dato in esame, segue, per n>30, una distribuzione normale con media p e varianza
pq/n. Ci troviamo in questa condizione essendo, in questo esercizio, il numero di campioni
intervistati 50 ovvero i soggetti intervistati con un titolo di media inferiore.
Una volta individuata la distribuzione di probabilità a cui rifarsi, la si disegni e si vada a posizionare
l’errore α in questo caso pari al 5% e come precedentemente fatto in merito al test sulla media,
iscriviamo il valore Z (perché stiamo lavorando su una normale) che delimita la regione d’errore:
p0 = 0.7

𝟎. 𝟎𝟓
REGIONE DI
ACCETTAZIONE REGIONE DI
RIFIUTO

0 1.645

Andiamo ora a standardizzare il valore riscontrato di frequenza relativa f̂ = 0.92 nella seguente
maniera:

f̂− p
= Valore standardizzato
√pq/n

Dove con p indichiamo il valore iscritto sotto il sistema di ipotesi, con q si intende il complementare
di p calcolato nella maniera:
q = 1 – p = 1 – 0.7 = 0.3

138

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

e con n indichiamo la numerosità dei campioni intervistati. In questo caso 50.

Il valore q dovrebbe far ricordare il livello di probabilità di insuccesso studiata in merito alla
distribuzione binomiale. Infatti come in quel caso, anche qui stiamo trattando eventi dicotomici e
quindi anche in questa sede si potrebbe associare ad una probabilità di “insuccesso”, ovvero di quei
campioni che non riscontrano il dato in esame, in questo caso, quelli in possesso di un titolo di
media inferiore che non preferiscono il prodotto A.

Si calcoli dunque il valore standardizzato per poi giungere alle opportune conclusioni:

0.92− 0.7
= 3.39
√0.7∗0.3/50

Tale valore riportato nel grafico vediamo che rientra nella regione d’errore, quindi si rifiuterà
l’ipotesi sotto H0 e si accetterà quella sotto H1 , la percentuale dunque della popolazione di quelli
con un titolo di studio di media inferiore che preferisce il prodotto A è effettivamente aumentata.

Poiché stiamo trattando una distribuzione normale, possiamo allargare le conclusioni della verifica
dell’ipotesi con la potenza del test. Chiediamoci dunque di calcolare la potenza del test per un
valore di p1 = 0.74. Abbiamo dunque il seguente sistema di ipotesi:

H0 : p0 = 0.70
H1 : p1 = 0.74

e ci chiediamo dunque quale sia la probabilità di avere fatto la scelta giusta in sede di verifica
d’ipotesi, ovvero di aver rifiutato correttamente l’ipotesi nulla. Disegniamo dunque in maniera del
tutto analoga alla verifica d’ipotesi sulla media le due distribuzioni normali con i propri errori:
p0 p1
β

α = 0.05

Valori Z
riferiti alla
distribuzione
𝐇𝟎 1.645

Abbiamo due diverse distribuzioni di probabilità, con medie (p) e varianze diverse (pq/n); ne segue
che avranno dunque valori standardizzati diversi. Perché si possa calcolare la potenza del test pari a
1-β, come fatto in maniera simile per il test sulla media, sarà necessario calcolare il valore di f̂ che
se standardizzato dia proprio 1.645, ovvero il valore oltre il quale incomincia la regione d’errore. Ci
serve quel valore in quanto lo stesso delimita anche un’altra regione, quella di β e quindi se verrà
poi standardizzato per l’altra distribuzione ci darà una misura dell’area che c’interessa 1-β.

139

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Procediamo al calcolo di f̂:

f̂– 0.7
= 1.645
√0.7∗0.3/50

f̂ = 0.80
Standardizziamo ora il dato secondo la distribuzione sotto la seconda ipotesi. Si faccia attenzione a
questo punto dato che standardizzando per una media p diversa, varierà anche la varianza, in quanto
se p cambia cambierà implicitamente anche q. Avremo dunque:

0.80 – 0.74
= 0.92
√0.74∗0.26/50

Sintetizziamo dunque i valori fin qui ottenuti:

p0 p1
β

α = 0.05

Valori Z
riferiti alla
distribuzione
0.92 0
𝐇𝟏
Valori Z
riferiti alla 0 1.645
distribuzione
𝐇𝟎

140

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Tuttavia se guardiamo bene, notiamo un’anomalia in questo grafico: il valore standardizzato per la
seconda distribuzione risulta essere positivo, pur trovandosi prima dello zero. È necessario dunque,
perché i segni siano appropriati, che le due distribuzioni vengano spostate:
p0 p1
β

α = 0.05

Valori Z
riferiti alla β
distribuzione
𝐇𝟏 0 0.92
Valori Z
riferiti alla
distribuzione 0 1.645
𝐇𝟎

Questo grafico rispecchia ora perfettamente l’esercizio. Come vediamo l’errore di secondo tipo β
comprende larga parte della seconda distribuzione (e solo di questa, si ricordi che anche se il grafico
può fuorviare, l’errore di secondo tipo, per definizione, si riferisce solo e unicamente alla seconda
distribuzione), infatti ricopre un’intera metà del grafico più l’area che va da 0 a 0.92. Quindi:

β = 0.5 + φ0.92 = 0.5 + 0.3186 = 0.8186

La potenza del test sarà data dunque da:

1 – β = 0.1814

Esiste dunque una piccola probabilità pari al 18.14% di aver rifiutato correttamente l’ipotesi nulla in
sede di verifica d’ipotesi. Il test risulta quindi essere poco potente.

Una piccola raccomandazione. Quando si svolgono gli esercizi sulla potenza del test, è
raccomandabile di sintetizzare SEMPRE i dati raccolti e calcolati sugli appositi grafici. Come si è
notato possono accadere casi (sempre più riscontrabili nei compiti d’esame) in cui è richiesto di
dover ridisegnare il grafico, perché si possa capire quale sia la natura di β e quindi di valutare la
natura della potenza del test. Controllare dunque che i dati calcolati siano sempre in linea con il
grafico disegnato (nel senso che i segni dei dati, positivo e negativo, siano al posto giusto, altrimenti
è necessario spostare i grafici perché si possa calcolare effettivamente β).

141

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

TEST NON PARAMETRICI

A differenza dei test parametrici, quelli non parametrici non opereranno più sotto la condizione di
distribuzione normale, inoltre si opererà sulle frequenze invece di fare il confronto tra parametri
ipotizzati sotto H0 e H1 .

L’unico test trattato nel corso è il test sul χ2 (chi quadro), lo stesso chi quadro che calcolavamo in
merito agli indici di connessione.

Lo scopo del test χ² è quello di conoscere se le frequenze osservate differiscono significativamente


dalle frequenze teoriche, ovvero verificare se ci sia indipendenza o interdipendenza tra le righe e le
colonne.

Si prenda quindi come IPOTESI NULLA che le righe e le colonne siano effettivamente
INDIPENDENTI. Scriviamo dunque:

H0 : pij = pi. p.j


ni. ∙ n
.j
Se si presta attenzione si può notare che questa formula è simile a nij = . La formula ha qui lo
n
stesso significato (manca solo n poiché in questo caso corrisponderebbe a 1).

Come IPOTESI ALTERNATIVA si considera che le righe e le colonne sono invece


INTERDIPENDENTI tra loro:

H1 : pij ≠ pi. p.j

Per verificare il sistema di ipotesi così costruito (e si badi di specificarlo sempre) si utilizza la
distribuzione “chi – quadrato”. L’indice di connessione χ2 (chi-qudro) segue infatti una
distribuzione “chi quadrato” con “g” GRADI DI LIBERTA’.

𝛘𝟐 ~ χ2g
g (gradi di libertà) = (r-1)(c-1)

I gradi di libertà sono definiti dal prodotto del numero delle righe per quello delle colonne,
entrambe diminuite di un’unità. Per cui se avessi una distribuzione doppia 3 righe per 5 colonne, i
gradi di libertà sarebbero dati da:

(numero di righe – 1)(numero di colonne – 1) =

(3 – 1)(5 – 1) = 8

Come per le verifiche delle ipotesi precedenti, anche per questo tipo bisogna costituire un livello di
significatività α, che viene posta sempre nella regione sinistra del grafico. Per valori di χ2
all’interno della regione critica, si rifiuterà Ho e si accetterà H1, il che sta a dire che le righe e le
colonne sono in relazione.

142

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

REGIONE DI
α
ACCETTAZI
ONE
REGIONE DI
RIFIUTO

χ2

Il valore χ2 definito nel grafico, oltre il quale incomincerà la regione di rifiuto per l’ipotesi
H0 (ipotesi di indipendenza), viene calcolato cercando nelle tavole della distribuzione “chi-
quadrato”, il valore α (NON 1 – α) lungo le colonne, mentre lungo le righe si leggono i gradi di
libertà calcolati nel modo precedentemente esposto.

Si faccia caso, poi, che la distribuzione chi-quadrato per valori inferiori a 0 non è definita, il motivo
è stato precedentemente spiegato quando abbiamo introdotto le principali distribuzioni di
probabilità. Non si disegni mai la distribuzione chi quadrato, nemmeno in una sua parte, come una
funzione negativa. Questo risulterebbe essere un errore molto grave.

ESERCIZIO: Si consideri una tabella 4*5 (righe * colonne) e si verifichi l’esistenza di una
relazione al 5% significativa tra le due variabili avendo a disposizione il seguente valore di chi
quadro:

χ2 = 45
Il termine VERIFICARE l’esistenza di una relazione ci porta a eseguire il test del chi – quadro.

Si è detto che i gradi di libertà sono dati dal prodotto del numero di righe per il numero di colonne,
entrambe diminuite di un’unità. Quindi:

(4-1)(5-1) = 12

g = 12

Definiamo per prima cosa il sistema delle ipotesi da assumere nel test di chi-quadro:

143

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

H0 : pij = pi. p.j


H1 : pij ≠ pi. p.j

Si disegni ora la distribuzione chi-quadro che assume questa forma.

α =0.05
REGIONE DI
ACCETTAZI
ONE
REGIONE DI
RIFIUTO

21.02

Dopo aver definito α nella coda sinistra si ricerchi il valore nella tabella del χ2 alla fine del libro in
corrispondenza di α = 0.05 (il livello di significatività) e numero di gradi di libertà (n) = 12.
SI FACCIA DUNQUE ATTENZIONE: Nella tabella del chi-quadro non leggiamo più il valore di
1 – α ma SOLO α.

Si arriva ad un valore pari a 21.02

Poiché il nostro χ2 =45 è maggiore del valore trovato, e quindi dentro la regione critica, si rifiuta
l’ipotesi H0 , e si accetti H1 , vale a dire che esiste una relazione tra le righe e le colonne.

144

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

PROVA D’ESAME 24/02/2012 (D’AMBRA)


ESERCIZIO 1

Data la seguente tabella (Colore degli occhi)(Colore dei capelli)

COLORE DEI CAPELLI TOTALI


COLORE 60 30 50 140
DEGLI 40 50 0 90
OCCHI 15 60 0 75
115 140 50 305

- Verificare l’esistenza di una relazione significativa tra il colore degli occhi e dei capelli.
- Descrivere statisticamente le due variabili e dire qual è la più eterogenea.

52.78 64.26 22.95


33.93 41.31 14.75
28.27 34.42 12.29

52.12 1173.7 731.7


36.84 75.51 217.56
176.09 654.3 151.04

0.98 18.26 31.88


1.08 1.82 17.74
6.22 19 12.82

χ2 = 106.26

106.26
ψ2 = = 0.34
305

Max ψ2 = 2

0.34
φ2 = = 0.17
2

145

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Si esegua il test del chi – quadro.

H0 : pij = pi. p.j


H1 : pij ≠ pi. p.j

α =0.05
REGIONE
DI
ACCETTAZ
IONE
REGIONE DI
RIFIUTO

9.48

g.l = (r-1)(c-1) = 2*2 = 4

Il valore di chi – quadro risulta essere all’interno della regione di rifiuto. Si accetta quindi l’ipotesi
alternativa e si rifiuta l’ipotesi nulla, questo significa che esiste interdipendenza tra la variabile delle
colonne e quella delle righe.

Descrivere statisticamente le due variabili:

𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢
Marrone 140 0.45 0.45
Verde 90 0.29 0.74
Azzurro 75 0.24 1
n=305

La moda è “marrone” poiché ha il maggior numero di frequenze.

IE = 1 – (0.2025 + 0.0841 + 0.0576) = 1 – 0.3442 = 0.6558

0.6558
IEk = = 0.99
0.66

La distribuzione è molto eterogenea.

146

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

𝐱𝐢 𝐧𝐢 𝐟𝐢 𝐅𝐢
Castani 115 0.37 0.37
Biondi 140 0.45 0.82
Rossi 50 0.16 1
n=305

La moda è biondi poiché ha il maggior numero di frequenze.

IE = 1 – (0.1369 + 0.2025 + 0.0256) = 1 – 0.365 = 0.635

0.635
IEk = = 0.96
0.66

La distribuzione è molto eterogenea.

Paragonando i due indici di eterogeneità normalizzati, possiamo dire che la distribuzione più
eterogenea è la prima, quella che descrive il colore degli occhi.

ESERCIZIO 2

Data la seguente tabella:

PREZZO (Y) 19 22 18 22 25 25
CV 60 70 75 85 90 110

- Calcolare la retta di regressione.


- Calcolare il prezzo di un’automobile, in base all’equazione della retta di regressione, la cui
potenza è pari a 150 CV.
- Calcolare la devianza residua.

131
y̅ = = 21.8
6

490
x̅ = = 81.6
6

(𝐱 𝐢 − 𝐱̅) (𝐱 𝐢 − 𝐱̅)𝟐 (𝐲𝐢 − 𝐲̅) (𝐲𝐢 − 𝐲̅)𝟐 (𝐱 𝐢 − 𝐱̅) (𝐲𝐢 − 𝐲̅)


-21.6 466.56 -2.8 7.84 60.84
-11.6 134.56 0.2 0.04 -2.32
-6.6 43.56 -3.8 14.44 25.08
3.4 11.56 0.2 0.04 0.68
8.4 70.56 3.2 10.24 26.88
28.4 806.56 3.2 10.24 90.88
DEV(X) = 1533.36 DEV(Y) = 42.84 COD(XY) = 201.65

147

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

201.68
b1 = = 0.13
1533.36

b0 = 21.8 – 0.13(81.6) = 11.19

y = 11.19 + 0.13X

𝐲̂ (𝐲̂ − 𝐲̅)𝟐 = Dev(Reg)


18.99 7.89
20.99 2.28
20.94 0.73
22.24 0.19
22.89 1.18
25.49 13.61
Dev(Reg) = 25.88

25.88
R2 = = 0.60
42.84

Il modello spiega unicamente il 60% della variabilità della Y.


201.68
r= = 0.78
√1533.36∗42.84

Dev(Y) = Dev(Reg) + Dev(Res)

42.84 = 25.88 + Dev(Res)

Dev(Res) = 16.96

Calcolare il prezzo di un’automobile la cui potenza è pari a 150 CV:

y = 11.19 + 0.13(150) = 30.69

ESERCIZIO 3

Si estrae un campione di 8 confezioni di detersivo in polvere da una grossa produzione. I pesi in


grammi delle confezioni sono: 1998.5; 2011.5; 2000.4; 2007.6; 1999.9; 2001.3; 2005.8; 2002.4.

Assumendo che la popolazione da cui proviene il campione abbia distribuzione normale, verificare
se al livello di significatività del 5%, si può affermare che il peso medio delle confezioni è maggiore
di 2000gr.

n=8
x̅ = 2003.425
α = 5%

148

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

H0 : µ0 = 2000
H1 : µ1 > 2000

Essendo n<30 e non avendo la varianza della popolazione si usa la statistica t di Student.

Dev(X) = 24.25 + 9.15 + 12.42 + 5.64 + 65.2 + 17.43 + 4.51 + 1.05 = 139.65

139.65
Ŝ 2 = = 19.95
7

Ŝ = √19.95 = 4.46
µ0

REGIONE DI 𝟎. 𝟎𝟓
ACCETTAZIONE
REGIONE DI
RIFIUTO

0 1.895

2003.425−2000
t= = 2.17
4.46/√8

Si accetta dunque l’ipotesi H1 e si rifiuta H0

ESERCIZIO 4

Un giocatore di pallacanestro ha eseguito migliaia di tiri liberi con una percentuale di canestri pari a
80%. In una serie di 9 tentativi, qual è la probabilità che faccia:
- Almeno 5 canestri

p = 0.8
q = 0.2
n=9
x=5

P(X=5) = 0.065
P(X=6) = 0.176
P(X=7) = 0.3020
P(X=8) = 0.3020
P(X=9) = 0.1342
149

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

P(X≥ 5) = 0.065 + 0.1762 + 0.3020 + 0.3020 + 0.1342 = 0.9794


- Al Massimo 5 canestri:

P(X≤ 5) = 1 – 0.9794 = 0.02 + 0.065 = 0.085

Si riaggiunge la P(X=5) = 0.065 in quanto calcolare la probabilità di al massimo 5 canestri, richiede


includere anche il valore X = 5.

- Meno di 5 canestri

P(X< 5) = 1 – 0.9794 = 0.02

150

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

PROVA D’ESAME 09/07/2012 (LOMBARDO)

ESERCIZIO A

Nella tabella seguente è data la distribuzione congiunta secondo il Sesso, e il Tempo occorso per
trovare lavoro dopo la laurea:

TEMPO (mesi)
SESSO 6 12 18 24 TOTALE
M 39 25 11 19 94
F 19 10 3 9 41
TOTALE 58 35 14 28 135

a) Rappresentare la variabile Tempo con un Box – plot


b) Da indagini precedenti è noto che la percentuale delle femmine che trovano lavoro è uguale
al 30% Verificare che tale percentuale sia aumentata con un livello di significatività del 5%
c) Calcolare la potenza del test per il valore di p1 = 30%

A)

TEMPO
𝐱𝐈 𝐧𝐈 𝐟𝐈 𝐅𝐈
6 58 0.42 0.42 Q1
12 35 0.25 0.67 Med
18 14 0.10 0.77 Q3
24 28 0.20 1
n=135

Sintetizziamo quindi i vari indici di posizione nel Box-Plot:

6 12 18 24

B)

H0 : p = 0.3
H1 : p > 0.3
41
f̂ = = 0.303
135

f̂− p 0.303− 0.3


= = 0.076
√pq/n √0.3∗0.7/135

151

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

p0 = 0.3

𝟎. 𝟎𝟓
REGIONE DI
ACCETTAZIONE REGIONE DI
RIFIUTO

1 1.645

Il valore standardizzato si trova nella regione d’accettazione, si accetterà dunque la condizione sotto
ipotesi nulla, la percentuale femminile di chi trova lavoro è presumibilmente pari al 30%

C)

f̂– 0.3
= 1.645
√0.3∗0.7/135

f̂ = 0.36

H0 : p0 = 0.3
H1 : p1 = 0.3

0.36 – 0.3
= 1.645
√0.3∗0.7/135

Non è un caso che siamo arrivati allo stesso valore standardizzato. Si noti infatti che le due
distribuzioni che stiamo comparando sono identiche, totalmente identiche, con stessa media (0.3) e
stessa varianza (0.3*0.7/135). Questo strano caso, appositamente voluto dalla professoressa,
culminerà quindi in questo grafico un po’ particolare:
p1
p0

β
α
0 1.645

152

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Il valore di 1 – β in questo caso particolare, sarà quindi uguale al valore di α. La potenza del test è
pari al 5%

ESERCIZIO B

Il direttore di un call center vuole verificare se per uno specifico servizio di chiamata la durata della
telefonata è linearmente dipendente dal numero di persone coinvolte nel portare a termine il servizio
richiesto. A tal fine vengono osservate a caso 4 chiamate e per ognuna di queste viene misurata la
durata in minuti (Y) e il numero di persone richiesto per svolgere il servizio (X).

X Y
1 40
2 70
3 90
6 200

1) Disegnare il diagramma di dispersione dei dati e trovare la retta dei minimi quadrati
2) Quanta parte della variabilità totale è spiegata dal modello e quanto dai residui?

x̅ = 3
y̅ = 100

(𝐱 𝐢 − 𝐱̅) (𝐱 𝐢 − 𝐱̅)𝟐 (𝐲𝐢 − 𝐲̅) (𝐲𝐢 − 𝐲̅)𝟐 (𝐱 𝐢 − 𝐱̅) (𝐲𝐢 − 𝐲̅)


-2 4 -60 3600 120
-1 1 -30 900 30
0 0 -10 100 0
3 9 100 10000 300
Dev(X) = 14 Dev(Y) = 14600 Cod(XY) = 450

450
b1 = = 32.14
14

b0 = 100 – 32.14(3) = 3.57

y = 3.57 + 32.14X

𝐲̂ (𝐲̂ − 𝐲̅)𝟐 = Dev(Reg)


35.71 4133.20
67.85 1033.62
99.9 0.01
196.41 9294.88
Dev(Reg) = 14461.71

14461.71
R2 = = 0.99
14600

La parte della variabilità totale spiegata dal modello è pari al 99%, il restante 1% è spiegata dai
residui.
153

Downloaded by Francesca Maisto (francescamais22@gmail.com)


lOMoARcPSD|7763213

Il grafico di dispersione dati è il seguente:

Diagramma di dispersione
250

200

150

100

50

0
0 1 2 3 4 5 6 7

ESERCIZIO C

Sia X una variabile casuale Normale con media 3.5 e deviazione standard 0.1. Determinare il valore
della costante a tale che P(3.5 – a ≤ X ≤ 3.5 + a) = 0.95

3.5 – a 3.5 3.5 + a


Essendo da traccia l’area tra 3.5 – a e 3.5 + a pari a 0.95, ne segue che l’area alle code deve essere
pari a 0.05, per poter raggiungere l’unità. Quindi dividendo tale unità in maniera simmetrica alle
due code, avremo che i valori standardizzati riferiti ai valori 3.5 ± 𝑎 saranno ±1.96. Avendo tale
uguaglianza possiamo arrivare a calcolare la costante a.
3.5 ± 𝑎 − 3.5
= 1.96
0.1

a = ± 0.196

154

Downloaded by Francesca Maisto (francescamais22@gmail.com)

Potrebbero piacerti anche