Sei sulla pagina 1di 55

so

ki
oo
eb
is
Fondamenti di
Statistica Th

Petracca Francesco Luigi

Seconda Parte
ma
by
ed
own
PETRACCA FRANCESCO LUIGI

k is
Statistica Inferenziale

boo
se
Thi

“L’inferenza è un processo d’azzardo e


l’inferenza viene misurata in termini
probabilistici”

“Il calcolo delle probabilità è lo strumento per


fare inferenza sulla Popolazione oggetto di
indagine”

Petracca Francesco L.
This
Quando parliamo statistica inferenziale facciamo riferimento a
metodi che ci consentono di trarre conclusioni su una

ebo
popolazione in base a risultati ottenuti su un campione. Si
tratta di stimare le caratteristiche della popolazione, note

ok
anche come “parametri” e verificare le ipotesi. Dobbiamo
is ow
analizzare le caratteristiche del campione note anche come
“statistiche” e le rispettive distribuzioni. Ricordiamo che i
ned

parametri della popolazione che non conosciamo sono “fissi”


(media, varianza, proporzione, coefficiente di correlazione,
coefficiente di regressione), mentre le statistiche
b y

(rappresentano stime dei parametri: media, varianza,


m

proporzione, coefficiente di correlazione, coefficiente di


assim

regressione) variano da campione a campione se pensiamo che


detta “N” la dimensione della popolazione(n° di unità
statistiche), la dimensione del campione “n” con n<N può
.mon o

determinare con il calcolo combinatorio vari campioni aventi


dimensione “n”.
do

Spazio dei campioni di dimensione n=2


hot

Popolazione di dimensione N=5


mail

C1
.it 22
02

C3
C2
0 1

Parametri: σ2, μ,…….. Per ogni campione:


1 7

statistiche: σ2campione,
-02

μcampione,……..
0380 02-

Petracca Francesco L.
68- -52
Spesso è consuetudine indicare i parametri della popolazione e le
statistiche dei campioni con il seguente simbolismo:

Popolazione Campione

caratteristiche parametri statistiche

media μ

varianza σ2 s2
This ebook is owned by massimo.m

Deviazione standard σ s

proporzione φ p

Nel testo l’autore utilizzerà anche i seguenti simboli: σpopolazione,


μpoplazione,.. σcampione, μcampione,.., mentre per quanto riguarda il calcolo
combinatorio e delle probabilità si invita il lettore a consultare il
volume dello stesso autore “Calcolo Combinatorio e delle
Probabilità” edito dalla stessa casa editrice. Naturalmente sono
considerati prerequisiti per la comprensione dell’inferenza statistica
i seguenti:

 Primi elementi di probabilità e statistica


 Nozioni di calcolo combinatorio
 Rappresentazione di punti e rette in un piano cartesiano
 Concetto di distribuzione di probabilità
on

 Conoscenza della distribuzione normale e delle sue


do hotmail.it 2202

caratteristiche

Petracca Francesco L.
02-03
17-02
01
STATISTICA

2
INFERENZIALE

0
il. it 22
a
hotm
ndo
Si fanno rilevazioni
solo su una parte
o
o.m
della popolazione
mstatistica detta
Campione
ss i
ma y
db
o wne

Si utilizza un procedimento
is

di inferenza:
ok

dai dati relativi al campione


bo

(statistiche) si ricavano i
parametri della popolazione
is eTh

Petracca Francesco L.
80-5
-0202-03
Fondamenti di Statistica
2020117
PETRACCA FRANCESCO LUIGI

Perché studiare i
tmail.it 2

Campioni?
ondo ho

Le indagini statistiche comportano


un costo che è funzione del numero
di unità statistiche da analizzare
assimo.m

Potrebbe non essere tecnicamente


possibile analizzare tutte le unità
ned by m

statistiche
ok is ow

Un’ indagine campionaria potrebbe


essere più accurata di un’indagine
riferita alla popolazione
This ebo

Petracca Francesco L.
Presentazione

La diffusione del ragionamento statistico è indispensabile per


accompagnare le giovani generazioni a possedere la “cassetta degli
attrezzi” necessaria per una lettura “quantitativa” della società, in
un mondo complesso di dati. Oggi si chiede ai giovani di saper
interpretare, generalizzare, scegliere tra gli strumenti più adeguati
per analizzare un fenomeno. In questo testo l’autore in continuità
con il primo volume affronta la statistica inferenziale
accompagnando il lettore ad acquisire quel ragionamento che
m y consente di comprendere il concetto di inferenza passando dalle
db e osservazioni di un campione alla stima dei parametri di una
n
popolazione. Il lettore potrà comprendere come il calcolo delle
ow is
probabilità si presenta uno strumento necessario per valutare la
k
oo
validità e la veridicità delle informazioni che si traggono dall’analisi
b e
his
del campione. Il testo presenta numerose mappe, grafici e diagrammi
T
esemplificativi che accompagnano il lettore ad un apprendimento
iniziale più intuitivo formalizzato solo in una seconda fase. Sono
propedeutici per la lettura del libro i testi dello stesso autore “Calcolo
Combinatorio e delle Probabilità” e “Fondamenti di Statistica I°
parte” al fine chiarire numerosi aspetti che il docente non ha
approfondito nel libro per non appesantire la trattazione.

Petracca Francesco L.
Indice
Introduzione.……….………………………………………………………………..……….2
1.0 Inferenza statistica…………………………………….………………………………3
1.1 Il Campionamento…..…..………………………………….…………………….….5
1.2 Il Campionamento e il calcolo delle Probabilità…….……………………5
1.3 Stima dei parametri……………………………………..…..……..………………..9
1.4 Lo Spazio campionario……………………………………….………………….…..9
1.5 Calcolo dei parametri μ e σ2 di un campione …………..………………12
1.6 Teoremi…………………………………………………………..………………………14
2.0 Dalle statistiche del campione ai parametri della popolazione …16
2.1 Stima intervallare_1.……………………………………………………….………18
2.2 La distribuzione di Gauss............................................................24
3.0 Stima intervallare_2..............................................................……27
3.1 Considerazioni sulla stima puntuale e intervallare ..….…………… 30
3.2 Test dell’Ipotesi ………………..……..................................................31
3.3 Fasi operative nel Test d’Ipotesi…..……………………………………......32
3.4 La distribuzione T di Student……………………………………………….….39
3.5 Metodi di Campionamento……………………………………………….…..40
Glossario
Bibliografia

ed
own
is
o k
e bo
1 s
i
Th
Petracca Francesco L.
is
Th
Introduzione

Quando parliamo di statistica inferenziale facciamo riferimento al


ragionamento “induttivo” attraverso il quale si inducono le
caratteristiche della “popolazione” note come parametri, partendo
dall’osservazione di un sottoinsieme della popolazione chiamato
“campione” le cui caratteristiche sono note come statistiche. La
scelta del campione avviene di solito in modo casuale o aleatorio. Se
pensiamo al calcolo delle probabilità la statistica inferenziale segue
un ragionamento inverso ad esso, basti pensare che se abbiamo
un’urna formata da 3 palline rosse e 7 bianche e siamo interessati a

2
Petracca Francesco L.
.it
ail
tm
ho
do
calcolare la probabilità di estrarre una pallina rossa, essa è data da

on
o.m
𝐧° 𝐜𝐚𝐬𝐨 𝐟𝐚𝐯𝐨𝐫𝐞𝐯𝐨𝐥𝐢 𝟑
𝒑= = = 𝟎, 𝟑𝟎 = 𝟑𝟎%
𝐧° 𝐜𝐚𝐬𝐢 𝐩𝐨𝐬𝐬𝐢𝐛𝐢𝐥𝐢 𝟏𝟎

sim
as
ym
db
e
wn
so
ki
oo
Viceversa se abbiamo un’urna di cui non conosciamo la composizione
eb

e siamo interessati a determinarla partendo da una estrazione di “n”


is
Th

palline di cui si conosce il colore, in questo caso si tratta di “inferire”


la composizione dell’urna.

1.0 Inferenza statistica


Il motivo che ci porta a seguire l’induzione statistica consiste nel
fatto che solo in alcuni casi ci troviamo ad operare con l’intera
popolazione per valutare le caratteristiche (parametri), mentre è
solito stimarle ricorrendo a dei campioni di cui si conoscono le
3
Petracca Francesco L.
caratteristiche (statistiche). Con la statistica inferenziale si verifica
“una ipotesi” formulata in partenza, relativa alle caratteristiche
”parametri” della popolazione e quindi nel valutare con il calcolo
delle probabilità quei risultati nella popolazione se l’ipotesi fosse
vera. Per fare ciò il campione deve essere rappresentativo della
popolazione da cui si estrae. In questo testo per accompagnare il
lettore ad una comprensione chiara dell’inferenza faremo
riferimento al campionamento costituito dalla scelta casuale di un
numero “n” di soggetti della popolazione, ossia utilizzeremo il
“campionamento casuale semplice” in cui tutti gli individui della
popolazione hanno uguale probabilità di essere inclusi nel campione.

o
sim
Campione
as
estratto m
by
e d
own
inferenza is
o k
Caratteristiche:
parametri ebo Caratteristiche:
statistiche
s
T hi

4
Petracca Francesco L.
1.1 Il Campionamento
Esistono vari metodi di campionamento ma nel testo ci riferiamo al
campionamento casule: le unità statistiche che entrano a far parte
della popolazione sono estratte casualmente dalla popolazione
oggetto di studio. In particolare il campionamento diventa casuale
020 semplice se le estrazioni delle unità statistiche dalla popolazione
a i l .it 22
tm sono indipendenti. Le condizioni che si devono verificare per
ho
o n do
estrazioni indipendenti sono due:
o. m
sim as
 by m
Con una popolazione finita le estrazioni devono essere senza
ed n
reinserimento is ow
ook eb
 Se la popolazione è infinita o molto più grande del campione
This
allora si possono considerare estrazioni con reinserimento o
senza reinserimento.

1.2 Il campionamento e il calcolo delle probabilità

5
Petracca Francesco L.
Se pensiamo di avere una popolazione formata per esempio da 4
unità statistiche e vogliamo estrarre senza reinserimento tutti i
possibili campioni di dimensione 2, si ha il seguente schema:

C Popolazione con
A dimensione N=4
D B

unità statistica campione

A, B A, C A, D B, C B, D C, D

N° 6 campioni di dimensione n=2 estratti dalla popolazione di N=4


unità
Quindi dal grafico possiamo dire che estraendo a sorte un campione
di dimensione 2 abbiamo la possibilità di estrarre uno dei 6 possibili
campioni rappresentati. Ogni campione estratto ha la probabilità
𝐧° 𝐜𝐚𝐬𝐢 𝐟𝐚𝐯𝐨𝐫𝐞𝐯𝐨𝐥𝐢 𝟏
𝒑= = e quindi possiamo pensare che per ogni
𝐧° 𝐜𝐚𝐬𝐢 𝐩𝐨𝐬𝐬𝐢𝐛𝐢𝐥𝐢 𝟔
campione estratto possa essere definita anche una media detta
This e

𝐀 𝐁 𝐀 𝐂
media campionaria: 𝝁𝟏 = ; 𝝁𝟐 = . . . .. ; tutto questo ci fa
𝟐 𝟐
pensare ad una variabile aleatoria X che per ogni campione estratto
assume un valore 𝝁𝟏 , 𝝁𝟐 , … con probabilità 𝒑𝟏 , 𝒑𝟐 , 𝒑𝟑 .. ;
bo

naturalmente dobbiamo ricordare come riportato nel volume dello


o

stesso autore “Calcolo Combinatorio e delle Probabilità” che


k

possiamo avere variabili aleatorie discrete o continue.


is owned
b y

6
m

Petracca Francesco L.
o assim
z
807
7tn
𝐩 𝟔

68-
Essendo vera la condizione ∑𝐩𝐢 = 𝟏 possiamo individuare la variabile
𝐩 𝟏

-52
aleatoria discreta X

380
_ 𝝁𝟏 𝝁𝟐 𝝁𝟑
𝐗=

2-0
𝐩𝟏 𝐩𝟐 𝐩𝟑

020
Quella rappresentata è una distribuzione della media campionaria
_

17-
𝐗 (variabile aleatoria) e quindi possiamo determinare la media e la
_

201
deviazione standard 𝝁𝐗_ , 𝝈𝐗_ di 𝐗 . Nella pratica non si prendono in

220
considerazione tutti i possibili campioni estratti dalla popolazione ma
solo un campione e si determina per il campione in esame la media

il.it
estendendola per inferenza alla media della popolazione da cui il
ma
campione è stato estratto. Si tratta di una stima della media vera
hot

della popolazione e alle domande se quel valore e affetto da errore o


ndo

se l’errore è diverso da campione a campione ci viene in aiuto il


.mo

calcolo delle probabilità.


mo

Possiamo schematizzare quanto detto con il seguente diagramma a


ssi

blocchi:
ma
by
ned
ow
k is
boo

7
is e

Petracca Francesco L.
Th
Popolazione di 4 unità statistiche (dimensione N=4)

B
D
A
C

parametri: 𝝁 , 𝝈
Spazio dei campioni di dimensione n=2

A, D 𝝁𝟐
𝝁𝟏 A, B 𝒑𝟐
𝒑𝟏
B, D
A, C
C, D
B, C

statistiche: 𝝁𝐗 , 𝝈𝐗

This e
Nella pratica il procedimento di inferenza statistica si effettua con la
book i
s owne
scelta di un campione:
𝑝𝑜𝑝𝑜𝑙𝑎𝑧𝑖𝑜𝑛𝑒

𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑒
C, D

Inferenza 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐ℎ𝑒: 𝝁𝐗 , 𝝈𝐗
𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑖: 𝝁 , 𝝈

8
Petracca Francesco L.
1.3 Stima dei parametri
Per rispondere alle seguenti domande che formuliamo una volta
determinati i valori 𝝁𝐗 , 𝝈𝐗 del campione casuale preso in esame

 Qual è l’errore che si commette nella scelta di 𝝁𝐗 , 𝝈𝐗 del


campione assumendoli come parametri della popolazione?
 L’errore è uguale per qualunque campione scelto?

è necessario tenere presenti i tre principi generali:

1. Si vuole stimare il vero valore dei “parametri” ignoti della


popolazione in base alle “statistiche” ottenute dal
campione scelto e capire quanto accurata è la stima
proposta (si parla di Stima Puntuale)
b
d
ne

2. Si vuole determinare una serie di valori validi per i


o w

“parametri” ignoti della popolazione (si parla di Stima


s

Intervallare)
k i
o
ebo
s

3. Si formula un’ipotesi sul vero valore dei “parametri “


i
Th

ignoti della popolazione e si verificare se tale ipotesi è


vera o no in base alle osservazioni fatte sui campioni ( si
parla di Verifica di Ipotesi)

1.4 Lo spazio campionario


Un metodo semplice per operare il campionamento casuale semplice
consiste nel numerare tutte le unità statistiche della popolazione,
successivamente mettere in un’urna tante palline numerate, uguali
tra loro ed equivalenti alle unità statistiche della popolazione e

9
Petracca Francesco L.
procedere successivamente al sorteggio dall’urna per effettuare il
campionamento.
Formando lo spazio dei campioni con il campionamento casuale
semplice si possono presentare due casi:
 Che le unità statistiche estratte siano rimesse nell’universo
statistico (estrazione bernulliana o con ripetizione)
 Che le unità statistiche estratte non siano rimesse
nell’universo statistico (estrazione in blocco).

A questo punto è importante ricordare la teoria del conteggio. In


presenza di “n” elementi da raggruppare a k a K dobbiamo tenere
presente:
 Lo schema di estrazione: senza reimmissione, con
reimmissione
0 -
17

 L’ordine con cui si verificano gli eventi


1 0
02

Esempio_1: supponiamo di avere un’urna con 10 numeri e di doverne


2 2

estrarre 3 senza reintroduzione contando l’ordine degli elementi:


l.it
ai

Il risultato dei possibili raggruppamenti è 10x9x8=720


tm

raggruppamenti, tenedo conto che il primo numero lo posso


ho

scegliere in 10 modi, il secondo numero in 9 modi e il terzo numero


do

in 8 modi;è equivalente a scrivere :


on

𝟏𝟎!
N°raggruppamenti= (𝟏𝟎 = 𝟏𝟎 ∙ 𝟗 ∙ 𝟖 = 𝟕𝟐𝟎
m

𝟑)!
o.
sim

Esempio_2: supponiamo di avere un’urna con 10 numeri e di doverne


estrarre 3 con reintroduzione contando l’ordine degli elementi.
a s
m

In questo secondo caso si ha che il numero di raggruppamenti che si


by

ottiene contando l’ordine è: 10x10x10=1000 in quanto con la


d e

reintroduzione degli elementi ciascuna estrazione è indipendente


w n

dalle altre e quindi il primo numero lo posso sciegliere in 10 modi, il


o

secondo numero in 10 modi e il terzo numero in 10 modi.


is
k o

10
bo

Petracca Francesco L.
e
s
hi T
Esempio_3: supponiamo di avere un’urna con 10 numeri e di doverne
estrarre 3 senza reintroduzione non contando l’ordine degli elementi.

Sappiamo che se l’estrazione avviene senza ripetizione e si tiene


𝟏𝟎!
conto dell’ordine si hanno (𝟏𝟎
= 𝟏𝟎𝒙𝟗𝒙𝟖 = 𝟕𝟐𝟎
𝟑)!
raggruppamenti, in questo caso non contando l’ordine consideriamo
due raggruppamenti che si distinguono per l’ordine come lo stesso
raggruppamento; ricordiamo che con n elementi e raggruppamenti
di K elementi, si considera che k! rappresenta il numero totale di
raggruppamenti in cui conta l’ordine.
In questo caso si dovrà dividere 720 per 3! per eliminare la ripetizione
di elementi che differiscono solo per l’ordine eliminando così le
ridondanze:
𝐧! 𝐧
= = 𝒄𝒐𝒆𝒇𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒃𝒊𝒏𝒐𝒎𝒊𝒂𝒍𝒆
𝐤! · (𝐧 − 𝐤)! 𝐤

senza reimmissione con reimmissione

ordinati 𝐧! 𝒏𝐤
(𝐧 − 𝐤)!

Non ordinati 𝐧 𝐧+𝐤−𝟏


𝐤 𝐤

Th
is
eb
oo
ki
so
wn
ed
by
ma
11 ss
Petracca Francesco L. im
o.m
1.5 Calcolo dei parametri μ e σ2 di un campione
Supponiamo di avere una popolazione di 4 elementi o unità
statistiche 3, 7, 14, 35.

popolazione

3 35

7 14

Th
Per il calcolo della media 𝝁 e della varianza 𝝈𝟐 della popolazione si
is
ha: eb
oo
𝟑 + 𝟕 + 𝟏𝟒 + 𝟑𝟓 k
𝝁𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞 = is= 𝟏𝟒, 𝟕𝟓
𝟒 ow
(3 − 14,75) + (7 − 14,75) + (14 − 14,75) + (35 − 14,75)
ne
𝜎 = d
by 4
= 152,18 m
as
Se facciamo riferimento al campione possiamo pensare di estrarre il
si
campione con estrazione casuale semplice, mettendo in un’urna 4
m
o.
palline numerate con i numeri 3,7,14,35. Volendo realizzare uno
m
spazio campione di dimensione n=2 possiamo pensare di estrarre le
on
do
palline senza reimmissione. È evidente che il numero di campioni con
ho 𝐍! 𝐍
tm n=2 è dato dalla formula della combinazione semplice =
ai 𝐤!·(𝐧 𝐤)! 𝐤
Con N=4 3 k=2

𝟒!
= 𝟔 (numero di raggruppamenti con k=2)
𝟐!(𝟒 𝟐)!

12
Petracca Francesco L.
T

Lo spazio dei campioni di dimensione n=2 è:

Spazio dei campioni con


dimensione n=2
(3,7)

(35,14)
(3,14) (7,14)

(3,35)
(7,35)

Per ogni campione calcoliamo la variabile casuale


_
𝐗 𝑑𝑒𝑙𝑙𝑒 𝑚𝑒𝑑𝑖𝑒 𝑐𝑎𝑚𝑝𝑖𝑜𝑛𝑎𝑟𝑖𝑒.
_
𝐗 5 8,5 10,5 19 21 24,5

Probabilità 𝟏 𝟏 𝟏 𝟏 𝟏 𝟏
𝟔 𝟔 𝟔 𝟔 𝟔 𝟔

𝟏 𝟏 𝟏 𝟏 𝟏 𝟏
𝝁𝐗_ = 𝟓 · + 𝟖, 𝟓 + 𝟏𝟎, 𝟓 · + 𝟏𝟗 · + 𝟐𝟏 · + 𝟐𝟒, 𝟓 · =14,75
𝟔 𝟔 𝟔 𝟔 𝟔 𝟔

13
Petracca Francesco L.
Thi
se

𝟏 𝟏
𝝈𝟐 𝐗_ = (𝟓 − 𝟏𝟒, 𝟕𝟓)𝟐 · + (𝟖, 𝟓 − 𝟏𝟒, 𝟕𝟓)𝟐
boo

𝟔 𝟔
𝟏 𝟏
+ (𝟏𝟎, 𝟓 − 𝟏𝟒, 𝟕𝟓)𝟐 · + (𝟏𝟗 − 𝟏𝟒, 𝟕𝟓)𝟐 ·
k is

𝟔 𝟔
𝟏 𝟏
own

+ (𝟐𝟏 − 𝟏𝟒, 𝟕𝟓)𝟐 · + (𝟐𝟒, 𝟓 − 𝟏𝟒, 𝟕𝟓)𝟐 ·


𝟔 𝟔
ed

= 𝟓𝟎, 𝟕𝟐
by
ma

1.6 Teoremi
ssim

Ricordiamo che nell’enunciato dei seguenti teoremi indichiamo con


_
𝐗 la variabile aleatoria distribuzione della media campionaria che fa
o
.mo

riferimento allo spazio dei campioni di dimensione ”n”, 𝝁𝐗_ e 𝝈𝟐 𝐗_


ndo

rappresentano la media e la varianza relativa alla distribuzione della


_
variabile aleatoria 𝐗.
hot

1° Teorema
ma

Assegnata una popolazione X con parametri 𝝁 e σ2, in un


il.it

campionamento sia di tipo bernoulliano sia con estrazione in blocco:


220

 La media 𝝁𝐗_ = 𝝁𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞


 La varianza 𝝈𝟐 𝐜𝐚𝐦𝐩𝐢𝐨𝐧𝐞 si ottiene:
201

𝛔𝟐 𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞
- 𝝈𝟐 𝐗_ = (estrazione bernulliana)
17-

𝐧
𝛔𝟐 𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞
- 𝝈𝟐 𝐗_ = (estrazione in blocco)
020

𝐧 𝐍 𝟏

2° Teorema del limite centrale


2-0

Assegnata una popolazione con distribuzione qualsiasi, com media 𝝁


380

e varianza σ2 finite, la distribuzione della media campionaria Xmedia,


-52

14
68-

Petracca Francesco L.
7tn
80
al crescere della dimensione “n” del campione, tende ad una
distribuzione normale con media 𝝁 e varianza 𝝈𝟐 𝐗_ =
𝛔𝟐 𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞
 (campionamento con ripetizione) con n≥30
𝐧
𝛔𝟐

𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞
(campionamento in blocco) con n≥30
𝐧 𝐍 𝟏

Thi
s eb
ook
is o

Possiamo dire che aumentando la dimensione “n” del campione,


_
aumenta la probabilità che la media campionaria 𝐗 differisca di poco
dalla media della popolazione. Si considerano in genere campioni con
dimensione n>30 e per indagini che richiedono una certa affidabilità
n≥100.

Nella pratica non si prendono in esame tutti i possibili campioni


estraibili dalla popolazione e nemmeno alcuni di essi, bensì un solo
campione. Se il nostro campione ha dimensione “n”, media μcampione
per dati quantitativi o percentuale “f” per dati qualitativi e
deviazione standard s o σp (per dati qualitativi), si considerano come
stime della popolazione i seguenti valori:
_ 𝐬
𝝁𝐱_ = 𝐱 e 𝝈𝐱_ = (per dati statistici quantitativi)
√𝐧

15
Petracca Francesco L.
is
oko
eb
s i
Th
(per dati statistici qualitativi considerando la %)

E’ importante ribadire che la varianza o la percentuale del campione


sono una stima dei parametri della popolazione, e pertanto si
commette un errore nel momento che si assume la deviazione
standard del campione o la percentuale del campione come
parametri fissi della popolazione.

2.0 Dalle statistiche del campione ai parametri della popolazione

Cerchiamo di comprendere come procedere quando in presenza di


un unico campione siamo interessati ad estendere la “statistiche” del
campione ai “parametri” della popolazione quando questi non si
_
conoscono. La media campionaria 𝐗 (spazio campionario) è una dato
corretto perchè sia in presenza di campionamento bernulliano che
campionamento con estrazione in blocco risulta 𝝁𝐗_ =𝝁𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞
mentre la varianza campionaria è un estimatore non corretto di
𝐧
𝛔𝟐 𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞 e pertanto si corregge ponendo s2=𝝈𝟐 𝐗_ ∙ . Questo
𝐧 𝟏
significa che in caso di stima 𝝁𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞 , conoscendo la σpopolazione e
la dimensione “n” del campione estratto, possiamo praticamente
ricorrere alle due formule:

 con “n” dimensione del campione, σ=σpopolazione e

in presenza di campione ottenuto con estrazione bernulliana

 (campione ottenuto con estrazione in blocco)

per calcolare l’errore di campionamento 𝝈𝐗_


Nella pratica se non conosciamo la varianza σ2popolazione o la
deviazione standard della popolazione, in presenza di un campione
16
Petracca Francesco L.
conoscendo la 𝒔 (deviazione standard del campione) è necessario
^ ^
𝐧
correggerla con la formula 𝐬 𝟐 = 𝒔𝟐 · e utilizzare 𝐬 𝟐 al posto di
𝐧 𝟏
^
σ2popolazione sostituendo successivamente la 𝐬 ottenuta al posto di σ
nelle due formule precedenti; questo procedimento è noto come
stima puntuale. In presenza di un campione di dimensione n≤30,
ossia di un piccolo campione si dovrà considerare la distribuzione T
di Student invece della distribuzione gaussiana.

Esercizio(Stima Puntuale):
Da un lotto di 1000 sacchetti di zucchero confezionati si è estratto
un campione di 50 sacchetti e si è valutato il peso medio
μcampione=980g con scarto quadratico medio s= σcampione=10g. In base
al campione, indicare una misura che valuti il peso medio dei
m sacchetti dell’intero lotto e valutare l’errore medio di
e d by
campionamento.
n
Svolgo:
ow is
ook eb
This

Campione di n=50 _sacchetti:


μcampione=𝐱=980g

Popolazione di N=100 sacchetti


μpopolazione=?

applicando l’inferenza statistica stimiamo che il peso _


medio dei
sacchetti di zucchero della Popolazione è μpopolazione=𝐱=980g, la stima

17
Petracca Francesco L.
dell’errore medio di campionamento possiamo farlo in presenza di
^ 𝛔
estrazione bernulliana usando la formula 𝐬𝐱_ =
√𝐧
^
𝐧
dove al posto di σ mettiamo 𝐬 𝟐 = 𝒔𝟐 · e quindi
𝐧 𝟏
^
𝟓𝟎 𝟓𝟎𝟎𝟎
𝐬𝟐 = 𝟏𝟎𝟎 ∙ = e in presenza di estrazione bernulliana
𝟒𝟗 𝟒𝟗
^ 𝛔
ricaviamo lo scarto quadratico medio 𝐬𝐱_ = ossia
√𝐧

𝟏 𝟓𝟎𝟎𝟎
𝒔𝐱_ = = 𝟏. 𝟒𝟑
√𝟓𝟎 𝟒𝟗

Possiamo dire che effettuando una stima puntuale del peso medio
_
dei sacchetti della popolazione come μpopolazione= 𝐱=980g si ha una
stima dell’errore medio di campionamento 𝒔𝐱_ = 1,43 g in presenza
di estrazione bernulliana.

2.1 Stima intervallare_1

Abbiamo visto in precedenza che in presenza di una “stima puntuale”


dei parametri di una popolazione partendo dalle statistiche di un
campione con n≥30 sono stime rappresentate da un solo valore
numerico.
Esiste un altro tipo di stima detta “stima intervallare” in cui si
individua un intervallo detto intervallo di fiducia o di confidenza che
contenga con una determinata probabilità il valore del parametro
richiesto che rimane comunque ignoto. Operiamo in questa analisi
con una popolazione di dimensione N molto grande con n<N ed n≥30.
In questo caso si può fare riferimento alla distribuzione gaussiana.
Consideriamo il caso in cui si abbia una popolazione con le seguenti
caratteristiche:

18
Petracca Francesco L.
This ebook is ow
n d o hotm

Campione con n=50: P(34,5<μcampione<35,5)=?


mo

Spazio campionario:
o .

𝝁𝐗_ =35 𝝈𝟐 𝐗_ =0,32


massim

popolazione

μ= 35 e σ2=16
ned by k is ow

Siamo interessati a determinare la probabilità che estraendo un


campione bernulliano con n=50 esso abbia una media compresa
nell’intervallo aperto 34,5<μcampione<35,5. Sappiamo che la variabile
This eboo

_
𝛔𝟐 𝟏𝟔
aleatoria media campionaria 𝐗 ha media 𝝁𝐗_ =35 e 𝝈𝟐 𝐗_ = = =
𝐧 𝟓𝟎
𝟎, 𝟑𝟐 con distribuzione normale.

_
Dovendo calcolare la probabilità P(34,5<𝐗 medio<35,5) è necessario
ricorrere alla gaussiana standardizzata
_
con varabile Z al posto della
variabile media campionaria 𝐗 .

19
Petracca Francesco L.
20
7-0
11
20
20
_ 𝟐
_ _ 𝐗 𝛍
𝟏

it 2
La funzione densità di probabilità 𝒑(𝐗) = 𝒇(𝐗) = 𝒆 𝟐𝛔𝟐 si
𝛔√𝟐𝛑

ail.
trasforma nella funzione normalizzata standardizzata per una
_

tm
𝐗 𝛍
comodità nel calcolo delle aree. Posto 𝒛 = la nuova

ho
𝛔
funzione densità di probabilità avrà media μ=0 e scarto

do
quadratico medio uguale a σ=1.

on
La nuova funzione densità di probabilità standardizzata avrà la

o.m
forma:
sim 𝟏 𝐳𝟐
as
𝒑(𝒛) = 𝒇(𝒛) = 𝒆 𝟐
ym

√𝟐𝛑
e grafico:
db
ne
ow
is
ok
bo
is e
Th

Per approfondimenti sulla gaussiana si consiglia il lettore di fare


riferimento al testo “Fondamento di Statistica” prima parte o al
testo “ Calcolo Combinatorio e delle Probabilità” dello stesso autore.
Esaminando il problema proposto risulta che per calcolare z1e z2 con
_
𝐗 𝛍 𝛔 𝟒
la formula 𝒛 = dobbiamo prima calcolare 𝝈𝐗_ = = =0,5666
𝝈𝐗_ √𝐧 √𝟓𝟎

20
Petracca Francesco L.
_ _
𝐗 𝟏 𝛍𝐜𝐚𝐦𝐩𝐢𝐨𝐧𝐞 𝟑𝟒,𝟓 𝟑𝟓 𝐗 𝟐 𝛍𝐜𝐚𝐦𝐩𝐢𝐨𝐧𝐞
e quindi 𝒛𝟏 = = = −𝟎, 𝟖𝟖 , 𝒛𝟐 = =
𝝈𝐗_ 𝟎,𝟓𝟔𝟔 𝝈𝐗_
𝟑𝟓,𝟓 𝟑𝟓
= +𝟎, 𝟖𝟖
𝟎,𝟓𝟔𝟔

La probabilità P(-0,88<z<+0,88)=0,6212=62,12%, pertanto possiamo


dire che estraendo un campione dalla popolazione assegnata,
questo avra una probabilità del 62,12% che il valore della This eb
media 𝛍𝐜𝐚𝐦𝐩𝐢𝐨𝐧𝐞 sia compreso nell’intervallo 34,5< 𝛍𝐜𝐚𝐦𝐩𝐢𝐨𝐧𝐞
<35,5.
Per calcolare l’area nell’intervallo [0,Z] possiamo utilizzare la tabella
di seguto riportata e nell’ipotesi di avere z=0,88 l’area sottesa dalla
curva vale 0,3106 ottenuta come intersezione della riga 0,8 e della
colonna 0,08 in quanto la loro somma deve essere uguale a 0,88.
Naturalmente
𝟎,𝟖𝟖
𝐳𝟐
𝟏
𝒆 𝟐 𝐝𝒛 = 𝟎. 𝟑𝟏𝟎𝟔 (tabella)
√𝟐𝛑
𝟎

𝟎,𝟖𝟖 𝟎,𝟖𝟖
𝐳𝟐 𝐳𝟐
𝟏 𝟏
𝒆 𝟐 𝐝𝒛 = 𝟐 ∙ 𝒆 𝟐 𝐝𝒛 = 𝟎, 𝟔𝟐𝟏𝟐 = 𝟔𝟐, 𝟏𝟐%
√𝟐𝛑 √𝟐𝛑
𝟎,𝟖𝟖 𝟎

Il lettore non utilizzerà l’integrale definito per il calcolo dell’area


sottesa dalla gaussiana ma con la tabella riportata associerà
all’intervallo interessato l’area sottesa dalla curva.

21
Petracca Francesco L.
22
Petracca Francesco L.
Th
is
eb
o
Esercizio:
Se la statura media di una popolazione è μpopolazione= 173,.23 cm con
σpopolazione=5,938, qual è la probabilità che un individuo abbia una
statura X> 1,79cm?

Svolgo:
𝟏𝟕𝟗 𝟏𝟕𝟐,𝟐𝟑
calcolo 𝒁 = = 𝟏, 𝟏𝟒
𝟓,𝟗𝟑𝟖

utilizzando la tabella P(z>1,14)=1-(0,5+0,3729)=0,1271=12,71%


ricordando che metà campana ha area 0,5 a cui sommo l’area
compresa tra 0 e 1,14 che vale 0,3729 da tabella. Naturalmente
ricordando che l’intera gaussiana ha area 1 per differenza ricavo il
dato riportato. Th
is e
bo
ok

𝟎 𝟏,𝟏𝟒
𝐳𝟐 𝐳𝟐 𝐳𝟐
is o

𝟏 𝟏 𝟏
𝒆 𝟐 𝐝𝒛 =1-( 𝒆 𝟐 𝐝𝒛 + 𝒆 𝟐 𝐝𝒛) =
√𝟐𝛑 √𝟐𝛑 √𝟐𝛑
wn

𝟏,𝟏𝟒 𝟎
ed

1-(0,5+0,3729)=0,1271=12,71%
b
ym

23
as

Petracca Francesco L.
sim
o.m
2.2 La distribuzione di Gauss

Abbiamo già parlato approfonditamente della distribuzione di gauss


nei testi “Calcolo Combinatorio e delle Probabilità” e “Fondamenti
di Statistica-parte I”, ricordiamo che tra le varie applicazioni essa è
fondamentale nella teoria delle stime campionarie e della verifica
delle ipotesi, è alla base dell’inferenza statistica se pensiamo
all’enunciato del Teorema del Limite Centrale.
(𝐱 𝛍)𝟐
𝟏
𝒇(𝑿) = 𝒆 𝟐𝛔𝟐
𝛔√𝟐𝛑

This e
book
is own
Il grafico rappresenta il grafico della funzione densità di probabilità
normale di una variabile aleatoria X di equazione 𝒑(𝑿) = 𝒇(𝑿) =

ed by
(𝐱 𝛍)𝟐
𝟏
𝒆 𝟐𝛔𝟐 con -∞<X<+∞ e parametri μ e σ. Una delle
𝛔√𝟐𝛑
proprietà della funzione di distribuzione normale è che valore
medio, mediana e valore modale coincidono, quindi il m
assim
parametro μ= media, mediana e moda. La curva che
rappresenta la distribuzione normale abbiamo visto che
dipende da due parametri μ e σ, e pertanto esiste una famiglie
di curve che differisce al varire di μ e σ. Noi faremo riferimento
alla curva normale standardizzata che racchiude questa
famiglia di curve, caratterizzata dai valori μ=0 e σ=1 ottenuta

24
Petracca Francesco L.
𝐗 𝛍
con il cambio di variabile 𝒁 = ; la funzione di probabilità
𝛔
della variabile normale standardizzata Z è 𝒑(𝒛) = 𝒇(𝒛) =
𝐳𝟐
𝟏
𝒆 𝟐 con -∞<Z<+∞
√𝟐𝛑

𝟏 𝐳𝟐
𝒇(𝒛) = 𝒆 𝟐
√𝟐𝛑

m
o.
sim
as
m
by
Grafico della funzione f(z) densità di probabilità della variabile z

d
ne
ow
La funzione di distribuzione o funzione di ripartizione della variabile
normale standardizzata Z ha il grafico:
is
k
oo
eb
is
Th

Grafico della funzione di ripartizione F(z) normale standardizzata

25
Petracca Francesco L.
2 t
il.i a
m
ot h 𝐳
𝐭𝟐
𝟏
do
𝑭(𝒛) = 𝑷(𝒁 ≤ 𝒛) = 𝒆 𝟐 𝐝𝒕 con -∞<z<+∞
√𝟐𝛑
on
m
o.
Dal punto di vista pratico il calcolo dell’integrale improprio si evita
im
ricorrendo all’uso di tabelle predisposte come quella riportata in
s s
a
precedenza che consente senza conoscere il calcolo integrale di
m
determinare il valore dell’area nella zona interessata.
by
d e
wn o
is
k o
bo e
s
hi T

Nel grafico la probabilita che la variabile aleatoria Z sia compresa


nell’intervallo -3<Z <3 è del 99,7% rappresentata dall’area colorata.
𝐗 𝛍 𝐗 𝛍
Ma 𝒁 = e pertanto la scrittura -3<Z<3 diventa -3< <3
𝛔 𝛔
ossia 𝛍 − 𝟑𝛔 < X< 𝛍 +3 𝛔 , possiamo anche dire meglio che la
variabile aleatoria X si discosta dalla media 𝛍 per meno di 𝟑𝛔 del
99,7%. Possiamo rappresentare in una tabella riepilogativa la
probabilità della variabile aleatoria Z di nei tre intervalli sotto
riportati:

26
Petracca Francesco L.
f(Z) f(X) probabilità

-1<Z <1 𝛍 − 𝛔 <X< 𝛍+𝛔 P=68,3%

-2<Z <2 𝛍 − 𝟐𝛔 <X< 𝛍+2𝛔 P=95,4%

-3<Z <3 𝛍 − 𝟑𝛔 <X< 𝛍+3𝛔 P=99,7%

3.0 Stima intervallare_2

Abbiamo detto che per i “parametri” della popolazione si procede


con la stima puntuale, stima intervallare o test di ipotesi.

Adesso procediamo fissando un valore di probabilità che chiamiamo


(1-α) e individuando l’intervallo che che contiene il “parametro”
della popolazione
T con quel valore di probabilità.
his e
book
is ow
ned b
y ma
1-α ssimo
.mon
α/2 α/2 do h

La popolazione presa in esame ha una distribuzione con varianza σ2


e media incognita μ, e da questa popolazione si estrae un campione
di dimensione “n”.

27
Petracca Francesco L.
Popolazione: σ2, μ Campione di dimensione
_
“n” e media 𝐱

Chiamiamo (1-α) livello di confidenza o fiducia; α rappresenta il


rischio dell’indagine campionaria, inoltre ricordiamo che l’area
sottesa dalla funzione f(Z) vale 1 e indica la certezza di trovare la d
variabile Z nell’intervallo -∞<z<+∞. on
m
o.
Supponiamo di aver fissato il livello di confidenza 1-α, persim
determinare il valore del punto critico o limite di confidenzaa𝒛𝛂
s
consideriamo
𝟏 𝛂
b
e facendo uso della tabella già utilizzata in
ym 𝟐

𝟐 d
nefissiamo 1-
precedenza determiniamo a ritroso il valore 𝒛𝛂 . Se
𝟐 w
𝟏 𝛂 o
α=0,95=95% determino
𝟐
k is
=0,4750 e dalla tabella ricavo che il
valore di 𝒛𝛂 a cui corrisponde quel valoreoèo 1,96, possiamo quindi
𝟐
scrivere in termini probabilistici che s eb
P(-1,96<Z<1,96)=0,95=95% che
h i
si legge dicendo che la probabilitàT che la variabile Z sia compresa
_
𝐗 𝛍
nell’intervallo indicato è del 95%. Se poniamo 1-α=0,95 e 𝒁 =
𝝈𝐗_
possiamo scrivere generalizzando che:
_
_
𝐗−𝛍
P(- 𝒛𝛂 <
𝝈𝐗_
< 𝒛𝛂 ) = 𝟏 − 𝛂 da cui segue P(- 𝐗 - 𝝈𝐗_ ∙ 𝒛𝛂 <- 𝛍 <-
𝟐 𝟐 𝟐
_
𝐗+ 𝝈𝐗 ∙ 𝒛𝛂)= 𝟏 − 𝛂 da cui moltiplicando tutto pere -1 e cambiando
_
𝟐

28
Petracca Francesco L.
as _ _
il verso della diseguaglianza, si ottiene P( 𝐗 - 𝝈𝐗_ ∙ 𝒛𝛂 < 𝛍 < 𝐗 + 𝝈𝐗_ ∙
m
d by e 𝟐
𝒛 )= 𝟏 − 𝛂
𝛂 wn
𝟐 is o ok bo 𝛔
Ricordiamo ancora che𝝈𝐗_ =
is e e si può ancora scrivere
√𝐧
Th
_ 𝛔 _ 𝛔
P(𝐗- ∙ 𝒛𝛂 <𝛍<𝐗+ ∙ 𝒛𝛂 )= 𝟏 − 𝛂
√𝐧 𝟐 √𝐧 𝟐

Quanto sopra scritto si legge dicendo che con probabilità 𝟏 − 𝛂


l’intervallo a fianco contiene la media 𝛍 della popolazione. La
formula riportata vale per campioni di dimensione n≥30, ossia
per grandi campioni. Nella pratica capita di non conoscere 𝛔,
parametro della popolazione, ma se il campione è grande possiamo
sostituire 𝛔 con lo scarto quadratico medio campionario s,
commettendo un errore di approssimazione. Per i valori di 𝟏 − 𝛂
possiamo considerare la seguente tabella:

𝟏−𝛂 𝛂/𝟐 𝒛𝛂
𝟐

0,90=90% 0,05 𝒛𝛂 = 𝟏, 𝟔𝟒𝟓


𝟐

0,95=95% 0,025 𝒛𝛂 = 𝟏, 𝟗𝟔
𝟐

0,99 =99% 0,005 𝒛𝛂 = 𝟐, 𝟓𝟕𝟔


𝟐

29
Petracca Francesco L.
ail. i
m ot
o h
nd
3.1 Considerazioni sulla stima puntuale e intervallare
o
o.m
 Da quanto prima esposto possiamo concludere dicendo che
_
la stima puntuale fatta considerando la “statistica” (s, 𝐗 …)
i m

di un campione fornisce un singolo valore numerico.


s s

Considerando lo spazio campionario formato da tutti i


a
ym

campioni di dimensione “n” estratti da una popolazione di


elementi possiamo osservare come campioni diversi
b

forniscono stime puntuali diverse. Quindi questo valore


d
ne

numerico non coincide mai con il “vero parametro” della


w

popolazione.
o

 La stima intervallare fornisce invece un intervallo, abbiamo


is

visto che con probabilità 𝟏 − 𝛂 questo intervallo contiene la


k
oo

media della popolazione 𝛍 (parametro vero).


b

Generalmente si fissa 𝟏 − 𝛂 = 𝟗𝟓% , 𝛂 =probabilità di


e
his

errore, l’intervallo di confidenza è dato da:


_ 𝛔 _ 𝛔
P(𝐗- ∙ 𝒛𝛂 <𝛍<𝐗+ ∙ 𝒛𝛂 )= 𝟏 − 𝛂
T

√𝐧 𝟐 √𝐧 𝟐

P[𝛍 Є(A, B)]=1-α=95%

_
A 𝐗 B
∙ 𝒛𝛂
𝟐
∙ 𝒛𝛂
𝟐

√𝐧
√𝐧

𝛔
𝛔

𝐗+
𝐗-
_

30
Petracca Francesco L.
d by
e
wn

Esercizio:
o
k is

Nota una popolazione con 𝛍 = 𝟑𝟓 , σ2=16 da cui si estrae un


_
oo

campione con dimensione n=60 e media 𝐗 =34 con un livello di


eb

_ 𝛔 _ 𝛔
confidenza 𝟏 − 𝛂=95% si ha che P(𝐗- ∙ 𝒛𝛂 <𝛍<𝐗+ ∙ 𝒛𝛂 )= 𝟏 − 𝛂
√𝐧 √𝐧
his

𝟐 𝟐

𝛔 𝟒
con 𝒛𝛂 =1,96 e = si ha il seguente intervallo di confidenza
T

𝟐 √𝐧 √𝟔𝟎
_ 𝟒 _ 𝟒
𝟑𝟒- ∙ 𝟏, 𝟗𝟔<𝛍<𝟑𝟒+ ∙ 𝟏, 𝟗𝟔 ossia 32,87 <𝛍<35,13
√𝟔𝟎 √𝟔𝟎

3.2 Test dell’Ipotesi

Nell’esaminare un fenomeno statistico, una volta che è stato


proposto un modello statistico, si tratta di verificare se esso è
compatibile con i dati reali. Questo è quanto avviene con il test
dell’ipotesi o verifica dell’ipotesi. Il test dell’ipotesi si articola
secondo i seguenti punti:

 si fissano due ipotesi: H0=ipotesi nulla e H1=ipotesi


alternativa
 Si cerca di prevedere come potrebbero essere i dati statistici
se fosse vera l’ipotesi nulla
 Se i dati statistici sono lontani da quelli che potrebbero
ottenersi se fosse vera l’ipotesi nulla, allora si rifiuta l’ipotesi
H0 e si accetta l’ipotesi alternativa H1

L’ipoteni nulla H0 non viene mai accettata!

 L’ipotesi H0 è un enunciato riferito ad un parametro della


popolazione
 L’ipotesi H0 è l’ipotesi su cui si elabora la distribuzione
statistica “nulla” della statistica utilizzata per il test
31
Petracca Francesco L.
 L’ipotesi H1 è l’ipotesi alternativa al parametro non indicata
dall’ipotesi nulla
 L’ipotesi H1 è l’ipotesi che viene formulata prima di fare un
test

3.3 Fasi operative nel test d’ipotesi

1. Calcolo della statistica test z


2. Ricordando dal teorema del limite centrale che
𝛔𝟐 𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞
𝝈𝟐 𝐗_ = (campionamento con ripetizione) con
𝐧 _
𝐱 𝛍
n≥30 si calcola 𝒛 = pensando alla distribuzione
𝛔𝐱_
_
della media campionaria 𝐗 in tanti campioni di
𝛔
dimensione “n” con 𝝈 𝐱_ =
√𝐧

_
Distribuzione media campionaria 𝐗 standardizzata

3. Confrontare il valore ottenuto con le due regioni della


distribuzione z riportate nel grafico
 Regione di accettazione - 𝒛𝛂 <𝒛<𝒛𝛂
𝟐 𝟐

i  Regione di rifiuto 𝒛<−𝒛𝛂 U 𝒛>𝒛𝛂


k 𝟐 𝟐
oo 4. Il valore di α è fissato al 5% ma possiamo anche ridurlo
eb a 0,01 o 0,001 se vogliamo commettere un “errore di I°
hisT tipo) basso rifiutando l’ipotesi nulla H0
32
Petracca Francesco L.
22 02
a il.it
otm h
Regione di accettazione

ndo
Regione di rifiuto

o
mo.m
α=5% (livello di significatività)

ss i
5. Ricordiamo che si possono commettere due tipi di errori

ma
nella scelta o rifiuto di una ipotesi:

y
 Errori del I° tipo quando si rifiuta una ipotesi che

db
è invece vera

e
 Errori del II° tipo quando si accetta una ipotesi

wn
che è invece falsa

is o
6. Ricordiamo che α si chiama livello di significatività e 1-α

ok
si chiama livello di confidenza: il primo rappresenta la

bo
probabilità di rifiutare l’ipotesi nulla (che può essere vera

e
o falsa) mentre il secondo rappresenta la probabilità di
accettarla
i s
7. Il test d’ipotesi si chiama anche test a due code o Th
bilaterale perché la regione di rifiuto è formata da due
code sottese dalla curva normale standardizzata
8. Ricordiamo la seguente tabella da seguire una volta
stabilito il valore di α

33
Petracca Francesco L.
𝟏−𝛂 𝛂/𝟐 𝒛𝛂
𝟐

0,90=90% 0,05 𝒛𝛂 = 𝟏, 𝟔𝟒𝟓


𝟐

0,95=95% 0,025 𝒛𝛂 = 𝟏, 𝟗𝟔
𝟐

0,99 =99% 0,005 𝒛𝛂 = 𝟐, 𝟓𝟕𝟔


𝟐

ssim
ma
by
w ned
o
ok is
e bo
i s
Th

34
Petracca Francesco L.
ESERCIZIO:

Ipotizziamo che la crescita media di un bambino tra il 3° e 4°


mese, allattato con latte materno, in Italia, sia di 0,54 kg che
corrisponde alla media della popolazione μ=0,54kg. Conosciamo
Th
anche la deviazione standard σ=0,12kg per la popolazione
is
assegnata. Se si esamina un campione _
di 35 bambini alimentati
eb
solo con latte artificiale si ottiene 𝐱 = 𝟎, 𝟒𝟕.
oo
ki
Vogliamo valutare se l’accrescimento medio dei bambini allattati
so
con latte artificiale è diverso da quello dei bambini allattati con
wn
latte materno, ossia se μ≠μcampione
ed
by
m
as
sim
o.
m
on
do
ho
tm
ail
.it
22
02
35
Petracca Francesco L.
Campione di dimensione
_
n=35 con 𝐱 = 𝟎, 𝟒𝟕 di
Popolazione con μ=0,54kg e σ=0,12kg bambini allattati con
di bambini allattati con latte materno latte artificiale

Fissiamo le due ipotesi:

 L’ipotesi H0: μ=μcampione (è una ipotesi specifica)


 L’ipotesi H1: μ≠μcampione(tutto quello che non indica l’ipotesi
nulla)
_
𝐱 𝛍
Fissato un livello di significatività α=5% , determiniamo 𝒛 = =
a 𝛔𝐱_
𝟎,𝟒𝟕 𝟎,𝟓𝟒
= −𝟑, 𝟓 ossia
m
𝟎,𝟏𝟐
by √𝟑𝟓
d
ne Facendo riferimento al seguente grafico
ow
is
ok o
e b
s i
T h

36
Petracca Francesco L.
Possiamo notare come questo valore cade nella zona di rifiuto e
pertanto possiamo concludere che l’ipotesi alternativa è corretta,
sapendo che c’è un rischio del 5% che quanto affermato è errato.

E’ importante ricordare che il procedimento seguito riguarda il caso


in cui i campioni hanno numerosità almeno paria a 30 in quanto è
possibile dire che la distribuzione della variabile aleatoria media
_
campionaria 𝐗 segue la gaussiana. Nel caso di campioni con n<30 si
ricorre ad altri tipi di distribuzioni di probabilità.
This

Esercizio per determinare l’errore standard

Assegnata una popolazione di 1000 rondelle di diametro medio


ebo

μ=12,2 mm, si preleva un campione di 100 rondelle: la media dei


ok

diametri del campione dovrebbe coincidere con quella della


_
popolazione 𝐗 = 𝝁𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞 = 𝟏𝟐, 𝟐𝒎𝒎, sappiamo inoltre che lo
is ow

scarto del campione s=0,82mm. Determiniamo lo scarto tipo della


𝛔
media del campione 𝝈𝐗 = .
ned

√𝐧
b
y ma
ssim

37
o.m

Petracca Francesco L.
ond
This
eboo
Svolgimento:

k is o
Popolazione di rondelle

wn
con 𝝁𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞 = 𝟏𝟐, 𝟐𝒎𝒎 Campione di dimensione n=100
con s=0,82

𝛔
Calcoliamo 𝝈𝐗 = anche se non conosciamo σ della popolazione
√𝐧
utilizziamo la deviazione standard del campione s con risultati che
variano di poco avendo un campione con dimensione n=100. Risulta
𝛔 𝟎,𝟖𝟐
pertanto 𝝈𝐗 = = = 𝟎, 𝟎𝟖𝟐 (errore standard)
√𝐧 √𝟏𝟎𝟎

La popolazione delle rondelle ha diametro 𝝁𝐩𝐨𝐩𝐨𝐥𝐚𝐳𝐢𝐨𝐧𝐞 ±𝝈𝐗 quindi


12,2mm±0,082

38
Petracca Francesco L.
3.4 La distribuzione T di Student

Abbiamo visto come la distribuzione gaussiana valga in presenza di


campioni con dimensione n≥30, ma in presenza di “n” minore di 30 si
deve ricorrere alla distribuzione T di Student in cui l’intervallo di
confidenza dipende dal numero di misure fatte e al posto del
parametro Z utilizzato nella curva gaussiana standardizzata si
utilizzerà il parametro t di Student. Si può verificare che in presenza
di un campione con dimensione n<30 l’intervallo di confidenza
aumenta al diminuire della dimensione “n” del campione definiendo
un intervallo di incertezza più ampio. Non esiste una sola
distribuzione T ma ne esitono diverse al variare dei gradi di libertà

coda

Th
is Distribuzione T al variare dei gradi di libertà
eb
o
Per n ok ∞ la distribuzione T si avvicica a quella gaussiana e
questo accadei s già per n≈40, si osserva inoltre che la curva gaussiana
o
è più schiacciatawnelle code della curva T con un’area minore rispetto
n distribuzione T.
a quella fornita dallaed
by
m
as
sim
o.
m
on
do
39 ho
tmPetracca Francesco L.
ai
l.it
2
This
ebo
ok i
s ow
ned
by m
ass
imo
.mo
ndo
hotm
ail.it
220
20
Confronto tra la distribuzione T e la normale standard

3.5 Metodi di campionamento

Ricordiamo che il campione scelto, dovrebbe rappresentare in


“piccolo”, con un numero minore di unità statistiche rispetto a quelle
della popolazione, le caratteristiche “parametri” della popolazione.
Quindi il nostro campione deve essere “rappresentativo” per poter
estendere i dati ottenuiti alla popolazione tramite il procedimento di
inferenza. Possiamo distinguere i seguenti campionamenti:

1. Nel campionamento casuale semplice le unità statistiche


vengono estratte dalla popolazione in modo casuale. Se
pensiamo di numerare ogni unità statistica, ognuna ha la
stessa probabilità delle altre di essere estratta, ed ogni
campione della stessa dimensione ha la stessa probabilità di
estrazione. Il campionamento casuale semplice è la più
semplice tecnica di selezione. La selezioni degli oggetti per
formare il campione può avvenire con estrazione con
reimmissione in cui l’unità statistica estratta si rimette nella
popolazione dopo l’estrazione, e senza reimmisione in cui

40
Petracca Francesco L.
l’unità statistica una volta estratta non può essere rimessa
nella popolazione.
2. Nel campionamento sistematico gli N elementi della
popolazione si dividono in n gruppi formati da k elementi
ossia k=N/n, per avere un campione sistematico si scelgono i
k-esimi elementi.
3. Nel campionamento stratificato si suddivide la popolazione
in strati o gruppi sulla base di una caratteristica comune. In
ogni strato si conduce un campionamento casuale semplice
e si combinano. Il campionamento stratificato è più preciso
del campionamento casuale semplice e del campionamento
sistematico perche fornisce una rappresentazione adeguata
del campione scelto nella popolazione circa i parametri da
stimare della popolazione.
4. Nel campionamento a grappolo gli N elementi della
popolazione sono divisi in gruppi, detti grappoli
”sottopopolazioni” in modo che ogni grappolo sia
rappresentativo della popolazione. Si estrae poi un campione
casuale di grappoli e tutti gli oggetti del grappolo estratto
fanno parte del campione.
This ebook is

41
Petracca Francesco L.
GLOSSARIO

 Carattere= manifestazione del fenomeno economico-sociale


 Variabile=carattere che assume valori diversi
 Dati= raccolta e analisi di informazioni sul fenomeno
statistico in forma numerica
 (Variabile/Carattere) qualitativa= si esprime mediante

Th
aggettivi o nomi dette modalità (colore degli occhi, religione)

is e
 (Variabile/Carattere) quantitativa= si esprime con modalità
numeriche (intensità) o intervalli numerici (classi di

bo
intensità), esempio:statura, peso, durata delle batterie.

ok
 Unità statistica= qualsiasi elemento portatore del carattere

is o
o dei caratteri; su ciascuna unità statistica possaimo rilevare:
- Una sola variabile/carattere: statistica univariata

wn
- Due caratteri contemporaneamente: statistica bivariata

ed
- Tre o più caratteri contemporaneamente:statistica

by
multivariata

ma
 Indice di tendenza centrale= comprendono gli indici di
tendenza centrale (media, mediana, moda)

ssi
mo
Medie

Di posizione Algebriche

-aritmetica
-moda -quadratica
-mediana -geometrica

-armonica

42
Petracca Francesco L.
 Statistica Descrittiva= le informazioni provengono dall’intera
popolazione
 Statistica inferenziale=le informazioni provengono dal
campione
 Frequenza o frequenza assoluta= rappresenta il numero di
volte F in cui si ripete la modalità nel campione esaminato
 Frequenza relativa= rappresenta il rapporto tra la frequenza
assoluta F e il numero delle unità statistiche N: f=F/N
 Frequenza percentuale= rappresenta la frequenza relativa
per 100: f=(F/N)*100
 Frequenza cumulata= rappresenta la somma delle frequenze
delle modalità inferiori o uguali ad una data modalità

Voto Frequenza Frequenza Frequenza Frequenza


relativa relativa cumulata
percentuale
6 62 0.20
This ebook is owned by massimo.mondo 20% 62
7 89 0.29 28.71% 151
8 87 0.28 28.06% 238
9 66 0.21 21.29% 304
10 6 0.02 1.94 310
𝑵 = ∑𝐅𝐢
𝐢
= 𝟑𝟏𝟎

Modalità

 Popolazione= insieme delle unità statistiche portatrice della


Variabile /Carattere qualitativo o quantitativo

43
Petracca Francesco L.
wned
is o
ok
Con la statistica descrittiva si raccolgono le informazioni sull’intera

o
popolazione, si organizzano in distribuzioni semplici (univariate) o

b
se
complesse (almeno bivariate) con una successiva sintesi numerica
attraverso indici di tendeza centrale, indici di forma o rapporti

Thi
statistici, per ultimo si rappresentano graficamente le principali
caratterisitche. I risultati che si ricavano dalla statistica descrittica si
definiscono “certi”.

Esempi: censimento della popolazione italiana, rilevazione del


gradimento di una scuola.

Glossario per la Statistica Inferenziale


 Campione= è un sottoinsieme di unità statistiche estratte
dalla popolazione con opportuni criteri, in base ad un dato
schema di campionamento

Analisi inferenziale= si esegue attraverso:

- sintesi numerica: considerando le stime campionarie: la


media (μ), la varianza (σ2) e la deviazione standard (σ).
- Rappresentazione grafica della distribuzione del fenomeno
nel campione.

L’inferenza statistica studia come estendere i risultati e le


conclusioni che provengono dall’osservazione di una parte della

44
Petracca Francesco L.
popolazione detta campione, all’intera popolazione a cui il campione
appartiene. Il campione è scelto solitamente mediante un
esperimento casuale (o aleatorio), detto schema di campionamento.

i
Th

L’inferenza statistica può essere definita come un processo opposto


al calcolo probabilistico, possiamo capire meglio se pensiamo ad una
estrazione di una pallina da un’urna contenente 6 palline rosse e 4
bianche. L’estrazione a caso di una pallina bianca ha la probabilità
(vedi libro dell’autore “Calcolo Combinatorio e delle Probabilità”) 0,4 di
essere estratta. Nel problema di inferenza statistica si estraggono a
caso “n” palline da un’urna di cui non si conosce la composizione, e a
partire dal colore delle palline estratte si cerca di inferire la
composizione dell’urna.
Esempi: proiezioni sull’esito delle elezioni politiche, verifica della
durata delle batterie prodotte per un modello di cellulare.

L’errore standard rappresenta la deviazione standard

delle medie ed esprime quanto la media calcolata sia vicina alla


media vera. Si tratta di quantificare il grado di certezza con il quale la
media di un campione casuale è rappresentativa della media della
popolazione

Distribuzione campionaria delle medie: distribuzione delle medie di


tutti i campioni di dimensione “n” estratti da una popolazione,

45
Petracca Francesco L.
ricordiamo che campioni diversi con dimensione “n” forniscono
medie campionarie diverse. Ciascuna di queste medie non può essere
usata come stima del parametro da sola, senza tenere conto
dell’incertezza causata dall’errore campionario

Thi
s eb
ook
is o
wne
db
ym
ass
imo
.mo
ndo
hot
ma
il.it
220
201

46
Petracca Francesco L.
0117-0202-038
Bibliografia

1) Storia della Statistica”Maria Pia Perelli D’Argenzio”


2) Fonte ISTAT (Istituto Nazionale di Statistica)

02
3) Matematica Sperimentale di Battelli e Moretti – C.P.E.

22
4) Appunti di Statistica prof. Fernando Di Gennaro
5) Matematica per la Scuola Superiore- Giambò A. e Giambò R.

l.i t
6) Blog dell’autore https://matepetracca.blogspot.it

ai
7) Canale youTube “Petracca Francesco” dell’autore

tm
8) Appunti prof. Paola Bortot Dipartimento di Scienze Statistiche

ho
Università di Bologna

do
9) Le Statistiche e la Statistica- prof. Tommaso Di Fonzo- Scuola
Superiore di Statistica e di Analisi Sociali ed Economiche

on
10) “Calcolo Combinatorio e delle Probabilità”- StreetLib- autore

massimo.m
Petracca Francesco Luigi
11) Statistica & Società: rivista quadrimestrale per la diffusione della
cultura statistica anno III / 2014 – Numero Speciale
12) Appunti prof. Claudio Capiluppi Facoltà di Scienze della
Formazione
13) Appunti di Andrea Pavan sulla distribuzione Normale
This ebook is owned by

14) Zuliani A., Statistiche come e perché. A cosa servono, come si


usano, Roma, Donzelli, 2010.
15) La certezza assoluta e le altre finzioni- Mondo Matematico
16) Zanichelli - Matematica.rosso
17) Appunti di statistica prof.ssa Oliva
18) Tramontana – Matematica generale e applicata
19) Ghisetti e Corvi – Statistica 3
20) Collana Schaum Statistica
21) Appunti di Biostatistica prof. Giorgio Bertorelle- Università di
Ferrara
22) M.Garetto- STATISTICA, Lezione ed Esercizi
23) Elementi di Statistica- Francesco Sardo
47
Petracca Francesco L.
ssim
ma
by
w ned
o
o k is
e bo
This

Potrebbero piacerti anche