Appunti Di Statistica

CAP I
La statistica è una branca della matematica che si occupa della trattazione dei dati osservati a supporto di tutte le
scienze empiriche (=reali), riguardanti fenomeni misurabili, con lo scopo di ottenere informazioni utili a prendere
decisioni. Essa ha 4 applicazioni: riassumere dati, trarre conclusioni, fare previsioni riguardo attività aziendale,
migliorare processi aziendali.
VARIABILE: caratteristica/fenomeno misurabile, osservato su individui (sesso, livello di istruzione, lavoro...) od

oggetti (difetti, livello di purezza...) che assumono valori numerici diversi. Tutti questi valori non avrebbero significato
senza la definizione operativa delle variabili. Talvolta anche i singoli valori delle variabili necessitano di una
definizione. Gli elementi su cui vengono osservate le variabili/dati (quindi persone, oggetti...) si chiamano unità
statistiche.
Le variabili/dati possono essere: qualitative/categoriali (si suddividono in ordinali, nominali o binari/dicotomici) o
quantitative/numeriche (si suddividono in discrete o continue)
V. qualitative: risposte che possono essere ricondotte a valori non numerici, ex “sì” o “no”; v. ordinali: dati
intrinsecamente ordinabili, quindi c'è un ordine di livelli; v. nominali: non sono intrinsecamente ordinabili (ex colore
dei capelli); v. binari/dicotomici: ci sono solo due alternative possibili (ex “ferrarese” e “non ferrarese”); v.
quantitative: indicano una qtà; v. discrete: valori numerici che derivano da processi di conteggio (ex valutazione di tot
esami); v. continue: valori che derivano da processi di misurazione (ex misurare altezza)
DATASET: insieme di dati variabili osservabili su un certo nr di unità statistiche.
POPOLAZIONE: insieme di unità statistica di interesse. E' composta da tutti gli oggetti o individui dai quali si
vogliono ottenere informazioni.
CAMPIONE: porzione della popolazione selezionata per condurre le analisi (s. inferenziale).
PARAMETRO: misura di sintesi che descrive una caratteristica di dell'intera popolazione.
STATISTICA: misura di sintesi che descrive una caratteristica di un campione.
CENSIMENTO: indagine statistica in cui tutta la popolazione viene osservata.
INDAGINE CAMPIONARIA: indagine statistica in cui solo una parte della popolazione (= campione) viene
osservata.
RILEVAZIONE: raccolta dei dati censuari (o campionari) mediante l'osservazione delle unità statistiche. I metodi
utilizzati sono: sondaggi di opinione, come exit pol, usato per sapere anticipatamente l'esito delle elezioni politiche,
intervistando molte persone appena uscite dalla votazione; customers satisfaction survey, selezionando a campione
varie persone per intervistarle...; esperimenti di laboratorio; controlli ispettivi: controllo di qualità del processo, audit
come sondaggi (ex esprimere l'opinione quando si esce dal bagno dell'autogrill con faccine :) :(); raccolta dei dati
pubblicati, da fonti pubbliche (ISTAT, Banca d'Italia, EUROSTAT – a livello europeo) e/o fonti private (associazioni
di categoria, società di consulenza...)
PARAMETRO: misura di sintesi riferita alla popolazione.
Gli obiettivi principali della raccolta di questi dati sono: 1) statistica descrittiva (= rappresentare e sintetizzare):
raccolta, sintesi, presentazione e analisi dei dati. Per presentare i dati vengono utilizzati indici (media, mediana e scarto
quadratico medio) e rapp. grafiche; 2) statistica inferenziale (= prendere decisioni): lo scopo è trarre conclusioni
applicabili alla popolazione, partendo dall'elaborazione dei dati relativi ai piccoli gruppi (= popolazione parziale).
Per fare previsioni attendibili e accurate devono essere sviluppati modelli statistici predittivi.
(CAP II: descrizioni dei grafici sul foglio)
CAP III
INDICI DI POSIZIONE
La media (aritmetica): indice e sola misura nella quale tutti i valori hanno lo stesso ruolo e rappresenta il “baricentro”
di un insieme di dati. Viene calcolata sommando tutti i valori di un insieme di dati e dividendo tale somma per il nr dei
dati. X segnato viene usato per rappresentare la media di un campione contenente n valori:
somma dei valori
X=
numerosità dei valori
denotando con X 1 , X 2 , X 3 ... un insieme di dati con n pari al nr dei dati nel campione:
X 1+ X 2+ X 3+ ...+ X n
X=
n
Utilizzando il simbolo della sommatoria si può sostituire il numeratore X 1+ X 2+ X 3+ ...+ X n con il termine
n
∑ Xi che significa “somma di tutti i valori X i dal primo valore X 1 all'ultimo valore X n
i=1
n
∑ Xi
i =1
Media campionaria: somma dei dati divisa per il numero dei dati X = dove:
n
X = media campionaria
n = nr dei valori o dimensione di un campione
X i = i-esimo valore della variabile X
n
∑ Xi = sommatoria di tutte le X i nel campione

i=1
Poiché tutti i dati hanno lo stesso ruolo, la media può essere influenzata da un singolo valore (valore anomalo) diverso
dagli altri. Quando si hanno questi valori, si potrebbe evitare di utilizzare la media come misura di tendenza centrale.
Si dice che la media è un indice non robusto ed affetto dalla presenza di valori anomali. La media può indicare quale
sia il valore tipico o centrale per un certo insieme di dati.
Esempio: il tempo, in minuti, utilizzato da un lavoratore per arrivare a lavoro:
Giorno: 1 2 3 4 5 6 7 8 9 10
Tempo: 39 29 43 52 39 44 40 31 44 35
39+ 29+ 43+ 52+ 39+ 44+ 40+ 31+ 44+ 35 396
= = =39.6
X 10 10
Il tempo medio è di 39.6 minuti.
La mediana: valore che si colloca al centro di una successione ordinata di dati, dal più piccolo al più grande. Essa
occupa la posizione centrale, non è influenzata dai valori estremi. Per calcolarla basta ordinare tutti i valori in ordine
n+ 1
crescente e utilizzare la seguente equazione: nella serie ordinata.
2
Se la numerosità campionaria è un numero dispari, la mediana ha valore centrale; se la numerosità campionaria è un
numero pari, la mediana è data dalla media tra i due valori centrali.
Esempio con numerosità pari:
Valori ordinati: 29 31 35 39 39 40 43 44 44 52
Posizione: 1 2 3 4 5 6 7 8 9 10
n+ 1 (10+ 1)
Utilizzando si ottiene =5.5
2 2
Mediana è dunque: 39.5
La moda: valore che appare più frequentemente in una serie di dati, ovvero il valore che ha la frequenza più alta.
Come la mediana, la moda non è influenzata dai valori estremi.
Esempio: 29 31 35 39 39 40 43 44 44 52
La moda è 39 e 44, poiché sono i valori ripetuti più volte.
LA VARIABILITÀ E LA FORMA
La prima misura la dispersione dei valori in una serie di dati. Una semplice misura di variabilità è il campo di
variazione, o range (ossia la differenza tra il valore più grande e quello più piccolo di un insieme di dati). I più
comunemente utilizzati sono lo scarto quadratico medio e la varianza; la seconda rappresenta l'andamento di tutti i
valori, da quello più basso a quello più alto.
Il campo di variazione (o range): è la più semplice misura numerica di variabilità. Esso è pari all'ampiezza
dell'intervallo entro cui i dati variano ed è uguale alla differenza tra il valore più grande ed il valore più piccolo.
Range = X più grande− X più piccolo

Esempio: 29 31 35 39 39 40 43 44 44 52
Il campo di variazione è dunque dato da 52-29 = 23. Questo dato indica la differenza più grande tra i vari tempi.
La varianza e lo scarto quadratico medio: sono due misure di variabilità utilizzate se il campo di variazione non tiene
conto di come i valori si distribuiscono o concentrano tra i valori estremi. Questi indici, dunque, consentono di capire
come sono distribuiti i valori dell'insieme dei dati. Una semplice misura di variazione può essere ottenuta
considerando la somma delle differenze (o scarti) tra ciascun valore e la media. Poiché la media rappresenta il
“baricentro” dei dati, per qualunque insieme di dati la somme di tali differenze è sempre pari a 0 dato che gli scarti
positivi compensano con quelli negativi. Per evitare questa compensazione, si può ottenere una misura di variabilità
che permette di differenziare un insieme di dati da un altro, considerando la somma degli scarti elevati al quadrato.
Questa quantità è chiamata somma dei quadrati (SS), che viene poi divisa per il numero dei valori-1 in modo da
ottenere la varianza campionaria (S²). La radice quadrata della varianza campionaria è lo scarto quadratico medio
campionario (S). Poiché la somma dei quadrati è una somma di quantità sempre non negative, né la varianza, né lo
scarto quadratico medio potranno essere negativi. La varianza e lo scarto quadratico medio avranno un valore positivo,
anche se potrebbe accadere che questi indici di variabilità potrebbero essere pari a 0 nel caso in cui ci sia assenza di
variabilità.
Per un campione di n dati, X 1 , X 2 , X 3 ... X n la varianza campionaria (indicata con S²) è:
̄ 2 ̄ 2
2 ( X 1 − X ) + ( X 2− X )+ ...+ ( X n− X )
̄
S =
n−1
Varianza campionaria: somma degli scarti dalla media al quadrato divisa per la numerosità del campione-1
n
2
∑ (X i− X̄ )
S 2= i=1 dove:
n−1
X = media
n = dimensione del campione
n
2
∑ ( X i− X̄ ) = somma di tutte le differenze al quadrato tra i valori X i e la media X
i=1
Scarto quadratico medio campionario: radice quadrata della somma degli scarti dalla media al quadrato divisa per la
dimensione del campione-1
n
√
2
∑ ( X i− X̄ )
S = √ S 2= i=1
n−1
Per calcolare manualmente la varianza campionaria (S²) e lo scarto quadratico medio campionario (S), si può
procedere con: calcolo della differenza tra ciascun valore e la media, elevazione al quadrato di ciascuna differenza,
somma delle differenze elevate al quadrato, divisione del totale per n-1 in modo da ottenere la varianza campionaria,
presa della radice quadrata della varianza campionaria per l'ottenimento dello scarto quadratico medio campionario.
Esempio: riportando sempre i dati inerenti al tempo necessario per prepararsi e andare a lavoro, ricordiamo che nella
formula c'è bisogno della media (X) precedentemente rilevata pari a 39.6
TEMPO (X) ( X i− X
̄) ̄ )2
( X i− X
39 -0.60 0.36
29 -10.60 112.36
43 3.40 11.56
52 12.40 153.76
39 -0.60 0.36
44 4.40 19.36
40 0.40 0.16
31 -8.60 73.96 Per la seconda colonna basta sottrarre X alla media
44 4.40 19.36 trovata in precedenza (esempio 39-39.6); per la terza
colonna è sufficiente prendere il risultato della seconda
35 -4.60 21.16
ed elevarlo alla seconda (esempio -0.60²).
SOMMA DIVISO (n-1)
412.40 45.82 Riprendendo la formula, la varianza si calcola:
n
2
∑ (X i− X̄ ) (39−39.6) 2+ ( 29−39.6)2 + ...+ ( 35−39.6)2 412.40
2 i=1
S = = = =45.82
n−1 10−1 9
Poiché la varianza è espressa in unità elevate al quadrato, per calcolare lo scarto quadratico medio si prende la radice
quadrata:
n
√
2
2
∑ ( X i− X̄ )
i=1
S =√ S = =√ 45.82=6.77
n−1
Calcolando la somma delle differenze tra ciascun valore e la media, quest'ultima risulta pari a 0. Questo perché la
media aritmetica è il “baricentro” dei dati:
n
∑ ( X i− X̄ )=0 per tutte le serie di dati

i=1
Questa proprietà è una delle ragioni per cui la media è la misura di tendenza centrale comunemente più usata.
Lo schema del calcolo della varianza proposto ricalca la definizione che ne è stata data. Tuttavia, talvolta può risultare
complicata da applicare a causa di numeri difficili da gestire. Esiste perciò una proprietà della varianza, più efficiente,
e che prevede un nr inferiore di passaggi, il che lo rende anche più preciso. Infatti, si può dimostrare che la somma
degli scarti al quadrato dalla media, detta anche devianza, è uguale alla somma dei quadrati delle osservazioni meno il
risultato della media moltiplicando per il nr delle osservazioni:
n n
2 2
∑ ( X i− X̄ ) =∑ X i −n X̄ 2
i=1 i=1
Da questa proprietà si può ricavare la procedura di calcolo per la varianza e per lo scarto quadratico medio: elevare al
quadrato ciascuna osservazione, sommare i dati al quadrato, sottrarre a questa somma la media elevata al quadrato
moltiplicando per n, dividere il totale per n-1 in modo da ottenere la varianza campionaria, prendere la radice quadrata
della varianza campionaria per ottenere lo scarto quadratico medio campionario.
Esempio attraverso la formula ridotta, stessi dati con X=39.6:
TEMPO (X) ( X i2)

39 1521
29 841
43 1849
52 2704
39 1521
44 1936
40 1600
31 961
44 1936
35 1225
SOMMA ∑in=1 X i2−n X̄ 2
16094 412.40
16094-10(39.6)² = 16094-15681.6 = 412.40
Le caratteristiche del campo di variazione, della varianza e dello scarto quadratico medio, si possono riassumere
come segue: più i dati sono sparpagliati o dispersi, più ampi sono il campo di variazione, la varianza e lo scarto
quadratico medio; più i dati sono concentrati e omogenei, più piccoli sono il campo di variazione, la varianza e lo
scarto quadratico medio. Se i valori sono tutti uguali (= assenza di variabilità nei dati), il campo di variazione, la
varianza e lo scarto quadratico medio saranno uguali a 0. Nessuno dei precedenti indici di variabilità può essere
negativo.
Il coefficiente di variazione: misura la variabilità relativa, espressa in percentuale e non nell'unità di misura dei dati.
Esso è indicato con il simbolo CV ed indica la dispersione dei dati in relazione all'entità della media. Esso è uguale al
rapporto tra lo scarto quadratico medio e la media aritmetica per 100%:
S
CV = 100 % dove:
X
̄
S = scarto quadratico medio campionario
X
̄ = media campionaria
Questo indice è molto utile quando si confrontano due o più serie di dati che vengono misurate in diverse unità
Z score: è la differenza tra il valore e la media, divisa per lo scarto quadratico medio e rappresenta quanto un dato è
distante dalla media rispetto alla variabilità della distribuzione. Dato che un valore estremo, o outliner, è un valore
posizionato molto lontano dalla media, il Z score è utile per la loro identificazione: più è grande, in valore assoluto,
maggiore è la distanza tra il valore e la media.
X−X ̄
Z=
S
Forma: riguarda l'andamento dei dati nell'intero range. Una distribuzione può essere simmetrica o asimmetrica: con
la prima i valori al di sotto della media sono distribuiti come i valori sopra la media (i dati a dx e sx della media si
bilanciano); con la seconda i valori non sono simmetrici intorno alla media: questo è originato da uno squilibrio tra
valori alti e bassi.
Dunque, se la forma di distribuzione è simmetrica, la media, moda e mediana sono pressoché uguali: se:
media < mediana: asimmetria di sx, o negativa;
media = mediana: simmetria, o asimmetria 0;
media > mediana: asimmetria di dx, o positiva. (guarda fig. 3.1 pag. 100)
STATISTICHE DESCRITTIVE PER LA POPOLAZIONE

Se l'insieme di dati rappresenta l'intera popolazione, gli indici di sintesi vanno calcolati in modo diverso e vanno
interpretati come parametri dell'intera popolazione.
La media della popolazione: è la somma dei valori nella popolazione divisa per la dimensione della popolazione N:
N
∑ Xi
μ= i =1
N
La varianza della popolazione: è la somma degli scarti al quadrato rispetto alla media della popolazione divisa per la
dimensione della popolazione N:
N
∑ ( X i−μ)2
σ 2= i =1 dove:
N
µ = media della popolazione
N
∑ ( X i−μ )2 = sommatoria degli scarti al quadrato delle differenze tra i valori di X i e di µ

i=1
Una regola empirica: in molti insiemi di dati una gran parte dei valori tende a raggrupparsi vicino alla mediana.
Negli insiemi di dati caratterizzati da un'asimmetria positiva (obliqui a dx), questo raggruppamento si verifica a sx
della media, cioè verso i valori inferiori di questa; negli insiemi di dati caratterizzati da un'asimmetria negativa
(obliqui a sx), i valori tengono a raggrupparsi a dx della media, verso i valori superiori della media.
QUARTILI E BOXPLOT
Gli indici numerici forniscono informazioni essenziali su un insieme di dati, ma non esauriscono i possibili modi per
descriverli.
Quartili: misure descrittive che dividono i dati ordinati in 4 parti: I quartile ha un valore t.c il 25% delle
osservazioni è minore o uguale a Q1 e il 75% è maggiore; il II quartile ( Q2 )è la mediana: il 50% delle
osservazioni è più piccolo ed il restante 50% più grande; il III quartile ( Q3 ) è quell'osservazione t.c il 75% dei
dati risulta più piccolo ed il 25% più grande di Q 3
n+ 1
I quartile: Q1= -esima osservazione nei dati ordinati
4
3( n+ 1)
III quartile: Q3= -esima osservazione nei dati ordinati
4
Per calcolare i quartili si possono usare le seguenti regole, dopo aver ordinato i dati: 1) se la posizione del quartile è
un nr intero, il quartile è uguale all'osservazione che corrisponde a quella posizione. Ex se la dimensione campionaria
n=7, il I quartile è l'osservazione che occupa il posto (7+1)/4=2; 2) se la posizione del quartile è un nr con una cifra
decimale uguale a 5 (2.5, 4.5...) allora il quartile è uguale alla media delle osservazioni a cavallo di quelle posizioni.
Ex se la dimensione campionaria è n=9, il I quartile è uguale a (9+1)/4=2.5 quindi si trova tra la seconda e la terza
osservazione nella sequenza ordinata; 3) se la posizione del quartile è un nr con due cifre decimali uguali a 25 o 75,
la posizione del quartile può approssimare, per eccesso o difetto, all'intero più vicino. Ex se la dimensione
campionaria è la posizione del I quartile, ed è uguale a (10+4)/4=2.75 si può scrivere 3.
Range interquartile: misura la dispersione del 50% centrale dei dati, quindi il campo di variazione interquartile non è
influenzato dai valori estremi. E' la differenza tra il terzo ed il primo quartile: Q3−Q 1
Il boxplot: fornisce una rappresentazione grafica dei bati sulla base dei 5 nr di sintesi ( X min Q1 mediana Q 3 X max )
ed eventuale outliner.
LA COVARIANZA ED IL COEFFICIENTE DI CORRELAZIONE

Questi due indici sono utili per misurare l'intensità e il verso della relazione tra due variabili.
La covarianza: misura l'intensità ed il verso della relazione lineare tra due variabili quantitative (X e Y):
n
∑ ( X i− X̄ )(Y i−Ȳ )
cov ( X , Y )= i=1
n−1
Il coefficiente di correlazione (o indice di Pearson): si ottiene dividendo la covarianza di X e Y per i relativi scarti
quadratici medi, eliminando sia le due unità di misura delle due variabili, sia le grandezze relative. Il nr ottenuto è un
nr puro e normalizzato. Esso misura anche la forza relativa di un legame lineare tra due variabili quantitative. I valori
del coefficiente di correlazione variano tra -1, che indica una perfetta correlazione* negativa, e +1, che indica una
perfetta correlazione positiva. Viene indicato con la lettera greca ρ.
* se si disegnano i punti su un diagramma a dispersione, tutti i punti sono allineati ovvero disposti su una retta.
cov ( X , Y )
Coefficiente di correlazione campionario: r = dove:
S X SY
n
∑ ( X i− X̄ )(Y i−Ȳ )
i =1
cov(X,Y) =
n−1
n
S X=
√ ∑ ( X i− X̄ )2
i =1
n
n−1
SY=
CAP IV
√ ∑ (Y i−Ȳ )2
i =1
n−1
PROBABILITA'
E' un valore numerico che rappresenta la possibilità che un particolare evento accada. Essa può essere una
proporzione o una frazione i cui valori variano tra 0 e 1, inclusi. Un evento che non ha alcuna possibilità di verificarsi
(evento impossibile) ha probabilità pari a 0; un evento che si verifica sicuramente (evento certo) ha probabilità pari
a 1. Vi sono 3 concezioni di probabilità: 1) classico/a priori; ogni evento ha la stessa probabilità di verificarsi, è
X
basata si una conoscenza a priori del processo in questione: probabilità di un evento= ove
T
X = nr di casi nei quali l'evento si verifica
T = nr totale di risultati possibili
2) empirico: le probabilità sono basate sui dati osservati e non sulla conoscenza a priori del processo; 3) soggettivo:
la probabilità cambia da individuo ad individuo.
Eventi e spazi campionari: si definisce evento ogni possibile risultato di un esperimento il cui esito è casuale
(aleatorio). Un evento elementare è descritto da una singola caratteristica e definisce la probabilità semplice; un
evento congiunto è un evento che ha due o più caratteristiche che definiscono la probabilità congiunta (o composta),
legata al verificarsi di due o più eventi; un evento complementare di un evento A (rappresentato dal simbolo A')
include tutti gli eventi che non sono parte di A.
La collezione di tutti i possibili eventi è chiamata spazio campionario.
Probabilità marginale: si può calcolare sulla base di un insieme di probabilità congiunte:

P (A)=P ( Ae B1)+ P ( A e B 2)+ ...+ P ( Ae Bk )
CAP V
LA DISTRIBUZIONE DI PROBABILITA' DI UNA VARIABILE CASUALE DISCRETA
Una variabile quantitativa è stata finora descritta come una variabile che assume valori numerici. Queste variabili si
possono dividere in continue e discrete. Le prime riguardano dati che provengono da un processo di misurazione ex
altezza di una persona; le seconde provengono da un processo di conteggio ex il nr di riviste a cui si è abbonati.
La distribuzione di probabilità di una variabile casuale discreta è un elenco esclusivo di tutti i possibili risultati
numerici che la variabile casuale può assumere unitamente alla probabilità del verificarsi di ciascun risultato.
Valore atteso di una variabile casuale discreta: il valore medio, μ, di una distribuzione di probabilità è il valore atteso
della variabile casuale. Si calcola moltiplicando ogni possibile risultato, X, per la sua corrispondente probabilità,
P(X), e sommando tutti questi prodotti:
N
μ=E ( X )=∑ X i P ( X i ) dove:
i =1
X i = i-esimo valore della variabile casuale discreta X
P ( X i ) = probabilità del verificarsi dell'i-esimo risultato di X
Varianza e scarto quadratico medio di una variabile casuale discreta: la varianza di una distribuzione di probabilità
si calcola moltiplicando ogni possibile differenza al quadrato [ X i−E ( X )] 2 per la sua probabilità corrispondente
P ( X i ) , e sommando i relativi prodotti:
N
Varianza di una variabile casuale discreta: σ 2=∑ [ X i−E ( X )]2 P ( X i) dove
i=1
X i = l'i-esimo valore della variabile casuale discreta X
P ( X i ) = probabilità del verificarsi dell'i-esimo risultato di X
N
Scarto quadratico medio di una variabile casuale discreta: σ=√ σ2 = √∑i =1
[ X i−E ( X )]2 P (X i )
Distribuzione binomiale: con l'esistenza di una formula che esprima la distribuzione di probabilità per una certa
variabile casuale, è possibile calcolare la probabilità esatta che un qualunque risultato della variabile si verifichi.
E' uno dei modelli probabilistici più utili e diffusi. Viene usata quando la variabile casuale discreta rappresenta il nr
di eventi di interesse (successi) in un campione di n osservazioni (prove).
Serve come modello probabilistico in tutti quei casi in cui si è interessati al nr di volte in cui un certo evento
(successo) si verifica in n prove fra loro indipendenti. Ha 4 caratteristiche: il campione è composto da un nr dato di
osservazioni (prove), cioè n; ogni osservazione è classificata in una delle due categorie incompatibili ed esaustive:
successo ed insuccesso; la probabilità che si verifichi un successo, π, è costante in ogni prova, quindi anche la
probabilità che si verifichi un insuccesso, 1-π, è costante fra tutte le prove; il risultato di una qualsiasi prova è
indipendente dal risultato di qualsiasi altra o da una popolazione infinita con o senza reinserimento o da una
popolazione finita con reinserimento.
Per trovare il nr delle combinazioni, ovvero il nr di modi in cui è possibile disporre X oggetti in n prove senza tener
conto dell'ordine, bisogna utilizzare il coefficiente binomiale.
n!
Combinazioni: il nr di combinazioni di n elementi presi a X a X è dato da: n C x= dove:
X !(n−X )!
n! = (n)(n-1)...(1) è chiamato n fattoriale, per definizione: 0! = 1
n! 4! 4x3x2x1
Esempio con n=4 e X=3 nC x = = = =4
X ! (n− X )! 3 !(4−3)! (3x2x1)(1)
Al crescere di n (dimensione del campione) i calcoli necessari diventano difficoltosi; la successiva equazione è
l'espressione matematica che fornisce una formula generale per calcolare qualsiasi probabilità di una distribuzione
binomiale per il nr di eventi di interesse (successi), X, dati i valori di n e π:
n!
P ( X )= π X (1−π)n−X dove:
X ! (n− X )!
P(X) = probabilità di osservare X successi, dati n e π
n = nr di osservazioni
π = probabilità di osservare un successo in una singola prova
1-π = probabilità di non osservare un successo in una singola prova
X = nr di successi nel campione (X=0, 1, 2..., n)
La variabile casuale binomiale può assumere qualsiasi valore intero compreso tra 0 e n. Il prodotto π X (1−π )n− X
n!
rappresenta la probabilità di ottenere X successi in n prove, in una particolare sequenza. Il termine
X ! ( n−X )!
rappresenta il nr di combinazioni in cui gli X successi possono essere disposti nelle n prove. Dato il nr di
osservazioni n, e la probabilità di successo π, la probabilità di osservare X eventi di interesse (successi) è:
n!
P(X) = (nr di possibili sequenze) x (probabilità di una particolare sequenza) = π X (1−π)n− X
X ! ( n−X )!
Per evitare calcoli troppo complessi, si possono usare le probabilità di una serie di variabili casuali binomiali per una
serie di combinazioni di n e π nei fogli stampati.
Quando π=0.5 la distribuzione binomiale è simmetrica, indipendentemente dal valore di n; quando π≠0.5 la
distribuzione è asimmetrica. Tanto più π è vicino a 0.5 e tanto più grande p il nr di osservazioni n, tanto più
l'asimmetria della distribuzione diminuisce.
La media (o valore atteso) della distribuzione binomiale è uguale al prodotto di n per π (cioè al nr di prove n
moltiplicato per la probabilità di successo π). Si può applicare l'equazione μ = E(X) = nπ per calcolare la media delle
variabili casuali che seguono la distribuzione binomiale.
DISTRIBUZIONE DI POISSON
La distribuzione di Poisson può essere utilizzata per calcolare le probabilità che un'unità continua o un intervallo di
tempo, volume, o qualsiasi area fisica nel quale un evento può verificarsi più di una volta (area di opportunità).
Devono, però, esser soddisfatte le seguenti proprietà: si è interessati a contare il nr di volte che un particolare evento
si verifica in una data area di opportunità; la probabilità che si verifichi in una data area di opportunità è la stessa per
tutte le aree di opportunità; il nr di eventi che si verificano in un'area di opportunità è indipendente dal nr di eventi
che si verificano in un'altra qualsiasi area di opportunità; la probabilità che due o più eventi si verifichino in un'area
di opportunità si avvicina allo 0 se l'area di opportunità diventa più piccola.
e−λ λ X
P ( X )= dove:
X!
P(X) = probabilità di X eventi in un'area di opportunità
λ = nr atteso di eventi
e = nr di Nepero, costante matematica approssimata a 2.71828
X = nr di eventi (X=0, 1, 2,..., ∞)
CAP VI
LA DISTRIBUZIONE NORMALE
Distribuzioni continue di probabilità: una funzione di densità di probabilità è un'espressione matematica che descrive
la distribuzione dei valori assunti da una variabile casuale continua (guarda figura pg. 194)
La distribuzione normale (o gaussiana): è la variabile casuale continua più utilizzata in statistica, questo perché:
molti fenomeni descrivibili mediante variabili continue hanno una distribuzione che può essere ritenuta
approssimativamente normale, può essere utilizzata anche per approssimare una serie di variabili casuali discrete,
fornisce le basi per l'inferenza statistica classica, attraverso il teorema limite centrale.
La distribuzione normale è rappresentata dalla classica curva a campana. Si può calcolare la probabilità di osservare
dei valori in un dato intervallo, ma non la probabilità che si verifichi esattamente un particolare valore. Tale
probabilità, nelle distribuzioni continue come nella distribuzione normale, è pari a 0. Questa caratteristica distingue le
variabili casuali continue, che attengono a operazioni di misurazioni, dalle variabili casuali discrete, che per lo più
riguardano operazioni di conteggio.
Nella pratica, molte variabili hanno una distribuzione che presenta caratteristiche molto simili a quelle teoriche della
distribuzione normale.
L'espressione matematica con cui si definisce una funzione di densità di probabilità per una variabile casuale
continua si denota con il simbolo f(X) e, nello specifico, la funzione di densità di probabilità normale è data
1 2
dall'equazione: f ( X )= e−(1/ 2)[( X −μ)/σ ] dove:

√ 2πσ
e = nr di Nepero, costante matematica approssimata a 2.71828
π = costante matematica pari a ca 3.14159
μ = valore medio della variabile casuale
σ = scarto quadratico medio della variabile casuale
X = un qualunque valore della variabile casuale continua, con -∞ < X < +∞
Poiché sia e che π sono costanti matematiche, le probabilità della variabile casuale X dipendono dai due parametri
della distribuzione normale: il valore medio μ e lo scarto quadratico σ. Ogni volta che viene specificata una
particolare combinazione di μ e σ, viene generata una distribuzione normale differente.
Il primo passo per calcolare le probabilità di una distribuzione normale è l'uso della formula di standardizzazione
X −μ
data dall'equazione: Z= σ che serve a trasformare una variabile casuale normale X in una variabile casuale
normale standardizzata Z. E' dato dalla differenza tra il valore X ed il suo valore medio μ diviso per lo scarto
quadratico medio σ.
Sebbene la variabile casuale originaria X abbia un certo valore medio μ ed un certo scarto quadratico medio σ, la
variabile casuale standardizzata Z avrà sempre un valore medio μ=0 e uno scarto quadratico medio σ=1.
Qualunque insieme di valori assunti da una variabile casuale normale può essere standardizzato e, successivamente, è
possibile calcolare le probabilità desiderate utilizzando le tab stampate. Lo scarto quadratico medio è la sua unità di
misura.
Finora abbiamo affrontato problemi in cui sono state calcolate le probabilità corrispondenti a specifici valori X di una
variabile casuale normale. Ci sono casi però in cui è necessario risolvere il problema inverso: trovare il valore X
corrispondente ad una certa probabilità. Una volta trovato il valore Z corrispondente alla probabilità data, per
X −μ
determinare il valore di X si deve ricorrete alla formula inversa dell'equazione Z= σ ovvero X = μ+Zσ cioè la
somma fra il valore medio μ ed il prodotto del valore Z per lo scarto quadratico medio σ.
Quindi, per trovare un particolare valore associato ad una probabilità data, si devono compiere i seguenti passi:
disegnare la curva a campana ed indicare il valore medio per la X e per la Z; disegnare l'area cumulata fino a X;
evidenziare tale area; trovare il valore Z corrispondente alla probabilità data ricorrendo alla tab; applicare l'equazione
X = μ+Zσ e risolverla rispetto ad X.
Valutare la normalità dei dati: molte variabili continue, anche in contesti differenti, seguono la distribuzione
normale. Vi sono ulteriori due approcci per verificare se un insieme di dati può essere approssimato con una
distribuzione normale: 1) confrontare le caratteristiche dei dati con le caratteristiche teoriche della distribuzione
normale; 2) costruire il normal probability plot
1) la variabile casuale normale ha una serie di caratteristiche teoriche che possono essere riassunte in: è simmetrica,
per cui il valore medio è uguale al valore mediano; ha una forma a campana; il campo di variazione interquartile è
pari a 1.33 volte lo scarto quadratico medio; il campo di variazione è approssimativamente uguale a 6 volte lo scarto
quadratico medio. E' necessario verificare se i dati provengano da una distribuzione normale. Si possono confrontare
le caratteristiche dei dati osservati e quelle della variabile casuale normale che dovrebbe aver generato i dati,
attraverso la seguente procedura: si costruiscano i grafici e si guardino i dati: per insiemi di dati poco numerosi si può
costruire un grafico ramo-foglia o un boxplot, per quelli numerosi è meglio considerare un istogramma o un poligono
delle frequenze. Si calcolino le statistiche descrittive e si confrontino le caratteristiche teoriche della distribuzione
normale, si confronti la media dei dati con la mediana, e si verifichi che siano, rispettivamente, circa 1.33 volte lo
scarto quadratico medio e circa 6 volte lo stesso. Si valuti come si distribuiscono i dati: circa 2/3 dei dati siano
contenuti in un intervallo centrato sulla media e di semi-ampiezza pari ad uno scarto quadratico medio (μ±1σ). Si
verifichi che approssimativamente i 4/5 dei dati siano contenuti in un intervallo centrato sulla media e di semi-
ampiezza pari a 1.28 volte lo scarto quadratico medio (μ±1.28σ). Si valuti, infine, se una percentuale di dati pari a 19
su 20 (95% dei dati) ai compresa in un intervallo centrato sulla media e di semi-ampiezza pari a 2 volte lo scarto
quadratico medio (μ±2σ).
2) è una rappresentazione grafica utile a valutare la normalità dei dati. Un metodo comunemente utilizzato è quello
chiamato q-q plot, o anche quantile-quantile plot, che prevede in un primo luogo il calcolo dei quantili della
distribuzione normale standardizzata, ovvero dei valori di Z corrispondenti alle posizioni relative ai dati ordinati.
Per costruire il q-q plot si pongono i quartili della Z sull'asse delle ascisse X ed i corrispondenti valori della variabile
in esame sull'asse delle ordinate Y. Se i dati si distribuiscono normalmente, i punti si disporranno
approssimativamente lungo una retta. Se i dati presentano un'asimmetria negativa (con una coda a sx), i punti
individueranno una curva che cresce più rapidamente all'inizio mentre si stabilizza alla fine. Se i dati sono
asimmetrici positivi (con una coda a dx), i punti si presenteranno come una curva che cresce lentamente all'inizio e,
in corrispondenza dei valori più alti, cresce più rapidamente.
CAP VII
ELEMENTI DI CAMPIONAMENTO E DISTRIBUZIONI CAMPIONARIE
Attraverso i metodi di campionamento statistico si preferisce porre l'attenzione sulle modalità per selezionare un
gruppo di unità statistiche che sia rappresentativo dell'intera popolazione e si vogliono impiegare i risultati
campionari per stimare alcuni parametri della popolazione. I motivi per cui è necessario ricorrere al campionamento
sono tre: occorre meno tempo per selezionare un campione rispetto alla selezione di un'intera popolazione; è più
economico rilevare le informazioni sulle unità statistiche campionarie; è più facile e pratico analizzare le
informazioni campionarie che non i dati relativi all'intera popolazione.
Ogni processo di campionamento inizia con la lista della popolazione, ovvero l'elenco di tutte le unità statistiche che
appartengono alla popolazione d'interesse. Questa lista in genere proviene da archivi, anagrafi, basi di dati... il
campione viene estratto da tali liste. Se le analisi venissero svolte da liste di popolazioni differenti, si otterrebbero
risultati diversi. Dopo aver definito la lista, è necessario selezionare le unità statistiche campionarie e, a seconda della
modalità di selezione, i metodi di campionamento possono essere divisi in due gruppi: metodi probabilistici e metodi
non probabilistici.
Nel caso dell'ultimo metodo, le unità statistiche vengono estratte senza che sia nota la loro probabilità di inclusione
nel campione. Quindi non è possibile applicare a questi campioni la teoria dell'inferenza statistica. Uno dei tipi più
comuni di questo metodo è il campionamento di convenienza o di comodo, in cui le unità statistiche entrano a far
parte del campione perché facile, economico e conveniente, appunto, selezionarle.
Alle volte i partecipanti delle indagini si autoselezionano, per ex, nei casi delle aziende che offrono ai clienti che
visitano i loro siti internet l'opportunità di compilare e inviare questionari di soddisfazione in formato elettronico.
Per alcuni tipi di ricerche, invece, è possibile adottare solo un campionamento non probabilistico del tipo a scelta
ragionata: si possono condurre interviste ad esperti di un certo settore o materia, noti pure come testimoni
privilegiati. E' bene ricordare che, per quanto possano essere ben informati, non è possibile generalizzare i risultati
sull'intera popolazione. Questo tipo di campionamento ha sicuramente una serie di vantaggi quali rapidità,
economicità e convenienza. Questi vantaggi, però, possono comunque essere trascurabili se si pensa all'inaccuratezza
dei risultati dovuta alla distorsione introdotta dal metodo di selezione e all'impossibilità di applicare gli strumenti di
statistica inferenziale. Tuttavia, ci sono casi in cui per ogni unità statistica è nota la probabilità di inclusione del
campione. Dato che i campionamenti probabilistici consentono di ottenere risultati non distorti per la popolazione di
interesse sulla base delle regole dell'inferenza, fin quando è possibile sarebbe opportuno utilizzare questo tipo di
campionamento. Quelli più comunemente utilizzati sono il campionamento casuale semplice, il campionamento
sistematico, il campionamento stratificato ed il campionamento a grappoli.
Campionamento casuale semplice: tutte le unità statistiche della popolazione hanno la stessa probabilità di
inclusione, ovvero la stessa probabilità di essere selezionate per il campione. In questo schema viene fissata
l'ampiezza, qualunque campione di quella numerosità ha la stessa probabilità di essere estratto. Nello schema del
campionamento casuale semplice, n indica l'ampiezza o la numerosità del campione; mentre N rappresenta la
numerosità della popolazione di riferimento. Se si numerano tutte le unità statistiche nella lista, da 1 a N, la
probabilità che un singolo elemento venga selezionato alla prima estrazione è pari a 1/N.
Le unità statistiche possono essere selezionate con o senza reimmissione: con reimmissione (o con ripetizione), dopo
aver estratto e osservato un'unità, la si reinserisce nella popolazione e avrà nuovamente le stesse probabilità
precedenti all'estrazione. Questo procedimento viene ripetuto n volte cioè fino all'estrazione degli n soggetti
campionari. Ovviamente nessuno vorrebbe che venisse estratto due volte lo stesso soggetto ma con questo schema è
un evento che può accadere. Per evitare ciò si può adottare uno schema di campionamento senza reimmissione (o
senza ripetizione) in cui, una volta estratto, un soggetto non può essere estratto nuovamente. La probabilità che un
determinato soggetto venga selezionato alla prima estrazione è pari a 1/N. Il primo soggetto estratto viene messo da
parte, e quindi la probabilità che un certo soggetto venga selezionato alla seconda estrazione è pari a 1/(N-1). Anche
in questo caso, il processo di estrazione continua fino a che non siano stati selezionati n soggetti.
Indipendentemente dallo schema utilizzato, il metodo di “estrazione dell'urna” ha un grande difetto che riguarda la
difficoltà di mescolare realmente i biglietti e di selezionarne uno a caso. Nella pratica, il metodo dell'urna non è
molto utile ed è necessario impiegare un metodo meno artigianale e più scientifico: uno di questi metodi è l'uso della
tavola dei nr casuali (tab stampate). Essa è una serie di nr tabulati sulla base di una sequenza di nr generati
casualmente. Poiché il sistema di generazione dei nr casuali si basa sulle 10 cifre (0, 1, 2... 9) la probabilità di
generare una particolare cifra è uguale a quella di generarne un'altra, e tale probabilità è pari a 1/10. Dato che ogni
cifra, o sequenza di cifre, nella tavola è casuale, essa può essere letta sia orizzontalmente che verticalmente. Per
generare un campione casuale con la tavola dei nr casuali al posto dell'urna, è necessario assegnare un codice
numerico a ciascun individuo della popolazione. Quindi poi sarà sufficiente generare la sequenza di nr casuali
utilizzando la tavola e selezionare quegli individui il cui codice numerico corrisponda ai nr casuali generati.
N
Campionamento sistematico: la popolazione di N soggetti viene divisa in n gruppi di k soggetti: k = il valore di
n
k, detto anche passo di campionamento, viene approssimato all'intero più vicino. Per procedere al campionamento
sistematico è necessario selezionare a caso un soggetto tra i primi k nella popolazione, per poi selezionare i restanti
n-1 soggetti prendendo un soggetto in ogni k. Sebbene il campionamento casuale semplice ed il campionamento
sistematico siano i più semplici, solitamente sono anche i meno efficienti di altri metodi di campionamento
probabilistici più sofisticati. Il campionamento sistematico ha maggiori probabilità di distorsioni di selezione e
mancanza di rappresentatività rispetto al campionamento casuale semplice.
Campionamento stratificato: la popolazione di N soggetti viene suddivisa in varie sottopopolazioni, dette strati. Uno
strato e una sottopopolazione che viene definita sulla base di qualche caratteristica comune (detta variabile di
stratificazione), quale per ex il sesso o l'anno di iscrizione a scuola. Successivamente si estrae un campione casuale
semplice da ciascuno strato, per poi combinare i sottocampioni in un unico campione. Il campionamento stratificato è
molto più efficiente del campionamento casuale semplice che del campionamento sistematico poiché garantisce che
le varie sottopopolazioni siano adeguatamente rappresentate nel campione.
Campionamento a grappolo: le N unità statistiche della popolazione sono divise in gruppi, o grappoli, in cui ciascun
gruppo è rappresentativo di per sé dell'intera popolazione. Se i gruppi sono molto grandi spesso è sufficiente
considerare l'estrazione casuale di un solo gruppo. E' generalmente più economico del campionamento casuale
semplice, in particolare se la popolazione è sparpagliata su un ampio territorio. Tuttavia ha bisogno di numerosità
campionarie più ampie rispetto al campionamento casuale semplice e stratificato per produrre stime altrettanto
precise.
Errore standard della media: è dato dello scarto quadratico medio della popolazione σ, diviso per la radice quadrata
della numerosità campionaria n: σ X̄ = σ
√n
Il teorema limite centrale: afferma che, quando la numerosità campionaria (il nr di osservazioni che compongono un
campione) è sufficientemente elevata, la distribuzione della media campionaria assume una forma
approssimativamente normale. Questo è sempre vero ed è indipendente dalla forma che la distribuzione della
variabile di interesse ha nella popolazione.
LA DISTRIBUZIONE PROPORZIONE CAMPIONARIA: la proporzione campionaria, denotata con ρ, rappresenta

la proporzione di casi, nel campione, che si collocano nella modalità di “successo”. E' una statistica campionaria che
viene usata per stimare il parametro proporzione della popolazione. Le modalità 1 e 0 rappresentano rispettivamente
il valore associato alla modalità di successo e quello associato all'insuccesso (ovvero la presenza e l'assenza della
modalità che si sceglie come privilegiata per l'analisi). Questo modello probabilistico prende il nome di variabile
casuale bernoulliana. La variabile casuale di Bernoulli può assumere solo due valori, 1 e 0, con probabilità
rispettivamente π e 1-π.
Proporzione campionaria: assume valori che variano tra 0 e 1. Se tutti i casi ricadono della categoria di successo, a
ciascuna osservazione nel campione verrà assegnato un valore 1 e, pertanto, si avrà che p=1. Se metà delle
osservazioni si colloca nella modalità di successo, allora si avrà che a una metà dei casi corrisponderà il valore 1 e
all'altra il valore 0, dunque p=0.5. Se nessuna osservazione nel campione si collocherà nella modalità di successo, a
X numero di casi che assumono la modalità di interesse
tutti i casi verrà assegnato valore 0, dunque p=0. p= =
n numerosità campionaria
La distribuzione proporzione campionaria si distribuisce come binomiale. Tuttavia, sarà possibile anche far
riferimento alla normale in quanto binomiale si può approssimare con una distribuzione normale quando nπ e n(1-π)
sono almeno uguali a 5.
CAP VIII
INTERVALLI DI CONFIDENZA
Nel ragionamento deduttivo la conclusione si fonda sul considerare vero qualcosa in generale (per la popolazione)
per poi applicarla ad un caso particolare (le medie campionarie).
Si utilizza il ragionamento induttivo per ottenere conclusioni più generali, partendo da casi particolari.
Esistono due tipi di stima: stima puntuale, nella quale il valore di una statistica campionaria, detto stimatore, viene
assunto come valore stimato del parametro; stima intervallare, nella quale si fornisce un insieme di valori, un
intervallo appunto, costituito attorno alla stima puntuale, entro cui il parametro può ragionevolmente essere
compreso.
Determinare la numerosità campionaria: nella rappresentazione degli intervalli di confidenza sviluppata sin qui, la
numerosità del campione è stata riportata come se fosse uno dei dati del problema. Nel mondo reale, le dimensioni
campionarie non sono date, vengono determinate in modo da assicurare che l'intervallo di confidenza sia abbastanza
accurato per essere utile nel prendere decisioni. Determinare la dimensione appropriata del campione è una procedura
complicata, soggetta a vincoli di bilancio, a questioni di tempo ed all'ammontare di un errore campionario che si è
disposti ad accettare.
Calcolo della numerosità campionaria per la stima della media: per sviluppare un'equazione con il fine di calcolare
la numerosità del campione per la costruzione di un intervallo di confidenza per la media, si riprende l'equazione:
̄ ± Z α/ 2= σ
X
√n
Il valore sottratto e aggiunto alla media campionaria X è uguale alla metà dell'ampiezza dell'intervallo di confidenza.
Questa quantità rappresenta l'ammontare di imprecisione nella stima che deriva dall'errore campionario. L'errore
campionario è definito come: e=Z α/2= σ
√n
Risolvendo per n si ottiene la dimensione campionaria necessaria per costruire la stima per intervallo di confidenza
appropriata per la media.
Calcolo della numerosità campionaria per la media: è pari al prodotto del quadrato di Z α / 2 per la varianza σ 2
Z 2 σ2
diviso il quadrato dell'errore campionario e 2 : n= α/22
e
Per calcolare la numerosità campionaria si devono prendere decisioni circa i tre fattori che intervengono nel calcolo:
livello di confidenza desiderato che determina il valore di Z α / 2 , il valore critico della distribuzione normale
standard; ammontare di errore campionario, e, che si è disposti ad accettare; scarto quadratico medio, σ, ovvero la
varianza σ 2
Calcolo della dimensione campionaria per la proporzione: finora abbiamo visto come calcolare la numerosità
campionaria necessaria per stimare la media della popolazione. Adesso si supponga di voler determinare la
dimensione campionaria necessaria per la stima della proporzione della popolazione. Per il calcolo della dimensione
necessaria per la stima della proporzione della popolazione, π, si utilizza un metodo simile a quello della media della
popolazione. Si ricordi che per determinare la dimensione campionaria di un intervallo di confidenza per la media,
l'errore campionario è definito come: e=Z α/2= σ
√n
Quando si stima la proporzione, si sostituisce σ con √ π(1−π) : e=Z α/2=
√
π(1−π)
n
La dimensione campionaria ha tre fattori: livello di confidenza desiderato, il quale determina il valore di Z α / 2 cioè
il valore critico della distribuzione normale standard; ammontare accettabile di errore campionario (o margine di
errore), e; proporzione della popolazione, π. Per fissare la numerosità è necessario fissare queste tre quantità.
CAP IX
I FONDAMENTI DELLA VERIFICA DELLE IPOTESI: TEST BASATI SU UN SOLO CAMPIONE
Nel cap VII sono stati illustrati metodi per determinare se la media campionaria fosse coerente con la media della
popolazione. Ora si vuole utilizzare l'informazione relativa alla media campionaria per verificare la validità di
un'affermazione fatta sulla media della popolazione. In questi casi è utile un metodo inferenziale detto verifica delle
ipotesi o test delle ipotesi. La procedura consiste nell'esaminare il valore di una statistica campionaria per verificare
se essa supporti l'affermazione formulata, detta ipotesi nulla, o se fornisca elementi a supporto dell'ipotesi alternativa,
mutualmente esclusiva alla prima.
Principi base della verifica delle ipotesi: metodologia dei test: ipotesi nulla e ipotesi alternativa: è sempre riferita allo
status quo e si indica con il simbolo H 0 . L'ipotesi nulla si riferisce all'intera popolazione. Potrebbe accadere che i
dati campionari indichino che l'ipotesi nulla sia falsa e, in tal caso, qualcos'altro dovrebbe essere vero. Ogni volta che
si specifica un'ipotesi nulla, si determina anche un'ipotesi alternativa, che dovrebbe essere vera se la prima è falsa.
L'ipotesi alternativa, H 1 , è l'opposto dell'ipotesi nulla H 0
L'ipotesi alternativa rappresenta la conclusione che si giunge dopo aver rifiutato l'ipotesi nulla. Ciò avviene quando, a
partire dalle info ricavate dal campione, vi è sufficiente evidenza empirica circa la sua non veridicità. Se non si può
rifiutare l'ipotesi nulla, si continuerà a credere nello status quo. In questo caso, però, non è provato che il processo si
svolga senza problemi: si può affermare che non è stato possibile provare che il processo funzioni in maniera
scorretta e, per questo motivo, l'ipotesi nulla è ancora valida.
Nei test delle ipotesi, l'ipotesi nulla si rifiuta solo quando l'evidenza dei dati campionari suggerisce che è molto più
probabile che l'ipotesi alternativa sia vera. Il non aver potuto rifiutare l'ipotesi nulla, però, non prova che questa sia
vera. Non sarà mai possibile verificare la veridicità dell'ipotesi nulla, in quanto la decisione che viene presa nel test è
basata esclusivamente sulle informazioni campionarie, e non sull'intera popolazione. Nel formulare ipotesi è bene
tener conto di: l'ipotesi nulla rappresenta lo status quo o il pensiero corrente o quanto afferma la teoria corrente;
l'ipotesi alternativa è l'opposto di quella nulla e rappresenta l'affermazione o la teoria che si vuole verificare; se si
rifiuta l'ipotesi nulla allora si ha una prova statistica che l'ipotesi alternativa sia corretta; se non si rifiuta l'ipotesi
nulla vuol dire che non è stato possibile provare la veridicità dell'ipotesi alternativa ma ciò non significa che sia stata
comprovata l'ipotesi nulla: l'ipotesi nulla si riferisce sempre ad uno specifico valore di un parametro della
popolazione non ad una statistica campionaria; l'affermazione dell'ipotesi nulla sarà espressa con un'eguaglianza
riguardante uno specifico valore del parametro della popolazione (ex H 0 :μ=368 ); l'affermazione dell'ipotesi
alternativa non conterrà mai un'uguaglianza rispetto ad uno specifico valore del parametro della popolazione (ex
H 0 :μ≠368 )
Il valore critico della statistica test: sulla base delle informazioni campionarie, si cerca di determinare quanto sia
probabile che l'ipotesi nulla sia attendibile. Ovviamente, anche se l'ipotesi nulla fosse vera, è probabile che la
statistica (media campionaria X) differisca dal parametro (media della popolazione μ) a causa della variabilità dovuta
al campionamento. Tuttavia, nel caso in cui l'ipotesi nulla fosse vera, è lecito aspettarsi che la statistica campionaria
risulti molto vicina al parametro della popolazione ipotizzato. Quindi, se il valore della statistica campionaria risulta
vicino a quello del parametro, l'evidenza empirica non consente di rifiutare l'ipotesi nulla. Al contrario, se la
differenza tra il valore della statistica osservata e quello ipotizzato per il parametro della popolazione è ampia, si può
concludere che l'ipotesi nulla sia falsa.
Sfortunatamente, il processo decisionale non è sempre così definito. Lo scopo della verifica delle ipotesi è proprio
quello di fornire regole chiare per valutare le differenze tra la statistica campionaria ed il parametro, oltre che di
quantificare, nell'ambito del processo decisionale, la probabilità di ottenere un certo risultato campionario nel caso in
cui l'ipotesi nulla sia vera. Questa probabilità si calcola sulla base della distribuzione della statistica campionaria di
riferimento e del valore osservato della statistica test. Poiché spesso la statistica test segue una ben nota distribuzione
statistica, come la normale standard o la t, si useranno queste distribuzioni per valutare in termini probabilistici
l'ipotesi nulla.
Regioni di rifiuto e di accettazione: due regioni della distribuzione campionaria della statistica test sono la regione di
rifiuto (o regione critica) e la regione di accettazione. Se il valore osservato della statistica test appartiene alla regione
di accettazione, allora non si rifiuta l'ipotesi nulla. Al contrario, se quel valore è appartenente alla regione di rifiuto,
allora la si rifiuta. Quest'ultima regione è composta da quei valori della statistica test che sono improbabili nel caso in
cui l'ipotesi nulla sia vera e che sono molto più probabili nel caso in cui l'ipotesi nulla sia falsa. Quindi, se un valore
della statistica test appartiene alla regione di rifiuto, si rifiuta l'ipotesi nulla perché tale valore è improbabile nel caso
in cui l'ipotesi nulla sia vera.
Per poter prendere una decisione riguardo all'ipotesi nulla occorre, quindi, determinare il valore critico della statistica
test, ovvero quel valore soglia che divide la regione di accettazione da quella di rifiuto. Il valore critico dipende
dall'ampiezza della regione di rifiuto che è direttamente correlata al rischio insito nell'uso delle sole informazioni
campionarie per prendere decisioni su un parametro della popolazione.
I rischi del processo decisionale legato alla verifica delle ipotesi: quando si utilizza una statistica campionaria per
prendere decisioni su un parametro della popolazione, c'è il rischio che si giunga a conclusioni errate. Applicando
una procedura di verifica delle ipotesi si possono, infatti, commettere due tipi di errore: errore di I tipo, quando si
rifiuta l'ipotesi nulla H 0 nonostante essa sia vera e quindi non dovrebbe essere rifiutata. La probabilità che si
verifichi un errore di I tipo si indica con α; errore di II tipo, quando non si rifiuta l'ipotesi nulla H 0 nonostante essa
sia falsa, e quindi dovrebbe essere rifiutata. La probabilità che si verifichi un errore di II tipo si indica con β.
Un errore di I tipo è una sorta di “falso allarme”; viceversa, si commetterebbe un errore di II tipo se si prendesse la
decisione che la media di popolazione è 368 mentre, invece, non è 368.
Livello di significatività (α): la probabilità di commettere un errore di I tipo α è detta livello di significatività del test.
Si decide di tenere sotto controllo il rischio di commettere l'errore di I tipo fissando il livello del rischio α che si è
disposti a correre nel rifiutare l'ipotesi nulla quando questa è vera. Poiché il livello di significatività si specifica prima
di eseguire il test, il rischio di commettere un errore di I tipo è direttamente sotto controllo e si scelgono livello di
significatività pari a 0.01, 0.05 e 0.10.
Coefficiente di confidenza: è il complemento della probabilità di avere un errore di I tipo (1-α). E' quindi la
probabilità di non rifiutare l'ipotesi nulla H 0 quando questa è vera. Il livello di confidenza di un test è pari al
coefficiente di confidenza moltiplicato per 100: (1-α)x100
Il rischio β: la probabilità di commettere un errore di II tipo dipende dalla differenza tra il valore ipotizzato del
parametro a quello reale. E' più facile che grandi differenze vengano rilevate dal test quando la differenza tra il valore
ipotizzato ed il parametro reale della popolazione è grande, β sarà piccolo.
Potenza di un test: è il complemento a 1 di probabilità di commettere un errore di II tipo (1-β). La potenza di un test è
la probabilità che si rifiuti l'ipotesi nulla quando questa è effettivamente falsa.
I rischi del processo decisionale: dato il livello di significatività α è possibile ridurre la probabilità di commettere un
errore di II tipo aumentando la numerosità campionaria. Un'ampia numerosità campionaria consente di individuare
anche piccole differenze tra il valore ipotizzato del parametro e quello effettivo. Per un certo livello di α, infatti,
all'aumentare della dimensione del campione, β diminuisce e, di conseguenza, aumenta la potenza del test, ossia la
probabilità di rifiutare l'ipotesi nulla H 0 quando sia effettivamente falsa. Tuttavia esistono sempre limiti alle risorse
a disposizione che condizionano la numerosità campionaria che si può adottare. Dunque, per una certa dimensione
del campione, si deve sempre operare un bilanciamento tra i due tipi di errore. Poiché il rischio di commettere un
errore di I tipo è direttamente controllabile, è possibile ridurlo scegliendo un livello di α più contenuto.
Se è possibile assumere che la popolazione sia distribuita normalmente e quando lo scarto quadratico medio σ è noto,
cosa che raramente accade, si usa il test Z per la media. Se, invece, non si può assumere che la popolazione sia
distribuita normalmente, si può utilizzare ugualmente il test Z, nel caso in cui però la numerosità campionaria sia
sufficientemente grande affinché sia valido il teorema limite centrale.
X̄ −μ
Statistica test Z per la media (σ noto): Z STAT = σ
√n
La verifica delle ipotesi mediante il valore critico: un metodo per condurre una verifica delle ipotesi consiste nel
confrontare il valore osservato della statistica test Z STAT derivato dall'equazione sovrastante con valori critici. In
questo caso, i valori critici sono espressi come valori Z standardizzati (ovvero espressi in termini di errore standard).
Poiché la regione di rifiuto è ripartita nelle due code della distribuzione (cosiddetto test a due code), è necessario
dividere l'ampiezza totale pari a 0.05 in due parti uguali, ognuna di 0.025. I valori critici cercati che dividono la
regione di rifiuto da quella di accettazione, sono rispettivamente -1.96 e +1.96 (secondo la tab).
Sei fasi per la verifica delle ipotesi mediante il valore critico: formulare l'ipotesi nulla H 0 e l'ipotesi alternativa
H 1 ; scegliere il livello di significatività α e la numerosità del campione n. La scelta del livello di significatività è
connessa all'importanza relativa di commettere un errore di I tipo o di II tipo nel problema in esame; determinare la
statistica test più appropriata e la sua distribuzione campionaria; calcolare i valori critici che determinano la regione
di rifiuto e quella di accettazione; raccogliere i dati e calcolare il valore campionario della statistica test; prendere una
decisione statistica e descriverne le conseguenze. Se il valore della statistica test cade nella regione di accettazione,
non rifiutiamo l'ipotesi nulla. Se, invece, cade nella regione di rifiuto, la rifiutiamo. Le conclusioni vanno poi
descritte nei termini del problema reale che si sta affrontando.
P-value: è la probabilità di ottenere un valore della statistica test uguale o più estremo del risultato campionario,
nell'ipotesi che H 0 sia vera. Il p-value è anche chiamato livello di significatività osservato.
Se p-value è maggiore o uguale ad α, l'ipotesi nulla non si rifiuta; se p-value è minore di α, si rifiuta l'ipotesi nulla.
Se il p-value è basso, allora H 0 è falsa.
TEST t PER LA VERIFICA DELLE IPOTESI SULLA MEDIA (σ INCOGNITO): in quasi tutte le situazioni reali in
cui si utilizza la verifica delle ipotesi per la media della popolazione μ, lo scarto quadratico medio della popolazione
X̄ −μ
non sarà noto e quindi sarà necessario stimarlo attraverso lo scarto quadratico medio campionario S: t STAT =
S
√n
CAP XII
REGRESSIONE LINEARE SEMPLICE: ha lo scopo di stimare i valori di una variabile quantitativa a partire da
quelli osservati di un'altra variabile (o più variabili). Nell'analisi di regressione la variabile i cui valori sono da
stimare viene detta variabile dipendente, mentre quella da cui questi valori in certa misura “dipendono” viene
chiamata variabile indipendente.
Oltre ad ottenere valori numerici per la variabile dipendente, il modello di regressione permette anche di identificare
il tipo di relazione matematica che intercorre tra la variabile indipendente e quella dipendente.
Il modello della regressione lineare semplice è il modello più semplice possibile in cui una singola variabile
indipendente (di tipo quantitativo), X, viene usata per stimare e prevedere i valori di un'altra variabile, detta
dipendente e anch'essa di tipo quantitativo, Y. Un'ulteriore semplificazione di tale modello è quella di considerare
lineare la relazione tra X e Y.
Tipologie dei modelli di regressione: l'uso del diagramma a dispersione è volto ad esaminare la relazione che esiste
tra due variabili X e Y. La natura della relazione che sussiste tra le due variabili può essere rappresentata da funzioni
matematiche di svariato tipo. La tipologia di relazione più semplice è quella lineare, che viene descritta come una
funzione nella quale, le due variabili, corrispondono ad una retta: Y i =β0+ β1 X 1+ εi dove:
β0 = intercetta sull'asse Y nella popolazione
β1 = coefficiente angolare nella popolazione
εi = errore nel valore della Y per l'i-esima osservazione
Y i = valore osservato della variabile dipendente (detta anche variabile di risposta) per l'i-esima osservazione
X i = valore osservato della variabile indipendente (detta anche variabile esplicativa) per l'i-esima osservazione
Nell'equazione sovrastante, l'espressione Y i =β0 + β1 X 1 è l'equazione di una retta che mette in relazione nel
modello le due variabili. Il coefficiente angolare (inclinazione) β1 di questa retta rappresenta la variazione attesa
della Y per variazioni unitarie della variabile X. Rappresenta, quindi, l'ammontare medio del cambiamento della Y
(positivo che negativo) quando la X varia di una sola unità. L'intercetta sull'asse Y, β0 , rappresenta invece il valore
medio della variabile Y quando il valore di X è uguale a 0. L'altra componente del modello di regressione, εi ,
rappresenta la componente erratica osservata sulla Y per l'osservazione i-esima. In altre parole, per l'osservazione i-
esima εi è lo scostamento casuale, la distanza verticale del valore osservato Y i da quello atteso che si trova sulla
retta di regressione. La componente εi è detta anche residuo del modello ed è il termine che trasforma il modello di
regressione da un modello matematico a statistico-probabilistico.
Anche se il diagramma di dispersione è un utile strumento esplorativo per indagare la relazione che sussiste tra due
variabili, vi sono un'ulteriore serie di strumenti più sofisticati e oggettivi per riconoscere quale sia il tipo di relazione
che intercorre tra due variabili.
Il metodo dei minimi quadrati: la retta è un modello statistico plausibile per la relazione tra le due variabili X
(ampiezza) e Y (volume) relative all'intera popolazione di negozi. Se determinate assunzioni sono verificate, allora
risulta possibile utilizzare l'intercetta b0 calcolata sui dati campionari, ed il coefficiente angolare b1 calcolato
sempre sul campione come stime dei rispettivi parametri della retta della popolazione β0 e β1 . Si usano queste
stime per ottenere il modello di regressione lineare stimato. La retta, descritta dall'equazione seguente, viene detta
retta di regressione Ŷ i =b0 + b1 X 1 dove:
Ŷ i = valore stimato di Y per l'osservazione i
X i = valore di X per l'osservazione i
b0 = intercetta stimata a partire dal campione
b1 = coefficiente angolare stimato a partire dal campione

Appunti Di Statistica

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Appunti Di Statistica

Caricato da

Copyright:

Formati disponibili

CAP I

VARIABILE: caratteristica/fenomeno misurabile, osservato su individui (sesso, livello di istruzione, lavoro...) od

∑ Xi = sommatoria di tutte le X i nel campione

Range = X più grande− X più piccolo

∑ ( X i− X̄ )=0 per tutte le serie di dati

TEMPO (X) ( X i2)

STATISTICHE DESCRITTIVE PER LA POPOLAZIONE

∑ ( X i−μ )2 = sommatoria degli scarti al quadrato delle differenze tra i valori di X i e di µ

LA COVARIANZA ED IL COEFFICIENTE DI CORRELAZIONE

Probabilità marginale: si può calcolare sulla base di un insieme di probabilità congiunte:

dall'equazione: f ( X )= e−(1/ 2)[( X −μ)/σ ] dove:

LA DISTRIBUZIONE PROPORZIONE CAMPIONARIA: la proporzione campionaria, denotata con ρ, rappresenta

Potrebbero piacerti anche