Il 0% ha trovato utile questo documento (0 voti)
52 visualizzazioni70 pagine

Statistica

Il documento fornisce una panoramica completa sulla statistica, definendo concetti chiave come collettivo, popolazione, campione e variabili. Vengono descritti metodi per analizzare i dati attraverso indici di tendenza centrale, come moda, mediana e media, e indici di variabilità, come varianza e deviazione standard. Infine, si evidenziano strumenti grafici come il diagramma di Pareto e la funzione di ripartizione per rappresentare e interpretare i dati.
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato DOCX, PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
52 visualizzazioni70 pagine

Statistica

Il documento fornisce una panoramica completa sulla statistica, definendo concetti chiave come collettivo, popolazione, campione e variabili. Vengono descritti metodi per analizzare i dati attraverso indici di tendenza centrale, come moda, mediana e media, e indici di variabilità, come varianza e deviazione standard. Infine, si evidenziano strumenti grafici come il diagramma di Pareto e la funzione di ripartizione per rappresentare e interpretare i dati.
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato DOCX, PDF, TXT o leggi online su Scribd

Quello che mi serve sapere per

non venire bocciato a statistica.


Statistica:
Scienza che mediante metodi qualitativi e quantitativi studia un collettivo per descrivere o prevedere un
fenomeno

Collettivo:
Insieme di unità statistiche oggetto di studio

Popolazione:
Insieme di unità statistiche omogenee rispetto ad alcune caratteristiche (es: maschi, femmine, caratteristica
comune dei membri)

Campione:
Insieme di unità statistiche estratte da una popolazione di cui può essere o meno rappresentativo

Carattere o variabile:
Qualunque attributo che assume valori diversi quando sottoposto ad osservazione (es. colore degli occhi)

Modalità o categorie:
Manifestazioni del carattere (verde, azzurro, celeste, ROSSO CREMISI, ARCOBALENO)

SCALE DI STEVENS:
Variabili MUTABILI: DATI QUALITATIVI
Nominali (mutabile sconnessa) [Operazioni possibili: uguale, diverso.]

Dicotomiche: 2 categorie

Politomiche: >2 categorie

Ordinali (mutabile connessa) [Operazioni possibili: uguale, diverso, maggiore, minore]

Variabili METRICHE: DATI QUANTITATIVI


METRICHE A…

a. INTERVALLI (zero RELATIVO: un numero come tutti gli altri): [Operazioni possibili: uguale, diverso,
maggiore, minore, addizione, sottrazione]
b. RAPPORTI (zero ASSOLUTO: assenza di quel carattere): [Operazioni possibili: uguale, diverso,
maggiore, minore, addizione, sottrazione, moltiplicazione, divisione]
FREQUENZA:
Numero di volte in cui una modalità di una variabile viene osservata

NUMEROSITÀ CAMPIONARIA:
La somma delle frequenze assolute (N)

FREQUENZE CUMULATE:
Somma delle singole frequenze fatta in successione

Quando i dati sono qualitativi c’è DISCONTINUITÀ, poiché sono NETTAMENTE SEPARABILI.

Quando i dati sono quantitativi c’è CONTINUITÀ, poiché in ogni intervallo vi sono infinite modalità.

INTENSITÀ: Frequenza/Ampiezza della classe


Si usa per classi discontinue e serve a fare sì che l’istogramma sia rappresentativo delle frequenze per
classe, poiché dev’essere vero che per tutte le classi il rapporto tra l’area di ciascuna barra e la frequenza
della classe sia costante

FUNZIONE DI RIPARTIZIONE (per caratteri quantitativi solo)


È una funzione che descrive le frequenze cumulate relative F.

È una funzione MONOTONA CRESCENTE e varia da 0 a 1.

F(x) = P (X < x)

La funzione di Ripartizione F(x) è tale che la probabilità di una qualsiasi variabile sia SEMPRE MINORE del
MASSIMO della funzione.

e 0 ≤ F ( x )≤ 1

La funzione è SEMPRE compresa tra 0 e 1.

Si costruisce portando in ordinata le F. Cumulate Relative e in ascissa il limite inferiore di ogni classe.

La funzione di ripartizione permette di identificare rapidamente i quartili della distribuzione.

DIAGRAMMA DI PARETO: Riporta SIA l’istogramma CHE la funzione di ripartizione sullo stesso grafico.

STATISTICA DESCRITTIVA
Branca della statistica che, mediante indici di tendenza centrale, posizione, variabilità e forma, studia e
riassume l’informazione contenuta in un determinato collettivo.

INDICI DI TENDENZA CENTRALE


Gli indici di tendenza centrale sono misure statistiche che rappresentano un valore centrale o tipico
all'interno di un insieme di dati. Questi indici sintetizzano l'informazione in modo da descrivere il
comportamento generale dei dati. I principali indici di tendenza centrale sono:
MODA
è la modalità che ha la frequenza più elevata. Un insieme di dati può avere una moda, più di una moda
(bimodale o multimodale), o nessuna moda se tutti i valori sono unici (distribuzione amodale). È calcolabile
in tutte le scale, ed è centro di ordine zero, ovvero minimizza gli scarti elevati a 0:
0
∑ ( x i−M o ) =min

MEDIANA
È il valore che si trova nel mezzo di un insieme di dati ordinati, lasciando dietro di sé il 50% dei valori e
davanti a sé l’altro 50%: divide i dati in due metà uguali. Se il numero di osservazioni è dispari, la mediana è
il valore centrale. Se il numero di osservazioni è pari, la mediana è la media dei due valori centrali. La
mediana è calcolabile in scale ordinali e metriche, corrisponde al Q2 ed è centro di ordine uno, ovvero
minimizza gli scarti elevati a uno.
1
∑|x i−M e| =min

CALCOLO DELLA MEDIANA


PER SERIE DI VALORI

a. Ordinare i valori
b. Assegnare dei ranghi: posizione in classifica occupata dall’osservazione di una modalità.
N +1
c. Calcolare la posizione mediana (PosMe) =
2
d. Se N è dispari, la Me sarà l’unità statistica che corrisponde alla PosMe
e. Se N è pari, la Me sarà la semisomma tra i due valori centrali della distribuzione. Per
convenzione si assume che la Me abbia come valore la modalità con maggiore frequenza che
capita in contestazione dicotomica nella PosMe. Il problema non si pone se adiacente alla
semisomma tra i due valori centrali della distribuzione, detti valori condividono la stessa
modalità, che sarà appunto la mediana.

DISTRIBUZIONE DI FREQUENZA

a. Calcolare frequenze cumulate assolute (N) o relative (F)


b. Calcolare posizione mediana PosMe = N/2 (o Utilizzare il valore 0.5 se si usano le Frequenze
relative)
c. Cercare la PosMe nelle frequenze cumulate ed evidenziare come mediana il valore
immediatamente successivo

DISTRIBUZIONE DI FREQUENZA PER DATI RAGGRUPPATI IN CLASSI

a. “
b. “
c. Cercare la PosMe nelle frequenze cumulate ed evidenziare come classe mediana la classe
corrispondente a quel valore.
d. Per l’effettivo valore della mediana usare la formula:

e. F-1 si chiama FREQUENZA RETROCUMULATA, LI sarebbe il limite inferiore della classe mediana,
n minuscolo è la frequenza assoluta di quella classe (se si è effettuato il calcolo con F, va usata la F
relativa di quella classe, ed infine A è l’ampiezza.

MEDIA
È il valore medio dei dati ed è calcolata sommando tutti i valori e dividendo il totale per il numero di valori.
La formula per la media aritmetica di un insieme di (n) valori ( x 1 , x 2 … , x n) è:

È l’indice che rappresenta la condizione di equidistribuzione del carattere, ovvero è il baricentro della
distribuzione. Consiste nella somma di tutte le modalità divisa per la numerosità del collettivo. È
calcolabile solo in scale metriche, ed è più sensibile della mediana ai valori estremi (outliers). Si indica con
x

CALCOLO DELLA MEDIA


Serie di valori

Sommatoria di tutti i valori divisa per la numerosità del collettivo

Distribuzione di frequenza

a. Per frequenze assolute: sommatoria delle xi moltiplicate per le frequenze assolute, il risultato
diviso la numerosità del collettivo
b. Per frequenze relative: sommatoria delle xi moltiplicate per le frequenze relative

Per dati raggruppati in classi

Con le frequenze assolute: sommatoria delle ci (quindi dei CENTRI delle classi) moltiplicate per le frequenze
assolute, il risultato diviso la numerosità del collettivo. Con le frequenze relative: sommatoria delle ci
(quindi dei CENTRI delle classi) moltiplicate per le frequenze relative

4. Semisomma interquartilica

Questi indici sono fondamentali in statistica per descrivere e interpretare i dati, offrendo una sintesi
semplice e comprensibile delle caratteristiche principali di un dataset.

Altri indici sono:

VALORE CENTRALE DELLA DISTRIBUZIONE: il valore centrale della


distribuzione del carattere X è definito dalla semisomma dei valori estremi della distribuzione:

min +max
x m=
2
PROPRIETÀ DELLA MEDIA:
INTERNALITÀ

La media è sempre compresa tra il minimo e il massimo della distribuzione

INVARIANZA ALLE TRASFORMAZIONI LINEARI DEL CARATTERE

La media non subisce variazioni rispetto alle trasformazioni lineari del carattere (somma, sottrazione,
divisione, moltiplicazione)

SCARTI

La somma degli scarti di ogni valore della media è SEMPRE UGUALE A 0

∑ ( x i−x ) =0

MINIMI QUADRATI

La media è il centro di ordine due, ovvero minimizza gli scarti elevati al quadrato:
2
∑ ( x i−x ) =min

MEDIA PONDERATA (O GLOBALE)


N 1 ⋅ x 1 + N 2 ⋅ x2
x=
N1+ N2

SEMISOMMA INTERQUARTILICA
Q 1+ Q 3
Mq=
2

INDICI DI POSIZIONE (I QUANTILI)


QUANTILE

Punteggio della distribuzione al di sotto del quale è stata raccolta una certa percentuale di dati (calcolabili
su scala ordinale e metrica)

QUANTILE è un termine generico che si specificizza in base alla suddivisione della distribuzione in:

4 parti – QUARTILE

10 parti – DECILE

100 parti – PERCENTILE

I QUARTILI sono i QUANTILI più utilizzati (vedi curva normale)

La mediana corrisponde al secondo quartile


CALCOLO QUARTILI
SERIE DI VALORI

a. Ordinare i valori
b. Assegnare i ranghi
c. Calcolare posizione quartile (PosQi):
PosQ1 = 1 * (N+1) / 4
PosQ3 = 3 * (N+1) / 4

Il Qi sarà l’unità statistica che corrisponde alla PosQi

DISTRIBUZIONE DI FREQUENZA

a. Calcolare frequenze cumulate assolute o relative (N o F)


b. Calcolare posizione quartile (PosQi):
PosQ1 = 1 * (N) / 4
PosQ3 = 3 * (N) / 4

(O utilizzare F, quindi rispettivamente 0,25 e 0,75 se si utilizzano le frequenze relative cumulate,


anziché usare la formula. Perché tanto q1 e q3 corrisponderanno sempre a 0,25 e 0,75)
c. Cercare la PosQi nelle frequenze cumulate ed evidenziare il valore immediatamente successivo
d. Il Qi sarà la modalità che corrisponde a quel valore

DISTRIBUZIONE DI FREQUENZA PER DATI RAGGRUPPATI IN CLASSI DI VALORI

Stessa identica cosa della distribuzione di frequenza, solo che

e. Per l’effettivo valore del Qi usare la formula:

Qi=LI + [ ρOS Qi−F−1


n ]
⋅A

PER le frequenze assolute, mentre invece la formula:

Qi=LI + [ ρOS Qi−F−1


f ]
⋅A

PER le frequenze relative

INDICI DI DISPERSIONE O VARIAIBLITÀ


Quanto differiscono i dati tra loro? Sono omogenei rispetto al centro?

VARIABILITÀ

Attitudine di un carattere a variare. Se c’è un’elevata dispersione dei dati, significa che c’è un’elevata
variabilità. La variabilità non è mai negativa. La variabilità è uguale a 0 se i punteggi sono tutti uguali tra
loro.

INDICI DI VARIABILITÀ ORDINALI


SEMI-DIFFERENZA INTERQUARTILICA (sappi solo della sua esistenza)
Q3−Q 1
Δq=
2
RANGE O CAMPO DI VARIAZIONE (sappi solo della sua esistenza)

Range = Max – Min

SCOSTAMENTO SEMPLICE MEDIANO (sappi solo della sua esistenza)

1
SSMe = Σ| xi −Me|
N

INDICI DI VARIABILITÀ A LIVELLO METRICO


DIFFERENZA SEMPLICE MEDIA (sappi solo della sua esistenza)

2
SSM = ⋅∑ ∑|x i−x J|
N ( N −1 )
SCOSTAMENTO SEMPLICE MEDIO

1
SSMa= Σ |xⅈ −x|
N
(Praticamente la media degli scarti dalla media, scusa il bisticcio di parole) Una prima forma di calcolo della
variabilità metrica che si approssima alla media, salvo che fa uso dei valori assoluti e dunque non ottiene il
minimo valore possibile, che invece si otterrebbe con i quadrati. Utilizzando i quadrati abbiamo la

DEVIANZA
La somma dei quadrati degli scarti dalla media. Si calcola per:

SERIE DI VALORI
2
DEV =∑ ( x i−x )

DISTRIBUZIONE DI FREQUENZA
2
DEV =∑ ( x i−x ) ⋅ ni

DISTR. DI FREQUENZA PER DATI RAGGRUPPATI IN CALSSI


2
DEV =∑ ( c i−x ) ⋅ni

ATTENZIONE: la DEVIANZA è influenzata dalla numerosità del collettivo. Per ovviare a questo problema, si
utilizza un indice di variabilità migliore, tale indice è detto

VARIANZA ( S2 nel campione OPPURE σ 2 nella popolazione ¿


Ci dice mediamente quanta dispersione/quanto scarto c’è tra i singoli punteggi e la media aritmetica.

SERIE DI VALORI

2 1 2
S= ∑ ( x i− x )
N
DISTRIBUZIONE DI FREQUENZA
2 1 2
S= ∑ ( x i− x ) ⋅ni
N
DISTR. DI FREQUENZA PER DATI RAGGRUPPATI IN CALSSI

2 1 2
S= ∑ ( c i−x ) ⋅n i
N
Il problema della varianza è che seppure sia un indice molto efficace per calcolare la dispersione tra i
punteggi intorno agli indici di tendenza centrale, NON È DIRETTAMENTE CONFRONTABILE CON ESSI in
quanto misura al quadrato. Per ovviare a ciò, ci si è sbarazzati del quadrato facendo la radice e si è ottenuta
la

DEVIAZIONE STANDARD o SCARTO QUADRATICO MEDIO


Ovverosia la radice quadrata della varianza

SERIE DI VALORI

S=
√ 1
N
∑ ( x i−x )
2

DISTRIBUZIONE DI FREQUENZA

S=
√ 1
N
2
∑ ( x i−x ) ⋅ni

DISTR. DI FREQUENZA PER DATI RAGGRUPPATI IN CALSSI

S=
√ 1
N
2
∑ ( ci −x ) ⋅n i

FORMULE ABBREVIATE PER IL CALCOLO DELLA VARIANZA


SERIE DI VALORI
2
2 ∑x ⅈ 2
s= −x
N

DISTRIBUZIONE DI FREQUENZA

Con frequenze assolute:


2
∑ x ⅈ ⋅ni
2 2
s= −x
N
O con frequenze relative:
2 2 2
s =(∑ x ⅈ ⋅ fⅈ )−x

DISTR. DI FREQUENZA PER DATI RAGGRUPPATI IN CALSSI


2
2 ∑ C ⅈ ⋅ nⅈ 2
s= −x
N
O con frequenze relative:
2 2 2
s =(∑ C ⅈ ⋅ fⅈ )−x

COEFFICIENTE DI VARIAZIONE (CV)


Tutte le misure viste finora sono di variabilità assoluta (non sono confrontabili). Il CV invece è una misura di
variabilità relativa, ovvero permette di confrontare due insiemi di dati per verificare quale dei due ha la
variabilità maggiore:

S
cv = ⋅100
|x|
Anche detta quota percentuale di variazione

INDICI DI FORMA

ASIMMETRIA
Una distribuzione si dice simmetrica quando, dividendola esattamente al centro con un’asse, le due metà
che ne risultano sono uguali e speculari.

Un primo modo per valutare l’asimmetria è il confronto tra media e mediana.

Se Media, Moda e Mediana coincidono, la distribuzione è perfettamente simmetrica.

Se x > Me, si ha un ASIMMETRIA POSITIVA con un ingobbimento della distribuzione a sinistra.

Se x < Me, si ha un ASIMMETRIA NEGATIVA con un ingobbimento della distribuzione a destra.

INDICI DI ASIMMETRIA A LIVELLO ORDINALE

INDICE DI BOWELS (a)


a=
[ ( Q3−Mⅇ ) + ( Q1−Mⅇ ) ]
Q3−Q1

-1 < a < 1

Se a = 1 -> massima asimmetria positiva

Se a = -1 -> massima asimmetria negativa

Se a = 0 -> massima simmetria

INDICI DI ASIMMETRIA A LIVELLO METRICO

INDICE γ3 DI FISHER
Calcolabile in
SERIE DI VALORI
3
3
∑ ( x i−x )
γ =
( N ⋅S 3 )
DISTRIBUZIONE DI FREQUENZA
3
3
∑ ( x i−x ) ⋅ni
γ =
( N ⋅S 3 )

DATI RAGGRUPPATI IN CLASSI


3
3
∑ ( c i−x ) ⋅ni
γ =
( N ⋅ S 3)
Se γ 3 >0 avremo una asimmetria positiva

Se γ 3 <0 avremo una asimmetria negativa

Se γ 3=0 avremo una simmetria

CURTOSI
Indica quanta variabilità è dovuta ai valori meno frequenti, rispetto a quelli più vicini alla media.

Ergo ci dice quanto pesano le code della distribuzione, ovvero le parti estreme.

A seconda di quanto pesano le code della distribuzione, si parla di Distribuzioni

NORMOCURTICHE

Dati mediamente concentrati attorno alla media. Forma a campana della curva.

PLATICURTICHE

Dati scarsamente concentrati attorno alla media. Code più pesanti e forma schiacciata della curva.

LEPTOCURTICHE

Dati fortemente concentrati attorno alla media. Code più leggere e forma allungata della curva.

INDICE DI CURTOSI
4
INDICE γ DI FISHER

Calcolabile in

SERIE DI VALORI
4
4
∑ ( xi −x )
γ =
( N ⋅ S4)
DISTRIBUZIONE DI FREQUENZA
4
4
∑ ( xi −x ) ⋅ni
γ =
( N ⋅ S4)

DATI RAGGRUPPATI IN CLASSI


4
4
∑ ( c i−x ) ⋅ni
γ =
( N ⋅S 4 )

Nota che la formula è identica all’indice gamma 3 di Fisher, però le parentesi sono elevate non alla terza
ma alla quarta, stessa cosa per la deviazione standard.

Se γ 4 >3 la distribuzione è platicurtica

Se γ 4 <3 la distribuzione è leptocurtica

Se γ 4 =3la distribuzione è normocurtica

I 5 NUMERI DI SINTESI
I valori più importanti che vi permettono di sintetizzare il campione a livello ordinale sono:

Min – Q1 – Me (equivalente a Q2) – Q3 - Max

COSTANTI DESCRITTIVE
I valori più importanti che vi permettono di sintetizzare il campione a livello metrico sono:

Min – Max - x – S - γ 3−γ 4

STATISTICA INFERENZIALE
Branca della statistica che, mediante tecniche basate sul calcolo della probabilità, permette di fare ipotesi e
trarre inferenze su una popolazione a partire da uno o più campioni di osservazione.

Ciò che abbiamo osservato nel campione è generalizzabile alla popolazione?

Quando conduciamo questa tipologia di operazioni statistiche, eseguiamo degli esperimenti aleatori =
esperimento costituito da una o più prove con esito incerto, non definibile a priori.
PROBABILITÀ
È la misura della realizzabilità di un evento Ei (evento qualsiasi).

L’insieme di tutti gli eventi possibili che si possono verificare è chiamato spazio campionario Ω (omega)

Es. Ω del lancio di un dado:

1 2 3 4 5 6

PROBABILITÀ PER EVENTI SEMPLICI


n eventi favorevoli
P (Ei) =
n eventi possibili
0 < P (Ei) < 1

La probabilità non è MAI negativa!

Se P (Ei) = 1, l’evento è certo P (Ω ¿=1

Se P (Ei) = 0, l’evento è impossibile

PROBABILITÀ PER EVENTI COMPLESSI


Gli eventi complessi sono l’insieme di due o più eventi semplici (es. lanciare due volte un dado).

A seconda del tipo di eventi avremo 3 casi:

1) Probabilità disgiunta (U “unito” “o”)


2) Probabilità congiunta (∩ “intersecato” “e”)
3) Probabilità condizionata (“I” “dato che”)

PROBABILITÀ DISGIUNTA (U “o”)


Esempio: si scommette su un sollo evento con più puntate.

Si applica la regola della somma


EVENTI MUTUALMENTE ESCLUDENTESI

Eventi incompatibili: P (A U B) = P (A) + P (B)

Il verificarsi di un evento non può coincidere col verificarsi dell’altro

Esempio: qual è la probabilità che, al lancio di un dado, mi esca la faccia uno o la faccia cinque?

1/6 + 1/6 = 2/6

Sono mutualmente escludentesi perché o mi esce una faccia, o me n’esce un’altra. O è uno o è cinque, non
può essere contemporaneamente uno o cinque. Quando ho a che fare con degli eventi che si escludono l’un
l’altro basta sommare le probabilità singole che si verifichi ogni evento indipendentemente.

EVENTI NON MUTUALMENTE ESCLUDENTESI

Eventi compatibili: P (A U B) = P (A) + P (B) – P ( A ∩ B)

Il verificarsi di un evento può coincidere col verificarsi dell’altro.

Esempio: qual è la probabilità che, girando una carta napoletana, esca o dieci o una carta di denari?

Può succedere che si avverino entrambe le previsioni contemporaneamente, con, ad esempio, un dieci di
denari.

Essendo che noi il dieci di denari nel nostro calcolo di probabilità lo abbiamo preso due volte, una nella P
(A = carte di denari), e un’altra volta nella P (B = carte dieci), non è corretto contarlo due volte, dunque va
rimosso con la P ( A ∩ B), che si traduce in P (dieci ∩ denari) = dieci di denari, il caso che per il nostro
esempio avvera ambo le previsioni contemporaneamente.

PROBABILITÀ CONGIUNTA (∩ “e”)


Esempio: si scommette su più eventi con una sola puntata.

È calcolabile solo per eventi compatibili.

Si applica la regola del prodotto:

CON REINSERIMENTO

Eventi indipendenti: P (A ∩B) = P (A) * P (B)

Il verificarsi del primo evento non modifica la probabilità del verificarsi del secondo.

Esempio: qual è la probabilità che, al lancio di un dado, mi esca la faccia uno e immediatamente dopo la
faccia cinque? 1/6 * 1/6.

Attenzione: il verificarsi del primo evento (esce uno) NON interferisce in alcun modo con la probabilità che
si verifichi il secondo evento (esce cinque), lo spazio campionario resta inalterato. Così non sarebbe se ad
esempio, una volta uscito uno, iperbolicamente parlando usassimo un dado che non ha la faccia uno. La
probabilità del secondo evento si altererebbe, e si passerebbe al caso degli eventi dipendenti.

SENZA REINSERIMENTO

Eventi dipendenti: P (A ∩ B) = P (A) * P (B I A)

P di B dato che A

Il verificarsi del primo evento modifica la probabilità del verificarsi del secondo.

Esempio: nella tombola abbiamo 90 numeri. Possono uscire tutti i numeri da 1 a 90. Qual è la probabilità
che il primo numero estratto sia 5? 1/90. La seconda volta qual è la probabilità che esca 5?

1/89

La terza volta?

1/88

Il fatto che io abbia lanciato il primo numero mi ha modificato la probabilità del secondo, aumentandola.
Poiché quanti più numeri estraggo tanto più si riduce lo spazio campionario.

P (A ∩ B) = P (A) * P (B I A)

1/90 P di B dato che A, ergo 1/89 nel nostro esempio della tombola

PROBABILITÀ CONDIZIONATA (“I” “DATO CHE”)


Si calcola la probabilità che si verifichi un evento dato che se n’è già verificato un altro.

Ha senso solo per eventi dipendenti.

In che modo la probabilità del verificarsi del secondo evento è modificata dal fatto che si è già verificato il
primo?

EVENTI DIPENDENTI:

ρ(A∩B)
P ( A|B )=
p (B)
ρ(A∩B)
P ( B| A )=
p(A)
Nota che espressa così è semplicemente una formula inversa della probabilità per eventi congiunti quando
gli eventi sono dipendenti.

COSA SUCCEDE SE CALCOLIAMO LA PROBABILITÀ CONDIZIONATA PER EVENTI INDIPENDENTI?

Per eventi indipendenti: P (A ∩B) = P (A) ⋅ P (B)

Dunque la nostra formula degenererebbe in


ρ ( A ∩ B ) P ( A ) ⋅P ( B )
P ( A|B )= = =P ( A )
p (B) P (B)
Ha senso perché se gli eventi sono indipendenti e il secondo non impatta il primo, calcolare le probabilità
del primo in base al secondo significa calcolare le probabilità del primo, fine.
TABELLA A DOPPIA ENTRATA (O TAVOLA DI CONTINGENZA)
Si incrociano le frequenze di DUE VARIABILI CATEGORIALI (ovvero nominali dicotomiche o politomiche)

Le celle singole contengono le frequenze congiunte, ergo delle unità statistiche che hanno modalità
intrecciate di due variabili distinte.

In questa tabella d’esempio le colonne corrispondono al risultato di un test di screening sullo stato di
malattia, mentre le colonne corrispondono allo status effettivo della persona. Le due variabili dicotomiche
sono state incrociate tra di loro, formando una tabella a doppia entrata.

Esito test Positivo Negativo TOT

Stato
Effettivo
SI A C A+c
NO B D B+d
TOT a+b C+d GRAN TOTALE = N

NOTA BENE: quando vedi una tabella che è palesemente una tavola di contingenza che incrocia due variabili
tra di loro, i dubbi possono essere due: o il test del chi quadrato per l’indipendenza di variabili categoriali o il
teorema di Bayes. Però quando si ha il teorema di Bayes non si hanno variabili POLITOMICHE, cioè con più
di due categorie. Avrete sempre solo variabili DICOTOMICHE, cioè con sempre solo due categorie. Quindi,
quando c’è una tabella 2x2 si può avere il dubbio tra Bayes e il test del chi-quadrato, e in questo caso vedere
se c’è bisogno di un test e se si trovano le parole “ASSOCIAZIONE”, “RELAZIONE”, e quell’altra parola. Se
invece si vede una tabella >2x2, non c’è bisogno di avere dubbi. Va fatto il test del chi-quadrato.

TEOREMA DI BAYES
Mette in relazione la probabilità a priori (già data, non si può calcolare poiché è un’informazione nota a
priori) su una popolazione con la probabilità a posteriori sul campione (a posteriori, cioè qualcosa che si
può e si deve calcolare), esprimendole come probabilità condizionate.

Ergo: qual è la probabilità di un evento nella popolazione, data la probabilità di un evento nel campione?

P ( A1 ) ⋅ P ( B 1| A 1)
P ( A 1|B 1) =
P ( A 1 ) ⋅ P ( B1∨ A 1) + P ( A 2 ) ⋅ P ( B1| A 2 )

A1=POPOLAZIONE B1=CAMPIONE

A2=COMPLEMENTARE DI A 1

SIMULAZIONE

Se somministriamo un test di screening (es. test di gravidanza, alcol test), possiamo avere quattro risultati
possibili:

- Vero positivo (a)


- Falso positivo (b)
- Falso negativo (c)
- Vero negativo (d)

Questo perché stiamo incrociando 2 variabili nominali (stato effettivo ed esito test) che hanno entrambe 2
modalità (si/no) (positivo/negativo)

Esito test Positivo Negativo TOT

Stato
Effettivo
SI A C A+c
NO B D B+d
TOT a+b C+d GRAN TOTALE = N

In base a questi quattro esiti possiamo definire 6 indici di affidabilità di un test di screening

1) Sensibilità: proporzione di SI e POSITIVI, rispetto al totale del SI


a P ( SI ⋂ POS )
= =P(POS∨SI )
a+c P ( SI )

ESEMPIO: Ho 100 stronzi che so tutti e 100 essere malati. Somministro il mio test di screening, e di
malati me ne risultano 95 su 100. Dunque il mio test avrà una sensibilità di 0.95

2) Specificità: proporzione di NO e negativi, rispetto al totale dei NO

d
=P ¿ ¿
b+d
ESEMPIO: Ho 100 stronzi che so tutti e 100 essere sobri. Somministro il mio test di screening, e
dovrebbero uscirmi tutti negativi, ma non so come 5 mi escono ubriachi. Dunque ho una specificità di
0.95. In pratica l’opposto della sensibilità.

3) Potere Predittivo Positivo (PPP): proporzione di SI e positivi, rispetto al totale dei positivi.
a P ( SI ⋂ POS )
= =P(SI ∨POS )
a+b P ( POS )
4) Potere Predittivo Negativo (PPN): proporzione di NO e negativi, rispetto al totale dei negativi
d
=P¿ ¿
c+ d
5) Proporzione Falsi Negativi: proporzione di SI e NEGATIVI, rispetto al totale dei SI (di base l’errore del
test nel NON rilevare persone effettivamente positive). Il complementare della sensibilità.

c
=P ¿ ¿
a+c

6) Proporzione Falsi Positivi: proporzione di NO e POSITIVI, rispetto al totale dei NO (l’errore del test
nel rilevare persone che concretamente sono negative). Il complementare della specificità.
b P ( NO ⋂ POS )
= =P(POS∨NO )
b+d P(NO)
PROBABILITÀ A PRIORI SULLA POPOLAZIONE
La probabilità a priori sulla popolazione è un dato noto fornito dal testo dell’esercizio e che viene chiamato
informazione esterna.

Tale informazione è sempre doppia:

Se sappiamo che P(SI) = 0,40

Allora conosciamo anche il valore di P(NO), visto che P(NO) = 1 – P(SI)

DISTRIBUZIONI DI PROBABILITÀ
Una distribuzione di probabilità è una funzione che associa ad ogni evento Ei ϵ Ω , la sua probabilità di
manifestarsi P(Ei)

Ovvero è una distribuzione in cui vengono riportate le frequenze relative (fi) di ogni evento

Fi=P(Ei)

VARIABILE CASUALE/ALEATORIA/STOCASTICA
Una variabile casuale (o aleatoria o stocastica) è una funzione in cui l’esito di un esperimento, di una prova
o di un qualche fenomeno naturale, può verificarsi in almeno due modi diversi, non prevedibili a priori e in
cui ad ogni esito possibile è associato un unico numero reale.

Dato uno spazio campionario Ω , si definisce variabile casuale un’applicazione di Ω in R (insieme dei
numeri reali).

Ergo una variabile casuale è una che associa a tutti gli eventi di omega una probabilità, riportandoli in R.

ES: lancio del dado. Variabile casuale perché si verifica in almeno due modi diversi, non è prevedibile
apriori, e ad ogni esito possibile (ogni faccia) è associato un unico numero reale.

VARIABILI CASUALI DISCRETE

Non possono assumere tutti i valori possibili all’interno di un dato intervallo di numeri reali, ma solo un
insieme finito e numerabile. Es: dado = 1, 2, 3, 4, 5, 6.

VARIABILI CASUALI CONTINUE

Possono assumere tutti i valori possibili all’interno di un dato intervallo di numeri reali. Es: altezza, da 0 a
+inf

Quando la variabile casuale è continua, non si assegna una probabilità ad ogni singolo valore (sarebbe
impossibile poiché vi sono infiniti valori in R), ma ad un intervallo di valori.

La probabilità non sarà associata a un punto, ma sarà associata ad una sezione di una curva, ovvero sarà
un’area.

DISTRIBUZIONI DI PROBABILITÀ
Discrete:

Distribuzione Bernoulliana – Ber ( π )

Distribuzione Binomiale – Bin ( π ; n ¿

Continue:
Distribuzione Normale (N)

Distribuzione Normale Standard (z)

Distribuzione Chi-quadrato ( χ 2 ¿

Distribuzione t di Student (t)

Distribuzione F di Fischer (F)

DISTRIBUZIONI DI PROBABILITÀ SU VARIABILI DISCRETE

DISTRIBUZIONE BERNOULLIANA – Ber ( π )


La variabile casuale Bernoulliana è una variabile discreta binaria, ovvero che comprende solo due esiti
all’interno di Ω :

Evento favorevole (1)

Evento contrario (0)

X è una generica variabile casuale. si legge “si distribuisce come”

X BER ( π ¿se Ω = (0;1) e

P(x=1) = π e

P(x=0) = 1 – π

p o π : probabilità di successo rispettivamente in campione (p) o popolazione ( π ¿

1 – p o 1 – π : probabilità insuccesso rispettivamente in campione (p) o popolazione (


π¿
La moneta è il miglior esempio di variabile bernoulliana che si potrebbe avere:

2 esiti, 1 evento favorevole, 1 evento contrario.

Anche per le distribuzioni di probabilità è possibile calcolare media e varianza.

In questo caso, però, la media viene chiamata SPERANZA MATEMATICA o VALORE


ATTESO e si indica con E(x) [E=expected value]. Ogni distribuzione avrà la sua
speranza matematica e la sua varianza.

Nel caso della Bernoulliana avremo che:

E(x)= π e VAR(x) = π ⋅(1−π )

DISTRIBUZIONE BINOMIALE – Bin ( π ; n)


La binomiale serve a calcolarci la combinazione di più probabilità insieme. ES: il fatto che tu possa avere
TUT numero di esiti favorevoli su TOT numero di prove.
Esempio: se, al posto di lanciare una moneta una volta, la lanciassi 61 volte (61 prove
bernoulliane), qual è la probabilità di ottenere testa almeno 9 volte (numero di
successi K minimo = 9)?

La variabile casuale binomiale è una variabile discreta che è la somma n di variabili casuali Bernoulliane.

La variabile casuale binomiale descrive il numero k di successi ottenuti in n prove bernoulliane.

K = numero di successi

N = numero di prove

p o π : probabilità di successo rispettivamente in campione (p) o popolazione ( π ¿

1 – p o 1 – π : probabilità insuccesso rispettivamente in campione (p) o popolazione (


π¿

n! k n−k
P ( k )= ⋅π ⋅(1−π )
k ! ( n−k ) !

La prima parte della formula si chiama COEFFICIENTE BINOMIALE e serve per


calcolare il numero di combinazioni possibili per il verificarsi dell’evento.

COEFFICIENTE BINOMIALE =
n!
k ! ( n−k ) !
Essendo la binomiale una somma di n bernoulliane, avremo che:

E(x)= π ⋅n e VAR(x) = π ⋅(1−π )⋅n

ESEMPIO:

Se rispondo completamente a caso ad un test con 24 domande, ognuna con 4 alternative di risposta, quante
risposte corrette indovinerò mediamente?

E(x)= π ⋅n= ( 14 )⋅ 24=6


FATTORIALI (!)
L’operazione fattoriale significa moltiplicare un numero per tutti i numeri che lo precedono, fino a 1.

Esempio:

5! = 5 x 4 x 3 x 2 x 1

I fattoriali non ammettono nessuna delle quattro operazioni (+ - x :)

5! + 5! ≠ 10 !

I fattoriali possono SOLO essere semplificati

10! 10 x 9 x 8 !
= =10 x 9=190
8! 8!
ASSIOMA DEL CALCOLO FATTORIALE:

0! = 1

LA BINOMIALE: 4 CASI DI APPLICAZIONE


1) “ESATTAMENTE”
Si applica l’intera formula una sola volta.
Esempio: calcolare la probabilità che la faccia croce esca esattamente 6 volte su 10.

2) “SOLO” (CON NUMERI ORDINALI)


Si applica la formula una sola volta senza il coefficiente binomiale.
Esempio: calcolare la probabilità che su 5 figli, i primi 3 siano maschi. Non applico il coefficiente
binomiale perché tutte le combinazioni possibili si riducono alla singola combinazione della
consegna.

3) “ALMENO” P(k → n)
Si applica l’intera formula tante volte fino ad arrivare ad n, cambiando ogni volta k. E poi si
sommano le P(ki) ottenute.

Esempio: qual è la probabilità che, lanciando una moneta, ottenga la faccia testa almeno 7 volte su
10? Qui dovrò calcolarmi tutte le probabilità per successi da 7 a 10, per poi sommarle.

4) “MENO DI” P ¿)
Si applica l’intera formula tante volte fino ad arrivare a 0, cambiando ogni volta k. E poi si
sommano le P(ki) ottenute.

Esempio: qual è la probabilità che, lanciando una moneta, ottenga la faccia testa meno di 3 volte su
10? Qui dovrò calcolarmi tutte le probabilità per successi da 2 a 0, per poi sommarle. Già se mi esce
3, ho perso. Va calcolato anche con 0, ricorda l’assioma.

DISTRIBUZIONI DI PROBABILITÀ SU VARIABILI CONTINUE

DISTRIBUZIONE NORMALE N( μ ; σ ¿ (mi [media nella


popolazione]; sigma [deviazione standard nella
popolazione])
La variabile casuale normale (o di Gauss) è una variabile casuale continua, i cui valori vanno da −∞ a+ ∞

La sua importanza è dovuta al fatto che molti dei fenomeni che si misurano in natura, all’aumentare del
numero di osservazioni (ossia di n), tendono a “normalizzarsi”, cioè a distribuirsi secondo una curva a
campana.

Vedi: Teorema del Limite Centrale

CARATTERISTICHE:

La distribuzione Normale è simmetrica (media, moda e mediana coincidono!), è unimodale e normocurtica


( y 4 =3)
La curva varia in funzione di due parametri:

Media (μ) e Deviazione Standard (σ)

Troviamo le deviazioni standard in corrispondenza dei punti di flesso della curva, ovvero dei punti in cui la
curva cambia la sua concavità.

L’area sottesa all’intera curva rappresenta l’intero spazio campionario e quindi ha un valore di 1.

Area curva intera = 1

Area metà curva = 0.5


Inoltre gli intervalli compresi tra le deviazioni standard sono sempre costanti.

Come si calcola la probabilità di un intervallo di valori?

Dato che la probabilità corrisponde ad un’area sottesa alla curva, per calcolarla avremo bisogno degli
integrali.

Esistono tavole con integrali già sviluppati. Per usarle occorre innanzitutto però standardizzare i valori di
interesse.

Standardizzare significa trasformare un punteggio grezzo x i, in un punteggio standard z i, ovvero si tratta di


trasferire un punteggio grezzo su una

DISTRIBUZIONE NORMALE STANDARDIZZATA

Ovverosia una distribuzione normale che ha parametri fissi:

Media μ = 0 e Deviazione Standard σ = 1

Per standardizzare un valore si utilizza la formula:

xi −x
z i=
s
Esempio: data una N(150;15), calcolare P(x>170)
170−150
z i= =1 , 33
15

Di base abbiamo trasformato il 170 in 1,33 per poi portarlo sulla curva normale standardizzata.

Una volta standardizzato il punto, si utilizza la Tavola z per identificare il valore dell’area, ovvero di
probabilità cercato.

PROPRIETÀ DELLA RIPRODUTTIVITÀ


La normale gode della proprietà della riproduttività:

la somma di g variabili casuali normali N (μ;σ) IDENTICHE e INDIPENDENTI è ancora una variabile casuale
normale, con i parametri g; μ e g;σ

Identiche: con la stessa distribuzione di probabilità

Indipendenti: distribuzione di probabilità composte da unità indipendenti tra loro.


Sia y=x 1 + x 2+ …+ x n e x l̇ N ( u ; 0 ) allora y N ( n⋅ μ ; n ⋅ σ )

Ricorda: perché valga la proprietà della riproduttività le x devono essere identicamente e


indipendentemente distribuite secondo normali.

Sostanzialmente, se y è uguale a una somma di variabili x n, e ogni variabile xi si distribuisce secondo una
normale con parametri u e σ , [mu e sigma] che è indipendente dalle altre (non c’è covarianza perché non ci
sono variabili in comune con le altre normali), allora y sarà una normale che si distribuisce SEMPRE con
parametri mu e sigma, entrambi moltiplicati per n.

TEOREMA DEL LIMITE CENTRALE


Afferma che, indipendentemente dalla forma iniziale di una distribuzione, essa tende a normalizzarsi
quando aumenta la numerosità del campione n.

In particolare si approssima alla normale se n>30,

e converge alla normale se n → ∞

O: la somma di n variabili casuali identiche e indipendenti, converge alla variabile casuale normale per
n→∞

O: data una successione di variabili casuali con la stessa media e la stessa deviazione standard, la
successione converge ad una variabile casuale normale per n → ∞

DISTRIBUZIONI CAMPIONARIE
Allora, diciamo che io ho un campione con media e varianza, composto da tot persone. Diciamo che questo
campione misura l’altezza. Ogni x sarà un’altezza diversa alla quale corrispondono n persone del mio
campione, il tutto sintetizzato da una media x . MA se io volessi unire più campioni tra loro, con le loro
rispettive medie e informazioni, in un'unica distribuzione? Riportando l’informazione di ogni singolo
campione su una curva, composta stavolta non da singole unità statistiche, ma da singole statistiche
campionarie. In pratica quello che riporto su questa curva non sono i singoli punteggi, ma tante medie.

La statistica campionaria è un indice descrittivo che riassume l’informazione in un campione (es. media).

Un parametro è la caratteristica che io sto indagando nella popolazione, attraverso le statistiche


campionarie. ES: sto usando le medie dei campioni per stimare la media della popolazione.

Le distribuzioni di probabilità descrivono il modo di distribuirsi di una variabile casuale in un determinato


gruppo di punteggi, ovvero UN CAMPIONE, e i singoli punti della distribuzione rappresentano le SINGOLE
UNITÀ STATISTICHE ( x i) che compongono il campione.

Le singole unità statistiche vengono sintetizzate da un indice descrittivo, ovvero da una STATISTICA
CAMPIONARIA COME LA MEDIA x (nella normale), la proporzione di successi p (nella binomiale) o la
varianza s2 (nel chi quadrato).

Le DISTRIBUZIONI CAMPIONARIE invece rappresentano l’insieme di tutti i CAMPIONI di ampiezza n, che


compongono una popolazione, ognuno dei quali possiede una singola statistica campionaria.

I punti di una distribuzione campionaria sono quindi le SINGOLE STATISTICHE CAMPIONARIE di OGNI
CAMPIONE. Queste ultime saranno sintetizzate dalla loro SPERANZA MATEMATICA, che si ipotizza coincida
con il parametro indagato nella popolazione.

Una statistica campionaria è una variabile casuale o aleatoria, che sintetizza l’informazione contenuta in
un campione.

Un PARAMETRO è il corrispettivo di una statistica nella POPOLAZIONE. È la caratteristica della popolazione


che indaghiamo mediante la statistica del campione.

STATISTICA: x p ^s2
2
PARAMETRO: μ π σ

Una distribuzione campionaria di una statistica è quindi la distribuzione dei valori che quella statistica
assume in tutti i campioni di ampiezza n.

 DISTRIBUZIONE DELLA PROPORZIONE CAMPIONARIA (P)


 DISTRIBUZIONE DELLA MEDIA CAMPIONARIA ( x ¿
 DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA ( ^s2 ¿

DISTRIBUZIONE DELLA PROPORZIONE CAMPIONARIA (P)


La proporzione campionaria è una statistica che viene usata soprattutto per variabili qualitative:

ki 1
n
Pi= pi= ∑ xi (formula solo teorica)
ni n i=1
In singoli campioni si calcolano il numero di k di successi su n prove e si ottiene una p per ognuno di loro
(sono singole binomiali). Queste p, riportate su un’unica curva, danno vita alla distribuzione delle
proporzioni campionarie, ovvero alla distribuzione che considera il numero medio di successi in campioni
di n elementi.

Anche le distribuzioni campionarie hanno speranza matematica e deviazione standard.

Nel caso della distribuzione di P:

E ( p )=π σ=
√ π ⋅ ( 1−π )
n
Anche per le distribuzioni campionarie si può effettuare la standardizzazione delle singole statistiche,
sottraendo la speranza matematica e dividendo per la deviazione standard.

Nel caso della distribuzione di P:

pi−π
z=

√ π ⋅ ( 1−π )
n

DISTRIBUZIONE DELLA MEDIA CAMPIONARIA ( x )


Quando la variabile è metrica, si usa la distribuzione della media campionaria x , ovvero la distribuzione
delle medie di tutti i campioni di ampiezza n estraibili dalla popolazione.

La media campionaria x è una variabile casuale ed è una statistica campionaria, funzione del campione
casuale estratto ( x 1 , x 2 … x n ).

Σ xi
x i=
n
Quindi stavolta sto ragionando su una curva (distribuzione) dove non ho tutte x i ,ma ho tutte x i . Al centro
che ci sta? La speranza matematica, che coincide con la media della popolazione:

E ( x )=μ

La deviazione standard di questa distribuzione viene chiamata ERRORE STANDARD (σ m), il quale
rappresenta la media delle deviazioni di ogni media campionaria rispetto alla media della popolazione.

σ
σ m=
√n
In termini scemi, le singole medie x i ci servono per indagare la media della popolazione μ . Ora, non sarà
che ogni media è perfettamente uguale alla media della popolazione: ogni media sarà diversa, e diversa sarà
la deviazione standard di ogni media. L’ERRORE STANDARD ci dice la media di queste deviazioni standard
provenienti da ogni singolo, ovvero sia lo sballo complessivo delle singole medie sballate individualmente.

Quando la deviazione standard della popolazione (σ ) non è nota, l’errore standard viene stimato a partire
dalla deviazione standard del campione (S):

s
σ^ m=
√ n−1
Il simbolo ^ in cima ad una statistica indica che essa è uno stimatore e che la quantità dopo l’uguale è una
stima. [Non è assolutamente quello che ci ha detto Palumbo ma ok]

L’errore standard è sostanzialmente una stima dell’errore che si commette nello stimare la media della
popolazione a partire dalle medie campionarie.

Maggiore è l’errore standard, maggiore sarà la variabilità delle singole medie campionarie e la stima della
media della popolazione sarà più instabile.

Se l’errore standard è basso invece significa che le medie campionarie hanno poca variabilità, sono simili tra
loro e quindi la stima della media della popolazione sarà più accurata.

Per limitare l’errore standard, si può aumentare la numerosità campionaria, in base a quanto affermato
dalla

LEGGE DEI GRANDI NUMERI:

“All’aumentare della numerosità campionaria n, l’errore standard diminuisce.”

Se n → ∞ ALLORA σ m=0

In conclusione quindi, la media campionaria si distribuisce NORMALMENTE con parametri ( μ ; σ n)

Questo se le variabili dei campioni di partenza si distribuiscono secondo delle normali (in virtù della
proprietà di riproduttività)

OPPURE per qualsiasi variabile casuale o aleatoria o stocastica se n → ∞ (in virtù del teorema del limite
centrale).

In simboli:

(
x N μ⋅
σ
√n )
SE xi N ( μ ; σ )

Oppure:

(
x N μ⋅
σ
√n )
PER QUALSIASI xi se n → ∞

Anche i valori (ovvero le x i) della distribuzione delle medie campionarie possono essere STANDARDIZZATI,
usando la formula:
xi −μ
z i=
σ
√n
OPPURE
x−μ
s
± z=
√n−1
SE NON CONOSCIAMO LA DEV . STANDARD DELLA POPOLAZIONE Esercizio: Nella popolazione
generale il punteggio alla scala stabilità emotiva (SE) di un test di personalità è distribuito normalmente e
ha media 50 e deviazione standard 10.

Estraendo un campione di 50 soggetti, con quale probabilità avrà un punteggio medio compreso fra 51 e
53?

P (51 < x < 53)

La deviazione standard ce l’abbiamo, dunque possiamo utilizzare


xi −μ
z i=
σ
√n
Per la standardizzazione

μ = speranza matematica della popolazione = 50


σ =10
N = 50

53−50
z 1=
10
√50
= 0.70 = 0.2420

53−50
z 2=
10
√50
= 2.12 = 0.0170

Essendo che ci interessa l’intervallo compreso tra le due, e che sono ambo nello stesso quadrante, si
sottrae: P (51 < x < 53) = 0.2420 - 0.0170 = 0.225

DISTRIBUZIONE DELLA VARIANZA CAMPIONARIA ( x )


La varianza campionaria ( ^s2) è una variabile casuale, funzione del campione casuale ( x 1 , x 2 … x n) ed è uno
stimatore naturale (cioè stima un dato a partire da una statistica del campione [potenzialmente sbagliato])
della varianza della popolazione σ 2
2
∑ ( x i−x )2
s^ =
n−1
La varianza campionaria è uno stimatore più instabile di x . Questo perché viene calcolato sulla base di un
altro stimatore (cioè proprio x ) e quindi oltre a riportare un proprio errore intrinseco nello stimare σ 2 ,
risente anche dell’errore nell’altro stimatore.

La varianza campionaria si distribuisce secondo una distribuzione chi-quadrato ( χ 2) con n-1 gradi di libertà.

^s2 χ 2n−1

STIMA E STIMATORI
Uno STIMATORE è una variabile casuale ed è una qualsiasi funzione definita sul campione casuale
estratto, in grado di fornire informazioni utili circa un parametro incognito della popolazione.

Il valore assunto dallo stimatore in corrispondenza di uno specifico campione è chiamato STIMA.

Uno stimatore si dice NATURALE, se possiede la stessa espressione matematica del parametro che stima
(ad es. x e μ hanno la stessa formula).

AFFIDABILITÀ DI UNO STIMATORE – 3 PROPRIETÀ

1) CORRETTEZZA O NON DISTORSIONE: uno stimatore si dice corretto se la sua speranza matematica
è uguale al parametro che stima. Se ad esempio T è uno stimatore di θ (theta), per definire T uno
stimatore corretto si deve verificare che
E ( T )=θ
2) CONSISTENZA: uno stimatore si dice consistente se all’aumentare della numerosità campionaria,
la sua distribuzione di probabilità si concentra in corrispondenza del parametro che stima (cioè i
valori vicini al parametro sono i più frequenti).
3) EFFICIENZA: uno stimatore si dice efficiente se possiede LA variabilità minore rispetto a tutti gli
altri stimatori che misurano lo stesso parametro.

CAMPIONE CASUALE / OSSERVATO


CAMPIONE CASUALE

Collezione di n variabili identiche e indipendenti (uno dei campioni potenzialmente estraibili da una
popolazione)

CAMPIONE OSSERVATO

Insieme dei numeri reali, realizzazioni delle n variabili casuali del campione casuale. (Campione
effettivamente estratto).

INTERVALLI DI CONFIDENZA
Ricorda: il nostro obbiettivo con la statistica inferenziale è quello di stimare un parametro della popolazione
a partire da qualcosa del campione, ovverosia a partire da una statistica campionaria, e dire con un certo
grado di sicurezza che la cosa che abbiamo osservato nel campione vale anche nella popolazione. Il modo
migliore per farlo è seguendo la verifica con i test.

Un altro modo per stimare il parametro di una popolazione a partire da una statistica campionaria è quello
di stabilire un range dei possibili valori che questo parametro può assumere, ovvero di stabilire un
INTERVALLO DI CONFIDENZA (O DI FIDUCIA)
È possibile stabilire diversi livelli di un intervallo:

I più comuni sono al 90%, al 95% e al 99%.

Ad esempio, stimare l’intervallo di fiducia della media della popolazione μ al 95% significa identificare i due
valori limite che definiscono un range all’interno del quale con una probabilità del 95% si troverà μ .

Per stabilire l’intervallo di confidenza della media della popolazione μ , si parte dalla formula della
standardizzazione e si effettuano una serie di passaggi logici per isolare μ .

x−μ
s s s
± z= →±z ⋅ =x−μ → μ=x ± z ⋅ →
√n−1 √n−1 √ n−1
s s
x−z ⋅ < μ< x + z ⋅
√ n−1 √n−1
I valori di ± z si trovano in base al livello di confidenza scelto.

Se ad esempio abbiamo scelto un intervallo al 95%, significa che la parte di curva restante è il 5%, che
distribuito sulle due code della distribuzione diventa il 2,5% ovvero 0,025.

Localizziamo il valore dell’area sulla tavola z e inseriamo il corrispettivo punto z nella formula per creare
l’intervallo: fondamentalmente facciamo l’opposto di quando da un valore z si doveva trovare l’area. Qui
direttamente dall’area troviamo il punto z di partenza.

Sulla tavola si cerca nelle celle “colonna b” [la colonna che va da z a infinito] il calore più vicino a 0,025, e si
vede a che “incrocio” corrisponde. Nel caso di 0,025 è 1.96, che sarà -1.96 a sinistra della disuguaglianza e
+1.96 a destra.

Esempio: dato un campione di 82 soggetti, con media 60 e deviazione standard 10, stabilire l’intervallo di
confidenza della media della popolazione al 95%.

Area 0.025 -> z=1.96


Sostituiamo nella formula
s s
x−z ⋅ < μ< x + z ⋅
√ n−1 √n−1
E troviamo che con una probabilità del 95% la media della popolazione μ è compresa tra i valori 57,82
(limite inferiore) e 62,18 (limite superiore).

Questo TEORICAMENTE. Nella pratica i valori dell’area sono (quasi) sempre gli stessi:

Area 0.05 -> z = 1.65

Area 0.025 -> z = 1.96

Area 0.01 -> z = 2.32

Area 0.005 -> z = 2.58

Standardizzazione PROPORZIONE campionaria (per dati qualitativi)

Standardizzazione MEDIA
campionaria (per dati quantitativi)

LA VERIFICA DELLE IPOTESI


La verifica delle ipotesi è un procedimento statistico mediante il quale si può stabilire se uno o più campioni
sono rappresentativi di una o più popolazioni, attraverso l’applicazione di test della significatività. Si parte
da un obbiettivo di ricerca, ovvero un’assunzione da verificare attraverso un esperimento.

Quando si conduce un esperimento, ovvero quando si applica un test, si hanno di fronte 2 IPOTESI in
opposizione tra loro:

 IPOTESI NULLA H 0
 IPOTESI ALTERNATIVA O SPERIMENTALE H 1

L’IPOTESI NULLA H 0 è l’IPOTESI DI PARTENZA che si vuole confutare. Si assume che il parametro di una
popolazione sia uguale ad un determinato valore noto.

Esempio: moneta

H 0 :π =0.5

L’IPOTESI ALTERNATIVA O SPERIMENTALE H 1 è l’IPOTESI CHE SI VUOLE SOSTENERE mediante


l’esperimento. Si assume che il parametro sia minore, maggiore o diverso da un determinato valore.
Chicca scientifica: principio falsificazionista di Popper: per dimostrare che è vera qualcosa, si procede
dimostrando che non può essere vero l’opposto.

Si possono avere due tipi di ipotesi alternativa:

a) IPOTESI ALTERNATIVA MONODIREZIONALE, se abbiamo i simboli < oppure >, cioè se è già noto che
la curva della popolazione presente sotto l’ipotesi alternativa si trovi a sinistra o a destra
dell’ipotesi nulla.

Esempio:
H 0 :π =0.5

H 1 : π > 0.5 oppure H 1 : π <0.5

Esempio grafico con H 1 : π > 0.5

b) IPOTESI ALTERNATIVA BIDIREZIONALE: se abbiamo il simbolo ≠ , cioè quando non sappiamo se la


curva di H 1si trovi a sinistra o a destra di H 0

Esempio: H 1 : π ≠ 0 , 5
Graficamente…
Ripeto per accertarmi che hai letto: le ipotesi vanno riferite SEMPRE E SOLO AI PARAMETRI DELLA
POPOLAZIONE! (LETTERE GRECHE)

Il processo di verifica delle ipotesi avviene in un’ottica FALSIFICAZIONISTA: ovvero per dimostrare
che H1 è probabilmente vera, si deve dimostrare che H0 è probabilmente falsa. Questo avviene
perché, anche se siamo interessati ad H1, essa non ci fornisce valori numerici con cui lavorare. H0
invece ci offre un valore certo con cui lavorare, è anche detta infatti IPOTESI DI LAVORO.

L’area estrema di H0 è detta livello di significatività α e la zona sotto alfa rappresenta la zona in cui H0 è
troppo improbabile per essere vera e va quindi rifiutata. α è quindi lo spartiacque tra H0 e H1 e divide H0
in due zone: zona di accettazione e zona di rifiuto.

Se l’ipotesi alternativa è bidirezionale, α si troverà su entrambe le code della distribuzione di H0, ed il suo
valore va dunque dimezzato (se la distribuzione è simmetrica).
a
In questi casi infatti al posto di α useremo
2

La regione di accettazione e la regione di rifiuto sono sottoinsiemi dello spazio campionario, ovvero
appartengono entrambi ad H0

In alcuni casi esiste una REGIONE DI INDECISIONE, ovvero una zona in cui H0 e H1 sono troppo sovrapposte
e non è possibile stabilire quale delle due ipotesi sia corretta.

Per decidere se accettare o rifiutare H0, si applica la statistica test propria di ciascun test (ovvero la
formula), che sarà il nostro valore calcolato, da confrontare con un valore critico, ovvero il punto dal quale
inizia la zona di rifiuto. Il valore critico infatti si ricava in base ad α , utilizzando la tavola di ciascun test.

LA VERIFICA DELLE IPOTESI - ERRORI


Dato che il procedimento della verifica delle ipotesi avviene in un’ottica probabilistica, quando si prende
una decisione su H0, non si sarà mai certi di non aver commesso un errore.

In particolare sono possibili 2 tipi di errore:

 ERRORE DI PRIMO TIPO O SPECIE (α ): consiste nel RIFIUTARE un’H0 che in realtà è vera.
 ERRORE DI SECONDO TIPO O SPECIE ( β ): consiste nell’ACCETTARE un’H0 che in realtà è falsa.
POTENZA STATISTICA DEL TEST

β è il corrispettivo di α nella curva di H1.


La restante parte di H1, ovvero 1- β , rappresenta la probabilità di rifiutare correttamente un’H falsa (il che
è lo scopo di un test!), come tale è chiamata infatti POTENZA STATISTICA DEL TEST.

La probabilità di commettere uno dei due errori varia in base all’ampiezza della regione α :
- Se α è molto piccola: aumenta la probabilità di commettere un errore di secondo tipo, ma
diminuisce quella di commettere un errore di primo tipo.
- Se α è molto grande: aumenta la probabilità di commettere un errore di primo tipo, ma diminuisce
quella di commettere un errore di secondo tipo e di conseguenza aumenta la potenza del test.

Il test da utilizzare per condurre un esperimento dipende dalla scala di misura (nominale dicotomica o
politomica, ordinale o metrica) della variabile dipendente.

In ogni esperimento abbiamo infatti almeno due variabili:

1) La VARIABILE INDIPENDENTE è quella introdotta dallo sperimentatore. Crea le condizioni


sperimentali o gruppi/campioni di analisi (infatti è quasi sempre una nominale).
2) La VARIABILE DIPENDENTE è quella su cui si misura l’effetto della variabile indipendente introdotta
dallo sperimentatore nei gruppi/campioni di analisi (variabile di misura).

Esempio: voglio scoprire se c’è una differenza di benessere tra uomini e donne. La mia variabile dipendente
è il benessere, che nel mio caso viene alterata (cioè dipende) dalla variabile indipendente che è il sesso. La
variabile indipendente la smanetto io sperimentatore, ergo creo gruppi di tot uomini e tot donne, quanti
uomini e quante donne lo decido io, eccetera. La variabile dipendente la osservo semplicemente venire
modificata (o meno) dalle condizioni sperimentali che ho posto con lo smanettamento della variabile
indipendente.

Spesso e volentieri la variabile indipendente è una variabile nominale, poiché è quella che mi crea i gruppi o
mi altera le condizioni sperimentali.

Esempio due: se voglio misurare il livello di ansia in delle popolazioni di studenti che

a) Non hanno mai sostenuto l’esame di statistica


b) Lo hanno sostenuto una volta
c) Lo hanno sostenuto due volte

La mia variabile indipendente sarà il numero di tentativi.

La mia variabile dipendente sarà l’ansia.

Esempio numero tre: voglio valutare se le donne che hanno avuto un parto cesareo al primo figlio hanno
più figli.

Variabile indipendente: tipo di parto (cesareo/naturale)

Variabile dipendente: numero di figli

ESEMPIO NUMERO QUATTRO: voglio vedere se gli italiani sono più alti dei tedeschi.

Variabile indipendente: nazionalità (ITA/GER)

Variabile dipendente: altezza

SCELTA DEL TEST


I test possono essere di due tipologie:

TEST PARAMETRICI

Sono applicabili quando la variabile dipendente è misurata su scala METRICA (riguardano quindi medie o
varianze). La condizione principale per applicarli infatti è la normalità della distribuzione della variabile
dipendente. Il principale vantaggio di questi test è che hanno un’elevata potenza statistica. (Ad esempio i
test parametrici z).

RICORDA: Se aumenta la numerosità campionaria, aumenta la potenza statistica di un test!

TEST NON PARAMETRICI

Si applicano quando cade l’assunzione della normalità della variabile dipendente. Si applicano, quindi,
quando la scala della variabile è NOMINALE o ORDINALE (riguardano quindi proporzioni su scala nominale
o mediane su scala ordinale) o anche quando la scala è metrica, ma la n è troppo bassa.

Questi test hanno una bassa potenza statistica ma, non basandosi sulla media, permettono un maggior
controllo dei valori estremi (outliers). Esempio: test binomiale, test chi-quadrato, test Mann-Whitney,
eccetera.

TEST SU SCALA NOMINALE DICOTOMICA ( π )


IPOTESI (prima cosa da scrivere quando si fanno i test)

H 0 :π =x

H 1 : π < ¿≠ /¿ x

Se n ≤ 30 →TEST DELLA BINOMIALE


P=∑
[ n!
k ! ( n−k ) !
⋅ π k ⋅ ( 1−π )n−k
]
La sommatoria c’è perché quando si fa il test su scala nominale dicotomica si sottintende che ci si trovi nel
caso di utilizzo della binomiale “ALMENO” P(k → n)

→Si applica l’intera formula tante volte fino ad arrivare ad n, cambiando ogni volta k. E poi si sommano le
P(ki) ottenute.

La P totale risultante dalla sommatoria delle singole P va confrontata con l’alfa datoci alla consegna del test.

CRITERI DI ACCETTAZIONE

 Se p < α → si rifiuta H0
 Se p > α → si accetta H0

Se n ≤ 30 →TEST DELLA BINOMIALE PER CAMPIONI AMPI (TEST z)

p−π
z=

√ π ( 1−π )
n
CRITERI DI ACCETTAZIONE

 Se z ca > z cr → si rifiuta H0
 Se z ca < z cr → si accetta H0

TEST SU SCALA NOMINALE POLITOMICA ( χ 2 ¿

1)TEST DEL CHI QUADRATO


IPOTESI:

H 0: χ 2=0

H 1: χ 2>0

ATTENZIONE: può SOLO essere maggiore di zero poiché è un parametro elevato al quadrato
2
2 ( f o −f a )
χ =∑
gdl
fa
f 0=FREQUENZE OSSERVATE

f a=FREQUENZE ATTESE

CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0
2 2
Se χ ca < χ cr → si accetta H 0
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL=k-1 [K=numero categorie della variabile, poiché
ribadiamo che il test del chi quadrato si usa per scale nominali politomiche (con più categorie)]

La variabile casuale Chi-quadrato si definisce come la somma di n. variabili casuali NORMALI


STANDARDIZZATE INDIPENDENTI E AL QUADRATO

Ripeto:

Chi-quadrato = somma di n. variabili casuali NORMALI STANDARDIZZATE


INDIPENDENTI E AL QUADRATO

2 2
Y χ gol SE y=∑ x i E xi N ( 0; 1 )
Oppure
2 2 2
Y χ gol SE y=x 1 + x 2 E x 1 N ( 0 ; 1 ) E x 2 N ( 0; 1 )

Il pedice di χ 2indica il numero di gradi di libertà, ovvero degli elementi liberi di variare.

I GDL sono un adattamento della numerosità campionaria, a cui viene sottratto il numero degli stimatori
che influiscono sulla variabile casuale.

RICORDA: La varianza campionaria si distribuisce secondo una distribuzione chi-quadrato con n-1 gradi di
libertà.

^s2 χ 2n−1

La media campionaria si distribuisce come una normale.

Se mettiamo tante medie al quadrato (facciamo la media dei quadrati) otteniamo la varianza.

Se prendiamo tante varianze e le mettiamo tutte su una curva, questa curva avrà la forma del chi quadrato.
Nota che la varianza come il chi quadrato non può mai essere negativa poiché al quadrato.

Per capirci, noi per misurare la varianza non facciamo un calcolo grezzo ma partiamo già da uno stimatore,
che è la media, che porta già di per sé un errore. Dunque la “correzione” che apportiamo ritiene nella sua
considerazione il numero di stimatori utilizzati per calcolare quella statistica e sottraendoli alla numerosità
totale.

La distribuzione chi-quadrato, essendo ottenuta come una somma di quadrati, è definita da 0 a + ∞

(ovverosia non è mai negativa). Quindi è una distribuzione asimmetrica.

Anche il chi-quadrato gode della proprietà della riproduttività:

una somma di chi quadrato è ancora un chi quadrato.

O per meglio citare la definizione, una somma di normali standardizzate indipendenti al quadrato è
sempre un chi quadrato.

Un test del chi-quadrato è un test statistico che permette di valutare l’accostamento di una distribuzione
campionaria di frequenze osservate ad una distribuzione teorica, di frequenze attese in base alle info
possedute sulla popolazione.
2
( f o −f a )
χ 2gdl =∑
fa
Frequenze osservate

Frequenze attese

Le frequenze attese nascono in base a ciò che sapevo della popolazione, le frequenze osservate nascono in
base a ciò che osservo nel campione. Se la differenza tra quello che ho osservato in passato e quello che
osservo ora non c’è, la somma del numeratore verrà 0 e accetteremo H0. Se invece c’è differenza tra la
condizione di osservazione precedente e quella attuale, il numeratore avrà un valore superiore a 0 e
dovremo rifiutare H0 e accettare H1.

TEST SU SCALA ORDINALE ( Mε ¿


IPOTESI

H 0 : Mε=numero

H 1 : Mε ≠<¿ numero

TEST DELLA MEDIANA


1) Ordinare la serie ed evidenziare i valori che corrispondono a Mε
2) Calcolare:
 ninf =n valori minori di Mε
 n¿ =n valori minori di Mε
3) Selezionare il maggiore tra ninf e n¿ che sarà T ca

CRITERI DI ACCETTAZIONE

 Se T ca <T cr → si rifiuta H 0
 Se T ca >o=T cr → si accetta H 0

NB: sulla tavola dei valori critici di T, n=ninf +n¿

TEST SU SCALA METRICA ( μ/σ 2)

TEST SULLE MEDIE: TEST Z e test t di student


IPOTESI

H 0 : μ=numero

H 1 : μ ≠≠numero

 Se σ è nota, per qualsiasi n si effettua il TEST Z


x−μ
z=
σ
√n
 Se σ NON È NOTA, per n>30 si effettua L’APPROSSIMAZIONE A Z (per il Teorema del Limite
Centrale (TLC))
x −μ
z=
S
√n−1

CRITERI DI ACCETTAZIONE

 Se z ca > z cr → si rifiuta H0
 Se z ca < z cr → si accetta H0

TEST t di Student (le ipotesi sono sempre le stesse)

 Se σ NON È NOTA, per n≤ 30 si effettua il TEST t (di Student)


x−μ
t=
S
√ n−1
CRITERI DI ACCETTAZIONE

 Se t ca >t cr → si rifiuta H0
 Se t ca <t cr → si accetta H0

Per trovare t cr servono i Gradi di Libertà (GDL) = n-1

DISTRIBUZIONE t di Student
La variabile casuale t di Student si definisce come il rapporto tra una variabile casuale normale
standardizzata e la radice quadrata di un chi-quadrato rapportato ai suoi gradi di libertà.

z
t= 2
χ
√ GDL

La distribuzione t di Student ha una forma a campana, è simmetrica e ha le deviazioni standard di poco


superiori ad 1, quindi le code sono più pesanti (ci sono più valori estremi, maggiore platicurtosi) rispetto
alla normale standard.

Confronto test t / test z


Il test t, è un test statistico che permette la verifica della media della popolazione, quando la deviazione
standard σ è incognita e la numerosità campionaria è minore di 30.

Il test z è un test statistico che permette la verifica della media della popolazione, quando la deviazione
standard σ è nota.
TEST SULLE VARIANZE PER UN CAMPIONE
IPOTESI
2
H 0 :σ =numero
2
H 1 : σ ≠numero
Si valuta se la varianza del campione è omogenea a quella della popolazione

( n−1 ) ⋅ S 2
χ 2=
σ2

2 2
 Se χ ca > χ cr → si rifiuta H0
2 2
 χ ca < χ cr → si accetta H0 → s2 e σ 2 sono omogenee

2
Per trovare χ cr → GDL = n-1

 Si può concludere che la varianza del campione sia omogenea con quella della popolazione?
α =0.05
TEST SULLA VARIANZA PER UN CAMPIONE
2
H 0 :σ =9
2
H1: σ ≠ 9

( 10 ) ⋅7 , 67
χ 2= =8.53
9
α =0.05
GDL = 10
2
χ cr =18.307
2 2
χ ca < χ cr → si accetta H0 → s2 e σ 2 sono omogenee

TEST PER PIÙ DI UN CAMPIONE


CAMPIONI INDIPENDENTI

Due o più campioni si dicono indipendenti quando, tra le osservazioni ( x i) che li compongono non esiste
alcuna relazione. La composizione di un campione non interferisce con la composizione di un altro
campione. Esempio: maschi/femmine.

CAMPIONI DIPENDENTI
Due o più campioni si dicono dipendenti quando, tra le osservazioni ( x i) che li compongono, esiste una
relazione sistematica. Al variare dell’uno varia anche volutamente l’altro.

 Disegni per misure ripetute (prima/dopo)


Esempio: misuro un farmaco su un campione, e poi misuro lo stesso farmaco successivamente sullo
stesso campione. Il campione tendenzialmente è uno, i soggetti sono sempre gli stessi, ma le
procedure si ripetono e il campione si misura più volte. Questo serve a capire che con campione
non intendiamo i soggetti ma le risposte dei soggetti, in questo caso in due condizioni sperimentali
diverse (prima/dopo).

 Campioni appaiati (marito/moglie; gemelli)


Esempio: quando è impossibile considerare le osservazioni dei due campioni in modo staccato. Se
vogliamo fare uno studio sul benessere di coppia, vogliamo fare uno studio sui legami tra gemelli,
avremo:
a) Primo campione mariti
b) Nel secondo campione moglie
Però, ovviamente, questi punteggi non li posso considerare indipendenti ma sempre in relazione
con il punteggio del consorte. Anche se i soggetti tra di loro sono diversi, la relazione non è
trascurabile.
TEST PER DUE CAMPIONI: SCALA NOMINALE

SCALA NOMINALE DICOTOMICA ( π )


IPOTESI

H 0 :π 1=π 2 → π 1−π 2=0 o numero

H 1 : π 1 −π 2 ≠≠0 o numero

Se n1 ⋅ P1 ⋅ ( 1−P1 ) >5 → TEST PER IL CONFRONTO DI PROPORZIONI INDIPENDENTI

E n2 ⋅ P2 ⋅ ( 1−P2 ) >5
( P1−P2 )−(π 1−π 2)
z=

√ P (1−P)(
1 1
+ )
n1 n2

CON

n1 ⋅ P1 +n2 ⋅ P 2
P=
n1 +n2
Oppure direttamente

k 1+ k 2
P=
n 1+n 2

 Se z ca > z cr → si rifiuta H0
 Se z ca < z cr → si accetta H0

SE

Se n1 ⋅ P1 ⋅ ( 1−P1 ) <5

E/o n2 ⋅ P2 ⋅ ( 1−P2 ) <5

Oppure trovi scritto “associazione”, “relazione”, “dipendenza” nel testo →

→TEST DEL CHI-QUADRATO

PER L’INDIPENDENZA DI VARIABILI CATEGORIALI


(Vedi scala nominale politomica)
2
2 ( f o −f a )
χ =∑
gdl
fa
f 0=FREQUENZE OSSERVATE

f a=FREQUENZE ATTESE

CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0
2 2
Se χ ca < χ cr → si accetta H 0
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL=k-1 [K=numero categorie della variabile, poiché
ribadiamo che il test del chi quadrato si usa per scale nominali politomiche (con più categorie)]
TEST PER DUE CAMPIONI: SCALA ORDINALE (test non-
parametrici)

CAMPIONI INDIPENDENTI: TEST DI MANN-WHITNEY


H 0 : M ε 1=M ε 2

H 1 : M ε 1 ≠<¿ M ε 2

PROCEDURA

1) Ordinare le osservazioni indipendentemente dal campione a cui appartengono, ricordando però


ogni punteggio a quale campione apparteneva.
2) Assegnare i ranghi

NB: per i punteggi uguali, calcolare il RANGO MEDIO

Esempio:

xi 20 22 22 22 24 24 25
R 1 2 3 4 5 6 7
1 3 3 3 5,5 5,5 7

3) Separare i ranghi dei punteggi del primo campione, da quelli dei punteggi del secondo campione, e
sommarli ottenendo Σ ranghi1 e Σ ranghi2

4) Calcolare:
n1 ( n1 +1 )
U 1=Σ ranghi1−
2
n2 ( n2 +1 )
U 2=Σ ranghi2−
2
5) Selezionare la U minore tra le due

 Se n1 e/o n2 < 9 → U MIN sarà il valore calcolato

CRITERI DI ACCETTAZIONE

Se U Ca < U Cr → si rifiuta H 0

Se U Ca > U Cr → si accetta H 0

 Se n1 e n2 > 9 → Inserire U MIN nella formula:

n1 ⋅n2
U MIN −
2
z=

√ n1 ⋅n2 ⋅ ( n1 +n 2+1 )
12
CRITERI DI ACCETTAZIONE

 Se z ca > z cr → si rifiuta H0
 Se z ca < z cr → si accetta H0
TEST PER 2 CAMPIONI: SCALA METRICA

TEST PER 2 CAMPIONI INDIPENDENTI SU SCALA METRICA

TEST SULLE MEDIE CAMPIONI INDIPENDENTI SU SCALA


METRICA
IPOTESI

H 0 : μ1=μ2 → μ1−μ 2=0 o numero

H 1 : μ 1−μ2 ≠≠0 o numero

 Se σ 1 e σ 2 note, per qualsiasi n1 e n2 → TEST Z

( x1 −x2 ) −( μ1−μ2 )
Z=


2 2
σ1 σ2
+
n1 n2
 Se σ 1 o σ 2 NON note, e n1 e n2 >30 → APPROSSIMAZIONE A Z

( x1 −x2 ) −( μ1−μ2 )
Z=


2 2
s1 s2
+
n1−1 n2−1

CRITERI DI ACCETTAZIONE

 Se z ca > z cr → si rifiuta H0
 Se z ca < z cr → si accetta H0

 Se σ 1 o σ 2 NON note, e n1 e n2 ≤ 30→ Test t di Student

 ATTENZIONE! Prima di utilizzare il test t di Student, va verificata l’omogeneità (o omoschedasticità)


delle varianze delle popolazioni da cui sono estratti i campioni. Quindi per applicare il test t,
bisogna prima fare il test sulle varianze.

( x 1−x 2 ) −( μ1−μ2 )
t=


2 2
s1 ⋅n1 +s 2 ⋅ n2 1 1
⋅( + )
n1 +n2 −2 n1 n2

CRITERI DI ACCETTAZIONE

 Se t ca >t cr → si rifiuta H0
 Se t ca <t cr → si accetta H0

Per trovare t cr → GDL = n1 +n 2−2


2 2
s 1 ⋅n 1+ s 2 ⋅n 2
n1 +n2−2

Questa parte della formula della t di Student si chiama stimatore congiunto della varianza e ha senso SOLO
se la varianza delle popolazioni da cui sono stati estratti i campioni sono OMOGENEE. Se questa parte
perde di senso, tutta la formula non è più una t di Student.

Ciò significa che un’assunzione fondamentale per l’applicazione del test t di Student per due campioni
indipendenti è l’omogeneità (o omoschedasticità) delle varianze delle popolazioni da cui sono stati
estratti i campioni. Quindi per applicare il test t, bisogna prima fare il test sulle varianze.

Scritto due volte così non te lo scordi.


TEST SULLE VARIANZE PER DUE CAMPIONI INDIPENDENTI
SU SCALA METRICA
IPOTESI:
2 2
H 0 :σ 1=σ 2
2 2
H 1: σ1 ≠ σ2
TEST F DI FISCHER

σ^ MAX
2
2 2 ni
σ^ i (da stimare per amboi campioni)=S i ⋅ → F= 2
ni−1 σ^ MIN

CRITERI DI ACCETTAZIONE

 Se F ca < F cr → si accetta H0 → le σ 2 sono omogenee →si può applicare il test t

 Se F ca > F cr → si rifiuta H0→ le σ 2 NON sono omogenee →non si può applicare il test t e si
regredisce a livello ordinale, applicando il test Mann-Whitney

Per trovare F cr → GD L1=n1−1 e GD L2=n2−1

DISTRIBUZIONE F DI FISCHER
La variabile casuale F di Fischer si definisce come il rapporto tra due chi-quadrato, indipendenti tra loro e
rapportati ai rispettivi gradi di libertà.
2
χ1
GD L1
F=
χ 22
GD L2

La distribuzione F di Fischer è definita da 0 a + ∞ ed è asimmetrica.

Il test F viene utilizzato per la verifica delle medie, attraverso il rapporto tra varianze.

TEST PER DUE CAMPIONI DIPENDENTI SU SCALA


ORDINALE: TEST DI WILCOXON (O TEST DEI SEGNI)
IPOTESI:

H 0 : M ε 1=M ε 2

H 1 : M ε 1 ≠<¿ M ε 2

Procedura:
1) Calcolare le differenze tra i punteggi appaiati dei due campioni (es: PRIMA-DOPO, si sceglie in base
a com’è stata data l’ipotesi alternativa)
2) Ordinare le differenze in valore assoluto
3) Assegnare i ranghi alle differenze
NB: alle differenze che sono risultate uguali a 0 non si assegna nessun rango.
4) Tenendo conto dei segni che avevano le differenze, separare i ranghi e sommarli, ottenendo:

T+ = ∑ ranghi +¿ ¿
(somma dei ranghi delle differenze positive)

T- = ∑ ranghi−¿¿
(somma dei ranghi delle differenze negative)

5) Selezionare la t minore tra le due


 Se n < 16, → T MIN sarà il valore calcolato (in valore assoluto)

CRITERI DI ACCETTAZIONE

 Se T ca ≤T cr → si rifiuta H0
 Se T ca >T cr → si accetta H0

Per trovare T cr: n corr =¿ n – differenze con esito 0

 Se n ≥ 16, → inserire T MIN nella formula:

ncorr ⋅(ncorr +1)


T MIN −
4
z=

√ n corr ⋅(ncorr +1)⋅ ( 2⋅ ncorr +1 )


24
 Se z ca > z cr → si rifiuta H0
 Se z ca < z cr → si accetta H0

TEST PER 2 CAMPIONI DIPENDENTI SU SCALA METRICA:


TEST SULLE MEDIE

IPOTESI:
H 0 : μdiff =0 o numero

H 1 : μ diff ≠≠0 o numero

 Se n ≥ 30 si effettua il TEST Z

x D −μD
z=
SD
√n−1

DOVE:

S D=
√ ∑ DIFF 2
n
−x 2DIF

∑ DIFF
xD=
n
CRITERI DI ACCETTAZIONE

 Se z ca > z cr → si rifiuta H0
 Se z ca < z cr → si accetta H0

 Se n<30 si effettua il TEST t di Student

x D −μ D
t=
SD
√n−1
CRITERI DI ACCETTAZIONE

 Se t ca >t cr → si rifiuta H0
 Se t ca <t cr → si accetta H0

Per trovare t cr servono i Gradi di Libertà (GDL) = n-1

TEST PER 3 O PIÙ CAMPIONI (TEST OMNIBUS):


CAMPIONI INDIPENDENTI
I test per tre o più campioni vengono detti TEST OMNIBUS, perché sono dei test generali che confrontano
insieme tutti i campioni e ci possono dire solo se uno dei campioni differisce dagli altri, senza dirci qual è
questo campione e di quanto differisce. In H1 possiamo soltanto dire che c’è una media, senza sapere quale,
che differisce dalle altre. Ergo: questi tre campioni appartengono a tre popolazioni uguali? O qualcuno
appartiene ad una popolazione diversa?

Quando con un test omnibus si dimostra che c’è un campione diverso dagli altri, è poi necessario andare ad
indagare qual è il campione che differisce mediante test statistici specifici per i confronti multipli, chiamati
test post-hoc.

TEST OMNIBUS SCALA ORDINALE: TEST KRUSKALL-


WALLIS
IPOTESI:

H 0 : M ε 1=M ε 2=…=M ε n

H 1 : Almeno una Mε diversa

PROCEDURA

1) Ordinare le osservazioni indipendentemente dal campione a cui appartengono


2) Assegnare i ranghi
NB: per i punteggi uguali, calcolare il rango medio.

3) Separare i ranghi dei punteggi di ogni campione e calcolare la media dei ranghi per ogni gruppo ed
elevarle al quadrato:
2
Ottenendo le M Rj
2
4) Moltiplicare ogni M Rj per la numerosità relativa ad ogni campione (nj) e sommare i prodotti,
ottenendo:
2
∑ (M ¿ ¿ Rj ⋅ n j )¿
5) Applicare la formula del test:

KW =
[ 12
n ⋅ ( n+ 1 ) ]
⋅ Σ ( M 2Rj ⋅ n j ) −3 ⋅ ( n+ 1 )

La statistica test KW si distribuisce come un χ 2, quindi usiamo i criteri del χ 2 :

CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0
2 2
Se χ ca < χ cr → si accetta H 0
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL=k-1 [K=numero campioni]

La variabile casuale Chi-quadrato si definisce come la somma di n. variabili casuali NORMALI


STANDARDIZZATE INDIPENDENTI E AL QUADRATO

ANALISI DELLA VARIANZA: TEST OMNIBUS ANOVA


È un test che valuta la differenza tra le medie, attraverso un rapporto tra due varianze. Serve anche a
valutare l’associazione tra due variabili, una metrica e una nominale.

IPOTESI

H 0 : μ1=μ2=…=μn

H 1 : almeno una μ diversa dalle altre

L’ANOVA: SCOMPOSIZIONE DELLA DEVIANZA


Quando conduciamo un esperimento, la variabilità totale ( DEV GENERALE o DEV TOTALE ¿ che si misura sulla
variabile dipendente y, è dovuta a due fonti di variabilità:

1) La variabilità TRA i gruppi ( DEV BETWEEN ¿ che è dovuta alla variabile indipendente x, che ha creato
la condizione sperimentale (ovvero i campioni). La condizione sperimentale significa essere in un
gruppo piuttosto che in un altro.
2) La variabilità presente tra i soggetti all’interno di ogni gruppo ( DEV WITHIN ¿anche detta variabilità
d’errore, che è dovuta a eventuali variabili intervenienti z, che non possiamo controllare.
DEV GENERALE =DEV BETWEEN (introdotta dallo sperimentatore tramite la variabile x )+ DEV WITHIN (differenza di base d

La DEV B è indicativa dell’effetto sperimentale della variabile indipendente x sulla dipendente y.

La DEV W è indicativa dell’errore che si commette misurando l’effetto di x su y, a causa di variabili di


disturbo z non prevedibili.

L’ANOVA confronta la variabilità sperimentale DEV B e la variabilità d’errore DEV W attraverso un rapporto.
Tuttavia le due devianze non possono essere confrontate direttamente, perché non sono sullo stesso
piano:

DEV B dipende dal numero k di gruppi

DEV W dipende dal numero n di soggetti presenti in k gruppi.

Quindi prima di metterle a rapporto tra di loro, e dunque per rendere le due devianze confrontabili, occorre
prima trasformarle in varianze rapportandole ai rispettivi gradi di libertà.

DEV B
GDLB =k −1→ VAR B=
k−1
DEV W
GDLW =n−k → VAR W =
n−k

DEV G
GDLG =n−1 → VARG =
n−1
A questo punto si possono rapportare le varianze, ottenendo una F di Fischer:

VAR B
F=
VARW
La F di Fischer è una variabile casuale che si definisce come il rapporto tra due chi-quadrato rapportate ai
rispettivi gradi di libertà.

FORMULE TEORICHE PER CALCOLARE LE VARIANZE


2 1 2 2
σ w= ⋅[∑ ( x i−x 1 ) +…+∑ ( xi −x k ) ]
n1 +…+n k

2 1 2
σ b= ⋅∑ nk ( x i− x )
n
Non le utilizziamo nella pratica ma possono servire per rispondere a delle domande.

ANOVA FORMULE APPLICATIVE

IPOTESI:

H 0 : μ1=μ2=…=μn

H 1 : almeno una μ diversa

Nella pratica, per eseguire il test si utilizzano i:

BASIC RATIO

T = somma dei punteggi di ogni gruppo (T1 del primo campione + T2 + T3 + … = T tot)

Q = somma dei quadrati dei punteggi di ogni gruppo (stessa cosa ma per Q)

C = fattore di correzione

E in base ad essi si calcolano le devianze [la j identifica i campioni]

T J =∑ xi →T TOT =T 1 +T 2 +…+T n
J

Q J =∑ x i → Q TOT =Q1+Q 2+ …+Qn


2

2
T TOT
C= → n=SOMMA NUMEROSITÀ TOTALE
n
Esempio: se sono 3 gruppi da 3 persone n = 9

DEV G =QTOT −C

( )
2 2 2
T T T
DEV B= 1 + 2 +…+ J −C
n1 n 2 nj

( )
2 2 2
T T T
DEV W =QTOT − 1 + 2 +…+ J
n 1 n2 nj

DEV W =DEV G −DEV B

Ottenute le devianze, passiamo alle varianze:


DEV B
GDLB =k −1→ VAR B=
k−1
DEV W
GDLW =n−k → VAR W =
n−k

DEV G
GDLG =n−1 → VARG =
n−1

A questo punto si possono rapportare le varianze, ottenendo una F di Fischer:

VAR B
F=
VARW

 Se F ca < F cr → si accetta H0

 Se F ca > F cr → si rifiuta H0

Per trovare F cr →

GD L BET =k −1

GD LWIT =n−k

NB domanda negli esami: Se si applica l’ANOVA con due soli campioni, la statistica test F di Fischer sarà
equivalente al test t di Student per due campioni indipendenti.

ASSUNTI DI APPLICABILITÀ:

1) INDIPENDENZA: le osservazioni dei singoli campioni devono essere indipendenti tra loro;
2) NORMALITÀ: la distribuzione della variabile dipendente deve essere normale;
3) OMOSCHEDASTICITÀ: le varianze delle popolazioni da cui sono stati estratti i campioni devono
essere omogenee

STATISTICA DESCRITTIVA BIVARIATA

Branca della statistica che mediante l’utilizzo di coefficienti di connessione e correlazione si occupa di
studiare la relazione tra due caratteri/variabili e mutabili.

Due caratteri sono in un rapporto di co-variazione quando hanno la tendenza a variare in modo
concomitante.

La connessione è la relazione tra due caratteri qualitativi (aspetto nominale/ordinale),

La correlazione è la relazione tra due caratteri quantitativi (aspetto metrico).


Esistono diversi tipi di relazione tra i caratteri:

1) Relazione DIRETTA

X →Y
La relazione tra X e Y è diretta

2) Relazione INDIRETTA MEDIATA

X → Z →Y
La relazione tra X e Y non è diretta ma è mediata da un MEDIATORE Z

3) Relazione INDIRETTA MODERATA

X →Y ← Z
La relazione tra X e Y si verifica solo quando appare il MODERATORE Z, senza il quale la relazione tra X e
Y non si presenta.

4) Relazione RECIPROCA

X ↔Y
La relazione tra X e Y si verifica, e ha un effetto di ritorno su X

INDICI E TEST DI CONNESSIONE/CORRELAZIONE

Per verificare la relazione tra due caratteri esistono diversi indici e test statistici, che si applicano a seconda
della scala di misura dei caratteri:

 Mutabili sconnesse (nominali)


 Mutabili connesse (ordinali)
 Variabili (metriche)

Tutti gli indici che vedremo sono INDICI DI ASSOCIAZIONE NORMALIZZATI

TEST DI CONNESSIONE/CORRELAZIONE TRA 2 CARATTERI


NOMINALI O TRA 1 NOMINALE E 1 ORDINALE
TEST DEL CHI-QUADRATO PER L’INDIPENDENZA DI VARIABILI
CATEGORIALI

IPOTESI:

H 0: χ 2=0
H 1: χ 2>0

ATTENZIONE: può SOLO essere maggiore di zero poiché è un parametro elevato al quadrato
2
2 ( f o −f a )
χ =∑
gdl
fa
f 0=FREQUENZE OSSERVATE

f a=FREQUENZE ATTESE

PROCEDIMENTO:

Questo test è riconoscibile dall’uso di parole come ASSOCIAZIONE, RELAZIONE, DIPENDENZA (quando i
caratteri sono nominali)

1) Organizzare le f 0=FREQUENZE OSSERVATE in una tabella di contingenza e calcolare i


marginali di riga e colonna (cioè i totali)
2) Creare un’ulteriore tabella, riportando solo i totali e lasciando le celle vuote
3) Riempire le celle di questa tabella con le f a=FREQUENZE ATTESE con la formula:
^f =f ⋅f
ij i j

DOVE
n colonne
f i=
N
n righe
f j=
N
O più semplicemente

Marginale riga ⋅ Marginale colonna


f A=
Grantotale

Una volta riempita questa tabella, avremo sia le frequenze osservate sia le frequenze attese e
possiamo procedere a calcolare il chi-quadrato:

2
2 ( f o −f a )
χ =∑
gdl
fa

CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0 quindi c’è relazione tra le variabili
2 2
Se χ ca < χ cr → si accetta H 0 quindi non c’è relazione tra le variabili
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL = (R-1) x (C-1)
R=Numero di categorie della prima variabile (Righe)

C=Numero di categorie della seconda variabile (Colonne)

Scrivo Righe e Colonne perché per fare questo test ci serve una Tabella a doppia entrata (o tavola di
contingenza)

INDICI E TEST DI CONNESSIONE/CORRELAZIONE

TRA 2 CARATTERI NOMINALI O TRA 1 NOMINALE E 1


ORDINALE
ATTENZIONE! La valutazione della relazione tra due variabili nominali o una nominale e una ordinale può
essere fatta anche attraverso un indice. Abbiamo due indici che possono essere utilizzati:

SE TABELLA 2x2 (se sono due variabili nominali dicotomiche): INDICE DI


CONTINGENZA QUADRATICA MEDIA DI FISCHER
2
2 χ
ϕ=
N
2
0 ≤ ϕ ≤ MIN [R−1 oppure C−1]
SE TABELLA MAGGIORE DI 2x2 (se almeno una variabile è politomica): INDICE V DI
CRAMER

V= √ χ2
n ⋅ MIN [ R−1 oppure C−1]
0≤V ≤1

TRA 1 CARATTERE NOMINALE E 1 METRICO

TEST: TEST OMNIBUS ANOVA

INDICE: RAPPORTO DI CORRELAZIONE ETA QUADRO

Il rapporto di correlazione η2 valuta l’associazione tra una mutabile sconnessa e una variabile e valuta in
pratica qual è la quota della variabile totale misurata sulla variabile dipendente che è attribuibile alla
variabilità between, ovvero all’effetto sperimentale della variabile indipendente x

2 DEV B
η=
DEV G
2
0≤η ≤1
Tanto più è alto ETA quadro, tanto più l’effetto sperimentale coincide con la devianza globale, tanto più
avremo fatto un test di poco sballato dalla devianza intergruppi. Tanto più è alto, tanto più è valido il nostro
esperimento.

TRA 2 CARATTERI ORDINALI O TRA 1 ORDINALE E 1


METRICO
Indice ps =RHO DI SPEARMAN

2
6 ⋅Σ ⅆ
RHO=1− 3
n −n
−1 ≤ p s ≤ 1

PROCEDURA

1) Ordinare i punteggi delle due variabili separatamente e calcolare i ranghi


2) Appaiare i ranghi soggetto per soggetto e calcolare le differenze tra i ranghi (d);
3) Elevare le d al quadrato e sommarle, ottenendo Σ ⅆ 2

Quanto più ps sarà vicino al -1, tanto più ci sarà una relazione perfetta negativa. Quanto più ps sarà vicino al
+1, tanto più ci sarà una relazione perfetta positiva, mentre se è 0 non c’è relazione.

TEST ps =RHO DI SPEARMAN


IPOTESI:

H 0 : p s=0

H 1: ps≠ 0

 Se n ≤ 20 → RHO si confronta con un RHO critico

CRITERI DI ACCETTAZIONE

Se RHOCA > RHOCCR → Si rifiuta H0 (c’è relazione)

Se RHOCA < RHOCCR → Si accetta H0 (non c’è relazione)

 Se n ¿ 20 → RHO viene inserito in una formula z

z=RHO ⋅ √ n−1
CRITERI DI ACCETTAZIONE

 Se z ca > z cr → si rifiuta H0 (c’è relazione)


 Se z ca < z cr → si accetta H0 (non c’è relazione)
TRA 2 VARIABILI METRICHE
COEFFICIENTE DI CORRELAZIONE LINEARE SEMPLICE PRODOTTO-
MOMENTO DI BRAVAIS-PEARSON ρ (r DI PEARSON)

La r di Pearson è definibile come la covarianza standardizzata.

La covarianza è la misura di quanto due variabili metriche variano in modo congiunto.

∑ ( x−x ) ( y− y )
COV ( X , Y )=
n
∑(z x ⋅ z Y )
COV ( Z x , Z y )=
n

n ⋅∑ ( x ⋅ y )−Σx ⋅Σy
r=
√ [n ⋅∑ x 2−( ∑ x )2 ]⋅[n ⋅∑ y 2− (∑ y )2]
La r di Pearson valuta se tra due variabili esiste una relazione di tipo lineare, ovvero una relazione
descrivibile attraverso una linea retta.

−1 ≤ ρ≤ 1
Se ρ = ± 1→ Relazione lineare perfetta positiva/negativa: le due varianze sono linearmente dipendenti.

Se ρ=0 → Assenza di relazione lineare: le due varianze sono linearmente indipendenti.

Attenzione: con RHO scopriamo che non esiste una relazione lineare, non che non esiste una relazione. C’è
una bella differenza.

Altri mille centocinquanta modi di scrivere la formula r di PEARSON:

1 x i−x y i− y
ρ= ∑( ⋅ )
n σx σy i i

∑ [ ( x i−x ) ( y i− y ) ]
ρ=
σx ⋅σy
i i

∑ [ ( x i−x )( y i− y ) ]
ρ=
√ ∑ ( x i−x ) 2
⋅∑ ( y i− y )
2

σxy
ρ=
σ x ⋅σ y

COV (x , y )
r=
σ x ⋅σ y

TEST SU ρ (r DI PEARSON)
IPOTESI
H 0 : ρ=0

H 1 : ρ≠ 0

Si inserisce la r calcolata in una formula t di Student

r ⋅ √ n−2
t=
√1−r 2
CRITERI DI ACCETTAZIONE

 Se t ca >t cr → si rifiuta H0 (c’è relazione lineare)


 Se t ca <t cr → si accetta H0 (non c’è relazione lineare)

Per trovare t cr servono i Gradi di Libertà (GDL) = n-2

DIAGRAMMA DI DISPERSIONE (SCATTER PLOT)


Si utilizza per rappresentare graficamente la relazione tra due variabili.

Si costruisce riportando su gli assi cartesiani i punteggi standardizzati delle due variabili e disegnando dei
punti all’incrocio tra i punteggi appaiati.

Var. x 1 2 2 3 4 5
Var. y 5 4 3 3 2 1
LA REGRESSIONE LINEARE
L’analisi di regressione lineare è una tecnica statistica che permette di valutare la probabilità che tra due
variabili esista una relazione di tipo lineare causale, ovvero una relazione in cui la variabile X è causa (o
predittore) della variabile y, che si dice effetto (o criterio).

La regressione lineare può essere:

 SEMPLICE: 1 PREDITTORE, 1 CRITERIO


 MULTIPLA: + PREDITTORI, 1 CRITERIO
 MULTIVARIATA: + PREDITTORI, + CRITERI

LA REGRESSIONE LINEARE SEMPLICE


L’analisi di regressione lineare semplice consente di ottenere un’equazione che preveda il valore di y, in base
al valore di x.

Questa equazione serve per identificare la retta che descrive la relazione lineare tra x e y, come tale è
chiamata EQUAZIONE DELLA RETTA DI REGRESSIONE.

Y^ i=a+b ⋅ x

Oppure

Y^ =b0 +b 1 ⋅ x
b 0 (oppure a) si chiama INTERCETTA ed indica il punto in cui la retta tocca l’asse delle ordinate (y).
^ quando x è uguale a 0.
Ovvero è indicativa del valore di Y

b 0= y−b1 ⋅ x

Oppure

∑ y−b 1 ⋅∑ x
b 0=
n

−∞ ≤ b0 ≤+ ∞

b 1 (oppure b) si chiama COEFFICIENTE ANGOLARE, o COEFFICIENTE DI REGRESSIONE, o PENDENZA ed


indica l’inclinazione della retta di regressione.

Se b 1è uguale a 0, significa che tra x e y non vi è una relazione lineare.

n ⋅∑ (x ⋅ y)−∑ x ⋅∑ y
b 1=
n ⋅∑ ( x )−(∑ x)
2 2

Oppure

COV (x ; y )
b 1=
σ 2x

−∞ ≤ b1 ≤+ ∞

Come si vede dalla formula, in base a x e ai valori di b0 (intercetta) e b1 (coefficiente angolare), si può
ottenere in realtà solo una stima del reale fattore di y.
^ che è lo stimatore di y.
Otterremo in fatti solo Y

Trovandoci in un’ottica probabilistica infatti, stimando y in base a x, commetteremo sempre un errore,


chiamato ERRORE DI PREDIZIONE o RESIDUO ( ε )

ε è in pratica lo scarto tra il vero valore di y ed Y^ .


^
Quindi per ottenere l’equazione del vero valore di y, bisogna aggiungere ε ad Y

ε = y−Y^
Ciò significa che

y=Y^ + ε → y =a+bx + ε
Graficamente:
Per mantenere gli errori ε i più bassi possibili, la retta di regressione viene disegnata in modo da ottenere il
^
minimo scarto possibile rispetto a tutte le Y

Ciò significa che la retta viene disegnata seguendo il PRINCIPIO DEI MINIMI QUADRATI, secondo cui per
ottenere il minimo errore possibile di una funzione bisogna sommare i quadrati dei suoi scarti.

∑ ( ε )=M ∈! →∑ ( y−Y^ ) =M ∈! → ∑ ( y−a−bx ) =MIN !


2 2 2

RICORDA: La somma degli scarti al quadrato di una funzione, che è uguale al minimo valore possibile
secondo il principio dei minimi quadrati, è la devianza. Questa quantità è la devianza di y.

Per ottenere la varianza dobbiamo dividerla per i gradi di libertà.

Per la deviazione standard si fa la radice quadrata della varianza.

∑ ( ε )=M ∈! →∑ ( y−Y^ ) =M ∈¿
2 2

Questa quantità (la somma dei quadrati degli scarti da y) è per definizione una DEVIANZA.

INDICI DI BONTÀ DI ADATTAMENTO DEL MODELLO


1) ERRORE STANDARD DELLA STIMA DI Y
Se la dividiamo per i suoi gradi di libertà (n-2) e ne facciamo la radice quadrata, otteniamo l’ERRORE
STANDARD DELLA STIMA DI Y ( sε ¿

2
Σ ( y−Y^ )
sε =
n−2
sε ci fornisce una valutazione dell’errore medio che commettiamo quando stimiamo y, a partire da x.

Come tale, è un indice di bontà di adattamento del modello.

Quanto più basso risulta l’indice applicato, tanto meglio si adatta il modello ai miei dati

2) COEFFICIENTE DI DETERMINAZIONE R2
Il modello è la spiegazione teorica che diamo ai dati (ovvero che x e y sono in una relazione lineare
causale). Gli indici di bontà di adattamento ci dicono quanto il modello si adatta bene ai dati, ovvero quanta
della variabilità dei dati è spiegata dal modello applicato.

Nella regressione, il principale indice di bontà dell’adattamento è il

COEFFICIENTE DI DETERMINAZIONE R2

Σ ( Y^ − y )
2
2
R= 2
Σ( y−y)
2
0≤ R ≤1
Se consideriamo che la devianza della y è così ripartita,

DEV .TOT DEV . SPIEGATA DEV . NON SPIEGATA


= +
Σ ( Y^ − y ) Σ ( y −Y^ )
2 2 2
Σ ( y− y )

Vuol dire che R2 è il rapporto tra la devianza spiegata e la devianza totale misurata su y.

2 DEV . SPIEGATA
R=
DEV . TOTALE
Ciò significa che R2 ci dice quanta della devianza totale misurata su y, è spiegata dal modello (ovvero
dall’effetto causale di x su y)

Maggiore sarà R2, maggiore sarà la probabilità che tra x e y esista una relazione lineare causale.

NELLA PRATICA:
Nel modello di regressione lineare semplice, il coefficiente di determinazione R2 coincide con il quadrato
del coefficiente di correlazione lineare semplice di Bravais-Pearson ( ρ )

2 2
R =r
TEST SU β0
(test sull’intercetta)

IPOTESI:

H 0 : β 0=0

H 1 : β0 ≠ 0

b0
tb =


0
2
Σ ( y−Y^ ) 1 x
2
⋅( + )
n−2 n ∑ ( x−x )2

CONFRONTO ANOVA REGRESSIONE


Entrambi i procedimenti di analisi valutano l’esistenza di una relazione di dipendenza casuale tra una
variabile x e una variabile y.

In entrambi i casi è possibile calcolare un indice che ci dica la quota di variabilità totale di y dovuta/spiegata
da x (η2 in un caso, R2 nell’altro).

La differenza sta nel fatto che la regressione (attraverso il test su β 1) valuta la dipendenza tra due variabili
metriche, mentre l’ANOVA valuta la dipendenza tra una variabile nominale ed una metrica.

CRITERI DI ACCETTAZIONE

 Se t ca >t cr → si rifiuta H0 (l’intercetta nella popolazione è diversa da 0)


 Se t ca <t cr → si accetta H0 (l’intercetta nella popolazione è uguale a 0)

Per trovare t cr servono i Gradi di Libertà (GDL) = n-2

TEST SU β1
(Test sul coefficiente di regressione)

Verifica se tra x e y c’è una relazione lineare di dipendenza.

IPOTESI:

H 0 : β 1=0

H 1 : β1 ≠ 0
b1
tb =


0
2
Σ ( y−Y^ )
2
(n−2)⋅∑ ( x−x )
CRITERI DI ACCETTAZIONE

 Se t ca >t cr → si rifiuta H0 (x influenza y in modo lineare)


 Se t ca <t cr → si accetta H0 (x e y non hanno relazione lineare)

Per trovare t cr servono i Gradi di Libertà (GDL) = n-2

Timestamp: [Link]

Potrebbero piacerti anche