Statistica
Statistica
Collettivo:
Insieme di unità statistiche oggetto di studio
Popolazione:
Insieme di unità statistiche omogenee rispetto ad alcune caratteristiche (es: maschi, femmine, caratteristica
comune dei membri)
Campione:
Insieme di unità statistiche estratte da una popolazione di cui può essere o meno rappresentativo
Carattere o variabile:
Qualunque attributo che assume valori diversi quando sottoposto ad osservazione (es. colore degli occhi)
Modalità o categorie:
Manifestazioni del carattere (verde, azzurro, celeste, ROSSO CREMISI, ARCOBALENO)
SCALE DI STEVENS:
Variabili MUTABILI: DATI QUALITATIVI
Nominali (mutabile sconnessa) [Operazioni possibili: uguale, diverso.]
Dicotomiche: 2 categorie
a. INTERVALLI (zero RELATIVO: un numero come tutti gli altri): [Operazioni possibili: uguale, diverso,
maggiore, minore, addizione, sottrazione]
b. RAPPORTI (zero ASSOLUTO: assenza di quel carattere): [Operazioni possibili: uguale, diverso,
maggiore, minore, addizione, sottrazione, moltiplicazione, divisione]
FREQUENZA:
Numero di volte in cui una modalità di una variabile viene osservata
NUMEROSITÀ CAMPIONARIA:
La somma delle frequenze assolute (N)
FREQUENZE CUMULATE:
Somma delle singole frequenze fatta in successione
Quando i dati sono qualitativi c’è DISCONTINUITÀ, poiché sono NETTAMENTE SEPARABILI.
Quando i dati sono quantitativi c’è CONTINUITÀ, poiché in ogni intervallo vi sono infinite modalità.
F(x) = P (X < x)
La funzione di Ripartizione F(x) è tale che la probabilità di una qualsiasi variabile sia SEMPRE MINORE del
MASSIMO della funzione.
e 0 ≤ F ( x )≤ 1
Si costruisce portando in ordinata le F. Cumulate Relative e in ascissa il limite inferiore di ogni classe.
DIAGRAMMA DI PARETO: Riporta SIA l’istogramma CHE la funzione di ripartizione sullo stesso grafico.
STATISTICA DESCRITTIVA
Branca della statistica che, mediante indici di tendenza centrale, posizione, variabilità e forma, studia e
riassume l’informazione contenuta in un determinato collettivo.
MEDIANA
È il valore che si trova nel mezzo di un insieme di dati ordinati, lasciando dietro di sé il 50% dei valori e
davanti a sé l’altro 50%: divide i dati in due metà uguali. Se il numero di osservazioni è dispari, la mediana è
il valore centrale. Se il numero di osservazioni è pari, la mediana è la media dei due valori centrali. La
mediana è calcolabile in scale ordinali e metriche, corrisponde al Q2 ed è centro di ordine uno, ovvero
minimizza gli scarti elevati a uno.
1
∑|x i−M e| =min
a. Ordinare i valori
b. Assegnare dei ranghi: posizione in classifica occupata dall’osservazione di una modalità.
N +1
c. Calcolare la posizione mediana (PosMe) =
2
d. Se N è dispari, la Me sarà l’unità statistica che corrisponde alla PosMe
e. Se N è pari, la Me sarà la semisomma tra i due valori centrali della distribuzione. Per
convenzione si assume che la Me abbia come valore la modalità con maggiore frequenza che
capita in contestazione dicotomica nella PosMe. Il problema non si pone se adiacente alla
semisomma tra i due valori centrali della distribuzione, detti valori condividono la stessa
modalità, che sarà appunto la mediana.
DISTRIBUZIONE DI FREQUENZA
a. “
b. “
c. Cercare la PosMe nelle frequenze cumulate ed evidenziare come classe mediana la classe
corrispondente a quel valore.
d. Per l’effettivo valore della mediana usare la formula:
e. F-1 si chiama FREQUENZA RETROCUMULATA, LI sarebbe il limite inferiore della classe mediana,
n minuscolo è la frequenza assoluta di quella classe (se si è effettuato il calcolo con F, va usata la F
relativa di quella classe, ed infine A è l’ampiezza.
MEDIA
È il valore medio dei dati ed è calcolata sommando tutti i valori e dividendo il totale per il numero di valori.
La formula per la media aritmetica di un insieme di (n) valori ( x 1 , x 2 … , x n) è:
È l’indice che rappresenta la condizione di equidistribuzione del carattere, ovvero è il baricentro della
distribuzione. Consiste nella somma di tutte le modalità divisa per la numerosità del collettivo. È
calcolabile solo in scale metriche, ed è più sensibile della mediana ai valori estremi (outliers). Si indica con
x
Distribuzione di frequenza
a. Per frequenze assolute: sommatoria delle xi moltiplicate per le frequenze assolute, il risultato
diviso la numerosità del collettivo
b. Per frequenze relative: sommatoria delle xi moltiplicate per le frequenze relative
Con le frequenze assolute: sommatoria delle ci (quindi dei CENTRI delle classi) moltiplicate per le frequenze
assolute, il risultato diviso la numerosità del collettivo. Con le frequenze relative: sommatoria delle ci
(quindi dei CENTRI delle classi) moltiplicate per le frequenze relative
4. Semisomma interquartilica
Questi indici sono fondamentali in statistica per descrivere e interpretare i dati, offrendo una sintesi
semplice e comprensibile delle caratteristiche principali di un dataset.
min +max
x m=
2
PROPRIETÀ DELLA MEDIA:
INTERNALITÀ
La media non subisce variazioni rispetto alle trasformazioni lineari del carattere (somma, sottrazione,
divisione, moltiplicazione)
SCARTI
∑ ( x i−x ) =0
MINIMI QUADRATI
La media è il centro di ordine due, ovvero minimizza gli scarti elevati al quadrato:
2
∑ ( x i−x ) =min
SEMISOMMA INTERQUARTILICA
Q 1+ Q 3
Mq=
2
Punteggio della distribuzione al di sotto del quale è stata raccolta una certa percentuale di dati (calcolabili
su scala ordinale e metrica)
QUANTILE è un termine generico che si specificizza in base alla suddivisione della distribuzione in:
4 parti – QUARTILE
10 parti – DECILE
a. Ordinare i valori
b. Assegnare i ranghi
c. Calcolare posizione quartile (PosQi):
PosQ1 = 1 * (N+1) / 4
PosQ3 = 3 * (N+1) / 4
DISTRIBUZIONE DI FREQUENZA
VARIABILITÀ
Attitudine di un carattere a variare. Se c’è un’elevata dispersione dei dati, significa che c’è un’elevata
variabilità. La variabilità non è mai negativa. La variabilità è uguale a 0 se i punteggi sono tutti uguali tra
loro.
1
SSMe = Σ| xi −Me|
N
2
SSM = ⋅∑ ∑|x i−x J|
N ( N −1 )
SCOSTAMENTO SEMPLICE MEDIO
1
SSMa= Σ |xⅈ −x|
N
(Praticamente la media degli scarti dalla media, scusa il bisticcio di parole) Una prima forma di calcolo della
variabilità metrica che si approssima alla media, salvo che fa uso dei valori assoluti e dunque non ottiene il
minimo valore possibile, che invece si otterrebbe con i quadrati. Utilizzando i quadrati abbiamo la
DEVIANZA
La somma dei quadrati degli scarti dalla media. Si calcola per:
SERIE DI VALORI
2
DEV =∑ ( x i−x )
DISTRIBUZIONE DI FREQUENZA
2
DEV =∑ ( x i−x ) ⋅ ni
ATTENZIONE: la DEVIANZA è influenzata dalla numerosità del collettivo. Per ovviare a questo problema, si
utilizza un indice di variabilità migliore, tale indice è detto
SERIE DI VALORI
2 1 2
S= ∑ ( x i− x )
N
DISTRIBUZIONE DI FREQUENZA
2 1 2
S= ∑ ( x i− x ) ⋅ni
N
DISTR. DI FREQUENZA PER DATI RAGGRUPPATI IN CALSSI
2 1 2
S= ∑ ( c i−x ) ⋅n i
N
Il problema della varianza è che seppure sia un indice molto efficace per calcolare la dispersione tra i
punteggi intorno agli indici di tendenza centrale, NON È DIRETTAMENTE CONFRONTABILE CON ESSI in
quanto misura al quadrato. Per ovviare a ciò, ci si è sbarazzati del quadrato facendo la radice e si è ottenuta
la
SERIE DI VALORI
S=
√ 1
N
∑ ( x i−x )
2
DISTRIBUZIONE DI FREQUENZA
S=
√ 1
N
2
∑ ( x i−x ) ⋅ni
S=
√ 1
N
2
∑ ( ci −x ) ⋅n i
DISTRIBUZIONE DI FREQUENZA
S
cv = ⋅100
|x|
Anche detta quota percentuale di variazione
INDICI DI FORMA
ASIMMETRIA
Una distribuzione si dice simmetrica quando, dividendola esattamente al centro con un’asse, le due metà
che ne risultano sono uguali e speculari.
-1 < a < 1
INDICE γ3 DI FISHER
Calcolabile in
SERIE DI VALORI
3
3
∑ ( x i−x )
γ =
( N ⋅S 3 )
DISTRIBUZIONE DI FREQUENZA
3
3
∑ ( x i−x ) ⋅ni
γ =
( N ⋅S 3 )
CURTOSI
Indica quanta variabilità è dovuta ai valori meno frequenti, rispetto a quelli più vicini alla media.
Ergo ci dice quanto pesano le code della distribuzione, ovvero le parti estreme.
NORMOCURTICHE
Dati mediamente concentrati attorno alla media. Forma a campana della curva.
PLATICURTICHE
Dati scarsamente concentrati attorno alla media. Code più pesanti e forma schiacciata della curva.
LEPTOCURTICHE
Dati fortemente concentrati attorno alla media. Code più leggere e forma allungata della curva.
INDICE DI CURTOSI
4
INDICE γ DI FISHER
Calcolabile in
SERIE DI VALORI
4
4
∑ ( xi −x )
γ =
( N ⋅ S4)
DISTRIBUZIONE DI FREQUENZA
4
4
∑ ( xi −x ) ⋅ni
γ =
( N ⋅ S4)
Nota che la formula è identica all’indice gamma 3 di Fisher, però le parentesi sono elevate non alla terza
ma alla quarta, stessa cosa per la deviazione standard.
I 5 NUMERI DI SINTESI
I valori più importanti che vi permettono di sintetizzare il campione a livello ordinale sono:
COSTANTI DESCRITTIVE
I valori più importanti che vi permettono di sintetizzare il campione a livello metrico sono:
STATISTICA INFERENZIALE
Branca della statistica che, mediante tecniche basate sul calcolo della probabilità, permette di fare ipotesi e
trarre inferenze su una popolazione a partire da uno o più campioni di osservazione.
Quando conduciamo questa tipologia di operazioni statistiche, eseguiamo degli esperimenti aleatori =
esperimento costituito da una o più prove con esito incerto, non definibile a priori.
PROBABILITÀ
È la misura della realizzabilità di un evento Ei (evento qualsiasi).
L’insieme di tutti gli eventi possibili che si possono verificare è chiamato spazio campionario Ω (omega)
1 2 3 4 5 6
Esempio: qual è la probabilità che, al lancio di un dado, mi esca la faccia uno o la faccia cinque?
Sono mutualmente escludentesi perché o mi esce una faccia, o me n’esce un’altra. O è uno o è cinque, non
può essere contemporaneamente uno o cinque. Quando ho a che fare con degli eventi che si escludono l’un
l’altro basta sommare le probabilità singole che si verifichi ogni evento indipendentemente.
Esempio: qual è la probabilità che, girando una carta napoletana, esca o dieci o una carta di denari?
Può succedere che si avverino entrambe le previsioni contemporaneamente, con, ad esempio, un dieci di
denari.
Essendo che noi il dieci di denari nel nostro calcolo di probabilità lo abbiamo preso due volte, una nella P
(A = carte di denari), e un’altra volta nella P (B = carte dieci), non è corretto contarlo due volte, dunque va
rimosso con la P ( A ∩ B), che si traduce in P (dieci ∩ denari) = dieci di denari, il caso che per il nostro
esempio avvera ambo le previsioni contemporaneamente.
CON REINSERIMENTO
Il verificarsi del primo evento non modifica la probabilità del verificarsi del secondo.
Esempio: qual è la probabilità che, al lancio di un dado, mi esca la faccia uno e immediatamente dopo la
faccia cinque? 1/6 * 1/6.
Attenzione: il verificarsi del primo evento (esce uno) NON interferisce in alcun modo con la probabilità che
si verifichi il secondo evento (esce cinque), lo spazio campionario resta inalterato. Così non sarebbe se ad
esempio, una volta uscito uno, iperbolicamente parlando usassimo un dado che non ha la faccia uno. La
probabilità del secondo evento si altererebbe, e si passerebbe al caso degli eventi dipendenti.
SENZA REINSERIMENTO
P di B dato che A
Il verificarsi del primo evento modifica la probabilità del verificarsi del secondo.
Esempio: nella tombola abbiamo 90 numeri. Possono uscire tutti i numeri da 1 a 90. Qual è la probabilità
che il primo numero estratto sia 5? 1/90. La seconda volta qual è la probabilità che esca 5?
1/89
La terza volta?
1/88
Il fatto che io abbia lanciato il primo numero mi ha modificato la probabilità del secondo, aumentandola.
Poiché quanti più numeri estraggo tanto più si riduce lo spazio campionario.
P (A ∩ B) = P (A) * P (B I A)
1/90 P di B dato che A, ergo 1/89 nel nostro esempio della tombola
In che modo la probabilità del verificarsi del secondo evento è modificata dal fatto che si è già verificato il
primo?
EVENTI DIPENDENTI:
ρ(A∩B)
P ( A|B )=
p (B)
ρ(A∩B)
P ( B| A )=
p(A)
Nota che espressa così è semplicemente una formula inversa della probabilità per eventi congiunti quando
gli eventi sono dipendenti.
Le celle singole contengono le frequenze congiunte, ergo delle unità statistiche che hanno modalità
intrecciate di due variabili distinte.
In questa tabella d’esempio le colonne corrispondono al risultato di un test di screening sullo stato di
malattia, mentre le colonne corrispondono allo status effettivo della persona. Le due variabili dicotomiche
sono state incrociate tra di loro, formando una tabella a doppia entrata.
Stato
Effettivo
SI A C A+c
NO B D B+d
TOT a+b C+d GRAN TOTALE = N
NOTA BENE: quando vedi una tabella che è palesemente una tavola di contingenza che incrocia due variabili
tra di loro, i dubbi possono essere due: o il test del chi quadrato per l’indipendenza di variabili categoriali o il
teorema di Bayes. Però quando si ha il teorema di Bayes non si hanno variabili POLITOMICHE, cioè con più
di due categorie. Avrete sempre solo variabili DICOTOMICHE, cioè con sempre solo due categorie. Quindi,
quando c’è una tabella 2x2 si può avere il dubbio tra Bayes e il test del chi-quadrato, e in questo caso vedere
se c’è bisogno di un test e se si trovano le parole “ASSOCIAZIONE”, “RELAZIONE”, e quell’altra parola. Se
invece si vede una tabella >2x2, non c’è bisogno di avere dubbi. Va fatto il test del chi-quadrato.
TEOREMA DI BAYES
Mette in relazione la probabilità a priori (già data, non si può calcolare poiché è un’informazione nota a
priori) su una popolazione con la probabilità a posteriori sul campione (a posteriori, cioè qualcosa che si
può e si deve calcolare), esprimendole come probabilità condizionate.
Ergo: qual è la probabilità di un evento nella popolazione, data la probabilità di un evento nel campione?
P ( A1 ) ⋅ P ( B 1| A 1)
P ( A 1|B 1) =
P ( A 1 ) ⋅ P ( B1∨ A 1) + P ( A 2 ) ⋅ P ( B1| A 2 )
A1=POPOLAZIONE B1=CAMPIONE
A2=COMPLEMENTARE DI A 1
SIMULAZIONE
Se somministriamo un test di screening (es. test di gravidanza, alcol test), possiamo avere quattro risultati
possibili:
Questo perché stiamo incrociando 2 variabili nominali (stato effettivo ed esito test) che hanno entrambe 2
modalità (si/no) (positivo/negativo)
Stato
Effettivo
SI A C A+c
NO B D B+d
TOT a+b C+d GRAN TOTALE = N
In base a questi quattro esiti possiamo definire 6 indici di affidabilità di un test di screening
ESEMPIO: Ho 100 stronzi che so tutti e 100 essere malati. Somministro il mio test di screening, e di
malati me ne risultano 95 su 100. Dunque il mio test avrà una sensibilità di 0.95
d
=P ¿ ¿
b+d
ESEMPIO: Ho 100 stronzi che so tutti e 100 essere sobri. Somministro il mio test di screening, e
dovrebbero uscirmi tutti negativi, ma non so come 5 mi escono ubriachi. Dunque ho una specificità di
0.95. In pratica l’opposto della sensibilità.
3) Potere Predittivo Positivo (PPP): proporzione di SI e positivi, rispetto al totale dei positivi.
a P ( SI ⋂ POS )
= =P(SI ∨POS )
a+b P ( POS )
4) Potere Predittivo Negativo (PPN): proporzione di NO e negativi, rispetto al totale dei negativi
d
=P¿ ¿
c+ d
5) Proporzione Falsi Negativi: proporzione di SI e NEGATIVI, rispetto al totale dei SI (di base l’errore del
test nel NON rilevare persone effettivamente positive). Il complementare della sensibilità.
c
=P ¿ ¿
a+c
6) Proporzione Falsi Positivi: proporzione di NO e POSITIVI, rispetto al totale dei NO (l’errore del test
nel rilevare persone che concretamente sono negative). Il complementare della specificità.
b P ( NO ⋂ POS )
= =P(POS∨NO )
b+d P(NO)
PROBABILITÀ A PRIORI SULLA POPOLAZIONE
La probabilità a priori sulla popolazione è un dato noto fornito dal testo dell’esercizio e che viene chiamato
informazione esterna.
DISTRIBUZIONI DI PROBABILITÀ
Una distribuzione di probabilità è una funzione che associa ad ogni evento Ei ϵ Ω , la sua probabilità di
manifestarsi P(Ei)
Ovvero è una distribuzione in cui vengono riportate le frequenze relative (fi) di ogni evento
Fi=P(Ei)
VARIABILE CASUALE/ALEATORIA/STOCASTICA
Una variabile casuale (o aleatoria o stocastica) è una funzione in cui l’esito di un esperimento, di una prova
o di un qualche fenomeno naturale, può verificarsi in almeno due modi diversi, non prevedibili a priori e in
cui ad ogni esito possibile è associato un unico numero reale.
Dato uno spazio campionario Ω , si definisce variabile casuale un’applicazione di Ω in R (insieme dei
numeri reali).
Ergo una variabile casuale è una che associa a tutti gli eventi di omega una probabilità, riportandoli in R.
ES: lancio del dado. Variabile casuale perché si verifica in almeno due modi diversi, non è prevedibile
apriori, e ad ogni esito possibile (ogni faccia) è associato un unico numero reale.
Non possono assumere tutti i valori possibili all’interno di un dato intervallo di numeri reali, ma solo un
insieme finito e numerabile. Es: dado = 1, 2, 3, 4, 5, 6.
Possono assumere tutti i valori possibili all’interno di un dato intervallo di numeri reali. Es: altezza, da 0 a
+inf
Quando la variabile casuale è continua, non si assegna una probabilità ad ogni singolo valore (sarebbe
impossibile poiché vi sono infiniti valori in R), ma ad un intervallo di valori.
La probabilità non sarà associata a un punto, ma sarà associata ad una sezione di una curva, ovvero sarà
un’area.
DISTRIBUZIONI DI PROBABILITÀ
Discrete:
Continue:
Distribuzione Normale (N)
Distribuzione Chi-quadrato ( χ 2 ¿
P(x=1) = π e
P(x=0) = 1 – π
La variabile casuale binomiale è una variabile discreta che è la somma n di variabili casuali Bernoulliane.
K = numero di successi
N = numero di prove
n! k n−k
P ( k )= ⋅π ⋅(1−π )
k ! ( n−k ) !
COEFFICIENTE BINOMIALE =
n!
k ! ( n−k ) !
Essendo la binomiale una somma di n bernoulliane, avremo che:
ESEMPIO:
Se rispondo completamente a caso ad un test con 24 domande, ognuna con 4 alternative di risposta, quante
risposte corrette indovinerò mediamente?
Esempio:
5! = 5 x 4 x 3 x 2 x 1
5! + 5! ≠ 10 !
10! 10 x 9 x 8 !
= =10 x 9=190
8! 8!
ASSIOMA DEL CALCOLO FATTORIALE:
0! = 1
3) “ALMENO” P(k → n)
Si applica l’intera formula tante volte fino ad arrivare ad n, cambiando ogni volta k. E poi si
sommano le P(ki) ottenute.
Esempio: qual è la probabilità che, lanciando una moneta, ottenga la faccia testa almeno 7 volte su
10? Qui dovrò calcolarmi tutte le probabilità per successi da 7 a 10, per poi sommarle.
4) “MENO DI” P ¿)
Si applica l’intera formula tante volte fino ad arrivare a 0, cambiando ogni volta k. E poi si
sommano le P(ki) ottenute.
Esempio: qual è la probabilità che, lanciando una moneta, ottenga la faccia testa meno di 3 volte su
10? Qui dovrò calcolarmi tutte le probabilità per successi da 2 a 0, per poi sommarle. Già se mi esce
3, ho perso. Va calcolato anche con 0, ricorda l’assioma.
La sua importanza è dovuta al fatto che molti dei fenomeni che si misurano in natura, all’aumentare del
numero di osservazioni (ossia di n), tendono a “normalizzarsi”, cioè a distribuirsi secondo una curva a
campana.
CARATTERISTICHE:
Troviamo le deviazioni standard in corrispondenza dei punti di flesso della curva, ovvero dei punti in cui la
curva cambia la sua concavità.
L’area sottesa all’intera curva rappresenta l’intero spazio campionario e quindi ha un valore di 1.
Dato che la probabilità corrisponde ad un’area sottesa alla curva, per calcolarla avremo bisogno degli
integrali.
Esistono tavole con integrali già sviluppati. Per usarle occorre innanzitutto però standardizzare i valori di
interesse.
xi −x
z i=
s
Esempio: data una N(150;15), calcolare P(x>170)
170−150
z i= =1 , 33
15
Di base abbiamo trasformato il 170 in 1,33 per poi portarlo sulla curva normale standardizzata.
Una volta standardizzato il punto, si utilizza la Tavola z per identificare il valore dell’area, ovvero di
probabilità cercato.
la somma di g variabili casuali normali N (μ;σ) IDENTICHE e INDIPENDENTI è ancora una variabile casuale
normale, con i parametri g; μ e g;σ
Sostanzialmente, se y è uguale a una somma di variabili x n, e ogni variabile xi si distribuisce secondo una
normale con parametri u e σ , [mu e sigma] che è indipendente dalle altre (non c’è covarianza perché non ci
sono variabili in comune con le altre normali), allora y sarà una normale che si distribuisce SEMPRE con
parametri mu e sigma, entrambi moltiplicati per n.
O: la somma di n variabili casuali identiche e indipendenti, converge alla variabile casuale normale per
n→∞
O: data una successione di variabili casuali con la stessa media e la stessa deviazione standard, la
successione converge ad una variabile casuale normale per n → ∞
DISTRIBUZIONI CAMPIONARIE
Allora, diciamo che io ho un campione con media e varianza, composto da tot persone. Diciamo che questo
campione misura l’altezza. Ogni x sarà un’altezza diversa alla quale corrispondono n persone del mio
campione, il tutto sintetizzato da una media x . MA se io volessi unire più campioni tra loro, con le loro
rispettive medie e informazioni, in un'unica distribuzione? Riportando l’informazione di ogni singolo
campione su una curva, composta stavolta non da singole unità statistiche, ma da singole statistiche
campionarie. In pratica quello che riporto su questa curva non sono i singoli punteggi, ma tante medie.
La statistica campionaria è un indice descrittivo che riassume l’informazione in un campione (es. media).
Le singole unità statistiche vengono sintetizzate da un indice descrittivo, ovvero da una STATISTICA
CAMPIONARIA COME LA MEDIA x (nella normale), la proporzione di successi p (nella binomiale) o la
varianza s2 (nel chi quadrato).
I punti di una distribuzione campionaria sono quindi le SINGOLE STATISTICHE CAMPIONARIE di OGNI
CAMPIONE. Queste ultime saranno sintetizzate dalla loro SPERANZA MATEMATICA, che si ipotizza coincida
con il parametro indagato nella popolazione.
Una statistica campionaria è una variabile casuale o aleatoria, che sintetizza l’informazione contenuta in
un campione.
STATISTICA: x p ^s2
2
PARAMETRO: μ π σ
Una distribuzione campionaria di una statistica è quindi la distribuzione dei valori che quella statistica
assume in tutti i campioni di ampiezza n.
ki 1
n
Pi= pi= ∑ xi (formula solo teorica)
ni n i=1
In singoli campioni si calcolano il numero di k di successi su n prove e si ottiene una p per ognuno di loro
(sono singole binomiali). Queste p, riportate su un’unica curva, danno vita alla distribuzione delle
proporzioni campionarie, ovvero alla distribuzione che considera il numero medio di successi in campioni
di n elementi.
E ( p )=π σ=
√ π ⋅ ( 1−π )
n
Anche per le distribuzioni campionarie si può effettuare la standardizzazione delle singole statistiche,
sottraendo la speranza matematica e dividendo per la deviazione standard.
pi−π
z=
√ π ⋅ ( 1−π )
n
La media campionaria x è una variabile casuale ed è una statistica campionaria, funzione del campione
casuale estratto ( x 1 , x 2 … x n ).
Σ xi
x i=
n
Quindi stavolta sto ragionando su una curva (distribuzione) dove non ho tutte x i ,ma ho tutte x i . Al centro
che ci sta? La speranza matematica, che coincide con la media della popolazione:
E ( x )=μ
La deviazione standard di questa distribuzione viene chiamata ERRORE STANDARD (σ m), il quale
rappresenta la media delle deviazioni di ogni media campionaria rispetto alla media della popolazione.
σ
σ m=
√n
In termini scemi, le singole medie x i ci servono per indagare la media della popolazione μ . Ora, non sarà
che ogni media è perfettamente uguale alla media della popolazione: ogni media sarà diversa, e diversa sarà
la deviazione standard di ogni media. L’ERRORE STANDARD ci dice la media di queste deviazioni standard
provenienti da ogni singolo, ovvero sia lo sballo complessivo delle singole medie sballate individualmente.
Quando la deviazione standard della popolazione (σ ) non è nota, l’errore standard viene stimato a partire
dalla deviazione standard del campione (S):
s
σ^ m=
√ n−1
Il simbolo ^ in cima ad una statistica indica che essa è uno stimatore e che la quantità dopo l’uguale è una
stima. [Non è assolutamente quello che ci ha detto Palumbo ma ok]
L’errore standard è sostanzialmente una stima dell’errore che si commette nello stimare la media della
popolazione a partire dalle medie campionarie.
Maggiore è l’errore standard, maggiore sarà la variabilità delle singole medie campionarie e la stima della
media della popolazione sarà più instabile.
Se l’errore standard è basso invece significa che le medie campionarie hanno poca variabilità, sono simili tra
loro e quindi la stima della media della popolazione sarà più accurata.
Per limitare l’errore standard, si può aumentare la numerosità campionaria, in base a quanto affermato
dalla
Se n → ∞ ALLORA σ m=0
Questo se le variabili dei campioni di partenza si distribuiscono secondo delle normali (in virtù della
proprietà di riproduttività)
OPPURE per qualsiasi variabile casuale o aleatoria o stocastica se n → ∞ (in virtù del teorema del limite
centrale).
In simboli:
(
x N μ⋅
σ
√n )
SE xi N ( μ ; σ )
Oppure:
(
x N μ⋅
σ
√n )
PER QUALSIASI xi se n → ∞
Anche i valori (ovvero le x i) della distribuzione delle medie campionarie possono essere STANDARDIZZATI,
usando la formula:
xi −μ
z i=
σ
√n
OPPURE
x−μ
s
± z=
√n−1
SE NON CONOSCIAMO LA DEV . STANDARD DELLA POPOLAZIONE Esercizio: Nella popolazione
generale il punteggio alla scala stabilità emotiva (SE) di un test di personalità è distribuito normalmente e
ha media 50 e deviazione standard 10.
Estraendo un campione di 50 soggetti, con quale probabilità avrà un punteggio medio compreso fra 51 e
53?
53−50
z 1=
10
√50
= 0.70 = 0.2420
53−50
z 2=
10
√50
= 2.12 = 0.0170
Essendo che ci interessa l’intervallo compreso tra le due, e che sono ambo nello stesso quadrante, si
sottrae: P (51 < x < 53) = 0.2420 - 0.0170 = 0.225
La varianza campionaria si distribuisce secondo una distribuzione chi-quadrato ( χ 2) con n-1 gradi di libertà.
^s2 χ 2n−1
STIMA E STIMATORI
Uno STIMATORE è una variabile casuale ed è una qualsiasi funzione definita sul campione casuale
estratto, in grado di fornire informazioni utili circa un parametro incognito della popolazione.
Il valore assunto dallo stimatore in corrispondenza di uno specifico campione è chiamato STIMA.
Uno stimatore si dice NATURALE, se possiede la stessa espressione matematica del parametro che stima
(ad es. x e μ hanno la stessa formula).
1) CORRETTEZZA O NON DISTORSIONE: uno stimatore si dice corretto se la sua speranza matematica
è uguale al parametro che stima. Se ad esempio T è uno stimatore di θ (theta), per definire T uno
stimatore corretto si deve verificare che
E ( T )=θ
2) CONSISTENZA: uno stimatore si dice consistente se all’aumentare della numerosità campionaria,
la sua distribuzione di probabilità si concentra in corrispondenza del parametro che stima (cioè i
valori vicini al parametro sono i più frequenti).
3) EFFICIENZA: uno stimatore si dice efficiente se possiede LA variabilità minore rispetto a tutti gli
altri stimatori che misurano lo stesso parametro.
Collezione di n variabili identiche e indipendenti (uno dei campioni potenzialmente estraibili da una
popolazione)
CAMPIONE OSSERVATO
Insieme dei numeri reali, realizzazioni delle n variabili casuali del campione casuale. (Campione
effettivamente estratto).
INTERVALLI DI CONFIDENZA
Ricorda: il nostro obbiettivo con la statistica inferenziale è quello di stimare un parametro della popolazione
a partire da qualcosa del campione, ovverosia a partire da una statistica campionaria, e dire con un certo
grado di sicurezza che la cosa che abbiamo osservato nel campione vale anche nella popolazione. Il modo
migliore per farlo è seguendo la verifica con i test.
Un altro modo per stimare il parametro di una popolazione a partire da una statistica campionaria è quello
di stabilire un range dei possibili valori che questo parametro può assumere, ovvero di stabilire un
INTERVALLO DI CONFIDENZA (O DI FIDUCIA)
È possibile stabilire diversi livelli di un intervallo:
Ad esempio, stimare l’intervallo di fiducia della media della popolazione μ al 95% significa identificare i due
valori limite che definiscono un range all’interno del quale con una probabilità del 95% si troverà μ .
Per stabilire l’intervallo di confidenza della media della popolazione μ , si parte dalla formula della
standardizzazione e si effettuano una serie di passaggi logici per isolare μ .
x−μ
s s s
± z= →±z ⋅ =x−μ → μ=x ± z ⋅ →
√n−1 √n−1 √ n−1
s s
x−z ⋅ < μ< x + z ⋅
√ n−1 √n−1
I valori di ± z si trovano in base al livello di confidenza scelto.
Se ad esempio abbiamo scelto un intervallo al 95%, significa che la parte di curva restante è il 5%, che
distribuito sulle due code della distribuzione diventa il 2,5% ovvero 0,025.
Localizziamo il valore dell’area sulla tavola z e inseriamo il corrispettivo punto z nella formula per creare
l’intervallo: fondamentalmente facciamo l’opposto di quando da un valore z si doveva trovare l’area. Qui
direttamente dall’area troviamo il punto z di partenza.
Sulla tavola si cerca nelle celle “colonna b” [la colonna che va da z a infinito] il calore più vicino a 0,025, e si
vede a che “incrocio” corrisponde. Nel caso di 0,025 è 1.96, che sarà -1.96 a sinistra della disuguaglianza e
+1.96 a destra.
Esempio: dato un campione di 82 soggetti, con media 60 e deviazione standard 10, stabilire l’intervallo di
confidenza della media della popolazione al 95%.
Questo TEORICAMENTE. Nella pratica i valori dell’area sono (quasi) sempre gli stessi:
Standardizzazione MEDIA
campionaria (per dati quantitativi)
Quando si conduce un esperimento, ovvero quando si applica un test, si hanno di fronte 2 IPOTESI in
opposizione tra loro:
IPOTESI NULLA H 0
IPOTESI ALTERNATIVA O SPERIMENTALE H 1
L’IPOTESI NULLA H 0 è l’IPOTESI DI PARTENZA che si vuole confutare. Si assume che il parametro di una
popolazione sia uguale ad un determinato valore noto.
Esempio: moneta
H 0 :π =0.5
a) IPOTESI ALTERNATIVA MONODIREZIONALE, se abbiamo i simboli < oppure >, cioè se è già noto che
la curva della popolazione presente sotto l’ipotesi alternativa si trovi a sinistra o a destra
dell’ipotesi nulla.
Esempio:
H 0 :π =0.5
Esempio: H 1 : π ≠ 0 , 5
Graficamente…
Ripeto per accertarmi che hai letto: le ipotesi vanno riferite SEMPRE E SOLO AI PARAMETRI DELLA
POPOLAZIONE! (LETTERE GRECHE)
Il processo di verifica delle ipotesi avviene in un’ottica FALSIFICAZIONISTA: ovvero per dimostrare
che H1 è probabilmente vera, si deve dimostrare che H0 è probabilmente falsa. Questo avviene
perché, anche se siamo interessati ad H1, essa non ci fornisce valori numerici con cui lavorare. H0
invece ci offre un valore certo con cui lavorare, è anche detta infatti IPOTESI DI LAVORO.
L’area estrema di H0 è detta livello di significatività α e la zona sotto alfa rappresenta la zona in cui H0 è
troppo improbabile per essere vera e va quindi rifiutata. α è quindi lo spartiacque tra H0 e H1 e divide H0
in due zone: zona di accettazione e zona di rifiuto.
Se l’ipotesi alternativa è bidirezionale, α si troverà su entrambe le code della distribuzione di H0, ed il suo
valore va dunque dimezzato (se la distribuzione è simmetrica).
a
In questi casi infatti al posto di α useremo
2
La regione di accettazione e la regione di rifiuto sono sottoinsiemi dello spazio campionario, ovvero
appartengono entrambi ad H0
In alcuni casi esiste una REGIONE DI INDECISIONE, ovvero una zona in cui H0 e H1 sono troppo sovrapposte
e non è possibile stabilire quale delle due ipotesi sia corretta.
Per decidere se accettare o rifiutare H0, si applica la statistica test propria di ciascun test (ovvero la
formula), che sarà il nostro valore calcolato, da confrontare con un valore critico, ovvero il punto dal quale
inizia la zona di rifiuto. Il valore critico infatti si ricava in base ad α , utilizzando la tavola di ciascun test.
ERRORE DI PRIMO TIPO O SPECIE (α ): consiste nel RIFIUTARE un’H0 che in realtà è vera.
ERRORE DI SECONDO TIPO O SPECIE ( β ): consiste nell’ACCETTARE un’H0 che in realtà è falsa.
POTENZA STATISTICA DEL TEST
La probabilità di commettere uno dei due errori varia in base all’ampiezza della regione α :
- Se α è molto piccola: aumenta la probabilità di commettere un errore di secondo tipo, ma
diminuisce quella di commettere un errore di primo tipo.
- Se α è molto grande: aumenta la probabilità di commettere un errore di primo tipo, ma diminuisce
quella di commettere un errore di secondo tipo e di conseguenza aumenta la potenza del test.
Il test da utilizzare per condurre un esperimento dipende dalla scala di misura (nominale dicotomica o
politomica, ordinale o metrica) della variabile dipendente.
Esempio: voglio scoprire se c’è una differenza di benessere tra uomini e donne. La mia variabile dipendente
è il benessere, che nel mio caso viene alterata (cioè dipende) dalla variabile indipendente che è il sesso. La
variabile indipendente la smanetto io sperimentatore, ergo creo gruppi di tot uomini e tot donne, quanti
uomini e quante donne lo decido io, eccetera. La variabile dipendente la osservo semplicemente venire
modificata (o meno) dalle condizioni sperimentali che ho posto con lo smanettamento della variabile
indipendente.
Spesso e volentieri la variabile indipendente è una variabile nominale, poiché è quella che mi crea i gruppi o
mi altera le condizioni sperimentali.
Esempio due: se voglio misurare il livello di ansia in delle popolazioni di studenti che
Esempio numero tre: voglio valutare se le donne che hanno avuto un parto cesareo al primo figlio hanno
più figli.
ESEMPIO NUMERO QUATTRO: voglio vedere se gli italiani sono più alti dei tedeschi.
TEST PARAMETRICI
Sono applicabili quando la variabile dipendente è misurata su scala METRICA (riguardano quindi medie o
varianze). La condizione principale per applicarli infatti è la normalità della distribuzione della variabile
dipendente. Il principale vantaggio di questi test è che hanno un’elevata potenza statistica. (Ad esempio i
test parametrici z).
Si applicano quando cade l’assunzione della normalità della variabile dipendente. Si applicano, quindi,
quando la scala della variabile è NOMINALE o ORDINALE (riguardano quindi proporzioni su scala nominale
o mediane su scala ordinale) o anche quando la scala è metrica, ma la n è troppo bassa.
Questi test hanno una bassa potenza statistica ma, non basandosi sulla media, permettono un maggior
controllo dei valori estremi (outliers). Esempio: test binomiale, test chi-quadrato, test Mann-Whitney,
eccetera.
H 0 :π =x
H 1 : π < ¿≠ /¿ x
→Si applica l’intera formula tante volte fino ad arrivare ad n, cambiando ogni volta k. E poi si sommano le
P(ki) ottenute.
La P totale risultante dalla sommatoria delle singole P va confrontata con l’alfa datoci alla consegna del test.
CRITERI DI ACCETTAZIONE
Se p < α → si rifiuta H0
Se p > α → si accetta H0
p−π
z=
√ π ( 1−π )
n
CRITERI DI ACCETTAZIONE
Se z ca > z cr → si rifiuta H0
Se z ca < z cr → si accetta H0
H 0: χ 2=0
H 1: χ 2>0
ATTENZIONE: può SOLO essere maggiore di zero poiché è un parametro elevato al quadrato
2
2 ( f o −f a )
χ =∑
gdl
fa
f 0=FREQUENZE OSSERVATE
f a=FREQUENZE ATTESE
CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0
2 2
Se χ ca < χ cr → si accetta H 0
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL=k-1 [K=numero categorie della variabile, poiché
ribadiamo che il test del chi quadrato si usa per scale nominali politomiche (con più categorie)]
Ripeto:
2 2
Y χ gol SE y=∑ x i E xi N ( 0; 1 )
Oppure
2 2 2
Y χ gol SE y=x 1 + x 2 E x 1 N ( 0 ; 1 ) E x 2 N ( 0; 1 )
Il pedice di χ 2indica il numero di gradi di libertà, ovvero degli elementi liberi di variare.
I GDL sono un adattamento della numerosità campionaria, a cui viene sottratto il numero degli stimatori
che influiscono sulla variabile casuale.
RICORDA: La varianza campionaria si distribuisce secondo una distribuzione chi-quadrato con n-1 gradi di
libertà.
^s2 χ 2n−1
Se mettiamo tante medie al quadrato (facciamo la media dei quadrati) otteniamo la varianza.
Se prendiamo tante varianze e le mettiamo tutte su una curva, questa curva avrà la forma del chi quadrato.
Nota che la varianza come il chi quadrato non può mai essere negativa poiché al quadrato.
Per capirci, noi per misurare la varianza non facciamo un calcolo grezzo ma partiamo già da uno stimatore,
che è la media, che porta già di per sé un errore. Dunque la “correzione” che apportiamo ritiene nella sua
considerazione il numero di stimatori utilizzati per calcolare quella statistica e sottraendoli alla numerosità
totale.
O per meglio citare la definizione, una somma di normali standardizzate indipendenti al quadrato è
sempre un chi quadrato.
Un test del chi-quadrato è un test statistico che permette di valutare l’accostamento di una distribuzione
campionaria di frequenze osservate ad una distribuzione teorica, di frequenze attese in base alle info
possedute sulla popolazione.
2
( f o −f a )
χ 2gdl =∑
fa
Frequenze osservate
Frequenze attese
Le frequenze attese nascono in base a ciò che sapevo della popolazione, le frequenze osservate nascono in
base a ciò che osservo nel campione. Se la differenza tra quello che ho osservato in passato e quello che
osservo ora non c’è, la somma del numeratore verrà 0 e accetteremo H0. Se invece c’è differenza tra la
condizione di osservazione precedente e quella attuale, il numeratore avrà un valore superiore a 0 e
dovremo rifiutare H0 e accettare H1.
H 0 : Mε=numero
H 1 : Mε ≠<¿ numero
CRITERI DI ACCETTAZIONE
Se T ca <T cr → si rifiuta H 0
Se T ca >o=T cr → si accetta H 0
H 0 : μ=numero
H 1 : μ ≠≠numero
CRITERI DI ACCETTAZIONE
Se z ca > z cr → si rifiuta H0
Se z ca < z cr → si accetta H0
Se t ca >t cr → si rifiuta H0
Se t ca <t cr → si accetta H0
DISTRIBUZIONE t di Student
La variabile casuale t di Student si definisce come il rapporto tra una variabile casuale normale
standardizzata e la radice quadrata di un chi-quadrato rapportato ai suoi gradi di libertà.
z
t= 2
χ
√ GDL
Il test z è un test statistico che permette la verifica della media della popolazione, quando la deviazione
standard σ è nota.
TEST SULLE VARIANZE PER UN CAMPIONE
IPOTESI
2
H 0 :σ =numero
2
H 1 : σ ≠numero
Si valuta se la varianza del campione è omogenea a quella della popolazione
( n−1 ) ⋅ S 2
χ 2=
σ2
2 2
Se χ ca > χ cr → si rifiuta H0
2 2
χ ca < χ cr → si accetta H0 → s2 e σ 2 sono omogenee
2
Per trovare χ cr → GDL = n-1
Si può concludere che la varianza del campione sia omogenea con quella della popolazione?
α =0.05
TEST SULLA VARIANZA PER UN CAMPIONE
2
H 0 :σ =9
2
H1: σ ≠ 9
( 10 ) ⋅7 , 67
χ 2= =8.53
9
α =0.05
GDL = 10
2
χ cr =18.307
2 2
χ ca < χ cr → si accetta H0 → s2 e σ 2 sono omogenee
Due o più campioni si dicono indipendenti quando, tra le osservazioni ( x i) che li compongono non esiste
alcuna relazione. La composizione di un campione non interferisce con la composizione di un altro
campione. Esempio: maschi/femmine.
CAMPIONI DIPENDENTI
Due o più campioni si dicono dipendenti quando, tra le osservazioni ( x i) che li compongono, esiste una
relazione sistematica. Al variare dell’uno varia anche volutamente l’altro.
H 1 : π 1 −π 2 ≠≠0 o numero
E n2 ⋅ P2 ⋅ ( 1−P2 ) >5
( P1−P2 )−(π 1−π 2)
z=
√ P (1−P)(
1 1
+ )
n1 n2
CON
n1 ⋅ P1 +n2 ⋅ P 2
P=
n1 +n2
Oppure direttamente
k 1+ k 2
P=
n 1+n 2
Se z ca > z cr → si rifiuta H0
Se z ca < z cr → si accetta H0
SE
Se n1 ⋅ P1 ⋅ ( 1−P1 ) <5
f a=FREQUENZE ATTESE
CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0
2 2
Se χ ca < χ cr → si accetta H 0
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL=k-1 [K=numero categorie della variabile, poiché
ribadiamo che il test del chi quadrato si usa per scale nominali politomiche (con più categorie)]
TEST PER DUE CAMPIONI: SCALA ORDINALE (test non-
parametrici)
H 1 : M ε 1 ≠<¿ M ε 2
PROCEDURA
Esempio:
xi 20 22 22 22 24 24 25
R 1 2 3 4 5 6 7
1 3 3 3 5,5 5,5 7
3) Separare i ranghi dei punteggi del primo campione, da quelli dei punteggi del secondo campione, e
sommarli ottenendo Σ ranghi1 e Σ ranghi2
4) Calcolare:
n1 ( n1 +1 )
U 1=Σ ranghi1−
2
n2 ( n2 +1 )
U 2=Σ ranghi2−
2
5) Selezionare la U minore tra le due
CRITERI DI ACCETTAZIONE
Se U Ca < U Cr → si rifiuta H 0
Se U Ca > U Cr → si accetta H 0
n1 ⋅n2
U MIN −
2
z=
√ n1 ⋅n2 ⋅ ( n1 +n 2+1 )
12
CRITERI DI ACCETTAZIONE
Se z ca > z cr → si rifiuta H0
Se z ca < z cr → si accetta H0
TEST PER 2 CAMPIONI: SCALA METRICA
( x1 −x2 ) −( μ1−μ2 )
Z=
√
2 2
σ1 σ2
+
n1 n2
Se σ 1 o σ 2 NON note, e n1 e n2 >30 → APPROSSIMAZIONE A Z
( x1 −x2 ) −( μ1−μ2 )
Z=
√
2 2
s1 s2
+
n1−1 n2−1
CRITERI DI ACCETTAZIONE
Se z ca > z cr → si rifiuta H0
Se z ca < z cr → si accetta H0
( x 1−x 2 ) −( μ1−μ2 )
t=
√
2 2
s1 ⋅n1 +s 2 ⋅ n2 1 1
⋅( + )
n1 +n2 −2 n1 n2
CRITERI DI ACCETTAZIONE
Se t ca >t cr → si rifiuta H0
Se t ca <t cr → si accetta H0
Questa parte della formula della t di Student si chiama stimatore congiunto della varianza e ha senso SOLO
se la varianza delle popolazioni da cui sono stati estratti i campioni sono OMOGENEE. Se questa parte
perde di senso, tutta la formula non è più una t di Student.
Ciò significa che un’assunzione fondamentale per l’applicazione del test t di Student per due campioni
indipendenti è l’omogeneità (o omoschedasticità) delle varianze delle popolazioni da cui sono stati
estratti i campioni. Quindi per applicare il test t, bisogna prima fare il test sulle varianze.
σ^ MAX
2
2 2 ni
σ^ i (da stimare per amboi campioni)=S i ⋅ → F= 2
ni−1 σ^ MIN
CRITERI DI ACCETTAZIONE
Se F ca > F cr → si rifiuta H0→ le σ 2 NON sono omogenee →non si può applicare il test t e si
regredisce a livello ordinale, applicando il test Mann-Whitney
DISTRIBUZIONE F DI FISCHER
La variabile casuale F di Fischer si definisce come il rapporto tra due chi-quadrato, indipendenti tra loro e
rapportati ai rispettivi gradi di libertà.
2
χ1
GD L1
F=
χ 22
GD L2
Il test F viene utilizzato per la verifica delle medie, attraverso il rapporto tra varianze.
H 0 : M ε 1=M ε 2
H 1 : M ε 1 ≠<¿ M ε 2
Procedura:
1) Calcolare le differenze tra i punteggi appaiati dei due campioni (es: PRIMA-DOPO, si sceglie in base
a com’è stata data l’ipotesi alternativa)
2) Ordinare le differenze in valore assoluto
3) Assegnare i ranghi alle differenze
NB: alle differenze che sono risultate uguali a 0 non si assegna nessun rango.
4) Tenendo conto dei segni che avevano le differenze, separare i ranghi e sommarli, ottenendo:
T+ = ∑ ranghi +¿ ¿
(somma dei ranghi delle differenze positive)
T- = ∑ ranghi−¿¿
(somma dei ranghi delle differenze negative)
CRITERI DI ACCETTAZIONE
Se T ca ≤T cr → si rifiuta H0
Se T ca >T cr → si accetta H0
IPOTESI:
H 0 : μdiff =0 o numero
Se n ≥ 30 si effettua il TEST Z
x D −μD
z=
SD
√n−1
DOVE:
S D=
√ ∑ DIFF 2
n
−x 2DIF
∑ DIFF
xD=
n
CRITERI DI ACCETTAZIONE
Se z ca > z cr → si rifiuta H0
Se z ca < z cr → si accetta H0
x D −μ D
t=
SD
√n−1
CRITERI DI ACCETTAZIONE
Se t ca >t cr → si rifiuta H0
Se t ca <t cr → si accetta H0
Quando con un test omnibus si dimostra che c’è un campione diverso dagli altri, è poi necessario andare ad
indagare qual è il campione che differisce mediante test statistici specifici per i confronti multipli, chiamati
test post-hoc.
H 0 : M ε 1=M ε 2=…=M ε n
PROCEDURA
3) Separare i ranghi dei punteggi di ogni campione e calcolare la media dei ranghi per ogni gruppo ed
elevarle al quadrato:
2
Ottenendo le M Rj
2
4) Moltiplicare ogni M Rj per la numerosità relativa ad ogni campione (nj) e sommare i prodotti,
ottenendo:
2
∑ (M ¿ ¿ Rj ⋅ n j )¿
5) Applicare la formula del test:
KW =
[ 12
n ⋅ ( n+ 1 ) ]
⋅ Σ ( M 2Rj ⋅ n j ) −3 ⋅ ( n+ 1 )
CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0
2 2
Se χ ca < χ cr → si accetta H 0
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL=k-1 [K=numero campioni]
IPOTESI
H 0 : μ1=μ2=…=μn
1) La variabilità TRA i gruppi ( DEV BETWEEN ¿ che è dovuta alla variabile indipendente x, che ha creato
la condizione sperimentale (ovvero i campioni). La condizione sperimentale significa essere in un
gruppo piuttosto che in un altro.
2) La variabilità presente tra i soggetti all’interno di ogni gruppo ( DEV WITHIN ¿anche detta variabilità
d’errore, che è dovuta a eventuali variabili intervenienti z, che non possiamo controllare.
DEV GENERALE =DEV BETWEEN (introdotta dallo sperimentatore tramite la variabile x )+ DEV WITHIN (differenza di base d
L’ANOVA confronta la variabilità sperimentale DEV B e la variabilità d’errore DEV W attraverso un rapporto.
Tuttavia le due devianze non possono essere confrontate direttamente, perché non sono sullo stesso
piano:
Quindi prima di metterle a rapporto tra di loro, e dunque per rendere le due devianze confrontabili, occorre
prima trasformarle in varianze rapportandole ai rispettivi gradi di libertà.
DEV B
GDLB =k −1→ VAR B=
k−1
DEV W
GDLW =n−k → VAR W =
n−k
DEV G
GDLG =n−1 → VARG =
n−1
A questo punto si possono rapportare le varianze, ottenendo una F di Fischer:
VAR B
F=
VARW
La F di Fischer è una variabile casuale che si definisce come il rapporto tra due chi-quadrato rapportate ai
rispettivi gradi di libertà.
2 1 2
σ b= ⋅∑ nk ( x i− x )
n
Non le utilizziamo nella pratica ma possono servire per rispondere a delle domande.
IPOTESI:
H 0 : μ1=μ2=…=μn
BASIC RATIO
T = somma dei punteggi di ogni gruppo (T1 del primo campione + T2 + T3 + … = T tot)
Q = somma dei quadrati dei punteggi di ogni gruppo (stessa cosa ma per Q)
C = fattore di correzione
T J =∑ xi →T TOT =T 1 +T 2 +…+T n
J
2
T TOT
C= → n=SOMMA NUMEROSITÀ TOTALE
n
Esempio: se sono 3 gruppi da 3 persone n = 9
DEV G =QTOT −C
( )
2 2 2
T T T
DEV B= 1 + 2 +…+ J −C
n1 n 2 nj
( )
2 2 2
T T T
DEV W =QTOT − 1 + 2 +…+ J
n 1 n2 nj
DEV G
GDLG =n−1 → VARG =
n−1
VAR B
F=
VARW
Se F ca < F cr → si accetta H0
Se F ca > F cr → si rifiuta H0
Per trovare F cr →
GD L BET =k −1
GD LWIT =n−k
NB domanda negli esami: Se si applica l’ANOVA con due soli campioni, la statistica test F di Fischer sarà
equivalente al test t di Student per due campioni indipendenti.
ASSUNTI DI APPLICABILITÀ:
1) INDIPENDENZA: le osservazioni dei singoli campioni devono essere indipendenti tra loro;
2) NORMALITÀ: la distribuzione della variabile dipendente deve essere normale;
3) OMOSCHEDASTICITÀ: le varianze delle popolazioni da cui sono stati estratti i campioni devono
essere omogenee
Branca della statistica che mediante l’utilizzo di coefficienti di connessione e correlazione si occupa di
studiare la relazione tra due caratteri/variabili e mutabili.
Due caratteri sono in un rapporto di co-variazione quando hanno la tendenza a variare in modo
concomitante.
1) Relazione DIRETTA
X →Y
La relazione tra X e Y è diretta
X → Z →Y
La relazione tra X e Y non è diretta ma è mediata da un MEDIATORE Z
X →Y ← Z
La relazione tra X e Y si verifica solo quando appare il MODERATORE Z, senza il quale la relazione tra X e
Y non si presenta.
4) Relazione RECIPROCA
X ↔Y
La relazione tra X e Y si verifica, e ha un effetto di ritorno su X
Per verificare la relazione tra due caratteri esistono diversi indici e test statistici, che si applicano a seconda
della scala di misura dei caratteri:
IPOTESI:
H 0: χ 2=0
H 1: χ 2>0
ATTENZIONE: può SOLO essere maggiore di zero poiché è un parametro elevato al quadrato
2
2 ( f o −f a )
χ =∑
gdl
fa
f 0=FREQUENZE OSSERVATE
f a=FREQUENZE ATTESE
PROCEDIMENTO:
Questo test è riconoscibile dall’uso di parole come ASSOCIAZIONE, RELAZIONE, DIPENDENZA (quando i
caratteri sono nominali)
DOVE
n colonne
f i=
N
n righe
f j=
N
O più semplicemente
Una volta riempita questa tabella, avremo sia le frequenze osservate sia le frequenze attese e
possiamo procedere a calcolare il chi-quadrato:
2
2 ( f o −f a )
χ =∑
gdl
fa
CRITERI DI ACCETTAZIONE:
2 2
Se χ ca > χ cr → si rifiuta H 0 quindi c’è relazione tra le variabili
2 2
Se χ ca < χ cr → si accetta H 0 quindi non c’è relazione tra le variabili
2
Per trovare χ cr sulla tavola avremo bisogno dei GDL = (R-1) x (C-1)
R=Numero di categorie della prima variabile (Righe)
Scrivo Righe e Colonne perché per fare questo test ci serve una Tabella a doppia entrata (o tavola di
contingenza)
V= √ χ2
n ⋅ MIN [ R−1 oppure C−1]
0≤V ≤1
Il rapporto di correlazione η2 valuta l’associazione tra una mutabile sconnessa e una variabile e valuta in
pratica qual è la quota della variabile totale misurata sulla variabile dipendente che è attribuibile alla
variabilità between, ovvero all’effetto sperimentale della variabile indipendente x
2 DEV B
η=
DEV G
2
0≤η ≤1
Tanto più è alto ETA quadro, tanto più l’effetto sperimentale coincide con la devianza globale, tanto più
avremo fatto un test di poco sballato dalla devianza intergruppi. Tanto più è alto, tanto più è valido il nostro
esperimento.
2
6 ⋅Σ ⅆ
RHO=1− 3
n −n
−1 ≤ p s ≤ 1
PROCEDURA
Quanto più ps sarà vicino al -1, tanto più ci sarà una relazione perfetta negativa. Quanto più ps sarà vicino al
+1, tanto più ci sarà una relazione perfetta positiva, mentre se è 0 non c’è relazione.
H 0 : p s=0
H 1: ps≠ 0
CRITERI DI ACCETTAZIONE
z=RHO ⋅ √ n−1
CRITERI DI ACCETTAZIONE
∑ ( x−x ) ( y− y )
COV ( X , Y )=
n
∑(z x ⋅ z Y )
COV ( Z x , Z y )=
n
n ⋅∑ ( x ⋅ y )−Σx ⋅Σy
r=
√ [n ⋅∑ x 2−( ∑ x )2 ]⋅[n ⋅∑ y 2− (∑ y )2]
La r di Pearson valuta se tra due variabili esiste una relazione di tipo lineare, ovvero una relazione
descrivibile attraverso una linea retta.
−1 ≤ ρ≤ 1
Se ρ = ± 1→ Relazione lineare perfetta positiva/negativa: le due varianze sono linearmente dipendenti.
Attenzione: con RHO scopriamo che non esiste una relazione lineare, non che non esiste una relazione. C’è
una bella differenza.
1 x i−x y i− y
ρ= ∑( ⋅ )
n σx σy i i
∑ [ ( x i−x ) ( y i− y ) ]
ρ=
σx ⋅σy
i i
∑ [ ( x i−x )( y i− y ) ]
ρ=
√ ∑ ( x i−x ) 2
⋅∑ ( y i− y )
2
σxy
ρ=
σ x ⋅σ y
COV (x , y )
r=
σ x ⋅σ y
TEST SU ρ (r DI PEARSON)
IPOTESI
H 0 : ρ=0
H 1 : ρ≠ 0
r ⋅ √ n−2
t=
√1−r 2
CRITERI DI ACCETTAZIONE
Si costruisce riportando su gli assi cartesiani i punteggi standardizzati delle due variabili e disegnando dei
punti all’incrocio tra i punteggi appaiati.
Var. x 1 2 2 3 4 5
Var. y 5 4 3 3 2 1
LA REGRESSIONE LINEARE
L’analisi di regressione lineare è una tecnica statistica che permette di valutare la probabilità che tra due
variabili esista una relazione di tipo lineare causale, ovvero una relazione in cui la variabile X è causa (o
predittore) della variabile y, che si dice effetto (o criterio).
Questa equazione serve per identificare la retta che descrive la relazione lineare tra x e y, come tale è
chiamata EQUAZIONE DELLA RETTA DI REGRESSIONE.
Y^ i=a+b ⋅ x
Oppure
Y^ =b0 +b 1 ⋅ x
b 0 (oppure a) si chiama INTERCETTA ed indica il punto in cui la retta tocca l’asse delle ordinate (y).
^ quando x è uguale a 0.
Ovvero è indicativa del valore di Y
b 0= y−b1 ⋅ x
Oppure
∑ y−b 1 ⋅∑ x
b 0=
n
−∞ ≤ b0 ≤+ ∞
n ⋅∑ (x ⋅ y)−∑ x ⋅∑ y
b 1=
n ⋅∑ ( x )−(∑ x)
2 2
Oppure
COV (x ; y )
b 1=
σ 2x
−∞ ≤ b1 ≤+ ∞
Come si vede dalla formula, in base a x e ai valori di b0 (intercetta) e b1 (coefficiente angolare), si può
ottenere in realtà solo una stima del reale fattore di y.
^ che è lo stimatore di y.
Otterremo in fatti solo Y
ε = y−Y^
Ciò significa che
y=Y^ + ε → y =a+bx + ε
Graficamente:
Per mantenere gli errori ε i più bassi possibili, la retta di regressione viene disegnata in modo da ottenere il
^
minimo scarto possibile rispetto a tutte le Y
Ciò significa che la retta viene disegnata seguendo il PRINCIPIO DEI MINIMI QUADRATI, secondo cui per
ottenere il minimo errore possibile di una funzione bisogna sommare i quadrati dei suoi scarti.
RICORDA: La somma degli scarti al quadrato di una funzione, che è uguale al minimo valore possibile
secondo il principio dei minimi quadrati, è la devianza. Questa quantità è la devianza di y.
∑ ( ε )=M ∈! →∑ ( y−Y^ ) =M ∈¿
2 2
Questa quantità (la somma dei quadrati degli scarti da y) è per definizione una DEVIANZA.
Quanto più basso risulta l’indice applicato, tanto meglio si adatta il modello ai miei dati
2) COEFFICIENTE DI DETERMINAZIONE R2
Il modello è la spiegazione teorica che diamo ai dati (ovvero che x e y sono in una relazione lineare
causale). Gli indici di bontà di adattamento ci dicono quanto il modello si adatta bene ai dati, ovvero quanta
della variabilità dei dati è spiegata dal modello applicato.
COEFFICIENTE DI DETERMINAZIONE R2
Σ ( Y^ − y )
2
2
R= 2
Σ( y−y)
2
0≤ R ≤1
Se consideriamo che la devianza della y è così ripartita,
Vuol dire che R2 è il rapporto tra la devianza spiegata e la devianza totale misurata su y.
2 DEV . SPIEGATA
R=
DEV . TOTALE
Ciò significa che R2 ci dice quanta della devianza totale misurata su y, è spiegata dal modello (ovvero
dall’effetto causale di x su y)
Maggiore sarà R2, maggiore sarà la probabilità che tra x e y esista una relazione lineare causale.
NELLA PRATICA:
Nel modello di regressione lineare semplice, il coefficiente di determinazione R2 coincide con il quadrato
del coefficiente di correlazione lineare semplice di Bravais-Pearson ( ρ )
2 2
R =r
TEST SU β0
(test sull’intercetta)
IPOTESI:
H 0 : β 0=0
H 1 : β0 ≠ 0
b0
tb =
√
0
2
Σ ( y−Y^ ) 1 x
2
⋅( + )
n−2 n ∑ ( x−x )2
In entrambi i casi è possibile calcolare un indice che ci dica la quota di variabilità totale di y dovuta/spiegata
da x (η2 in un caso, R2 nell’altro).
La differenza sta nel fatto che la regressione (attraverso il test su β 1) valuta la dipendenza tra due variabili
metriche, mentre l’ANOVA valuta la dipendenza tra una variabile nominale ed una metrica.
CRITERI DI ACCETTAZIONE
TEST SU β1
(Test sul coefficiente di regressione)
IPOTESI:
H 0 : β 1=0
H 1 : β1 ≠ 0
b1
tb =
√
0
2
Σ ( y−Y^ )
2
(n−2)⋅∑ ( x−x )
CRITERI DI ACCETTAZIONE
Timestamp: [Link]