Sei sulla pagina 1di 2

Variabili categoriche: qualità, proprietà, Frequenza relativa: Numero di volte che • Pop.

normale, σ non nota


ecc... (non sono quantità misurabili) appare un elemento diviso il numero di prove Var. casuale:
Numero ottimale di classi: n

totali. x−µ
√S
∼ T (n − 1) (con n > 30 tende alla TEST PARA-
r
fi = N
fi
n
Normale)
METRICI
Frequenza assoluta cumulata: Fi = ∑n6i fn
F I.C.1−α = [x ± t1− α (n − 1) √Sn ]
Frequenza relativa cumulata: Fir = ∑n6i Ni 2
Frequenza assoluta doppia: fi,k = n. di Caso della media di una
STIMATORI PUN- elementi del campione con valore (S j , µk )
f
distr. Normale
TUALI Frequenza relativa doppia: fi,k r
= i,k
n I.C. per la varianza • C. estr. da pop. norm. con var. nota
Frequenza cumulativa assoluta doppia:
Fj,k = ∑ fri l (con r : Sr 6 S j e l : µl 6 µk ) Livello di significatività:
• Metodo dei momenti (momenti empirici x−µ
Frequenza cumulativa relativa doppia: • Pop. normale z = √σ 0 (µ0 è la media da verificare)
contro momenti teorici) Fj,k = ∑ fri l Var. casuale: n
(n−1)S2 H0 H1 Rifiuto H0 se
• Metodo di massima verosimiglianza σ2
∼ χ 2 (n − 1)
" # µ = µ0 µ 6= µ0 |z| > z1− α
2
(n−1)S2 2
Principali indici statistici I.C.1−α = , (n−1)S µ 6 µ0 µ > µ0 z > z1−α
χ 2 α (n−1) χ 2α (n−1)
Metodo dei momenti 1− 2 2 µ > µ0 µ < µ0 z < −z1−α
• Di posizione
• C. estr. da pop. norm. con var. non nota
X ∼ Γ(α, β ) Moda: valore con frequenza più alta
∑ni=1 xi Livello di significatività:
E [x] = αβ Media: x = x−µ
Var (x) = αβ 2 n
Mediana: valore al di sotto del quale cadono I.C. per il rapp. tra t (n) = √S 0 (µ0 è la media da verificare)
n
(n)
Mx = E [xn ]
(1)
la metà dei valori campionari varianze H0 H1 Rifiuto H0 se
Mx = E [x] • Di dispersione µ = µ0 µ 6= µ0 |t| > t1− α (n − 1)
2
E [x2 ] = Var (x) + (E [x])2 = αβ 2 + α 2 β 2 = Var. casuale: µ 6 µ0 µ > µ0 t > t1−α (n − 1)
Range: |ximax − ximin |
αβ 2 (1 + α ) S12 /σ12
2 Scarto medio assoluto: n1 ∑ni=1 |xi − x| ∼F µ > µ0 µ < µ0 t < −t1−α (n − 1)
∑ni = 1 xi S22 /σ22
α̂ = Media dei quadrati degli scarti:
∑n 2 n
i=1 xi −(∑i=1 xi )
2
1 n 2 S12 S12
n ∑i=1 (xi − x)
Per la var. di una pop.
" #
∑n n 2 n 2
β̂ = i=1 xi (∑i=1 xi −(∑i=1 xi ) ) Varianza campionaria: S22 S22
n ∑n 2 I.C.1−α = ,
i=1 xi 1 n
S2 = n−1 ∑i=1 (xi − x)2 F α Fα
(α̂ e β̂ sono detti stimatori) Media e var. campionarie per dati raggr.
1− 2 2 normale
in classi: (n−1)S2
∼ χ 2 (n − 1)
x = ∑ki=1 ∞i xi σ02

Metodo di massima S2 = 1n ∑ni=1 (xi − x)2 fi = 1n ∑ni=1 (xi2 fi ) − (x)2 I.C. per la diff. tra 2 H0 H1 Rifiuto H0 se
σ 2 = σ02 σ 2 6= σ02 χ 2 > χ1−
2
α (n − 1) o
verosimiglianza • Di forma medie 2
χ 2 < χ 2α (n − 1)
(xi −x)3
X ∼ Esp(λ ) Indice di asimmetria: ∑ni=1 nσ 2
2
2
(xi −x)4 • Pop. normale, σ1 e σ2 note σ 6 σ02 2
σ > σ02 2 2
χ > χ1−α (n − 1)
fx (x) = λ e−λ x (con x > 0) Curtosi: ∑ni=1 σ2 > σ02 σ2 < σ02 χ 2 < χα2 (n − 1)
nσ 4 Var. casuale:
L(x1 ,...,xn ) (λ ) = ∏ni=1 λ e−λ xi x1 −x2 −( µ1 −µ2 )
s ∼ N (0, 1)
log L(x1 ,...,xn ) (λ ) = n log λ − λ ∑ni=1 xi σ12 σ22
δ log L(x ,...,x ) (λ )
n Indici di variazione n1 + n2 S p Per la dev. standard con
1 = λn − ∑ni=1 xi = 0 " r #
σ12 σ22
δλ
λ̂ = ∑n n x = 1x (è l’inverso della media) bidimensionale I.C.1−α = x1 − x2 ± z1− α
2 n1 + n2
camp. normale
i=1 i
σ2
• Covarianza campionaria S2 6 2
(n−1) χ (n − 1)
Intervalli di confidenza Cx,y = 1n ∑ni=1 xi yi − xy • Pop. normale, σ1 e σ2 non note ma =

< 0 xi e yi correl. negativ. Var. casuale:
(I.C.) xi yi −xy =
> 0 xi e yi correl. positiv.
x1 −x2 −( µ1 −µ2 )
r ∼ T (n1 + n2 − 2) Test per proporzioni
1 1
n1 + n2 S p
x=
∑n
i = 1 xi
(la media campionaria è uno • Indice di correlazione campionario Stimatore "pooled":
(pop. binomiali di taglia
n
stimatore corretto della media)
∑n x
C
r = √ x,y (se r = 0, allora x e y non
S2 ( x ) S2 ( y ) S2p =
(n1 −1)S12 +(n2 −1)S22
n1 +n2 −2
grande)
E [x] = n1 [ i=n1 i ] = 1n nE [xi ] = µ sono correlate) x −P
r n 0 ∼ N (0, 1)
∑n (x −x)2
S2 = i=1 n i (stimatore non corretto della • Pop. normale, σ1 e σ2 non note e 6= P0 (1−P0 )
n
varianza) Var. casuale: non segue la T di Student
∑n
Sc2 = i=1n−1i
(x −x)2
(stimatore corretto della
Funzione di x1 −x2 −( µ1 −µ2 )
H0
P = P0
H1
P 6= P0
Rifiuto H0 se
|z| > z1− α
S12 S22
varianza)
2 2
verosimiglianza n1 + n2 P 6 P0 P > P0 z > z1−α
2

E [Sc ] = σ = Var (x)


" r #
0 S12 S22 P > P0 P < P0 z < zα
2 σ2 x1 , ..., xn campione casuale di popolazione con I.C.1−α = x1 − x2 ± t1− +
Xi ∼ N ( µ, σ ) X ∼ N ( µ, ) α n1 n2
2 2
n densità ϕ (0, θ ) 2
Var (x) = nσ = σn fx1 ,...,xn (x1 , ..., xn , θ ) = ∏ni=1 ϕ (xi , θ )
n2
0
S12 S22
n1 t1 + n2 t2
Test per la diff. tra
Proprietà: t1− α =
Var (ax) = a2Var (x) 2 S12 S22
n1 + n2
proporzioni
t1 = t1− α (n1 − 1) t2 = t1− α (n2 − 1) p̂1 − p̂2 −( p1 −p2 )0
2 2 r ∼ N (0, 1)
p̂1 (1− p̂1 ) p̂2 (1− p̂2 )
I.C. per popol. normale INTERVALLI DI n1 + n2

con σ 2 non noto


Test a 2 code Coda dx Coda sx
CONFIDENZA (I.C.) I.C. per proporzioni
H0 : p1 − p2 = ( p1 − p2 )0
H1 : p1 − p2 6= ( p1 − p2 )0
H0 6
H1 >
H0 >
H1 <
x−µ NOTA: Per la R.C. vedi la tabella sopra.
T= √S
∼ Tn−1
n α = fiducia dell’intervallo La differenza tra le frequenze relative rilevate su due campioni
Var. casuale: casuali estratti dalle due popolazioni è statisticamente
I.C. = [x ± t1− α (n − 1) √Sn ] 1 − α = confidenza Sn −E ( Sn ) significativa o invece si può ritenere puro effetto del caso?
2 qn n = Z ∼ N (0, 1)
Var ( Snn )

Test per il confronto tra


" #
Distribuzione T di Intervalli unilaterali
q
p̂(1− p̂)
I.C.1−α = p̂ ± z1− α n
2
Student Con il 95% di confidenza, vedo quando µ è medie (con var. nota)
superiore (x, ∞) o inferiore (−∞, x) p = E ( Snn ) Var ( Snn ) = p(1−p
n
)
x −x −δ
s1 2
Z ∼ N (0, 1) X ∼ χ 2 (n) NOTA: si usa in caso si presentino degli errori. σ12 σ22
∼ N (0.1)
Tn = √z x (v.a. t a n gradi di libertà) z
1− α n1 + n2
n EMAX = 2 2
NOTA: se n > 30, δ = 30.
fTn (x) = √1
Γ ( n+ 1 n+1
2 ) ( 1 + x2 ) − 2 (densità,
Taglia del campione  z α 2
1− 2 Se σ12 e σ22 non sono note e il campione è di taglia grande,
nπ Γ( n2)
n n> (dove pe è la prob. di errore)
2 2pe vengono stimate tramite S12 e S22 .
con −∞ < x < ∞)
z σ
1− α
n
E [Tn ] = 0 Var (Tn ) = n−2 (con n > 2) n> I
2 ( 2I = e2 ) S z
1− α
2 H0 H1 Rifiuto H0 se
2 n> 2 (quando S o S2 è data) µ1 = µ2 + δ µ1 6= µ2 + δ |z| > z
1− α
NOTA: al crescere di n, Student si avvicina Errore massimo:
pe 2
µ1 6 µ2 + δ µ1 > µ2 + δ z > z1−α
alla Normale. I σ
2 = z1− α n (questo è un esempio)
√ µ1 > µ2 + δ µ1 < µ2 + δ z < zα
2

I.C. per diff. tra prop. Var. non nota uguale


I.C. per la media x1 −x2 −( µ1 −µ2 )0

• con n1 ed n2 grandi r
2( 1 + 1 )
SP
∼ T ( n1 + n2 − 2 )

FREQUENZE Pop. normale o camp. di t. grande, σ nota H0


n1 n2
H1 Rifiuto H0 se
Var. casuale: I.C.1−α = µ1 = µ2 µ1 6= µ2 |t| > t (n1 + n2 − 2)
x−µ " # 1− α 2
Frequenza assoluta: Numero di volte che σ = Z ∼ N (0, 1)
q
√ p̂1 (1− p̂1 ) p̂2 (1− p̂2 ) µ1 6 µ2 µ1 > µ2 t > t1−α (n1 + n2 − 2)
appare un elemento. n p̂1 − p̂2 ± z1− α n1 + n2 µ1 > µ2 µ1 < µ2 t < tα (n1 + n2 − 2)
2
Caso continuo: fi = {#x/x ∈ i-esima classe} I.C.1−α = [x ± z1− α √σn ] (n −1)S12 +(n2 −1)S22
2 p̂1 (1− p̂1 ) p̂2 (1− p̂2 ) S2p = 1 n +
Caso discreto: fi = {#x/x = xi } (se il campione è < 30 si usa T di Student) G2p̂ − p̂ = n1 + n2 1 2 n −2
1 2
Test di significatività per Test di bontà E [yi ] = β0 + β1 xi E [εi] = 0 data distribuzione? L’aumento della taglia rende l’intervallo
Var (yi ) = σ 2 Var (εi) = σ 2 più preciso.
la diff. tra medie dell’adattamento ad una Se l’ipotesi nulla è vera, il solo aumento della dimensione
campionaria aumenterà la probabilità di rifiutare lipotesi nulla.
Devo verificare l’uguaglianza delle varianze. Non si fa se due
campioni sono ti taglia grande, si considerano le varianze note
distribuzione: test del χ 2 Curva interpolante con il
V
In quali test si impiega una regione critica che costituisce una
sola coda? Test del chi-quadro e analisi della varianza.
sostituendole alle varianze campionarie. Se i campioni sono di
taglia piccola e le varianze sono incognite, si effettua per l’adattamento metodo dei minimi Se si aumenta il livello di signicatività (es: da 0.01 a 0.05),
preliminariamente il test sull’uguaglianza tra le varianze. l’ampiezza dellintervallo di condenza... a parità di taglia e
Usato per verificare H0 , dato un campione estratto/adattato da/a
Considero x − y > 0 → considero D = ∑n varianza diminuisce.
campionaria delle differenze )
i=1 (xi − yi ) (media una specifica distribuzione, che può essere specificata
completamente o non specificata completamente (parametri
quadrati: caso lineare La quantità p
(ŷ−µ )
ha distribuzione t con n − 1 gradi di
((xi −yi )−D) 2 σ 2 /n
S2 = ∑n (var. campion. delle diff.) stimati prima dei dati del campione) Obiettivo: determino b0 e b1 (stime di β0 e β1 ) ottimali libertà. F
D i=1 n−1 affinchè la retta ottenuta costituisca il miglior fit possibile per i Il test t può essere applicato senza nessun assunto riguardo alla
T = D−0S ∼ T ( n − 1 ) dati sperimentali. distribuzione della popolazione. F
√D
n Distribuzione Regressione lineare:
ε ∼ N (0, σ 2 )
Il valore z della distribuzione normale standard può essere
sempre usato per procedure inferenziali riguardanti proporzioni
H0 H1 Rifiuto H0 se
D=0 D 6= 0 |T | > t
1− α2
(n − 1) multinominale y = αx + β + ε α̂ = b0 β̂ = b1
y = b0 + b1 x
di popolazioni. F
Si può utilizzare la statistica F per vericare l’uguaglianza di più
Si usa quando di vogliono confrontare campioni con una σxy ∑ xi yi −((∑ xi ∑ yi )/n) medie solo se le dimensioni campionarie sono identiche. F Le
b1 = 2 = popolazioni devono avere distribuzione nota? Sì, normale.
probabilità teorica. σx ∑ xi2 −((∑ xi )2 /n)
Se una retta di regressione viene calcolata su dati in cui x varia
Test per il rapp. tra (x1 , ..., xn ) v. a. multinom. di parametri n, p1 , ..., pk
(x −np )2
∑y
b0 = y − b1 x = n i − b1 n i
∑x da 0 a 30, si può predire y per x = 32. V
ε = ∑ki=1 i np i (per n grande) 2 2 2 Date le 2 variabili statistiche X e Y , con r (X,Y ) molto vicino a
2 = σ y −(σ xy )/σ x
varianze
q
i b
xi = numero di prove che danno i come risultato (si denota con t = q1 σ2x S e n−2 t ∼ t (n − 2) +1 o a 1, allora c’è una relazione di causa ed effetto tra X e Y . F
Oi o Ni ) Se2 Nel caso in cui la popolazione sia normale è preferibile usare il
S12 npi = E [xi ] = Ei = numero atteso di prove che danno i come H0 H1 Rifiuto H0 se test di adattamento del chi-quadro oppure un test parametrico
∼ F (n − 1, m − 1) (ho due campioni di taglia m ed n) per verificare che µ = µ0 ? Un test parametrico.
S22 risultato
b1 6 = 0
b1
(Oi −Ei )2
b1 = 0 S σ x > t1− α (n − 2) Qual’è lo stimatore di massima verosimiglianza del parametro
H0 H1 Rifiuto H0 se ∑ki=1 Ei = χ 2 (k − 1) (k è il numero di classi) 2 λ di una distribuzione di Poisson? La media campionaria.
σ12 = σ22 σ12 6= σ22 F > F α (n − 1, m − 1) Qual’è lo stimatore di massima verosimiglianza del parametro θ
1− 2 Si vuole eseguire una distr. campionaria F ad una distr. nota F 0 :
di una distribuzione uniforme continua nell’intervallo (0, θ )?
o F < F α (n − 1, m − 1) H0 : F ∼ F 0 H1 : F ∼ F0
2
(0, θ ) = max(X1 , ..., Xn )
R.C. : χ 2 > χ1−α 2 (k − 1)
σ12 6 σ22 σ12 > σ22 F > F1−α (n − 1, m − 1)
σ12 > σ22 σ12 < σ22 F < Fα (n − 1, m − 1)
La frequenza attesa dev’essere almeno 5, sennò raggruppo le ANOVA (ANalysis Of
classi.
VAriance) Domande su Regr.
Distribuzione non Confronto tra n > 2 medie di popolazioni normali.
Lineare
H0 : µ1 = µ2 = ... = µk Il modello di regressione lineare assume che al variare del
multinominale H1 : ∃i, j / esiste almeno una coppia con µi 6= µ j (ai livelli valore della variabile esplicativa la varianza dell’errore
aumenta. F
TEST NON PARA- Ei = npi
Usata se i parametri della distribuzione ipotizzata non sono
α = 0, 05 o 0, 01 o 0, 1)
NOTA: Se si fanno test a coppie, aumentano notevolmente gli Con il metodo dei minimi quadrati si ottengono le stime dei
coefficienti di regressione. V
errori di 1a specie.
METRICI specificati, ma devono essere stimati preliminarmente del La var. aleatoria è una F di Fisher. Il segno di b1 dipende dalla covarianza tra X e Y. V
campione. Nel test ANOVA, ci sono due varianze: una è in funzione dei Il coefficiente di determinazione indica la proporzione di
n = k − d − 1 (n = gradi di libertà della χ 2 , k = numero di livelli del fattore, l’altra è interna (generica). variabilità totale dovuta all’errore. V
Si usano quando non si hanno informazioni preliminari sul tipo Il valore atteso dello stimatore b1 è pari a β1 . F
classi, d = numero di parametri stimati) Condizioni: Tutte le pop. devono essere normali, e tutte le
e sulla forma della distribuzione e/o quando non si è certi della Se Y è indipendente da X, il coefficiente regressione è sempre
normalità della distribuzione. varianze delle pop. devono essere uguali (σ12 = σ22 ...σk2 ) positivo. F
xi j = µ j + ei j (dove xi j sono gli elementi della tabella con i Un coefficiente di determinazione pari a 0.88 indica un buon
Test per l’adattamento righe/elementi e j colonne/livelli, e ei j indica l’errore) adattamento della retta di regressione ai dati campionari. V
∑kj=1 µ j La funzione di regressione descrive la relazione tra la X e il
Test dei segni per la di una distr. Normale µgrandmean = k (media di tutte le medie) valore medio di Y. F
Nel modello di regressione lineare si assume che le osservazioni
τ j = µ j − µgrandmean (τ j ci dà una variabilità sui livelli)
mediana (normal probability plot) xi j = µgrandmean + τ j + ei j
Statistica del test:
della variabile risposta siano dipendenti. F
Tra il peso e la statura degli individui di una popolazione esiste
Si applica ad una popolazione qualunque di taglia n e mediana Problema: stabilire se il campione a disposizione è estratto da SSA una relazione funzionale. F
una popolazione normale senza usare test parametrici o non (k−1)
M0 . V R = SSW ∼ F (k − 1, N − k)
Ipotesi di test: parametrici. (N−k)
H0 : M = M0 H0 : M 6 M0 H0 : M > M0
H1 : M = M0 H1 : M > M0 H1 : M < M0
SST = SSW + SSA MSA = SSA , MSW = SSW
(k−1) (N−k)
Domande su ANOVA
NOTA: il test ANOVA si fa solo a coda destra.
Le differenze xi − M0 hanno probabilità di essere negative
(= 12 ⇒ Q+ ), positive (= 12 ⇒ Q− ) o nulle (= 0).
Errori nei test C.V. S.d.Q. G.L. M.Q. VR
Per applicare il test ANOVA è necessario che tutti i campioni
relativi ai diversi trattamenti abbiano la stessa varianza. F
Errore di 1a specie (con probabilità α): si rifiuta H0 quando T.C. SSA k−1 MSA VR Le taglie dei campioni relativi ai diversi trattamenti nel test
H0 : Q+ ∼ B(n, 12 ) invece è vera I.C. SSW N −k MSW . ANOVA devono essere uguali. F
Errore di 2a specie (con probabilità β ): si accetta H0 quando TOT. SST N −1 . . Il test ANOVA consente di stabilire quale o quali trattamenti
invece è falsa originino delle risposte medie anomale. F
Test di significatività: si calcola il p-value, e con il p-value La distribuzione delle popolazioni è indifferente per l’uso del
Test per l’indipendenza < 0, 05 si rifiuta H0 . test ANOVA. F
Il nome del test ANOVA deriva dal fatto che significa "Analysis
dei caratteri qualitativi: ES.
Of Variance".
La tabella ANOVA illustra la decomposizione della varianza

test del χ 2 per totale della variabile risposta Y. V


Nella tabella ANOVA il valore di SSW è sempre minore del

l’indipendenza REGRESSIONE Domande generiche valore di SSA. F


Un valore che si presenta raramente è sempre un dato anomalo.
F
Usato per vedere l’indipendenza di due fattori in una tabella di LINEARE Quando occorre usare la correzione di continuità, e in cosa
consiste? Quando si utilizza l’approssimazione normale per
contingenza con r righe e c colonne. variabili casuali discrete. Consiste nell’arrotondare i valori
f0 = freq. osservate in una cella della tabella
fe = freq. teoriche o attese in una cella della tabella nel caso in
Serve per riconoscere l’esistenza di un legame tra due variabili
casuali.
estremi delle classi al mezzo punto superiore. Es. su ANOVA
In quali situazioni si effettua uno z-test e in quali un t-test?
cui H0 di indipendenza sia vera SST = 162.54282, SSW = 41.35739, SSA = 121.18543
Dettagliare tutti i casi possibili. z-test: media di v.c. normali
H0 : le due var. categoriche sono indipendenti
con varianza nota; differenza tra medie di v.c. normali con MSW = SSW = 1.5317552, MSA = SSA = 30.296358
Statistica per il test: (N−k) (k−1)
( f − f e )2
χ 2 = ∑tutte le celle 0 f
Modello lineare varianze note. t-test: media di v.c. normali con varianza non
nota; differenza tra medie di v.c. normali con varianze non
C.V.
T.C.
S.d.Q.
121.18543
G.L.
4
M.Q.
30.296358
VR
19.78
e y = µ (x) = β0 + β1 note, ma uguali.
Attribuita a χ 2 con (r − 1)(c − 1) gradi di libertà I.C. 41.35739 27 1.5317552 .
x1 , ..., xn è l’n-pla associata alla n-pla campionaria y1 , ..., yn A parità di livello di condenza, qual’è leffetto della taglia del
2 2 TOT. 162.54282 31 . .
(Rc : χ > χ1−α ) yi ∼ fyi yi = β0 + β1 x + εi (eq. di regressione semplice) campione sullintervallo di condenza per un parametro di una

Potrebbero piacerti anche