Sei sulla pagina 1di 7

ROSSnewappG-1-8.

Ita

9-05-2014

9:48

Pagina 1

Formule e concetti principali


1

Introduzione alla statistica

Statistica: larte di apprendere dai dati


Statistica descrittiva: descrive e riassume i dati
Statistica inferenziale: trarre conclusioni dai dati
Popolazione: insieme di elementi di interesse
Campione: la parte della popolazione da cui si ottengono i dati

Descrivere insiemi di dati

Tabelle e grafici delle frequenze e delle frequenze relative


Istogrammi
Diagrammi ramo-foglia
Diagrammi di dispersione per dati a coppie

Uso delle statistiche per riassumere i dati

Media campionaria: x  (

)/n

i1 xi

Mediana campionaria: il valore intermedio


Varianza campionaria: s2 

 (x  x) /(n  1)
n

i1

Deviazione standard campionaria: s  s2


Uguaglianza algebrica:

 (x  x)
n

i1

2
i1 xi

 nx2

Regola empirica per gli insiemi di dati normali:


circa 68% dei dati sono compresi in x  s
circa 95% dei dati sono compresi in x  2s
circa 99.7% dei dati sono compresi in x  3s
Coefficiente di correlazione campionaria: r 

i1(xi

 x)(yi  y)/[(n  1)sxsy]

Probabilit

0  P(A)  1
P(S)  1, dove S linsieme di tutti i valori possibili
P(A  B)  P(A)  P(B), quando A e B sono disgiunti
Probabilit del complementare: P(Ac)  1  P(A)
Regola delladdizione: P(A  B)  P(A)  P(B)  P(A  B)
Probabilit condizionata: P(B|A)  P(A  B)/P(A)
Regola della moltiplicazione: P(A  B)  P(A)P(B|A)
Eventi indipendenti: P(A  B)  P(A)P(B)

Ross - Introduzione alla statistica, II edizione - Apogeo Education 2014

ROSSnewappG-1-8.Ita

2
5

9-05-2014

9:48

Pagina 2

Formule e concetti principali

Variabili aleatorie discrete

Valore atteso (o media): E[X ] 

i1 xiP

{X  xi}

E[X  Y ]  E[X ]  E[Y]


Varianza: Var(X )  E[(X  E[X])2]  E[X2]  (E[X])2
Deviazione standard: SD (X )  Var(X)
Var(X  Y )  Var(X )  Var(Y ) se X e Y sono indipendenti:
n!
Variabile aleatoria binomiale: P{X  i} 
pi(1  p)ni, i  0, . . . , n
i!(n  i)!
E[X]  np

Var(X)  np(1  p)

Variabili aleatorie normali

Variabile aleatoria normale X: caratterizzata da   E[X],   SD(X)


Variabile aleatoria normale standard Z: normale con   0,   1
P{|Z|  x}  2P{Z  x}, x  0
P{Z  x}  P{Z x}
z tale che P{Z  z}  
Se X normale, allora Z  (X  )/ una normale standard.
Propriet additiva: se X e Y sono normali indipendenti, X  Y normale con media x  y, e
varianza  2x  2y

La distribuzione campionaria delle statistiche

X1, . . . ., Xn un campione della popolazione: E[Xi]  , Var(Xi)  2


E[ X ]  
Var( X )  2/n
Teorema centrale del limite:

i1Xi

per grandi valori di n, approssimativamente normale con

media n e deviazione standard  n; analogamente n(X   )/  ha distribuzione


approssimativamente normale standard.
Approssimazione normale della binomiale: se np  5, n (1  p)  5 allora [Bin (n,p)  np]/
np(1  p) approssimativamente normale standard.

Stima

X lo stimatore della media della popolazione .


p , la proporzione del campione che ha una certa propriet, stima p, la proporzione della popolazione che ha la propriet.
S 2 stima  2, e S stima .
Intervallo di confidenza al 100(1  )% per :
dati normali o n grande,  nota: X  z/2 /n
dati normalil,  incognita: X  tn1,/2 S/n
Intervallo di confidenza al 100(1  )% per p: p  z/2p (1  p )/n

Verifica delle ipotesi statistiche

H0  ipotesi nulla, ipotesi sotto verifica


Livello di significativit : la (pi grande possibile) probabilit di rifiutare H0 quando essa vera
valore-p: il pi piccolo livello di significativit a cui H0viene rifiutata

Ross - Introduzione alla statistica, II edizione - Apogeo Education 2014

ROSSnewappG-1-8.Ita

9-05-2014

9:48

Pagina 3

Formule e concetti principali

Verifica di ipotesi riguardanti la media  di una popolazione


Assuzione: la distribuzione normale, o n grande.
Statistica
del test ST

Test
di livello 

Valore-p
se ST  v

H0

H1

  0

 0

n(X  0)


Rifiutare H0 se

|ST|  z/2

2P{z  |v|}

  0

  0

n(X  0)


Rifiutare H0 se

ST  z

P{Z  v}

  0

 0

n(X  0)


Rifiutare H0 se

|ST|  tn  1,/2

2P{Tn1  |v|}

  0

  0

n(X  0)


Rifiutare H0 se

ST  tn  1,

P{Tn  1  v}

Assunzione:  nota.
Nota: per verificare H0:   0, multiplicare i dati per 1 e utilizza il test gi noto.

10

Verifica di ipotesi su due popolazioni

Verifica delle medie di due popolazioni quando i campioni sono indipendenti


Il campione X di numerosit n e il campione Y di numerosit m sono indipendenti.

H0

Statistica
del test ST

H1

Assunzione

Test di
livello 

Valore-p
se ST  v

x  y x y

XY
S2x/n  S2y/m

n, m grandi

Rifiutare se
|ST|  z/2

2P{Z  |v|}

x  y x  y

XY
S2x/n  S2y/m

n, m grandi

Rifiutare se
ST  z

P{Z  v}

x  y x y

XY
S2p (1/n  1/m)

Popolazioni
normali x  y

Rifiutare se
ST  tn + m  2,/2

2P{Tn  m 2  |v|}

x  y x  y

XY
S2p (1/n  1/m)

Popolazioni
normali x  y

Rifiutare se
ST  tn  m  2,

P{Tn  m 2  v}

S 2p 

n1
m1
S2 
S 2  stimatore combinato del valore comune di  2x   2y
nm2 x nm2 y

Verifica di ipotesi riguardanti p


(la proporzione di una grande popolazione che ha una certa caratteristica)
X il numero di membri di una popolazione in un campione di numerosit n che hanno la
caratteristica. B una variabile aleatoria binomiale con parametri n e p0.
H0

Valore-p se ST  x

H1

Statistica del test ST

p  p0

p  p0

P{B  x}

p  p0

p p0

2 Min {P{B  x}, P{B  x}}

Ross - Introduzione alla statistica, II edizione - Apogeo Education 2014

ROSSnewappG-1-8.Ita

9-05-2014

9:48

Pagina 4

Formule e concetti principali

Test di uguaglianza di proporzioni di popolazione


p1 e p2 sono le proporzioni dei membri di due popolazioni che hanno una certa caratteristica di
interesse. Un campione casuale indipendente di numerosit n1 viene estratto dalla prima popolazione e un campione casuale indipendente di numerosit n2 viene estratto dalla seconda. p^1 e
p^2 sono le proporzioni dei membri dei due campioni che hanno la caratteristica e p^ la proporzione dei campioni combinati che hanno la caratteristica.
H0

H1

p1  p2 p1 p2

p1  p2 p1  p2

11

Statistica del test ST

Test di livello 

Valore-p se ST = 

p 1  p 2

Rifiuta H0 se

2P{Z  |v|}

(1 n1  1 n2 )p (1  p )

|ST|  z/2

p 1  p 2

Rifiuta H0 se

(1 n1  1 n2 )p (1  p )

ST  z

P{Z  v}

Analisi della varianza

Tabella ANOVA a un fattore


Le variabili Xi e S2i , i  1, . . . , m, sono rispettivamente le medie e le varianze campionarie di campioni indipendenti di numerosit n per popolazioni con medie i e la stessa varianza 2.
Stimatore di  2

Sorgente dello stimatore

i1

nS 
2

Tra campioni

 (X

Valore della statistica del test

 X)2
ST 

(m  1)

nS 2

  S /m
m

i1

2
i

  S /m
m

Allinterno di ciascun campione

2
i

i1

Test di livello  di H0: tutti i valori i sono uguali


Rifiutare H0 se ST  Fm1, m(n1),
Non rifiutare H0 altrimenti
Se ST  v allora
valore-p  P{Fm1, m(n1) 
}
dove Fm1, m(n1) una variabile aleatoria F con m  1 gradi di libert al numeratore e m(n  1)
al denominatore.
Modello ANOVA a due fattori: per i  1, . . . , m, j  1, . . . , n
E[Xij]    i  j
m

   

i1

j1

il valore si chiama media generale, i la deviazione dalla media generale dovuta alla riga i, e
j la deviazione dalla media generale dovuta alla colonna j. I loro stimatori sono
  X..

i  Xi.  X..


  X.j  X..
i

Ross - Introduzione alla statistica, II edizione - Apogeo Education 2014

ROSSnewappG-1-8.Ita

9-05-2014

9:48

Pagina 5

Formule e concetti principali

Tabella ANOVA a due fattori


Somma dei quadrati

 (X .

Riga

SSr  n

Colonna

SSc  m

Errore

SSe 

i1
n



i1

Gradi di libert
m1

 X..)2

 (X.

j1
m n

Ipotesi
nulla

 X..)2

n1

 Xi. Xij  X.,)2

j  1(Xij

Statistica
del test

Nessun effetto di riga


(tutte le i  0)

Nessun effetto di colonna


(tutte le i  0)

12

SSr (m  1)
SSe N
SSc (n  1)
SSe N

N  (n  1)(m 1)
Test
di livello 

Valore-p
se ST  

Rifiutare se
ST  Fm1,N,

P{Fm1,N  v}

Rifiutare se
ST  Fn1,N,

P{Fn1,N  v}

Regressione lineare

Modello di regressione lineare semplice: Y    x  e


Stimatori dei minimi quadrati:   SxY Sxx,   Y   x
n

 (x

SxY 

i1

Sxx 

x Y

 x)(Yi  Y) 
n

(x
1

 x)2 

x

2
i

 nx Y

 nx2

Retta di regressione stimata: y     x:


Lerrore e una variabile aleatoria normale con media 0 e varianza 2. Lo stimatore di 2
SSR/(n  2),
SSR  (Yi     xi)2  (SxxSYY  S2xY) Sxx


i

Per verificare H0:   0. Utilizza ST  (n  2)Sxx SSR 


Un test di livello  consiste nel rifiutare H0 se |ST|  tn  2, /2.
Se ST  v, valore-p  2P{Tn  2 
}
100(1  ) intervallo di predizione per una risposta al predittore x0
   x0  tn  2, 2(1  1 n  (x0  x)2 Sxx)SSR (n  2)
Coefficiente di determinazione: R2  1  SSR/SYY appresenta la proporzione della variazione
delle variabili risposta che giustificata dai valori dei predittori. La sua radice quadrata il valore assoluto del coefficiente di correlazione campionaria.
Modello di regressione lineare multipla:
Y  0  1x1   kxk  e

13

Test chi-quadrato di adattamento

Pi la proporzione della popolazione con valore i, i  1, . . . , k.


Per verificare H0: Pi  pi, i  1, . . . , k, consideriamo un campione di numerosit n.

Ross - Introduzione alla statistica, II edizione - Apogeo Education 2014

ROSSnewappG-1-8.Ita

9-05-2014

9:48

Pagina 6

Formule e concetti principali

Sia Ni be il numero di elementi del campione che hanno il valore i, ei  npi, ST 

i  1(Ni

 ei)2 ei. Il

test di livello  rifiuta H0 se ST  2k  1,.


Se ST  v, allora valore-p  P2k  1  v.
Supponiamo che ciascun membro di una popolazione abbia una caratteristica X e una caratteristica Y. Ipotizziamo r valori possibili della caratteristica X e s valori possibili della caratteristica Y. Per verificare lipotesi che le caratteristiche di un membro della popolazione scelto
a caso siano indipendenti, consideriamo un campione casuale di numerosit n.
Nij  numero degli elementi del campione che hanno la caratteristica X uguale a i e la caratteristica Y uguale a j
Ni  numero degli elementi del campione che hanno la caratteristica X uguale a i
Mj  numero degli elementi del campione che hanno la caratteristica Y uguale a j
eij  NiMj n
Se

  (N
i

ij

 eij)2/ eij  2(r1)(s1). allora lipotesi di indipendenza rifiutata per un livello di

significativit .

14

Test non parametrici

Sia   mediana della popolazione. Il test dei segni di


H0:   m

contro H1:  m

richiede un campione di numerosit n. Se i elementi sono minori di m, allora


valore-p  2 Min (P{N  i}, P{N  i})
dove N una variabile aleatoria binomiale (n, 1/2).
Il test dei ranghi con segno utilizzato per verificare lipotesi che una distribuzione di popolazione sia simmetrica rispetto a 0. Esso classifica i dati in base al valore assoluto. ST la
somma dei ranghi dei valori negativi
valore-p  2 Min (P{ST  t}, P{ST  t})
ST approssimativamente normale con media n(n  1)/4 e varianza n(n  1)(2n  1)/24.
Per verificare luguaglianza di due distribuzioni di popolazione, estraiamo due campioni casuali di numerosit n e m e mettiamo in ordine gli n + m valori. Il test della somma dei ranghi
utilizza ST = somma dei ranghi del primo campione. Il test rifiuta H0 se ST molto grande o
molto piccola. Se ST = t, allora
valore-p  2 Min (P{ST  t}, P{ST  t})
ST approssimativamente normale con media n(n + m + 1)/2 e varianza nm(n  m  1)/12.
Per verificare lipotesi che una successione di cifre 0 e 1 sia casuale, utilizziamo il test delle sequenze contando R, il numero di sequenze. Rifiutiamo la casualit quando R troppo piccolo o
troppo grande per essere giustificabile dal caso. Utilizziamo il risultato che quando H0 vera, R
approssimativamente normale con media 1 + 2 nm/(n + m) e varianza
2 nm(2 nm  n  m)
(n  m)2(n  m  1)

Ross - Introduzione alla statistica, II edizione - Apogeo Education 2014

ROSSnewappG-1-8.Ita

9-05-2014

9:48

Pagina 7

Formule e concetti principali

15

Controllo di qualit

Limiti di carta di controllo   3 n

n  numerosit del sottogruppo

Area sottesa dalla curva normale standard a sinistra di x


x

.00

.01

.02

.03

.04

.05

.06

.07

.08

.09

.0

.5000

.5040

.5080

.5120

.5160

.5199

.5239

.5279

.5319

.5359

.1
.2
.3
.4
.5
.6
.7
.8
.9
1.0

.5398
.5793
.6179
.6554
.6915
.7257
.7580
.7881
.8159
.8413

.5438
.5832
.6217
.6591
.6950
.7291
.7611
.7910
.8186
.8438

.5478
.5871
.6255
.6628
.6985
.7324
.7642
.7939
.8212
.8461

.5517
.5910
.6293
.6664
.7019
.7357
.7673
.7967
.8238
.8485

.5557
.5948
.6331
.6700
.7054
.7389
.7704
.7995
.8264
.8508

.5596
.5987
.6368
.6736
.7088
.7422
.7734
.8023
.8289
.8531

.5636
.6026
.6406
.6772
.7123
.7454
.7764
.8051
.8315
.8554

.5675
.6064
.6443
.6808
.7157
.7486
.7794
.8078
.8340
.8577

.5714
.6103
.6480
.6844
.7190
.7517
.7823
.8106
.8365
.8599

.5733
.6141
.6517
.6879
.7224
.7549
.7852
.8133
.8389
.8621

1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2.0

.8643
.8849
.9032
.9192
.9332
.9452
.9554
.9641
.9713
.9772

.8665
.8869
.9049
.9207
.9345
.9463
.9564
.9649
.9719
.9778

.8686
.8888
.9066
.9222
.9357
.9474
.9573
.9656
.9726
.9783

.8708
.8907
.9082
.9236
.9370
.9484
.9582
.9664
.9732
.9788

.8729
.8925
.9099
.9251
.9382
.9495
.9591
.9671
.9738
.9793

.8749
.8944
.9115
.9265
.9394
.9505
.9599
.9678
.9744
.9798

.8770
.8962
.9131
.9279
.9406
.9515
.9608
.9686
.9750
.9803

.8790
.8980
.9147
.9292
.9418
.9525
.9616
.9693
.9756
.9808

.8810
.8997
.9162
.9306
.9429
.9535
.9625
.9699
.9761
.9812

.8830
.9015
.9177
.9319
.9441
.9545
.9633
.9706
.9767
.9817

2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3.0

.9821
.9861
.9893
.9918
.9938
.9953
.9965
.9974
.9981
.9987

.9826
.9864
.9896
.9920
.9940
.9955
.9966
.9975
.9982
.9987

.9830
.9868
.9898
.9922
.9941
.9956
.9967
.9976
.9982
.9987

.9834
.9871
.9901
.9925
.9943
.9957
.9968
.9977
.9983
.9988

.9838
.9875
.9904
.9927
.9945
.9959
.9969
.9977
.9984
.9988

.9842
.9878
.9906
.9929
.9946
.9960
.9970
.9978
.9984
.9989

.9846
.9881
.9909
.9931
.9948
.9961
.9971
.9979
.9985
.9989

.9850
.9884
.9911
.9932
.9949
.9962
.9972
.9979
.9985
.9989

.9854
.9887
.9913
.9934
.9951
.9963
.9973
.9980
.9986
.9990

.9857
.9890
.9916
.9936
.9952
.9964
.9974
.9981
.9986
.9990

3.1
3.2
3.3
3.4

.9990
.9993
.9995
.9997

.9991
.9993
.9995
.9997

.9991
.9994
.9995
.9997

.9991
.9994
.9996
.9997

.9992
.9994
.9996
.9997

.9992
.9994
.9996
.9997

.9992
.9994
.9996
.9997

.9992
.9995
.9996
.9997

.9993
.9995
.9996
.9997

.9993
.9995
.9997
.9998

Ross - Introduzione alla statistica, II edizione - Apogeo Education 2014