Sei sulla pagina 1di 15

Formulario

Statistica descrittiva

Misure di posizione

Media aritmetica semplice



Media aritmetica ponderata (dati raggruppati)



(

)
(

)
(

) (



Media geometrica

)

Mediana

n dispari

Per n dispari, la mediana quel valore che occupa la
posizione

nellinsieme ordinato.

n pari

Per n pari, la mediana il valore centrale tra quelli
che occupano le posizioni

.





Distribuzione per classi

) (

)
(

) (


( )




( )









Moda

Indica il valore o modalit che si presenta con frequenza pi elevata ed lunico indice di tendenza centrale
che si pu calcolare per variabili qualitative nominali. La moda non necessariamente presente e qualora lo
fosse non detto che sia unica.


Misure di dispersione

Range

Il campo di variazione (range) la differenza fra il massimo ed il minimo valore osservato.

Scarto interquartile

Lo scarto interquartile (SIQ) la differenza fra il terzo ed il primo quartile. Tale intervallo contiene la met
dei valori inclusi nel campione.

Devianza


(


( ) ( ) ( )
( )
n
x f
x f = x f x x = D
i
k
= i
i
x
i
k
= i
i
x
i
k
= i
i
2
1
1
2
1
2
|
.
|

\
|




( ) ( )
m T m f T f f m T
n x x + n x x + D + D = D
2 2


Varianza





Deviazione standard



Coefficiente di variazione


Calcolo di probabilit

Riassunto

La probabilit un numero reale compreso tra: ()

Evento certo: ()

Evento impossibile: ()

Evento complementare: (

) ()

Unione di eventi generale: ( ) () () ( )

Union di eventi mutuamente esclusivi: ( ) () ()

Eventi condizionati: (|)
()
()


Intersezione di eventi: ( ) () (|) () (|)

Intersezione di eventi indipendenti: () (|) () (|)

( ) () ()





Teorema di Bayes:

(

|)
(

)(|

)
(

)(|

) (

)(|

)



Teorema di Bayes applicato ai test diagnostici:

(

)

( )( )
(

)
( )
( ) ( )


Sensibilit:
(

)
(

)
(




Specificit:

(

)
(

)
(





Variabili casuali quantitative discrete e continue

Variabile casuale

Pu definirsi come un insieme di coppie di valori x
i
; p
i
dove il primo elemento il valore assunto dalla
variabile X (tutti i valori assunti determinano lo spazio evento) mentre il secondo la probabilit con cui
levento pu manifestarsi.

X = variabile casuale

Valore atteso di X: ()



Varianza di X: () (

) ()




Se X e Y sono due variabili casuali:

( ) () ()

( ) () () X e Y indipendenti

( ) () () ( ) X e Y non indipendenti


Se X una variabili casuale e k una costante qualunque:

( ) () ( ) ()

() () ()

()


Distribuzione di probabilit per una variabile casuale discreta

K possibili combinazioni di x oggetti su un insieme di n oggetti:

( )



La distribuzione binomiale la distribuzione del numero di successi in n prove statisticamente indipendenti,
dove la probabilit di successo in ciascuna prova . La formula :

( ) (|)

( )

( )

() () ( )
Se n sufficientemente elevato e tale che | | non sia vicino a 1 allora per la funzione di probabilit
binomiale vale lapprossimazione alla gaussiana:

( ) ( )

Si applica la correzione di continuit nel rapporto critico:
Se P(x>) allora -0,5
Se P(x<) allora + 0,5


Densit di probabilit per una variabile casuale continua

Funzione parametrica in due parametri:

()

)

() ()



Rapporto critico, passaggio alla gaussiana standardizzata:


( )



Distribuzione di campionamento

Distribuzione delle medie campionarie

Sapendo che X una variabile che ha una certa media e una certa varianza nella popolazione, immagino di
estrapolare dalla popolazione campioni di dimensione n. Il teorema del limite centrale mi dice che la media
campionaria si distribuisce in modo gaussiano, se n sufficientemente grande, con media pari a e
varianza pari a

.

(

) (

) (

) (



Rapporto critico ( noto):




Rapporto critico ( non noto):



IC ( noto):

()

IC ( non noto):

)
Confronto medie di due campioni indipendenti (
noto):



Confronto medie di due campioni indipendenti (
non noto):

) (

)


ES(

)=(

) (

)
(

)


ES(

)=

)

Calcolo della dimensione di un campione per il confronto di campioni indipendenti:

(



Confronto medie di due campioni non indipendenti:




Distribuzione delle proporzioni campionarie

Estraiamo tutti i possibili campioni di ampiezza n e calcoliamo per ognuno di essi la proporzione p di
successi; la risultante distribuzione campionaria delle proporzioni al crescere di n approssimativamente
gaussiana con media pari a e varianza pari a (1- )/n.

()(
( )

) ()

( )



Test dipotesi e IC:

)
()

( )

Lerrore standard (ES) usato nella statistica test (calcolato sotto H
0
) diverso da quello usato per il
calcolo dellintervallo di confidenza (che prescinde da H
0
).

) ( )

Tuttavia questo non comporta, in pratica, risultati contradditori perch p(1-p) varia abbastanza
lentamente al variare di p.
Calcolo della dimensione del campione per il confronto di una proporzione con un valore dato:

(

( )



Test di ipotesi e IC per la differenza di due proporzioni indipendenti:

)[ ( ) (

)]

( ) (

)

(

()
(





Distribuzione delle varianze campionarie

Estraiamo tutti i possibili campioni di ampiezza n e calcoliamo per ognuno di essi la varianza; la risultante
distribuzione campionaria della varianza (se la variabile gaussiana nella popolazione) il chi quadrato con
media pari a

e varianza pari a

)

(



Test non parametrici


Test del chi quadrato per lindipendenza (test di ipotesi tra pi di due proporzioni)

()()

( )

( )

( )

( )

( )

( )


Test di McNemar (test di ipotesi tra pi di due proporzioni campioni dipendenti)



Campione 1
_

( )



+ -
Campione 2

+ a b
- c d

Analisi di correlazione


Coefficiente di correlazione lineare di Pearson

) (



Formalmente, il coefficiente di correlazione per due variabili X e Y, un estimatore di , definito come:

[(

) (

)]

) (






Test dellassociazione lineare

H
0
: =0 non c' associazione lineare tra le due variabili
H
1
: 0 c' associazione lineare tra le due variabili.



(

)( )

()

()

Analisi di regressione lineare semplice

1. Media
a. Linearit: nella popolazione il valore medio di YX
1
non noto, ma funzione lineare di X

(|)
{|}



b. Leffetto predittore X dato da


c. Il valore medio YX giace sulla retta di regressione (non il valore osservato)
d. Il predittore X pu essere di ogni tipo (non necessariamente una variabile quantitativa
continua)

2. Variabilit
a.

punti = media + errore casuale;


b. Omoschedasticit: la variabilit di Y intorno al suo valor medio la stessa per ogni valore di X
()


c. Indipedenza: tutti gli errori
i
e quindi tutte le risposte y
i
sono indipendenti. ha media 0
d. Normalit: le osservazioni sono distribuite in modo gaussiano

) e sono
indipendenti

Per una valore fissato di X, Y ha distribuzione gaussiana, cio dato X:

(










Supponiamo di fittare un modello di regressione e di trovare

, ovvero le stime dei coefficienti di


regressione della popolazione

, di conseguenza possiamo definire i valori stimati per ciascuna


osservazione in base alla seguente equazione:

il risultato osservato di Y per un particolare valore

, mentre

il punto corrispondente della retta


adattata, allora:



Sotto gli assunti specificati le stime pi precise di

sono quei valori

che minimizzano la
somma dei quadrati dei residui

. Sono le cosiddette stime dei minimi quadrati.







1
Ci che correlato a X non Y ma la media degli Y
Da cui:

)(




Inferenza per i coefficienti di regressione

Il fine quello di poter utilizzare la retta di regressione dei minimi quadrati:



Per fare inferenze sulla retta di regressione nella popolazione:

(|)



Pertanto abbiamo bisogno degli errori standard di

che sono rispettivamente:



(



Nelle applicazioni pratiche

non nota, di conseguenza dobbiamo stimarla attraverso la deviazione


standard del campione

dove:

)

Se vogliamo testare se lintercetta della popolazione uguale ad un valore specifico oppure vogliamo
calcolare un intervallo di confidenza utilizziamo calcoli analoghi a quelli per la pendenza.

Output statistico

Inferenza per i valori predetti

Spendo che:

(|)
{|}



prima stimo
yx
, poi calcolo l'IC per il peso medio alla nascita dei bambini la cui madre ha un certo valore di
estriolo. Per calcolare l'intervallo di confidenza ho bisogno dell'errore standard di y stimato:

()

( )

()

Inferenza per i valori individuali predetti



()

()

( )

()

Valutazione modello

Scompongo la devianza in due parti: una parte spiegata dal modello di regressione e una parte residua.



SST: variazione totale di Y attorno alla sua media (devianza)
SSE: variazione residua non spiegata (somma degli errori al quadrato)
SSR: variazione spiegata dal modello di regressione




Analisi di regressione lineare multipla

La regressione lineare nella popolazione :

(|



Si usa sempre un pacchetto statistico che fornisce un output simile: