Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Statistica descrittiva
Misure di posizione
Media aritmetica semplice
Media aritmetica ponderata (dati raggruppati)
(
)
(
)
(
) (
Media geometrica
)
Mediana
n dispari
Per n dispari, la mediana quel valore che occupa la
posizione
nellinsieme ordinato.
n pari
Per n pari, la mediana il valore centrale tra quelli
che occupano le posizioni
.
Distribuzione per classi
) (
)
(
) (
( )
( )
Moda
Indica il valore o modalit che si presenta con frequenza pi elevata ed lunico indice di tendenza centrale
che si pu calcolare per variabili qualitative nominali. La moda non necessariamente presente e qualora lo
fosse non detto che sia unica.
Misure di dispersione
Range
Il campo di variazione (range) la differenza fra il massimo ed il minimo valore osservato.
Scarto interquartile
Lo scarto interquartile (SIQ) la differenza fra il terzo ed il primo quartile. Tale intervallo contiene la met
dei valori inclusi nel campione.
Devianza
(
( ) ( ) ( )
( )
n
x f
x f = x f x x = D
i
k
= i
i
x
i
k
= i
i
x
i
k
= i
i
2
1
1
2
1
2
|
.
|
\
|
( ) ( )
m T m f T f f m T
n x x + n x x + D + D = D
2 2
Varianza
Deviazione standard
Coefficiente di variazione
Calcolo di probabilit
Riassunto
La probabilit un numero reale compreso tra: ()
Evento certo: ()
Evento impossibile: ()
Evento complementare: (
) ()
Unione di eventi generale: ( ) () () ( )
Union di eventi mutuamente esclusivi: ( ) () ()
Eventi condizionati: (|)
()
()
Intersezione di eventi: ( ) () (|) () (|)
Intersezione di eventi indipendenti: () (|) () (|)
( ) () ()
Teorema di Bayes:
(
|)
(
)(|
)
(
)(|
) (
)(|
)
Teorema di Bayes applicato ai test diagnostici:
(
)
( )( )
(
)
( )
( ) ( )
Sensibilit:
(
)
(
)
(
Specificit:
(
)
(
)
(
Variabili casuali quantitative discrete e continue
Variabile casuale
Pu definirsi come un insieme di coppie di valori x
i
; p
i
dove il primo elemento il valore assunto dalla
variabile X (tutti i valori assunti determinano lo spazio evento) mentre il secondo la probabilit con cui
levento pu manifestarsi.
X = variabile casuale
Valore atteso di X: ()
Varianza di X: () (
) ()
Se X e Y sono due variabili casuali:
( ) () ()
( ) () () X e Y indipendenti
( ) () () ( ) X e Y non indipendenti
Se X una variabili casuale e k una costante qualunque:
( ) () ( ) ()
() () ()
()
Distribuzione di probabilit per una variabile casuale discreta
K possibili combinazioni di x oggetti su un insieme di n oggetti:
( )
La distribuzione binomiale la distribuzione del numero di successi in n prove statisticamente indipendenti,
dove la probabilit di successo in ciascuna prova . La formula :
( ) (|)
( )
( )
() () ( )
Se n sufficientemente elevato e tale che | | non sia vicino a 1 allora per la funzione di probabilit
binomiale vale lapprossimazione alla gaussiana:
( ) ( )
Si applica la correzione di continuit nel rapporto critico:
Se P(x>) allora -0,5
Se P(x<) allora + 0,5
Densit di probabilit per una variabile casuale continua
Funzione parametrica in due parametri:
()
)
() ()
Rapporto critico, passaggio alla gaussiana standardizzata:
( )
Distribuzione di campionamento
Distribuzione delle medie campionarie
Sapendo che X una variabile che ha una certa media e una certa varianza nella popolazione, immagino di
estrapolare dalla popolazione campioni di dimensione n. Il teorema del limite centrale mi dice che la media
campionaria si distribuisce in modo gaussiano, se n sufficientemente grande, con media pari a e
varianza pari a
.
(
) (
) (
) (
Rapporto critico ( noto):
Rapporto critico ( non noto):
IC ( noto):
()
IC ( non noto):
)
Confronto medie di due campioni indipendenti (
noto):
Confronto medie di due campioni indipendenti (
non noto):
) (
)
ES(
)=(
) (
)
(
)
ES(
)=
)
Calcolo della dimensione di un campione per il confronto di campioni indipendenti:
(
Confronto medie di due campioni non indipendenti:
Distribuzione delle proporzioni campionarie
Estraiamo tutti i possibili campioni di ampiezza n e calcoliamo per ognuno di essi la proporzione p di
successi; la risultante distribuzione campionaria delle proporzioni al crescere di n approssimativamente
gaussiana con media pari a e varianza pari a (1- )/n.
()(
( )
) ()
( )
Test dipotesi e IC:
)
()
( )
Lerrore standard (ES) usato nella statistica test (calcolato sotto H
0
) diverso da quello usato per il
calcolo dellintervallo di confidenza (che prescinde da H
0
).
) ( )
Tuttavia questo non comporta, in pratica, risultati contradditori perch p(1-p) varia abbastanza
lentamente al variare di p.
Calcolo della dimensione del campione per il confronto di una proporzione con un valore dato:
(
( )
Test di ipotesi e IC per la differenza di due proporzioni indipendenti:
)[ ( ) (
)]
( ) (
)
(
()
(
Distribuzione delle varianze campionarie
Estraiamo tutti i possibili campioni di ampiezza n e calcoliamo per ognuno di essi la varianza; la risultante
distribuzione campionaria della varianza (se la variabile gaussiana nella popolazione) il chi quadrato con
media pari a
e varianza pari a
)
(
Test non parametrici
Test del chi quadrato per lindipendenza (test di ipotesi tra pi di due proporzioni)
()()
( )
( )
( )
( )
( )
( )
Test di McNemar (test di ipotesi tra pi di due proporzioni campioni dipendenti)
Campione 1
_
( )
+ -
Campione 2
+ a b
- c d
Analisi di correlazione
Coefficiente di correlazione lineare di Pearson
) (
Formalmente, il coefficiente di correlazione per due variabili X e Y, un estimatore di , definito come:
[(
) (
)]
) (
Test dellassociazione lineare
H
0
: =0 non c' associazione lineare tra le due variabili
H
1
: 0 c' associazione lineare tra le due variabili.
(
)( )
()
()
Analisi di regressione lineare semplice
1. Media
a. Linearit: nella popolazione il valore medio di YX
1
non noto, ma funzione lineare di X
(|)
{|}
b. Leffetto predittore X dato da
c. Il valore medio YX giace sulla retta di regressione (non il valore osservato)
d. Il predittore X pu essere di ogni tipo (non necessariamente una variabile quantitativa
continua)
2. Variabilit
a.
c. Indipedenza: tutti gli errori
i
e quindi tutte le risposte y
i
sono indipendenti. ha media 0
d. Normalit: le osservazioni sono distribuite in modo gaussiano
) e sono
indipendenti
Per una valore fissato di X, Y ha distribuzione gaussiana, cio dato X:
(
Supponiamo di fittare un modello di regressione e di trovare
, mentre
Sotto gli assunti specificati le stime pi precise di
che minimizzano la
somma dei quadrati dei residui
1
Ci che correlato a X non Y ma la media degli Y
Da cui:
)(
Inferenza per i coefficienti di regressione
Il fine quello di poter utilizzare la retta di regressione dei minimi quadrati:
Per fare inferenze sulla retta di regressione nella popolazione:
(|)
Pertanto abbiamo bisogno degli errori standard di
Nelle applicazioni pratiche
dove:
)
Se vogliamo testare se lintercetta della popolazione uguale ad un valore specifico oppure vogliamo
calcolare un intervallo di confidenza utilizziamo calcoli analoghi a quelli per la pendenza.
Output statistico
Inferenza per i valori predetti
Spendo che:
(|)
{|}
prima stimo
yx
, poi calcolo l'IC per il peso medio alla nascita dei bambini la cui madre ha un certo valore di
estriolo. Per calcolare l'intervallo di confidenza ho bisogno dell'errore standard di y stimato:
()
( )
()
Inferenza per i valori individuali predetti
()
()
( )
()
Valutazione modello
Scompongo la devianza in due parti: una parte spiegata dal modello di regressione e una parte residua.
SST: variazione totale di Y attorno alla sua media (devianza)
SSE: variazione residua non spiegata (somma degli errori al quadrato)
SSR: variazione spiegata dal modello di regressione
Analisi di regressione lineare multipla
La regressione lineare nella popolazione :
(|
Si usa sempre un pacchetto statistico che fornisce un output simile: