Sei sulla pagina 1di 23

Media e varianza per distribuzioni Sia X una variabile casuale continua con densit` a di probabilit` a f (x).

Il valor medio di x ` e
+

= E (X ) =

xf (x)dx

Se X ` e una variabile casuale con valor medio la varianza di x ` e 2 = var(X ) = E [(X )2]. La radice qudrata non negativa = var(X ) = E [(X )2]

` e detta deviazione standard di X.

INFERENZA STATISTICA Linferenza statistica (o statistica inferenziale) si occupa di studiare alcuni parametri di una popolazione traendo conclusioni utilizzando i dati ottenuti su campioni estratti da essa. Con il termine popolazione intendiamo un insieme o collezione di oggetti,numeri,misure od osservazioni. Le popolazioni sono di solito descritte dai valori delle loro distribuzioni ed ` e comune riferirsi alle popolazioni in termini delle loro distribuzioni. Per popolazioni nite si fa riferimento alla eettiva distribuzione di frequenza dei valori, per quelle innite alla distribuzione o densit` a di
2

probabilit` a. I metodi della statistica inferenziale riguardano essenzialmente due aree: la stima dei parametri e i test dipotesi. Il primo importante problema dellinferenza statistica ` e la stima dei parametri di una popolazione,media,varianza,scarto quadratico medio, per mezzo dei corrispondenti parametri campionari. Questi parametri vengono anche detti statistiche. Per studiare i parametri di una popolazione si fa uso di campioni e si traggono da essi, ossia si inferiscono, dati sullintera popolazione.
3

La teoria

dei

campioni ` e quella che stu-

dia le relazioni tra una popolazione e i campioni estratti da essa. Tale teoria ` e utile per

ottenere la stima dei parametri ignoti di una popolazione,media,varianza,scarto quadratico medio quando si conoscano i valori corrispondenti del campione. E utile anche per stabilire se le dierenze rilevate tra due campioni possano essere dovute al caso o se siano signicative: le risposte a questo ripo di quesito implicano luso dei test dipotesi. Anch` e i risultati della teoria dei campioni siano validi bisogna che i campioni scelti siano rappresentativi
4

dellintera popolazione. Il miglior modo per assicurarsi un campione non distorto consiste nel fornire a ogni membro della popolazione una eguale possibilit` a di essere incluso nel campione: questa ` e la denizione di campione casuale.

Distribuzioni di campionamento. Consideriamo tutti i possibili campioni casuali di ampiezza n che possono essere estratti da una popolazione. Per ciascun campione si pu` o calcolare una statistica come la media, la varianza o lo scarto quadratico medio,che potr` a variare da campione a campione. Quindi possiamo considerare la statistica in questione come variabile aleatoria e studiarne la distribuzione. In tal modo otteniamo una di-

stribuzione della statistica, detta distribuzione di campionamento della statistica stessa. Se ad esempio la statistica usata ` e la media, la distribuzione ` e
6

detta distribuzione della media campionaria. Le distribuzioni di campionamento si possono calcolare direttamente campionando da una popolazione nita. Se la popolazione ` e innita le distribuzioni si derivano matematicamente. Distribuzione della media campionaria. Si pu` o dimostrare che la distribuzione della media campionaria, qualsiasi sia la popolazione, ` e legata alla distribuzione normale. Pi` u precisamente si dimostra il Teorema del limite centrale. (Teorema 2 Par.6.3 pag.172) Sia data una popolazione con media e varianza 2, da essa si estraggano campioni casuali di
7

la media campionaria. ampiezza n; indichiamo con X La distribuzione della media campionaria ` e approssimativamente normale con media e varianza 2/n per n sucientemente grande.

Distribuzione della varianza campionaria. Supponiamo di avere una popolazione normale ed estraiamo tutti i possibili campioni casuali di ampiezza n determinando per ciascuno la varianza 1 2 s = n1
n

)2 (x i x
i=1

Anche in questo caso i valori della varianza possono essere visti come valori assunti da una variabile aleatoria che indichiamo con S 2 e che viene detta varianza campionaria.

Teorema.(Teorema n.4 Par.6.5.pag.178) Sia data una popolazione normale avente varianza 2 e da essa si estraggano campioni casuali di ampiezza n. Indichiamo con S 2 la varianza campionaria. La variabile (n 1)S 2 = 2
2

` e una variabile aleatoria avente la distribuzione 2 (chi quadro) di parametro = n 1. Il valore prende il nome di grado di libert` a. Non deniamo esattamente la funzione di distribuzione 2. Si dimostra comunque che la distribuzione 2 ha media = e varianza 2 = 2.
10

La distribuzione chi-quadro ` e denita solo per valori positivi di x e in generale ` e asimmetrica.Lasimmetria diminuisce per valori elevati di .

11

STIMA DEI PARAMETRI Il primo problema dellinferenza statistica ` e quello di determinare i parametri relativi a una popolazione,media, varianza, scarto quadratico medio, per mezzo dei corrispondenti parametri campionari o statistiche del campione. Il valore del parametro da stimare per la popolazione ` e incognito e possiamo solo chiederci se, dopo ripetuti campionamenti, la distribuzione della statistica ha certe propriet` a che possono garantirci che la statistica sia vicina al valore incognito del parametro. Ad esempio sappiamo che la distribuzione della media
12

campionaria ha la stessa media della popolazione da cui ` e stato ottenuto il campione. Possiamo perci` o aspettarci che, dopo pi` u campionamenti, la media campionaria sia vicina alla media della popolazione. I parametri che capita frequentemente di dover stimare sono la media, la varianza o la dierenza tra le medie di due popolazioni,la proporzione di individui che appartengano a una certa classe di interesse. Le stime che si usano sono rispettivamente la media campionaria, la varianza campionaria, la dierenza tra le medie campionarie di due campioni indipendenti, la proporzione campionaria.
13

Denizione 1. Se la media di una distribuzione campionaria di una statistica ` e uguale al corrispondente parametro della popolazione, la statistica ` e detta stimatore corretto o non distorto del parametro. I valori corrispondenti di tali statistiche sono dette stime corrette del parametro. Ad esempio, la media della distribuzione campionaria della media X e ` uguale alla media della popolazione. Quindi la me ` dia campionaria x e una stima corretta della media della popolazione. Si dimostra che anche la mediana campionaria ` e una
14

stima corretta per la media di una popolazione. La varianza campionaria ` e a sua volta una stima corretta della varianza di una popolazione. Denizione 2. Se due statistiche sono entrambe stimatori corretti di un parametro, lo stimatore pi` u eciente ` e quello per cui ` e minore la varianza della sua distribuzione campionaria. Si dimostra che tra tutte le statistiche che stimano la media di una popolazione, la media campionaria ` e la pi` u eciente.

15

TEST DIPOTESI Un problema importante per linferenza statistica ` e quello di decidere se unaermazione riguardante un parametro di una popolazione sia vera o falsa. Con opportune veriche si pu` o determinare se tali congetture siano compatibili con i dati disponibili dal campione. Denizione. Unipotesi formulata in termini di

parametri di una popolazione, come media e varianza, ` e detta ipotesi statistica. Il procedimento che consente di rifutare o accettare uniptesi statistica utilizzando i dati di un campione, viene chiamato test di ipotesi.
16

La verica delle ipotesi statistiche inizia con la denizione del problema in termini di ipotesi sul parametro di interesse. Per prima cosa si sta-

bilisce lipotesi da sottoporre a test, detta ipotesi nulla,indicata con H0 , ossia lipotesi che si ritiene vera no a prova contraria. Oltre allipotesi nulla occorre specicare anche unadeguata ipotesi alternativa, indicata con H1 , ossia unaermazione che contraddice lipotesi nulla. Dopo aver formulato le ipotesi, occorre specicare quale risultato del campione porter` a al riuto dellipotesi nulla. In generale, utilizzando le propriet` a
17

della distribuzione di campionamento della statistica soggetta a test, si pu` o identicare un intervallo di valori di quella statistica che verosimilmente non si presentano se lipotesi nulla ` e vera. La distribuzione di campionamento della statistica test ` e, di solito, una distribuzione nota, come la normale e ricorriamo a queste distribuzioni per sottoporre a verica unipotesi nulla. La distribuzione di campionamento della statistica test ` e divisa in due regioni, una regione di riuto (insieme dei valori che conducono al riuto dellipotesi nulla) e una di accettazione (insieme dei valori che portano allaccettazione dellipotesi
18

nulla), delimitate da uno o pi` u valori, detti valori critici.

19

Test chi-quadro di adattamento Ci occuperemo adesso di un metodo statistico utile per stabilire se un campione di dati osservati si adatta a una distribuzione teorica assegnata. I test statistici che servono a vericare se una certa distribuzione ` e compatibile con i dati campione sono detti test sulla bont` a delladattamento. Per eettuare il test supponiamo di avere un campione di n osservazioni di una variabile, raggruppate in una tabella contenente k classi (tabella di frequenza assoluta).

20

Supponiamo di avere per ciascuna classe, oltre alla frequenza osservata Oi, una frequenza attesa Ai con cui si vuole confrontare la frequenza osservata; le frequenze attese sono quelle che si osserverebbero se i dati del campione fossero distribuiti esattamente secondo la distribuzione ipotizzata. Per valutare quantitativamente la bont` a delladattamento delle frequenze osservate alle frequenze attese si utilizza la statistica test
k

=
i=1

( O i Ai ) 2 Ai

che viene detta il chi-quadro calcolato dal campione.


21

Si dimostra che, per n sucientemente grande, questa statistica ha approssimativamente la distribuzione 2, con grado di libert` a = k 1 m, dove m ` e il numero dei parametri della distribuzione teorica stimati servendosi dei dati del campione. Se lipotesi nulla H0 ` e che i dati si dattino alla distribuzione teorica ipotizzata, la regola di decisione sar` a: si riuti lipotesi nulla se il valore della statistica 2 calcolato dai dati ` e maggiore del valore critico 2 2 : 2 > 2 dove ` e il livello di signicativit` a stabilito e il grado
22

di libert` a della distribuzione 2 ` e = k 1 m. Questa procedura, detta test chi-quadro di adattamento, ` e valida purch` e le frequenze assolute attese siano tutte maggiori o uguali a 5. Se, dopo aver calcolato le frequenze attese, si osserva che qualcuna di queste ` e minore di 5, bisogna accorpare due o pi` u classi contigue.

23