Sei sulla pagina 1di 27

Nozioni di Statistica

Lorenzo Peretto

La statistica un metodo di indagine che permette di


stimare, o inferire come si dice nel suo linguaggio, le
caratteristiche di una intera popolazione
dallosservazione di quelle di un numero limitato di
individui, naturalmente ad essa appartenenti, presi
come campione.
La Teoria delle Probabilit lo strumento matematico
utilizzato a questo fine; essa permette di prevedere
quali saranno le caratteristiche di un campione estratto
a caso da una popolazione nota.

La statistica permette di inferire, cio stimare o


misurare, le caratteristiche ignote di una
popolazione da quelle osservate in un campione.
La qualit della misura, cio la sua attendibilit,
dipende sostanzialmente dalle modalit di prelievo
del campione.

Popolazioni e campioni
Affinch un campione estratto da una popolazione sia
significativo necessario che esso possieda, per
quanto possibile, le stesse caratteristiche della
popolazione.
Per ottenere un campione significativo occorre fare in
modo che ogni elemento della popolazione abbia la
stessa probabilit degli altri di essere estratto.

Se questa condizione soddisfatta il campione


detto casuale ed ogni suo elemento una variabile
aleatoria con la stessa distribuzione della
popolazione.
Nelle nostre applicazioni, ed in particolare nelle
misure elettriche, la condizione di casualit del
campione in genere realizzata senza che sia
necessario adottare particolari accorgimenti, ma non
sempre.

Si pensi ad esempio al fenomeno detto aliasing che si


verifica quando non viene rispettato il teorema del
campionamento.
Risulta invece necessario controllare che le condizioni in
cui vengono ripetute le misure rimangano
sufficientemente costanti da poter considerare invariato il
misurando, e quindi la popolazione dei risultati delle
misure.
Occorre inoltre verificare che lo strumento di misura non
produca alterazioni del misurando o almeno che di esse
si tenga conto.

Stimatori
Da un campione significativo possibile ricavare, sia
pure con una certa approssimazione, tutte le
informazioni relative ad una popolazione.
Spesso per ci basta conoscere soltanto il valore di
alcuni parametri che caratterizzano la stessa quali ad
esempio la media e la dispersione intorno alla
media indicata dalla deviazione standard

Si chiama stimatore di un parametro della


popolazione la funzione dei valori campionari
utilizzata per misurare quel parametro.
Mentre i parametri della popolazione, che si indicano
con lettere greche, sono delle costanti, i rispettivi
stimatori, indicati con lettere latine, sono variabili
aleatorie essendo ricavati dal campione che, per come
stato estratto, un vettore di variabili aleatorie.

Principali propriet degli stimatori


Uno stimatore si dice:
1. Corretto (unbiased) quando il suo valore medio
coincide con il parametro da stimare; altrimenti si
dice distorto (biased).
2. Asintoticamente corretto se il suo valore medio
tende al valore del parametro al tendere allinfinito
della numerosit del campione.
3. Consistente quando corretto e la sua varianza tende
a zero al crescere della numerosit n del campione;

4. Pi efficiente di un altro quando approssima


meglio il parametro a parit di n;
5. Efficiente quando pi efficiente di tutti.

Grafico RAMI FOGLIE


Esempio: produzione di semiconduttori

Grafico RAMI - FOGLIE

Rami

Foglie

Frequenza

Definizioni:
Moda: determinazione a cui corrisponde la massima probabilit
puntiforme (caso discreto) o la massima densit di probabilit
(caso continuo)
Mediana: determinazione Me che soddisfa la seguente equazione:

Frattile (o quantile) di ordine p: determinazione xp per cui

La stima del valore medio


Lo stimatore pi usato per il valore medio della
popolazione la media aritmetica m degli n valori
campionari:

Esso risulta uno stimatore consistente ed efficiente.

Ad esso, come si visto, si pu attribuire la varianza:

essendo 2 la varianza della popolazione.


Quando si devono mediare variabili con diversa
dispersione pu convenire effettuare una media pesata
in modo da attribuire maggior peso ai valori meno
dispersi.

Ad esempio conviene ricorrere ad una media pesata


quando si deve stimare il valore medio da altri valori
medi ottenuti da campioni di diversa numerosit.
Detti xi e i2 i valori da mediare e le rispettive
varianze, la media pesata vale:

essendo

la condizione che rende corretto

lo stimatore m, mentre i pesi ai possono ad esempio


essere presi di valore proporzionale allinverso della
varianza i2.

La stima della varianza


Se si conosce soltanto il valore stimato m della media
della popolazione, uno stimatore corretto s2 della
varianza 2 della popolazione stessa dato
dallespressione:

Per cui lo stimatore sm2 della varianza della media


campionaria risulta:

In presenza di errori aleatori, poich la deviazione


standard del valore medio sm, cio la sua dispersione,
decresce con la radice quadrata del numero dei valori,
evidente lutilit di mediare pi risultati di una misura
per ridurre la sua incertezza.

Intervalli di fiducia (confidenza) per la


media campionaria
Il risultato della misura di una grandezza costituito
dalla coppia di numeri che indicano il valore stimato e
lincertezza, o errore, ad esso associata.
Quando il valore stimato una variabile aleatoria,
lerrore da attribuirgli quellintervallo, detto intervallo
di confidenza, entro cui il valore del misurando pu
trovarsi con un assegnato valore di probabilit.

Per calcolare il valore dellintervallo di confidenza


occorre conoscere la forma ed i parametri della
distribuzione della variabile aleatoria.
Se per essa la media campionaria di molti valori, il
Teorema centrale del Limite garantisce che la sua
distribuzione almeno approssimativamente normale
quando il numero dei valori mediati sufficientemente
grande.

Si pu scrivere:
= m k sm
essendo k detto fattore di copertura ed un coefficiente
ricavabile dalle tabelle di probabilit della normale
standard per ogni prefissato valore di probabilit che si
intende associare allintervallo di confidenza.
Ad esempio per k = 1, 2, 3 la probabilit che compete
allintervallo m - k sm m + k sm vale rispettivamente
0.68; 0.95; 0.9973.

Nellambito delle misure si sceglie di solito k = 3 per cui


quasi certo che la grandezza incognita cada entro
lintervallo essendo inferiore al 3 per mille la probabilit
di caderne fuori.

Sempre nellambito delle misure quando il numero dei


valori mediati superiore ad alcune decine, la
distribuzione della media campionaria pu essere
considerata normale.

Criterio di trascurabilit degli errori


Spesso ci si chiede se un errore da associare ad una
misura si possa considerare trascurabile o meno.
Si adotta il seguente criterio di trascurabilit degli errori:
Uno o pi errori possono essere trascurati quando la
loro somma almeno un ordine di grandezza inferiore
a quella degli altri errori.

Criterio di esclusione di dati anomali


Quando in una serie di misure (numerosa), ripetute nelle
stesse condizioni, compare un valore che presenta uno
scostamento dalla media tanto superiore agli altri da far
supporre una causa eccezionale, esterna allo strumento
ed al misurando, si pu pensare di escludere il dato che
appare anomalo.

Quando pi dati appaiono sospetti (e la distribuzione


normale) conviene adottare il criterio di Chauvenet:
detta P la probabilit di uno scarto superiore, in
modulo, ad un certo valore S ed n il numero delle
misure, il numero atteso degli scarti superiori ad S
risulta pari ad nP.
Se nP 1/2 tutti i dati che presentano uno scarto non
inferiore ad S possono essere esclusi.
S si ricava dalle tabelle della normale standard fissata
P=1/(2n).