STATISTICA

STATISTICA
Fasi di un’indagine statistica
- Parte DESCRITTIVA
1. Rilevazione e raccolta dati
2. Rappresentazione e interpretazione
- Teoria PROBABILITÁ
3. Generalizzazione dei risultati -> INFERENZA
Dato statistico: numero in un contesto
Collettivo statistico: insieme dei casi individuali in cui si manifesta il fenomeno di interesse
Unità statistica: caso individuale
Carattere: aspetto elementare oggetto di indagine
I caratteri possono assumere varie MODALITÀ a seconda del carattere stesso
Caratteri:
QUALITATIVI
- Sconnessi -> M/F

- Ordinabili -> titolo di studio
QUANTITATIVI
- Discreti -> discreti -> voti di maturità

- Continui -> altezza
1°: rilevazione dei dati
- CENSIMENTO -> totale

- CAMPIONAMENTO -> parziale
Lettura dei dati:
in generale: N= dimensione del campione
si osserva il carattere X
definiamo: DISTRIBUZIONE SEMPLICE

DISAGGREGATA x1,x2,…,xn
notazione: X indica il carattere x1,x2,…,xn

indica le modalità di X per ogni individuo
se osserviamo X e Y in contemporanea
- X1,x2,…,xn -> doppia disaggregata

- Y1,y2,..,yn -> //
20 soggetti
X= genere
- M
- F
Supponiamo di avere
M= 8 unitá
F= 12 unità
N= 20
K= n1 modalità= 2
Definizione: DISTRIBUZIONE DI FREQUENZA
È lo schema con cui si associa a ciascuna modalità del carattere X la sua rispettiva
Possiamo rappresentare la distribuzione la distribuzione di frequenza per una distribuzione doppia usando
una tabella a doppia entrata
Carattere X: genere
Carattere Y: provincia di provenienza (VR, VI, BL)

RAGGRUPPAMENTO IN CLASSI:
carattere quantitativo, numero di modalità elevato -> conviene aggregare le modalità in intervalli
es: voto di maturità
Es:
Frequenze cumulate: carattere a modalità
Ordinabile (k= n1 modalità)
Si chiamano frequenze ASSOLUTE CUMULATE la quantità:
*frequenze RELATIVE CUMULATE

FUNZIONE DI RIPARTIZIONE (caratteri quantitativi)
Funzione di ripartizione F(x) associa ad ogni x appartenente ad R la PROPORIZIONE (frequenza relativa) di

unità statistiche con valore del carattere =< X
DIAGRAMMI AD ASTE (caratteri quantitativi)
Rappresentiamo alternativa della funzione di ripartizione
- X1, x2,…, xk
- N1,n2,…,nk
- F1,f2,…,fk
Il diagramma ad aste è la funzione
Funzione di ripartizione per una distribuzione in classi
supponiamo che i valori siano uniformemente

distribuiti all’interno di ogni classe
 Posso interpolare i vari pezzi con una

retta
FORMULA RETTA PASSANTE PER DUE PUNTI:
- Chiamiamo
- Ricaviamo l’equazione per F(x)
ISTOGRAMMA DI FREQUENZA
assumiamo valori uniformemente
distribuiti dentro le classi e
interpoliamo con una retta.
MEDIA (indice di posizione)

- Notazione:
MEDIA ARITMETICA
- Distribuzione disaggregata x1, …, xn
si chiama SCARTO la quantità X −μ

i
- Distribuzione di frequenza
- Come possiamo calcolare la media aritmetica in una distribuzione definita per classi?
definisco X i = punto medio di ogni classe. Se i

valori sono uniformemente distribuiti dento le
classi posso utilizzare Xi
MEDIA GEOMETRICA
- Investimento
Diamo una definizione di media geometrica.
Definizione:
- DISTRIBUZIONE DISAGGREGATA (X1,X2, …, Xn)
o
- DISTRIBUZIONE DIFREQUENZA
Es: un giocatore gioca 2 euro, tre giocato, vincita complessiva pari a 432 euro
- 1° -> 3 volte la somma iniziale

- 2° -> 8 volte la somma precedente
- 3° -> 9 volte la somma precedente
o Quanto vince in media per giocata?
MEDIA AROMINCA
Definita per caratteri tutti positivi o tutti negativi (diversi da 0)
- DISTRIBUZIONE DISAGGREGATA (X1,X2,…,Xn)
o
- DISTRIBUZIONI DI FREQUENZE
Perché la media armonica è più appropriata?
- Perché la velocità media è dara da S/t (spazio su tempo)

- Quindi
o Tempo di percorrenza= t1+t2+t3+t4
PROPRIETÀ DELLE MEDIE ARITMETICHE
- Distribuzione degenere X1=X2=…=Xc
o
- Distribuzione disaggregata
o Costruisco una modifica (Y1,…,Yn ; Yi=Cxi)
 MEDIA DI UNA TRASFORMAZIONE LINEARE

-
 Definizione: SCARTO DELLA MEDIA ( μ x : X i −μx ¿

o DISTRIBUZIONE DISAGGREGATA (X1,…,Xn)

Esempio: 6000 abitanti di un comune, distribuiti in 3 quartieri. La densità abitativa (abitanti/km2):
TOTALE= 6.000
a. calcolare la superficie totale del comune
b. calcolare la densità abitativa media
a. 1/20 x 1.600 + 1/30 x 2.100 + 1/46 x 2.300 = 200 km2
b. densità= 6.000 abitanti/200km2 = 30
perché la densità media è la media armonica delle 3 densità di quartiere
densità= 6.000/(1.600/20 + 2.100/30 + 2.300/46)
MEDIANA: altro indice di posizione.
Caratteri quantitativi ordinati in ordine crescente. La mediana è quel valore che lascia a dx e sx lo stesso
numero di osservazioni.
- DISTRIBUZIONE DISAGGREGATA (in ordine crescente)

o Se N è pari:

o Se N è dispari:

- DISTRIBUZIONE DI FREQUENZE
X1,X2,…,Xk
N1,n2,…,nk
o Determiniamo le frequenze cumulate:
 F1,F2,…,Fk
 Individuiamo F h−1 , Fh , t . c

o Assegniamo alla mediana il valore

Esempio1:
esempio2:
DISTRIBUZIONE DEFINITE PER CLASSI
- Individuare la classe mediana. Utilizziamo lo stesso criterio visto per le distribuzioni di frequenza.
- Assumiamo uniforme distribuzione alle osservazioni all’interno delle classi e determiniamo m
mediante la formula di interpolazione
Voglio m tale che F(m)=1/2
Ricordiamo che F(x)= F2+(f3/d3)(x-C2)
Invertiamo:
Esempio: calcolo la mediana per
QUANTILI:
si definisce il quantile di ordina alfa il valore che lascia a sinistra un numero di osservazioni pari a alfa x
100%
 percentili
 Quartili
- PER DISTRIBUZIONI DI FREQUENZE

o Determiniamo le frequenze cumulate
- PER DISTRIBUZIONI IN CLASSI

MODA
Unico indice di posizione definito anche per caratteri qualitativi (modalità con frequenza massima)
 Per le distribuzione definite per classi definiamo la CLASSE MODALE come la classe con DENSITÁ di
frequenza maggiore.
Esercizio1
1. Istogramma di frequenza e classe modale
classe modale: (0 a 0.5)
2. Si determini e si disegni la funzione di ripartizione
3. Calcolo la mediana e il 3° quartile:

INIDICI DI VARIABILITÁ
1. Scostamenti (scarti) semplici medi -> S μ
2. Scostamenti (scarti) quadratici medi -> δ
3. Varianza -> δ 2
SCOSTAMENTO SEMPLICE MEDIO
(mu= media aritmetica)
- PER DISTRIBUZIONI DI FREQUENZA
SCOSTAMENTI QUADRATICI MEDI
- PER DISTRIBUZIONI DI FREQUENZA
VARIANZA
- DISTRUBUZIONE DISAGGREGATA:
- DISTRIBUZIONE DI FREQUENZA:
definizione: la varianza è una quantità quadratica, non ha la stessa unitá di misura dei dati
formula operativa per il calcolo della varianza:

-
Mostriamo l’equivalenza:
Per le distribuzioni di frequenza:

Esercizio sulla varianza di una trasformazione lineare
- Sappiamo giá μ y =a+b μ x

- Calcoliamo la varianza di y:
Tutte le definizioni e le proprietà visto fin’ora valgono anche per distribuzioni in classi con Xi al posto di Xi
Una trasformazione lineare particolarmente importante è la STANDARDIZZAZIONE.
Una variabile è STANDARDIZZATA quando ha media= 0 e varianza= 1
- Consideriamo la trasformazione lineare
Altri inidci di variabilitá sono:
- CAMPO DI VARIAZIONE (RANGE)

o Osservazioni ordinate in ordine crescente
- DIFFERENZA INTERQUARTILE
INIDICE DI SIMMETRIA
Due distribuzioni che hanno la stessa media e stessa varianza, ma inidci di simmetria diversi
 Indice di asimmetria di Fisher:
- α 1=0 -> distribuzione SIMMETRICA

- α 1> 0 -> distribuzione ASIMMETRICA POSITIVA
- α 1< 0 -> distribuzione ASIMMETRICA NEGATIVA
 Definizione basata sui quartili:
- Q3= 3° quartile
- Q1= 3° quartile
- M=q2= mediana
INDICI DI FORMA
 Curtosi (Indice di appiattimento)
Misuriamo l’indice di appiattimento:

DIPENDENZA E INDIPENDENZA
Consideriamo i caratteri X,Y
- X possiede s modalità X1,X2,…,Xs

- Y possiede t modalità Y1,Y2,…,Yt
Costruiamo una tabella a doppia entrata (TABELLA DI CONTINGENZA)
le corrispettive frequenze marginali relative

sono:
esempio:
X=genere (maschio o femmina; s=2)
Y= titolo di studio (A= analfabeta, EM= elementari/medie, SU= superiori o universitá; t=3)
due caratteri X e Y sono indipendenti (X Ʇ Y) se:
-
la definizione qui sopra è equivalente a:
Distribuzioni condizionate pe riga sono tutte uguali tra di loro e sono uguali alla marginale relativa di Y.
-
o Le distribuzioni relative per colonna sono uguali tra di loro e sono uguali alla marginale
relativa di X
DIPENDENZA PERFETTA
Da questa tabella vediamo che la guarigione

dipende completamente dal trattamento ->
DIPENDENZA PERFETTA
Definizione di dipendenza PERFETTA:

 Abbiamo dipendenza perfetta di Y da X se ad ogni modalità di X corrisponde una sola modalità di Y
e in ogni riga le frequenze sono tutte nulle tranne una
Es:
In tutti i casi intermedi tra dipendenza perfetta e indipendenza, vogliamo stabilire e quantificare la
dipendenza.
Definiamo: INDICE CHI QUADRATO
Peró il chi quadrato non ci permette di quantificare la dipendenza. Vorremma indice C tale che
- C=0= Indipendenza
- C=1= dipendenza perfetta
 0≤C≤1
Definiamo: INDICE DI CRAMER
esempio:
- X= sesso capofamiglia
- Y= fascia di reddito
COVARIANZA
Definiamo la covarianza come
La covarianza misura un legame lineare tra X e Y
Definizione di covarianza:
Formula operativa
Mettiamo l’equivalenza
La covarianza è un indice NON normalizzato. Vogliamo ottenere un indice che varia tra -1 e 1
 Definiziamo l’indice di CORRELAZIONE LINEARE di Bravais= r
R varia tra -1 e 1
I valori estremi si raggiungono se i punti (Xi, Yi) stanno

su una retta Yi= bo+b’xi e mostriamo che in questo
caso r= ±1
graficamente:
R=0 -> non c’è un legame tra X e Y, ma potrebbero esserci altri legami
Nota bene: non stiamo parlando di causalitá
δ xy > 0 non significa che (y implica x e viceversa)
COVARIANZA PER DISTRIBUZIONI IN TABELLA SEMPLICE
COVARIANZA PER DISTRIBUZIONI IN TABELLA A DOPPIA ENTRATA
Es:
In questo caso la covarianza è:
Esempio:
dalle distribuzioni marginali calcolo:

LA REGRESSIONE LINEARE – METODO DEI MINIMI QUADRATI.
- IN MATEMATICA -> Y=f(x) ossia una relazione DETERMINISTICA

- IN STATISTICA -> Y=f(x)+Ɛ ossia una relazione STATISTICA
 X= variabile indipendente
 Y= variabile dipendente
 Ɛ= componente residuale (errore) e contiene tutto ciò che contribuisce a ‘’spiegare’’ y che non sia x
Quello che noi vogliamo fare è postulare una relazione del tipo y= f(x)+Ɛ e utilizzare per selezionare la f(x)
migliore
(generalmente il contesto suggerisce quale sia la variabile dipendente
osserviamo i punti e troviamo una funzione f(x) che

interpoli i dati in maniera ragionevole -> cerchiamo di
rendere più piccole possibili le componenti residuali.
Assumiamo di conoscere la forma funzionale di f() a

meno di un certo numero di parametri. Per esempio:
assumiamo
conosco la funzione f() ma non conosco bo,b1, b2. Il lavoro si è semplificato a scegliere i parametri che
minimizzano le componenti RESIDUALI.
Procedura generale
1. postulare y=f ( x ,b o ,b 1 , … , b s ) +ε
2. costruisco la somma dei quadrati degli scarti:
3. il valore ottimo di bo,b1,…,bs si ottiene minimizzando Sq rispetto a b0,…,bs
Abbiamo una distribuzione disaggregata del tipo:
- X1,…,xn
- Y1,…,yn
Postuliamo f ( x )=b0 +b1 x
Ovvero: y i=b 0 +b1 xi
Dobbiamo trovare i coefficienti bo e b1 ottimali.
Definiamo:
Troviamo b0 e b1 che minimizzi Sq
Deriviamo i coefficienti bo e b1 minimizzando:
Posso moltiplicare entrambi i membri di entrambe le equazioni per -1/2:
Risolvo la prima equazione per bo e ottengo:

Per verificare che abbiamo trovato un minimo e non un massimo dobbiamo verificare che la derivata
seconda sia positiva => possiamo verificare che è soddisfatta => bo, b1 minimizzano Sq
Esempio:
y= produzione di legname in m3
x= area boschiva (in ettari)
a. interpoliamo con una retta y rispetto a X => vogliamo ottenere Ỹ =b0 +b1 x
sappiamo:
Abbiamo bisogno:
Otteniamo:
b. prevedere il volume di legname prodotto in corrispondenza ad un’area boschiva di 1500 metri.

c. calcolo il coefficiente di correlazione lineare tra X e Y
Dobbiamo calcolare:
(ottenuto dalla tabella iniziale)
Sostituiamo in r i valori sopra trovati e otteniamo cosi r=0.817
INDICE DI DTERMINAZIONE
Valutiamo la bontá dell’interpolazione mediante la retta dei minimi quadrati: quanto delle y i abbiamo
spiegato mediante x i?
 BUONA INTERPOLAZIONE
 CATTIVA INTERPOLAZIONE
Consideriamo per ogni i= 1,…,N:
y i−μ y =¿
(ricordate ^y i=b0 +b1 x i)
Chiamiamo:
^y i−μ y=> componente SPIEGATA (dalle Xi)
y i− ^y i => scarto residuo
y i−μ y=> scarto TOTALE
Non usiamo direttamente gli scarti per costruire il nostro inidice, ma usiamo le DEVIANZE:
DEVIANZA TOTALE: Dy=∑ ( y i−μ y ) =( N σ y )

2 2
i=1
N
DEVIANZA SPIEGATA: D s L =∑ ( ^yi −μ y )
2
i=1
N
DEVIANZA RESIDUA: D RL=∑ ( y i−^y i )
2
i=1
Possiamo mostrare:
D y =D s L + D R L
Definiamo l’indice di DETERMINAZIONE
2 D sL
R=
Dy
1° caso limite:
R2=0 => D s L =0 => non ho spiegato niente delle y mediante X

N
R =0≤¿ D s L =0≤¿ ∑ ( ^y i−μ y )2=0≤¿ ^y i=μ y
2
1=1

STATISTICA

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

STATISTICA

Caricato da

Copyright:

Formati disponibili

STATISTICA

Fasi di un’indagine statistica

Dato statistico: numero in un contesto

Unità statistica: caso individuale

Carattere: aspetto elementare oggetto di indagine

I caratteri possono assumere varie MODALITÀ a seconda del carattere stesso

- Sconnessi -> M/F

- Discreti -> discreti -> voti di maturità

1°: rilevazione dei dati

- CENSIMENTO -> totale

Lettura dei dati:

in generale: N= dimensione del campione

definiamo: DISTRIBUZIONE SEMPLICE

notazione: X indica il carattere x1,x2,…,xn

- X1,x2,…,xn -> doppia disaggregata

Definizione: DISTRIBUZIONE DI FREQUENZA

Carattere Y: provincia di provenienza (VR, VI, BL)

es: voto di maturità

Frequenze cumulate: carattere a modalità

Ordinabile (k= n1 modalità)

Si chiamano frequenze ASSOLUTE CUMULATE la quantità:

*frequenze RELATIVE CUMULATE

Funzione di ripartizione F(x) associa ad ogni x appartenente ad R la PROPORIZIONE (frequenza relativa) di

Rappresentiamo alternativa della funzione di ripartizione

Il diagramma ad aste è la funzione

Funzione di ripartizione per una distribuzione in classi

supponiamo che i valori siano uniformemente

 Posso interpolare i vari pezzi con una

- Ricaviamo l’equazione per F(x)

MEDIA (indice di posizione)

si chiama SCARTO la quantità X −μ

definisco X i = punto medio di ogni classe. Se i

Diamo una definizione di media geometrica.

- DISTRIBUZIONE DISAGGREGATA (X1,X2, …, Xn)

- 1° -> 3 volte la somma iniziale

- DISTRIBUZIONE DISAGGREGATA (X1,X2,…,Xn)

Perché la media armonica è più appropriata?

- Perché la velocità media è dara da S/t (spazio su tempo)

- Distribuzione degenere X1=X2=…=Xc

 MEDIA DI UNA TRASFORMAZIONE LINEARE

 Definizione: SCARTO DELLA MEDIA ( μ x : X i −μx ¿

a. calcolare la superficie totale del comune

b. calcolare la densità abitativa media

a. 1/20 x 1.600 + 1/30 x 2.100 + 1/46 x 2.300 = 200 km2

b. densità= 6.000 abitanti/200km2 = 30

perché la densità media è la media armonica delle 3 densità di quartiere

densità= 6.000/(1.600/20 + 2.100/30 + 2.300/46)

MEDIANA: altro indice di posizione.

- DISTRIBUZIONE DISAGGREGATA (in ordine crescente)

DISTRIBUZIONE DEFINITE PER CLASSI

Voglio m tale che F(m)=1/2

Ricordiamo che F(x)= F2+(f3/d3)(x-C2)

- PER DISTRIBUZIONI DI FREQUENZE

- PER DISTRIBUZIONI IN CLASSI

1. Istogramma di frequenza e classe modale

classe modale: (0 a 0.5)

2. Si determini e si disegni la funzione di ripartizione

3. Calcolo la mediana e il 3° quartile:

SCOSTAMENTO SEMPLICE MEDIO

(mu= media aritmetica)

- PER DISTRIBUZIONI DI FREQUENZA

SCOSTAMENTI QUADRATICI MEDI

- PER DISTRIBUZIONI DI FREQUENZA

formula operativa per il calcolo della varianza: