Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
È pressoché impossibile dare una definizione di “statistica”. Le idee più comuni fanno pensare che la statistica faccia
riferimento a indici, tabelle, grafici prodotti dall’ISTAT, calcolo della probabilità, ecc.
Forse la definizione più azzeccata è questa: la statistica è una scienza che, attraverso degli strumenti, estrae
informazioni da una serie di dati.
Si può fare una distinzione tra statistica tradizionale (più o meno dal 1500 fino agli anni ‘60/’70) e moderna (dagli
anni ’60 ad oggi, non si studia in questo corso). A sua volta la statistica tradizionale si divide in:
• Statistica descrittiva: si occupa di descrivere la realtà dei fenomeni collettivi (es. fenomeni demografici,
andamento della temperatura in una città, soddisfazione dei clienti, …). Inoltre definisce indicatori di sintesi
(come la media e la moda) e metodi complessi di analisi;
• Statistica inferenziale (non si fa nel nostro corso): fornisce i metodi con cui riferire all’intera popolazione le
sintesi quantitative dei dati osservati su un campione di osservazioni. Ha un ruolo centrale nel calcolo delle
probabilità.
In entrambi i casi comunque i dati sono gli ingredienti, i metodi matematici sono gli strumenti e l’informatica è
sempre più importante.
La statistica può anche essere definita come la disciplina che si occupa di predisporre adeguati metodi quantitativi per:
- Raccogliere e organizzare,
- Elaborare e sintetizzare,
- Analizzare e interpretare
dati e informazioni utili per esaminare i fenomeni reali.
➢ Campione: sottoinsieme della popolazione composto dalle unità statistiche (spesso si fanno analisi statistiche
su campioni);
➢ Caratteri: una o più caratteristiche del fenomeno di interesse rilevati sulle singole unità statistiche della
popolazione;
➢ Modalità: i diversi modi con cui il carattere si presenta nelle unità statistiche della popolazione.
(es. il carattere è il colore dei capelli, le modalità sono castano, rosso, nero, biondo, …);
La rilevazione di uno o più caratteri consente di classificare (raggruppare) le unità statistiche che formano la
popolazione o il campione.
L’operazione di classificazione delle unità permette di ottenere tabelle e grafici per esempio per le distribuzioni di
frequenze, per la distribuzione doppia di frequenze, per le distribuzioni di quantità (la tabella consiste in un elenco di
unità statistiche accanto alle quali viene riportata una certa quantità), per le serie storiche (si tratta di una grandezza che
viene rilevata in istanti temporanei successivi).
Fonti di dati
Sono disponibili diverse fonti informative di carattere statistico a cura di Organismi pubblici e privati.
Gli Organismi pubblici agiscono secondo una gerarchia di competenze, ad esempio:
CARATTERI
Abbiamo già dato la definizione di caratteri. Esistono due tipi di caratteri:
➢ Qualitativi: le cui modalità sono categorie, attributi (es. sesso, stato civile, ragione sociale, …);
- Discreti, se i numeri sono interi (es. numero di figli, numero di occupati, …);
- Continui, se i numeri sono reali (es. statura, peso, capitale sociale, …).
I caratteri a loro volta possono avere delle scale di misura. La scala di misura si costruisce quando si fissano le
modalità di un carattere ed i criteri di appartenenza alle stesse. La scala non è parte del carattere, ma scaturisce dalla sua
definizione operativa.
Per i caratteri qualitativi si usano scale:
• Nominali: in cui le modalità sono sconnesse (non ordinabili). Confrontando due modalità si può solo dire se
sono uguali/diverse;
• Ordinali: in cui le modalità sono in sequenza logica (ordinabili). Confrontando due modalità si può dire se una
precede/è nello stesso posto/segue l’altra (es. grado di istruzione).
Gli strumenti statistici predisposti per caratteri rilevati su una data scala possono essere applicati ai caratteri applicati su
scale superiori, ma non vale il viceversa.
RAPPORTI STATISTICI
Quando i dati statistici non ammettono un confronto diretto è necessario fare ricorso ad opportune elaborazioni degli
stessi. Qui possono trovare impiego i rapporti statistici.
I rapporti statistici sono il rapporto tra due dati, di cui almeno uno di natura statistica. Il loro compito è quello di
indicare quanta parte del numeratore spetta idealmente ad un’unità del denominatore.
Ci sono diverse tipologie di rapporti statistici:
➢ Rapporti di composizione: sono rapporti di una parte al tutto in cui si confronta l’intensità o la frequenza di
una parte alla intensità o la frequenza dell’intera popolazione (NB: le frequenze relative sono rapporti di
composizione);
➢ Rapporti di densità: sono rapporti tra l’intensità di un fenomeno e la dimensione del campo di osservazione
del fenomeno stesso;
➢ Rapporti di coesistenza: sono rapporti tra fenomeni che coesistono e sono in qualche modo antitetici, per
esempio:
- nati – morti;
- importazioni – esportazioni;
- immigrazione – emigrazione.
➢ Rapporti di durata: sono rapporti da utilizzare quando si tratta di una massa di oggetti che subisce un continuo
ricambio. Indicano quanto tempo mediamente un oggetto rimane nella massa.
Per calcolare il rapporto di durata bisogna introdurre il termine consistenza, che è la quantità presente in un
determinato istante:
con s . ini ziale + con s . f in ale
- Consistenza media =
2
ent r ate + u scite
- Flusso medio =
2
c o n s i s t e n z a m ed i a
- Rapporto di durata =
f l u sso m ed i o
➢ Rapporti di ripetizione: sono rapporti che indicano il numero di volte che un certo fenomeno si ripete
nell’intervallo di tempo considerato. Sono dati dal reciproco del rapporto di durata:
1 f l u sso m ed i o
r a pp or t o d i r i p e t i z i o n e = =
r a pp or t o d i d u r a t a c o n s i s t e n z a m ed i a
Numeri indici
Oltre alle 6 tipologie di rapporti statistici già citate, c’è un’altra tipologia, i numeri indici, che a loro volta si dividono
in:
• Numeri indici semplici: servono a confrontare le intensità (o frequenze) di un unico fenomeno in tempi e
luoghi diversi;
• Numeri indici composti: servono a confrontare in tempi e luoghi diversi un fenomeno che risulta dal
concorso di più componenti.
➢ Numeri indici a base fissa (NIbf): si ottengono facendo il rapporto di ogni singola osservazione Xt con un
termine della serie storica Xb che viene mantenuto fisso (base fissa):
Xt
b It = ( × 100), t = 0,1, 2,…
Xb
Essendo numeri puri consentono il confronto tra fenomeni con diverso ordine di grandezza.
L’interpretazione dei NIbf si effettua calcolando le variazioni tendenziali (bVt):
- Nel caso dei numeri indici in forma unitaria ho: bVt = ( b It − 1) × 100;
- Nel caso dei numeri indici in forma percentuale ho: bVt = ( b It − 100).
N.B: NIbm del primo termine della serie non è calcolabile (perché non esiste un termine che lo precede nella
serie).
Anche in questo caso, essendo numeri puri consentono di confrontare fenomeni con diversi ordini di
grandezza.
L’interpretazione dei NIbm si effettua calcolando le variazioni congiunturali (t−1Vt ):
- Nel caso dei numeri indici in forma unitaria ho: t−1Vt = ( t−1It − 1) × 100;
- Nel caso dei numeri indici in forma percentuale ho: t−1Vt = ( t−1It − 100).
Osservazioni:
- I numeri indici (bf e bm) sono sempre positivi, anche quando segnalano una diminuzione;
- Le variazioni (tendenziali e congiunturali) hanno, invece, un segno positivo o negativo (se diverse
da zero).
vb It Xt /X vb Xt
= = = I
vb Inb Xnb /Xvb Xnb nb t
• Passaggio da base fissa a base mobile: per esprimere i NIbf in NIbm utilizziamo i rapporti:
b It Xt /Xb X
= = t = t−1It
b It−1 Xt−1 /Xb Xt−1
• Passaggio da base mobile a base fissa: per esprimere i NIbm in NIbf utilizziamo la seguente relazione
moltiplicativa (che permette di ottenere NIbf con base t = 0):
X1 X2 X X X
0 I1 × 1I2 × … × t−2 It−1 × t−1It = × × … × t−1 × t = t = 0 It
X 0 X1 Xt−2 Xt−1 X0
Se interessa una base b diversa da 0, si effettua il cambiamento di base usando la relazione mostrata.
DISTRIBUZIONI DI FREQUENZE
La distribuzione di frequenze di un carattere è una tabella che mostra in modo efficace e sintetico i risultati delle
operazioni di classificazione e conteggio delle unità della popolazione.
A seconda del tipo di carattere, se ne possono effettuare diverse elaborazioni e rappresentazioni.
Seguendo la gerarchia delle scale, per i caratteri qualitativi in scala nominale si possono calcolare due tipi di
frequenze:
- Frequenza assoluta (ni), ovvero il numero di volte che la modalità si presenta nella popolazione;
- Frequenza relativa (fi), o percentuale ( fi%), che servono per mettere in evidenza il “peso” della
singola modalità sul totale. La si trova facendo:
ni
fi = ( × 100)
N
Le frequenze relative sono dei rapporti di composizione. Permettono di valutare l’importanza di ogni
modalità e permettono anche di effettuare confronti tra popolazioni di diversa numerosità.
p
∑
Osservazione: ni = N.
i=1
I grafici che comunemente vengono utilizzati per rappresentare questi tipi di frequenze sono: grafico a torta e
pictogramma.
Per i caratteri qualitativi in scala ordinale, oltre alle frequenze assolute e relative, si possono calcolare anche altri due
tipi di frequenze:
- Frequenza cumulata, consiste nella somma della frequenza (assoluta o relativa che sia) di una
modalità e di quelle delle modalità che la precedono.
Per le frequenze assolute si indica con Ni, per le frequenze relative con Fi, per le frequenze
percentuali con Fi%.
Lic. Media 36 36
+
Diploma 72 108
+
Laurea 42 150
Totale 150
Se vado a prendere la modalità “Diploma”, grazie alle frequenze cumulate noto che 108 persone possiedono al
massimo il diploma.
Quindi con le frequenze cumulate posso vedere: …al massimo…, oppure …non più di…
- Frequenza retrocumulata, consiste nella somma della frequenza (assoluta o relativa che sia) di una
modalità e di quelle che la succedono.
Per le frequenze assolute si indica con N̄i, per le frequenze relative con F̄i, per le frequenze
percentuali con F̄i%.
Totale 150
Se vado a prendere la modalità “Diploma”, grazie alle frequenze retrocumulate noto che 114 persone possiedono
almeno il diploma.
Quindi con le frequenze retrocumulate posso vedere: …almeno…, oppure …non meno di…
c) Carattere continuo.
➢ Per le ni , fi , fi% usiamo il diagramma a bastoncini, i punti avranno come coordinate (Xi , ni) oppure (Xi , fi )
e sono proiettati sull’asse delle ascisse.
L’altezza ottenuta dai bastoncini quindi equivale alla frequenza assoluta o relativa;
➢ Per le Ni , Fi , Fi% usiamo il diagramma a gradini crescente, i punti avranno come coordinate (Xi , Ni )
oppure (Xi , Fi ). Dal punto si traccia un segmento orizzontale di lunghezza pari a 1 verso destra.
L’altezza di un gradino quindi equivale alla frequenza cumulata assoluta o relativa;
➢ Per le N̄i , F̄i , F̄i% usiamo il diagramma a gradini decrescente, i punti avranno come coordinate (Xi , N̄i )
oppure (Xi , F̄i ). Dal punto si traccia un segmento orizzontale di lunghezza pari a 1 verso sinistra.
L’altezza di un gradino quindi equivale alla frequenza retrocumulata assoluta o relativa.
f r eq u e n z a r el a t i v a cl a ssei fi
➢ Frequenze relative specifiche: f si = a m pi e z z a cl a ssei
=
ai
.
La frequenza specifica è una frequenza ipotetica: rappresenta la frequenza attribuita a ciascuna modalità della classe
nell’ipotesi di equidistribuzione. Di conseguenza, n si può essere non intera.
➢ Per le ni , fi , fi% usiamo il diagramma a bastoncini, i punti avranno come coordinate (Xi , n si) oppure
(Xi , f si ) e sono proiettati sull’asse delle ascisse.
L’altezza ottenuta dai bastoncini quindi equivale alla frequenza specifica assoluta o relativa.
La frequenza di una classe è uguale alla somma delle sue frequenze specifiche;
➢ Per le Ni , Fi , Fi% usiamo il diagramma a gradini cumulato, si ottiene dalla distribuzione cumulata delle
frequenze specifiche (assolute o relative).
L’altezza di un gradino corrisponde quindi alla frequenza specifica (assoluta o relativa);
➢ Per le N̄i , F̄i , F̄i% usiamo il diagramma a gradini decrescente, si ottiene dalla distribuzione retrocumulata
delle frequenze specifiche (assolute o relative).
L’altezza di un gradino corrisponde quindi alla frequenza specifica (assoluta e relativa).
Tuttavia, se una volta che esplodo la tabella delle classi noto che il numero di intensità singole è molto elevato devo fare
un’approssimazione, ovvero devo trattare il carattere come se fosse continuo, quindi applico l’ipotesi di contiguità
delle classi.
Rendendo le classi contigue, l’estremo inferiore di ogni classe è fatto coincidere con l’estremo superiore della classe
immediatamente precedente.
Una volta che le classi vengono rese contigue, il carattere viene trattato come se fosse continuo, e vediamo adesso il
caso del carattere continuo.
Carattere continuo
Con questo tipo di carattere si possono calcolare tutti i tipi di frequenze visti, quindi le assolute, le relative, le
percentuali, le cumulate (…al massimo… rispetto all’estremo superiore della classe) e le retrocumulate (…almeno…
rispetto all’estremo inferiore della classe).
Se il carattere è continuo, la corrispondente distribuzione di frequenze deve necessariamente essere rappresentata per
classi.
Le classi possono essere di uguale ampiezza o di ampiezza diversa. L’ampiezza di una classe nel caso del carattere
continuo si calcola: ai = Esup − Ein f.
➢ Per le ni , fi , fi% usiamo l’istogramma, che è un grafico che rappresenta le classi con dei rettangoli. I
rettangoli sono adiacenti perché le classi sono continue (l’estremo inferiore di ogni classe è fatto coincidere
con l’estremo superiore della classe immediatamente precedente).
La base dei rettangoli corrisponde alle varie ampiezze delle classi (b a se = ai).
L’altezza dei rettangoli corrisponde alle frequenze spcifiche assolute o relative che siano
(a l t e z z . = n si o f si).
L’area dei rettangoli corrisponde alle frequenze assolute o relative che siano (a r ea = ni o fi).
➢ Per le Ni , Fi , Fi% usiamo quello che chiamiamo spezzata crescente, un grafico che è formato da punti con
coordinate (Esup; Ni oppure Fi) che sono uniti tra di loro da segmenti, i quali rappresentano il cumulo costante
delle frequenze della classe.
➢ Per le N̄i , F̄i , F̄i% usiamo quello che chiamiamo spezzata decrescente, un grafico che è formato da punti con
coordinate (Ein f; N̄i oppure F̄i) che sono uniti tra di loro da segmenti.
Analisi e confronti
L’analisi della forma della distribuzione e il confronto tra distribuzioni rilevate in situazioni diverse offrono spesso utili
informazioni sul fenomeno considerato.
In queste analisi sono spesso impiegati i concetti di:
• Baricentro, cioè il valore attorno al quale i dati osservati oscillano;
• Variabilità, cioè la tendenza ad assumere una gamma diversa di valori;
• Asimmetria.
L’analisi grafica risulta essere molto utile per evidenziare particolari aspetti delle distribuzioni di frequenza, soprattutto
anche grazie all’uso del poligono di frequenze, un grafico ottenuto dall’unione con segmenti rettilinei dei punti
immagine delle frequenze delle varie classi.
Oltre all’analisi grafica, per evidenziare i particolari aspetti delle distribuzioni di frequenza si impiegano spesso anche
degli indici di sintesi che permettono di valutare numericamente tali aspetti. In particolare si usano:
- Indici medi;
- Indici di variabilità;
- Indici di asimmetria.
MEDIE
Una media è un indice impiegato per sintetizzare le diverse modalità di una distribuzione di frequenze con una sola
modalità qualitativa (nel caso mutabile) o un solo valore (nel caso variabile).
Essa fornisce una buona sintesi delle differenti modalità di una distribuzione solo se le rappresenta adeguatamente.
Esistono due tipologie di medie:
Moda
La moda può essere definita come la modalità che presenta la frequenza più elevata.
Guardiamo l’esempio: Distribuzione di 180 abitazioni per titolo di godimento
Proprietà 90 50
Affitto 54 30
Altro titolo 36 20
Notiamo che “Proprietà” è la moda di questo carattere perché rappresenta la metà delle abitazioni.
Una volta che ho trovato la moda di un carattere devo dare un indice di rappresentatività della moda, dato dalle
frequenze percentuali.
Se la moda si calcola per i caratteri qualitativi nominali (più basso grado della gerarchia delle scale), allora si può
calcolare per tutti i caratteri successivi.
Per esempio, per un carattere quantitativo continuo, per trovare la moda ho bisogno delle frequenze specifiche:
Siccome le classi hanno diversa ampiezza, non riusciamo a capire quale sia la classe modale guardando le frequenze
assolute.
Guardando le frequenze specifiche notiamo che la classe modale è “6 ┤10”, però osservando le frequenze relative %
notiamo che rappresenta solo il 25% del totale, quindi è una moda poco rappresentativa.
Se guardo l’istogramma di questo carattere, la moda è rappresentata dal rettangolo più alto.
A volte capita che la rappresentazione grafica di una distribuzione possa evidenziare la presenza di due mode.
Questo caso è detto “Distribuzione bimodale”, la presenza di due mode può suggerire che la popolazione non è
composta da unità omogenee, ma da due gruppi distinti (con baricentro diverso).
Quindi ricapitolando:
• Possiamo determinate la moda (Mo) qualunque sia la scala di misura del carattere;
• La sintesi operata da Mo è ritenuta adeguata quando la sua frequenza rappresenta almeno il 50% dei casi;
• Se le modalità sono raggruppate in classi, individuiamo la classe modale tramite le frequenze specifiche (ass. o
rel.).
Mediana
Per la mediana bisogna distinguere due casi: il caso della distribuzione per unità e il caso della distribuzione di
frequenze.
Per capire meglio il caso della distribuzione per unità vediamo un esempio:
Reddito da lavoro di 7 individui
Per trovare il reddito che si trova nella posizione centrale dobbiamo prima ordinare i valori.
La mediana è “18”.
2) La mediana (Me) è la modalità che divide l’insieme ordinato delle modalità in due gruppi di uguale
numerosità.
La mediana può essere individuata solo quando i caratteri sono almeno su scala ordinale.
Per individuare la mediana bisogna vedere se il totale delle unità (N) è pari o dispari:
N+1
➢ Se N è dispari, la posizione di Me è unica e si trova:
2
N N
➢ Se N è pari, le posizioni di Me sono due: e +1
2 2
Ad esse corrispondono due modalità mediane:
x( N ) e x( N +1)
2 2
Se il carattere è quantitativo e si vuole assumere un unico valore per Me, si può assumere la semisomma
(valore centrale):
x( N ) + x( N +1)
2 2
Me =
2
Per il caso della distribuzione di frequenze ho due passaggi da svolgere:
➢ Se ho un carattere qualitativo in scala ordinale oppure un carattere quantitativo discreto con “intensità
separate”, alla riga individuata (punto 2) corrisponde una sola modalità o intensità e questa sarà la mediana;
➢ Se ho un carattere quantitativo discreto raggruppato in classi oppure un carattere quantitativo continuo, alla
riga individuata (punto 2) corrisponde una classe di valori (classe mediana).
Per individuare il valore della mediana all’interno della classe utilizzo il metodo dell’interpolazione (guarda
sul quaderno come si fa). A questo punto trovo la mediana.
N.B: nel caso del carattere discreto bisogna arrotondare per eccesso.
∑
min ⃒xi − A ⃒A
i=1
Si ha se e solo se:
• A = Me nel caso di N dispari;
• x( N ) ≤ A ≤ x( N +1) nel caso di N pari.
2 2
Quartili
Sono i 3 valori Q1 Q2 Q3 che dividono la successione ordinata dei valori in 4 gruppi di uguale numerosità.
Qs = x(s/4) s = 1,2, 3
Osservazione: Q2 = Me.
Decili
Sono i 9 valori D1 D2… D9 che dividono la successione ordinata dei valori in 10 gruppi di ugual numerosità.
Ds = x(s/10) s = 1,2, …, 9
Osservazione: D5 = Q2 = Me.
Centili (o percentili)
Sono i 99 valori C1 C2… C99 che dividono la successione ordinata dei valori in 100 gruppi di uguale numerosità.
Cs = x(s/100) s = 1,2, …, 99
Osservazione: C25 = Q1
C50 = Q2 = Me
C75 = Q3
- Per i quartili:
- Per i decili:
➢ …
- Per i percentili:
➢ …
➢ …
➢ C99, devo trovare la riga in cui per la prima volta Fi ≥ 0,99.
A. Carattere qualitativo in scala ordinale oppure carattere quantitativo discreto con “intensità separate”:
Es.
n di stanze fi Fi
1 0,04 0,04
4 0,29 0,78
6 0,07 1,00
Q1 Fi ≥ 0,25 Q1 = 3
D2 Fi ≥ 0,20 D2 = 2
Reddito fi Fi
0 ┤6 0,20 0,20
A questo punto ho trovato la classe in cui si trova il percentile 28, per trovare il valore esatto devo fare l’interpolazione
lineare: x F
Ein f
6 0,20
C28
6+x 0,28
Ein f
10 0,45
MEDIE ALGEBRICHE
Per le distribuzioni di unità la media aritmetica (M1) equivale alla somma dei valori x1, x 2, …, xN divisa per il
numero di osservazioni:
x1 + x 2 + … + xN ∑N xi
M1 = M1(X ) = = i=1
N N
Interpretazione:
N
∑i=1 i
Se la somma a numeratore ha un significato reale x =T
allora la media aritmetica rappresenta quanta parte del totale spetta ad ogni unità del denominatore nell’ipotesi che esso
sia equamente ripartito (es. reddito, addetti, …).
Osservazione: M1 può essere calcolata anche se T non ha significato concreto (es. somma delle altezze di N individui).
Num. Stanze ni ni × xi
xi
1 5 1×5=5
2 22 2 × 22 = 44
3 32 3 × 32 = 96
4 35 4 × 35 = 140
5 18 5 × 18 = 90
6 8 6 × 8 = 48
La media aritmetica si calcola dividendo la somma di tutte le stanze per il numero di abitazioni:
M1 = 423: 120 = 3,525 s t a n z e
Osservazione: Il valore trovato non è intero, ma comunque non si approssima!!
Lo stesso risultato si ottiene utilizzando le frequenze relative, solo che il valore della media aritmetica lo si trova
sommando tutti i valori presenti nella colonna “xi × fi”.
Num. Stanze fi fi × xi
xi
1 0,042 0,042 +
2 0,183 0,366 +
3 0,267 0,800 +
4 0,292 1,167 +
5 0,150 0,750 +
6 0,066 0,400 =
∑pi=1 xi wi wi
M1 = , ma = vi
∑ wi ∑ wi
p
∑
Quindi: M1 = xi vi.
i=1
∑
Osservazione: vi = 1.
➢ Nelle distribuzioni di frequenze assolute: in questo caso wi = ni, quindi la formula per trovare M1 è:
x1n1 + x 2 n 2 + … + xp np
M1 =
N
Quindi possiamo dire che la M1 nel caso delle frequenze assolute è una media ponderata dei valori xi con pesi
dati dalle ni.
➢ Nelle distribuzioni di frequenze relative: in questo caso wi = fi, quindi la formula per trovare M1 è:
x1 f1 + x 2 f2 + … + xp fp
M1 =
1
Quindi possiamo dire che la M1 nel caso delle frequenze relative è una media ponderata dei valori xi con pesi
dati dalle fi.
➢ In tutti i casi in cui ha senso che i valori xi entrino nelle medie con peso diverso (es. voti/prezzi/rapporti
statistici/…).
Ritornando al calcolo della media aritmetica, il caso delle distribuzioni di frequenze va analizzato a sua volta in due
casi:
A) Se il carattere è discreto con “modalità separate”, come abbiamo visto la media si calcola:
∑ xi ni
∑ i i
M1 = = x f
N
B) Se il carattere è raggruppato in classi (discreto o continuo), per rendere operative le espressioni viste in
precedenza è necessario che ogni classe sia rappresentata da un unico valore. Si presentano però dei casi
diversi, a seconda del tipo di informazioni che abbiamo:
- Senza alcun tipo di informazione aggiuntiva (oltre alla distribuzione di frequenze): in questo caso
faccio il calcolo dei valori centrali di classe (ci) e chiudo eventuali estremi aperti:
Esup + Ein f
ci =
2
La media aritmetica che trovo sarà:
∑ ci ni
∑ i i
M ′1 = = c f
N
La indichiamo con l’apostrofo perché non è la media aritmetica esatta, ma è un’approssimazione.
- Con informazione aggiuntiva che riguarda i totali di classe (ti), la media aritmetica che troviamo è
una media esatta e si calcola:
∑ ti T
M1 = =
N N
- Con informazione aggiuntiva che riguarda le medie di classe (M1(i )), le medie di classe si
calcolano:
M1(i ) = ti /ni
La media che otteniamo si calcola:
∑ M1(i ) × ni
∑ 1
M1 = = M (i ) × fi
N
È una media esatta, perché sostituendo la formula per trovare la media di classe all’interno della
formula per trovare la media aritmetica notiamo che, semplificando, otteniamo la stessa formula della
media aritmetica con i totali di classe.
1) Proprietà associativa della media aritmetica: La media aritmetica di una variabile osservata su una
popolazione suddivisa in p gruppi è uguale alla media aritmetica ponderata delle medie aritmetiche di
gruppo (M1( p)), con pesi pari alle numerosità dei gruppi.
∑ M1(i ) × ni ∑ ti T
M1 = = =
N N N
2) Proprietà di bilanciamento degli scarti: La media aritmetica bilancia gli scarti positivi e negativi, infatti si
N
∑
nota che (xi − M1) = 0.
i=1
N
∑ xi
∑ ∑ ∑ ∑ ∑ ∑ i ∑ i
Dimostrazione: (xi − M1) = xi − M1 = xi − N M1 = xi − N = x − x =0
i=1
N
3) Proprietà di internalità: Questa proprietà dice che x1 ≤ M1 ≤ xN. L’uguaglianza vale solo nel caso in cui tutti
i valori x siano uguali tra loro.
∑ i
- Non può essere M1 < x1 perché se così fosse, avremmo scarti positivi, ovvero (x − M1) > 0 e
questo abbiamo visto essere impossibile per la proprietà di bilanciamento degli scarti;
∑ i
- Non può essere M1 > xN perché se così fosse, avremmo scarti negativi, ovvero (x − M1) < 0 e
questo abbiamo visto essere impossibile per la proprietà di bilanciamento degli scarti.
(xi − A)2
∑
4) Proprietà di minimo: Dato un carattere quantitativo X si dimostra che m i n
A
Se e solo se A = M1.
N 2
∑ [( i
x − M1) + (M1 − A)] =
2
∑(
Dimostrazione: xi − A + M1 − M1) =
i=1
∑ [(
xi − M1) + (M1 − A) + 2(xi − M1)(M1 − A)] =
2 2
=
2 2
∑( i
x − M1) +
∑( 1
M − A) + 2
∑( i
= x − M1)(M1 − A) =
=0
Quindi ho che:
N
(xi − A)2 = (xi − M1)2 + N(M1 − A)2
∑ ∑
>0
i=1
N
(xi − A)2 ≥ (xi − M1)2
∑ ∑
i=1
5) Proprietà delle trasformazioni lineari: Se tra i due caratteri quantitativi Y e X sussiste la relazione
Y = a + bX con a e b costanti, allora M1(Y ) = a + bM1(X ).
Dimostrazione:
∑ yi ∑ (a + b xi ) ∑ a + ∑ b xi Na + b ∑ xi Na b ∑ xi
M1(Y ) = = = = = + = a + bM1(X )
N N N N N N
Principio di Chisini
La media aritmetica può essere dedotta sulla base di considerazioni di invarianza.
Secondo Chisini, una media sintetizza i dati in modo adeguato quando mantiene invariato un aspetto di interesse del
fenomeno considerato.
Con il metodo di Chisini si possono quindi trovare medie diverse, a seconda degli obiettivi dell’analisi.
Quindi la base del principio di Chisini è il concetto di invarianza, devo:
2) Individuare un valore (media secondo Chisini) che sostituito alle singole osservazioni lascia invariato
l’aspetto di interesse.
Media aritmetica (M1)
La si calcola con il principio di Chisini se l’aspetto che deve rimanere invariato è il totale.
• Per quanto riguarda la media aritmetica semplice, ho una serie di osservazioni x1 x 2 … . xN il cui totale
(somma) è t ot a l e = x1 + x 2 + … + xN.
Alle singole osservazioni sostituisco un valore x̄ tale che il totale diventa
t ot a l e = x̄ + x̄ + … + x̄ = N x̄
A questo punto uguaglio le due equazioni:
N x̄ = x1 + x 2 + … + xN
t ot a l e = x1n1 + x 2 n 2 + … + xP nP
t ot a l e = x̄ n1 + x̄ n 2 + … + x̄ nP
x1n1 + x 2 n 2 + … + xP nP = x̄ n1 + x̄ n 2 + … + x̄ nP
Raccolgo x̄:
Alle singole osservazioni sostituisco un valore x̄ tale che la somma di reciproci diventa
n1 n 2 np
so m m a r ec i pr o c i = + +…+
x̄ x̄ x̄
A questo punto uguaglio le due equazioni:
n1 n 2 np n n np
+ +…+ = 1 + 2 +…+
x̄ x̄ x̄ x1 x2 xp
O meglio:
N
x̄ = ni
∑ xi
• Per quanto riguarda la media armonica semplice, ho una serie di osservazioni x1 x 2 … . xN.
pr o d ot t o = x1 × x 2 × … × xN
pr o d ot t o = x̄ × x̄ × … × x̄ = x̄ N
A questo punto uguaglio le due equazioni:
x̄ N = x1 × x 2 × … × xN
x̄ = N x1 × x 2 × … × xN
O meglio:
N
∏
x̄ = xi
• Per quanto riguarda la media geometrica ponderata, ho una serie di osservazioni x1 x 2 … . xP e di rispettivi
pesi n1 n 2 … nP e il prodotto è
pr o d ot t o = x1n1 × x 2 n 2 × … × xP nP
pr o d ot t o = x̄ n1 × x̄ n 2 × … × x̄ nP = x̄ N
A questo punto uguaglio le due equazioni:
x̄ N = x1n1 × x 2 n 2 × … × xP nP
N xi n i
∏
x̄ =
Quindi il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi delle osservazioni.
M0 (Y ) = bM0 (X )
Dimostrazione:
N N N N
bN
∏ ∏ ∏ ∏
Mo(Y ) = N yi = N b xi = N xi = b N xi = bM0 (X )
i=1 i=1 i=1 i=1
Guarda i 2 esempi sul quaderno, soprattutto il secondo che ti dice come si trova la variazione media, che è la media
geometrica dei numeri indice a base mobile e si sottrae 1.
so m m a q u a d r a t i = x12 + x 2 2 + … + xN 2
Alle singole osservazioni sostituisco un valore x̄ tale che la somma dei quadrati è
so m m a q u a d r a t i = x̄ 2 + x̄ 2 + …x̄ 2 = N x̄ 2
A questo punto uguaglio le due equazioni:
N x̄ 2 = x12 + x 2 2 + … + xN 2
Vado avanti coi calcoli:
∑N x2
i=1 i
x̄ 2 =
N
Quindi posso ricavare x̄:
∑N x2
i=1 i
x̄ =
N
• Per quanto riguarda la media quadratica ponderata, ho una serie di osservazioni x1 x 2 … . xP e di rispettivi
pesi n1 n 2 … nP.
∑N x 2n
i=1 i i
x̄ =
N
Riassunto
➢ Due reali:
p0 × q0 e pt × qt
➢ Due figurativi:
p0 × qt e pt × q0
Indice di Laspeyres
Indice di Paasche
- Media aritmetica dei NI semplici con sistema di pesi dato dalla spesa figurativa p0 × qt;
- Media armonica dei NI semplici con sistema di pesi dato dalla spesa reale pt × qt.
Nelle analisi economiche si osserva un aumento delle quantità acquistate per quei beni i cui prezzi comparativamente si
riducono (e viceversa).
La differenza tra Laspeyres e Paasche è che il primo tiene fisse le quantità, mentre il secondo le aggiorna.
Laspeyres ignora l’aumento delle quantità dei beni i cui prezzi aumentano relativamente di meno, cioè tende a
sovrastimare il tasso di crescita dei prezzi.
Paasche invece tende a sottostimarlo.
Indice di Fisher
Per neutralizzare le opposte tendenze dei due indici, Fisher ha proposto di utilizzare la media geometrica dei due indici:
F L
0 It = 0 It × 0 It P
INDICI DI VARIABILITA’
I fenomeni reali si manifestano in modo diverso nelle unità di una popolazione.
Si definisce variabilità l’attitudine di una variabile (carattere quantitativo) ad assumere valori differenti.
Gli indici di variabilità servono per associare all’informazione fornita da una media quella di un’altra misura, che
consenta di differenziare le diverse situazioni.
Si richiede che gli indici di variabilità assumano:
Gli indici più semplici e più utilizzati si basano sulle differenze e sono:
• Intervalli di variazione: differenze tra due indici di posizione;
• Scostamenti medi: differenze tra i valori e una media.
Intervalli di variazione
Indicano l’ampiezza dell’intervallo centrale entro il quale è compresa una certa frazione della popolazione.
Un intervallo centrale lascia la stessa frazione di casi con valori inferiori e superiori agli estremi dell’intervallo stesso.
Il carattere è tanto più variabile quanto più l’intervallo è ampio.
Ho una certa popolazione x1 x 2… xN, a questo punto la metto in ordine crescente x(1), x(2), …, x(N ).
Esistono 3 tipi di intervalli di variazione:
• Campo di variazione: si tratta dell’ampiezza dell’intervallo compreso tra i due valori estremi della
distribuzione
x(N ) − x(1)
Caratteristiche:
• Differenza interquantile: si tratta dell’ampiezza dell’intervallo che ha come estremi il primo e il terzo
quartile
Q3 − Q1
Caratteristiche:
• Differenza interdecile: si tratta dell’ampiezza dell’intervallo che ha come estremi il primo e il nono decile
D9 − D1
Caratteristiche:
Scostamenti medi
Si calcolano sintetizzando con una media algebrica gli scarti assoluti da un indice medio.
Si considerano gli scarti in valore assoluto per evitare possibili bilanciamenti, che potrebbero far risultare nullo un
indice in presenza di variabilità.
oppu r e
∑
SMe = xi − Me ∙ fi
oppu r e
∑
SM1 = xi − M1 ∙ fi
Esiste anche quello che viene detto scarto quadratico medio (o anche deviazione standard o scarto tipo), che è:
1
(x − M1)2
N∑ i
σ =
oppu r e
(xi − M1)2 ∙ fi
∑
σ =
SMe ≤ SM1 ≤ σNon è necessariamente verificata quando la distribuzione è per classi, perché M1 e Me sono, in genere,
delle approssimazioni dei veri valori.
Varianza
Il quadrato dello scarto quadratico medio è un indice molto importante, noto come varianza:
∑ (xi − M1)2
v a r (X ) = σ 2 =
N
- Per le distribuzioni di frequenze
∑ (xi − M1)2 ∙ ni
v a r (X ) = σ 2 =
N
oppu r e
v a r (X ) = σ 2 = (xi − M1)2 ∙ fi
∑
La formula per le distribuzioni di unità è detta formula diretta.
Esiste anche una formula indiretta che è:
v a r (X ) = σ 2 = M2 2 − M12
Dimostrazione: (sul quaderno)
Proprietà delle trasformazioni lineari (varianza)
Se tra due caratteri Y e X sussiste la relazione Y = a + bX con a e b costanti, allora
σ 2(Y ) = b 2 ∙ σ 2(X )
Dimostrazione: (sul quaderno)
➢ L’impiego dei valori centrali trascura la variabilità nelle classi (l’indice risulta quindi solo approssimato);
➢ L’impiego delle medie di classe non evita il problema precedente (ad esempio, nel caso della varianza di può
calcolare solo quella FRA le classi).
- A = ampiezza demografica;
- B = grado di criminalità.
A
Piccola 45 36 21 102
Media 30 48 27 105
Grande 15 24 54 93
In questo caso abbiamo una tabella quadrata (numero di colonne = numero di righe).
Le frequenze congiunte devono sempre essere ≥ 0, mentre e frequenze marginali devono essere > 0.
La tabella a doppia entrata può essere rappresentata anche in termini di frequenze relative (o percentuali):
nij
➢ Frequenze congiunte: fij = N ;
ni⋅ n⋅j
➢ Frequenze marginali: fi⋅ = N oppure f⋅j = N
Per ognuno dei due caratteri si possono individuare altre distribuzioni, le distribuzioni parziali (o condizionate).
Riprendendo l’esempio precedente una distribuzione parziale è:
Medio
36
48
24
108
È la distribuzione dei 108 comuni con medio grado di criminalità secondo l’ampiezza economica.
Ma anche:
Media 30 48 27 105
È la distribuzione dei 105 comuni con media ampiezza demografica secondo il grado di criminalità.
Ho tante distribuzioni parziali tante quante sono righe e colonne (quindi nell’esempio ne ho 6).
Per confrontare le distribuzioni parziali di un carattere è necessario tenere conto del fatto che normalmente i totali
marginali sono diversi.
Le frequenze parziali vengono perciò espresse in termini relativi (o percentuali).
- j − es i m a distribuzione condizionata di A (A bj )
nij fij
fi| j = f (ai bj) = = con i = 1,2, …, p
n⋅j f⋅j
- i − es i m a distribuzione condizionata di B (B ai )
nij fij
fj|i = f (bj ai) = = con j = 1,2, …, q
ni⋅ fi⋅
ANALISI DELL’ASSOCIAZIONE
Sulla base di teorie e ragionamenti logici si possono avanzare a priori delle ipotesi di causa – effetto o di
interrelazione tra caratteri (es. quantità di fertilizzante e quantità prodotta, età dello sposo ed età della sposa).
Si ha dipendenza logica tra due caratteri quando si suppone a priori una relazione causa – effetto.
Si ha interdipendenza logica tra due caratteri quando si suppone a priori un’interrelazione.
Si ha indipendenza logica tra due caratteri quando di suppone a priori che non possa sussistere alcuna relazione.
L’analisi statistica dell’associazione tra due caratteri è basata sull’osservazione empirica dei fenomeni.
In certi casi l’analisi statistica porta però a dei risultati ambigui, cioè all’individuazione di associazioni spurie.
Un’associazione spuria può essere dovuta:
• Alle caratteristiche dei dati utilizzati;
• Alla presenza di un terzo carattere che influisce sui due considerati.
A seconda degli obiettivi dell’indagine statistica si possono utilizzare diversi metodi per studiare l’associazione tra due
caratteri.
La scelta e l’impiego di un metodo dipende anche dal tipo di caratteri considerati:
Connessione Sì Sì Sì
Dipendenza in No Sì Sì
media
Correlazione
e No No Sì
Regressione
Connessione
L’analisi della connessione tra due caratteri può essere condotta quando si dispone della loro distribuzione bivariata.
Nel seguito considereremo il caso di due caratteri qualitativi (il metodo, come abbiamo visto nella tabella, può essere
impiegato anche per altri tipi di caratteri).
L’analisi della connessione si basa sul confronto tra la situazione osservata nella realtà e le seguenti due situazioni
estreme:
- Connessione massima.
Indipendenza distributiva
Definizione 1
Il carattere A è indipendente in distribuzione dal carattere B (A non è connesso con B) se le sue distribuzioni
condizionate sono tutte uguali:
fi| j = fi⋅
Oss: Se le fi| j non si modificano al variare di bj significa che le distribuzioni di A non sono influenzate dalle modalità di
B.
Definizione 2
Il carattere B è indipendente in distribuzione dal carattere A (B non è connesso con A) se le sue distribuzioni
condizionate sono tutte uguali:
fj|i = f⋅j
Oss: Se le fj|i non si modificano al variare di ai significa che le distribuzioni di B non sono influenzate dalle modalità di
A.
fi| j = fi⋅
Massima connessione
Si può subito notare se sussiste massima connessione se all’interno della tabella a doppia entrata vi sono molti zeri, se
non vi sono sappiamo di per certo che non c’è massima connessione.
Bisogna distinguere tra massima connessione unilaterale e bilaterale. La unilaterale vale per le tabelle rettangolari,
mentre la bilaterale vale per le tabelle quadrate.
Definizioni di massima connessione unilaterale:
Vi è massima connessione bilaterale di A da B se per un dato soggetto conosco il valore (modalità) che esso
assume per il carattere A, allora immediatamente conosco anche il valore (modalità) che esso assume per B.
In caso di massima connessione bilaterale, ogni riga e ogni colonna della tabella bivariata ha un’unica nij ≠ 0.
Per confrontare frequenze empiriche e teoriche si possono utilizzare le differenze dette contingenze assolute oppure i
rapporti detti contingenze relative:
nij − n^ ij cij
dij = = (contingenze relative)
n^ ij n^ ij
Interpretazione
Data la generica contingenza,
Indici di connessione
All’analisi disaggregata delle contingenze si può abbinare il calcolo di un indice che consenta di valutare il grado di
connessione tra due caratteri.
La sintesi è di solito effettuata sulla base di un’opportuna media (che non operi compensazioni tra contingenze di
segno opposto).
Un indice di connessione molto utilizzato è l’indice medio quadratico, che è la media quadratica delle contingenze
relative, ponderate con le frequenze teoriche:
∑i ∑j dij 2 ∙ n^ ij
dij 2 ∙ ^f ij
∑∑
M2(D) = =
N i j
Il problema di questo indice è che non è normalizzato. È necessario quindi normalizzarlo in modo che assuma:
m a x[M2(D)] = k −1 d o ve k = min( p; q)
È un indice che assume valori nell’intervallo [0; 1], oppure [0; 100] se espresso in termini percentuali, e che risulta pari
a:
- 0 in caso di indipendenza;
nij 2
X2 =
∑i ∑j n^
−N ( f or m u l a i n d ir e t t a)
ij
Sulle slide ci sono le formule per trovare l’indice di associazione di Pearson usando le frequenze relative.
X2 X2
M2(D) = C=
N N ( k − 1)
Dipendenza in media
Abbiamo visto che in una tabella a doppia entrata possono essere identificate varie distribuzioni.
Per ciascuno dei due caratteri possiamo considerare:
➢ La distribuzione marginale;
Se entrambi i caratteri sono quantitativi, l’indipendenza in media non è una relazione simmetrica.
- Trovare un indice;
- Normalizzare l’indice.
Dalla definizione di indipendenza media, sembra naturale basare l’indice su una sintesi dei p scarti assoluti
ȳi − ȳ i = 1, 2, …, p
Se entrambi i caratteri sono quantitativi, si possono calcolare due rapporti di correlazione, ma essi non sono legati da
una relazione simmetrica.
Spezzata di regressione
È un grafico che rappresenta la dipendenza delle medie di un carattere dai valori dell’altro.
➢ Nel caso di dipendenza in media di Y da X, nel piano cartesiano si uniscono con segmenti di retta i punti di
coordinate (xi; ȳi);
➢ Nel caso di dipendenza in media di X da Y, nel piano cartesiano si uniscono con segmenti di retta i punti di
coordinate (yj; x̄j).
I punti non hanno lo stesso peso, perché ogni media è la sintesi di un diverso numero di osservazioni.
La spezzata rappresenta una tendenza statistica: all’aumentare di xi o yj, le medie parziali x̄j o ȳi tendono a diminuire.
➢ Senza informazioni: Per calcolare medie e varianze parziali si impiegano i valori centrali (e nei calcoli li
mettiamo al posto delle classi).
I risultati che otterremo saranno solo approssimati;
➢ Note le medie parziali e la varianza totale: Si possono calcolare la vera media complessiva e la sola varianza
fra i gruppi.
Se anche σTOT 2 è nota, i risultati saranno esatti;
Correlazione e Regressione
Questo tipo di analisi si può effettuare solamente se entrambi i caratteri sono quantitativi.
Si può disporre o di dati elementari o di loro elaborazioni:
➢ Serie doppia semplice: È la tabella che riporta i dati elementari riferiti a due caratteri quantitativi X e Y rilevati
congiuntamente su ognuno delle N unità della popolazione;
➢ Serie doppia ponderata: È la tabella nella quale, ad ogni coppia (xi;yi), è associata la corrispondente frequenza
ni;
Concordanza
Gli indici di concordanza permettono di valutare la relazione tra due caratteri quantitativi.
Ad un indice di concordanza si richiede di misurare l’intensità e il verso del legame tra X e Y.
In particolare, l’indice deve assumere:
• Segno – , se i valori più grandi di un carattere tendono ad associarsi con quelli più piccoli dell’altro;
• Segno +, se i valori più grandi di un carattere tendono ad associarsi con quelli più grandi dell’altro.
• Co v (X, Y ) > 0 significa che i due caratteri tendono ad assumere valori concordanti;
• Co v (X, Y ) < 0 significa che i due caratteri tendono ad assumere valori discordanti.
Formule covarianza
Formula diretta
1 1
∑ N ∑i i
Co v (X, Y ) = ci = (x − x̄) ⋅ (yi − ȳ)
N i
Formula indiretta
∑i xi ⋅ yi
Co v (X, Y ) = − x̄ ⋅ ȳ
N
Formula indiretta (caso serie doppia ponderata)
∑i xi ⋅ yi ⋅ ni ∑i x i ⋅ n i ∑i yi ⋅ ni
Co v (X, Y ) = − ⋅
N N N
Proprietà delle trasformazioni lineari
Dati due caratteri X e Y, aventi x̄ e ȳ
Siano
Z = a + bX
W = c + dY
Allora
σZ W = b ⋅ d ⋅ σXY
σXY 2 ≤ σX 2 ⋅ σY 2
con l’uguaglianza se e solo se tutti i punti (xi;yi) giacciono su una retta (ascendente o discendente).
Co v (X, Y ) è quindi una misura del legame lineare tra i due caratteri.
Normalizzazione dell’indice (Correlazione)
Il segno della covarianza indica il verso del legame lineare tra i due caratteri.
Per valutarne l’intensità, conviene fare in modo che l’indice assuma valori in un prefissato intervallo, quindi conviene
normalizzarlo.
Dalla disuguaglianza di Cauchy – Schwartz σXY 2 ≤ σX 2 ⋅ σY 2
si ricava
−σX σY ≤ σXY ≤ + σX σY
valendo l’uguaglianza se e solo se tutti i punti giacciono su una retta.
Quando questo indice è uguale a 0, non vuol dire che tra i due caratteri non c’è legame, ma vuol dire che non c’è
legame lineare.
Relazione tra dipendenza distributiva e in media
• Se tra X e Y c’è indipendenza distributiva, allora
σXY = 0
σXY = 0
Regressione
Con l’analisi della concordanza i due caratteri sono trattati in modo simmetrico.
In molti casi l’analisi logica e le ipotesi teoriche consentono di trattare i due caratteri sulla base di una relazione di
causa-effetto.
In questo contesto il carattere “causa” è detto variabile indipendente, mentre il carattere “effetto” è detto variabile
dipendente.
- Sintetizzare la relazione;
- Agevolare i confronti;
- …
Se Y è la variabile dipendente e X la variabile indipendente, la relazione lineare tra i due caratteri può essere così
formalizzata:
Y = p0 + p1 X + U
Dove:
- p0 è l’intercetta;
- p1 è il coefficiente angolare;
- U è il residuo.
^
p0 + p1 X è l’equazione della retta interpolante Y ^ =p +p X
Y 0 1
Si aggiunge il residuo U perché i punti non stanno effettivamente sulla retta, ma tendono ad oscillare intorno ad essa.
I singoli residui consistono nella distanza dei punti reali dalla retta interpolante.
Metodo dei minimi quadrati
Il problema dell’interpolazione riguarda la scelta di un opportuno criterio che permetta di individuare, tra le infinite,
un’appropriata retta interpolante.
Il criterio di accostamento più utilizzato è noto come metodo dei minimi quadrati, che consiste nell’individuare i
valori da attribuire a p0 e p1 che rendono più piccola possibile (minima) la somma dei quadrati dei residui U.
2
(y − ^yi ) = m i n (y − p0 − p1 xi )2
∑i i ∑i i ∑i i
minQ = min u 2 = min
p0, p1 p0, p1 p0, p1 p0, p1
Risolviamo rispetto a p0 e p1
∑ ∑ ∑ ∑ ∑
yi − Np0 − p1 xi = 0 xi yi − p0 xi − p1 xi 2 = 0
{ }
− p1 M (x 2) − [M(x)]
2
Co v(x , y) Va r (x)
σXY
2) p1 =
σX 2
3) p0 = M (y) − p1 M(x)
Regressione di X rispetto ad Y
Scambiando i ruoli delle variabili non cambia niente, cambia solamente come nominiamo i parametri della retta
interpolante, che sono q0 e q1, e i residui, che sono vi.
Se le unità temporali sono in numero dispari, conviene porre l’unità centrale uguale a 0. Con questa scelta si ha
t̄ = 0 p0 = ȳ e si semplificano anche le espressioni della sequenza operativa.
(yi − ^yi ) =
∑ ∑
(yi − p0 − p1 xi ) = 0
Linearizzazione
A volte il diagramma di dispersione evidenzia una tendenza che non può essere adeguatamente rappresentata con la
retta interpolante.
In questi casi, opportune trasformazioni di una o di entrambe le variabili permettono di linearizzare la relazione.
Si può quindi utilizzare ancora il metodo dei minimi quadrati con le variabili trasformate.
^ = p + p W = p + p X2
Y 0 1 0 1
^ = p + p W = p + p log(X )
Y 0 1 0 1
Verifica dell’adattamento
Dopo aver determinato la retta interpolante è necessario controllare se questa è idonea a rappresentare la relazione tra
le due variabili.
La verifica della bontà di adattamento del modello scelto si basa sull’analisi grafica e numerica dei residui
d’interpolazione.
Il sistema normale si può riscrivere come:
∑( i
y − ^yi) = 0
∑ i
u =0 ū = 0
(y − ^yi ) ⋅ xi = 0
∑ i ∑ i i
u ⋅x = 0 σUX = 0
++++++−−−−−++++
X
• Ho successione accidentale se
+−−++−+−−+−+−++
X
σY 2 = Va r (Y ) ( ) + Va r (U )
^ + U = Va r Y
^
Quindi
σTOT 2 = σY^ 2 + σU 2 = σs 2 + σR 2
Dove
- σS 2 è la “varianza spiegata”, cioè è la parte della variabilità di Y che io sono in grado di spiegare
attraverso il modello teorico (retta);
- σR 2 è la “varianza residua”, cioè la parte della variabilità di Y che io non sono in grado di spiegare
attraverso il modello teorico.
Dalla precedente scomposizione si ricava un indice di adattamento normalizzato, noto con il nome di
σS 2 σR 2
Indice di determinazione R2 = =1−
σTOT 2 σTOT 2
R 2 è un rapporto di composizione ed assume quindi valori nell’intervallo [0; 1] (o [0; 100] se espresso in %).
➢ 0 quando σS 2 = 0
ovvero la retta di regressione non “spiega” la variabilità di Y, in tal caso i punti (xi; yi) non evidenziano un
legame lineare;
➢ 1 quando σR 2 = 0ovvero la retta di regressione “spiega” tutta la variabilità di Y, in tal caso tutti i punti (xi; yi)
giacciono sull’interpolante.
σS 2 ^)
Va r (Y Va r ( p0 + p1 X ) p 2σ 2
R2 = = = = 1 X
σY 2 Va r (Y ) Va r (Y ) σY 2
2)
p12 σX 2 σ 2 σ σ 2 σ
R2 = = p12 X = p1 ⋅ XY ⋅ X = p1 ⋅ XY
σY 2 σY 2 σ X 2 σY 2 σY 2
3)
σXY σ σ σ 2
R 2 = p1 ⋅ = XY ⋅ XY = XY = ρXY 2
σY 2 σ X 2 σY 2 σ X 2 σY 2
Ovviamente, l’analisi dei residui si può effettuare anche per la seconda interpolante
^ =q +q Y
X o 1
Il valore R 2 risulta lo stesso.
Quando invece si dispone di una serie doppia ponderata, il problema dei minimi quadrati assume la seguente forma
∑i
minQ min ui 2 nip0, p1 p0, p1
2
∑i ( i
min y − ^yi) ni
p0, p1
2
∑i ( i
Min y − p0 − p1 xi) ni
p0, p1
⋃
A = E4 U E5 U E6 = Ei
i=4
Utilizzando le regole dell’algebra degli insiemi si possono definire altri tipi di eventi:
Esempio:
Esempio:
Lo spazio campionario (o spazio degli eventi) è lo spazio di tutti i possibili eventi elementari di un esperimento.
Viene indicato con Ω.
Probabilità
Per probabilità si intende un numero associato al verificarsi di un determinato evento.
Questa definizione non spiega come calcolare tale numero.
Le definizioni di probabilità più utilizzate sono 4:
Classica, Frequentista, Soggettivista, Assiomatica.
➢ Definizione classica:
Dato un esperimento con N possibili risultati equiprobabili, la probabilità di un evento A è il rapporto tra il
numero N(A) dei risultati favorevoli al suo verificarsi e il numero N dei risultati possibili.
n u m er o r i s u l t a t i f a v or e v ol i N (A)
P (A) = =
n u m er o r i s u l t a t i p oss i bi l i N
P () = 0, P () = 1, e 0 ≤ P (A) ≤ 1 A
Esempio:
Osservazione 2:
La probabilità dell’evento complementare è uguale al complemento ad uno della probabilità del
corrispondente evento.
➢ Definizione frequentista:
Dato un esperimento ripetibile nelle stesse condizioni, la frequenza relativa con cui si presenta un evento A
all’aumentare delle prove tende alla sua probabilità.
n u m er o pr o ve c o n r i s u l t a t o A n (A)
fn(A) = = P (A)
n u m er o t ot a l e d i pr o ve n
Osservazione:
P () = 0, P () = 1, e 0 ≤ P (A) ≤ 1 A
Esempio:
Nella tabella sono riportati i risultati ottenuti con delle estrazioni ripetute di una carta
n n (A) fn(A)
10 2 0,2
100 27 0,27
La legge empirica del caso non si può dimostrare, si può solo verificare empiricamente.
Osservazione 2:
Se all’aumentare delle prove fn(A) tende alla costante P (A), significa che esistono delle regolarità che
governano i fenomeni.
Osservazione 3:
La probabilità classica è determinata da una valutazione a priori, quella frequentista è determinata da una
valutazione a posteriori (ovvero si basa sull’esperienza).
Critiche:
- Non è noto il numero di prove necessarie per avere un’approssimazione adeguata della probabilità;
- La definizione non è applicabile nelle situazioni in cui non si può ripetere l’esperimento;
- Queste considerazioni hanno portato alcuni studiosi a formulare una definizione di probabilità
soggettiva.
➢ Definizione soggettivista:
La probabilità di un evento A è la misura del grado di fiducia che un individuo coerente attribuisce, secondo
le sue informazioni ed opinioni, all’avverarsi di A.
Data la quota p che un individuo ritiene equo scommettere con un altro che punta q se si verifica A,
q u ot a s c o m m ess a s u l r i s u l t a t o A p
P (A) = =
so m m a d el l e q u ot e p +q
Esempio:
Poiché la moneta non è truccata, si può essere disposti a scommettere 1 per vincere 2 se si verifica T
(si dice comunemente: scommettere 1 contro 1)
Ad ogni esperimento si associa un insieme Ω detto spazio campionario (probabilistico, degli eventi) i cui
elementi sono tutti i suoi possibili risultati semplici (eventi elementari E)
Di solito interessa valutare la probabilità di risultati complessi dell’esperimento (eventi composti A).
La probabilità è una funzione che ad ogni A associa un numero reale in modo da soddisfare i seguenti
assiomi:
A1. P (A) ≥ 0
A2. P () = 1
A3. P (A B ) = P (A) + P (B ) se A B =
- P () = 0
Infatti: 1 = P () = P ( ) = P () + P ()
- P(Ā) = 1 − P (A)
- P (A) ≤ 1
Infatti: 1 = P () = P (A) + P(Ā) ≥ P (A)
Meno formalmente, impiegando il diagramma di Venn si ricavano facilmente altre importanti proprietà
- Se B A : P (B ) ≤ P (A) P (A − B ) = P (A) − P (B )
- Se B A ≠ 0 (eventi compatibili):
P (A B ) = P (A) + P (B ) − P (A B )
Esempio:
Qual è la probabilità che lanciando due dadi si presenti la faccia 4 almeno su uno di essi?
6 6 1 11
P (A B ) = P (A) + P (B ) − P (A B ) = + − =
36 36 36 36
Probabilità condizionata
Esempio:
Qual è la probabilità che, lanciando due dadi,
A: “la somma delle loro facce sia 8”?
Come si modifica la risposta se è noto che
B: “il 2° dado ha fornito come risultato la faccia con un numero maggiore di 3”?
In tal caso si considera la probabilità dell’evento condizionato
(A | B )
che viene detta probabilità condizionata di A dato B.
Infine, qual è la probabilità dell’evento (A B )?
Sulla base dell’esempio si possono ricavare due importanti relazioni che hanno validità generale:
3 3/36 P (A B )
➢ Relazione 1: P (A B ) = 18 = 18/36 = P (B )
➢ Relazione 2: P (A B ) = P (A B ) ⋅ P (B )
Indipendenza stocastica
➢ A è stocasticamente indipendente da B se
P (A B ) = P (A)
➢ B è stocasticamente indipendente da A se
P (B A) = P (B )
L’indipendenza stocastica è una relazione simmetrica.
Infatti, poiché P (A B ) = P (A B ) ⋅ P (B ) = P (B | A) ⋅ P (A)
Da entrambe le definizioni si ricava che
Esempio
Si estrae una carta da un mazzo di 52 carte.
Verificare se gli eventi
A: “esce un asso” B: “esce una carta di fiori”
sono stocasticamente indipendenti
1 1
P (A) = 4/52 = 1/13P (B ) = 13/52 = 1/4P (A B ) = ⋅ = 1/52
13 4
Schema di sintesi – Probabilità di unione e intersezione
Per quanto riguarda l’unione, P (A B ):
P (A) + P (B )
P(A) + P (B) − P (A B)
P (A) ⋅ P (B)
⋃
Ai = , Ai Aj = i, j i ≠ j
i=1
Osservazioni:
k k
(⋃ ) ∑
P Ai = P (Ai ) = P () = 1
➢
i=1 i=1
Variabili casuali
In molti casi, i risultati di un esperimento casuale sono rappresentati da numeri. L’utilizzo dei numeri per rappresentare
gli eventi favorisce l’elaborazione e l’analisi dei possibili risultati dell’esperimento.
Si dice variabile casuale (aleatoria, stocastica) ogni funzione che associa un solo numero reale ad ogni evento
appartenente ad una partizione di Ω.
- pi ≥ 0, i = 1, 2, …, k
∑
-
pi = 1
i
F (x) = P (X ≤ x)
Si tratta di una funzione a gradini (cumulata) poiché:
• F (x) = 0 x < x1
∑
• F (x) = pj xi ≤ x < xi+1
j≤i
• F (x) = 1 x ≥ xk
Il grafico di una funzione di ripartizione è appunto un grafico a gradini.
∑i
➢ Valore atteso (aspettativa) μ = E (X ) = xi pi
➢ Varianza:
2 2
σ 2 = Va r (X ) = E(X − μ) =
∑i (
- Formula diretta xi − μ) pi
σ 2 = Va r (X ) = E (X 2) − μ 2 = xi 2 pi − μ 2
∑i
- Formula indiretta
Trasformazioni lineari
Le proprietà della media e della varianza possono essere estese alle v.c.
Ad esempio, data una v.c. X con valore atteso e varianza noti, per la v.c. Y ottenuta dalla trasformazione lineare
Y = a + bX
Si ricavano
E (Y ) = a + b ⋅ E (X )e
Va r (Y ) = b 2Va r (X )
Una particolare trasformazione lineare è la standardizzazione:
Data una v.c. X con E (X ) = μ e con Va r (X ) = σ 2, allora ho la v.c. standardizzata Z:
X−μ
Z = e ha E (Z ) = 0 Va r (Z ) = 1
σ
Alcune variabili casuali discrete
1) Variabile casuale Uniforme:
Ha la seguente distribuzione di probabilità
1
p (x) = x = 1, 2, …, k
k
con k ∈ {1, 2, …} detto parametro della distribuzione.
- E (X ) = (k + 1)/2
- Va r (X ) = (k 2 − 1)/12
p (x) = p x (1 − p)1−x x = 0, 1
- E (X ) = p
- Va r (X ) = p ⋅ (1 − p)
Si sviluppa in 3 passi:
1. Si ha un evento E di probabilità p;
(x)
n n−x
p (x) = ⋅ p x(1 − p) x = 0, 1, 2, …, n
( x ) x !(n − x)!
n n!
e = detto coefficiente binomiale.
- E (X ) = n ⋅ p
- Va r (X ) = n p (1 − p)
Osservazioni:
- E (X ) = λ
- Va r (X ) = λ
Variabili casuali continue
Una variabile casuale continua X assume valori x in un intervallo (I; S ) (limitato o illimitato).
Una variabile casuale continua X è anche caratterizzata dalla funzione di densità di probabilità (f.d.p.)
f (x) ≥ 0 x ∈ (I; S )
che può essere interpretata come la probabilità associata all’intervallo di ampiezza d (piccola) centrato su x:
(x − d /2; x + d /2)
L’interpretazione di f (x) è quindi analoga a quella di fs.
F (x) = P (X ≤ x)
è pari all’area sottostante f (x) nell’intervallo (I; x).
Si ha ovviamente F (S ) = 1.
Come abbiamo visto, la distribuzione di probabilità di una variabile casuale continua presenta molte analogie con la
distribuzione di frequenze di un carattere continuo.
In questo contesto il calcolo del valore atteso E (X ), della varianza Va r (X ) o dei quantili è però più complesso,
perché si basa sull’impiego dei metodi di integrazione.
- E (X ) = (α + β )/2
- Va r (X ) = (α − β )2 /12
1
- P(a ≤ x ≤ b) = (b − a) ⋅
β −α
- E (X ) = μ
- Va r (X ) = σ 2
- σ = σ 2 è lo scarto quadratico medio di X
Tale distribuzione è detta curva di Gauss o degli errori accidentali perché si può impiegare per rappresentare
grandezze affette da errori di misura non sistematici.
La distribuzione Normale può essere ottenuta all’aumentare di n da quella della variabile casuale X~B( p; n).
Essa è molto utilizzata anche nell’ambito della inferenza statistica e nella teoria del campionamento.
- μ è detto parametro di localizzazione, coincide con il valore atteso, con la moda e con la mediana;
Un’altra caratteristica della curva della variabile casuale Normale è che ha due punti di flesso μ − σ e μ + σ.
Trasformazioni lineari
Data una variabile casuale X~N (μ; σ 2 ), per la variabile casuale Y ottenuta dalla trasformazione lineare
Y = a + bX si ha che
Y~N(a + bμ; b 2 σ 2 )
Osservazione: Ogni v.c. Normale X con μ e σ 2 noti si può trasformare nella v.c. Z.
Poiché la standardizzazione riguarda i valori della v.c. e non le probabilità, data una v.c. X~N (μ; σ 2 ) si ha
( σ )
X−μ x −μ
P (X ≤ x) = P ≤ = P (Z ≤ z ) = (z )
σ
Intervalli tipici
Si può ritagliare una parte della curva della v.c. Normale contenuta in un intervallo (μ − γ σ ; μ + γ σ).
P ( μ − γ σ ≤ X ≤ μ + γ σ)
A questo punto posso avere:
2. γ =1
P(μ − σ ≤ X ≤ μ + σ) = 0,6827
4. γ =3
P(μ − 3σ ≤ X ≤ μ + 3σ) = 0,9973