Sei sulla pagina 1di 52

STATISTICA

È pressoché impossibile dare una definizione di “statistica”. Le idee più comuni fanno pensare che la statistica faccia
riferimento a indici, tabelle, grafici prodotti dall’ISTAT, calcolo della probabilità, ecc.
Forse la definizione più azzeccata è questa: la statistica è una scienza che, attraverso degli strumenti, estrae
informazioni da una serie di dati.
Si può fare una distinzione tra statistica tradizionale (più o meno dal 1500 fino agli anni ‘60/’70) e moderna (dagli
anni ’60 ad oggi, non si studia in questo corso). A sua volta la statistica tradizionale si divide in:
• Statistica descrittiva: si occupa di descrivere la realtà dei fenomeni collettivi (es. fenomeni demografici,
andamento della temperatura in una città, soddisfazione dei clienti, …). Inoltre definisce indicatori di sintesi
(come la media e la moda) e metodi complessi di analisi;
• Statistica inferenziale (non si fa nel nostro corso): fornisce i metodi con cui riferire all’intera popolazione le
sintesi quantitative dei dati osservati su un campione di osservazioni. Ha un ruolo centrale nel calcolo delle
probabilità.
In entrambi i casi comunque i dati sono gli ingredienti, i metodi matematici sono gli strumenti e l’informatica è
sempre più importante.

La statistica può anche essere definita come la disciplina che si occupa di predisporre adeguati metodi quantitativi per:

- Raccogliere e organizzare,

- Elaborare e sintetizzare,

- Analizzare e interpretare
dati e informazioni utili per esaminare i fenomeni reali.

Obiettivi della statistica


I metodi statistici sono proposti e studiati per l’analisi dei fenomeni che si manifestano in una collettività.
Con le analisi statistiche ci si propone di individuare, descrivere, interpretare e prevedere, pur nella varietà delle
singole manifestazioni, le regolarità che sono alla base dei singoli fenomeni.
Per conoscere e/o comprendere un fenomeno, è quindi necessaria l’osservazione intenzionale di una molteplicità di casi
individuali.
Terminologia

➢ Popolazione: insieme degli oggetti che compongono il collettivo che si analizza;

➢ Unità statistica: ogni singolo elemento del collettivo che si analizza;

➢ Campione: sottoinsieme della popolazione composto dalle unità statistiche (spesso si fanno analisi statistiche
su campioni);

➢ Caratteri: una o più caratteristiche del fenomeno di interesse rilevati sulle singole unità statistiche della
popolazione;

➢ Modalità: i diversi modi con cui il carattere si presenta nelle unità statistiche della popolazione.
(es. il carattere è il colore dei capelli, le modalità sono castano, rosso, nero, biondo, …);

La rilevazione di uno o più caratteri consente di classificare (raggruppare) le unità statistiche che formano la
popolazione o il campione.

Le modalità hanno 2 requisiti, devono essere:


• Incompatibili (non sovrapposte), la stessa unità statistica non può essere messa in relazione (classificata) con
più di una modalità;
• Esaustive, le modalità elencate devono rappresentare tutti i possibili modi di essere del carattere, così che tutte
le unità statistiche del collettivo possano essere classificate.

Partizioni della statistica


La statistica si divide in 3 partizioni:
- Statistica univariata: analizza un carattere alla volta;
- Statistica bivariata: analizza congiuntamente due caratteri;

- Statistica multivariata: analizza congiuntamente più caratteri.

Matrice dei dati


Si tratta di una tabella nella quale vengono riportate le caratteristiche di ogni singola unità statistica della popolazione di
interesse.
Le modalità dei caratteri rilevati su ogni singola unità statistica stanno sulle righe, mentre i caratteri stanno sulle
colonne. All’incrocio tra una data riga e una data colonna si trova quello che viene detto dato elementare.

L’operazione di classificazione delle unità permette di ottenere tabelle e grafici per esempio per le distribuzioni di
frequenze, per la distribuzione doppia di frequenze, per le distribuzioni di quantità (la tabella consiste in un elenco di
unità statistiche accanto alle quali viene riportata una certa quantità), per le serie storiche (si tratta di una grandezza che
viene rilevata in istanti temporanei successivi).
Fonti di dati
Sono disponibili diverse fonti informative di carattere statistico a cura di Organismi pubblici e privati.
Gli Organismi pubblici agiscono secondo una gerarchia di competenze, ad esempio:

- Enti locali: raccolgono i dati elementari;

- ISTAT: verifica, aggrega e pubblica i dati;

- SISTAN: armonizza le varie fonti di dati;


- EUROSTAT: organismo UE che ha il compito di armonizzare la raccolta, l’analisi e la presentazione dei dati
ufficiali sulle nazioni aderenti.

CARATTERI
Abbiamo già dato la definizione di caratteri. Esistono due tipi di caratteri:

➢ Qualitativi: le cui modalità sono categorie, attributi (es. sesso, stato civile, ragione sociale, …);

➢ Quantitativi: le cui modalità sono numeri. Si dividono in:

- Discreti, se i numeri sono interi (es. numero di figli, numero di occupati, …);

- Continui, se i numeri sono reali (es. statura, peso, capitale sociale, …).

I caratteri a loro volta possono avere delle scale di misura. La scala di misura si costruisce quando si fissano le
modalità di un carattere ed i criteri di appartenenza alle stesse. La scala non è parte del carattere, ma scaturisce dalla sua
definizione operativa.
Per i caratteri qualitativi si usano scale:
• Nominali: in cui le modalità sono sconnesse (non ordinabili). Confrontando due modalità si può solo dire se
sono uguali/diverse;
• Ordinali: in cui le modalità sono in sequenza logica (ordinabili). Confrontando due modalità si può dire se una
precede/è nello stesso posto/segue l’altra (es. grado di istruzione).

Per i caratteri quantitativi si usane scale:


• Ad intervalli: in cui le modalità sono numeri riferiti ad uno zero arbitrario (origine convenzionale)
(es. la temperatura).
Non possiamo confrontare le modalità con il rapporto, possiamo confrontare le modalità con le differenze;
• Di rapporti: in cui le modalità sono numeri riferiti ad uno zero assoluto (es. capitale sociale).
Possiamo confrontare le modalità anche con il rapporto.

Trasformazione lineare di valori X in valori Y


Es. chiamiamo X il fatturato di un dato venditore, mentre chiamiamo Y lo stipendio del venditore.
Da contratto Y = 1000 + 0,1X, quindi tra X e Y esiste una trasformazione lineare.
In generale, dato un carattere X, si dice che Y è trasformazione lineare di X se Y = a + bX, dove a e b sono costanti.
Esistono 2 casi particolari di trasformazioni lineari:
• Traslazione: si ha quando b = 1, quindi la trasformazione lineare sarà Y = a + X;
• Trasformazione di scala: si ha quando a = 0, quindi la trasformazione lineare sarà Y = bX.

Gerarchia delle scale


La scala ordinale ha le proprietà della scala nominale e in più ha modalità ordinabili.
(quindi scala ordinale > scala nominale).
La scala ad intervalli ha la proprietà della ordinale e in più ha modalità numeriche.
(quindi scala a intervalli > scala ordinale).
La scala di rapporti ha le proprietà della scala ad intervalli e in più ha uno zero assoluto.
(quindi scala di rapporti > scala a intervalli).

Gli strumenti statistici predisposti per caratteri rilevati su una data scala possono essere applicati ai caratteri applicati su
scale superiori, ma non vale il viceversa.

RAPPORTI STATISTICI
Quando i dati statistici non ammettono un confronto diretto è necessario fare ricorso ad opportune elaborazioni degli
stessi. Qui possono trovare impiego i rapporti statistici.
I rapporti statistici sono il rapporto tra due dati, di cui almeno uno di natura statistica. Il loro compito è quello di
indicare quanta parte del numeratore spetta idealmente ad un’unità del denominatore.
Ci sono diverse tipologie di rapporti statistici:

➢ Rapporti di composizione: sono rapporti di una parte al tutto in cui si confronta l’intensità o la frequenza di
una parte alla intensità o la frequenza dell’intera popolazione (NB: le frequenze relative sono rapporti di
composizione);

➢ Rapporti di densità: sono rapporti tra l’intensità di un fenomeno e la dimensione del campo di osservazione
del fenomeno stesso;

➢ Rapporti di derivazione: sono rapporti tra l’intensità (o la frequenza) di un fenomeno e l’intensità (o


frequenza) di un altro fenomeno che si ritiene la causa o il presupposto del primo;

➢ Rapporti di coesistenza: sono rapporti tra fenomeni che coesistono e sono in qualche modo antitetici, per
esempio:

- nati – morti;

- importazioni – esportazioni;

- immigrazione – emigrazione.

➢ Rapporti di durata: sono rapporti da utilizzare quando si tratta di una massa di oggetti che subisce un continuo
ricambio. Indicano quanto tempo mediamente un oggetto rimane nella massa.
Per calcolare il rapporto di durata bisogna introdurre il termine consistenza, che è la quantità presente in un
determinato istante:
con s . ini ziale + con s . f in ale
- Consistenza media =
2
ent r ate + u scite
- Flusso medio =
2
c o n s i s t e n z a m ed i a
- Rapporto di durata =
f l u sso m ed i o

➢ Rapporti di ripetizione: sono rapporti che indicano il numero di volte che un certo fenomeno si ripete
nell’intervallo di tempo considerato. Sono dati dal reciproco del rapporto di durata:
1 f l u sso m ed i o
r a pp or t o d i r i p e t i z i o n e = =
r a pp or t o d i d u r a t a c o n s i s t e n z a m ed i a
Numeri indici
Oltre alle 6 tipologie di rapporti statistici già citate, c’è un’altra tipologia, i numeri indici, che a loro volta si dividono
in:
• Numeri indici semplici: servono a confrontare le intensità (o frequenze) di un unico fenomeno in tempi e
luoghi diversi;
• Numeri indici composti: servono a confrontare in tempi e luoghi diversi un fenomeno che risulta dal
concorso di più componenti.

Per ora studieremo i numeri indici semplici.

Numeri indici semplici


Abbiamo una serie storica di dati, possiamo valutare come il fenomeno è variato nel tempo calcolando i numeri indici a
base fissa e/o a base mobile.

➢ Numeri indici a base fissa (NIbf): si ottengono facendo il rapporto di ogni singola osservazione Xt con un
termine della serie storica Xb che viene mantenuto fisso (base fissa):
Xt
b It = ( × 100), t = 0,1, 2,…
Xb
Essendo numeri puri consentono il confronto tra fenomeni con diverso ordine di grandezza.
L’interpretazione dei NIbf si effettua calcolando le variazioni tendenziali (bVt):

- Nel caso dei numeri indici in forma unitaria ho: bVt = ( b It − 1) × 100;

- Nel caso dei numeri indici in forma percentuale ho: bVt = ( b It − 100).

Per l’interpretazione del valore del NIbf bisogna anche:


• Valutare se bVt è positiva (ho un incremento), negativa (ho un decremento), nulla (ho costanza);
• Valutare quanto il fenomeno è cresciuto o diminuito (%);
• Da quando (anno base) a quando (anno t), quindi il periodo.
➢ Numeri indici a base mobile (NIbm): si ottengono eseguendo il rapporto tra ogni singola osservazione con il
termine Xt−1 del periodo immediatamente precedente, che quindi cambia ogni volta (base mobile):
Xt
t−1 Ib = ( × 100), t = 1,2, …
Xt−1

N.B: NIbm del primo termine della serie non è calcolabile (perché non esiste un termine che lo precede nella
serie).
Anche in questo caso, essendo numeri puri consentono di confrontare fenomeni con diversi ordini di
grandezza.
L’interpretazione dei NIbm si effettua calcolando le variazioni congiunturali (t−1Vt ):

- Nel caso dei numeri indici in forma unitaria ho: t−1Vt = ( t−1It − 1) × 100;

- Nel caso dei numeri indici in forma percentuale ho: t−1Vt = ( t−1It − 100).

Anche per l’interpretazione del valore del NIbm bisogna:


• Valutare il segno (incremento, decremento o costanza);
• Valutare l’intensità (quanto il fenomeno è cresciuto o diminuito),
• Valutare il periodo al quale faccio riferimento.

Osservazioni:

- I numeri indici (bf e bm) sono sempre positivi, anche quando segnalano una diminuzione;

- Le variazioni (tendenziali e congiunturali) hanno, invece, un segno positivo o negativo (se diverse
da zero).

Trasformazioni dei Numeri Indici


Ci sono 3 tipi di trasformazioni:
• Cambiamento di base: abbiamo visto che se abbiamo una serie storica di dati, possiamo trovare NIbm e NIbf,
con basi differenti, ma possiamo anche soddisfare le varie esigenze di lettura delle variazioni congiunturali o
tendenziali.
Spesso però non possiamo procedere per questa via perché non disponiamo dei dati originari, quando invece
conosciamo i NI (bf o bm) o le corrispondenti variazioni (tendenziali o congiunturali).
Per esprimere i NIbf di una vecchia base (vb) in NIbf di una nuova base (nb) utilizziamo i rapporti:

vb It Xt /X vb Xt
= = = I
vb Inb Xnb /Xvb Xnb nb t
• Passaggio da base fissa a base mobile: per esprimere i NIbf in NIbm utilizziamo i rapporti:

b It Xt /Xb X
= = t = t−1It
b It−1 Xt−1 /Xb Xt−1
• Passaggio da base mobile a base fissa: per esprimere i NIbm in NIbf utilizziamo la seguente relazione
moltiplicativa (che permette di ottenere NIbf con base t = 0):
X1 X2 X X X
0 I1 × 1I2 × … × t−2 It−1 × t−1It = × × … × t−1 × t = t = 0 It
X 0 X1 Xt−2 Xt−1 X0

Se interessa una base b diversa da 0, si effettua il cambiamento di base usando la relazione mostrata.

DISTRIBUZIONI DI FREQUENZE
La distribuzione di frequenze di un carattere è una tabella che mostra in modo efficace e sintetico i risultati delle
operazioni di classificazione e conteggio delle unità della popolazione.
A seconda del tipo di carattere, se ne possono effettuare diverse elaborazioni e rappresentazioni.
Seguendo la gerarchia delle scale, per i caratteri qualitativi in scala nominale si possono calcolare due tipi di
frequenze:

- Frequenza assoluta (ni), ovvero il numero di volte che la modalità si presenta nella popolazione;

- Frequenza relativa (fi), o percentuale ( fi%), che servono per mettere in evidenza il “peso” della
singola modalità sul totale. La si trova facendo:
ni
fi = ( × 100)
N
Le frequenze relative sono dei rapporti di composizione. Permettono di valutare l’importanza di ogni
modalità e permettono anche di effettuare confronti tra popolazioni di diversa numerosità.
p


Osservazione: ni = N.
i=1

I grafici che comunemente vengono utilizzati per rappresentare questi tipi di frequenze sono: grafico a torta e
pictogramma.

Per i caratteri qualitativi in scala ordinale, oltre alle frequenze assolute e relative, si possono calcolare anche altri due
tipi di frequenze:
- Frequenza cumulata, consiste nella somma della frequenza (assoluta o relativa che sia) di una
modalità e di quelle delle modalità che la precedono.
Per le frequenze assolute si indica con Ni, per le frequenze relative con Fi, per le frequenze
percentuali con Fi%.

Per capirle meglio usiamo un esempio:

Titolo Frequenze Assolute Frequenze Cumulate

Lic. Media 36 36
+
Diploma 72 108
+
Laurea 42 150

Totale 150

Se vado a prendere la modalità “Diploma”, grazie alle frequenze cumulate noto che 108 persone possiedono al
massimo il diploma.
Quindi con le frequenze cumulate posso vedere: …al massimo…, oppure …non più di…

- Frequenza retrocumulata, consiste nella somma della frequenza (assoluta o relativa che sia) di una
modalità e di quelle che la succedono.
Per le frequenze assolute si indica con N̄i, per le frequenze relative con F̄i, per le frequenze
percentuali con F̄i%.

Se riprendiamo l’esempio precedente:

Titolo Frequenze Assolute Frequenze Cumulate


Lic. Media 36 150
+
Diploma 72 114
+
Laurea 42 42

Totale 150

Se vado a prendere la modalità “Diploma”, grazie alle frequenze retrocumulate noto che 114 persone possiedono
almeno il diploma.

Quindi con le frequenze retrocumulate posso vedere: …almeno…, oppure …non meno di…

I caratteri quantitativi si possono dividere in 3 sottocategorie:

a) Carattere discreto, con “intensità separate”;


b) Carattere discreto raggruppato in classi;

c) Carattere continuo.

Carattere discreto con intensità separate


Con questo tipo di carattere si possono calcolare tutti i tipi di frequenze visti, quindi le assolute, le relative, le
percentuali, le cumulate e le retrocumulate.
Dal punto di vista della rappresentazione grafica troviamo delle differenze:

➢ Per le ni , fi , fi% usiamo il diagramma a bastoncini, i punti avranno come coordinate (Xi , ni) oppure (Xi , fi )
e sono proiettati sull’asse delle ascisse.
L’altezza ottenuta dai bastoncini quindi equivale alla frequenza assoluta o relativa;

➢ Per le Ni , Fi , Fi% usiamo il diagramma a gradini crescente, i punti avranno come coordinate (Xi , Ni )
oppure (Xi , Fi ). Dal punto si traccia un segmento orizzontale di lunghezza pari a 1 verso destra.
L’altezza di un gradino quindi equivale alla frequenza cumulata assoluta o relativa;

➢ Per le N̄i , F̄i , F̄i% usiamo il diagramma a gradini decrescente, i punti avranno come coordinate (Xi , N̄i )
oppure (Xi , F̄i ). Dal punto si traccia un segmento orizzontale di lunghezza pari a 1 verso sinistra.
L’altezza di un gradino quindi equivale alla frequenza retrocumulata assoluta o relativa.

Carattere discreto raggruppato in classi


Quando il carattere discreto presenta un numero rilevante di modalità, è preferibile raggrupparle in classi (intervalli)
incompatibili ed esaustive. Ciò comporta evidentemente una certa perdita di informazioni.
Con questo tipo di carattere si possono calcolare tutti i tipi di frequenze visti, quindi le assolute, le relative, le
percentuali, le cumulate (…al massimo… rispetto all’estremo superiore della classe) e le retrocumulate (…almeno…
rispetto all’estremo inferiore della classe).
L’operazione di raggruppamento ha, però, compromesso la tabella di partenza: infatti ora non conosciamo più la
frequenza di ogni singola modalità.
Per attribuire le frequenze alle singole modalità di ogni classe, se non abbiamo informazioni a priori introduciamo la
ipotesi di equidistribuzione, ovvero si ipotizza che la frequenza di una classe venga ripartita equamente tra le sue
modalità. Troviamo così le frequenze specifiche:
f r eq u e n z a cl a ssei ni
➢ Frequenze assolute specifiche: n si = a m pi e z z a cl a sse = a ;
i i

f r eq u e n z a r el a t i v a cl a ssei fi
➢ Frequenze relative specifiche: f si = a m pi e z z a cl a ssei
=
ai
.

L’ampiezza della classe si calcola: ai = Esup − Ein f + 1.

La frequenza specifica è una frequenza ipotetica: rappresenta la frequenza attribuita a ciascuna modalità della classe
nell’ipotesi di equidistribuzione. Di conseguenza, n si può essere non intera.

Dal punto di vista della rappresentazione grafica:

➢ Per le ni , fi , fi% usiamo il diagramma a bastoncini, i punti avranno come coordinate (Xi , n si) oppure
(Xi , f si ) e sono proiettati sull’asse delle ascisse.
L’altezza ottenuta dai bastoncini quindi equivale alla frequenza specifica assoluta o relativa.
La frequenza di una classe è uguale alla somma delle sue frequenze specifiche;
➢ Per le Ni , Fi , Fi% usiamo il diagramma a gradini cumulato, si ottiene dalla distribuzione cumulata delle
frequenze specifiche (assolute o relative).
L’altezza di un gradino corrisponde quindi alla frequenza specifica (assoluta o relativa);

➢ Per le N̄i , F̄i , F̄i% usiamo il diagramma a gradini decrescente, si ottiene dalla distribuzione retrocumulata
delle frequenze specifiche (assolute o relative).
L’altezza di un gradino corrisponde quindi alla frequenza specifica (assoluta e relativa).

Tuttavia, se una volta che esplodo la tabella delle classi noto che il numero di intensità singole è molto elevato devo fare
un’approssimazione, ovvero devo trattare il carattere come se fosse continuo, quindi applico l’ipotesi di contiguità
delle classi.
Rendendo le classi contigue, l’estremo inferiore di ogni classe è fatto coincidere con l’estremo superiore della classe
immediatamente precedente.
Una volta che le classi vengono rese contigue, il carattere viene trattato come se fosse continuo, e vediamo adesso il
caso del carattere continuo.

Carattere continuo
Con questo tipo di carattere si possono calcolare tutti i tipi di frequenze visti, quindi le assolute, le relative, le
percentuali, le cumulate (…al massimo… rispetto all’estremo superiore della classe) e le retrocumulate (…almeno…
rispetto all’estremo inferiore della classe).
Se il carattere è continuo, la corrispondente distribuzione di frequenze deve necessariamente essere rappresentata per
classi.
Le classi possono essere di uguale ampiezza o di ampiezza diversa. L’ampiezza di una classe nel caso del carattere
continuo si calcola: ai = Esup − Ein f.

Dal punto di vista della rappresentazione grafica:

➢ Per le ni , fi , fi% usiamo l’istogramma, che è un grafico che rappresenta le classi con dei rettangoli. I
rettangoli sono adiacenti perché le classi sono continue (l’estremo inferiore di ogni classe è fatto coincidere
con l’estremo superiore della classe immediatamente precedente).
La base dei rettangoli corrisponde alle varie ampiezze delle classi (b a se = ai).
L’altezza dei rettangoli corrisponde alle frequenze spcifiche assolute o relative che siano
(a l t e z z . = n si o f si).
L’area dei rettangoli corrisponde alle frequenze assolute o relative che siano (a r ea = ni o fi).

➢ Per le Ni , Fi , Fi% usiamo quello che chiamiamo spezzata crescente, un grafico che è formato da punti con
coordinate (Esup; Ni oppure Fi) che sono uniti tra di loro da segmenti, i quali rappresentano il cumulo costante
delle frequenze della classe.

➢ Per le N̄i , F̄i , F̄i% usiamo quello che chiamiamo spezzata decrescente, un grafico che è formato da punti con
coordinate (Ein f; N̄i oppure F̄i) che sono uniti tra di loro da segmenti.

Analisi e confronti
L’analisi della forma della distribuzione e il confronto tra distribuzioni rilevate in situazioni diverse offrono spesso utili
informazioni sul fenomeno considerato.
In queste analisi sono spesso impiegati i concetti di:
• Baricentro, cioè il valore attorno al quale i dati osservati oscillano;
• Variabilità, cioè la tendenza ad assumere una gamma diversa di valori;
• Asimmetria.
L’analisi grafica risulta essere molto utile per evidenziare particolari aspetti delle distribuzioni di frequenza, soprattutto
anche grazie all’uso del poligono di frequenze, un grafico ottenuto dall’unione con segmenti rettilinei dei punti
immagine delle frequenze delle varie classi.

Oltre all’analisi grafica, per evidenziare i particolari aspetti delle distribuzioni di frequenza si impiegano spesso anche
degli indici di sintesi che permettono di valutare numericamente tali aspetti. In particolare si usano:
- Indici medi;

- Indici di variabilità;

- Indici di asimmetria.

MEDIE
Una media è un indice impiegato per sintetizzare le diverse modalità di una distribuzione di frequenze con una sola
modalità qualitativa (nel caso mutabile) o un solo valore (nel caso variabile).
Essa fornisce una buona sintesi delle differenti modalità di una distribuzione solo se le rappresenta adeguatamente.
Esistono due tipologie di medie:

➢ Medie di posizione: sono individuate solo tramite le frequenze.


Si possono quindi determinare anche nel caso di mutabili. Le più utilizzate sono: Moda e Mediana;

➢ Medie algebriche: sono individuate anche attraverso i valori.


Si possono quindi calcolare solo nel caso di variabili. Le più utilizzate sono: Aritmetica, Geometrica,
Armonica, Quadratica, …
MEDIE DI POSIZIONE

Moda
La moda può essere definita come la modalità che presenta la frequenza più elevata.
Guardiamo l’esempio: Distribuzione di 180 abitazioni per titolo di godimento

Titolo di godimento Frequenze Frequenze %

Proprietà 90 50

Affitto 54 30

Altro titolo 36 20

Totale 180 100

Notiamo che “Proprietà” è la moda di questo carattere perché rappresenta la metà delle abitazioni.

Una volta che ho trovato la moda di un carattere devo dare un indice di rappresentatività della moda, dato dalle
frequenze percentuali.

Se la moda si calcola per i caratteri qualitativi nominali (più basso grado della gerarchia delle scale), allora si può
calcolare per tutti i caratteri successivi.
Per esempio, per un carattere quantitativo continuo, per trovare la moda ho bisogno delle frequenze specifiche:

ES. Distribuzione di 200 individui per reddito annuo da lavoro

Reddito (.000 di euro) Frequenze fi% f si %


Fino a 6 40 20,0 3,33

6 ┤10 50 25,0 6,25

10 ┤20 90 45,0 4,50

20 ┤50 15 7,5 0,25

Oltre 50 5 2,5 0,08

Totale 200 100,0

Siccome le classi hanno diversa ampiezza, non riusciamo a capire quale sia la classe modale guardando le frequenze
assolute.
Guardando le frequenze specifiche notiamo che la classe modale è “6 ┤10”, però osservando le frequenze relative %
notiamo che rappresenta solo il 25% del totale, quindi è una moda poco rappresentativa.
Se guardo l’istogramma di questo carattere, la moda è rappresentata dal rettangolo più alto.
A volte capita che la rappresentazione grafica di una distribuzione possa evidenziare la presenza di due mode.
Questo caso è detto “Distribuzione bimodale”, la presenza di due mode può suggerire che la popolazione non è
composta da unità omogenee, ma da due gruppi distinti (con baricentro diverso).

Quindi ricapitolando:
• Possiamo determinate la moda (Mo) qualunque sia la scala di misura del carattere;
• La sintesi operata da Mo è ritenuta adeguata quando la sua frequenza rappresenta almeno il 50% dei casi;
• Se le modalità sono raggruppate in classi, individuiamo la classe modale tramite le frequenze specifiche (ass. o
rel.).

Mediana
Per la mediana bisogna distinguere due casi: il caso della distribuzione per unità e il caso della distribuzione di
frequenze.
Per capire meglio il caso della distribuzione per unità vediamo un esempio:
Reddito da lavoro di 7 individui

Individui Redditi Redditi ordinati Individui


(.000 di euro) ordinati
A 15 8 B
B 8 9 D
C 18 15 A
D 9 18 C
E 32 20 G
F 25 25 F
G 20 32 E

Per trovare il reddito che si trova nella posizione centrale dobbiamo prima ordinare i valori.
La mediana è “18”.

La mediana ha due definizioni:


1) La mediana (Me) è la modalità che occupa la posizione centrale della successione ordinata (in senso non
decrescente);

2) La mediana (Me) è la modalità che divide l’insieme ordinato delle modalità in due gruppi di uguale
numerosità.

Si tratta quindi di un indice di posizione.


I due gruppi definiti dalla mediana hanno le seguenti proprietà:
• Il 1° gruppo comprende le modalità che sono al più uguali a Me;
• Il 2° gruppo comprende le modalità che sono almeno uguali a Me.

La mediana può essere individuata solo quando i caratteri sono almeno su scala ordinale.
Per individuare la mediana bisogna vedere se il totale delle unità (N) è pari o dispari:
N+1
➢ Se N è dispari, la posizione di Me è unica e si trova:
2

Viene indicata con x(i) l’i-esima modalità ordinata: Me = x( N + 1 )


2

N N
➢ Se N è pari, le posizioni di Me sono due: e +1
2 2
Ad esse corrispondono due modalità mediane:

x( N ) e x( N +1)
2 2

Se il carattere è quantitativo e si vuole assumere un unico valore per Me, si può assumere la semisomma
(valore centrale):
x( N ) + x( N +1)
2 2
Me =
2
Per il caso della distribuzione di frequenze ho due passaggi da svolgere:

1) Calcolare le distribuzioni di frequenze relative cumulate (Fi);

2) Individuare la riga in cui per la prima volta Fi ≥ 0,5.

A questo punto ho due casi:

➢ Se ho un carattere qualitativo in scala ordinale oppure un carattere quantitativo discreto con “intensità
separate”, alla riga individuata (punto 2) corrisponde una sola modalità o intensità e questa sarà la mediana;

➢ Se ho un carattere quantitativo discreto raggruppato in classi oppure un carattere quantitativo continuo, alla
riga individuata (punto 2) corrisponde una classe di valori (classe mediana).
Per individuare il valore della mediana all’interno della classe utilizzo il metodo dell’interpolazione (guarda
sul quaderno come si fa). A questo punto trovo la mediana.
N.B: nel caso del carattere discreto bisogna arrotondare per eccesso.

Proprietà di minimo della mediana


Sia X un carattere quantitativo.
Si dimostri che
N


min ⃒xi − A ⃒A
i=1

Si ha se e solo se:
• A = Me nel caso di N dispari;
• x( N ) ≤ A ≤ x( N +1) nel caso di N pari.
2 2

Generalizzazioni della Mediana – Quantili o Frattili


Se il carattere è quantitativo e la popolazione è numerosa, si possono calcolare altri indici di posizione, che sono una
generalizzazione del concetto di mediana.

Quartili
Sono i 3 valori Q1 Q2 Q3 che dividono la successione ordinata dei valori in 4 gruppi di uguale numerosità.

Qs = x(s/4) s = 1,2, 3

Osservazione: Q2 = Me.

Decili
Sono i 9 valori D1 D2… D9 che dividono la successione ordinata dei valori in 10 gruppi di ugual numerosità.

Ds = x(s/10) s = 1,2, …, 9

Osservazione: D5 = Q2 = Me.

Centili (o percentili)
Sono i 99 valori C1 C2… C99 che dividono la successione ordinata dei valori in 100 gruppi di uguale numerosità.

Cs = x(s/100) s = 1,2, …, 99

Osservazione: C25 = Q1
C50 = Q2 = Me
C75 = Q3

Modalità di calcolo di quartili, decili e percentili


Le modalità di calcolo di questi indici riguardano solo le distribuzioni di frequenze.
Devo seguire due passaggi:

• Calcolo della distribuzione di frequenze relative cumulate (Fi);


• Individuare la riga in cui per la prima volta:

- Per i quartili:

➢ Q1, devo trovare la riga in cui per la prima volta Fi ≥ 0,25;

➢ Q2, devo trovare la riga in cui per la prima volta Fi ≥ 0,50;

➢ Q3, devo trovare la riga in cui per la prima volta Fi ≥ 0,75.

- Per i decili:

➢ D1, devo trovare la riga in cui per la prima volta Fi ≥ 0,10;

➢ D2, devo trovare la riga in cui per la prima volta Fi ≥ 0,20;

➢ …

➢ D9, devo trovare la riga in cui per la prima volta Fi ≥ 0,90.

- Per i percentili:

➢ C1, devo trovare la riga in cui per la prima volta Fi ≥ 0,01;

➢ …

➢ C28, devo trovare la riga in cui per la prima volta Fi ≥ 0,28;

➢ …
➢ C99, devo trovare la riga in cui per la prima volta Fi ≥ 0,99.

Ci sono dei sottocasi:

A. Carattere qualitativo in scala ordinale oppure carattere quantitativo discreto con “intensità separate”:
Es.

n di stanze fi Fi
1 0,04 0,04

2 D2 0,18 0,22 ≥ 0,20

3 Q1 0,27 0,49 ≥ 0,25

4 0,29 0,78

5 C90 0,15 0,93 ≥ 0,90

6 0,07 1,00

Q1 Fi ≥ 0,25 Q1 = 3

D2 Fi ≥ 0,20 D2 = 2

C90 Fi ≥ 0,90 C90 = 5


B. Carattere quantitativo discreto raggruppato in classi (devo rendere le classi contigue e poi alla fine
arrotondare per eccesso) oppure carattere quantitativo continuo:
Es.

Reddito fi Fi
0 ┤6 0,20 0,20

6 ┤10 0,25 0,45 ≥ 0,28

10 ┤20 0,45 0,90

20 ┤50 0,08 0,98

Oltre 50 0,02 1,00

C28 Fi ≥ 0,28 classe “6 ┤10”

A questo punto ho trovato la classe in cui si trova il percentile 28, per trovare il valore esatto devo fare l’interpolazione
lineare: x F
Ein f
6 0,20

C28
6+x 0,28
Ein f
10 0,45

(6 + x − 6) : (0,28 − 0,20) = (10 − 6) : (0,45 − 0,20)


x : 0,08 = 4 : 0,25 x = 1,28

Quindi C28 = 6 + x = 7,28

MEDIE ALGEBRICHE

Media aritmetica (M1)


Come abbiamo visto, in una distribuzione di frequenze la moda e la mediana sono individuate utilizzando solo le
frequenze.
Se il carattere è quantitativo, possiamo calcolare anche delle medie algebriche. Queste medie si ottengono effettuando
operazioni algebriche sui valori che il carattere assume nella popolazione.
Si distingue la media aritmetica per le distribuzioni di unità e la media aritmetica per le distribuzioni di frequenze.

Per le distribuzioni di unità la media aritmetica (M1) equivale alla somma dei valori x1, x 2, …, xN divisa per il
numero di osservazioni:

x1 + x 2 + … + xN ∑N xi
M1 = M1(X ) = = i=1
N N
Interpretazione:
N
∑i=1 i
Se la somma a numeratore ha un significato reale x =T
allora la media aritmetica rappresenta quanta parte del totale spetta ad ogni unità del denominatore nell’ipotesi che esso
sia equamente ripartito (es. reddito, addetti, …).
Osservazione: M1 può essere calcolata anche se T non ha significato concreto (es. somma delle altezze di N individui).

Per le distribuzioni di frequenze è meglio vedere un esempio:


Distribuzione di 120 abitazioni per numero di stanze

Num. Stanze ni ni × xi
xi
1 5 1×5=5
2 22 2 × 22 = 44
3 32 3 × 32 = 96
4 35 4 × 35 = 140
5 18 5 × 18 = 90
6 8 6 × 8 = 48

Tot. 120 423

La media aritmetica si calcola dividendo la somma di tutte le stanze per il numero di abitazioni:
M1 = 423: 120 = 3,525 s t a n z e
Osservazione: Il valore trovato non è intero, ma comunque non si approssima!!

Lo stesso risultato si ottiene utilizzando le frequenze relative, solo che il valore della media aritmetica lo si trova
sommando tutti i valori presenti nella colonna “xi × fi”.

Num. Stanze fi fi × xi
xi
1 0,042 0,042 +

2 0,183 0,366 +

3 0,267 0,800 +

4 0,292 1,167 +

5 0,150 0,750 +

6 0,066 0,400 =

Tot. 1,000 3,525 = M1

Media aritmetica ponderata


La media aritmetica ponderata (M1) è, in generale, la somma dei valori x1, x 2, …, xp ponderati con i loro pesi
w1, w2, …, wp divisa per la somma di tutti i pesi:
x1w1 + x 2 w2 + … + xp wp
M1 =
w1 + w2 + … + wp

Si può esprimere la media aritmetica ponderata anche come:

∑pi=1 xi wi wi
M1 = , ma = vi
∑ wi ∑ wi
p


Quindi: M1 = xi vi.
i=1


Osservazione: vi = 1.

La media aritmetica ponderata viene utilizzata in 3 casi:

➢ Nelle distribuzioni di frequenze assolute: in questo caso wi = ni, quindi la formula per trovare M1 è:
x1n1 + x 2 n 2 + … + xp np
M1 =
N
Quindi possiamo dire che la M1 nel caso delle frequenze assolute è una media ponderata dei valori xi con pesi
dati dalle ni.

➢ Nelle distribuzioni di frequenze relative: in questo caso wi = fi, quindi la formula per trovare M1 è:

x1 f1 + x 2 f2 + … + xp fp
M1 =
1
Quindi possiamo dire che la M1 nel caso delle frequenze relative è una media ponderata dei valori xi con pesi
dati dalle fi.

➢ In tutti i casi in cui ha senso che i valori xi entrino nelle medie con peso diverso (es. voti/prezzi/rapporti
statistici/…).

Ritornando al calcolo della media aritmetica, il caso delle distribuzioni di frequenze va analizzato a sua volta in due
casi:

A) Se il carattere è discreto con “modalità separate”, come abbiamo visto la media si calcola:

∑ xi ni
∑ i i
M1 = = x f
N

B) Se il carattere è raggruppato in classi (discreto o continuo), per rendere operative le espressioni viste in
precedenza è necessario che ogni classe sia rappresentata da un unico valore. Si presentano però dei casi
diversi, a seconda del tipo di informazioni che abbiamo:

- Senza alcun tipo di informazione aggiuntiva (oltre alla distribuzione di frequenze): in questo caso
faccio il calcolo dei valori centrali di classe (ci) e chiudo eventuali estremi aperti:

Esup + Ein f
ci =
2
La media aritmetica che trovo sarà:

∑ ci ni
∑ i i
M ′1 = = c f
N
La indichiamo con l’apostrofo perché non è la media aritmetica esatta, ma è un’approssimazione.

- Con informazione aggiuntiva che riguarda i totali di classe (ti), la media aritmetica che troviamo è
una media esatta e si calcola:

∑ ti T
M1 = =
N N
- Con informazione aggiuntiva che riguarda le medie di classe (M1(i )), le medie di classe si
calcolano:

M1(i ) = ti /ni
La media che otteniamo si calcola:

∑ M1(i ) × ni
∑ 1
M1 = = M (i ) × fi
N
È una media esatta, perché sostituendo la formula per trovare la media di classe all’interno della
formula per trovare la media aritmetica notiamo che, semplificando, otteniamo la stessa formula della
media aritmetica con i totali di classe.

Proprietà della media aritmetica

1) Proprietà associativa della media aritmetica: La media aritmetica di una variabile osservata su una
popolazione suddivisa in p gruppi è uguale alla media aritmetica ponderata delle medie aritmetiche di
gruppo (M1( p)), con pesi pari alle numerosità dei gruppi.

∑ M1(i ) × ni ∑ ti T
M1 = = =
N N N

2) Proprietà di bilanciamento degli scarti: La media aritmetica bilancia gli scarti positivi e negativi, infatti si
N


nota che (xi − M1) = 0.
i=1

N
∑ xi
∑ ∑ ∑ ∑ ∑ ∑ i ∑ i
Dimostrazione: (xi − M1) = xi − M1 = xi − N M1 = xi − N = x − x =0
i=1
N

3) Proprietà di internalità: Questa proprietà dice che x1 ≤ M1 ≤ xN. L’uguaglianza vale solo nel caso in cui tutti
i valori x siano uguali tra loro.

Per dimostrare questa proprietà si usa la proprietà di bilanciamento degli scarti:

∑ i
- Non può essere M1 < x1 perché se così fosse, avremmo scarti positivi, ovvero (x − M1) > 0 e
questo abbiamo visto essere impossibile per la proprietà di bilanciamento degli scarti;

∑ i
- Non può essere M1 > xN perché se così fosse, avremmo scarti negativi, ovvero (x − M1) < 0 e
questo abbiamo visto essere impossibile per la proprietà di bilanciamento degli scarti.

(xi − A)2

4) Proprietà di minimo: Dato un carattere quantitativo X si dimostra che m i n

A
Se e solo se A = M1.

N 2
∑ [( i
x − M1) + (M1 − A)] =
2
∑(
Dimostrazione: xi − A + M1 − M1) =
i=1

∑ [(
xi − M1) + (M1 − A) + 2(xi − M1)(M1 − A)] =
2 2
=

2 2
∑( i
x − M1) +
∑( 1
M − A) + 2
∑( i
= x − M1)(M1 − A) =

(xi − M1)2 + (M1 − A)2 + 2(M1 − A)


∑ ∑ ∑
= (xi − M1)

=0

Quindi ho che:
N
(xi − A)2 = (xi − M1)2 + N(M1 − A)2
∑ ∑
>0
i=1

N
(xi − A)2 ≥ (xi − M1)2
∑ ∑
i=1

L’uguale nella disuguaglianza lo si ha solo quando M1 = A.

5) Proprietà delle trasformazioni lineari: Se tra i due caratteri quantitativi Y e X sussiste la relazione
Y = a + bX con a e b costanti, allora M1(Y ) = a + bM1(X ).

Dimostrazione:
∑ yi ∑ (a + b xi ) ∑ a + ∑ b xi Na + b ∑ xi Na b ∑ xi
M1(Y ) = = = = = + = a + bM1(X )
N N N N N N

Principio di Chisini
La media aritmetica può essere dedotta sulla base di considerazioni di invarianza.
Secondo Chisini, una media sintetizza i dati in modo adeguato quando mantiene invariato un aspetto di interesse del
fenomeno considerato.
Con il metodo di Chisini si possono quindi trovare medie diverse, a seconda degli obiettivi dell’analisi.
Quindi la base del principio di Chisini è il concetto di invarianza, devo:

1) Definire un aspetto di interesse che deve rimanere invariato;

2) Individuare un valore (media secondo Chisini) che sostituito alle singole osservazioni lascia invariato
l’aspetto di interesse.
Media aritmetica (M1)
La si calcola con il principio di Chisini se l’aspetto che deve rimanere invariato è il totale.
• Per quanto riguarda la media aritmetica semplice, ho una serie di osservazioni x1 x 2 … . xN il cui totale
(somma) è t ot a l e = x1 + x 2 + … + xN.
Alle singole osservazioni sostituisco un valore x̄ tale che il totale diventa

t ot a l e = x̄ + x̄ + … + x̄ = N x̄
A questo punto uguaglio le due equazioni:

N x̄ = x1 + x 2 + … + xN

Quindi riesco a ricavare x̄:


x1 + x 2 + … + xN
x̄ =
N
• Per quanto riguarda la media aritmetica ponderata, ho una serie di osservazioni x1 x 2 … . xP e di rispettivi
pesi n1 n 2 … nP e il totale è

t ot a l e = x1n1 + x 2 n 2 + … + xP nP

Alle singole osservazioni sostituisco un valore x̄ tale che il totale diventa

t ot a l e = x̄ n1 + x̄ n 2 + … + x̄ nP

A questo punto uguaglio le due equazioni:

x1n1 + x 2 n 2 + … + xP nP = x̄ n1 + x̄ n 2 + … + x̄ nP

Raccolgo x̄:

x̄ (n1 + n 2 + … + nP) = x1n1 + x 2 n 2 + … + xP nP

E quindi riesco a ricavare x̄:


x1n1 + x 2 n 2 + … + xP nP
x̄ =
N
Media armonica (M−1)
La si calcola con il principio di Chisini se l’aspetto che deve rimanere invariato è la somma dei reciproci.
• Per quanto riguarda la media armonica ponderata, ho una serie di osservazioni x1 x 2 … . xP e di rispettivi
pesi n1 n 2 … nP la cui somma dei reciproci è
n1 n 2 np
so m m a r ec i pr o c i = + +…+
x1 x2 xp

Alle singole osservazioni sostituisco un valore x̄ tale che la somma di reciproci diventa
n1 n 2 np
so m m a r ec i pr o c i = + +…+
x̄ x̄ x̄
A questo punto uguaglio le due equazioni:
n1 n 2 np n n np
+ +…+ = 1 + 2 +…+
x̄ x̄ x̄ x1 x2 xp

Posso anche scriverla come:


N n n np
= 1 + 2 +…+
x̄ x1 x2 xp
Quindi riesco a ricavare x̄:
N
x̄ = n1 n2 np
x1
+ x2
+…+ xp

O meglio:
N
x̄ = ni
∑ xi

• Per quanto riguarda la media armonica semplice, ho una serie di osservazioni x1 x 2 … . xN.

Con lo stesso ragionamento ricavo x̄:


N
x̄ = 1
∑ xi

Media geometrica (M0)


La si calcola con il principio di Chisini se l’aspetto che deve rimanere invariato è il prodotto.
• Per quanto riguarda la media geometrica semplice, ho una serie di osservazioni x1 x 2 … . xN il cui prodotto è

pr o d ot t o = x1 × x 2 × … × xN

Alle singole osservazioni sostituisco un valore x̄ tale che il prodotto è

pr o d ot t o = x̄ × x̄ × … × x̄ = x̄ N
A questo punto uguaglio le due equazioni:

x̄ N = x1 × x 2 × … × xN

Quindi riesco a ricavare x̄:

x̄ = N x1 × x 2 × … × xN

O meglio:

N

x̄ = xi

• Per quanto riguarda la media geometrica ponderata, ho una serie di osservazioni x1 x 2 … . xP e di rispettivi
pesi n1 n 2 … nP e il prodotto è

pr o d ot t o = x1n1 × x 2 n 2 × … × xP nP

Alle singole osservazioni sostituisco un valore x̄ tale che il prodotto sia

pr o d ot t o = x̄ n1 × x̄ n 2 × … × x̄ nP = x̄ N
A questo punto uguaglio le due equazioni:

x̄ N = x1n1 × x 2 n 2 × … × xP nP

Quindi riesco a ricavare x̄:


N
x̄ = x1n1 × x 2 n 2 × … × xP nP
O meglio:

N xi n i

x̄ =

Relazione tra la media geometrica e la media aritmetica


1
N N N N
1 N
(∏ ) [∏ ] N∑
1
log[M0 ] = log log(xi) = M1(log(xi ))

N xi = log xi = log xi =
i=1 i=1
N i=1 i=1

Quindi il logaritmo della media geometrica è uguale alla media aritmetica dei logaritmi delle osservazioni.

Proprietà delle trasformazioni di scala


Se tra X e Y esiste la relazione Y = bX con b > 0, si ha

M0 (Y ) = bM0 (X )

Dimostrazione:

N N N N
bN
∏ ∏ ∏ ∏
Mo(Y ) = N yi = N b xi = N xi = b N xi = bM0 (X )
i=1 i=1 i=1 i=1

Guarda i 2 esempi sul quaderno, soprattutto il secondo che ti dice come si trova la variazione media, che è la media
geometrica dei numeri indice a base mobile e si sottrae 1.

Media quadratica (M2)


La si calcola con il principio di Chisini se l’aspetto da lasciare invariato è la somma dei quadrati.
• Per quanto riguarda la media quadratica semplice, ho una serie di osservazioni x1 x 2 … . xN la cui somma
dei quadrati è

so m m a q u a d r a t i = x12 + x 2 2 + … + xN 2

Alle singole osservazioni sostituisco un valore x̄ tale che la somma dei quadrati è

so m m a q u a d r a t i = x̄ 2 + x̄ 2 + …x̄ 2 = N x̄ 2
A questo punto uguaglio le due equazioni:

N x̄ 2 = x12 + x 2 2 + … + xN 2
Vado avanti coi calcoli:

∑N x2
i=1 i
x̄ 2 =
N
Quindi posso ricavare x̄:

∑N x2
i=1 i
x̄ =
N
• Per quanto riguarda la media quadratica ponderata, ho una serie di osservazioni x1 x 2 … . xP e di rispettivi
pesi n1 n 2 … nP.

Con lo stesso ragionamento ricavo x̄:

∑N x 2n
i=1 i i
x̄ =
N
Riassunto

Quantità da lasciare invariata Media

TOTALE Aritmetica (M1)


SOMMA DEI RECIPROCI Armonica (M−1)
PRODOTTO Geometrica (M0)

SOMMA DEI QUADRATI Quadratica (M2)

Esiste un ordine tra queste medie:

x(1) ≤ M−1 ≤ M0 ≤ M1 ≤ M2 ≤ x(N )

Viene detta relazione d’ordine tra le medie algebriche.


Vale l’uguale se e solo se x1 = xN = … = xN.

NUMERI INDICI COMPOSTI


I numeri indici composti sintetizzano più componenti di uno stesso fenomeno per seguirne le variazioni nel tempo (o
nello spazio).
Il metodo più utilizzato consiste nel sintetizzare i numeri indici semplici dei prezzi p dei singoli prodotti con una
media.
Poiché i prodotti non hanno tutti la stessa importanza, è opportuno tenere conto anche di un sistema di pesi, quindi
usiamo una media ponderata.
È meglio non utilizzare le quantità q come pesi perché sono espresse in unità di misura eterogenee e non si possono
sommare.
Si può adottare come peso la spesa: s = p × q.
Si indica con:
• pi0 e qi0, il prezzo e la quantità di base del bene i-esimo al tempo base;
• pit e qit, il prezzo e la quantità del bene i-esimo al tempo t.

Possiamo però considerare 4 tipi di valori di spesa:

➢ Due reali:

p0 × q0 e pt × qt
➢ Due figurativi:

p0 × qt e pt × q0

I numeri indici composti più diffusi utilizzano come pesi p0 × q0 e p0 × qt.

Indice di Laspeyres

L K pit pi0 qi0


∑i=1 pi0
0 It = ×
k
∑i=1 pi0 qi0
Equivale a una media di rapporti 0 It con pesi costanti al variare di t.

Indice di Paasche

P k pit pi0 qit


∑i=1 pi0
0 It = ×
k
∑i=1 pi0 qit

Equivale a una media di rapporti 0 It con pesi variabili, aggiornati a ogni t.

Attenzione: L’indice di Paasche può anche essere visto come:

- Media aritmetica dei NI semplici con sistema di pesi dato dalla spesa figurativa p0 × qt;

- Media armonica dei NI semplici con sistema di pesi dato dalla spesa reale pt × qt.

Nelle analisi economiche si osserva un aumento delle quantità acquistate per quei beni i cui prezzi comparativamente si
riducono (e viceversa).
La differenza tra Laspeyres e Paasche è che il primo tiene fisse le quantità, mentre il secondo le aggiorna.
Laspeyres ignora l’aumento delle quantità dei beni i cui prezzi aumentano relativamente di meno, cioè tende a
sovrastimare il tasso di crescita dei prezzi.
Paasche invece tende a sottostimarlo.

Indice di Fisher
Per neutralizzare le opposte tendenze dei due indici, Fisher ha proposto di utilizzare la media geometrica dei due indici:

F L
0 It = 0 It × 0 It P

Gli indici che abbiamo calcolato sono indici dei prezzi.


I NI di grandezze economiche possono essere calcolati, oltre che per i prezzi, anche per quantità e valori.
Gli indici dei prezzi possono essere di vario tipo (es. al consumo, all’ingrosso, alla produzione, …).
Gli indici dei prezzi al consumo sono molto importanti perché cercano di misurare l’inflazione.

INDICI DI VARIABILITA’
I fenomeni reali si manifestano in modo diverso nelle unità di una popolazione.
Si definisce variabilità l’attitudine di una variabile (carattere quantitativo) ad assumere valori differenti.

Gli indici di variabilità servono per associare all’informazione fornita da una media quella di un’altra misura, che
consenta di differenziare le diverse situazioni.
Si richiede che gli indici di variabilità assumano:

➢ Valore 0 solo nel caso di assenza di variabilità;

➢ Valori positivi crescenti al crescere della variabilità.

Gli indici più semplici e più utilizzati si basano sulle differenze e sono:
• Intervalli di variazione: differenze tra due indici di posizione;
• Scostamenti medi: differenze tra i valori e una media.

Intervalli di variazione
Indicano l’ampiezza dell’intervallo centrale entro il quale è compresa una certa frazione della popolazione.
Un intervallo centrale lascia la stessa frazione di casi con valori inferiori e superiori agli estremi dell’intervallo stesso.
Il carattere è tanto più variabile quanto più l’intervallo è ampio.
Ho una certa popolazione x1 x 2… xN, a questo punto la metto in ordine crescente x(1), x(2), …, x(N ).
Esistono 3 tipi di intervalli di variazione:
• Campo di variazione: si tratta dell’ampiezza dell’intervallo compreso tra i due valori estremi della
distribuzione

x(N ) − x(1)

Caratteristiche:

- Se risulta uguale a 0 è certa l’assenza di variabilità;

- L’intervallo contiene il 100% delle osservazioni;


- Considera solo gli estremi della distribuzione;

- Non è calcolabile nel caso di classi aperte.

• Differenza interquantile: si tratta dell’ampiezza dell’intervallo che ha come estremi il primo e il terzo
quartile

Q3 − Q1
Caratteristiche:

- Se risulta uguale a 0, non è certa l’assenza di variabilità.

L’interpretazione della differenza interquantile è:


Q3 − Q1 è l’ampiezza dell’intervallo centrale che contiene il 50% delle osservazioni ordinate.

• Differenza interdecile: si tratta dell’ampiezza dell’intervallo che ha come estremi il primo e il nono decile

D9 − D1

Caratteristiche:

- Se risulta uguale a 0, non è certa l’assenza di variabilità.


L’interpretazione della differenza interdecile è:

D9 − D1 è l’ampiezza dell’intervallo centrale che contiene l’80% delle osservazioni ordinate.

Scostamenti medi
Si calcolano sintetizzando con una media algebrica gli scarti assoluti da un indice medio.
Si considerano gli scarti in valore assoluto per evitare possibili bilanciamenti, che potrebbero far risultare nullo un
indice in presenza di variabilità.

• Scostamento medio da Me:

- Nel caso delle distribuzioni per unità


1
N∑
SMe = xi − Me

- Nel caso delle distribuzioni di frequenze


1
N∑ i
SMe = x − Me ∙ ni

oppu r e


SMe = xi − Me ∙ fi

• Scostamento medio da M1:


- Nel caso delle distribuzioni per unità
1
N∑ i
SM1 = x − M1

- Nel caso delle distribuzioni di frequenze


1
N∑ i
SM1 = x − M1 ∙ ni

oppu r e


SM1 = xi − M1 ∙ fi

Esiste anche quello che viene detto scarto quadratico medio (o anche deviazione standard o scarto tipo), che è:

- Per le distribuzioni di unità

1
(x − M1)2
N∑ i
σ =

Per le distribuzioni di frequenze


1
(xi − M1)2 ∙ ni
N∑
σ =

oppu r e

(xi − M1)2 ∙ fi

σ =

Esiste anche una relazione d’ordine:

SMe ≤ SM1 ≤ σNon è necessariamente verificata quando la distribuzione è per classi, perché M1 e Me sono, in genere,
delle approssimazioni dei veri valori.

Varianza
Il quadrato dello scarto quadratico medio è un indice molto importante, noto come varianza:

- Per le distribuzioni di unità

∑ (xi − M1)2
v a r (X ) = σ 2 =
N
- Per le distribuzioni di frequenze

∑ (xi − M1)2 ∙ ni
v a r (X ) = σ 2 =
N
oppu r e

v a r (X ) = σ 2 = (xi − M1)2 ∙ fi

La formula per le distribuzioni di unità è detta formula diretta.
Esiste anche una formula indiretta che è:

v a r (X ) = σ 2 = M2 2 − M12
Dimostrazione: (sul quaderno)
Proprietà delle trasformazioni lineari (varianza)
Se tra due caratteri Y e X sussiste la relazione Y = a + bX con a e b costanti, allora

σ 2(Y ) = b 2 ∙ σ 2(X )
Dimostrazione: (sul quaderno)

Osservazione: Per la deviazione standard vale quindi la seguente proprietà


σY = σY 2 = b 2 σX 2 = b ∙ σX

Osservazione: Per gli atri scostamenti medi valgono proprietà analoghe


SMe(Y ) = b ∙ SMe(X ) SM (Y ) = b ∙ SM (X )
1 1

Proprietà di scomposizione (varianza)


Sia X un carattere quantitativo distribuito su una popolazione le cui unità sono suddivise in p gruppi di numerosità nj
con j = 1, 2, …, p.
Siano nj , fj , Mj , σj 2 la frequenza assoluta, la frequenza relativa, la media aritmetica e la varianza del j-esimo gruppo.
Siano M e σ 2 la media e la varianza della popolazione.
Si può dimostrare che vale la seguente scomposizione di σ 2.
2
∑pj=1 σj 2 ∙ nj ∑pj=1 (M1( j) − M1) ∙ nj
σTOT 2 = +
N N
Dove il primo termine è indicato con σNEI 2 ed è la media ponderata delle varianze,
mentre il secondo termine è indicato con σFR A2 ed è la varianza ponderata delle medie.

La proprietà di scomposizione vale solo per σ 2, non per σ!

Indici di variabilità – distribuzioni per classi


Nel calcolo di un indice di variabilità,

➢ L’impiego dei valori centrali trascura la variabilità nelle classi (l’indice risulta quindi solo approssimato);

➢ L’impiego delle medie di classe non evita il problema precedente (ad esempio, nel caso della varianza di può
calcolare solo quella FRA le classi).

Criterio generale per calcolare gli indici di variabilità:

➢ Utilizzare le medie di classe se nell’indice compare M1;

➢ Utilizzare i valori centrali se nell’indice compare Me.

2° PARTE DEL CORSO


La seconda parte è dedicata alla statistica bivariata, la quale consente di analizzare congiuntamente due caratteri.
Si ricorre alla rilevazione congiunta di due (o più) caratteri quando si ritiene che fra essi possano esservi delle relazioni.
I metodi differiscono a seconda dei tipi di caratteri considerati.
Quando i due caratteri hanno poche modalità o poche classi, si utilizza la distribuzione di frequenze doppia o
bivariata, rappresentata da una tabella a doppia entrata.

Esempio di una tabella a doppia entrata:


Classificazione di 300 comuni per

- A = ampiezza demografica;
- B = grado di criminalità.

B Modesto Medio Elevato Totale

A
Piccola 45 36 21 102

Media 30 48 27 105

Grande 15 24 54 93

Totale 90 108 102 300

“Modesto”, “Medio”, “Elevato” sono le modalità del carattere B “grado di criminalità”.


“Piccola”, “Media”, “Grande” sono le modalità del carattere A “ampiezza demografica”.
I numeri evidenziati in giallo sono le Frequenze congiunte, ovvero il numero di soggetti che presenta congiuntamente
una data modalità del carattere A e una data modalità del carattere B.
I numeri evidenziati in rosso sono le Frequenze marginali di colonna e di riga, che mostrano come sono ripartite le N
unità tra le modalità dei due caratteri considerati congiuntamente.

In questo caso abbiamo una tabella quadrata (numero di colonne = numero di righe).

Le frequenze congiunte si indicano con nij

Le frequenze marginali di riga si indicano con ni⋅

Le frequenze marginali di colonna si indicano con n⋅j

Le frequenze congiunte devono sempre essere ≥ 0, mentre e frequenze marginali devono essere > 0.

La tabella a doppia entrata può essere rappresentata anche in termini di frequenze relative (o percentuali):
nij
➢ Frequenze congiunte: fij = N ;

ni⋅ n⋅j
➢ Frequenze marginali: fi⋅ = N oppure f⋅j = N

Per ognuno dei due caratteri si possono individuare altre distribuzioni, le distribuzioni parziali (o condizionate).
Riprendendo l’esempio precedente una distribuzione parziale è:

Medio
36

48

24

108

È la distribuzione dei 108 comuni con medio grado di criminalità secondo l’ampiezza economica.

Ma anche:

Media 30 48 27 105

È la distribuzione dei 105 comuni con media ampiezza demografica secondo il grado di criminalità.

Ho tante distribuzioni parziali tante quante sono righe e colonne (quindi nell’esempio ne ho 6).

Per confrontare le distribuzioni parziali di un carattere è necessario tenere conto del fatto che normalmente i totali
marginali sono diversi.
Le frequenze parziali vengono perciò espresse in termini relativi (o percentuali).
- j − es i m a distribuzione condizionata di A (A bj )

nij fij
fi| j = f (ai bj) = = con i = 1,2, …, p
n⋅j f⋅j

- i − es i m a distribuzione condizionata di B (B ai )

nij fij
fj|i = f (bj ai) = = con j = 1,2, …, q
ni⋅ fi⋅

ANALISI DELL’ASSOCIAZIONE
Sulla base di teorie e ragionamenti logici si possono avanzare a priori delle ipotesi di causa – effetto o di
interrelazione tra caratteri (es. quantità di fertilizzante e quantità prodotta, età dello sposo ed età della sposa).

Si ha dipendenza logica tra due caratteri quando si suppone a priori una relazione causa – effetto.
Si ha interdipendenza logica tra due caratteri quando si suppone a priori un’interrelazione.
Si ha indipendenza logica tra due caratteri quando di suppone a priori che non possa sussistere alcuna relazione.

L’analisi statistica dell’associazione tra due caratteri è basata sull’osservazione empirica dei fenomeni.
In certi casi l’analisi statistica porta però a dei risultati ambigui, cioè all’individuazione di associazioni spurie.
Un’associazione spuria può essere dovuta:
• Alle caratteristiche dei dati utilizzati;
• Alla presenza di un terzo carattere che influisce sui due considerati.

A seconda degli obiettivi dell’indagine statistica si possono utilizzare diversi metodi per studiare l’associazione tra due
caratteri.
La scelta e l’impiego di un metodo dipende anche dal tipo di caratteri considerati:

Entrambi i Un carattere Entrambi i


caratteri qualitativo e uno caratteri
qualitativi quantitativo quantitativi

Connessione Sì Sì Sì

Dipendenza in No Sì Sì
media

Correlazione
e No No Sì
Regressione

Connessione
L’analisi della connessione tra due caratteri può essere condotta quando si dispone della loro distribuzione bivariata.
Nel seguito considereremo il caso di due caratteri qualitativi (il metodo, come abbiamo visto nella tabella, può essere
impiegato anche per altri tipi di caratteri).

L’analisi della connessione si basa sul confronto tra la situazione osservata nella realtà e le seguenti due situazioni
estreme:

- Connessione minima o nulla (indipendenza distributiva);

- Connessione massima.
Indipendenza distributiva

Definizione 1
Il carattere A è indipendente in distribuzione dal carattere B (A non è connesso con B) se le sue distribuzioni
condizionate sono tutte uguali:

fi| j = fi⋅

Oss: Se le fi| j non si modificano al variare di bj significa che le distribuzioni di A non sono influenzate dalle modalità di
B.

Definizione 2
Il carattere B è indipendente in distribuzione dal carattere A (B non è connesso con A) se le sue distribuzioni
condizionate sono tutte uguali:

fj|i = f⋅j

Oss: Se le fj|i non si modificano al variare di ai significa che le distribuzioni di B non sono influenzate dalle modalità di
A.

L’indipendenza distributiva è una relazione simmetrica:


Se A non è connesso con B, allora B non è connesso con A.
Guarda sul quaderno la dimostrazione.

Dalla condizione di indipendenza di A da B

fi| j = fi⋅

nij /n⋅j = ni⋅ /N

Si ottengono le frequenze congiunte teoriche (attese)


ni⋅ × n⋅j
n^ ij =
N
Le stesse frequenze teoriche si ottengono dalla condizione di indipendenza di B da A (simmetria).
Se A e B sono due caratteri indipendenti in distribuzione, allora le loro frequenze congiunte osservate ni j sono
esattamente uguali alle frequenze teoriche n^ i j.
Se anche una sola frequenza teorica è diversa dalla sua frequenza congiunta originaria associata, allora i due caratteri
non saranno indipendenti in distribuzione.

Le frequenze teoriche possono anche essere calcolate in termini relativi (percentuali):


^f = f × f
ij i⋅ ⋅j

Massima connessione
Si può subito notare se sussiste massima connessione se all’interno della tabella a doppia entrata vi sono molti zeri, se
non vi sono sappiamo di per certo che non c’è massima connessione.
Bisogna distinguere tra massima connessione unilaterale e bilaterale. La unilaterale vale per le tabelle rettangolari,
mentre la bilaterale vale per le tabelle quadrate.
Definizioni di massima connessione unilaterale:

➢ Definizione 1 – Massima connessione di A da B


Vi è massima connessione unilaterale di A da B se ad ogni bj è associata un’unica modalità a i.
In caso di massima connessione unilaterale di A da B, ogni colonna della tabella bivariata ha un’unica
n i j ≠ 0.
➢ Definizione 2 – Massima connessione di B da A
Vi è massima connessione unilaterale di B da A se ad ogni a i è associata un’unica modalità bj.
In caso di massima connessione unilaterale di B da A, ogni riga della tabella bivariata ha un’unica ni j ≠ 0.

Definizioni di massima connessione bilaterale:

➢ Definizione 1 – Massima connessione di A da B


Vi è massima connessione bilaterale di A da B se per un dato soggetto conosco il valore (modalità) che esso
assume per il carattere B, allora immediatamente conosco anche il valore (modalità) che esso assume per A.
In caso di massima connessione bilaterale, ogni riga e ogni colonna della tabella bivariata ha un’unica nij ≠ 0.

➢ Definizione 2 – Massima connessione di B da A

Vi è massima connessione bilaterale di A da B se per un dato soggetto conosco il valore (modalità) che esso
assume per il carattere A, allora immediatamente conosco anche il valore (modalità) che esso assume per B.
In caso di massima connessione bilaterale, ogni riga e ogni colonna della tabella bivariata ha un’unica nij ≠ 0.

Analisi della connessione


Per stabilire se tra due caratteri vi è connessione si può:
• Controllare se le distribuzioni parziali sono uguali
• Confrontare le frequenze empiriche con le teoriche

Per confrontare frequenze empiriche e teoriche si possono utilizzare le differenze dette contingenze assolute oppure i
rapporti detti contingenze relative:

cij = nij − n^ ij (contingenze assolute)

nij − n^ ij cij
dij = = (contingenze relative)
n^ ij n^ ij

Osservazione: se tutte le cij = 0, vuol dire che tra A e B c’è indipendenza.

Interpretazione
Data la generica contingenza,

se cij > 0, tra ai e bj vi è attrazione.

se cij < 0, tra ai e bj vi è repulsione.

se cij = 0, tra ai e bj vi è indifferenza.

Indici di connessione
All’analisi disaggregata delle contingenze si può abbinare il calcolo di un indice che consenta di valutare il grado di
connessione tra due caratteri.
La sintesi è di solito effettuata sulla base di un’opportuna media (che non operi compensazioni tra contingenze di
segno opposto).
Un indice di connessione molto utilizzato è l’indice medio quadratico, che è la media quadratica delle contingenze
relative, ponderate con le frequenze teoriche:

∑i ∑j dij 2 ∙ n^ ij
dij 2 ∙ ^f ij
∑∑
M2(D) = =
N i j
Il problema di questo indice è che non è normalizzato. È necessario quindi normalizzarlo in modo che assuma:

- Valore 0 in caso di indipendenza;

- Valore 1 in caso di massima connessione.

Si può dimostrare che il massimo teorico vale

m a x[M2(D)] = k −1 d o ve k = min( p; q)

Perciò l’indice di connessione normalizzato (C) vale:


M2(D)
C= d o ve k = min( p; q)
k −1

È un indice che assume valori nell’intervallo [0; 1], oppure [0; 100] se espresso in termini percentuali, e che risulta pari
a:

- 0 in caso di indipendenza;

- 1 in caso di massima connessione.

Agli C e M2(D) è legato il noto indice di associazione di Pearson:


2
(nij − nij)
^
( f or m u l a d ir e t t a)
2
∑i ∑j
X =
n^ ij

nij 2
X2 =
∑i ∑j n^
−N ( f or m u l a i n d ir e t t a)
ij

Sulle slide ci sono le formule per trovare l’indice di associazione di Pearson usando le frequenze relative.

Di conseguenza si possono trovare:

X2 X2
M2(D) = C=
N N ( k − 1)

Dipendenza in media
Abbiamo visto che in una tabella a doppia entrata possono essere identificate varie distribuzioni.
Per ciascuno dei due caratteri possiamo considerare:

➢ La distribuzione marginale;

➢ Le distribuzioni parziali o condizionate.


Se almeno uno dei due caratteri è quantitativo possiamo calcolare alcuni indici univariati, come per esempio la media
aritmetica e la varianza.
Le medie delle distribuzioni condizionate si dicono medie condizionate o parziali.
Le varianze delle distribuzioni condizionate si dicono varianze condizionate o parziali.

Per la proprietà associativa della media aritmetica:


1
N∑ i
ȳ = ȳ ni

E per la proprietà di scomposizione della varianza:


1 1 2
σ2 = (yi − ȳ) ni
N∑ N∑
σi 2 ni +
= σNEI 2 + σFR A 2
Si può dare la definizione di indipendenza in media, che è:
Si dice Y è indipendente in media da A se le medie parziali di Y, ȳ1 ȳ2… ȳk, calcolate rispetto ad A sono tutte uguali.

ȳ1 = ȳ2 = … = ȳk = ȳ

Se entrambi i caratteri sono quantitativi, l’indipendenza in media non è una relazione simmetrica.

Se esiste dipendenza in media, vorrei quantificarla, quindi vorrei:

- Trovare un indice;
- Normalizzare l’indice.

Dalla definizione di indipendenza media, sembra naturale basare l’indice su una sintesi dei p scarti assoluti

ȳi − ȳ i = 1, 2, …, p

Una sintesi di tali scarti è l’indice di variabilità

∑i ( ȳi − ȳ)2 ni⋅


σFR A 2(Y ) =
N
Per normalizzare questo indice devo dividerlo per il suo massimo, che è σTOT 2. Ottengo quindi un indice di
dipendenza in media, che si chiama “Rapporto di correlazione di Pearson”:
σFR A 2(Y ) σ 2(Y )
η 2(Y A) = = 1 − NEI
σTOT 2(Y ) σTOT 2(Y )
Il rapporto di correlazione di Pearson vale:

➢ 0 quando le medie parziali sono tutte uguali (indipendenza in media di Y da A);

➢ 1 quando la varianza nei gruppi è nulla (σNEI 2 = 0).


Si realizza se in ogni gruppo si ha una sola frequenza non nulla, quindi le modalità sono tutte uguali fra di loro
e uguali alla media parziale. Si ha quindi anche perfetta dipendenza distributiva unilaterale di Y da A.

Se entrambi i caratteri sono quantitativi, si possono calcolare due rapporti di correlazione, ma essi non sono legati da
una relazione simmetrica.

Spezzata di regressione
È un grafico che rappresenta la dipendenza delle medie di un carattere dai valori dell’altro.

➢ Nel caso di dipendenza in media di Y da X, nel piano cartesiano si uniscono con segmenti di retta i punti di
coordinate (xi; ȳi);

➢ Nel caso di dipendenza in media di X da Y, nel piano cartesiano si uniscono con segmenti di retta i punti di
coordinate (yj; x̄j).

I punti non hanno lo stesso peso, perché ogni media è la sintesi di un diverso numero di osservazioni.
La spezzata rappresenta una tendenza statistica: all’aumentare di xi o yj, le medie parziali x̄j o ȳi tendono a diminuire.

Tipi di tabelle a doppia entrata


In una tabella bivariata, uno o entrambi i caratteri possono essere quantitativi continui. In questi casi, le righe e/o le
colonne della tabella si riferiscono a classi (intervalli) di valori.
Si possono presentare diverse situazioni che permettono di ottenere diversi risultati:

➢ Senza informazioni: Per calcolare medie e varianze parziali si impiegano i valori centrali (e nei calcoli li
mettiamo al posto delle classi).
I risultati che otterremo saranno solo approssimati;
➢ Note le medie parziali e la varianza totale: Si possono calcolare la vera media complessiva e la sola varianza
fra i gruppi.
Se anche σTOT 2 è nota, i risultati saranno esatti;

➢ Note medie e varianze parziali: I risultati dell’analisi saranno esatti.

Correlazione e Regressione
Questo tipo di analisi si può effettuare solamente se entrambi i caratteri sono quantitativi.
Si può disporre o di dati elementari o di loro elaborazioni:

➢ Serie doppia semplice: È la tabella che riporta i dati elementari riferiti a due caratteri quantitativi X e Y rilevati
congiuntamente su ognuno delle N unità della popolazione;

➢ Serie doppia ponderata: È la tabella nella quale, ad ogni coppia (xi;yi), è associata la corrispondente frequenza
ni;

➢ Tabella a doppia entrata.

Concordanza
Gli indici di concordanza permettono di valutare la relazione tra due caratteri quantitativi.
Ad un indice di concordanza si richiede di misurare l’intensità e il verso del legame tra X e Y.
In particolare, l’indice deve assumere:
• Segno – , se i valori più grandi di un carattere tendono ad associarsi con quelli più piccoli dell’altro;

• Segno +, se i valori più grandi di un carattere tendono ad associarsi con quelli più grandi dell’altro.

L’indice più noto misura il legame lineare tra due caratteri.


Il significato di questo indice può essere colto dal grafico di dispersione (“Scatterplot”).
Si rappresentano in un piano cartesiano gli N punti individuati dalle coppie di valori (xi;yi) di una serie doppia,
ottenendo una nuvola di punti.
Si tracciano quindi due rette, parallele agli assi, passanti per le medie dei due caratteri. In tal modo si effettua una
traslazione degli assi, che individuano 4 quadranti.

Le coordinate dei punti rispetto ai nuovi assi sono (xi − x̄ ; yi − ȳ).

Se guardiamo il grafico notiamo che:

• Nel I quadrante (xi − x̄) > 0 e (yi − ȳ) > 0;

gli scarti hanno segni concordi


• Nel III quadrante (xi − x̄) < 0 e (yi − ȳ) < 0;

• Nel II quadrante (xi − x̄) < 0 e (yi − ȳ) > 0;

gli scarti hanno segni discordi


• Nel IV quadrante (xi − x̄) > 0 e (yi − ȳ) < 0;
Per mantenere l’informazione sulla concordanza o discordanza degli scarti si può utilizzare il prodotto, detto
Covariazione ci = (xi − x̄) ⋅ (yi − ȳ)
Ognuno degli N prodotti assume:

- Segno –, se il punto è nel II o IV quadrante;

- Segno +, se il punto è nel I o III quadrante.


Si ottiene quindi un indice di concordanza sintetizzando le N covariazioni con la loro media aritmetica.
Questo indice è detto Covarianza
1
N ∑i i
Co v (X, Y ) = σXY = c

• Co v (X, Y ) > 0 significa che i due caratteri tendono ad assumere valori concordanti;

• Co v (X, Y ) < 0 significa che i due caratteri tendono ad assumere valori discordanti.
Formule covarianza

Formula diretta
1 1
∑ N ∑i i
Co v (X, Y ) = ci = (x − x̄) ⋅ (yi − ȳ)
N i

Formula diretta (caso serie doppia ponderata)


1 1
∑ N ∑i i
Co v (X, Y ) = ci ni = (x − x̄) ⋅ (yi − ȳ)ni
N i

Formula indiretta
∑i xi ⋅ yi
Co v (X, Y ) = − x̄ ⋅ ȳ
N
Formula indiretta (caso serie doppia ponderata)
∑i xi ⋅ yi ⋅ ni ∑i x i ⋅ n i ∑i yi ⋅ ni
Co v (X, Y ) = − ⋅
N N N
Proprietà delle trasformazioni lineari
Dati due caratteri X e Y, aventi x̄ e ȳ
Siano

Z = a + bX
W = c + dY
Allora

σZ W = b ⋅ d ⋅ σXY

Dimostrazione sul quaderno.


Disuguaglianza di Cauchy – Schwartz
Si può dimostrare che

σXY 2 ≤ σX 2 ⋅ σY 2

con l’uguaglianza se e solo se tutti i punti (xi;yi) giacciono su una retta (ascendente o discendente).
Co v (X, Y ) è quindi una misura del legame lineare tra i due caratteri.
Normalizzazione dell’indice (Correlazione)
Il segno della covarianza indica il verso del legame lineare tra i due caratteri.
Per valutarne l’intensità, conviene fare in modo che l’indice assuma valori in un prefissato intervallo, quindi conviene
normalizzarlo.
Dalla disuguaglianza di Cauchy – Schwartz σXY 2 ≤ σX 2 ⋅ σY 2

si ricava

−σX σY ≤ σXY ≤ + σX σY
valendo l’uguaglianza se e solo se tutti i punti giacciono su una retta.

Da ciò si ricava il Coefficiente di correlazione lineare di Pearson


σXY
r (X, Y ) = ρXY =
σ X ⋅ σY

r (X, Y ) assume valori in [−1; + 1] e in particolare assume:


• – 1 se i punti giacciono tutti su una retta discendente;
• + 1 se i punti giacciono tutti su una retta ascendente.

Quando questo indice è uguale a 0, non vuol dire che tra i due caratteri non c’è legame, ma vuol dire che non c’è
legame lineare.
Relazione tra dipendenza distributiva e in media
• Se tra X e Y c’è indipendenza distributiva, allora

σXY = 0

Non vale il viceversa;

• Se almeno un carattere è indipendente in media dall’altro, allora

σXY = 0

Non vale il viceversa.

Le stesse proprietà valgono per ρXY.

Regressione
Con l’analisi della concordanza i due caratteri sono trattati in modo simmetrico.
In molti casi l’analisi logica e le ipotesi teoriche consentono di trattare i due caratteri sulla base di una relazione di
causa-effetto.
In questo contesto il carattere “causa” è detto variabile indipendente, mentre il carattere “effetto” è detto variabile
dipendente.

Se si collegano i punti, si ottiene la spezzata empirica.


La tendenza della spezzata empirica si può riprodurre interpolando tra i punti con una retta appropriata.
L’interpolante è utile per:

- Sintetizzare la relazione;
- Agevolare i confronti;

- …

Se Y è la variabile dipendente e X la variabile indipendente, la relazione lineare tra i due caratteri può essere così
formalizzata:

Y = p0 + p1 X + U
Dove:

- p0 è l’intercetta;
- p1 è il coefficiente angolare;

- U è il residuo.
^
p0 + p1 X è l’equazione della retta interpolante Y ^ =p +p X
Y 0 1

Si aggiunge il residuo U perché i punti non stanno effettivamente sulla retta, ma tendono ad oscillare intorno ad essa.
I singoli residui consistono nella distanza dei punti reali dalla retta interpolante.
Metodo dei minimi quadrati
Il problema dell’interpolazione riguarda la scelta di un opportuno criterio che permetta di individuare, tra le infinite,
un’appropriata retta interpolante.
Il criterio di accostamento più utilizzato è noto come metodo dei minimi quadrati, che consiste nell’individuare i
valori da attribuire a p0 e p1 che rendono più piccola possibile (minima) la somma dei quadrati dei residui U.
2
(y − ^yi ) = m i n (y − p0 − p1 xi )2
∑i i ∑i i ∑i i
minQ = min u 2 = min
p0, p1 p0, p1 p0, p1 p0, p1

Calcolo del valore di p0 e p1 secondo il criterio dei minimi quadrati


Si parte dall’equazione Q( p0, p1) = (y − p0 − p1 xi )2.
∑i i
In matematica il punto di minimo di una funzione si trova seguendo i seguenti step:

➢ Calcolare le derivate parziali rispetto a p0 e p1;

➢ Uguagliare le derivate a zero;

➢ Verificare le derivate seconde.


Dall’operazione di derivazione si ottengono le condizioni del 1° ordine rappresentate dal sistema normale
∂Q ∂Q
∑( i
y − p0 − p1 xi) ⋅ xi = 0

=0 (yi − p0 − p1 xi ) = 0 =0
∂p0 ∂p1

Risolviamo rispetto a p0 e p1

∑ ∑ ∑ ∑ ∑
yi − Np0 − p1 xi = 0 xi yi − p0 xi − p1 xi 2 = 0

Divido tutto per N

M (y) − p0 − p1 M(x) = 0M (x y) − p0 M(x) − p1 M (x 2) = 0

Ricavo p0 dalla prima equazione e lo sostituisco nella seconda

p0 = M (y) − p1 M(x)M (x y) − [M (y) − p1 M(x)]M(x) − p1 M (x 2) = 0

p0 = M (y) − p1 M(x)M (x y) − M(x) ⋅ M (y) + p1[M(x)] − p1 M (x 2) = 0


2

{ }
− p1 M (x 2) − [M(x)]
2
Co v(x , y) Va r (x)

Quindi infine ottengo il sistema normale


σXY
p0 = M (y) − p1 M(x)p1 = Dal punto di vista operativo, dati i valori xi e yi conviene calcolare in sequenza:
σX 2

1) M(x) M (y) Va r (x) Co v (x , y)

σXY
2) p1 =
σX 2

3) p0 = M (y) − p1 M(x)

Regressione di X rispetto ad Y
Scambiando i ruoli delle variabili non cambia niente, cambia solamente come nominiamo i parametri della retta
interpolante, che sono q0 e q1, e i residui, che sono vi.

Interpolazione per serie storiche


In alcuni casi, l’interpolazione non riguarda 2 caratteri X e Y, ma un unico carattere Y rilevato nel tempo (serie storica).
In altri termini, si cerca di spiegare le variazioni della variabile dipendente Y in funzione del tempo, che assume il ruolo
di variabile indipendente.
Le unità temporali (anni, mesi, giorni, …) sono sostituite con dei numeri in sequenza (t).
Se il modello è lineare, l’interpolante è dunque
^ =p +p t
Y 0 1

Se le unità temporali sono in numero dispari, conviene porre l’unità centrale uguale a 0. Con questa scelta si ha
t̄ = 0 p0 = ȳ e si semplificano anche le espressioni della sequenza operativa.

Relazione con ρXY


Si dimostra che il coefficiente di correlazione lineare è la media geometrica dei coefficienti angolari delle due rette di
regressione (alla radice quadrata viene attribuito il segno dei due coefficienti).
σXY σXY σ
± p1 ⋅ q1 = ± ⋅ = XY = ρXY
σ X 2 σY 2 σ X σY

• ρXY sarà positivo, se i p1 e q1 sono positivi;


• ρXY sarà negativo, se i p1 e q1 sono negativi.

Metodo dei minimi quadrati – Proprietà


Dalla prima equazione del sistema normale

(yi − ^yi ) =
∑ ∑
(yi − p0 − p1 xi ) = 0

Si ricavano agevolmente le seguenti proprietà:

1) Proprietà delle medie

M (yi) = M (^yi) ȳ = ^y¯

Dimostrazione sul quaderno

2) Proprietà della retta: La retta yi = p0 + p1 xi passa attraverso il punto P[M(x); M(y)].

Dimostrazione sul quaderno

Linearizzazione
A volte il diagramma di dispersione evidenzia una tendenza che non può essere adeguatamente rappresentata con la
retta interpolante.
In questi casi, opportune trasformazioni di una o di entrambe le variabili permettono di linearizzare la relazione.
Si può quindi utilizzare ancora il metodo dei minimi quadrati con le variabili trasformate.

Ci sono 3 esempi di linearizzazione:


1
1) Trasformazione iperbolica: Si può linearizzare usando come variabile indipendente .
X
^ =p +p W =p +p 1
Y 0 1 0 1
X
2) Trasformazione parabolica: Si può linearizzare usando come variabile indipendente X 2.

^ = p + p W = p + p X2
Y 0 1 0 1

3) Trasformazione logaritmica: Si può linearizzare usando come variabile indipendente log(X ).

^ = p + p W = p + p log(X )
Y 0 1 0 1

Verifica dell’adattamento
Dopo aver determinato la retta interpolante è necessario controllare se questa è idonea a rappresentare la relazione tra
le due variabili.
La verifica della bontà di adattamento del modello scelto si basa sull’analisi grafica e numerica dei residui
d’interpolazione.
Il sistema normale si può riscrivere come:

∑( i
y − ^yi) = 0
∑ i
u =0 ū = 0
(y − ^yi ) ⋅ xi = 0
∑ i ∑ i i
u ⋅x = 0 σUX = 0

In altri termini, i residui dei minimi quadrati:

1. Hanno media nulla;

2. Non sono correlati con la variabile indipendente (U e X sono incorrelati).


La proprietà 1 implica che i residui presentano segni sia positivi sia negativi.
La proprietà 2 implica che i residui non dipendono linearmente dalla variabile indipendente.
La verifica dell’adattamento può allora essere condotta verificando se

1. L’ordine di grandezza dei residui è contenuto;

2. La successione dei segni dei residui è accidentale.

Analisi dei segni dei residui


L’analisi si può effettuare considerando i valori dei residui ordinati rispetto ai valori di X.
• Ho successione sistematica se

++++++−−−−−++++
X
• Ho successione accidentale se
+−−++−+−−+−+−++
X

Scomposizione della varianza nel caso della retta interpolante


Si dimostra che, per la retta a minimi quadrati
^+U
Y = p0 + p1 X + U = Y

Vale la seguente scomposizione

σY 2 = Va r (Y ) ( ) + Va r (U )
^ + U = Va r Y
^

Quindi

σTOT 2 = σY^ 2 + σU 2 = σs 2 + σR 2

Dove

- σS 2 è la “varianza spiegata”, cioè è la parte della variabilità di Y che io sono in grado di spiegare
attraverso il modello teorico (retta);

- σR 2 è la “varianza residua”, cioè la parte della variabilità di Y che io non sono in grado di spiegare
attraverso il modello teorico.
Dalla precedente scomposizione si ricava un indice di adattamento normalizzato, noto con il nome di
σS 2 σR 2
Indice di determinazione R2 = =1−
σTOT 2 σTOT 2

R 2 è un rapporto di composizione ed assume quindi valori nell’intervallo [0; 1] (o [0; 100] se espresso in %).

L’indice di determinazione vale:

➢ 0 quando σS 2 = 0
ovvero la retta di regressione non “spiega” la variabilità di Y, in tal caso i punti (xi; yi) non evidenziano un
legame lineare;

➢ 1 quando σR 2 = 0ovvero la retta di regressione “spiega” tutta la variabilità di Y, in tal caso tutti i punti (xi; yi)
giacciono sull’interpolante.

Formule alternative per il calcolo di R 2


1)

σS 2 ^)
Va r (Y Va r ( p0 + p1 X ) p 2σ 2
R2 = = = = 1 X
σY 2 Va r (Y ) Va r (Y ) σY 2

2)
p12 σX 2 σ 2 σ σ 2 σ
R2 = = p12 X = p1 ⋅ XY ⋅ X = p1 ⋅ XY
σY 2 σY 2 σ X 2 σY 2 σY 2

3)
σXY σ σ σ 2
R 2 = p1 ⋅ = XY ⋅ XY = XY = ρXY 2
σY 2 σ X 2 σY 2 σ X 2 σY 2
Ovviamente, l’analisi dei residui si può effettuare anche per la seconda interpolante
^ =q +q Y
X o 1
Il valore R 2 risulta lo stesso.
Quando invece si dispone di una serie doppia ponderata, il problema dei minimi quadrati assume la seguente forma

∑i
minQ min ui 2 nip0, p1 p0, p1

2
∑i ( i
min y − ^yi) ni
p0, p1
2
∑i ( i
Min y − p0 − p1 xi) ni
p0, p1

Nelle espressioni di p0, p1 e R 2 compaiono i pesi.

Calcolo delle probabilità


In molte situazioni le informazioni disponibili non sono sufficienti per conoscere gli eventi futuri.
A partire dalla metà del 1600, inizialmente per risolvere problemi legati al gioco d’azzardo, sono stati sviluppati dei
metodi che permettono di valutare l’incertezza degli eventi.
Molti fenomeni reali hanno dei risultati incerti. Si deve spesso decidere in condizioni di incertezza.
La decisione può essere difficile, perché spesso gli eventi hanno un diverso margine di incertezza, ovvero una diversa
probabilità.
La teoria della probabilità si serve del ragionamento logico per orientare le scelte.
Il calcolo delle probabilità aiuta a quantificare in modo rigoroso il grado di incertezza degli eventi.
Terminologia:

➢ Esperimento: una serie di azioni svolte per conoscere meglio il fenomeno;

➢ Prova: ogni singola esecuzione di un esperimento.

Un esperimento può essere:


• Deterministico, se la conoscenza delle cause o leggi da cui dipende permette di prevederne con certezza il
risultato;
• Aleatorio, se la conoscenza delle cause o leggi da cui dipende non permette di prevederne con certezza il
risultato.

Di solito si richiede che un esperimento aleatorio soddisfi due requisiti:

- Sia (almeno teoricamente) ripetibile nelle stesse condizioni;

- Tutti i possibili esiti siano definibili in anticipo.

Per quanto riguarda gli eventi, si usa distinguere tra:

▪ Evento elementare (E): Singolo risultato di una prova;

▪ Evento composto (A, B, …): Insieme di eventi elementari.


Esempio:

Esperimento: lancio di un dado con sei facce


Evento elementare: E = “esce il numero 6”
Evento composto: A = “esce un numero maggiore di 3”
Indicato con Ei = “esce il numero i”, A è l’evento unione
6


A = E4 U E5 U E6 = Ei
i=4

Utilizzando le regole dell’algebra degli insiemi si possono definire altri tipi di eventi:

➢ Complementare di A: Si verifica quando non si verifica A;

➢ Unione di A e B: Si verifica quando si verificano A o B;

➢ Intersezione di A e B: Si verifica quando si verificano A e B;

➢ Differenza di B da A: Si verifica quando si verifica A ma non B.

Esempio:

Esperimento: lancio di un dado con sei facce


Eventi: A = “esce un numero > 3” B = “esce un numero < 5”
Evento complementare di A: Ā = “esce un numero < 4”
Evento unione di A e B: AUB = “esce un numero da 1 a 6”
Evento intersezione di A e B: A B = “esce il numero 4”
Evento differenza di B da A: A − B = “esce il numero 5 o 6”

Gli eventi vengono spesso rappresentati graficamente con il diagramma di Venn.

Si è soliti anche a distinguere tra:

➢ Evento impossibile: Evento che non si verifica mai;

➢ Evento aleatorio (probabile, possibile, casuale): Evento che si verifica a volte;

➢ Evento certo: Evento che si verifica sempre.

Esempio:

Esperimento: lancio di un dado con sei facce


Evento impossibile: = “esce il numero 7”
Evento aleatorio: A = “esce un numero maggiore di 3”
Evento certo: = “esce un numero da 1 a 6”
A e B sono detti eventi incompatibili se A B = ∅.
Osservazione: A e Ā sono incompatibili.

Lo spazio campionario (o spazio degli eventi) è lo spazio di tutti i possibili eventi elementari di un esperimento.
Viene indicato con Ω.

Probabilità
Per probabilità si intende un numero associato al verificarsi di un determinato evento.
Questa definizione non spiega come calcolare tale numero.
Le definizioni di probabilità più utilizzate sono 4:
Classica, Frequentista, Soggettivista, Assiomatica.
➢ Definizione classica:
Dato un esperimento con N possibili risultati equiprobabili, la probabilità di un evento A è il rapporto tra il
numero N(A) dei risultati favorevoli al suo verificarsi e il numero N dei risultati possibili.

n u m er o r i s u l t a t i f a v or e v ol i N (A)
P (A) = =
n u m er o r i s u l t a t i p oss i bi l i N

Osservazione: Sulla base di questa definizione si deriva che

P () = 0, P () = 1, e 0 ≤ P (A) ≤ 1 A
Esempio:

Esperimento: lancio di una moneta bilanciata

Eventi equiprobabili: T = “testa”, C = “croce”

Probabilità che esca testa: P (T ) = ?


1
N =2 (T oppu r e C )N (T ) = 1 (sol o T )P (T ) = = 0,5 (50%)
2
Osservazione 1:
La probabilità dell’unione di eventi incompatibili è uguale alla somma delle probabilità dei singoli eventi.

Osservazione 2:
La probabilità dell’evento complementare è uguale al complemento ad uno della probabilità del
corrispondente evento.

La definizione classica è valida solamente se è verificata la condizione di equiprobabilità degli eventi.

➢ Definizione frequentista:

Dato un esperimento ripetibile nelle stesse condizioni, la frequenza relativa con cui si presenta un evento A
all’aumentare delle prove tende alla sua probabilità.

n u m er o pr o ve c o n r i s u l t a t o A n (A)
fn(A) = = P (A)
n u m er o t ot a l e d i pr o ve n
Osservazione:

Anche da questa definizione si deriva che

P () = 0, P () = 1, e 0 ≤ P (A) ≤ 1 A
Esempio:

Esperimento: estrazione di una carta da un mazzo di 52


Probabilità che esca cuori: P (A) = ?

Nella tabella sono riportati i risultati ottenuti con delle estrazioni ripetute di una carta
n n (A) fn(A)
10 2 0,2

100 27 0,27

1000 246 0,246

10000 2509 0,2509

fn(A) 0,25 = P (A)


Osservazione 1:

La legge empirica del caso non si può dimostrare, si può solo verificare empiricamente.

Osservazione 2:

Se all’aumentare delle prove fn(A) tende alla costante P (A), significa che esistono delle regolarità che
governano i fenomeni.

Osservazione 3:

La probabilità classica è determinata da una valutazione a priori, quella frequentista è determinata da una
valutazione a posteriori (ovvero si basa sull’esperienza).

Critiche:

- Non è noto il numero di prove necessarie per avere un’approssimazione adeguata della probabilità;

- La definizione non è applicabile nelle situazioni in cui non si può ripetere l’esperimento;

- Queste considerazioni hanno portato alcuni studiosi a formulare una definizione di probabilità
soggettiva.

➢ Definizione soggettivista:
La probabilità di un evento A è la misura del grado di fiducia che un individuo coerente attribuisce, secondo
le sue informazioni ed opinioni, all’avverarsi di A.
Data la quota p che un individuo ritiene equo scommettere con un altro che punta q se si verifica A,

q u ot a s c o m m ess a s u l r i s u l t a t o A p
P (A) = =
so m m a d el l e q u ot e p +q
Esempio:

Esperimento: lancio di una moneta bilanciata


Probabilità che esca testa: P (T ) = ?

Poiché la moneta non è truccata, si può essere disposti a scommettere 1 per vincere 2 se si verifica T
(si dice comunemente: scommettere 1 contro 1)

Si ha quindi P (T ) = 1/(1 + 1) = 1/2 = 0,5


➢ Impostazione assiomatica:
Abbiamo visto che l’attribuzione della probabilità di un evento non è univoca.
Alcuni studiosi hanno affrontato diversamente il problema, fissando l’attenzione sulle regole di calcolo delle
probabilità.
Essi sono partiti da alcuni semplici postulati (assiomi) ritenuti logicamente validi.

Ad ogni esperimento si associa un insieme Ω detto spazio campionario (probabilistico, degli eventi) i cui
elementi sono tutti i suoi possibili risultati semplici (eventi elementari E)
Di solito interessa valutare la probabilità di risultati complessi dell’esperimento (eventi composti A).
La probabilità è una funzione che ad ogni A associa un numero reale in modo da soddisfare i seguenti
assiomi:

A1. P (A) ≥ 0
A2. P () = 1
A3. P (A B ) = P (A) + P (B ) se A B =

Sulla base dei precedenti postulati si dimostra che

- P () = 0
Infatti: 1 = P () = P ( ) = P () + P ()

- P(Ā) = 1 − P (A)

Infatti: 1 = P () = P(A Ā) = P (A) + P ( Ā)

- P (A) ≤ 1
Infatti: 1 = P () = P (A) + P(Ā) ≥ P (A)

Meno formalmente, impiegando il diagramma di Venn si ricavano facilmente altre importanti proprietà

- Se B A : P (B ) ≤ P (A) P (A − B ) = P (A) − P (B )

- Se B A ≠ 0 (eventi compatibili):

P (A B ) = P (A) + P (B ) − P (A B )
Esempio:
Qual è la probabilità che lanciando due dadi si presenti la faccia 4 almeno su uno di essi?

Consideriamo i seguenti eventi:

A: “esce 4 sul 1° dado e un qualunque numero sul 2°”

B: “esce 4 sul 2° dado e un qualunque numero sul 1°”


A ∩ B = “esce 4 su entrambi i dadi”

A ∪ B = “esce 4 almeno su un dado”

6 6 1 11
P (A B ) = P (A) + P (B ) − P (A B ) = + − =
36 36 36 36

Probabilità condizionata
Esempio:
Qual è la probabilità che, lanciando due dadi,
A: “la somma delle loro facce sia 8”?
Come si modifica la risposta se è noto che
B: “il 2° dado ha fornito come risultato la faccia con un numero maggiore di 3”?
In tal caso si considera la probabilità dell’evento condizionato
(A | B )
che viene detta probabilità condizionata di A dato B.
Infine, qual è la probabilità dell’evento (A B )?

P (A) = 5/36 P (A B ) = 3/18 P (A B ) = 3/36

Si ha quindi: P (A) < P (A | B )


In altri termini, sapere che si è verificato B modifica (in questo caso aumenta) la probabilità che si verifichi A.
Quindi A dipende stocasticamente da B.

Sulla base dell’esempio si possono ricavare due importanti relazioni che hanno validità generale:
3 3/36 P (A B )
➢ Relazione 1: P (A B ) = 18 = 18/36 = P (B )

➢ Relazione 2: P (A B ) = P (A B ) ⋅ P (B )

Si può pure calcolare la probabilità condizionata di B dato A


P (A B ) 3/36 3
P (B A) = = = > P (B )
P (A) 5/36 5
Anche B dipende stocasticamente da A.

Indipendenza stocastica
➢ A è stocasticamente indipendente da B se

P (A B ) = P (A)

➢ B è stocasticamente indipendente da A se

P (B A) = P (B )
L’indipendenza stocastica è una relazione simmetrica.
Infatti, poiché P (A B ) = P (A B ) ⋅ P (B ) = P (B | A) ⋅ P (A)
Da entrambe le definizioni si ricava che

P(A B) = P (A) ⋅ P (B)

Esempio
Si estrae una carta da un mazzo di 52 carte.
Verificare se gli eventi
A: “esce un asso” B: “esce una carta di fiori”
sono stocasticamente indipendenti
1 1
P (A) = 4/52 = 1/13P (B ) = 13/52 = 1/4P (A B ) = ⋅ = 1/52
13 4
Schema di sintesi – Probabilità di unione e intersezione
Per quanto riguarda l’unione, P (A B ):

➢ Se gli eventi sono incompatibili, quindi A B = , vale

P (A) + P (B )

➢ Se gli eventi sono compatibili, quindi A B ≠ , vale

P(A) + P (B) − P (A B)

Per quanto riguarda l’intersezione, P (A B ):

➢ Se gli eventi sono stocasticamente indipendenti, quindi P (A B ) = P (A) e P (B A) = P (B ), vale

P (A) ⋅ P (B)

➢ Se gli eventi sono stocasticamente dipendenti, quindi P (A B ) ≠ P (A) e P (B A) ≠ P (B ), vale

P(A B) ⋅ P (B)oppu r eP (B | A) ⋅ P (A)

Partizione dello spazio campionario


Si dice partizione dello spazio campionario ogni insieme di eventi, a due a due incompatibili, la cui unione è uguale a
Ω.
Gli eventi Ai , i = 1, 2, …, k sono quindi una partizione di Ω se
k


Ai = , Ai Aj = i, j i ≠ j
i=1

Osservazioni:
k k

(⋃ ) ∑
P Ai = P (Ai ) = P () = 1

i=1 i=1

➢ Gli eventi A e Ā sono una partizione di Ω.

Variabili casuali
In molti casi, i risultati di un esperimento casuale sono rappresentati da numeri. L’utilizzo dei numeri per rappresentare
gli eventi favorisce l’elaborazione e l’analisi dei possibili risultati dell’esperimento.
Si dice variabile casuale (aleatoria, stocastica) ogni funzione che associa un solo numero reale ad ogni evento
appartenente ad una partizione di Ω.

Tipi di variabili casuali:


Si distingue tra
• Variabile casuale discreta: Assume un numero finito o un’infinità numerabile di valori;
• Variabile casuale continua: Assume tutti i valori di un intervallo limitato o illimitato.

Le variabili casuali si indicano abitualmente con le lettere X, Y, Z, …


e le loro realizzazioni (determinazioni) con le lettere

xi, yi, z i, … nel caso di v.c. discrete


x , y , z , … nel caso di v.c. continue
Variabili casuali discrete
Il termine “variabile casuale” viene impiegato perché ogni sua realizzazione è determinata da un evento aleatorio.
Alle k possibili realizzazioni di una v.c. discreta X è associata la funzione di probabilità (f.p.).

pi = P(xi) = P(X = xi) i = 1, 2, …, k

L’insieme (xi; pi) è la distribuzione di probabilità (d.p.) della v.c. X.


Ovviamente:

- pi ≥ 0, i = 1, 2, …, k


-
pi = 1
i

Il grafico di una distribuzione di probabilità è un grafico a bastoncini.


Spesso viene utilizzata anche la funzione di ripartizione (f.r.) della v.c. X

F (x) = P (X ≤ x)
Si tratta di una funzione a gradini (cumulata) poiché:
• F (x) = 0 x < x1


• F (x) = pj xi ≤ x < xi+1
j≤i

• F (x) = 1 x ≥ xk
Il grafico di una funzione di ripartizione è appunto un grafico a gradini.

Valore atteso e varianza


La distribuzione di probabilità di una variabile casuale discreta presenta molte analogie con la distribuzione di
frequenze di un carattere discreto.
Ai fini dell’analisi di una v.c. si possono calcolare una media algebrica e un indice di variabilità.
In questo contesto si impiegano:

∑i
➢ Valore atteso (aspettativa) μ = E (X ) = xi pi
➢ Varianza:
2 2
σ 2 = Va r (X ) = E(X − μ) =
∑i (
- Formula diretta xi − μ) pi

σ 2 = Va r (X ) = E (X 2) − μ 2 = xi 2 pi − μ 2
∑i
- Formula indiretta

Trasformazioni lineari
Le proprietà della media e della varianza possono essere estese alle v.c.
Ad esempio, data una v.c. X con valore atteso e varianza noti, per la v.c. Y ottenuta dalla trasformazione lineare

Y = a + bX
Si ricavano

E (Y ) = a + b ⋅ E (X )e
Va r (Y ) = b 2Va r (X )
Una particolare trasformazione lineare è la standardizzazione:
Data una v.c. X con E (X ) = μ e con Va r (X ) = σ 2, allora ho la v.c. standardizzata Z:
X−μ
Z = e ha E (Z ) = 0 Va r (Z ) = 1
σ
Alcune variabili casuali discrete
1) Variabile casuale Uniforme:
Ha la seguente distribuzione di probabilità
1
p (x) = x = 1, 2, …, k
k
con k ∈ {1, 2, …} detto parametro della distribuzione.

Si scrive in sintesi X~U(k) e si dimostra che:

- E (X ) = (k + 1)/2
- Va r (X ) = (k 2 − 1)/12

2) Variabile casuale di Bernoulli:


Ha la seguente distribuzione di probabilità

p (x) = p x (1 − p)1−x x = 0, 1

con p ∈ (0; 1) detto parametro della distribuzione.

Si scrive in sintesi X~B( p) e si dimostra che:

- E (X ) = p
- Va r (X ) = p ⋅ (1 − p)

3) Variabile casuale Binomiale:

Si sviluppa in 3 passi:

1. Si ha un evento E di probabilità p;

2. Si effettuano n prove indipendenti;


3. Si conta il numero X di volte in cui E si è verificato nelle n prove.

La v.c. binomiale ha la seguente distribuzione di probabilità

(x)
n n−x
p (x) = ⋅ p x(1 − p) x = 0, 1, 2, …, n

con n ∈ {1, 2, …}, p ∈ (0; 1) detti parametri della distribuzione

( x ) x !(n − x)!
n n!
e = detto coefficiente binomiale.

Si scrive in sintesi X~B( p; n) e si dimostra che:

- E (X ) = n ⋅ p
- Va r (X ) = n p (1 − p)

Osservazioni:

- Se X~B( p; 1) allora X~B( p);

- La v.c. X~B( p; n) è la somma di n v.c. Y~B( p) indipendenti.

4) Variabile casuale di Poisson:


Ha la seguente distribuzione di probabilità
λ x −λ
p (x) = ⋅e x = 0, 1, 2, 3, …
x!
con λ > 0 detto parametro della distribuzione.

Si scrive in sintesi X~P (λ) e si dimostra che:

- E (X ) = λ
- Va r (X ) = λ
Variabili casuali continue
Una variabile casuale continua X assume valori x in un intervallo (I; S ) (limitato o illimitato).
Una variabile casuale continua X è anche caratterizzata dalla funzione di densità di probabilità (f.d.p.)

f (x) ≥ 0 x ∈ (I; S )

che può essere interpretata come la probabilità associata all’intervallo di ampiezza d (piccola) centrato su x:

(x − d /2; x + d /2)
L’interpretazione di f (x) è quindi analoga a quella di fs.

Prendiamo un intervallo (a; b) della f.d.p.:


• Per a < b, la probabilità P (a < X ≤ b) è pari all’area sottostante f (x) nell’intervallo (a; b);
• Se a = b, l’area dell’intervallo è nulla, quindi P (X = x) = 0;
• L’area sottostante f (x) nell’intervallo (I; S ) è quindi pari a 1.
Funzione di ripartizione
Per una variabile casuale continua X la funzione di ripartizione (f.r.)

F (x) = P (X ≤ x)
è pari all’area sottostante f (x) nell’intervallo (I; x).
Si ha ovviamente F (S ) = 1.

Come abbiamo visto, la distribuzione di probabilità di una variabile casuale continua presenta molte analogie con la
distribuzione di frequenze di un carattere continuo.
In questo contesto il calcolo del valore atteso E (X ), della varianza Va r (X ) o dei quantili è però più complesso,
perché si basa sull’impiego dei metodi di integrazione.

Alcune variabili casuali continue

1) Variabile casuale Rettangolare:

Ha la seguente distribuzione di probabilità


1
f (x) = α≤x ≤β
β −α

con α, β ∈ ℜ detti parametri della distribuzione.

Si scrive in sintesi X~R(α ; β ) e si dimostra che:

- E (X ) = (α + β )/2

- Va r (X ) = (α − β )2 /12
1
- P(a ≤ x ≤ b) = (b − a) ⋅
β −α

2) Variabile casuale Normale:

Ha la seguente distribuzione di probabilità


2
(x − μ)
1 −
f (x) = ⋅e 2σ 2 x ∈ℜ
2π ⋅ σ 2

con μ ∈ ℜ e σ 2 > 0 detti parametri della distribuzione.

Si scrive in sintesi X~N( μ; σ 2 ) e si dimostra che:

- E (X ) = μ

- Va r (X ) = σ 2
- σ = σ 2 è lo scarto quadratico medio di X

Tale distribuzione è detta curva di Gauss o degli errori accidentali perché si può impiegare per rappresentare
grandezze affette da errori di misura non sistematici.
La distribuzione Normale può essere ottenuta all’aumentare di n da quella della variabile casuale X~B( p; n).
Essa è molto utilizzata anche nell’ambito della inferenza statistica e nella teoria del campionamento.

Ruolo dei parametri:

- μ è detto parametro di localizzazione, coincide con il valore atteso, con la moda e con la mediana;

- σ 2 è detto parametro di scala.

Un’altra caratteristica della curva della variabile casuale Normale è che ha due punti di flesso μ − σ e μ + σ.

Trasformazioni lineari

Data una variabile casuale X~N (μ; σ 2 ), per la variabile casuale Y ottenuta dalla trasformazione lineare

Y = a + bX si ha che

Y~N(a + bμ; b 2 σ 2 )

La trasformazione lineare più importante è la Standardizzazione:

Data una v.c. X~N (μ; σ 2 ), per la v.c.


X−μ μ 1
Z = =− + X
σ σ σ
Si ha Z ~(0; 1) che viene detta v.c. Normale Standard.

Osservazione: Ogni v.c. Normale X con μ e σ 2 noti si può trasformare nella v.c. Z.

La variabile casuale Normale Standard ha la seguente distribuzione di probabilità


2
1 −x
(x) = ⋅e 2 x ∈ℜ

e quindi non dipende da alcun parametro.

Poiché la standardizzazione riguarda i valori della v.c. e non le probabilità, data una v.c. X~N (μ; σ 2 ) si ha
( σ )
X−μ x −μ
P (X ≤ x) = P ≤ = P (Z ≤ z ) = (z )
σ

Per calcolare la probabilità (z ) = P (Z ≤ z ) sono state predisposte opportune tavole.

Intervalli tipici
Si può ritagliare una parte della curva della v.c. Normale contenuta in un intervallo (μ − γ σ ; μ + γ σ).

Per determinare i valori di γ è nota la

P ( μ − γ σ ≤ X ≤ μ + γ σ)
A questo punto posso avere:

1. γ = 0,675P (μ − 0,675σ ≤ X ≤ μ + 0,675σ) ≅ 0,5

2. γ =1
P(μ − σ ≤ X ≤ μ + σ) = 0,6827

3. γ = 2P(μ − 2σ ≤ X ≤ μ + 2σ) = 0,9545

4. γ =3
P(μ − 3σ ≤ X ≤ μ + 3σ) = 0,9973

Potrebbero piacerti anche