Sei sulla pagina 1di 14

Introduzione al Metodo Statistico e

Cenni di Statistica Descrittiva Univariata e Bivariata

INTRODUZIONE
La popolazione (o popolazione di riferimento) è l’insieme di tutte le unità statistiche, individui od
oggetti, che si vogliono studiare.
La dimensione della popolazione è il numero delle unità statistiche della popolazione. Il relativo
simbolo è N.
Lo studio statistico dell’intera popolazione si chiama censimento.
Un campione è una parte (sottoinsieme) della popolazione di riferimento
Quando non si può studiare l’intera popolazione, perché:
- occorrerebbe troppo tempo studiare l’intera popolazione
- costerebbe troppo studiare l’intera popolazione
- potrebbe non essere possibile identificare ogni elemento della popolazione
allora ci si limita allo studio di un campione.
La dimensione del campione è il numero delle unità statistiche del campione. Il relativo simbolo è n.
I fattori che determinano la dimensione del campione sono:
- la variabilità della popolazione
- la quantità di errore che può essere tollerata
- le risorse disponibili per il progetto
- la dimensione N della popolazione
Una variabile è una caratteristica (fenomeno) registrabile su ogni unità statistica appartenente alla
popolazione di riferimento.
L’errore di campionamento è la differenza tra una caratteristica (fenomeno) misurata sull’intera
popolazione e la stessa caratteristica (fenomeno) riscontrata in un campione di quella popolazione.
Un campione distorto è un campione non rappresentativo della popolazione, ovvero un campione che
dà una visione non fedele e pregiudiziale della popolazione di riferimento.
Ci sono molti modi per scegliere un campione, ma per lo scopo di questo corso utilizzeremo un
campione casuale semplice.
Un campione casuale semplice è un campione che è stato scelto in modo tale che tutti i membri della
popolazione abbiano la stessa probabilità di essere scelti. Inoltre ogni campione di dimensione n ha
la medesima probabilità di diventare il campione selezionato.
• L’analisi descrittiva riguarda gli strumenti statistici utili alla descrizione di una popolazione.
• L’analisi descrittiva univariata riguarda l’analisi di una caratteristica, fenomeno, alla volta.
• L’analisi descrittiva bivariata riguarda l’analisi congiunta di due caratteristiche, o fenomeni.
• La statistica inferenziale ci permette di trarre delle conclusioni sulla popolazione di
riferimento utilizzando le informazioni provenienti dal campione.
• La teoria della probabilità viene usata per calcolare la verosimiglianza di osservare o
selezionare un particolare campione della popolazione di riferimento.

Elena Siletti: elena.siletti@unimib.it 1


TIPI DI DATI
I dati qualitativi descrivono una caratteristica, fenomeno, che si manifesta con degli attributi,
modalità.
• I dati nominali descrivono una caratteristica, fenomeno, che si manifesta con degli attributi,
modalità che non hanno un ordinamento naturale. (es Genere, Colore degli Occhi, ecc.)
• I dati ordinali descrivono una caratteristica, fenomeno, che si manifesta con degli attributi,
modalità che hanno un ordinamento naturale. (es Giudizio Ottenuto ad un Test, Titolo di
Studio, ecc.)
I dati quantitativi descrivono una caratteristica, fenomeno, che si manifesta con dei numeri, valori.
• I dati discreti descrivono una caratteristica, fenomeno, che si manifesta con dei numeri,
conteggi, valori che provengono da un conteggio. (es n° dei Figli, n° di Prodotti Venduti, ecc.)
• I dati continui descrivono una caratteristica, fenomeno, che si manifesta con dei numeri,
quantità, valori che provengono da una misurazione. (es Altezza in cm, Reddito Annuale, ecc.)

DISTRIBUZIONI DI FREQUENZA UNIVARIATE


La distribuzione di frequenza univariata è la sintesi tabellare di una variabile. Consiste in una tabella
in cui nella prima colonna sono riportate le differenti modalità o valori con cui si manifesta il
fenomeno analizzato, e nella seconda colonna le frequenze associate ad ogni modalità o valore. Se il
fenomeno è quantitativo spesso è raggruppato in classi.
Data la variabile X che si manifesta con i = 1, 2,…, k modalità in una popolazione di N unità
statistiche, si costruisce la seguente distribuzione di frequenza

xi fi
x1 f1
… …
xk fk
N
k
dove: f
i =1
i =N

La frequenza relativa della modalità i-esima di una caratteristica viene calcolata rapportando la
corrispondente frequenza assoluta al totale delle frequenze, cioè al numero delle unità che formano
la popolazione
f
rf i = i
N
Se le frequenze relative vengono moltiplicate per 100 si hanno le frequenze percentuali.
La distribuzione di una variabile può essere espressa indifferentemente in termini di frequenze
assolute o relative, naturalmente nel secondo caso si perde l’informazione dell’ampiezza della
popolazione, ma diventa possibile il confronto del carattere rilevato su più popolazioni con differenti
dimensioni, e viene evidenziato il ruolo delle diverse modalità.
Se il fenomeno è almeno ordinale, ovvero per tutti i dati a parte i nominali, ha senso ricavare anche
le frequenze cumulate che sono ricavate sommando successivamente le frequenze dalla prima
all’ultima modalità; per la generica frequenza cumulata si ha:
i
Fi = f1 + f 2 + ... + f i =  f j
j =1

che rappresenta il numero di unità, fra le N della popolazione, per le quali la variabile X assume
modalità non superiori ad xi.

Elena Siletti: elena.siletti@unimib.it 2


Nelle distribuzioni in cui i valori vengono raggruppati in classi, per convenzione, si considera come
valore rappresentativo della classe il valore centrale della classe e lo si identifica con xi.

RAPPRESENTAZIONE GRAFICA DEI DATI


Dati qualitativi nominali
La rappresentazione grafica più indicata è un diagramma a settori circolari, ovvero una “torta”,
soprattutto se si manifesta con poche modalità e perché in generale si è interessati a valutare la
composizione della popolazione. Esempio:
Genere

40.00%

60.00%

Femmine Maschi

Per costruire il grafico a settori circolari o a torta, si ricavano gli angoli dei diversi settori utilizzando
la seguente proporzione: 360: N = αi : fi.
Trattandosi di gradi, sarebbe necessario ricavare i “primi” ed i “secondi”, ma per semplificazione si
può approssimare ai “gradi”.
Nell’esempio:
N = 20 ed f1 = 12; 360 : 20 = α F :12 α F = 216°
N = 20 ed f2 = 8; 360 : 20 = α M : 8 α M = 144°

Dati qualitativi ordinali


la rappresentazione grafica più indicata è una grafico a barre. Esempio
8

7
7

6
6

5
5

1 1
1

0
Senza Titolo Lic. Elem. Lic. Media Diploma Laurea

Elena Siletti: elena.siletti@unimib.it 3


L’altezza dei rettangoli dipende dalle frequenze considerate: assolute, relative o percentuali. La base
delle “barre” è uguale e lo spazio tra le stesse, in presenza di mutabili con almeno tre modalità, resta
costante, ovvero le “barre” sono equidistanti; l’area dei rettangoli non ha importanza.

Dati quantitativi discreti


La rappresentazione grafica più indicata è un grafico per ordinate o a bastoncini. Esempio:
Numero di benefit

5
Frequenze

0
0 1 2 3 4 5 6 7
Valori

L’altezza dei bastoncini dipende dalle frequenze considerate: assolute, relative o percentuali.

Dati quantitativi continui o in classi


La rappresentazione grafica più indicata è l’istogramma. Si compone di tanti rettangoli contigui
quante sono le classi da rappresentare k. La base di ogni rettangolo coincide con l’ampiezza della
classe ai, mentre l’area di ogni rettangolo coincide con la frequenza fi. Per costruire il rettangolo
f
occorre definirne l’altezza di = i dove il rapporto tra frequenze ed ampiezze è detta frequenza
ai
specifica o densità di frequenza. Naturalmente la somma delle aree di tutti i rettangoli deve essere
uguale alla somma delle frequenze assolute ovvero alla numerosità totale N.
Esempio:

Elena Siletti: elena.siletti@unimib.it 4


INDICI DI POSIZIONE O MISURE DI TENDENZA CENTRALE
In generale gli indici di posizione o misure di tendenza centrale vengono chiamati medie.
Si distinguono medie che sono funzioni di tutte le determinazioni della variabile, ad esempio la media
aritmetica, e medie che sono individuate da particolari valori o modalità della variabile, ad esempio
la moda e la mediana.
Data una variabile quantitativa X, che assume su N unità statistiche i valori non decrescenti x1,
x2,…,xN, sono denominate medie quelle particolari funzioni che soddisfano le seguenti proprietà:
- d’internalità, la media non deve essere inferiore al più piccolo dei valori osservati né superiore
al più grande, ovvero deve essere interna al campo di osservazione;
- moltiplicativa, la media segue le variazioni dell’unità di misura, ad esempio, se la statura totale
rilevata su N individui viene espressa in metri, anche la media è espressa in metri, ma se si
modificano gli N valori in centimetri, anche la media subisce la stessa modifica;
- di monotonicità, ovvero se almeno uno dei valori aumenta, o diminuisce, restando invariati
tutti gli altri, la media aumenta, o diminuisce.
Moda
In generale è la modalità o il valore a cui è associata la frequenza massima. Se i valori sono
raggruppati in classi si parla di classe modale, ovvero la classe a cui è associata la densità di frequenza
massima, e la moda, convenzionalmente, è il valore centrale di tale classe.
È individuabile per tutti i tipi di fenomeni.
Se è unica si dice che il fenomeno è unimodale, mentre se a due o più modalità sono associate le
stesse frequenze più elevate si è in presenza di un fenomeno bimodale o plurimodale.
Mediana
Per un fenomeno qualitativo ordinale o quantitativo, poste le N osservazioni in ordine non
decrescente, viene definita mediana, quella modalità o valore associato all’unità che occupa la
posizione centrale.
N +1
Se N è dispari si ricava un’unica posizione mediana: P =
2
N N
Se N è pari è necessario ricavare due posizioni mediane: P1 = e P2 = + 1
2 2
Quando N è pari ed il fenomeno è qualitativo ordinale, se le due posizioni mediane identificano due
differenti modalità, allora la mediana non è definita.
Quando N è pari ed il fenomeno è quantitativo, se le due posizioni mediane identificano due differenti
valori, allora come mediana usualmente si considera la semisomma delle due modalità.
Quando il fenomeno è raggruppato in classi possiamo considerare come mediana è il valore centrale
N +1
della classe associata alla posizione mediana P = sia con N pari che con N dispari.
2
In similitudine alla mediana, possono essere definiti i Quartili (Q1, Q2=Mediana e Q3, dividendo in
quattro la distribuzione), i Decili (dividendo in 10 la distribuzione), o i Percentili (dividendo in 100
la distribuzione)
Media Aritmetica
È chiaramente calcolabile solo per fenomeni quantitativi.
Partendo dai dati grezzi, ovvero dalla matrice dei dati, si calcola utilizzando la seguente formula:

Elena Siletti: elena.siletti@unimib.it 5


1 N
x=
N
x
i =1
i

mentre quando si parte dalla distribuzione di frequenza è necessario utilizzare le seguenti distribuzioni
ponderate a seconda si utilizzino le frequenze assolute o relative:
1 k k
x=
N
x ⋅ f
i =1
i i x =  xi ⋅ rf i
i =1

Proprietà della media aritmetica:


N
- la somma degli scarti dei valori dalla loro media è nulla: (x − x ) = 0
i =1
i

(x − x )
2
- la somma dei quadrati degli scarti dei valori dalla loro media è minima: i = min
i =1

- se i valori xi vengono trasformati nei valori yi = a ± bxi , allora la media subisce la stessa
trasformazione: y = a ± bx .

Teoremi della media aritmetica:


- la media di un miscuglio di k gruppi, o sottopopolazioni, per cui sono note la media e le
numerosità di gruppo, è uguale alla media delle medie dei singoli gruppi ponderata con le
numerosità di gruppo:
k
se xi è la media dell’i-esimo gruppo ed N =  fi è la numerosità della popolazione, composta da k
i =1
gruppi composti ciascuno da fi unità statistiche, allora la media dell’intera popolazione è data dalla
seguente formula:
1 k
x =  xi ⋅ f i
N i =1
- la media della somma o della differenza di due o più variabili è uguale alla somma od alla
differenza della media delle singole variabili
se Z = X ± Y si ha: z = x ± y .

Il Confronto tra Media, Mediana e Moda


Se consideriamo una distribuzione simmetrica a campana, allora la media e la mediana sono entrambe
nel centro della distribuzione in corrispondenza del picco, ovvero della moda.

Elena Siletti: elena.siletti@unimib.it 6


Quando la media e la mediana non coincidono di dice che la distribuzione è asimmetrica (se
coincidono, potrebbe essere simmetrica, condizione necessaria, ma non sufficiente), in particolare si
dice che:
Media < Mediana < Moda - distribuzione è negativamente asimmetrica (gobba a destra)

Media > Mediana > Moda - distribuzione è positivamente asimmetrica (gobba a sinistra)

INDICI DI VARIABILITÀ

Un fenomeno che assume sulle N unità osservate la stessa modalità ha variabilità nulla e la variabile
ad esso associata è chiamata degenere.

Dati qualitativi
La variabilità dei fenomeni qualitativi si indica propriamente con il termine mutabilità.
La mutabilità è l’attitudine di un fenomeno qualitativo a manifestarsi con modalità differenti.
Gli indici che misurano la mutabilità sono chiamati indici di eterogeneità ai quali vengono
contrapposti gli indici di omogeneità.
Indice di Eterogeneità di Gini
k
G = 1 −  rf i 2
i =1

che assume valore minimo, ovvero di minima eterogeneità o massima omogeneità, per G = 0 ed
assume valore massimo, ovvero di massima eterogeneità o minima omogeneità, per G = (k-1)/k.
Quindi il massimo dipende dal numero k delle modalità con cui si manifesta il fenomeno. Per ottenere
un indice normalizzato, ovvero un indice che varia tra 0, minima eterogeneità, ed 1, massima
eterogeneità, è necessario dividere l’indice rispetto il suo massimo:

Elena Siletti: elena.siletti@unimib.it 7


k
1 −  rf i 2
G  k
 k k
Gnorm = = i =1
= 1 −  rf i 2  ⋅ =G⋅
Gmax k −1  i =1  k −1 k −1
k
Dati quantitativi
Campo di Variazione
È l’indice fornito dalla differenza tra il valore maggiore ed il valore minore della variabile:
R = xmax − xmin
in inglese viene detto range.
È molto facile da calcolare, ma un inconveniente consiste nel fatto che i valori estremi della
distribuzione possono essere dei valori anomali e pertanto il valore del campo di variazione può essere
poco realistico.
Differenza Interquartile
È l’indice fornito dalla differenza tra il terzo (Q3) e primo quartile (Q1):
DI = Q3-Q1
È molto facile da calcolare, supera il problema legato al range escludendo i valori estremi della
distribuzione, ovvero il primo e l’ultimo 25% della distribuzione.
Lo Scarto Quadratico Medio e la Varianza
La varianza è la media delle distanze, o degli scarti, dalla media aritmetica al quadrato, e gode della
proprietà di minimo della media aritmetica.
1 N

( x − x )
2
formula semplice: σ 2 = i , da utilizzare partendo dai dati grezzi, matrice di dati
N i =1

1 k

(x − x )
2
formula ponderata: σ 2 = i f i , da utilizzare partendo dalla distribuzione di frequenza
N i =1

È possibile utilizzare le rispettive formule operative che permettono di fare meno calcoli:
1 N
formula semplice: σ 2 =  xi2 − x 2
N i =1
1 k 2
formula ponderata: σ 2 =  xi ⋅ fi − x 2
N i =1

Proprietà della varianza:


- la varianza è invariante per traslazione: se dalla variabile X, la cui varianza è σ X2 , si passa
alla variabile Y = a + X si ha: σ Y2 = σ X2 ;
- se si effettua una trasformazione lineare sulla variabile X del tipo Y = a + bX , tenendo conto
che y = a + bx , si ottiene: σ Y2 = b 2σ X2

Teoremi sulla varianza:


- la varianza di un miscuglio di k gruppi, o sottopopolazioni, per cui sono note le medie, le
varianze e le numerosità di gruppo, è uguale a:
σ 2 = σ W2 + σ B2

Elena Siletti: elena.siletti@unimib.it 8


k
se xi ed σ i2 sono rispettivamente la media e la varianza dell’i-esimo gruppo ed N =  fi è la
i =1
numerosità della popolazione, composta da k gruppi il primo addendo è uguale alla media delle
varianze, e viene detto varianza within ovvero varianza nei gruppi
1 k
σ W2 =  σ i2 ⋅ fi
N i =1
mentre il secondo addendo è uguale alla varianza delle medie, e viene detto varianza between ovvero
varianza tra i gruppi
1 k
σ B2 =  ( xi − x ) fi
2

N i =1
- la varianza della somma di due variabili risulta uguale alla somma delle varianze delle singole
variabili solo se queste sono tra loro indipendenti.
Ponendo sotto radice quadrata la varianza si ottiene lo scarto quadratico medio che è propriamente
un indice di dispersione dei valori intorno alla media aritmetica.

1 N

(x − x )
2
σ = σ2 = i
N i =1

tale indice si esprime nella stessa unità di misura del fenomeno, per questa ragione permette
l’interpretazione della variabilità dei fenomeni quantitativi.
Il Coefficiente di Variazione
Lo scarto quadratico medio è un indice assoluto di variabilità che essendo espresso nella stessa unità
di misura del fenomeno non permette di effettuare confronti tra la variabilità di due o più fenomeni
rilevati con differenti unità di misura. Non è infatti possibile confrontare la variabilità di una
distribuzione di N “stature” che vengono espresse in cm con la variabilità di una distribuzione di N
“pesi” che vengono espressi in kg. Con un indice come lo scarto quadratico medio non è neppure
possibile confrontare la variabilità di due o più fenomeni della stessa natura anche se rilevati su gruppi
di unità statistiche distinte, ad esempio adulti e bambini, in quanto può essere diversa l’intensità media
del fenomeno considerato.
Per superare tali inconvenienti viene introdotto il concetto di variabilità relativa ed il relativo indice
detto coefficiente di variazione:

=
| ̅|
proposto da Pearson nel 1895, consiste in un numero depurato da unità di misura ed intensità che è
direttamente confrontabile.

Elena Siletti: elena.siletti@unimib.it 9


LA TABELLA A DOPPIA ENTRATA – DISTRIBUZIONE DI FREQUENZA BIVARIATA
La distribuzione di frequenza bivariata è la sintesi tabellare di due variabili rilevate congiuntamente.
Consiste in una tabella in cui in riga sono riportate le differenti modalità o valori con cui si manifesta
un fenomeno ed in colonna quelle dell’altro fenomeno. Nel quantitativo potremmo avere delle classi
così come nell’analisi univariata.
Data la variabile X che si manifesta con i = 1, 2,…, r modalità e la variabile Y che si manifesta con j
= 1, 2,…, c modalità in una popolazione di N unità statistiche, si costruisce la seguente distribuzione
di frequenza
Y
y1 - yj - yc
x1 f11 - f1j - f1c f1.
- - - - - - -
xi fi1 - fij - fic fi.
X

- - - - - - -
xr fr1 - frj - frc fr.
f.1 - f.j - f.c N
In rosso sono evidenziate le frequenze congiunte, in blu le frequenze marginali di X o di riga, in verde
le frequenze marginali di Y o di colonna.
• Le frequenze congiunte ci forniscono le frequenze associate ad ogni coppia di modalità.
• Le frequenze marginali forniscono la distribuzione univariata di ciascun fenomeno; operando
su queste frequenze è possibile proseguire nell’analisi con tutte le tecniche di analisi
univariata.
Le frequenze marginali di riga si ottengono sommando le frequenze congiunte che stanno sulla stessa
riga, mentre le frequenze marginali di colonna si ottengono sommando le frequenze congiunte che
stanno sulla stessa colonna.

Le informazioni circa il comportamento di un fenomeno condizionatamente all’altro si ottengono


considerando le righe o le colonne della tabella a doppia entrata separatamente, mediante la
costruzione delle frequenze condizionate.
La distribuzione del fenomeno Y rispetto al fenomeno X ovvero la distribuzione condizionata di Y
rispetto X è:
Y
y1 - yj - yc
x1 f11 / f1. - f1j / f1. - f1c / f1. 1
- - - - - - -
xi fi1 / fi. - fij / fi. - fic / fi. 1
X

- - - - - - -
xr fr1 / fr. - frj / fr. - frc / fr. 1
Mentre la distribuzione del fenomeno X rispetto al fenomeno Y ovvero la distribuzione condizionata
di X rispetto Y è:
Y
y1 - yj - yc
x1 f11 / f.1 - f1j / f.j - f1c / f.c
- - - - - -
xi fi1 / f.1 - fij / f.j - fic / f.c
X

- - - - - -
xr fr1 / f.1 - frj / f.j - frc / f.c
1 - 1 - 1

Elena Siletti: elena.siletti@unimib.it 10


INDIPENDENZA STATISTICA - CONNESSIONE
Il primo passo nell’analisi statistica bivariata consiste nello stabilire se esiste una qualche relazione
tra i due fenomeni considerati. Se non esiste alcuna relazione si dirà che X ed Y sono statisticamente
indipendenti.
Il metodo per stabilire se sono statisticamente indipendenti consiste nel confrontare le frequenze
condizionate. Se al variare delle modalità del fenomeno condizionante le distribuzioni condizionate
non variano, allora i due fenomeni sono statisticamente indipendenti.
Se due fenomeni non sono statisticamente indipendenti allora esiste una relazione e si dirà che i
fenomeni sono connessi.
Dopo aver stabilito che una relazione esiste, il passo successivo dell’analisi bivariata consiste nello
stabilire se tale relazione è forte o debole, ovvero è necessario misurare il grado di connessione.
Il metodo più utilizzato consiste nel considerare la differenza fra le frequenze congiunte osservate e
le frequenze teoriche ovvero le frequenze che si avrebbero in condizione di indipendenza statistica.
f i . ⋅ f. j
Frequenze Teoriche: f ij* =
N
Contingenze: Cij = fij − f ij*

Se queste differenze, dette contingenze, sono tutte vicine a zero si conclude che la connessione è
bassa, mentre all’aumentare del valore di tali differenze si ha connessione sempre più alta, ovvero un
legame più forte.
A segni positivi delle contingenze corrisponde attrazione tra le modalità corrispondenti, mentre a
segni negativi corrisponde repulsione tra le modalità corrispondenti.
L’indice utilizzato per misurare la connessione è il Chi quadro di Pearson:
(f )
2
r c − f ij*
χ = 
2 ij

i =1 j =1 f ij*
È a disposizione una formula alternativa che non richiede il calcolo delle frequenze teoriche e che è
quindi più conveniente quando si devono fare i conti a mano:
 r c f 2 
χ 2 = N   ij − 1
 i =1 j =1 f i. ⋅ f. j 
 
Il valore assoluto dell’indice di Pearson non è interpretabile, per questo è necessario ricorrere alla sua
normalizzazione:
χ2
χ% 2 =
N ⋅ min ( r − 1; c − 1)
l’indice normalizzato varia da zero, assenza di connessione, ovvero indipendenza statistica, ad 1,
massima connessione, ovvero ad ogni modalità di X corrisponde una ed una sola modalità di Y(questo
è certo per le tabelle quadrate ovvero quando c = r, oppure è vero osservando la dimensione minore
tra le due).

INDIPENDENZA IN MEDIA
Sapendo che due fenomeni non sono statisticamente indipendenti si sa che presentano una qualche
relazione statistica. Con l’analisi della connessione di può identificare una generica relazione tra i due
fenomeni e misurarla con l’indice di connessione χ 2 .
Ma se almeno uno dei due fenomeni è quantitativo ad esempio Y, ci si può chiedere se Y dipende in
media da X, ovvero se al cambiare delle modalità di X cambiano le medie di Y.

Elena Siletti: elena.siletti@unimib.it 11


C’è indipendenza in media se tutte le medie condizionate sono tra loro uguali e quindi uguali alla
media marginale:
y | x1 = ... = y | xi = ... = y | xr = y
Si dice che Y dipende in media da X se la relazione di connessione tra le due variabili statistiche si
riflette sulle medie condizionate di Y che risultano diverse tra loro al variare di X.
Se entrambi i fenomeni sono quantitativi è necessario considerare anche la dipendenza in media di X
da Y: si dice, allora, che X dipende in media da Y se la relazione di connessione tra le due variabili
statistiche si riflette sulle medie condizionate di X che risultano diverse tra loro al variare di Y.
L’indipendenza in media di Y da X non implica l’indipendenza in media di X da Y.
La dipendenza in media si misura mediante l’indice di dipendenza eta quadro:
1 r

( y | x − y )
2
f i⋅
σ 2
N
i
ηY2| X = FRA
= i =1
σ 2
1 c
Y
N
y
j =1
2
f − y2
j .j

Assume valori compresi tra 0 ed 1. Vale zero se la varianza FRA (BETWEEN) i gruppi è nulla cioè
quando Y è indipendente in media da X (e la varianza NEI gruppi coincide con la varianza marginale
di Y), mentre vale 1 quando la varianza FRA i gruppi coincide con la varianza marginale di Y cioè
quando Y è perfettamente dipendente da X (e la varianza NEI (WITHIN) gruppi è nulla).
1
( x | y − x ) f⋅ j
c 2

σ2 j
N j =1
η X2 |Y = FRA
=
σ 2
1 r
X
N
x
i =1
2
f − x2
i i.

Assume valori compresi tra 0 ed 1. Vale zero se la varianza FRA i gruppi è nulla cioè quando X è
indipendente in media da Y (e la varianza NEI gruppi coincide con la varianza marginale di X), mentre
vale 1 quando la varianza FRA i gruppi coincide con la varianza marginale di X cioè quando X è
perfettamente dipendente da Y (e la varianza NEI gruppi è nulla).

CORRELAZIONE LINEARE
Se entrambi i fenomeni sono quantitativi è possibile andare oltre all’analisi dell’indipendenza in
media.
La relazione statistica di tipo lineare tra Y ed X è chiamata correlazione lineare. Quando la
covarianza, ovvero l’indice di variabilità congiunto, è positiva Y ed X sono positivamente correlati,
cioè al crescere dell’uno cresce linearmente anche l’altro. Mentre quando la covarianza è negativa
allora Y ed X sono negativamente correlati, cioè al crescere dell’uno, l’altro decresce linearmente. Si
dice che i due fenomeni sono incorrelati quando la covarianza è nulla, cioè quando tra X ed Y esiste
una relazione di tipo diverso e lontano da quella lineare oppure quando non esiste nessuna relazione.
La covarianza è una misura di variabilità congiunta:
1 r c
σ XY =  ( xi − x ) ( y j − y ) f ij
N i =1 j =1
che utilizzando la formula alternativa diventa: σ XY = µ XY − x ⋅ y
dove oltre alle medie marginali si utilizza una sorta di “media bivariata” che è il momento misto, o
media dei prodotti:
1 r c
µ XY =  xi y j f ij
N i =1 j =1

Elena Siletti: elena.siletti@unimib.it 12


Questo valore non è direttamente interpretabile, ma è utile per il calcolo semplificato della covarianza.
Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare rho:

σ XY
ρ XY =
σ X2 σ Y2

In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità della correlazione
tra Y ed X.
Quando è uguale a -1 i fenomeni sono perfettamente e negativamente correlati, i punti sono
perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono
perfettamente e positivamente correlati, i punti sono perfettamente allineati lungo una retta con
pendenza positiva; quando è nullo sono incorrelati. I valori intermedi sono interpretabili come
percentuale di correlazione.

MODELLO DI REGRESSIONE LINEARE


Appurata l’esistenza di un legame lineare tra un fenomeno Y, detto dipendente, ed un fenomeno X,
detto indipendente, per ricavare il modello si pone un vincolo di linearità sulla forma funzionale del
modello e si ricerca quindi la retta ottimale in termini di Errore Quadratico Medio (MSE).
Il problema diventa quindi, nella classe delle funzioni lineari Y = a + bX , individuare i valori dei
coefficienti tra gli infiniti possibili che minimizzano la quantità
N
MSE =   yi − ( a + bxi ) 
2

i =1

I valori ottimali di a e di b individuano la miglior retta approssimante la dipendenza di Y da X. I


vantaggi dell’uso del criterio adottato sono che;
- esiste una soluzione esplicita generale, la cui forma non dipende dalla specifica matrice di dati
osservati
- risulta molto facile calcolare i valori appropriati di a e b utilizzando quantità legate a indici
statistici già noti.
Si può dimostrare che la soluzione del problema di minimizzazione dell’Errore Quadratico Medio
con una funzione approssimante lineare porta alle seguenti soluzioni per a e b:
- il coefficiente angolare della retta ottimale è dato dal rapporto tra la covarianza e la varianza
della variabile indipendente:

σ XY
b=
σ X2

- l’intercetta della retta ottimale è data dalla differenza tra la media della variabile dipendente e
b volte la media di quella indipendente:

a = y − bx

La retta individuata prende diverse denominazioni: retta dei minimi quadrati, retta di regressione,
modello lineare
La retta dei minimi quadrati rappresenta il più semplice modello funzionale per approssimare la
dipendenza di Y da X: essa infatti descrive un comportamento sempre uguale di Y, di incremento (se
b>0) e decremento (se b<0) al crescere di X, sempre costante per qualsiasi livello di X.

Elena Siletti: elena.siletti@unimib.it 13


Con la retta di regressione è possibile estrapolare e prevedere il valore di Y anche per valori di X non
osservati: tuttavia, specie per valori lontani da questi, non vi è alcuna garanzia che il modello lineare
sia ancora un’approssimazione attendibile.
Per valutare il grado di adattamento ai dati della retta dei minimi quadrati viene utilizzato un indice
che si basa sulla scomposizione della varianza, ma applicata alla retta. Infatti è possibile dimostrare
che la varianza della variabile dipendente vale anche la seguente uguaglianza
σ Y2 = var ( retta m.q.) + var ( residua )
L’indice di bontà di adattamento della retta, in base alla scomposizione della varianza rispetto alla
retta di regressione, allora è il rho (o R) quadro:
var ( retta )
ρ2 =
σY2

2
 σ XY 
tale indice coincide con il quadrato del rho: ρ = ( ρ ) = 
2 2

 σ X ⋅σ Y 
è detto anche coefficiente di determinazione, è un indice normalizzato, essendo il rapporto di una
parte su tutta la varianza di Y, varia tra 0 ed 1.
Quando vale 0 il modello lineare non ha alcuna capacità di descrivere l’eventuale dipendenza di Y da
X, questo non implica necessariamente che non vi sia alcun legame potrebbe infatti verificarsi uno
dei seguenti casi:
- si è in presenza di indipendenza statistica, non esiste alcun legame
- non vi è indipendenza, ma c’è indipendenza in media, non esiste alcuna funzione che sia in
grado di descrivere il legame esistente tra X ed Y, quindi tanto meno la retta
- non vi è indipendenza, né indipendenza in media, la dipendenza di Y da X può essere descritta
da una funzione, ma non da una funzione lineare; la funzione di regressione avrà un
andamento del tutto diverso, ad esempio parabolico.
Quando vale 1 vi è perfetta dipendenza lineare, ovvero la retta di regressione non presenta alcun
residuo, per cui la varianza di Y è tutta spiegata dalla retta.
La rappresentazione grafica di due fenomeni quantitativi è il diagramma a dispersione o scatter plot,
che diventa un grafico a bolle in presenza di una tabella a doppia entrata.

Quando ρ 2 = 1 il diagramma a dispersione presenta tutti i punti corrispondenti ai casi osservati che
giacciono esattamente su una retta, che coinciderà con la retta dei minimi quadrati.

Elena Siletti: elena.siletti@unimib.it 14

Potrebbero piacerti anche