Sei sulla pagina 1di 25

Analisi della dipendenza

La regressione studia come varia in media il


carattere dipendente al variare di quello
indipendente.

La variabile statistica doppia, data nella


forma di serie di N coppie di dati (x,y), si può
tradurre graficamente nello scatter
(nuvola di punti).
Lo studio della regressione consiste nel
determinare un funzione

y  f ( x; a 0 , a 1 , ........., a n )
*

che esprima nella maniera migliore il legame


tra il carattere antecedente x e quello
conseguente y in media
• Viene scelta quasi sempre la retta, detta
retta di regressione, perché è la funzione
più semplice.
y* = a + bx

x x+1
• Il calcolo dei parametri si effettua con il
metodo dei minimi quadrati:
n

(y * y )
i 1
i
2
 minimo

cioè

 (a  bx  y )
i 1
i
2
 minimo
Uguagliando a zero le derivate parziali

rispetto ai due parametri si ottiene:

 2 n a  bx  y   0 
  i 1
i i

 n 
2 a  bxi  yi xi  0 
 i 1 

 Na  b n x  n y 
 
i 1
i 
i 1
i

 n n n 
a  xi  b xi   xi yi
2

 i 1 i 1 i 1 
Dalla 1a equazione si ottiene:
n n

y i
 b xi
a i 1 i 1
 y  bx
N
Ricavando a anche dalla 2a equazione e ponendo
l’uguaglianza si ha:
n n

x i
yi  b x i
2

a  i 1
n
i 1

x
i 1
i
n n n n

 yi  b xi  i i 
x y  b x 2
i

a  i 1 i 1
 i 1
n
i 1

N
x
i 1
i

Con il prodotto ad incrocio si ottiene:


2
n n
 n
 n n

 
i 1
xi
i 1
yi  b


i 1
xi   N


i 1
xi yi  Nb 
i 1
xi2
dividendo per N2:

2
n n
 x
n n n

 xi  y  i  N  xi yi Nb  x i 2

i 1 i 1
 b  i 1   i 1
 i 1

N 2
N 2
N 2
N 2

Mx My  b ( Mx)  Mxy  b Mx
2 2
b Mx  M x   Mxy  Mx My
2 2

Mxy  Mx My Covx, y 
b  
Mx  M x
2 2
Var x 
quindi:

 a  y  bx 
 
 

   
n

  xi  x yi  y  codevianza 
b  i1 
 
2
 n

 
i 1
x i
 x  devianza 
• Il parametro a esprime il valore del
carattere y quando x=0

• Il parametro b (coefficiente di regressione)


esprime quanto varia in media il carattere y
al variare di una unità del carattere x e può
assumere valori compresi tra –  e + 
• Se b>0 il carattere y aumenta in media
all’aumentare del carattere x

• Se b<0 il carattere y diminuisce in media


all’aumentare del carattere x

• Se b=0 il carattere y è indipendente in


media dal carattere x

Più alto è il valore assoluto di b, maggiore


sarà il ritmo di aumento o decremento di y in
media da x
• La codevianza stima come x ed y variano
congiuntamente rispetto al loro valor medio

 x i

 x yi  y 
• Nel caso in cui il prodotto sia positivo per ciascuna
coppia, la codevianza è maggiore di 0

• Nel caso in cui il prodotto sia negativo, la


codevianza risulterà minore di 0

• Se la variabile y non varia al variare di x, la


codevianza sarà uguale a 0.
Dividendo la codevianza per N, (che

corrisponde al numero delle coppie di

valori), si ottiene la covarianza:

 xy 
 x  x y - y 
N
Calcoliamo le retta di regressione sui dati di unità di fertilizzante (x) e
peso della granella (y) di 10 parcelle di mais.
[x-M(x)]*
x y xy x-M(x) y-M(y) [y-M(y)] [x-M(x)]^2
171 60 10260 -5.4 -8.9 48.06 29.16
169 57 9633 -7.4 -11.9 88.06 54.76
181 71 12851 4.6 2.1 9.66 21.16
173 66 11418 -3.4 -2.9 9.86 11.56
178 65 11570 1.6 -3.9 -6.24 2.56
180 78 14040 3.6 9.1 32.76 12.96
185 82 15170 8.6 13.1 112.66 73.96
183 78 14274 6.6 9.1 60.06 43.56
170 62 10540 -6.4 -6.9 44.16 40.96
174 70 12180 -2.4 1.1 -2.64 5.76
1764 689 121936 396.4 296.4

M(x)= 1764/10=176.4 396.4


M(y)= 689/10=68.9 b  1.337382
296.4
a= 68.9-[1.33738*176.4]= -
167.014

y = -167.014 + 1.337382 x
ANALISI DELL’INTERDIPENDENZA

Si ricorre a studiare l’interdipendenza quando nessuno


dei due caratteri x e y è assunto come antecedente
dell’altro.
Aspetti dell’interdipendenza sono la concordanza e la
discordanza.
Si ha concordanza se ai valori più piccoli di uno dei
caratteri corrispondono, in media, valori più piccoli del
secondo e se ai valori più grandi corrispondono, in
media, valori più grandi.
Nel caso contrario si parla di discordanza.
Una misura assoluta della concordanza può essere
data dalla codevianza:

Codevx, y    x  x y  y  
Infatti i valori piccoli di ciascun carattere danno luogo
a scarti negativi, quelli grandi a scarti positivi;
pertanto, nel caso di concordanza, poichè valori
piccoli di x sono associati a valori piccoli di y e valori
grandi di x a valori grandi di y, nella somma posta al
secondo membro della Codev si riscontreranno
prodotti di scarti entrambi negativi o entrambi positivi
e, quindi, prodotti positivi.
Al contrario, in caso di discordanza, si avranno
prevalentemente scarti negativi associati a scarti
positivi quindi si avranno prevalentemente prodotti
negativi.

La codevianza rappresenta una misura assoluta di


concordanza ed è espressa in una unità di misura
pari al prodotto delle unità di misura dei due caratteri;
il suo valore risulta altresì influenzata dalla variabilità
dei due caratteri e non consente quindi di effettuare
confronti per esempi diversi.
Un indice relativo di concordanza, che assume valori
compresi tra -1 e +1, è dato dal coefficiente di
correlazione del Bravais-Pearson che si calcola
tramite la media geometrica applicata ai due
coefficienti di regressione:

bxy 
 x  x y  y 
byx 
 x  x y  y 
 x  x  y  y 
2 2

X= variabile indipendente Y = variabile indipendente


Y= variabile dipendente X= variabile dipendente
bxy 
 x  x y  y 
byx 
 x  x y  y 
 x  x  y  y 
2 2

r
 x  x y  y  *  x  x y  y  
 x  x   y  y 
2 2


 x  x y  y  
Codev( x, y )

 x  x   y  y  dev( x)dev( y )
2 2
Il segno del coefficiente di correlazione è quello del
numeratore in quanto il denominatore è sempre
positivo; pertanto anche r assume valori positivi nel
caso di concordanza e valori negativi nel caso di
discordanza.
r assume valori positivi via via crescenti al crescere
della concordanza, fino al massimo di +1 che si
raggiunge nel caso di perfetta relazione lineare
crescente tra i due caratteri.
Analogamente r assume valori negativi via via
decrescenti al crescere della discordanza fino ad un
minimo di -1.
R è un numero puro in quanto sia il numeratore che
il denominatore sono espressi nella stessa unità di
misura.

Il coefficiente di correlazione r assume valore 0 nel


caso in cui la somma dei prodotti degli scarti di
uguale segno neutralizza quella dei prodotti di scarti
di segno diverso, quando cioè tra i due caratteri non
esiste né concordanza né discordanza.
Cibi Grassi (x) Colesterolo [x-M(x)]=v [y-M(y)]=z v*z
(y)
Bistecca di manzo 24 82 -7.5333333 -4.2 31.6
Braciola di agnello 42 94 10.4666667 7.8 81.6
Lombo di maiale 52 90 20.4666667 3.8 77.8
Costoletta di maiale 67 121 35.4666667 34.8 1234
Costoletta di vitello 37 131 5.46666667 44.8 245
Pollo arrosto senza pelle 37 89 5.46666667 2.8 15.3
Carne di tacchino 18 69 -13.533333 -17.2 233
Vongole 6 39 -25.533333 -47.2 1205
Merluzzo 8 74 -23.533333 -12.2 287
Sogliola 12 54 -19.533333 -32.2 629
Sgombro 77 100 45.4666667 13.8 627
Pesce persico 13 53 -18.533333 -33.2 615
Salmone 24 93 -7.5333333 6.8 -51.2
Gamberetti 15 156 -16.533333 69.8 -1154
Tonno 41 48 9.46666667 -38.2 -362
Somme 473 1293 3715
Medie 31.533333 86.2
Sqm 20.822637 31.303248
Codev(x,y) 3715.4
Covar(x,y)=codev(x,y)/N 247.69333
r = Covar(x,y)/[(σ(x)*σ(y)] 0.3800049
Indice lineare di determinazione
Il quadrato del coefficiente di correlazione r2
coincide con l’indice di determinazione R2 che
esprime quanta parte della devianza totale di y è
determinata o spiegata dalla rispettiva retta di
regressione che supponiamo rappresentatrice del
fenomeno.
Di contro il valore 1-r2 esprime la parte di variabilità
spiegata da fattori diversi dalla x.
Esempio - Sia X il dosaggio giornaliero di un farmaco
antiipertensivo e y la pressione sistolica; se:

b = -8.42 r = -0.89 r2 = 0.77 1- r2 = 0.23

Il significato di tali valori è il seguente:

•la pressione diminuisce mediamente di 8 mmHg per ogni


dose giornaliera in più di farmaco;
•la correlazione (associazione) tra farmaco e pressione è
molto elevata;
•l’effetto del farmaco come ipotensivo è di 0.77;
•il 23% dei valori pressori può essere spiegato dalla
variazione di altri fattori, diversi da X, che agiscono sulla
Y.

Potrebbero piacerti anche