Sei sulla pagina 1di 15

Covarianza y coeficiente de correlacin

Cuando analizbamos las variables unidimensionales considerbamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas tambin podemos considerarlas de forma individual para cada una de las componentes de la variable bidimensional. . La covarianza , es una manera de generalizar la varianza y se define como:

si las observaciones estn ordenadas en una tabla de doble entrada. i las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que

o lo que es lo mismo

Ejemplo
e han clasificado !"" familias seg#n el n#mero de hi$os varones % & o hembras % siguiente: " ! ' ( ) " ! ' ( ) !. /allar las medias, varianzas y desviaciones t0picas relativas a los hi$os varones y hembra por separado. ) * + ) ! , !" - ) ' - . , ( ! , , ( ' ! ' ( ' ! " &, en la tabla

'. 12u n#mero medio de hi$as hay en aquellas familias que tienen ' hi$os3 (. 12u n#mero medio de hi$os varones hay en aquellas familias que no tienen hi$as3 ) /allar la covarianza Solucin:4n primer lugar, definimos las variables X5 n#mero de hi$os varones, e Y5n#mero de hi$as y construimos la tabla de doble entrada con sus totales y otras cantidades que nos son #tiles en el clculo de medias y varianzas: y! y' " ) ! * y( ' + , ( ' y) ( ) ) ( ' ! 14 y, ) ! ' ! ! " 5 1 24 28 24 16 8 " '. ). ). (' 156 " '. +* !)) !'. 3!6 " )) *' *( )" 2 !

, !" , ' . , (

23 32 26 " (' ,'

)' '" 146

" (' !") !'* ." 342 de este modo, las medias correspondientes a las variables 6 e 7 son

Calculamos despus las varianzas de esas variables 6 e 7.

que nos dan directamente las desviaciones t0picas marginales,

4l n#mero medio de hi$as en las familias con ' hi$os varones se obtiene calculando la distribuci8n condicionada de n(j n(j yj . , ( ! ') " . !" + ) (!

9el mismo modo, el n#mero medio de hi$os varones de las familias sin hi$as, se calcula con la distribuci8n condicionada ni! ni! xi ) , , ' '( " , !) !, . )'

La covarianza es:

"na interpretacin #eom$trica de la covarianza


Consideremos la nube de puntos formadas por las n pare$as de datos %xi,yi&. 4l centro de gravedad de esta nube de puntos es . :rasladamos los e$es XY al nuevo centro de coordenadas . 2ueda as0 dividida la nube de puntos en cuatro cuadrantes como se observa en la figura (.(. Los puntos que se encuentran en el primer y tercer cuadrante contribuyen positivamente al valor de , y los que se encuentran en el segundo y el cuarto lo hacen negativamente.

%i#ura: ;nterpretaci8n geomtrica de

9e este modo: i hay mayor0a de puntos en el tercer y primer cuadrante, ocurrir que puede interpretar como que la variable Y tiende a aumentar cuando lo hace X< i la mayor0a de puntos estn repartidos entre el segundo y cuarto cuadrante entonces , es decir, las observaciones Y tienen tendencia a disminuir cuando las de X aumentan< i los puntos se reparten con igual intensidad alrededor de , entonces se tendr que , lo que se

. =ase la figura (.) como ilustraci8n. %i#ura: Cuando los puntos se reparte de modo ms o menos homogneo entre los cuadrantes primero y tercero, y segundo y cuarto, se tiene que . 4so no quiere decir de ning#n modo que no pueda e>istir ninguna relaci8n
entre las dos variables, ya que sta puede e>istir como se aprecia en la figura de la derecha.

LA C?=A@;AABA i i las dos variables crecen o decrecen a la vez %nube de puntos creciente&. cuando una variable crece, la otra tiene tendencia a decrecer %nube de puntos decreciente&. i los puntos se reparten con igual intensidad alrededor de lineal&. 9e este modo podemos utilizar la covarianza para medir la variaci8n con$unta %covariacin& de las variables X e Y. 4sta medida no debe ser utilizada de modo e>clusivo para medir la relaci8n entre las dos variables, ya que es sensible al cambio de unidad de medida, como se observa en el siguiente resultado: As0 pues, es necesario definir una medida de la relaci8n entre dos variables, y que no est afectada por los cambios de unidad de medida. Cna forma posible de conseguir este ob$etivo es dividir la covarianza por el producto de las desviaciones t0picas de cada variable, ya que as0 se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlacin lineal de &ear'on , %no hay relaci8n

4l coeficiente de correlaci8n lineal posee las siguientes propiedades:

(ondad de un aju'te
Consideremos un con$unto de observaciones sobre n individuos de una poblaci8n, en los que se miden ciertas variables X e Y:

4stamos interesamos en hacer regresi8n para determinar, de modo apro>imado, los valores de Y conocidos los de X, debemos definir cierta variable , que debe tomar los valores

de modo que:

4llo se puede e>presar definiendo una nueva variable E que mida las diferencias entre los autnticos valores de Y y los te8ricos suministrados por la regresi8n,

y calculando de modo que E tome valores cercanos a ". 9icho de otro modo, E debe ser una variable cuya media debe ser " , y cuya varianza debe ser pequeDa %en comparaci8n con la de

Y&. Eor ello se define el coeficiente de determinacin de la re#re'in de Y sobre X,

, como

i el a$uste de Y mediante la curva de regresi8n tome un valor pr8>imo a !.

es bueno, cabe esperar que la cantidad

)e#re'in
Las tcnicas de regresi8n permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que e>iste una relaci8n. Eara ilustrarlo usaremos el caso de un grupo de personas en el que observamos los valores que toman las variables

no es necesario hacer grandes esfuerzos para intuir que la relaci8n que hay entre ambas es:

?btener esta relaci8n es menos evidente cuando lo que medimos sobre el mismo grupo de personas es

La raz8n es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo e>acto su peso yi %v.g. dos personas que miden !,-" m pueden tener pesos de *" y *, Filos&. in embargo, alguna relaci8n entre ellas debe e>istir, pues parece mucho ms probable que un individuo de ' m pese ms que otro que mida !,'" m. 4s ms, nos puede parecer ms o menos apro>imada una relaci8n entre ambas variables como la siguiente

A la deducci8n, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que denominamos re#re'in. %i#ura: Gediante las tcnicas de regresi8n de una variable Y sobre una variable X, buscamos una funci8n que sea una
buena apro>imaci8n de una nube de puntos %xi,yi&, mediante una curva del tipo asegurarnos de que la diferencia entre los valores yi e . Eara ello hemos de sea tan pequeDa como sea posible.

Gediante las tcnicas de regresi8n inventamos una variable viceversa&,

como funci8n de otra variable X %o

4sto es lo que denominamos relacin funcional. 4l criterio para construir anteriormente, es que la diferencia entre Y e sea pequeDa.

, tal como citamos

4l trmino que hemos denominado error debe ser tan pequeDo como sea posible . 4l ob$etivo ser buscar la funci8n %tambin denominada modelo de re#re'in& que lo minimice. %i#ura: 9iferentes nubes de puntos y modelos de regresi8n para ellas.

)e#re'in lineal
La forma de la funci8n f en principio podr0a ser arbitraria, y tal vez se tenga que la relaci8n ms e>acta entre las variables peso y altura definidas anteriormente sea algo de la forma

Eor el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la re#re'in lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir

con el menor error posible entre

e Y. var0a la cantidad b. Eor tanto:

Esta relacin e>plica cosas como que si X var0a en ! unidad,

i bH", las dos variables aumentan o disminuyen a la vez< i bI", cuando una variable aumenta, la otra disminuye.

Eor tanto, en el caso de las variables peso y altura lo l8gico ser encontrar que bH". 4l problema que se plantea es entonces el de c8mo calcular las cantidades a y b a partir de un con$unto de n observaciones

de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemtica, las que siguen: !. 9adas dos variables X, Y, sobre las que definimos

medimos el error que se comete al apro>imar Y mediante calculando la suma de las diferencias entre los valores reales y los apro>imados al cuadrado %para que sean positivas y no se compensen los errores&:

'. Cna apro>imaci8n de Y, se define a partir de dos cantidades a y b. =amos a calcular aquellas que minimizan la funci8n

(. Eosteriormente encontraremos f8rmulas para el clculo directo de a y b que sirvan para cualquier problema.

)e#re'in de Y 'o*re X
Eara calcular la recta de regresi8n de Y sobre X nos basamos en la figura %i#ura: Los errores a minimizar son las cantidades

Cna vez que tenemos definido el error de apro>imaci8n mediante la relaci8n las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mnimos cuadrados):

@esolviendo este sistema nos da las relaciones buscadas:

La cantidad b se denomina coeficiente de regresin de Ysobre X.

Ejemplo
4n una muestra de !.,"" individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes estad0sticos:

?btener el modelo de regresi8n lineal que me$or apro>ima Y en funci8n de X. Ctilizando este modelo, calcular de modo apro>imado la cantidad Y esperada cuando X5!,. Solucin: Lo que se busca es la recta, , que me$or apro>ima los valores de Y %seg#n

el criterio de los m0nimos cuadrados& en la nube de puntos que resulta de representar en un plano %X,Y& las !.,"" observaciones. Los coeficientes de esta recta son:

As0, el modelo lineal consiste en: Eor tanto, si x5!,, el modelo lineal predice un valor de Y de: 4n este punto hay que preguntarse si realmente esta predicci8n puede considerarse fiable. Eara dar una respuesta, es necesario estudiar propiedades de la regresi8n lineal que estn a continuaci8n.

&ropiedade' de la re#re'in lineal


Cna vez que ya tenemos perfectamente definida , nos preguntamos las relaciones que hay entre la media y la varianza de esta y la de Y %o la de X&. La respuesta nos la ofrece la siguiente proposici8n:

3+12+4+6 &ropo'icin
4n los a$ustes lineales se conservan las medias, es decir

4n cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus apro>imaciones y , pues s8lo se mantienen en un factor de r', es decir,

donde r es el coeficiente de correlaci8n ya definido.

Como consecuencia de este resultado, podemos decir que la proporcin de varianza explicada por la regresin lineal es del .Aos gustar0a tener que r5!, pues en ese caso ambas variables tendr0an la misma varianza, pero esto no es cierto en general. :odo lo que se puede afirmar, como sabemos, es que

y por tanto

La cantidad que le falta a la varianza de re#re'in,

, para llegar hasta la varianza total de Y, ,

, es lo que se denomina varianza re'idual, que no es ms que la varianza de Eor ello

?bsrvese que entonces la bondad del a$uste es

Eor ello: i el a$uste es bueno %Y se puede calcular de modo bastante apro>imado a partir de

X y viceversa&. i las variables X e Y no estn relacionadas %linealmente al menos&, por tanto no tiene sentido hacer un a$uste lineal. in embargo no es seguro que las dos variables no posean ninguna relaci8n en el caso r5", ya que si bien el a$uste lineal puede no ser procedente, tal vez otro tipo de a$uste s0 lo sea.

Ejemplo 9e una muestra de ocho observaciones con$untas de valores de dos variables X e Y, se


obtiene la siguiente informaci8n:

Calcule: !. La recta de regresi8n de Y sobre X. 4>plique el significado de los parmetros.

'. 4l coeficiente de determinaci8n. Comente el resultado e indique el tanto por ciento de la variaci8n de Y que no est e>plicada por el modelo lineal de regresi8n. (. i el modelo es adecuado, 1cul es la predicci8n Solucin: !. 4n primer lugar calculamos las medias y las covarianza entre ambas variables: para x5).

Con estas cantidades podemos determinar los parmetros a y b de la recta. La pendiente de la misma es b, y mide la variaci8n de Ycuando X aumenta en una unidad:

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminuci8n de Y. 4n cuanto al valor de la ordenada en el origen, a, tenemos:

As0, la recta de regresi8n de Y como funci8n de X es:

'.J 4l grado de bondad del a$uste lo obtenemos a partir del coeficiente de determinaci8n:

4s decir, el modelo de regresi8n lineal e>plica el de X. Eor tanto queda un (.

de la variabilidad de Y en funci8n de la

de variabilidad no e>plicada.

La predicci8n que realiza el modelo lineal de regresi8n para x5) es:

la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior,hay una razonable cantidad de variabilidad que no es e>plicada por el modelo. 4$emplo 4n un grupo de . pacientes se miden las cantidades antropomtricas peso y edad, obtenindose los siguientes resultados: @esultado de las mediciones edad !' . !" !! - !" !) peso ,. )' ,! ,) )" (+ )+ ,* 14>iste una relaci8n lineal importante entre ambas variables3 Calcular la recta de regresi8n del peso en funci8n de la edad . Calcular la bondad del a$uste 14n qu medida, por trmino medio, var0a el peso cada aDo3 14n cunto aumenta la edad por cada Filo de peso3 Solucin: Eara saber si e>iste una relaci8n lineal entre ambas variables se calcula el coeficiente de correlaci8n lineal, que vale:

ya que

Eor tanto el a$uste lineal es muy bueno. La recta de regresi8n del peso en funci8n de la edad es

que como se puede comprobar, no resulta de despe$ar en la recta de regresi8n de Y sobre X. La bondad del a$uste es

por tanto podemos decir que el

de la variabilidad del peso en funci8n de la edad es

e>plicada mediante la recta de regresi8n correspondiente. . 9el mismo modo puede decirse que hay un de varianza que no es e>plicada por las rectas de regresi8n. Eor tanto la varianza residual de la regresi8n del peso en funci8n de la edad es

Eor #ltimo la cantidad en que var0a el peso de un paciente cada aDo es, seg#n la recta de regresi8n del peso en funci8n de la edad, la pendiente de esta recta, es decir, b!5',.(*- KgLaDo. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b'5",(!(* aDosLKg de diferencia.

Potrebbero piacerti anche