Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Cuando analizbamos las variables unidimensionales considerbamos, entre otras medidas importantes, la media y la varianza. Ahora hemos visto que estas medidas tambin podemos considerarlas de forma individual para cada una de las componentes de la variable bidimensional. . La covarianza , es una manera de generalizar la varianza y se define como:
si las observaciones estn ordenadas en una tabla de doble entrada. i las observaciones no estn ordenadas en una tabla de doble entrada, entonces se tiene que
o lo que es lo mismo
Ejemplo
e han clasificado !"" familias seg#n el n#mero de hi$os varones % & o hembras % siguiente: " ! ' ( ) " ! ' ( ) !. /allar las medias, varianzas y desviaciones t0picas relativas a los hi$os varones y hembra por separado. ) * + ) ! , !" - ) ' - . , ( ! , , ( ' ! ' ( ' ! " &, en la tabla
'. 12u n#mero medio de hi$as hay en aquellas familias que tienen ' hi$os3 (. 12u n#mero medio de hi$os varones hay en aquellas familias que no tienen hi$as3 ) /allar la covarianza Solucin:4n primer lugar, definimos las variables X5 n#mero de hi$os varones, e Y5n#mero de hi$as y construimos la tabla de doble entrada con sus totales y otras cantidades que nos son #tiles en el clculo de medias y varianzas: y! y' " ) ! * y( ' + , ( ' y) ( ) ) ( ' ! 14 y, ) ! ' ! ! " 5 1 24 28 24 16 8 " '. ). ). (' 156 " '. +* !)) !'. 3!6 " )) *' *( )" 2 !
, !" , ' . , (
" (' !") !'* ." 342 de este modo, las medias correspondientes a las variables 6 e 7 son
4l n#mero medio de hi$as en las familias con ' hi$os varones se obtiene calculando la distribuci8n condicionada de n(j n(j yj . , ( ! ') " . !" + ) (!
9el mismo modo, el n#mero medio de hi$os varones de las familias sin hi$as, se calcula con la distribuci8n condicionada ni! ni! xi ) , , ' '( " , !) !, . )'
La covarianza es:
9e este modo: i hay mayor0a de puntos en el tercer y primer cuadrante, ocurrir que puede interpretar como que la variable Y tiende a aumentar cuando lo hace X< i la mayor0a de puntos estn repartidos entre el segundo y cuarto cuadrante entonces , es decir, las observaciones Y tienen tendencia a disminuir cuando las de X aumentan< i los puntos se reparten con igual intensidad alrededor de , entonces se tendr que , lo que se
. =ase la figura (.) como ilustraci8n. %i#ura: Cuando los puntos se reparte de modo ms o menos homogneo entre los cuadrantes primero y tercero, y segundo y cuarto, se tiene que . 4so no quiere decir de ning#n modo que no pueda e>istir ninguna relaci8n
entre las dos variables, ya que sta puede e>istir como se aprecia en la figura de la derecha.
LA C?=A@;AABA i i las dos variables crecen o decrecen a la vez %nube de puntos creciente&. cuando una variable crece, la otra tiene tendencia a decrecer %nube de puntos decreciente&. i los puntos se reparten con igual intensidad alrededor de lineal&. 9e este modo podemos utilizar la covarianza para medir la variaci8n con$unta %covariacin& de las variables X e Y. 4sta medida no debe ser utilizada de modo e>clusivo para medir la relaci8n entre las dos variables, ya que es sensible al cambio de unidad de medida, como se observa en el siguiente resultado: As0 pues, es necesario definir una medida de la relaci8n entre dos variables, y que no est afectada por los cambios de unidad de medida. Cna forma posible de conseguir este ob$etivo es dividir la covarianza por el producto de las desviaciones t0picas de cada variable, ya que as0 se obtiene un coeficiente adimensional, r, que se denomina coeficiente de correlacin lineal de &ear'on , %no hay relaci8n
(ondad de un aju'te
Consideremos un con$unto de observaciones sobre n individuos de una poblaci8n, en los que se miden ciertas variables X e Y:
4stamos interesamos en hacer regresi8n para determinar, de modo apro>imado, los valores de Y conocidos los de X, debemos definir cierta variable , que debe tomar los valores
de modo que:
4llo se puede e>presar definiendo una nueva variable E que mida las diferencias entre los autnticos valores de Y y los te8ricos suministrados por la regresi8n,
y calculando de modo que E tome valores cercanos a ". 9icho de otro modo, E debe ser una variable cuya media debe ser " , y cuya varianza debe ser pequeDa %en comparaci8n con la de
, como
)e#re'in
Las tcnicas de regresi8n permiten hacer predicciones sobre los valores de cierta variable Y (dependiente), a partir de los de otra X (independiente), entre las que intuimos que e>iste una relaci8n. Eara ilustrarlo usaremos el caso de un grupo de personas en el que observamos los valores que toman las variables
no es necesario hacer grandes esfuerzos para intuir que la relaci8n que hay entre ambas es:
?btener esta relaci8n es menos evidente cuando lo que medimos sobre el mismo grupo de personas es
La raz8n es que no es cierto que conocida la altura xi de un individuo, podamos determinar de modo e>acto su peso yi %v.g. dos personas que miden !,-" m pueden tener pesos de *" y *, Filos&. in embargo, alguna relaci8n entre ellas debe e>istir, pues parece mucho ms probable que un individuo de ' m pese ms que otro que mida !,'" m. 4s ms, nos puede parecer ms o menos apro>imada una relaci8n entre ambas variables como la siguiente
A la deducci8n, a partir de una serie de datos, de este tipo de relaciones entre variables, es lo que denominamos re#re'in. %i#ura: Gediante las tcnicas de regresi8n de una variable Y sobre una variable X, buscamos una funci8n que sea una
buena apro>imaci8n de una nube de puntos %xi,yi&, mediante una curva del tipo asegurarnos de que la diferencia entre los valores yi e . Eara ello hemos de sea tan pequeDa como sea posible.
4sto es lo que denominamos relacin funcional. 4l criterio para construir anteriormente, es que la diferencia entre Y e sea pequeDa.
4l trmino que hemos denominado error debe ser tan pequeDo como sea posible . 4l ob$etivo ser buscar la funci8n %tambin denominada modelo de re#re'in& que lo minimice. %i#ura: 9iferentes nubes de puntos y modelos de regresi8n para ellas.
)e#re'in lineal
La forma de la funci8n f en principio podr0a ser arbitraria, y tal vez se tenga que la relaci8n ms e>acta entre las variables peso y altura definidas anteriormente sea algo de la forma
Eor el momento no pretendemos encontrar relaciones tan complicadas entre variables, pues nos vamos a limitar al caso de la re#re'in lineal. Con este tipo de regresiones nos conformamos con encontrar relaciones funcionales de tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir
i bH", las dos variables aumentan o disminuyen a la vez< i bI", cuando una variable aumenta, la otra disminuye.
Eor tanto, en el caso de las variables peso y altura lo l8gico ser encontrar que bH". 4l problema que se plantea es entonces el de c8mo calcular las cantidades a y b a partir de un con$unto de n observaciones
de forma que se minimice el error. Las etapas en que se divide el proceso que vamos a desarrollar son de forma esquemtica, las que siguen: !. 9adas dos variables X, Y, sobre las que definimos
medimos el error que se comete al apro>imar Y mediante calculando la suma de las diferencias entre los valores reales y los apro>imados al cuadrado %para que sean positivas y no se compensen los errores&:
'. Cna apro>imaci8n de Y, se define a partir de dos cantidades a y b. =amos a calcular aquellas que minimizan la funci8n
(. Eosteriormente encontraremos f8rmulas para el clculo directo de a y b que sirvan para cualquier problema.
)e#re'in de Y 'o*re X
Eara calcular la recta de regresi8n de Y sobre X nos basamos en la figura %i#ura: Los errores a minimizar son las cantidades
Cna vez que tenemos definido el error de apro>imaci8n mediante la relaci8n las cantidades que lo minimizan se calculan derivando con respecto a ambas e igualando a cero (procedimiento de los mnimos cuadrados):
Ejemplo
4n una muestra de !.,"" individuos se recogen datos sobre dos medidas antropomtricas X e Y. Los resultados se muestran resumidos en los siguientes estad0sticos:
?btener el modelo de regresi8n lineal que me$or apro>ima Y en funci8n de X. Ctilizando este modelo, calcular de modo apro>imado la cantidad Y esperada cuando X5!,. Solucin: Lo que se busca es la recta, , que me$or apro>ima los valores de Y %seg#n
el criterio de los m0nimos cuadrados& en la nube de puntos que resulta de representar en un plano %X,Y& las !.,"" observaciones. Los coeficientes de esta recta son:
As0, el modelo lineal consiste en: Eor tanto, si x5!,, el modelo lineal predice un valor de Y de: 4n este punto hay que preguntarse si realmente esta predicci8n puede considerarse fiable. Eara dar una respuesta, es necesario estudiar propiedades de la regresi8n lineal que estn a continuaci8n.
3+12+4+6 &ropo'icin
4n los a$ustes lineales se conservan las medias, es decir
4n cuanto a la varianza, no necesariamente son las mismas para los verdaderos valores de las variables X e Y y sus apro>imaciones y , pues s8lo se mantienen en un factor de r', es decir,
Como consecuencia de este resultado, podemos decir que la proporcin de varianza explicada por la regresin lineal es del .Aos gustar0a tener que r5!, pues en ese caso ambas variables tendr0an la misma varianza, pero esto no es cierto en general. :odo lo que se puede afirmar, como sabemos, es que
y por tanto
Eor ello: i el a$uste es bueno %Y se puede calcular de modo bastante apro>imado a partir de
X y viceversa&. i las variables X e Y no estn relacionadas %linealmente al menos&, por tanto no tiene sentido hacer un a$uste lineal. in embargo no es seguro que las dos variables no posean ninguna relaci8n en el caso r5", ya que si bien el a$uste lineal puede no ser procedente, tal vez otro tipo de a$uste s0 lo sea.
'. 4l coeficiente de determinaci8n. Comente el resultado e indique el tanto por ciento de la variaci8n de Y que no est e>plicada por el modelo lineal de regresi8n. (. i el modelo es adecuado, 1cul es la predicci8n Solucin: !. 4n primer lugar calculamos las medias y las covarianza entre ambas variables: para x5).
Con estas cantidades podemos determinar los parmetros a y b de la recta. La pendiente de la misma es b, y mide la variaci8n de Ycuando X aumenta en una unidad:
Al ser esta cantidad negativa, tenemos que la pendiente de la recta es negativa, es decir, a medida que X aumenta, la tendencia es a la disminuci8n de Y. 4n cuanto al valor de la ordenada en el origen, a, tenemos:
'.J 4l grado de bondad del a$uste lo obtenemos a partir del coeficiente de determinaci8n:
de la variabilidad de Y en funci8n de la
de variabilidad no e>plicada.
la cual hay que considerar con ciertas reservas, pues como hemos visto en el apartado anterior,hay una razonable cantidad de variabilidad que no es e>plicada por el modelo. 4$emplo 4n un grupo de . pacientes se miden las cantidades antropomtricas peso y edad, obtenindose los siguientes resultados: @esultado de las mediciones edad !' . !" !! - !" !) peso ,. )' ,! ,) )" (+ )+ ,* 14>iste una relaci8n lineal importante entre ambas variables3 Calcular la recta de regresi8n del peso en funci8n de la edad . Calcular la bondad del a$uste 14n qu medida, por trmino medio, var0a el peso cada aDo3 14n cunto aumenta la edad por cada Filo de peso3 Solucin: Eara saber si e>iste una relaci8n lineal entre ambas variables se calcula el coeficiente de correlaci8n lineal, que vale:
ya que
Eor tanto el a$uste lineal es muy bueno. La recta de regresi8n del peso en funci8n de la edad es
que como se puede comprobar, no resulta de despe$ar en la recta de regresi8n de Y sobre X. La bondad del a$uste es
e>plicada mediante la recta de regresi8n correspondiente. . 9el mismo modo puede decirse que hay un de varianza que no es e>plicada por las rectas de regresi8n. Eor tanto la varianza residual de la regresi8n del peso en funci8n de la edad es
Eor #ltimo la cantidad en que var0a el peso de un paciente cada aDo es, seg#n la recta de regresi8n del peso en funci8n de la edad, la pendiente de esta recta, es decir, b!5',.(*- KgLaDo. Cuando dos personas difieren en peso, en promedio la diferencia de edad entre ambas se rige por la cantidad b'5",(!(* aDosLKg de diferencia.