Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
En el campo de la estadstica, administracin, educacin, ingeniera, entre otras frecuentemente se trata de saber si existe relacin entre dos variables, en caso de existir cual es esa relacin. El objetivo del capitulo es contestar estas inquietudes y analizar si existe relacin lineal entre dos variables, cuantificar la intensidad de la relacin, realizar un ajuste por medio de las estimaciones matemticas y posteriormente utilizar el modelo para predecir una variable (dependiente).
Al relacionar dos variables se tiene que definir una variable independiente y una dependiente. La variable independiente se representa con la letra x, que expresa la causa de un fenmeno en una relacin entre las variables, esta se mide o se controla para predecir la variable dependiente representada por la letra y que expresa la consecuencia del fenmeno. Por ejemplo en la los gastos de publicidad (variable independiente) se puede medir o controlar con la finalidad de observar el incremento en ventas (variable dependiente). Por lo tanto los gastos por publicidad se denominan variable x y a la venta como variable y, en muchas ocasiones la definicin de las variables puede ser x o y, depender de la formulacin de la pregunta. Por ejemplo en el caso de la estatura y peso, si nosotros indicamos que la estatura esta en funcin del peso, en este caso la estatura es la variable dependiente y el peso es variable independiente, pero si nosotros formulamos que el peso esta en funcin de la estatura, en este caso las dos variables se cambian, es decir el peso ser la variable dependiente y la estatura como la variable independiente. Sin embargo se obtendrn resultados distintos de los anlisis de regresin de acuerdo a la decisin que se halla tomado.
A continuacin se presentan algunos diagramas de dispersin que indican las relaciones entre las variables independientes (x) y las variables dependientes (y), si no existe un cambio definido en los valores de y, conforme aumentan los valores de x se dice que no existe relacin entre las variables x y y. En cambio, si al aumentar x existe una modificacin definida en los valores de y, entonces se dice que si existe relacin entre las variables. En esta situacin cuando y incrementa existe una relacin positiva y cuando decrece existe una relacin negativa.
41
Sin correlacin
Correlacin positiva
Correlacin negativa
AJUSTE E INTERPRETACIN La ecuacin que describe la forma en que el valor medio de y se relaciona con x se llama ecuacin de regresin y es posible estimar con la siguiente formula: b0 b1 x En donde b0 es la ordenada al origen b1 es la pendiente y y es el valor estimado de y para determinado valor de x. Estos valores se pueden estimar con la siguiente formula:
b1
b0 y b1 x
Donde:
xi
131.3 92.4 60.4 55.7 40.2 29 11.6 420.6
yi
x i yi
xi
1929.2 253303.96 17239.69 1384.6 127937.04 8537.76 811.4 49008.56 3648.16 541.5 30161.55 3102.49 536.9 21583.38 1616.04 535.6 15532.4 841 219.5 2546.2 134.56 5958.7 500073.09 35119.7
b1
xi yi ( xi yi) / n 500073.09 (420.6)(5958.7) / 7 = =142040.344/9847.649 = 14.424 2 2 35119.7 (420 .6) / 7 xi2 ( xi) / n
El coeficiente de determinacin nos sirve para contestar la pregunta Qu tan bien se ajustan dos variables?, Es decir en el caso de la inversin de los costos de publicidad y las ventas generadas por la publicidad, se genero la ecuacin de regresin = -15.433+14.424x, entonces lo que hacemos es calcular la suma de cuadrados del error, esta se obtiene al sustituir los valores de los costos de
43
Clculos de la suma de cuadrados del error para el caso de los costos de publicidad y las ventas de refrescos.
Marcas de refresco Coca-Cola Classic Pepsi-Cola Diet Coke Sprite Mirinda Manzanita-Sol 7-Up Publicidad (miles Venta de cajas de dlares) (en millones) 131.3 1929.2 92.4 1384.6 60.4 811.4 55.7 541.5 40.2 536.9 29.0 535.6 11.6 219.5 = -15.433+14.424x 1878.42225 1317.3371 855.776046 787.984267 564.415633 402.869265 151.895444
yi i
50.7777521 67.2629038 -44.376046 -246.484267 -27.515633 132.730735 67.6045556
(yi i)2
2578.3801 4524.29822 1969.23346 60754.4938 757.110062 17617.4479 4570.37594 92771.3394
Ahora calculamos la suma total de cuadrados y esto con la finalidad de conocer el valor del error que s incurrido al usar y para estimar las ventas. A la suma de cuadrados se representa por SCT y su formula es la siguiente: SCT = (yi y )2 Esta formula es de gran utilidad ya que nos sirve para observar o conocer la forma en que se agrupan los valores en torno a la recta y . A continuacin se presentan los clculos de la suma de cuadrados totales para el ejemplo de costos de publicidad y las ventas de refresco: Calculo de la Suma de Cuadrados Totales (SCT), para el caso de los costos de inversin y la venta de refrescos.
Marcas de refresco Publicidad (miles de dlares) Venta de cajas (en millones) Coca-Cola Classic Pepsi-Cola Diet Coke 131.3 92.4 60.4 1929.2 1384.6 811.4
yi y
(yi y )2
1161991.29 284469.689 1587.46465
44
Ahora que ya tenemos calculado los valores de la suma de cuadrados totales (SCT) y la suma de cuadrados del error (SCE), se puede calcular la suma de cuadrados de la regresin (SCR), que cuantifica la desviacin de los valores calculados por la ecuacin () de los valores de y , su formula es la siguiente: SCR = ( i y )2 En nuestro caso la suma de cuadrados de la regresin es la siguiente: SCR = SCT SCE = 2141530.42 92771.3394 = 2048759.0806 Por lo tanto la relacin de estos valores es la siguiente SCT = SCR + SCE. Por lo tanto una vez que se calculan los valores de SCT, SCR y SCE, podemos calcular la bondad de ajuste para la ecuacin de regresin. Esta ecuacin tendra un ajuste perfecto si cada valor de la variable dependiente yi se encontrar sobre la lnea estimada de la regresin. Para esta situacin yi - i seran igual a cero para cada observacin y esto provocara una SCE = 0, y como consecuencia la suma de cuadrados totales (SCT) sera igual a la suma de cuadrados de la regresin, esto quiere decir que la relacin entre las variables es perfecta, ya que cualquier valor dividido por el mismo valor es igual uno. Esto indica que si la suma de cuadrados del error aumenta disminuye la bondad de ajuste entre las variables.
La relacin entre la Suma de Cuadrados de la Regresin y la Suma de Cuadrados Totales (SCT) se le llama coeficiente de determinacin y se representa con la letra r2, su formula es la siguiente: r2 =SCR / SCT El valor del coeficiente de determinacin asume los valores entre cero y uno, cuando se encuentra cercano al valor de uno se dice que el ajuste es bueno.
S el valor de coeficiente de determinacin lo expresamos en porcentaje, nos indica el porcentaje de la suma total de cuadrados que se pueden explicar aplicando la ecuacin de regresin. Para nuestro ejemplo podemos concluir que se puede aplicar el 95.67% de la suma total de cuadrados con al ecuacin de regresin = -15.433 + 14.424x para predecir las ventas. Es decir la inversin de la publicidad afecta un 95.67% en la venta de refrescos.
Grafico de dispersin de datos, recta de la regresin lineal y desviaciones respecto a la lnea de regresin y a la lnea promedio de la variable dependiente, para el caso de gastos de publicidad y ventas de refresco.
2500
Venta de refrescos en millones de cajas
2000 1500
y1 - 1 y1 - y 1 - y
20
40
60
80
100
120
140
El coeficiente de correlacin se representa con la letra r y es una medida descriptiva de la intensidad de relacin de la asociacin lineal entre dos variables, x y y. El valor del coeficiente
46
Las formulas para su clculo son las siguientes: Formula del producto de Pearson r xy
sxy sx s y
Donde: rxy = Coeficiente de correlacin de la muestra sxy = Covarianza de la muestra = (xi x)( yi y) / n 1 sx = Desviacin estndar muestral de la variable x sy = Desviacin estndar muestral de la variable y
xi yi ( xi yi) / n
2 2 2 xi2 ( xi ) / n yi ( yi ) / n
Pero si ya se ha hecho el anlisis de regresin y se ha calculado el coeficiente de determinacin r2, el coeficiente de correlacin se puede calcular como a continuacin se muestra: rxy = coeficiente de determinacin =
Para el caso de las variables de los costos de publicidad y la venta de refrescos, el valor de coeficiente de correlacin es el siguiente = 0.9567 =0.9781. Concluimos que el valor del coeficiente de correlacin de la muestra rxy = + 0.9781, donde nos indica que existe una fuerte asociacin lineal positiva entre los costos de inversin de publicidad y las ventas de refrescos.
47
LA ECUACIN DE REGRESIN MLTIPLE El anlisis de regresin mltiple es el estudio en donde una variable dependiente ( y), se relaciona con dos o ms variable independientes. En donde la ecuacin de regresin describe la forma en que el valor medio se relaciona con x1, x2, x3,..., xp. Ecuacin estimada de regresin mltiple: = b0 + b1x1+ b2x2+ ... + bpxp Donde: b0 = Es el valor del origen de la recta (ordenada del origen) bi = Pendientes xi = Variable independientes
p
Para estimar los valores de la ecuacin se requiere del empleo del lgebra de matrices. Por lo que generalmente se utilizan programas de computo para hacer este tipo de clculos, sin embargo, es posible su estimacin, por medio de ecuaciones normales cuando se trata de pocas variables independientes en esta ocasin tomaremos un ejemplo cuando se trate de dos variables independientes: yi = nb0 + (x1i)b1 + (x2)b2------------------------------(a)
2 x1i yi = (x1i)b0 + ( x1 i ) b1 + (x1i x2i)b2-------------------(b)
48
x1i
62 44 42 36 35 28 27 27 24 21
x2i
13 13 14 15 18 18 15 19 17 19
x1i
3844 1936 1764 1296 1225 784 729 729 576 441
x 2i
169 169 196 225 324 324 225 361 289 361
x1i x2i
806 572 588 540 630 504 405 513 408 399
x1i yi
5828 3212 2394 2016 1750 1232 729 675 336 168
x2i yi
1222 949 798 840 900 792 405 475 238 152
448
346
161
13324
2643
5365
18340
6771
49
Si multiplicamos la ecuacin (a) por 34.6 y le restamos a la ecuacin (b), podemos eliminar b0 y obtener una ecuacin que contenga nicamente los coeficientes b1 y b2:
18340.0 = -15500.8 = 2839.2 = +346 b0 - 346 b0 0 + 13324.0 b1 - 11971.6 b1 1352.4 b1 + 5365.0 b2 - 5570.6 b2 -205.6 b2 ..................................... (b) ..................................... (a*34.6) ..................................... (d)
Si multiplicamos la ecuacin (a) por 16.1 y el resultado le restamos a la ecuacin (c). Esta operacin origina una segunda ecuacin donde slo intervienen los coeficientes b1 y b2:
6771.0 = -7212. 8 = - 441.8 = +161 b0 - 161 b0 0 + 5365 b1 - 5570.6 b1 - 205.6 b1 + 2643 b2 - 2592.1 b2 + 50.9 b2 ..................................... (c) ..................................... (a*16.1) ..................................... (e)
Con las ecuaciones (d) y (e) podemos despejar b1 y b2 simultneamente. Multiplicando la ecuacin (e) por -205.6/50.9 y el resultado obtenido se le resta a la ecuacin (d), y obtenemos una ecuacin que solo contiene el coeficiente b1.
2839.1 = -1784. 56 = 1054.54 = 0 0 0 1352.4 b1 - 830.48 b1 521.92 b1 -205.6 b2 + 205.6 b2 0 ................................... (d) ................................... (e*-205.6/50.9) .................................... (f)
Despejamos a b1 de la ecuacin (f) y obtenemos el valor del coeficiente b1. b1 = 1054.54 / 521.92 = 2.0205 Sustituimos a b1 en la ecuacin (e) y despejamos b2:
- 441.8 - 441.8 - 26.385 -0.518369 = = = = - 205.6 (2.0205) - 415.415 50.9 b2 b2 + 50.9 b2 + 50.9 b2 .................................................. (e)
Finalmente obtenemos la ecuacin de regresin mltiple para el caso del tiempo que tardan los obreros en manufactura para emplearse de nuevo, segn su edad y los aos de estudio: = -16. 7625 + 2.0205x1 - 0.5184x2
50
En las exposiciones anteriores se presentaron una serie de de tiempos cuyo crecimiento o decremento se aproximaba en una lnea recta, sin embrago cuando se presente un decremento o incremento e forma curvilnea tal como se muestra a continuacin:
Cuando se presente un diagrama de esta naturaleza se recomienda que la serie de datos se transformen en logaritmos base 10 y se utilice la regresin lineal simple, quedando la siguiente ecuacin de regresin logartmica: Log =log b0 + logb1(X). Una vez que se estima la variable dependiente se obtiene antilogaritmo del producto.
Por ejemplo a continuacin se presentan datos de importacin en miles de pesos de 1996 a 1998
Ao (x) 1986 Importacin 3.0 (y) 1987 4.2 1988 5.7 1989 8.3 1990 11.5 1991 16.0 1992 22.4 1993 31.0 1994 44.6 1995 60.1 1996 84.3 1997 118.6 1998 163.9
Primero se establece el cdigo para cada ao, posteriormente se transforma la variable dependiente en logaritmos en este caso la importacin, tal como se muestra a continuacin:
Cdigo(x) Log I (y) 1
0.47 712
2
0.62 325
3
0.75 587
4
0.91 908
5
1.06 07
6
1.20 412
7
1.35 025
8
1.49 136
9
1.64 933
10
1.77 887
11
1.92 583
12
2.07 408
13
2.21 458
51
X Y 0.47712 1.2465 2.26762 3.67631 5.30349 7.22472 9.45174 11.9309 14.844 17.7887 21.1841 24.889 28.7895 149.074
B1 = XY-(Y(X)/n)/ X2-((X)2/n) y B0= (Y/n) - B1 (X/n) B1= 149.074 -(17.5245(91)/13)/ 819 -((91)2/13)=0.145069 y B0= (17.5245/13) - B1 (X/n)= 0.332549 El modelo de la ecuacin de regresin es =0.222549 + 0.145069(X). Para calcular las importaciones de 2003 se sustituye X en cdigo para este caso es 18 en la ecuacin y quedara de la siguiente forma: =0.222549 + 0.145069 (18)= 2.94379 y finalmente para estimar las importaciones se determina el antilogaritmo de 2.94379, esto es 102.94379 el cual es de 878.6 miles de pesos, es decir, $ 878 600.
52