Sei sulla pagina 1di 26
REGRESION LINEAL SIMPLE 4.1 Introduccién En este capitulo, rataremos con muestras bivariantes cuantitativas, es decir con muestras donde en cada unidad estadistiea se observan dos caracteristicas cuantitativas medibles X e ¥; por ejemplo, ingresos y gastos mensuales, El objetivo es estudiar 1a asociacién entre dos variables conocida también como asociacién simple. La primera forma del estudio de la asociacién entre las variables X e Yes la regresién, que consiste en determinar una relaciGn funcional (recta de regresiGn) entre ellas, con el fin de que se pueda predecir el valor de una variable en base a la otra. La variable que se va predecir se denomina variable dependiente y la variable que es la base de la predicciGn se denomina variable independiente. La segunda forma del estudio de la asociacién entre las variables X e ¥, es denominada correlacién, que consiste en determinar la variaci6n conjunta de las dos variables, su grado de relaciGn, y su sentido (positivo o negativo). La medida del grado de relacién se denomina coeficiente o indice de correlacién. El cuadrado del indice de correlacién se denomina coeficiente de determinacién, En este capitulo haremos un estudio descriptivo de las regresién lineal en el sentido que, la ecuacién de regresién lineal que se determina sera valida, si hay la seguridad de que existe un alto grado de correlacién ehtre las variables indicado por el coeficiente de determinacién. En este capitulo haremos un estudio descriptivo de las regresién lineal en el sentido que, la ecuacidn de regresién lineal que se determina serd valida, si hay la seguridad de que existe un alto grado de correlacién entre las variables indicado por el cocficiente de determinacién. Un estudio més avanzado de este tema se expone en el capitulo 13 del Estadistica Inferencial: Aplicaciones, que viene a ser la segunda parte de este texto. El lector deberfa correr paquetes de computo entre otros el MCEST para las aplicaciones de este capitulo. 0 4.1.1. Diagrama de dispersion Sean (4,91)(X25I'2)ev(%q-Yq) 7 valores de la variable bidimensional (XY), observados en una muestra, donde los x, son los valores de la variable X ylos y; son los valores de la variable ¥. Los métodos estadistices descriptivos son vélidos en cada variable, es decir cada Variable tiene media, desviaci6n esténdar, etc. Lo nuevo aqui es que con estos datos en pareja se puede medir la dispersién conjunta con respecto a las medias (x. ¥/) mediante la covarianza Ademds, si los datos de X se tabulan en r intervalos; 1,; y los datos de Y se tabulan en s intervalos; /' , se tendrd una distribucién conjunta de frecuencias que consiste de los intervalos (I,./), y frecuencias f,,. En este texto sdlo haremos regresi6n con datos tabulados, pero no en intervalos. Definicién. Se denomina diagrama de dispersién 0 nube de puntos, a la gréfica de los valores (x,,),) de las variables Xe ¥ en el sistema cartesiano. Es frecuentemente posible visualizar el tipo de relacién existente entre dos variables a partir del diagrama de dispersi6n. 4) lineal positiva b) lineal negative) no lineal) ninguna relacign Fig. 4.1. Diagramas de dispersion Por ejemplo, en la figuras 4 1 a),b) los datos visualizan una relacién lineal entre las variables X e ¥. En la figura 4.1 ) los datos visvalizan una relaci6n, pero, una rrelacién no lineal, y en la figura 4.1 d) tos datos visualizan ninguna relacién valida cen regresién entre las variables Xe Y. En este capitulo como ya se indicado en la introuccién, haremos regresion lineal deseriptiva determinando Ia ecuseién lineal de regresion Y=a+bx que mejor se ajusta a los n pares de datos (.t;,Y,) y analizando Ia validez de ta regresion a partir del coeficiente de determinacién. 4.1.2 Covarianza La covarianza es una estadfstica que mide el grado de dispersidn © variabilidad conjunta de dos variables X e ¥ con respecto a sus medias respectivas (x, y) Definicién. La covarianga de n valores (2, ),)-(%25¥2 (Xo ¥,) de una variable bidimensional (X,Y) es el mimero Cov(X,¥) 0S,y que se define igual a la media aritmética de los productos de les desviaciones de los datos con respecto a sus correspondientes medias (X,Y) . Esto es, De -DG,- 7 caes n ig= Enel numerador de Syy se verifica la reluci6n: Se, 24 —¥ =¥xy, my ia ‘ Day sy2 8-9 La covarianza a diferencia de la varianza, puede ser negativa Luego, 4.1.3 Coeficiente o indice de correlacién Definicién. El coeficiente de correlacién lineal de Pearson de n pares de valores (srr Yadoonl%ys Yq) de una variable bidimensional (X,Y). —¢s el numero abstracto r que se calcula por Ei Sxdy donde, Syy es lacovarianza de Xe ¥ Sy €5 la desviaciGn estindar de X Sy es la desviacién estindar de Y El lector deberia verificar que Verificaremos (seceién 4.2.3) que el coeficiente de correlacién r es un ntimero comprendido entre -1 y +1. esto es: -l 0, entonces, la tendencia lineal es creciente, es decir, a mayores valores de X comesponden mayores valores de ¥. ‘También, a menores valores de X corresponden menores valores de ¥. Sib <0. entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponden menores valores de Y. También, a menores valores de X corresponden mayores valores de ¥. Si b=0, entonces, Y =a. Luego, ¥ permanece estacionario para cualquier valor de X. En este caso se dice que, no hay regresi6n NOTA. b también se interpreta ¢s el cambio promedio en Y =a + bX cuando X cambia una unidad. Esto es, si, se increments I, entonces §, se incrementa en promedio b. En general, si x, se incrementa k, entonces §, se incrementa en promedio kb (verificar!). EJEMPLO 4.1. En un estudio de Ia relaci6n entre la publicidad por radio y las ventas de un producto, durante 10 semanas se han recopilado los tiempos de duracién en minutos de la publicidad por semana (X), y el niimero de articulos vendidos (1), resultando: ‘Semana TlJ273;4[sl[e;7][8]9]w Publicidad xX | 20 | 30 | 30 | 40 | so | 60 | 60 | 60 | 70 | 80 Ventas ¥ | 50] 73 | 69 | 87 | 108 | 128] 135] 132 | 148 | 170 a) Trazar el diagrama de dispersién, e indiear la tendencia b) Calcular la recta de regresin de minimos cuadrados con el fin de predecir las ventas ©) Fstimar fa venta sien una semana se hacen 100 minutos de propaganda, ¢) Calcular el coeficiente de correlaci6n. ¢) Si en la novena semana se incrementara la publicidad en 5 minutos, gen cuanto se estima se incrementen las ventas? SOLUCION. 2) Al trazar el diagrama de dispersién (fig. 4.3) vemos que hay una relacién lineal positiva entre el mimero de articulos vendidos y el tiempo de publicidad semanal por radio. 180 om & 6 wm 10 Fig. 4.3 Disgrama de dispersi6n by Para determinar la recta de regresién de minimos cuadrados a partir de los datos. es decir para calcular a y b se dispone del cuadro 4 1 De donde se obtiene: ZX =500, LY EX? =28400, = LY? = 134660 100, Z X¥ =61800 Jee 110 10 (Cuadro 4.1. Computo de los eveficientes de regresion [ey pre [ry 2% | 30 | 1000 | 400 | 2500 30 | 73 | 2190 | 900 | 5329 30 | 69 | 2070 | 900 | 4761 40 | 27 | 3480 | 1600 | 7369 50 | 108 | 5400 | 2500 | 11664 6 | 128 | 7680 | 3600 | 16386 60 | 135 | 100 | 3600 | 18225 6 | 132] 7920 | 3600 } 17428 70 10360 80. 13600 300 Una forma de calcular 6 es: nEXY-EXEY _ 10x61800~500%1100 _ 68000 nzXxX?-(EXP 10x 28400 - (500) b La otra forma del calculo de b es: xy z — xy = £1800 _ 59, 110= 680 Suv = n 10 b Ademés, a=Y¥—bx =110-2(50)=10. La recta de regresién es: ¥=10+2x. NOTA, Utilizando ¥~ ¥ = b( X ~¥), se tiene: ¥-110=2(X -50) 0 Y¥=10+2x ©) Six, =100, §=10+2(100)=210. No tenemos por el momento un criterio para concluir que este pronéstico es confiable 4) El coeficiente de correlacién Sy 680 ———__ - 09978 18.439%36.959 ai es altamente positivo. Es un primer criterio para analizar la validez de la prediccién ©) Si en Ia novena semana se incrementara el tiempo de propaganda en 5 minutos, centonces, la venta se incrementa en promedio 5210 unidades.. EJEMPLO 4.2, Los ingresos (X) y los gastos (Y) mensuales en ddlares de una muestra de 100 familias han dado los siguientes resultados ¥ = 210, ¥=200, sj; =5.76, s5 =2.56, D XY =4200364.8 Determine la recta de regresién de minimos cuadrados de ¥en X y estime el gasto de una familia que tiene $250 de ingreso. SOLUCION. 2g EAT y= OEE 9,20 3648 5 La recta de regresiGn de minimos cusdrados de ¥ en X es y—y="*" (x -x). sy TOR Cy. Gi0}). 5.76 ¥ =67+0.633X b) Si una Familia tiene un ingreso de $250 entonces su gasto estimado seria F = 67 +0.633 x 250 = 225.25. NOTAS: VY De b=syy/sy yr =syy/sysy, se obtiene la relacién entre los coeficientes de correlaciéin ry el de regresicn; b; ee, Sx b Entre otras cosas, ry b tienen el mismo signo. 2) La recta de represiGn de X en ¥, es decir X variable dependiente de Y esti dada por: X=c+dY donde, d=5® y eazy Sy Esta recta de regresién de X en ¥ se puede escribir también como: 1 xX x) ze X-x=d(Y-y)6 ¥- Observar que también pasa por el punto (7, 3) Los coeficientes de regresién by d verifican: Syy 8. Si. 5 bq = Sev Se See Ss yy ay? SA sh SySp-5y5y El nmero r? es denominado coeficiente de determinacién. 4) Comparando las rectas de regresié L,: ¥-y=b(X -x) deen X Ly: ¥-¥ FO -3) de X en¥ resulta que, son coincidentes si_ bd = 1, 0 sir Por otra .parte, r=0, signifiea que L, (0 L,) es paralela al eje X, Ly (0 L,)es paralela al eje ¥ y perpendiculares entre sien el punto comin (¥.¥). En consecuencia, sir tiende cero, las rectas Ly y Ly ticnden a ser perpendiculares y sirtiende al oa-l, las rectas L, y L, tienden a ser coincidentes 4.2.2 Particién de la varianza de Y, s; Sea (%j,);) un valor observado de la variable (X.¥) ej, el valor en la ccouacién de regresién Y=a +X cuando X =x, Lavarianea de ¥ ¢s el ndimero: Yo, -y 2 ye Fig 44 Observar que en la figura 4.4 se tiene: ¥ - 5+, -7 Error total =Frror no Explicado + Error explicado por la regresién Esta_terminologia surge, debido a que las desviaciones y, — Jj con respecto a Ja recta de regresién, se comportan de una manera aleatoria o impredecible, debido ‘aque y, €s aleatorio, En tanto que las desviaciones J, ~F de la recta de regresiGn ‘con respecto al eje de las X se explican por la recta de regresién de Yen X . ya que sélo depende de los j; que estén sobre la recta. Por otro lado se verifica la siguiente particisn de sumas de cuadrados: Yor -Eo. -3y +¥6,- De scr SCE +SCR En esta particién de las suinas, la primera suma se denomina suma de euadrados total (SCT), refleja ta variacién de los valores de Y con respecto a la media F La segunda suma se denomina, sama de euadrados de los errores (SCE). y la tercera suma se denomina suma de cwadrados debido a la regresion (SCR), refleja a cantidad de variacién de los valores de ¥ explicada por Ia recta de regresion. Si se divide por n, (cl tamafio de la muestra), entonces, se dice que la “varianga dé los y; es igual a la varianza no explicada o residual més la varianza explicada or la recta de regresion” EJEMPLO 43. En una muestra de 5 obreros de una fabrica se han observado sus afios de experiencia (X) y el tiempo que tardan en realizar una determinada tarea (¥). Los datos se muestran en fa tabla que sigu ‘Verificar que Ia variaci6n total es igual a Ja variacién no explicada mds la variaci6n explicada por la regresién de Yen X. SOLUCION. De los datos de la muestra se obtiene Ia siguiente ecuacién lineal de regresién por minimos cuadraclos. Y¥=10.2-16X donde Y=54 Cundro 42 ¥ ~ 5, [5-3] i? |O:- 5? |G. -H* B | 86] +26 0.6 43.2 676 0.36 10.24 9|70| 436] +20 | 216] 1296 | 40 | 236 4|S4) -14 -14 0.0 1.96 1.96 0.00 3 | 38] -24 08 -1.6 ‘3.76 0.64 256 3 [22] -24 +08 3.2 S16 0.64 10.24 27, [06 00 6.0 [3320 70 25.60 Del cuadro 4.2, resulta Yoi-y®-Lo.- iS, 60 + 25.60. 33.20 = NOTA. Para comparar estas varianzas se convierten a varianza relativas, dividiendo la identidad entre 33.20 (SCT). 33.20 _ 7.60 , 25.60 33.20 33.20 33.20 1=0.23+0.77 La lectura es como sigue: E1 100% de Ia varianza total se particiona en 23% de varianza no explicada mis 77% de varianza explicada por la regresion de ¥ en X. 4.2.3 Coeficiente de determinacién ; = SOR El coeficieme de determinacién r? se define como el cociente: ~ Esto es,. el coeficiente de determinacién r? de la regresién de Y en X , esté dada por la expresiGn: De la partici6n de suma de cuadrados, SCT =SCE+SCR, resulta: SCE 3 BEE “ SCT Por lo tanto para interpretar la particién de varianzas relativas bastard con calcular r , luego, r? y establecer: 1 1=(-r?) +77 para concluir que el 100% de la varianza total es igual (I—r?)x 100% de varianza no explicada més r? x 100% de Ia variacién explicada por la recta de regresién, Por ejemplo, enel ejemplo 4.2, r=0.95, r7=0.9025, entonces, se tiene: la(-r*)4r? = 0.0975 +0.9025 0 aproximando a dos decimales 1-0.10 + 0.90 Fs decir, 1 90% de la variabilidad en los gastos mensuales se expliea por la ‘asociacién con los ingresos mensuales. Quedan 10% de variabilidad en los gastos ‘que no se explica por la regresién. ‘Consecuencias. 1) De Ia identidad (*) se concluye que O< r? <1. Entonces, -10, se dice que existe una correlacidn directa positiva, ambas variables ‘aumentan (o disminuyen) situlténeamente, Si r

Potrebbero piacerti anche