Sei sulla pagina 1di 24

Probabilidad y Estadística II

Curva de Ajuste, Regresión y


Correlación

Material elaborado por:

Lic. Roberto Adriano Páez Giménez

Campus Universitario

San Lorenzo, Paraguay


Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Índice
1. Curva de Ajuste, Regresión y Correlación .................................................................... 3
1.1. Introducción ................................................................................................................. 3
1.2. Curva de Ajuste ............................................................................................................ 3
2. Regresión Lineal Simple .............................................................................................. 5
2.1. Método de mínimos cuadrados................................................................................... 6
3. Correlación ................................................................................................................. 7
3.1. Tipos de correlación ..................................................................................................... 7
3.2. Coeficiente de correlación lineal ................................................................................. 8
3.3. Propiedades del coeficiente de correlación ................................................................ 8
4. Coeficiente de determinación ..................................................................................... 9
5. Error estándar de la estimación .................................................................................. 9
6. Parábola de mínimos cuadrados ............................................................................... 10
7. Regresión lineal múltiple .......................................................................................... 11
Bibliografía...................................................................................................................... 24

2 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

1. Curva de Ajuste, Regresión y Correlación

1.1. Introducción

Uno de los aspectos más relevantes de la estadística es el análisis de las relaciones que se
puedan establecer entre dos o más variables. Por ejemplo:

• Salario y consumo.
• Horas de estudio diario y nota final en una materia académica.
• Horas de trabajo diario y tiempo para terminar una obra.
• Pago de impuestos y fondos destinados a mantenimientos de rutas.

De acuerdo al contexto donde habitamos o trabajamos, es frecuente encontrar un par de


variables, donde fijemos nuestro interés en la relación que existe entre ellas. Para estudiar
esa relación debemos extraer una muestra de la población objeto de estudio, hacer
mediciones de las características que nos interesan, y luego establecer una función
matemática que reproduzca la relación lo mejor posible.

Por eso, es importante definir una variable dependiente que es aleatoria y una variable
independiente que es fija y controlada.

1.2. Curva de Ajuste

Vamos a suponer que somos economistas y que intentamos estudiar la relación que existe
entre el consumo y el salario. Para ello decimos que:

Y = consumo es la variable dependiente

X = salario es la variable independiente

Imaginemos también que disponemos de una tabla donde se indica el valor del salario y el
valor de consumo que le corresponde:

X = salario ($) Y = consumo ($)


1 3200 3255
2 3250 3315
… …
… …
… …
19 3700 3875
20 3800 3970
Tabla 1: Datos de Salarios y Consumo

Cada par (x; y) es un punto del plano cartesiano y si graficamos todos los puntos tenemos la
siguiente gráfica.

3 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

4100

4000

3900

3800

3700

3600

3500

3400
3200 3300 3400 3500 3600 3700 3800

Gráfico 1: Diagrama de dispersión de Salarios y Consumo

Un Diagrama de Dispersión es una representación de coordenadas numéricas en los ejes X e


Y. Esta gráfica nos permite observar la existencia de una relación funcional entre dos
variables.

Si queremos establecer una función matemática que asocie los puntos observados en la
gráfica 1, por la disposición de los mismos, una línea recta es una buena opción. Por lo tanto
decimos que ajustamos una recta a los puntos observados.

4100

4000

3900

3800

3700

3600

3500

3400
3200 3300 3400 3500 3600 3700 3800

Gráfico 2: Curva de Ajuste para Salarios y Consumo

Decimos entonces que una Curva de Ajuste es una relación matemática que intenta
cuantificar la relación existente entre dos o más variables. Esta relación matemática puede
ser una línea recta, como en la gráfica 2, una parábola, un polinomio cualquiera, etc.

4 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

En nuestro caso particular nos ocuparemos del ajuste de los datos a una línea recta. El
proceso de analizar y encontrar la mejor línea recta que ajusta a los datos observados es la
técnica estadística conocida como Regresión Lineal.

2. Regresión Lineal Simple


La ecuación de una línea recta es y = a + bx , a partir de ella definimos el modelo de
regresión lineal simple como:

Y = β 0 + β1 X

Donde β 0 y β 1 son parámetros poblacionales.

• β 0 : representa la ordenada al origen, es decir el punto donde la línea recta corta al


eje Y.
• β 1 : representa la pendiente de la recta, el cambio promedio esperado en Y por cada
incremento unitario de X.

Pero para cualquier investigación, en realidad, se toman muestras y sobre el resultado de la


muestra se infiere a toda la población; eso hace que el modelo contenga un término
aleatorio o término de error y por lo tanto nuestro modelo queda de la siguiente forma:

Yi = β 0 + β 1 X + ε i

Donde β 0 y β 1 son parámetros poblacionales y ε i es el error estocástico, por trabajar con


muestras.

Debemos saber que la Regresión Lineal Simple exige ciertos requisitos para ser
implementada. Algunos de ellos son:

• Tanto la variable dependiente como independiente deben ser cuantitativas continuas


• El término de error debe tener distribución normal, el promedio de estos errores
debe ser cero y la varianza de ellos debe ser constante.
• Debe existir relación lineal entre las dos variables analizadas.

A partir de una muestra estimamos una ecuación de regresión lineal, la misma queda
expresada como:
∧ ∧ ∧
y = β 0 + β1 x

∧ ∧
• β 0 : es la estimación puntual de β 0 . Para efectos prácticos, el valor indicado en β 0
es el valor que asume la variable Y cuando la X vale cero.
∧ ∧
• β1 : es el estimador puntual de β 1 . El valor numérico de β1 nos dice en cuanto varía
Y por cada incremento unitario de X.

Supongamos que estimamos la recta de ajuste del gráfico 2, para salarios y consumo y
resultó:

5 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Consumo = 1.100 + 0,8. Salario



y = 1.100 + 0,8 . x

• β 0 = 1.100 : El valor del consumo, cuando la persona no tiene salario, es de $1.100

• β1 = 0,8 : Por cada incremento de $ 1 en el salario, el consumo aumenta en $ 0,8

2.1. Método de mínimos cuadrados

Para encontrar los estimadores de los parámetros, utilizaremos el método de mínimos


cuadrados. El método de mínimos cuadrados consiste en minimizar la función de mínimos
cuadrados. Es por eso que primero debemos definir la función mencionada:

La función de mínimos cuadrados está dada por:


n
L = ∑ ε i2
i =1

Si de Yi = β 0 + β 1 X + ε i despejamos ε i y sustituimos dicha expresión en la ecuación


anterior, tendremos:
n n
L = ∑ ε i2 = ∑ (Yi − β 0 − β1 X i )
2

i =1 i =1

Luego, buscaremos los valores de β 0 y β1 que minimicen la función de mínimos cuadrados.


Esto requiere que derivemos la función con respecto a los estimadores β̂ y βˆ , 0 1

procedimientos matemáticos que escapan a los alcances del curso. Así obtenemos las
siguientes ecuaciones que nos permitirán estimar los parámetros a partir de los datos
muestrales.
n n

n ∑ X i ∑ Yi
∧ ∑X Y i i − i =1

n
i =1

β1 = i =1
2
  n

n


∑ X i 


i =1
Xi −
2 i =1

n
∧ ∧
β 0 = Y − β1 X
n n

∑ Yi ∑X i
Además recordamos que Y = 1
,y X = 1

n n

6 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

3. Correlación

La correlación trata de establecer la relación o dependencia que existe entre las dos
variables que intervienen en una distribución bidimensional.

Es decir, determinar si los cambios en una de las variables influyen en los cambios de la
otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay
correlación entre ellas.

3.1. Tipos de correlación

• Correlación directa: La correlación directa se da cuando al aumentar una de las


variables la otra aumenta. La recta correspondiente a la nube de puntos de la
distribución es una recta creciente.

Gráfico 3: Correlación Directa


Fuente: http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html

• Correlación inversa: La correlación inversa se da cuando al aumentar una de las


variables la otra disminuye. La recta correspondiente a la nube de puntos de la
distribución es una recta decreciente.

Gráfico 4: Correlación Inversa


Fuente: http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html

• Correlación nula: La correlación nula se da cuando no hay dependencia de ningún


tipo entre las variables. En este caso se dice que las variables son incorreladas y la
nube de puntos tiene una forma redondeada.

7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Gráfico 5: Correlación Nula


Fuente: http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html

3.2. Coeficiente de correlación lineal

El coeficiente de correlación lineal es el cociente entre la covarianza y el producto de


las desviaciones típicas de ambas variables.

σ xy
r=
σ x .σ y

El coeficiente de correlación lineal se expresa mediante la letra r.

n.∑ xy − (∑ x )(
. ∑ y)
r=
[n.∑ x 2
][
− (∑ x ) . n.∑ y 2 − (∑ y )
2 2
]

3.3. Propiedades del coeficiente de correlación

• Si la covarianza es positiva, la correlación es directa.


• Si la covarianza es negativa, la correlación es inversa.
• Si la covarianza es nula, no existe correlación.
• El coeficiente de correlación lineal es un número real comprendido entre −1 y 1; o
sea −1 ≤ r ≤ 1
• Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación
es fuerte e inversa, y será tanto más fuerte cuanto más se aproxime r a −1.
• Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación
es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
• Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación
es débil.
• Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente.
Entre ambas variables hay dependencia funcional.

8 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

4. Coeficiente de determinación
Luego de que ajustamos una recta de regresión a la nube de observaciones del gráfico de
dispersión de los datos, es importante disponer de una medida que mida la bondad del
ajuste realizado, un criterio que nos permita decidir si la función que utilizamos es suficiente
o si debemos buscar modelos alternativos.

Como medida de bondad de ajuste, utilizamos el coeficiente de determinación r 2 definido


como sigue:

σ 2 xy
r2 =
σ 2 x .σ 2 y

Como trabajamos con muestras, el coeficiente de determinación se calcula elevando al


cuadrado el coeficiente de correlación lineal.

[n.∑ xy − (∑ x )(. ∑ y )] 2

=
[n.∑ x − (∑ x) ].[n.∑ y − (∑ y ) ]
2
r 2 2
2 2

El valor de r 2 indica el porcentaje de la variación de la variable dependiente Y que se


explica por la recta de regresión estimada.

El valor de r 2 varía entre 0 y 1, cuando más cercano a 1 sea, mejor es el ajuste lineal.

• Si r 2 = 0,81 , por ejemplo, significa que el 81% de la variabilidad de Y es explicada


por la recta de regresión estimada. El 19% faltante, lo atribuimos a factores ajenos
al modelo establecido.
• Si r 2 = 0,35 , significa que, apenas, el 35% de la variabilidad de Y es explicada por
la recta de regresión estimada. El 65% faltante, lo atribuimos a factores ajenos al
modelo establecido, por lo que sería recomendable recurrir a otros modelos.

5. Error estándar de la estimación


Si ŷ es la estimación de y para un valor determinado de x , entonces la medida de la
dispersión alrededor de la recta de regresión está dada por s y . x , que es el Error estándar
de la estimación.

∧ 2
 
∑
 y − y 

s y. x =
n−2

9 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

∧ ∧ ∧
Recordemos que y = β 0 + β 1 x y que s y . x tiene el menor valor posible, porque la
estimación por mínimos cuadrados fundamenta que los coeficientes son calculados con el
menor error posible.

6. Parábola de mínimos cuadrados


Debemos entender que no siempre una recta es la mejor opción para el ajuste de una
función a una serie de datos, además de la recta podemos utilizar una parábola o incluso
otra relación polinómica.

Consideremos la siguiente colección de datos

x y
1,1 2,14
1,4 2,6
2,5 1,15
2,7 1,19
3,2 1,88
3,6 1,55
4,1 2,65
4,3 3,8
4,5 4,46
4,9 6,35
Tabla 2: Conjunto de datos bivariados (x, y)

Para indagar una posible relación funcional entre las variables, realizamos el diagrama de
dispersión de los datos.

0
0 1 2 3 4 5 6

Gráfico 6: Diagrama de dispersión de una relación no lineal


El gráfico nos permite evidenciar que el ajuste a una línea recta no es el más adecuado. Un
ajuste por medio de una parábola es el camino más acertado.

10 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

0
0 1 2 3 4 5 6

Gráfico 7: Parábola de Mínimos Cuadrados

La ecuación de regresión estimada tendría por lo tanto la siguiente forma:


∧ ∧ ∧ ∧
y = β0 + β 1 x + β2 x2

Donde β̂ 0 , βˆ1 y β̂ 2 son los estimaciones de los parámetros β 0 , β1 y β 2 y se calculan por el


método de métodos de mínimos cuadrados.

7. Regresión lineal múltiple


El modelo estadístico de regresión lineal múltiple es:
y i = β 0 + β 1 xi1 + β 2 xi 2 + L + β p xip + ε i

para i= 1, 2, ...,n
En regresión lineal simple usamos el método de mínimos cuadrados para obtener
estimadores del intercepto y de la pendiente. En regresión lineal múltiple el principio es el
mismo, pero necesitamos estimar más parámetros.
∧ ∧ ∧
Llamaremos β 0 , β 1 ,L, β p a los estimadores de los parámetros β 0 , β 1 ,L , β p

La respuesta estimada por el modelo para la i-ésima observación es:


∧ ∧ ∧ ∧
yˆ i = β 0 + β 1 xi1 + β 2 xi 2 + L + β p xip

Ejemplo 1

La tabla 3 indica la cantidad de horas anuales que los un grupo de alumnos dedicó al
desarrollo de ejercicios prácticos de la asignatura. Además, indica la calificación final
obtenida en una escala de 1 a 5.

11 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Estudiante Horas Calificación


1 40 4
2 42 4
3 30 3
4 35 3
5 25 1
6 28 2
7 32 3
8 35 3
9 40 4
10 42 4
Tabla 3: Datos de Horas de práctica y Calificación

a) Identifica e indica la variable dependiente y la independiente.


b) Realiza un gráfico de dispersión de los datos e indica la recta de ajuste.
c) Estima la recta de regresión lineal simple por mínimos cuadrados
d) Realiza la predicción de calificación final de un estudiante que dedica 24 horas de
estudio de la materia.
e) Calcula el coeficiente de correlación lineal e interpreta su resultado.
f) Calcula el coeficiente de determinación e interpreta su resultado.
g) Calcula el valor del error estándar de la estimación

Solución

a) La calificación final de la materia matemática depende de la cantidad de horas


anuales que dedicamos al estudio de la misma. Por tanto:
X = variable independiente = cantidad de horas anuales
Y = variable dependiente = calificación final
b) Una vez definidas las variables, cada observación es un punto ( X , Y ) que graficamos
en el plano cartesiano.
X Y
40 4
42 4
30 3
35 3
25 1
28 2
32 3
35 3
40 4
42 4
Tabla 4: Puntos (x,y) de horas y calificación

12 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

4,5
4
3,5

Calificación Final
3
2,5
2
1,5
1
0,5
0
0 10 20 30 40 50
Cantidad de Horas

Gráfico 8: Relación entre Cantidad de horas y Calificación Final


∧ ∧ ∧
c) Para hallar la recta de regresión y = β 0 + β 1 x debemos calcular los valores de β̂ 0 y
βˆ con las ecuaciones que establecimos según el método de mínimos cuadrados.
1
n n

n ∑ X ∑Y i i

∧ ∑X Y i i − i =1

n
i =1

Comenzamos con β 1 = 2
i =1
. Para obtener todos los datos que
 n 
n
∑ X i 
∑ X i −  i =1 
2

i =1 n
requiere la fórmula, completamos la siguiente tabla

X Y XY X2 Y2
40 4 40 × 4 =160 40 2 =1600 16
42 4 42 × 4 =168 42 2 =1764 16
30 3 90 900 9
35 3 105 1225 9
25 1 25 625 1
28 2 56 784 4
32 3 96 1024 9
35 3 105 1225 9
40 4 160 1600 16
42 4 168 1764 16
10 10 10 10 10

∑ X = 349
1
∑ Y = 31
1
∑ X .Y = 1133
1
∑ X 2 = 12511
1
∑Y
1
2
= 105

Tabla 5: Cálculos auxiliares de horas y calificación

13 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Luego podemos calcular


n n

n ∑ X i ∑ Yi 349 × 31
∧ ∑X Y i i − i =1

n
i =1
1133 −
10 ∧
β1 = i =1
= β 1 = 0,1544
 n 
2
12511 −
(349)
2

∑ X i 
n 10
∑ X i2 −  i =1 
i =1 n
10 10

∧ ∑ Yi 31
∑X i
349
Como β 0 = Y − β 1 X , primero calculamos Y = 1
= = 3,1 , y X = 1
= = 34,9 .
n 10 n 10
∧ ∧
Entonces β 0 = 3,1 − 0,1544 × 34,9 β 0 = −2,2895

La recta de regresión de mínimos cuadrados es y = −2,2895 + 0,1544 x

d) La recta y = −2,2895 + 0,1544 x sirve para estimar la calificación final del estudiante
que dedica x = 24 horas anuales a la asignatura.
∧ ∧
y = −2,2895 + 0,1544 × 24 y = 1,4161
La calificación final es 1 , si redondeamos la cifra a entero.

e) Para calcular el coeficiente de correlación lineal, usaremos los datos calculados en la


tabla de cálculos auxiliares en la ecuación que establecimos el mismo.

n.∑ xy − (∑ x )(
. ∑ y) 10.(1133) − (349)(
. 31)
r= ,r=
[n.∑ x 2 2
][
− (∑ x ) . n.∑ y 2 − (∑ y )
2
] [10.(12511) − (349) ].[10.(105) − (31) ]
2 2

r = 0,9416

Como r = 0,9416 es positivo, las variables cantidad de horas y calificación final tienen
una relación directa, decimos también que la relación lineal es fuerte porque el valor
calculado es muy cercano a 1.

f) Obtenemos el coeficiente de determinación, elevando al cuadrado el coeficiente de


correlación calculado:
r 2 = (0,9416 )
2

r 2 = 0,8866
El 88,66% de la variabilidad de la calificación final es explicado por la recta de
regresión estimada tomando cantidad de horas como variable explicativa.

g) Para el cálculo del error estándar necesitamos calcular cada valor estimado con

nuestra ecuación y = −2,2895 + 0,1544 x .

14 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

∧ 2
∧ ∧  
X= x Y= y y = −2,2895 + 0,1544 x y− y y− y
 
40 4 ∧ 4 − 3,8865 0,01288225
y = −2,2895 + 0,1544 × 40
= 0,1135
= 3,8865
42 4 ∧ 4 − 4,1953 0,03814209
y = −2,2895 + 0,1544 × 42
= -0,1953
= 4,1953
30 3 2,3425 0,6575 0,43230625
35 3 3,1145 -0,1145 0,01311025
25 1 1,5705 -0,5705 0,32547025
28 2 2,0337 -0,0337 0,00113569
32 3 2,6513 0,3487 0,12159169
35 3 3,1145 -0,1145 0,01311025
40 4 3,8865 0,1135 0,01288225
42 4 4,1953 -0,1953 0,03814209
∧2

∑  y − y  = 1,00877306


Tabla 6: Estimaciones y Error

∧ 2
 
∑  y − y 
 , entonces s = 1,00877306 , el valor del error estándar de la
Como s y . x =
n−2 10 − 2
y. x

estimación es s y . x = 0,3551

Ejemplo 2

Una asociación dedicada a la protección de la infancia decide estudiar la relación entre la


mortalidad infantil en 10 ciudades importantes de un país y el número de camas de
hospitales por cada mil habitantes.

Número de Camas de Hospital por 1000 50 100 70 60 120 180 200 250 30 90
habitantes
Tasa de Mortalidad (en %) 5 2 2,5 3,75 4 1 1,25 0,75 7 3
Tabla 7: Muestra de Camas de Hospital versus Tasa de Mortalidad

a) Identifica e indica la variable dependiente y la independiente.


b) Realiza un gráfico de dispersión de los datos e indica la recta de ajuste.
c) Estima la recta de regresión lineal simple por mínimos cuadrados
d) Realiza la predicción de la tasa de mortalidad para una ciudad que cuenta con 175
camas de hospital por cada 1000 habitantes.
e) Calcula el coeficiente de correlación lineal e interpreta su resultado.
f) Calcula la medida de la bondad del ajuste
g) Calcula el valor del error estándar de la estimación

15 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Solución

a) Definimos las variables de la siguiente manera:


X = variable independiente = cantidad de camas de hospital por cada 1000
habitantes
Y = variable dependiente = tasa de mortalidad (en %)

b) Una vez definidas las variables, cada observación es un punto ( X , Y ) que graficamos
en el plano cartesiano.

X Y
50 5
100 2
70 2,5
60 3,75
120 4
180 1
200 1,25
250 0,75
30 7
90 3
Tabla 8: Puntos (x,y) para número de camas y tasa de mortalidad

8
7
Tasa de Mortalidad (en %)

6
5
4
3
2
1
0
0 50 100 150 200 250 300
Camas de Hospital por 1000 habitantes

Gráfico 9: Relación entre Camas de Hospital y Tasa de Mortalidad


c) Calculamos los valores de β̂ 0 y βˆ1 con las ecuaciones que establecimos según el
método de mínimos cuadrados.

16 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

n n

n ∑ X ∑Y i i

∧ ∑X Y i i − i =1

n
i =1

Comenzamos con β 1 = i =1
2
. Para ello, completamos la tabla de
 n 
n
∑ X i 
∑ X i2 −  i =1 
i =1 n
cálculos auxiliares

X Y XY X2 Y2
50 5 250 2500 25
100 2 200 10000 4
70 2,5 175 4900 6,25
60 3,75 225 3600 14,0625
120 4 480 14400 16
180 1 180 32400 1
200 1,25 250 40000 1,5625
250 0,75 187,5 62500 0,5625
30 7 210 900 49
90 3 270 8100 9
10 10 10 10 10

∑ X = 1.150
1
∑ Y = 30,25
1
∑ X .Y = 2.427,5
1
∑ X 2 = 179.300
1
∑Y
1
2
= 126,4375

Tabla 9: Cálculos auxiliares para estimaciones de parámetros

Luego:
n n

n ∑ X ∑Y i i
1.150 × 30,25
∧ ∑ X iYi − i =1

n
i =1
2.427,5 −
10
β1 = i =1
=
 n 
2
179.300 −
(1.150)
2

∑ Xi 
n 10
∑ X i2 −  i =1 
i =1 n

β 1 = −0,0223

Para hallar β 0 = Y − β 1 X , calculamos:
10

∑Y i
30,25
Y= 1
= = 3,025
n 10

17 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

10

∑X i
1.150
X = 1
= = 115 .
n 10

Entonces β 0 = 3,025 − (− 0,0223) × 115


β 0 = 5,5895
∧ ∧ ∧
La recta de regresión de mínimos cuadrados es y = β 0 + β 1 x , que para los datos del

problema, tiene la forma: y = 5,5895 − 0,0223 x

d) Con la recta y = 5,5895 − 0,0223 x estimamos la tasa de mortalidad para la ciudad
que cuenta con x = 175 camas de hospital.

y = 5,5895 − 0,0223 × 175
La tasa de mortalidad de la ciudad con 175 camas de hospital por cada 1000

habitantes es de y = 1,687

e) El coeficiente de correlación lineal, está dado por:

n.∑ xy − (∑ x )(
. ∑ y)
r=
[n.∑ x − (∑ x ) ].[n.∑ y − (∑ y ) ]
,
2 2 2 2

10.(2.427,5) − (1.150)(
. 30,25)
r=
[10.(179.300) − (1.150) ].[10.(126,4375) − (30,25) ]
2 2

r = −0,82

Dado que r = −0,82 es negativo, las variables cantidad de camas de hospital por cada
1000 habitantes y la tasa de mortalidad (en %) tienen una relación inversa, decimos
también que la relación lineal es fuerte porque el valor calculado es muy cercano a -
1.

f) Calculamos la bondad del ajuste r 2 , elevando al cuadrado el coeficiente de


correlación lineal.

r 2 = (− 0,82 )
2

r 2 = 0,6724

El 67,24% de la variabilidad de la tasa de mortalidad es explicada por la recta de


regresión cuya variable independiente es la cantidad de camas de hospital.

18 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

g) Para el cálculo del error estándar calculamos cada valor estimado con la recta de

regresión estimada y = 5,5895 − 0,0223 x

∧ 2
∧ ∧  
X= x Y= y y = 5,5895 − 0,0223 x y− y  y − y
 
50 5 4,4745 0,5255 0,27615025
100 2 3,3595 -1,3595 1,84824025
70 2,5 4,0285 -1,5285 2,33631225
60 3,75 4,2515 -0,5015 0,25150225
120 4 2,9135 1,0865 1,18048225
180 1 1,5755 -0,5755 0,33120025
200 1,25 1,1295 0,1205 0,01452025
250 0,75 0,0145 0,7355 0,54096025
30 7 4,9205 2,0795 4,32432025
90 3 3,5825 -0,5825 0,33930625
∧ 2
 
∑  y − y  = 11,4429945
Tabla 10: Estimación y Error

∧ 2
 
∑  y − y 
 , entonces s = 11,4429945 , el valor del error estándar de la
Como s y . x =
n−2 10 − 2
y. x

estimación es s y . x = 1,4304

Ejemplo 3

Las ventas de electrodomésticos varían según la venta o no de casas nuevas. Cuando las
ventas de casas nuevas son buenas, también se reflejan en buenas ventas de lavaplatos,
lavadoras de ropas, secadoras y refrigeradores. Una asociación de comercio compiló los
siguientes datos históricos (en miles de unidades) de las ventas de electrodomésticos y la
construcción de casas.

a) Desarrolla una ecuación para la relación entre ventas de electrodomésticos y la


construcción de casas.
b) Interpreta cada uno de los coeficientes de la recta.
c) Calcula el coeficiente de correlación lineal e interpreta.
d) Calcula el coeficiente de determinación.

19 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Construcción de casas Ventas de


Muestra
(miles) electrodomésticos (miles)
1 2,0 5,0
2 2,5 5,5
3 3,2 6,0
4 3,6 7,0
5 3,3 7,2
6 4,0 7,7
7 4,2 8,4
8 4,6 9,0
Tabla 11: Datos de Construcción de casas y venta de electrodomésticos

Solución

a) Las variables son:


X = variable independiente = construcción de casas nuevas (en miles)
Y = variable dependiente = cantidad de electrodomésticos (en miles)
Una vez definidas las variables, cada observación es un punto ( X , Y ) que graficamos
en el plano cartesiano.

10
Cantidad de Electrodomésticos

9
8
7
6
(miles)

5
4
3
2
1
0
0 1 2 3 4 5
Construcción de Casas Nuevas
(miles)

Gráfico 10: Relación entre Construcción de Casas Nuevas y Cantidad de Electrodomésticos

Calculamos los valores de β̂ 0 y βˆ1

Antes, completamos la siguiente tabla de cálculos auxiliares

20 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

X Y XY X2 Y2
2 5 10 4 25
2,5 5,5 13,75 6,25 30,25
3,2 6 19,2 10,24 36
3,6 7 25,2 12,96 49
3,3 7,2 23,76 10,89 51,84
4 7,7 30,8 16 59,29
4,2 8,4 35,28 17,64 70,56
4,6 9 41,4 21,16 81
8 8 8 8 8

∑ X = 27,4
1
∑ Y = 55,8
1
∑ X .Y = 199,39
1
∑ X 2 = 99,14
1
∑Y
1
2
= 402,94

Tabla 12: Cálculos auxiliares de Salarios y Consumo

Luego:
n n

n ∑ X ∑Y i i
27,4 × 55,8
∧ ∑X Y i i − i =1

n
i =1
199,39 −
8 ∧
β1 = i =1
= β 1 = 1,5628
 n 
2
99,14 −
(27,4)2
∑ Xi 
n 8
∑ X i2 −  i =1 
i =1 n

Luego β 0 = Y − β 1 X , hallamos:
10 10

∑Y i
55,8 ∑X i
27,4
Y= 1
= = 6,975 y X = 1
= = 3,425 .
n 8 n 8
∧ ∧
Entonces β 0 = 6,975 − (1,5628) × 3,425 β 0 = 1,6224
∧ ∧ ∧
La recta de regresión de mínimos cuadrados es y = β 0 + β 1 x , que para la muestra obtenida,

tiene la forma: y = 1,6224 + 1,5628 x

b) Interpretamos los coeficientes estimados de la siguiente forma:



• β 0 = 1,6224 : Si no se construye casas nuevas, la cantidad de electrodomésticos
vendidos es de aproximadamente 1,6 mil.

• β 1 = 1,5628 : Por cada incremento en una unidad de mil de la cantidad de casas
nuevas construidas, el promedio de ventas de electrodomésticos aumenta en
aproximadamente 1,5 mil

c) El coeficiente de correlación lineal, está dado por:.

21 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

n.∑ xy − (∑ x )(
. ∑ y) 8.(199,39) − (27,4)(
. 55,8)
r= ,r=
[n.∑ x 2 2
][
− (∑ x ) . n.∑ y 2 − (∑ y )
2
] [8.(99,14) − (27,4) ].[8.(402,94) − (55,8) ]
2 2

r = 0,9703

Dado que r = 0,9703 es positivo, las variables cantidad de electrodomésticos


vendidos y la construcción de casas nuevas tienen una relación directa, decimos
también que la relación lineal es fuerte porque el valor calculado es muy cercano a 1

d) Calculamos el coeficiente de determinación r 2 , elevando al cuadrado el coeficiente


de correlación lineal.

r 2 = (0,9703)
2

r 2 = 0,9415

El 94,15% de la variabilidad de la cantidad de electrodomésticos vendidos es


explicada por la recta de regresión cuya variable independiente es la construcción de
casas nuevas

Ejemplo 4

Las ventas anuales de una industria, están correlacionadas con el ingreso total de los
habitantes de un país, los gastos en publicidad y los costos de producción. (Todas las
variables indicadas en millones de guaraníes).

a) Identifica la variable dependiente y las independientes.


b) Escribe la recta de regresión lineal, teórica, que relaciona las variables
c) Si en un caso hipotético, el coeficiente de determinación vale 0,72, ¿cómo se
interpreta ese valor?

Solución

a) Las variables indicadas en el problema son:


• Y = variable dependiente: ventas anuales de una industria.

Las variables independientes son:

• X 1 = ingreso total de los habitantes de un país.


• X 2 = gastos en publicidad
• X 3 = costos de producción

b) Como tenemos más de una variable independiente, y considerando que la relación


lineal es la más adecuada, tenemos la siguiente ecuación de regresión lineal múltiple:
∧ ∧ ∧ ∧ ∧
y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 3
∧ ∧ ∧ ∧
Ventas anuales = β 0 + β1 ×ingreso total + β 2× gastos publicidad + β 3× cos tos producción

22 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

c) Si r 2 = 0,72 , decimos que el 72% de la variabilidad de las ventas anuales de la


industria, es explicada por la recta de regresión estimada cuyas variables explicativas
son el ingreso total de los habitantes de un país, los gastos en publicidad y los costos
de producción.

23 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia

Bibliografía
SPIEGEL, M. 2000. Estadística. 2ª Edición. México. McGraw-Hill. 556 p.

SPIEGEL, M.; SCHILLER, J.; ALU, R. 2003. Probabilidad y Estadística. 2ª Edición. México.
McGraw-Hill. 416 p.

LEVIN, R.; RUBIN, R. 2010. Estadística para administración y economía. 7ª Edición. México.
Pearson Educación.

WALPOLE, R.; MYERS, R.; MYERS, S.; YE, K. 2007. Probabilidad y Estadística para ingeniería y
ciencias. 8ª Edición. México. Pearson Educación. 816 p.

VITUTOR, S.L.U. 2012. Regresión (en línea). Consultado 27 octubre 2013. Disponible en
http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html

DEVORE, J. 2008. Probabilidad y Estadística para Ingeniería y Ciencias. 7ª Edición. México.


Thomson Editores S.A. 715 p.

24 www.virtual.facen.una.py

Potrebbero piacerti anche