Sei sulla pagina 1di 13

MA44 Estadística 184

Regresión lineal simple

¿La velocidad de transferencia de datos de un disco duro depende de la velocidad en que


giran los discos del plato del disco duro o de su capacidad de almacenamiento? ¿El tiempo
de ejecución de una obra civil depende del número de trabajadores o del índice de
automatización? ¿El tiempo de falla de los equipos electrónicos dependerá de la
resistencia de los resistores? ¿el sueldo dependerá del grado de instrucción? ¿el tiempo de
procesamiento de trabajos estará relacionado con el número de trabajos por día? ¿La
temperatura está relacionada con la presión sobre el rendimiento de un producto
químico?
Estas preguntas surgen cuando queremos estudiar dos variables de una población con el
fin de examinar la relación existente entre ellas. Las dos variables en estudio son variables
cuantitativas que nos permitirá construir una ecuación lineal que modela la relación
existente entre estas dos variables.
En el análisis de regresión la ecuación lineal puede usarse para estimar o predecir los
valores de una variable dependiente, llamada Y, cuando se conocen o se suponen
conocidos los valores de otra variable, variable independiente, llamada X.
El análisis de correlación permite determinar el grado de relación lineal existente entre dos
variables. Es útil en un trabajo exploratorio cuando el investigador desea encontrar el
grado o la fuerza de esa relación.

¿Qué es el análisis de
regresión lineal?

Es modelar la dependencia de la variable Y en función de


la variable X a través de la ecuación de una recta

Yi   0  1 X i  ei i = 1, 2,…, n

Variable respuesta Variable predictora

o Independiente
o Dependiente

Diagrama de dispersión o gráfico del plot

UPCPC
MA44 Estadística 185

El primer paso en el análisis de regresión es registrar simultáneamente los valores de las


dos variables asociadas (X, Y) en una gráfica bidimensional para ver si existe una tendencia
lineal que podría explicar la relación entre estas dos variables

X vs Y
Variables no X vs Y
Modelo lineal
1600
9
relacionadas 1400

8 1200
Buen ajuste
1000
7

800

Y
Y

6
600

5 400

Cuando
200 X crece Y
4
decrece
0
10 15 20 25 30 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6
X X

X vs Y
Modelo lineal
60 Variables no X vs Y

Buen ajuste 140 relacionadas


50 130

120

110
40
Y

100
Y

90

80
30
70

Cuando X crece 60

20 50
20 25 Y crece
30 35 40 45 50 200 400 600 800 1000 1200
X X

Ejercicio

Se desea modelar la vida útil (en años) de un satélite en función de la cantidad de combustible
(en kg) requerido para moverlo de su posición orbital, usando un modelo lineal. Los datos se
muestran a continuación:

Vida útil (años) 10,8 11,5 12 12,4 13,2 13,7 13,9 14,1 14,8 15
Cantidad de combustible
150,4 156,3 162,5 165,8 172,5 168,9 184,5 185,9 187,2 199,4
(kg)

RELACION ENTRE LA VIDA UTIL Y LA CANTIDAD DE COMBUSTIBLE


15

14
Vida útil

13

12

11

150 160 170 180 190 200


Cantidad de combustible

Comente el diagrama de dispersión de estas variables.

UPCPC
MA44 Estadística 186

Método de los mínimos cuadrados

Mediante este método es posible seleccionar la recta que se ajuste mejor a los datos. La
recta resultante tiene dos características importantes:

 La suma de las desviaciones verticales de los puntos con relación a la recta es cero; y
 La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra recta
daría una menor suma de cuadrados de tales desviaciones).
n
∑ ( y i− ^y i )2
Es decir: i =1 es mínima

Los valores de 0 y 1 que minimizan la suma de los cuadrados de las desviaciones, son las
soluciones de las llamadas ecuaciones normales de la recta de regresión:
n n

i =1
y i = n β^ 0 + β^ 1
(∑ ) i=1
xi

n n n
∑ x i y i= β^ 0
i =1
( ∑ ) (∑ )
i=1
x i + β^ 1
i =1
x 2i

Este método nos permite estimar los parámetros del modelo de regresión. Resolviendo las
ecuaciones simultáneas para β 0 y β 1 tenemos:

n n n

β^ 1=
n
( i=1
) ( )(∑ )
∑ xi y i − ∑ xi
i=1 i=1
yi

n n 2
n (∑ ) (∑ )
i=1
x 2i −
i=1
xi
y
β^ 0 = ȳ− β^ 1 x̄

Recta o ecuación de regresión

La ecuación lineal es:


^y i= β^ 0 + β^ 1 x i ,
Donde:


β^ 1 es la pendiente de la recta o coeficiente de regresión.


β^ 0 es la ordenada en el origen o intercepto de la recta con eje y

Ejercicio
UPCPC
MA44 Estadística 187

Calcule e interprete los coeficientes de regresión estimados del ejemplo anterior,


considerando la siguiente información:

Cantidad de
150.4 156.3 162.5 165.8 172.5 168.9 184.5 185.9 187.2 199.4
combustible
Vida útil 10.8 11.5 12 12.4 13.2 13.7 13.9 14.1 14.8 15

Haciendo uso de las fórmulas, el procedimiento implica realizar los siguientes cálculos previos:

X
Y
N° Cantidad de xy x2 y2
Vida útil
combustible
1 150.4 10.8 1624,32 22620,16 116,64
2 156.3 11.5 1797,45 24429,69 132,25
3 162.5 12 1950 26406,25 144
4 165.8 12.4 2055,92 27489,64 153,76
5 172.5 13.2 2277 29756,25 174,24
6 168.9 13.7 2313,93 28527,21 187,69
7 184.5 13.9 2564,55 34040,25 193,21
8 185.9 14.1 2621,19 34558,81 198,81
9 187.2 14.8 2770,56 35043,84 219,04
10 199.4 15 2991 39760,36 225
Total 1733,4 131,4 22965,92 302632,46 1744,64

Interprete los valores de los coeficientes de regresión

β^ 1

β^ 0

Análisis de varianza

El análisis de varianza es la descomposición de la variación total en sus fuentes de variación:


regresión y error (residual).

Fuente de Grados de Suma de Cuadrado Estadístico de


variación libertad cuadrados medio prueba
Regresión 1 SCReg CMReg (1) Fc = (1) / (2)

Error (residual) n–2 SCE CME (2)

UPCPC
MA44 Estadística 188

Total n–1 SCTot

Donde:
n 2

n
n

( )
∑ yi
2

SC Re g= β^ 2 . ( n
∑ x2i −
(∑ )
i=1
xi
)
SCTot =
(∑ )
i =1
y 2i −
i=1

n
,
1 i=1 n
y SCE =SCTot−SC Re g
.

SC Re g SCE
CM Re g= CME=
Además 1 y n−2 .

La salida que proporciona el Excel es el siguiente:

ANÁLISIS DE VARIANZA
Grados de Suma de Promedio de los Valor
  libertad cuadrados cuadrados F crítico de F
Regresión 1 16.5077 16.5077 85.9622 0.0000
Residuos 8 1.5363 0.1920    
Total 9 18.0440      

  Coeficientes Error típico Estadístico t Probabilidad


Intercepción -1.9964 1.6384 -1.2185 0.2577
Cantidad de
combustible 0.0873 0.0094 9.2716 0.0000
Este análisis permite realizar la prueba de hipótesis para validar el modelo de regresión
obtenido a un nivel de significación α.

1. H 0 : β 1=0
H 1 : β 1≠0

2. α (nivel de significación) =

3. Prueba estadística
CMReg
Fcal=
CMError

4. Criterios de decisión

UPCPC
MA44 Estadística 189

Si Fcal > Fcrit. (α, 1, n-2) entonces se rechaza Ho; por lo tanto, el modelo es válido o
Si Fcal ≤ Fcrit. (α, 1, n-2) entonces no se rechaza Ho; el modelo no es válido

5. Conclusión

Ejercicio

A un nivel de significación del 5%, valide el modelo de regresión lineal del ejercicio anterior.

Fuente de Grados de Suma de Cuadrado Estadístico de


variación libertad cuadrados medio prueba
Regresión
Error (residual)
Total

1. H0:
H1:
2. α =

3. Prueba estadística
CMReg
Fcal=
CMError

4. Decisión:
Distribution Plot
F; df1=15; df2=23 Z.R.
0,9

0,8

0,7

0,6
Density

0,5

0,4

0,3 α
0,2 Z.NRA
0,1

0,0
0 . X

Fcrit=

5. Conclusión:

UPCPC
MA44 Estadística 190

Coeficiente de determinación
Es una medida de bondad de ajuste del modelo. Nos indica que tan bueno es el modelo
para explicar el porcentaje de variabilidad de la variable dependiente Y.
2
El coeficiente de determinación R indica el porcentaje de la variabilidad de la variable
dependiente Y que es explicada por el modelo de regresión lineal.
También nos ayuda a saber la precisión con la que se puede predecir o pronosticar el valor
de la variable dependiente, si se conocen los valores de la variable dependiente.
2
El coeficiente de determinación R se calcula de la siguiente manera:

SCReg
R2   100%
SCTot

Coeficiente de correlación

El coeficiente de correlación expresa el grado de asociación lineal que existe entre dos
variables X e Y.
Se calcula como la raíz cuadrada del coeficiente de determinación:

√ R2 si β^ 1 >0
r=
{−√ R2 si β^ <0
1

Si el coeficiente de correlación está cerca de cero entonces indicará que no existe relación
lineal significativa entre las dos variables
Si el coeficiente de correlación se acerca a 1 o a -1 indicará que existe una relación lineal
fuerte pudiendo ser directa o inversa. Valores que se pueden tomar como referencia para
determinar si no existe relación lineal o si existe una relación lineal fuerte, directa o
inversa, se muestra a continuación:

Relación Relación
lineal No existe lineal
fuerte e Relación fuerte y
inversa Lineal directa

-1.0 -0.65 -0.2 0.2 0.65 1.0

UPCPC
MA44 Estadística 191

Estos valores pueden variar de acuerdo con el campo de estudio.

Ejercicio

Interprete el coeficiente de correlación y del coeficiente de determinación del ejemplo


anterior.

S = 0.438218 R-Sq = 91.5% R-Sq(adj) = 90.4%

r2

Ejercicios

1. Una empresa dedicada a la fabricación de equipos de telecomunicación considera que la


vida útil de los equipos puede estar explicada por la temperatura del ambiente en el que
trabaja mediante una relación lineal. Para encontrar la ecuación de regresión lineal de la
vida útil en función de la temperatura se tomó una muestra de 11 datos, los cuales se
muestran en la tabla siguiente:

Temperatura(ºC) 24 20 18 16 10 12 13 28 16 15 23
Vida útil(en 8,0 6,4 5,5 4,6 3,8 3,9 5,6 8,5 6,6 4,5 8,8
años)

a. Comente el diagrama de dispersión de estas variables.

Gráfica de dispersión de Vida útil vs. Temperatura


9

8
Vida útil(en años)

10 15 20 25 30
Temperatura

UPCPC
MA44 Estadística 192

b. Interprete los coeficientes de regresión estimados.


β^ 1

β^ 0

c. Valide el modelo de regresión al 1% de nivel de significación.

d. Interprete el coeficiente de determinación y el coeficiente de correlación.


r2

2. Para la construcción de carreteras que experimentan heladas intensas, es importante que


la densidad del concreto (kg/m2) seleccionado tenga un valor bajo de conductividad térmica
para reducir al mínimo los daños provocados por cambios de temperatura. Por lo tanto, se
desea modelar la conductividad térmica en función de la densidad que posee el concreto.
Por lo tanto, se toman 12 trozos al azar de diferentes densidades de concreto y se registra
la conductividad. Los datos se muestran en la siguiente tabla:

Densidad del
300 400 500 600 700 800 900 1000 1100 1200 1400 1600
concreto
Conductividad 0.065 0.08 0.095 0.115 0.13 0.15 0.175 0.205 0.23 0.27 0.346 0.436

UPCPC
MA44 Estadística 193

térmica
(watts/metros.Kelvin)

Diagrama de dispersión de Conductividad vs Densidad


0,45

0,40

0,35

Conductividad
0,30

0,25

0,20

0,15

0,10

0,05
200 400 600 800 1000 1200 1400 1600
Densidad

a. Comente el diagrama de dispersión.

b. Presente la ecuación de la recta o modelo de regresión estimado.

c. Interprete el valor de la pendiente de la recta.

d. Valide el modelo Use 1% de significancia.

e. Interprete el coeficiente de determinación y correlación.


r2

UPCPC
MA44 Estadística 194

3. Se desea modelar el tiempo de operación (en horas) en función de la temperatura de un


dispositivo. Para ello se realiza un experimento estadístico, cuyos resultados son los
siguientes:

Temperatura (oC) 18 18 18 22 22 26 30 30 34
Tiempo de operación 1200 1215 1150 1000 974 810 583 612 240

Gráfica de dispersión de Tiempo de operación vs. Temperatura (oC)

1200

1000
Tiempo de operación

800

600

400

200
20 24 28 32 36
Temperatura (oC)

a. Comente el diagrama de dispersión.

b. Presente la ecuación de la recta o modelo de regresión estimado.

c. Interprete los valores de los coeficientes de regresión.

UPCPC
MA44 Estadística 195

d. Valide el modelo Use 5% de significancia.

e. Interprete el coeficiente de determinación y correlación.


r2

4. NVZ Import-Export es una empresa proveedora de GPS para automóviles de diferentes


modelos, últimamente ha importado nuevos modelos de GPS que ya están a la venta. El
jefe del departamento de ventas ha implementado charlas motivadoras para sus agentes
vendedores y desea modelar la eficiencia de sus ventas (%) en función de las horas que
asisten mediante una función lineal. Por lo tanto, selecciona aleatoriamente una muestra
de 10 agentes vendedores y registra el tiempo acumulado de horas en las que estuvo
presente el agente vendedor en una o más charlas durante el último trimestre y la
eficiencia de sus ventas. Los datos y resultados se muestran a continuación:

Eficiencia en las ventas (%) 47 84 80 46 62 72 52 87 37 68


Tiempo acumulado, en horas 27 45 41 19 35 39 19 49 15 31

a. Presente la ecuación de la recta.


b. Interprete los coeficientes del modelo de regresión estimado.
c. Realice el proceso de validación del modelo, con un nivel de significación de 5%.
d. Interprete el coeficiente de determinación y el de correlación.

UPCPC
MA44 Estadística 196

UPCPC

Potrebbero piacerti anche