Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Campus Universitario
Índice
1. Curva de Ajuste, Regresión y Correlación .................................................................... 3
1.1. Introducción ................................................................................................................. 3
1.2. Curva de Ajuste ............................................................................................................ 3
2. Regresión Lineal Simple .............................................................................................. 5
2.1. Método de mínimos cuadrados................................................................................... 6
3. Correlación ................................................................................................................. 7
3.1. Tipos de correlación ..................................................................................................... 7
3.2. Coeficiente de correlación lineal ................................................................................. 8
3.3. Propiedades del coeficiente de correlación ................................................................ 8
4. Coeficiente de determinación ..................................................................................... 9
5. Error estándar de la estimación .................................................................................. 9
6. Parábola de mínimos cuadrados ............................................................................... 10
7. Regresión lineal múltiple .......................................................................................... 11
Bibliografía...................................................................................................................... 24
2 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
1.1. Introducción
Uno de los aspectos más relevantes de la estadística es el análisis de las relaciones que se
puedan establecer entre dos o más variables. Por ejemplo:
• Salario y consumo.
• Horas de estudio diario y nota final en una materia académica.
• Horas de trabajo diario y tiempo para terminar una obra.
• Pago de impuestos y fondos destinados a mantenimientos de rutas.
Por eso, es importante definir una variable dependiente que es aleatoria y una variable
independiente que es fija y controlada.
Vamos a suponer que somos economistas y que intentamos estudiar la relación que existe
entre el consumo y el salario. Para ello decimos que:
Imaginemos también que disponemos de una tabla donde se indica el valor del salario y el
valor de consumo que le corresponde:
Cada par (x; y) es un punto del plano cartesiano y si graficamos todos los puntos tenemos la
siguiente gráfica.
3 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
4100
4000
3900
3800
3700
3600
3500
3400
3200 3300 3400 3500 3600 3700 3800
Si queremos establecer una función matemática que asocie los puntos observados en la
gráfica 1, por la disposición de los mismos, una línea recta es una buena opción. Por lo tanto
decimos que ajustamos una recta a los puntos observados.
4100
4000
3900
3800
3700
3600
3500
3400
3200 3300 3400 3500 3600 3700 3800
Decimos entonces que una Curva de Ajuste es una relación matemática que intenta
cuantificar la relación existente entre dos o más variables. Esta relación matemática puede
ser una línea recta, como en la gráfica 2, una parábola, un polinomio cualquiera, etc.
4 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
En nuestro caso particular nos ocuparemos del ajuste de los datos a una línea recta. El
proceso de analizar y encontrar la mejor línea recta que ajusta a los datos observados es la
técnica estadística conocida como Regresión Lineal.
Y = β 0 + β1 X
Yi = β 0 + β 1 X + ε i
Debemos saber que la Regresión Lineal Simple exige ciertos requisitos para ser
implementada. Algunos de ellos son:
A partir de una muestra estimamos una ecuación de regresión lineal, la misma queda
expresada como:
∧ ∧ ∧
y = β 0 + β1 x
∧ ∧
• β 0 : es la estimación puntual de β 0 . Para efectos prácticos, el valor indicado en β 0
es el valor que asume la variable Y cuando la X vale cero.
∧ ∧
• β1 : es el estimador puntual de β 1 . El valor numérico de β1 nos dice en cuanto varía
Y por cada incremento unitario de X.
Supongamos que estimamos la recta de ajuste del gráfico 2, para salarios y consumo y
resultó:
5 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
i =1 i =1
procedimientos matemáticos que escapan a los alcances del curso. Así obtenemos las
siguientes ecuaciones que nos permitirán estimar los parámetros a partir de los datos
muestrales.
n n
n ∑ X i ∑ Yi
∧ ∑X Y i i − i =1
n
i =1
β1 = i =1
2
n
n
∑ X i
∑
i =1
Xi −
2 i =1
n
∧ ∧
β 0 = Y − β1 X
n n
∑ Yi ∑X i
Además recordamos que Y = 1
,y X = 1
n n
6 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
3. Correlación
La correlación trata de establecer la relación o dependencia que existe entre las dos
variables que intervienen en una distribución bidimensional.
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la
otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay
correlación entre ellas.
7 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
σ xy
r=
σ x .σ y
n.∑ xy − (∑ x )(
. ∑ y)
r=
[n.∑ x 2
][
− (∑ x ) . n.∑ y 2 − (∑ y )
2 2
]
8 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
4. Coeficiente de determinación
Luego de que ajustamos una recta de regresión a la nube de observaciones del gráfico de
dispersión de los datos, es importante disponer de una medida que mida la bondad del
ajuste realizado, un criterio que nos permita decidir si la función que utilizamos es suficiente
o si debemos buscar modelos alternativos.
σ 2 xy
r2 =
σ 2 x .σ 2 y
[n.∑ xy − (∑ x )(. ∑ y )] 2
=
[n.∑ x − (∑ x) ].[n.∑ y − (∑ y ) ]
2
r 2 2
2 2
El valor de r 2 varía entre 0 y 1, cuando más cercano a 1 sea, mejor es el ajuste lineal.
∧ 2
∑
y − y
s y. x =
n−2
9 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
∧ ∧ ∧
Recordemos que y = β 0 + β 1 x y que s y . x tiene el menor valor posible, porque la
estimación por mínimos cuadrados fundamenta que los coeficientes son calculados con el
menor error posible.
x y
1,1 2,14
1,4 2,6
2,5 1,15
2,7 1,19
3,2 1,88
3,6 1,55
4,1 2,65
4,3 3,8
4,5 4,46
4,9 6,35
Tabla 2: Conjunto de datos bivariados (x, y)
Para indagar una posible relación funcional entre las variables, realizamos el diagrama de
dispersión de los datos.
0
0 1 2 3 4 5 6
10 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
0
0 1 2 3 4 5 6
para i= 1, 2, ...,n
En regresión lineal simple usamos el método de mínimos cuadrados para obtener
estimadores del intercepto y de la pendiente. En regresión lineal múltiple el principio es el
mismo, pero necesitamos estimar más parámetros.
∧ ∧ ∧
Llamaremos β 0 , β 1 ,L, β p a los estimadores de los parámetros β 0 , β 1 ,L , β p
Ejemplo 1
La tabla 3 indica la cantidad de horas anuales que los un grupo de alumnos dedicó al
desarrollo de ejercicios prácticos de la asignatura. Además, indica la calificación final
obtenida en una escala de 1 a 5.
11 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Solución
12 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
4,5
4
3,5
Calificación Final
3
2,5
2
1,5
1
0,5
0
0 10 20 30 40 50
Cantidad de Horas
n ∑ X ∑Y i i
∧ ∑X Y i i − i =1
n
i =1
Comenzamos con β 1 = 2
i =1
. Para obtener todos los datos que
n
n
∑ X i
∑ X i − i =1
2
i =1 n
requiere la fórmula, completamos la siguiente tabla
X Y XY X2 Y2
40 4 40 × 4 =160 40 2 =1600 16
42 4 42 × 4 =168 42 2 =1764 16
30 3 90 900 9
35 3 105 1225 9
25 1 25 625 1
28 2 56 784 4
32 3 96 1024 9
35 3 105 1225 9
40 4 160 1600 16
42 4 168 1764 16
10 10 10 10 10
∑ X = 349
1
∑ Y = 31
1
∑ X .Y = 1133
1
∑ X 2 = 12511
1
∑Y
1
2
= 105
13 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
n ∑ X i ∑ Yi 349 × 31
∧ ∑X Y i i − i =1
n
i =1
1133 −
10 ∧
β1 = i =1
= β 1 = 0,1544
n
2
12511 −
(349)
2
∑ X i
n 10
∑ X i2 − i =1
i =1 n
10 10
∧ ∑ Yi 31
∑X i
349
Como β 0 = Y − β 1 X , primero calculamos Y = 1
= = 3,1 , y X = 1
= = 34,9 .
n 10 n 10
∧ ∧
Entonces β 0 = 3,1 − 0,1544 × 34,9 β 0 = −2,2895
∧
La recta de regresión de mínimos cuadrados es y = −2,2895 + 0,1544 x
∧
d) La recta y = −2,2895 + 0,1544 x sirve para estimar la calificación final del estudiante
que dedica x = 24 horas anuales a la asignatura.
∧ ∧
y = −2,2895 + 0,1544 × 24 y = 1,4161
La calificación final es 1 , si redondeamos la cifra a entero.
n.∑ xy − (∑ x )(
. ∑ y) 10.(1133) − (349)(
. 31)
r= ,r=
[n.∑ x 2 2
][
− (∑ x ) . n.∑ y 2 − (∑ y )
2
] [10.(12511) − (349) ].[10.(105) − (31) ]
2 2
r = 0,9416
Como r = 0,9416 es positivo, las variables cantidad de horas y calificación final tienen
una relación directa, decimos también que la relación lineal es fuerte porque el valor
calculado es muy cercano a 1.
r 2 = 0,8866
El 88,66% de la variabilidad de la calificación final es explicado por la recta de
regresión estimada tomando cantidad de horas como variable explicativa.
g) Para el cálculo del error estándar necesitamos calcular cada valor estimado con
∧
nuestra ecuación y = −2,2895 + 0,1544 x .
14 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
∧ 2
∧ ∧
X= x Y= y y = −2,2895 + 0,1544 x y− y y− y
40 4 ∧ 4 − 3,8865 0,01288225
y = −2,2895 + 0,1544 × 40
= 0,1135
= 3,8865
42 4 ∧ 4 − 4,1953 0,03814209
y = −2,2895 + 0,1544 × 42
= -0,1953
= 4,1953
30 3 2,3425 0,6575 0,43230625
35 3 3,1145 -0,1145 0,01311025
25 1 1,5705 -0,5705 0,32547025
28 2 2,0337 -0,0337 0,00113569
32 3 2,6513 0,3487 0,12159169
35 3 3,1145 -0,1145 0,01311025
40 4 3,8865 0,1135 0,01288225
42 4 4,1953 -0,1953 0,03814209
∧2
∧ 2
∑ y − y
, entonces s = 1,00877306 , el valor del error estándar de la
Como s y . x =
n−2 10 − 2
y. x
estimación es s y . x = 0,3551
Ejemplo 2
Número de Camas de Hospital por 1000 50 100 70 60 120 180 200 250 30 90
habitantes
Tasa de Mortalidad (en %) 5 2 2,5 3,75 4 1 1,25 0,75 7 3
Tabla 7: Muestra de Camas de Hospital versus Tasa de Mortalidad
15 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Solución
b) Una vez definidas las variables, cada observación es un punto ( X , Y ) que graficamos
en el plano cartesiano.
X Y
50 5
100 2
70 2,5
60 3,75
120 4
180 1
200 1,25
250 0,75
30 7
90 3
Tabla 8: Puntos (x,y) para número de camas y tasa de mortalidad
8
7
Tasa de Mortalidad (en %)
6
5
4
3
2
1
0
0 50 100 150 200 250 300
Camas de Hospital por 1000 habitantes
16 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
n n
n ∑ X ∑Y i i
∧ ∑X Y i i − i =1
n
i =1
Comenzamos con β 1 = i =1
2
. Para ello, completamos la tabla de
n
n
∑ X i
∑ X i2 − i =1
i =1 n
cálculos auxiliares
X Y XY X2 Y2
50 5 250 2500 25
100 2 200 10000 4
70 2,5 175 4900 6,25
60 3,75 225 3600 14,0625
120 4 480 14400 16
180 1 180 32400 1
200 1,25 250 40000 1,5625
250 0,75 187,5 62500 0,5625
30 7 210 900 49
90 3 270 8100 9
10 10 10 10 10
∑ X = 1.150
1
∑ Y = 30,25
1
∑ X .Y = 2.427,5
1
∑ X 2 = 179.300
1
∑Y
1
2
= 126,4375
Luego:
n n
n ∑ X ∑Y i i
1.150 × 30,25
∧ ∑ X iYi − i =1
n
i =1
2.427,5 −
10
β1 = i =1
=
n
2
179.300 −
(1.150)
2
∑ Xi
n 10
∑ X i2 − i =1
i =1 n
∧
β 1 = −0,0223
∧
Para hallar β 0 = Y − β 1 X , calculamos:
10
∑Y i
30,25
Y= 1
= = 3,025
n 10
17 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
10
∑X i
1.150
X = 1
= = 115 .
n 10
∧
Entonces β 0 = 3,025 − (− 0,0223) × 115
∧
β 0 = 5,5895
∧ ∧ ∧
La recta de regresión de mínimos cuadrados es y = β 0 + β 1 x , que para los datos del
∧
problema, tiene la forma: y = 5,5895 − 0,0223 x
∧
d) Con la recta y = 5,5895 − 0,0223 x estimamos la tasa de mortalidad para la ciudad
que cuenta con x = 175 camas de hospital.
∧
y = 5,5895 − 0,0223 × 175
La tasa de mortalidad de la ciudad con 175 camas de hospital por cada 1000
∧
habitantes es de y = 1,687
n.∑ xy − (∑ x )(
. ∑ y)
r=
[n.∑ x − (∑ x ) ].[n.∑ y − (∑ y ) ]
,
2 2 2 2
10.(2.427,5) − (1.150)(
. 30,25)
r=
[10.(179.300) − (1.150) ].[10.(126,4375) − (30,25) ]
2 2
r = −0,82
Dado que r = −0,82 es negativo, las variables cantidad de camas de hospital por cada
1000 habitantes y la tasa de mortalidad (en %) tienen una relación inversa, decimos
también que la relación lineal es fuerte porque el valor calculado es muy cercano a -
1.
r 2 = (− 0,82 )
2
r 2 = 0,6724
18 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
g) Para el cálculo del error estándar calculamos cada valor estimado con la recta de
∧
regresión estimada y = 5,5895 − 0,0223 x
∧ 2
∧ ∧
X= x Y= y y = 5,5895 − 0,0223 x y− y y − y
50 5 4,4745 0,5255 0,27615025
100 2 3,3595 -1,3595 1,84824025
70 2,5 4,0285 -1,5285 2,33631225
60 3,75 4,2515 -0,5015 0,25150225
120 4 2,9135 1,0865 1,18048225
180 1 1,5755 -0,5755 0,33120025
200 1,25 1,1295 0,1205 0,01452025
250 0,75 0,0145 0,7355 0,54096025
30 7 4,9205 2,0795 4,32432025
90 3 3,5825 -0,5825 0,33930625
∧ 2
∑ y − y = 11,4429945
Tabla 10: Estimación y Error
∧ 2
∑ y − y
, entonces s = 11,4429945 , el valor del error estándar de la
Como s y . x =
n−2 10 − 2
y. x
estimación es s y . x = 1,4304
Ejemplo 3
Las ventas de electrodomésticos varían según la venta o no de casas nuevas. Cuando las
ventas de casas nuevas son buenas, también se reflejan en buenas ventas de lavaplatos,
lavadoras de ropas, secadoras y refrigeradores. Una asociación de comercio compiló los
siguientes datos históricos (en miles de unidades) de las ventas de electrodomésticos y la
construcción de casas.
19 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Solución
10
Cantidad de Electrodomésticos
9
8
7
6
(miles)
5
4
3
2
1
0
0 1 2 3 4 5
Construcción de Casas Nuevas
(miles)
20 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
X Y XY X2 Y2
2 5 10 4 25
2,5 5,5 13,75 6,25 30,25
3,2 6 19,2 10,24 36
3,6 7 25,2 12,96 49
3,3 7,2 23,76 10,89 51,84
4 7,7 30,8 16 59,29
4,2 8,4 35,28 17,64 70,56
4,6 9 41,4 21,16 81
8 8 8 8 8
∑ X = 27,4
1
∑ Y = 55,8
1
∑ X .Y = 199,39
1
∑ X 2 = 99,14
1
∑Y
1
2
= 402,94
Luego:
n n
n ∑ X ∑Y i i
27,4 × 55,8
∧ ∑X Y i i − i =1
n
i =1
199,39 −
8 ∧
β1 = i =1
= β 1 = 1,5628
n
2
99,14 −
(27,4)2
∑ Xi
n 8
∑ X i2 − i =1
i =1 n
∧
Luego β 0 = Y − β 1 X , hallamos:
10 10
∑Y i
55,8 ∑X i
27,4
Y= 1
= = 6,975 y X = 1
= = 3,425 .
n 8 n 8
∧ ∧
Entonces β 0 = 6,975 − (1,5628) × 3,425 β 0 = 1,6224
∧ ∧ ∧
La recta de regresión de mínimos cuadrados es y = β 0 + β 1 x , que para la muestra obtenida,
∧
tiene la forma: y = 1,6224 + 1,5628 x
21 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
n.∑ xy − (∑ x )(
. ∑ y) 8.(199,39) − (27,4)(
. 55,8)
r= ,r=
[n.∑ x 2 2
][
− (∑ x ) . n.∑ y 2 − (∑ y )
2
] [8.(99,14) − (27,4) ].[8.(402,94) − (55,8) ]
2 2
r = 0,9703
r 2 = (0,9703)
2
r 2 = 0,9415
Ejemplo 4
Las ventas anuales de una industria, están correlacionadas con el ingreso total de los
habitantes de un país, los gastos en publicidad y los costos de producción. (Todas las
variables indicadas en millones de guaraníes).
Solución
22 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
23 www.virtual.facen.una.py
Universidad Nacional de Asunción
Facultad de Ciencias Exactas y Naturales
Departamento de Educación a Distancia
Bibliografía
SPIEGEL, M. 2000. Estadística. 2ª Edición. México. McGraw-Hill. 556 p.
SPIEGEL, M.; SCHILLER, J.; ALU, R. 2003. Probabilidad y Estadística. 2ª Edición. México.
McGraw-Hill. 416 p.
LEVIN, R.; RUBIN, R. 2010. Estadística para administración y economía. 7ª Edición. México.
Pearson Educación.
WALPOLE, R.; MYERS, R.; MYERS, S.; YE, K. 2007. Probabilidad y Estadística para ingeniería y
ciencias. 8ª Edición. México. Pearson Educación. 816 p.
VITUTOR, S.L.U. 2012. Regresión (en línea). Consultado 27 octubre 2013. Disponible en
http://www.vitutor.com/estadistica/bi/coeficiente_correlacion.html
24 www.virtual.facen.una.py