Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 1
Mg. Mónica Trigos Rodríguez
Consideremos el siguiente ejemplo: Es muy probable que a una mayor cantidad moderada de agua lluvia
caída en la zona, le corresponderá un mayor volumen de cosecha de maíz recolectada, y así mismo, a una
menor cantidad de agua lluvia, le corresponderá menor cantidad de maíz recolectado. Lógicamente que esta
suposición o relación es cierta solamente en promedio, porque puede darse el caso que en una hacienda haya
caído un alto porcentaje de agua lluvia y sin embargo la cosecha no haya sido tan abundante. Entonces lo
que deseamos es establecer un tipo de relación entre las dos variables mediante una ecuación, de tal manera
que basándonos en una determinada cantidad de lluvia X, podamos estimar el promedio de la cantidad de
maíz recolectado Y, en determinada hacienda de la región. Así, una ecuación de este tipo como base que
relacione las dos variables, una dependiente de la otra se puede considerar como una relación de estimación.
El término de regresión fue introducido por primera vez en estadística en 1877 por Sir Francis Galton, quien
en sus estudios sobre la herencia encontró que los padres altos tendían a tener hijos altos, en promedio, y que
los padres bajitos tendían a tener hijos bajos, en promedio. Él designó el término “REGRESION” como el
nombre del proceso general de predecir una variable a partir de otra. El término de regresión fue introducido
por primera vez en estadística en 1877 por Sir Francis Galton, quien en sus estudios sobre la herencia
encontró que los padres altos tendían a tener hijos altos, en promedio, y que los padres bajitos tendían a tener
hijos bajos, en promedio.
Supóngase que se desea determinar la posible relación entre la cantidad de lluvia caída en una región, y la
cantidad de maíz recolectada en 10 haciendas diferentes, durante un cierto período de tiempo:
X= Cantidad de agua lluvia Y= Cosecha de maíz
(m.m) ( millones lbs)
45 6.53
42 6.30
56 9.52
48 7.50
42 6.99
35 5.90
58 9.49
40 6.20
39 6.55
50 8.72
Tabla 1. Datos de maíz recolectado en 10 haciendas.
Se desea decidir si la cantidad de maíz recolectado está relacionado con la cantidad de precipitación lluviosa
durante un periodo de cultivo de maíz:
a. Determinar la tabla en un diagrama de dispersión.
b. Encontrar una ecuación que exprese la cantidad de maíz cosechado en términos de la cantidad de agua
recibida. (Realizar una tabla para poder utilizar las ecuaciones encontradas).
c. Hallar las varianzas y la desviación estándar para X y para Y.
d. Calcule Coeficiente de correlación lineal de Pearson.
Solución:
a. Diagrama de dispersión
10
9
8
eje Y (Cosecha de maíz)
7
6
5
4
3
2
1
0
0 10 20 30 40 50 60 70
Eje X (Cantidad de agua lluvia)
ESTADISTICA – ZOOTECNIA
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 3
Mg. Mónica Trigos Rodríguez
Luego se escoge P1 ó P2, tomándolo como P0 (x0 , y0), para encontrar la ecuación de la recta a través de la
siguiente fórmula: Y – Y0 = m ( X – X0).
Notemos que se pueden tomar n puntos de la tabla1 para trazar muchas rectas, por lo tanto, es necesario
definir una recta de tal manera que tenga un mejor ajuste para todos los puntos dispersos en la gráfica del
inciso a. El método más conocido para obtener estos ajustes se llama “método de los mínimos cuadrados”.
Para S(m,b) = (mx1 + b – y1)2 + …+(mxn + b – yn)2, entonces:
∑ ̅̅
, donde n es el número de datos.
∑ ̅
∑ ∑
Donde las medias aritméticas son: ̅ y ̅
Para lo cual: ̅ ̅ , y así la ecuación de regresión lineal es: Y*= m X* + b
Luego:
∑ ̅ ̅
∑ ̅
c. De acuerdo a los datos hallados en la tabla halle las varianzas y las desviaciones estándares para X y para
Y. Teniendo las fórmulas siguientes:
2 2
Fórmulas de la varianzas se denotan Sx , Sy , y la desviación estándar se denota Sx y Sy
Para hallar la varianza y la desviación estándar de Y, Se utilizan las mismas fórmulas pero con los datos de
Y. Donde la desviación estándar se denota como Sy..
∑ ̅̅
√(∑ ̅ ) (∑ ̅ )
También se hallar el coeficiente de Pearson por medio de la covarianza, Así: La Covarianza es:
Para datos no agrupados: Para serie de datos y clases agrupados con frecuencias:
Reemplazando los valores para esta fórmula tenemos que el Coeficiente de correlación lineal de Pearson es
r = 0.952. Por lo cual está entre -1 y +1.
En otras palabras, el coeficiente de correlación mide la bondad de ajuste de la ecuación de la recta a los datos
de las variables. Por lo tanto, nunca puede exceder del valor 1 o nunca menor de 0, entonces r 2 estará
comprendido entre -1 y +1.
ESTADISTICA – ZOOTECNIA
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 6
Mg. Mónica Trigos Rodríguez
EJERCICIOS
Nota: El bocio es el aumento de tamaño, de volumen de la glándula tiroides. Se manifiesta por una
hinchazón, más o menos importante, del cuello. Un déficit de yodo, componente obligado de las hormonas
tiroideas, provoca bocio por carencia de esta sustancia.
Bioestadística (y) 1 3 2 4 4 3 1 3 4 4 3 3
Hallar:
a) Las varianzas
b) las covarianzas
c) las desviaciones estándares Sx y Sy
d) el coeficiente de correlación. ¿Qué se puede concluir con el resultado?
3. En un estudio sobre relación entre la satisfacción en el trabajo y las aptitudes, los investigadores
recolectaron datos con diez profesionales. La tabla siguiente muestra los puntajes que obtuvieron al iniciar
estudios universitarios en una prueba de aptitud para la profesión:
Puntaje de aptitud (x) 50 55 60 65 70 75 80 85 90 95