Sei sulla pagina 1di 6

ESTADISTICA – ZOOTECNIA

UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 1
Mg. Mónica Trigos Rodríguez

Consideremos el siguiente ejemplo: Es muy probable que a una mayor cantidad moderada de agua lluvia
caída en la zona, le corresponderá un mayor volumen de cosecha de maíz recolectada, y así mismo, a una
menor cantidad de agua lluvia, le corresponderá menor cantidad de maíz recolectado. Lógicamente que esta
suposición o relación es cierta solamente en promedio, porque puede darse el caso que en una hacienda haya
caído un alto porcentaje de agua lluvia y sin embargo la cosecha no haya sido tan abundante. Entonces lo
que deseamos es establecer un tipo de relación entre las dos variables mediante una ecuación, de tal manera
que basándonos en una determinada cantidad de lluvia X, podamos estimar el promedio de la cantidad de
maíz recolectado Y, en determinada hacienda de la región. Así, una ecuación de este tipo como base que
relacione las dos variables, una dependiente de la otra se puede considerar como una relación de estimación.

El término de regresión fue introducido por primera vez en estadística en 1877 por Sir Francis Galton, quien
en sus estudios sobre la herencia encontró que los padres altos tendían a tener hijos altos, en promedio, y que
los padres bajitos tendían a tener hijos bajos, en promedio. Él designó el término “REGRESION” como el
nombre del proceso general de predecir una variable a partir de otra. El término de regresión fue introducido
por primera vez en estadística en 1877 por Sir Francis Galton, quien en sus estudios sobre la herencia
encontró que los padres altos tendían a tener hijos altos, en promedio, y que los padres bajitos tendían a tener
hijos bajos, en promedio.

ANALISIS DE REGRESION LINEAL: Existen dos clases: Simple y Múltiple.


Regresión Simple: Es aquella en que entran solamente dos variables, tales como la regresión de “Y”
respecto a “X”. Regresión Múltiple: Es aquella en que intervienen tres o más variables, una de las cuales es
la variable dependiente. La siguiente figura muestra los diferentes tipos de relaciones que pueden presentarse
entre dos variables: “Diagramas de Dispersión”

LINEAL DIRECTA CURVILINEA DIRECTA

LINEAL INVERSA CURVILINEA INVERSA NINGUNA RELACION NO DEFINIDA


ESTADISTICA – ZOOTECNIA
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 2
Mg. Mónica Trigos Rodríguez

EJEMPLO DE REGRESION LINEAL SIMPLE:

Supóngase que se desea determinar la posible relación entre la cantidad de lluvia caída en una región, y la
cantidad de maíz recolectada en 10 haciendas diferentes, durante un cierto período de tiempo:
X= Cantidad de agua lluvia Y= Cosecha de maíz
(m.m) ( millones lbs)
45 6.53
42 6.30
56 9.52
48 7.50
42 6.99
35 5.90
58 9.49
40 6.20
39 6.55
50 8.72
Tabla 1. Datos de maíz recolectado en 10 haciendas.

Se desea decidir si la cantidad de maíz recolectado está relacionado con la cantidad de precipitación lluviosa
durante un periodo de cultivo de maíz:
a. Determinar la tabla en un diagrama de dispersión.
b. Encontrar una ecuación que exprese la cantidad de maíz cosechado en términos de la cantidad de agua
recibida. (Realizar una tabla para poder utilizar las ecuaciones encontradas).
c. Hallar las varianzas y la desviación estándar para X y para Y.
d. Calcule Coeficiente de correlación lineal de Pearson.

Solución:
a. Diagrama de dispersión
10
9
8
eje Y (Cosecha de maíz)

7
6
5
4
3
2
1
0
0 10 20 30 40 50 60 70
Eje X (Cantidad de agua lluvia)
ESTADISTICA – ZOOTECNIA
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 3
Mg. Mónica Trigos Rodríguez

b. La ecuación lineal: Y= mX + b, donde m es la pendiente de la recta y b es su intercepto con el eje Y. Lo


cual se tiene en cuenta tomando dos puntos de la tabla P1(x1,y1) y P2(x2,y2) para encontrar la pendiente m.

Luego se escoge P1 ó P2, tomándolo como P0 (x0 , y0), para encontrar la ecuación de la recta a través de la
siguiente fórmula: Y – Y0 = m ( X – X0).

Notemos que se pueden tomar n puntos de la tabla1 para trazar muchas rectas, por lo tanto, es necesario
definir una recta de tal manera que tenga un mejor ajuste para todos los puntos dispersos en la gráfica del
inciso a. El método más conocido para obtener estos ajustes se llama “método de los mínimos cuadrados”.
Para S(m,b) = (mx1 + b – y1)2 + …+(mxn + b – yn)2, entonces:

∑ ̅̅
, donde n es el número de datos.
∑ ̅
∑ ∑
Donde las medias aritméticas son: ̅ y ̅
Para lo cual: ̅ ̅ , y así la ecuación de regresión lineal es: Y*= m X* + b

xi yi xiyi xi2 yi2


45 6.53 293.85 2025 42.6409

42 6.30 264.60 1764 39.6900

56 9.52 533.12 3136 90.6304

48 7.50 360.00 2304 56.2500

42 6.99 293.58 1764 48.8601

35 5.90 206.50 1225 34.8100

58 9.49 550.42 3364 90.0601

40 6.20 248.00 1600 38.4400

39 6.55 255.45 1521 42.9025

50 8.72 436.00 2500 76.0384

455 73.70 3441.52 21203 560.3224

Por lo tanto, las medias aritméticas para X y para Y son:


∑ ∑
̅ , y, ̅
ESTADISTICA – ZOOTECNIA
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 4
Mg. Mónica Trigos Rodríguez

Luego:
∑ ̅ ̅
∑ ̅

Entonces: ̅ ̅ = 7.37 - (0.176) * (45.50) = 7.37 - 8.01 = - 0.64

En conclusión, la ecuación de regresión lineal simple es: Y*=

c. De acuerdo a los datos hallados en la tabla halle las varianzas y las desviaciones estándares para X y para
Y. Teniendo las fórmulas siguientes:
2 2
Fórmulas de la varianzas se denotan Sx , Sy , y la desviación estándar se denota Sx y Sy

para datos no agrupados.

Para datos y clases agrupadas.

Para datos no agrupados, serie de datos y serie de clases agrupados: √ , √

Para hallar la varianza y la desviación estándar de Y, Se utilizan las mismas fórmulas pero con los datos de
Y. Donde la desviación estándar se denota como Sy..

d. Para hallar el Coeficiente de correlación lineal tengamos en cuenta la siguiente información:

EL COEFICIENTE DE CORRELACIÓN: En la mayoría de los casos el principal interés del analista no


solamente está en poder medir la relación que pueda existir, entre las dos variables, directa o inversa, sino
que además se concentra en determinar si están o no correlacionados, y en caso afirmativo, en hallar qué tan
fuerte es este grado de relación. Esta técnica analítica que se utiliza en hallar este grado de relación entre las
dos variables recibe el nombre de “Análisis de Correlación” o Coeficiente de correlación lineal de Pearson.
Es decir que es el parámetro para medir el grado de relación lineal entre dos variables.

Se simboliza por la letra r, y puede asumirse valores entre -1 y +1.

La fórmula para encontrar el coeficiente de correlación es:


ESTADISTICA – ZOOTECNIA
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 5
Mg. Mónica Trigos Rodríguez

∑ ̅̅

√(∑ ̅ ) (∑ ̅ )

También se hallar el coeficiente de Pearson por medio de la covarianza, Así: La Covarianza es:
Para datos no agrupados: Para serie de datos y clases agrupados con frecuencias:

Siendo el coeficiente de correlación o de Pearson así:

Reemplazando los valores para esta fórmula tenemos que el Coeficiente de correlación lineal de Pearson es
r = 0.952. Por lo cual está entre -1 y +1.
En otras palabras, el coeficiente de correlación mide la bondad de ajuste de la ecuación de la recta a los datos
de las variables. Por lo tanto, nunca puede exceder del valor 1 o nunca menor de 0, entonces r 2 estará
comprendido entre -1 y +1.
ESTADISTICA – ZOOTECNIA
UNIDAD 3.
REGRESIÓN Y CORRELACIÓN LINEAL SIMPLE 6
Mg. Mónica Trigos Rodríguez

EJERCICIOS

1. Los datos de la tabla suministrados se recogieron en 12 comunidades de un país en vías de desarrollo:

Contenido de yodo en el agua (X 2 2 3 5 7 8 8 8 10 12


ug/litro). Microgramo por litro
Incidencia de bocio en la comunidad 60 75 50 55 45 33 50 52 35 30
(Y%)

Nota: El bocio es el aumento de tamaño, de volumen de la glándula tiroides. Se manifiesta por una
hinchazón, más o menos importante, del cuello. Un déficit de yodo, componente obligado de las hormonas
tiroideas, provoca bocio por carencia de esta sustancia.

a) Grafique un diagrama de dispersión de los datos.


b) Encuentre la ecuación de regresión lineal simple ajustada y* = mx*+b para este caso. (Realice una
tabla para satisfacer los cálculos de los datos requeridos). Grafique.
c) Calcule el Coeficiente de correlación lineal de Pearson.

2. Las notas de 12 alumnos de dos materias son las siguientes:


Algebra lineal (x) 2 3 4 4 5 3 2 1 3 4 2 3

Bioestadística (y) 1 3 2 4 4 3 1 3 4 4 3 3

Hallar:
a) Las varianzas
b) las covarianzas
c) las desviaciones estándares Sx y Sy
d) el coeficiente de correlación. ¿Qué se puede concluir con el resultado?

3. En un estudio sobre relación entre la satisfacción en el trabajo y las aptitudes, los investigadores
recolectaron datos con diez profesionales. La tabla siguiente muestra los puntajes que obtuvieron al iniciar
estudios universitarios en una prueba de aptitud para la profesión:
Puntaje de aptitud (x) 50 55 60 65 70 75 80 85 90 95

Puntaje de satisfacción (y) 58 54 67 64 66 73 70 85 74 85

a) Diseñar un diagrama de dispersión de los datos en un plano cartesiano.


b) Determinar la ecuación de regresión lineal simple.
c) Calcular el coeficiente de correlación lineal de Pearson. Qué se concluye?

Potrebbero piacerti anche