Sei sulla pagina 1di 20

ESTADISTICA I

SESIÓN 5: Regresión y Correlación

AUTORES : Lic. Jessica Elizabeth Chalco Suárez


: Lic. Wilbert Colque Candia
Regresión y Correlación ESTADÍSTICA I

ANÁLISIS DESCRIPTIVO Y REPRESENTACIÓN DE DATOS BIVARIADOS

En muchas aplicaciones estadísticas, se deben resolver problemas que contienen un


conjunto de variables y que se sabe existe alguna asociación entre ellas. En este conjunto
de variables se tiene una sola variable dependiente (o respuesta) , que depende de una o
más variables independientes (o de regresión) por ejemplo:
 El salario de una persona depende de:
- Años de experiencia
- Cargo que ocupa
- Horas de trabajo
- Categoría laboral

 El rendimiento académico depende de:


- Horas de asistencia a clase
- Horas de estudio fuera de clase
- Métodos de estudio
- Estilos de aprendizaje

Redactar un ejemplo:

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 2


Regresión y Correlación ESTADÍSTICA I

Existen dos formas distintas pero relacionadas con el estudio de la asociación entre
variables a partir de una muestra aleatoria
 La primera, es determinar una relación funcional de la variable dependiente Y con
respecto a una o más variables independientes con el fin de predecir estos valores
de Y, este método es el análisis de regresión.

 La segunda forma de estudio de la asociación entre las variables es medir el grado


de relación entre ellas, mediante un coeficiente o índice (r) a esta técnica se
denomina análisis de correlación.

Los métodos de regresión y correlación entre variables se clasifican por el número de


variables independientes
 El análisis de asociación se denomina simple, si hay una sola variable
independiente, si hay dos o más variables independientes, el análisis de asociación
se denomina múltiple.

 Por el tipo de función matemática que se puede ajustar a los datos, la asociación de
las variables puede ser lineal o no lineal (como: parabólica, exponencial,
logarítmica, etc.)

LINEAL
(Recta)
SIMPLE

ANÁLISIS DE
NO LINEAL
REGRESIÓN (Exponencial,
Busca determinar una logarítmica,
relación funcional entre las …etc.)
variables, con el objetivo de
estimarlas o predecirlas.
(Modelo matemático) MULTIPLE

ASOCIACIÓN
ENTRE
VARIABLES

SIMPLE

ANÁLISIS DE
CORRELACIÓN
Busca un índice de
correlación, con el objetivo
de medir el grado de relación MULTIPLE
entre las variables
(Coeficiente o índice)

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 3


Regresión y Correlación ESTADÍSTICA I

REGRESIÓN LINEAL SIMPLE

Diagrama de dispersión

El primer paso en el análisis de regresión es construir una gráfica de los datos


muéstrales en el plano cartesiano XY Esta gráfica es denominada diagrama de
dispersión, donde en el eje X se encuentran la variable independiente, en el eje Y se
encuentra la variable dependiente

El Diagrama de Dispersión indica el tipo de tendencia de Y con respecto a X si la


tendencia es lineal se puede ajustar una línea recta al diagrama de dispersión.

Tipos de diagrama de dispersión

Existe una Existe una relación Existe una relación no No existe ninguna
relación lineal lineal negativa lineal entre las dos relación entre las dos
positiva entre las entre las dos variables variables estudiadas
dos variables variables
también se le También se le
conoce como conoce como
relación directa o relación inversa
tendencia o tendencia
creciente decreciente

El problema de ajustar una curva a una serie de datos consiste en primer término
determinar la familia de curvas que mejor escribe el fenómeno (diagrama de
dispersión) Posteriormente realizada esta decisión se procederá a encontrar los
parámetros de la curva correspondiente
Consideremos una variable dependiente (o respuesta) con una sola variable
independiente(o variable independiente)
La regresión lineal simple es la función lineal por medio del cual se desea saber el
grado de dependencia de dos variables, es decir en qué grado las variaciones de una
característica provocan variaciones en la magnitud de la otra variable
El modelo matemático es:

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 4


Regresión y Correlación ESTADÍSTICA I

Los estimadores de los parámetros son calculados a través de una muestra


aleatoria de tamaño n, utilizando el método de mínimos cuadrados, el cual
consiste en minimizar la suma de cuadrados de los errores
Las fórmulas resultado de la minimización de lo cuadrados del error cumplen los
siguientes supuestos:
1. Los errores o residuos se distribuyen normalmente alrededor de la recta de
regresión poblacional.
2. Las varianzas de los errores son las mismas en todos los valores de X
(Homocedasticidad) en caso contrario se tiene (Heterocedasticidad)
3. Los errores o residuos son independientes cuando no se muestra algún patrón
definido
Donde:

Interpretación de los parámetros estimados:


 El valor (a) de la ecuación de regresión es la ordenada en el origen, es decir; el
punto en que la recta se intercepta con el eje

 El valor (b) es el coeficiente de regresión mide el cambio promedio en


cuando cambia una unidad de medición
- Si entonces, la tendencia es lineal creciente, es decir a mayores
valores de le corresponden mayores valores de , también a menores
valores de le corresponden menores valores de .

- Si entonces, la tendencia es Lineal Decreciente, es decir a


mayores valores de le corresponden menores valores de , también a
menores valores de le corresponden mayores valores de .

- Si entonces, es decir permanece estacionario para


cualquier valor de , por consiguiente no hay regresión.

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 5


Regresión y Correlación ESTADÍSTICA I

Estimación de la varianza de la regresión lineal simple

Una vez hallada la línea recta de regresión, nos interesa saber su utilidad, la utilidad
principal es predecir valores de para determinados valores de Si se hace una
predicción nos interesa saber, que tan buena o confiable es esa predicción. La
respuesta a esta pregunta depende de la variabilidad de los valores de con respecto a
la recta de regresión.
Una medida que indica el grado de variabilidad o dispersión en torno a la línea de
regresión es la varianza de la regresión, para su cálculo se utiliza:

La raíz cuadrada de la varianza es la desviación estándar de la regresión, este valor


también se le conoce como error estándar de estimación.
Cuanto más pequeño sea la varianza o desviación estándar, más cercanos a la línea de
regresión estarán los valores de la variable .

ANÁLISIS DE CORRELACIÓN

El análisis de correlación emplea métodos para medir la significación del grado o


intensidad de asociación entre dos o más variables. El concepto de correlación está
estrechamente vinculado al concepto de regresión.

Coeficiente de correlación lineal ( )

El coeficiente de correlación lineal de Pearson mide la asociación entre las variables X


e Y, para su cálculo se utiliza la siguiente relación:

El coeficiente de correlación tiene una variación de y para su


interpretación se considera:

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 6


Regresión y Correlación ESTADÍSTICA I

Coeficiente de determinación

Es la variación explicada por la recta de regresión, es decir en qué porcentaje la


variable independiente X explica la variabilidad en la variable dependiente (o
respuesta) Y para su cálculo se utiliza:

VARIBLE
DEPENDIENTE
Y

VARIBLE VARIBLE VARIBLE VARIABLE


INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE INDEPENDIENTE
x1 x2 x3 Xn

Practica 1
Los siguientes datos muestran la relación entre la producción de un determinado
artículo y su correspondiente costo unitario.
: Producción (miles)
: Costo Unitario (soles)
Producción Costo Unitario

2 15 30 4 225

4 12

8 9

12 6

14 5

18 2

16 5

10 8

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 7


Regresión y Correlación ESTADÍSTICA I

a) Realizar el análisis individual para cada variable

X: PRODUCCIÓN (miles)
Promedio:

Como la producción esta expresado en miles, se tiene:

Varianza:

Desviación estándar:

Coeficiente de variación:

Y: COSTO UNITARIO (soles)


Promedio:

Varianza:

Desviación estándar:

Coeficiente de variación:

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 8


Regresión y Correlación ESTADÍSTICA I

b) Realizar el diagrama de dispersión para estos datos y analizar la tendencia


Utilizando el software Minitab: Estadísticas Regresión Grafica de línea
ajustada ingresar las variables correspondientes aceptar

Gráfica de línea ajustada


costo unitario = 15.46 - 0.7342 produccion
16 S 0.797895
R-cuad. 96.9%
14 R-cuad.(ajustado) 96.4%

12
costo unitario

10

0 5 10 15 20
produccion

Del diagrama de dispersión se observa una relación lineal inversa; es decir, a


mayor producción menor costo unitario.

c) Encontrar por el método de mínimos cuadrados la curva que mejor se


ajuste entre el costo unitario y la producción. Interprete el coeficiente de
regresión
Como la tendencia es lineal, el modelo es:

Dónde

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 9


Regresión y Correlación ESTADÍSTICA I

Luego

Este modelo nos permite estimar (predecir) el costo unitario para una
determinada producción.
Si entonces

Si entonces

Interpretación de los parámetros:


El valor de Es el punto en el que la recta corta con el eje Y
El valor de Es el coeficiente de regresión indica, que si la
producción aumenta en 1000 unidades, en promedio el costo unitario disminuye
en 0.73 soles.

d) Graficar la recta de regresión en el diagrama de dispersión


Se requiere dos puntos:

e) Estimar cuanto será el costo unitario para una producción de 10 mil


unidades
Si entonces

f) Estimar cuanto se debe producir si el costo unitario es de 5 soles

g) Determinar la varianza residual de la regresión

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 10


Regresión y Correlación ESTADÍSTICA I

Desviación estándar de la regresión


El modelo es confiable

Otra forma de analizar que el modelo es confiable, es mediante el análisis de varianza


donde se formula las hipótesis:

Hipótesis nula
Hipótesis alterna

Regla de decisión: (Análisis de varianza)




Utilizando el software Minitab podemos realizar el análisis de varianza:

Análisis de Varianza

Fuente GL SC MC F P
Regresión 1 119.680 119.680 187.99 0.000
Error 6 3.820 0.637
Total 7 123.500

Conclusión: como el valor , se rechaza la hipótesis nula, es decir; el


modelo es confiable.

h) Determinar el coeficiente de correlación, interprete

Existe una correlación negativa fuerte

i) Hallar el coeficiente de determinación, interprete

La variabilidad en el costo unitario es explicado en un 96.9% por la variabilidad


en la producción. Otros factores que determinan la variabilidad en el costo
unitario son: la cantidad demandada, capital, materia prima, maquinaria,…, etc.

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 11


Regresión y Correlación ESTADÍSTICA I

PRÁCTICA DE REGRESIÓN Y CORRELACIÓN

Practica 2

Los siguientes datos muestran la relación entre la producción de un determinado


artículo y su correspondiente costo unitario.

Producción(miles) 2 4 8 12 14 18 16 10
Costo Unitario (soles) 15 12 9 6 5 2 5 8

a) Realizar un análisis individual para cada variable

Producción(miles) Costo unitario (soles)

Media Aritmética

Desviación
Estándar

Varianza

Coeficiente de
Variación

b) Indicar la regla de correspondencia

________________________

________________________

A____________ Producción ____________ Costo unitario

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 12


Regresión y Correlación ESTADÍSTICA I

c) Trazar un diagrama de dispersión para estos datos y analizar la tendencia

Gráfica de línea ajustada


Costo Unitario (soles) = 15.46 - 0.7342 Producción (miles)
16 S 0.797895
R-cuad. 96.9%
14 R-cuad.(ajustado) 96.4%
Costo Unitario (soles)

12

10

0 5 10 15 20
Producción (miles)

Del diagrama de dispersion se observa

____________________________________

__________________________________________________________________

d) Encontrar un modelo para estimar el Costo unitario en función a la


producción

Como la tendencia es lineal, el modelo es:

Interpretación: el coeficiente de regresión

_______________________________________________________________

________________________________________________________________

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 13


Regresión y Correlación ESTADÍSTICA I

e) Estimar cuanto será el costo unitario para una producción de 15 mil


unidades
(utilice la calculadora)

Entonces

f) Estimar cuanto se debe producir si el costo unitario es de 5 soles (Utilice la


calculadora)

Entonces

g) Determinar si el modelo es confiable

Desviación estándar

h) El tipo de correlación entre las variables es _________________ dado que el


coeficiente de ________________ es _________

i) La variabilidad de la variable respuesta en nuestro caso el costo unitario es explicado

por el coeficiente de _________________ el cual es _________ , otros factores que

determinan la variabilidad del costo unitario son:

____________________________________________

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 14


Regresión y Correlación ESTADÍSTICA I

Practica 3

La siguiente tabla muestra el índice de precios al consumidor en el transcurso de los


últimos años

Tiempo (Años) 2005 2006 2007 2008 2009 2010 2011


IPC(porcentaje) 112.2 115.4 121.3 124.2 127.2 134.9 141.6

a) Realizar un análisis individual para cada variable


TIEMPO IPC

Media Aritmética

Desviación Estándar

Varianza

Coeficiente de
Variación

b) Indicar la regla de correspondencia

________________________

________________________

A____________Tiempo __________ índice de precios

c) Trazar un diagrama de dispersión para los datos y analizar la tendencia

Utilizando el software (MINITAB):

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 15


Regresión y Correlación ESTADÍSTICA I

Estadísticas regresión grafica de linea ajustada seleccionar

correctamente la variable dependiente y la variable independiente

Gráfica de línea ajustada


IPC = - 9420 + 4.754 Tiempo
145 S 1.76504
R-cuad. 97.6%
140 R-cuad.(ajustado) 97.1%

135

130
IPC

125

120

115

110
2005 2006 2007 2008 2009 2010 2011
Tiempo

Del diagrama de dispersión se observa__________________________________

________________________________________________________________

________________________________________________________________

d) Encontrar un modelo para estimar el IPC en función al tiempo

Como la tendencia es lineal el modelo es:

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 16


Regresión y Correlación ESTADÍSTICA I

Interpretación: el coeficiente de regresión


________________________________________________________________
________________________________________________________________
____________________

e) Estimar cuanto será el índice de precios para el año 2015(utilice la


calculadora)

Suponiendo que 2004 es el año base, entonces al 2015 el IPC aumenta en un _______

f) En qué año podemos esperar que el índice de precios sea de 154.3%


(utilice la calculadora)

g) La confiabilidad del modelo es analizado por la _________________ de la


regresión o por la __________________________ pero aun así es muy difícil
concluir que el modelo es confiable por lo que software minitab nos una prueba
más confiable que es el análisis de varianza, el cual nos da un valor P de
probabilidad de aceptar o rechazar una hipótesis:
Hipótesis nula
Hipótesis alterna

Regla de decisión: (Análisis de varianza)


-
-

Utilizando el software Minitab podemos realizar el análisis de varianza:

Análisis de Varianza

Fuente GL SC MC F P
Regresión 1 632.700 632.700 203.09 0.000
Error 5 15.577 3.115
Total 6 648.277

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 17


Regresión y Correlación ESTADÍSTICA I

En base al análisis de varianza, cual es su conclusión con respecto a la


confiabilidad del modelo

Conclusión:
________________________________________________________________

h) El tipo de correlación entre las variables es _________________ dado que el


coeficiente de ___________________ es _________

i) La variabilidad de la variable respuesta en nuestro caso el IPC es explicado por


el coeficiente de ______________ el cual es _________ , otros factores que
determinan la variabilidad del IPC son:
______________________________________________

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 18


Regresión y Correlación ESTADÍSTICA I

Practica 4

Para estudiar la relación entre la cantidad producida (unidades) y el tiempo (horas) que
se emplea en la producción de un determinado artículo se tomaron los siguientes datos

Producción 312 286 324 325 299 250 340 352 279 330 310 262
Tiempo 79 71 82 84 78 65 86 90 73 84 80 67

a) Indicar la regla de correspondencia:


X: ____________________
Y: _____________________
A______________horas trabajadas___________ producción

b) Realizar el diagrama de dispersión utilizando el software minitab para los datos


y analizar la tendencia

Gráfica de línea ajustada


Producción = - 7.10 + 3.998 Tiempo
S 4.65024
350 R-cuad. 98.0%
R-cuad.(ajustado) 97.8%

325
Producción

300

275

250

65 70 75 80 85 90
Tiempo

Análisis:_________________________________________________________
________________________________________________________________
____________________

c) Encontrar por el método de mínimos cuadrados la curva que mejor se ajuste


entre la cantidad producida y el tiempo empleado
Como la tendencia es lineal el modelo es:

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 19


Regresión y Correlación ESTADÍSTICA I

Interpretación: el coeficiente de regresión


________________________________________________________________
________________________________________________________________

d) Estimar cuanto será la producción si se trabaja 95 horas (utilice la calculadora)

e) Estimar cuantas horas de trabajo se requiere para una producción de 350


unidades (utilice la calculadora)

f) Determinar si el modelo es confiable Utilizando el análisis de varianza plantee


sus hipótesis, que conclusión toma:

g) Qué tipo de correlación existe entre las variables (interprete)

h) Determinar en qué porcentaje la producción es explicado por el tiempo de


elaboración (interprete) Además indicar a su criterio que otros factores
medibles intervienen

i) El tiempo promedio y su desviación estándar, entre que valores se encuentra el


tiempo promedio

j) La producción promedio y su desviación estándar, entre que valores se


encuentra la producción promedio

Lic. Jessica Chalco Suárez – Lic. Wilbert Colque Candia 20

Potrebbero piacerti anche