Sei sulla pagina 1di 22

UNIVERSIDAD NACIONAL DEL CALLAO

FACULTAD DE CIENCIAS CONTABLES


ESCUELA PROFESIONAL DE CONTABILIDAD

ANÁLISIS DE REGRESIÓN LINEAL

INTEGRANTES

MARÍA FERNANDA CUNYA ORDOÑEZ

ALLISON MARGIORY RODAS BORJA

MAYELA TORRES ZARZOSA

ASHLEY ROSA CUSI JOYA

NATHALY PALACIOS GUARDIA

LUIGGI SANCHEZ CÓRDOBA

DOCENTE: Mg. MANUEL E. PINGO ZAPATA

Callao, 2020

PERÚ
INDICE

REGRESIÓN LINEAL...........................................................................................3

REGRESIÓN LINEAL SIMPLE.........................................................................3

REGRESIÓN LINEAL MÚLTIPLE........................................................................7

ERROR ESTOCÁSTICO...................................................................................8

OBSERVACIONES SOBRE LA REGRESIÓN MÚLTIPLE...............................8

ACLARACIONES SOBRE REGRESIÓN MÚLTIPLE.......................................8

MODELO DE REGRESIÓN LINEAL MÚLTIPLE..............................................9

ESTIMACION DE LOS PARÁMETROS DE MODELO...................................10

PARÁMETROS DESCONOCIDOS: Β0, Β1, ……, ΒK, Σ 2........................10

ESTIMACIÓN DE LA VARIANZA................................................................11

INFERENCIA SOBRE LOS PARÁMETROS DEL MODELO......................12

CONTRASTES DE HIPÓTESIS INDIVIDUALES SOBRE LOS


COEFICIENTES...........................................................................................12

EL CONTRASTE DE LA REGRESIÓN.......................................................13

EL COEFICIENTE DE DETERMINACIÓN..................................................13

CASOS PRÁCTICOS.........................................................................................14

CASO 1............................................................................................................14

CASO 2:..........................................................................................................17

REFERENCIAS BIBLIOGRÁFICAS...................................................................22
REGRESIÓN LINEAL

El análisis de regresión es un método estadístico que permite examinar la


relación entre dos o más variables e identificar cuáles son las que tienen mayor
impacto en un tema de interés.

Este método permite clasificar matemáticamente a través de diferentes


preguntas como: ¿Qué factores importan más? ¿Qué factores se pueden
ignorar? ¿Cómo interactúan estos factores entre sí?, y por último, ¿Qué tan
seguro te siente de todos estos factores?

El proceso de realizar una regresión permite determinar con confianza cuáles


son los factores más importantes, cuáles se pueden ignorar y cómo influyen
entre sí. Dichos factores se denominan variables las cuales se clasifican en:

Variable(s) dependiente(s): Es el factor más importante, el cual se está tratando


de entender o predecir.

Variable(s) independiente(s): Es el factor que tú crees que puede impactar en


tu variable dependiente.

REGRESIÓN LINEAL SIMPLE

La Regresión Lineal es una técnica paramétrica utilizada para predecir


variables continuas, dependientes, dado un conjunto de variables
independientes. Es de naturaleza paramétrica porque hace ciertas
suposiciones basadas en el conjunto de datos. Si el conjunto de datos sigue
esas suposiciones, la regresión arroja resultados increíbles, de lo contrario,
tiene dificultades para proporcionar una precisión convincente.

Matemáticamente, la regresión usa una función lineal para aproximar o predecir


la variable dependiente dada como:
Donde:

y : es la variable dependiente o la variable a predecir.

x : es la variable independiente o la variable que usamos para hacer una


predicción.

a : es la pendiente o el valor que debe ser determinado, se le conoce como


coeficiente y es una especie de magnitud de cambio que pasa por y cuando x
cambia.

b : es la constante que debe ser determinada, se le conoce como intercepto


porque cuando x es igual a 0, entonces y = b.

Esta es la ecuación de Regresión Lineal Simple. Se llama simple porque solo


hay una variable independiente involucrada, que vendría siendo “x”.

El objetivo con Regresión Lineal Simple es minimizar la distancia vertical entre


todos los datos y nuestra línea, por lo tanto, para determinar la mejor línea,
debemos minimizar la distancia entre todos los puntos y la distancia de nuestra
línea. Existen muchos métodos para cumplir con este objetivo, pero todos estos
métodos tienen un solo objetivo que es el de minimizar la distancia.

MÍNIMOS CUADRADOS

Su expresión general se basa en la ecuación de una recta y = mx + b. Donde m


es la pendiente y b el punto de corte, y vienen expresadas de la siguiente
manera:

Σ Es el símbolo sumatoria de todos los términos, mientas (x, y) son los datos
en estudio y n la cantidad de datos que existen.

El método de mínimos cuadrados calcula a partir de los N pares de datos


experimentales (x, y), los valores m y b que mejor ajustan los datos a una
recta. Se entiende por el mejor ajuste aquella recta que hace mínimas
las distancias d de los puntos medidos a la recta.

Teniendo una serie de datos (x, y), mostrados en un gráfico o gráfica, si al


conectar punto a punto no se describe una recta, debemos aplicar el método de
mínimos cuadrados, basándonos en su expresión general.
REGRESIÓN LINEAL MÚLTIPLE

Según [ CITATION Bar13 \l 10250 ] :

Es un método de inferencia estadística que permite comprender la relación


entre una variable aleatoria dependientes (Y) y múltiples variables aleatorias
independientes (Xi), llegando a relacionar la variable dependiente y las
independientes mediante una ecuación.

1 sola variable = Regresión Lineal Simple.

>1 variable = Regresión Lineal Múltiple.

El objetivo es estimar el valor medio de la población de la variable dependiente,


en valores:
ERROR ESTOCÁSTICO

Proviene de no considerar todas las posibles variables independientes que


afecten a la variable dependiente, lo que genera errores de especificación.

Presentan una distribución de probabilidad normal


Agrupa todas las cuestiones que no se pueden cuantificar y que pueden influir
en la explicación de la regresión múltiple.

OBSERVACIONES SOBRE LA REGRESIÓN MÚLTIPLE

No se debe confundir el análisis de regresión con el análisis de correlación, ya


que la correlación puede indicarnos relaciones entre variables que son de
campos de estudio completamente diferentes, mientras que la regresión nos
relaciona variables de campos de estudio similares, y establece causalidad.
El experimento econométrico debe ser realizado según su propósito por
personas que conozcan o tengan un nivel de referencia en el área de estudio,
para no incurrir en disparidades conceptuales en los modelos a realizar o en
resultados erróneos.

ACLARACIONES SOBRE REGRESIÓN MÚLTIPLE

- Las observaciones de la muestra deben tener una distribución normal, por lo


que sus errores también deben comportarse de la misma forma.
- La cantidad de observaciones debe ser mayor a la cantidad de variables
observadas.

- El modelo en general representa un hiperplano, la ecuación se denomina de


primer orden.
MODELO DE REGRESIÓN LINEAL MÚLTIPLE

Según [ CITATION Ber12 \l 10250 ]


ESTIMACION DE LOS PARÁMETROS DE MODELO

PARÁMETROS DESCONOCIDOS: Β0, Β1, ……, ΒK, Σ 2


Estimamos β0, β1, …… βK por el método de mínimos cuadrados, es decir, los
estimadores son los valores para los que se minimiza la suma:

Cada coeficiente βi mide el efecto que tiene sobre la respuesta un aumento de


una unidad de la variable regresora xi cuando el resto de las variables
permanece constante.

Al derivar la suma anterior respecto a β0, β1, . . ., βk e igualar las derivadas a 0


obtenemos k + 1 restricciones sobre los residuos:
Apartir de este sistema de k + 1 ecuaciones es posible despejar los
estimadores de mínimos cuadrados de β0, β1, . . ., βk.
Las hipótesis (e) y (f) hacen falta para que el sistema tenga una solución única.
Llamamos βˆ 0, βˆ 1, . . ., βˆ k a los estimadores.
La media de los residuos es cero. La correlación entre los residuos y cada una
de las k variables regresoras es cero.
Los residuos tienen n − k − 1 grados de libertad.

ESTIMACIÓN DE LA VARIANZA
INFERENCIA SOBRE LOS PARÁMETROS DEL MODELO
CONTRASTES DE HIPÓTESIS INDIVIDUALES SOBRE LOS

COEFICIENTES
EL CONTRASTE DE LA REGRESIÓN

EL COEFICIENTE DE DETERMINACIÓN
CASOS PRÁCTICOS

CASO 1

El gerente de personal de una empresa, quiere estudiar la relación entre el ausentismo


y la edad de sus trabajadores. Para ello, toma una muestra aleatoria de 10
trabajadores de la empresa y encontró los siguientes datos:

Edad (x) Días ausentes (y)


24 18
46 12
58 8
37 15
55 10
32 13
41 7
50 9
23 16
60 6

Se pide hallar la ecuación de regresión, el coeficiente de correlación, el


coeficiente de determinación y el error estándar de estimación.

AUSENTISM
EDAD (X) O (Y) X*Y X^2 Y^2 (xi- ) (Xi-)^2 (Yi-) (Yi-)^2
25 18 450 625 324 -17,7 313,29 6,6 43,56
46 12 552 2116 144 3,3 10,89 0,6 0,36
58 8 464 3364 64 15,3 234,09 -3,4 11,56
37 15 555 1369 225 -5,7 32,49 3,6 12,96
55 10 550 3025 100 12,3 151,29 -1,4 1,96
32 13 416 1024 169 -10,7 114,49 1,6 2,56
41 7 287 1681 49 -1,7 2,89 -4,4 19,36
50 9 450 2500 81 7,3 53,29 -2,4 5,76
23 16 368 529 256 -19,7 388,09 4,6 21,16
60 6 360 3600 36 17,3 299,29 -5,4 29,16
427 114 4452 19833 1448   1600,1   148,4
Una vez obtenidos los datos que se requieren, a partir de las variables x e y, se
procede a hallar a y b mediante el método de los mínimos cuadrados.

La fórmula de los mínimos cuadrados es la siguiente:

n ∑ xi∗yi−∑ x ∑ y
b= n ∑ x2 ¿ ¿

Con los datos de la tabla, reemplazamos en la fórmula:

10 ( 4452 )−( 427 ) (114)


b= 10 ( 19833 ) (427)2

44520−48678 −4158
b= 198330−182329 b= 16001 = -0.26

Una vez obtenido b, podemos hallar a usando la siguiente fórmula:

a =  - b
Donde:

: promedio de X

: promedio de Y

De esta manera obtenemos que:

a = 11.4 – (-0.26) (42.7)

a = 22.502

Luego de obtener a y b, la ecuación de regresión quedaría de la siguiente


forma:

Y’ = 22.502 – 0.26 X

Mediante esta fórmula podemos reemplazar x por la edad de una persona para
obtener la proyección del número de ausencias al trabajo.

Por ejemplo, para una persona de 50 años, reemplazamos x y quedaría de la


siguiente manera:
Y’ = 22.502 – 0.26(50)

Y’ = 9.502

Es decir, tendrá aproximadamente 9 ausencias al trabajo.

Una vez obtenida la recta de regresión, procedemos a obtener el diagrama de


dispersión, el cual quedaría de la siguiente manera:

Edad VS. ausencias


20
18
16 f(x) = − 0.26 x + 22.5
Ausencias

14 R² = 0.73
12
10
8
6
4
2
0
20 25 30 35 40 45 50 55 60 65

Edad

Existe una correlación negativa entre las variables x e y, es decir a mayor


número de años, son menos los días de ausencia en el trabajo.

EL ERROR ESTÁNDAR DE ESTIMACIÓN

Sxy = √∑ y −a (∑ y )−b ¿ ¿¿ ¿
2

( 1448 )−22.502 ( 114 ) −(−0.26)( 4452)


Sxy= √ 10−2

• Sxy = 2,2442

COEFICIENTE DE CORRELACIÒN
R = n¿¿
10 ( 4452 ) −( 427 )( 114)
R = √[ 10 ( 19833 ) −( 427 ) ][ 10 ( 1448 )−(114 ) ]
2 2

• R= -0,85328
COEFICIENTE DE DETERMINACIÒN

• R2= 0.72809 = 72,8%


La edad influye en 72.8% en las ausencias al trabajo.

CASO 2:

El gerente de una empresa dedicada a la venta de balones de gas decide


evaluar el nivel de ventas de la empresa, teniendo en cuenta el precio de cada
galón y los gastos por publicidad (en miles de US$). Además, se pide
pronosticar el nivel de ventas que obtendrá la empresa a un precio unitario de
US$1.5 y gastos de publicidad de US$1000, además del coeficiente de
correlación y determinación.

precio/
Ventas galòn publicida
(Y) (x1) d (x2)
(miles
SEMAN de cientos x1*x
A galones) US$ de US$ x1*y x2*y 2 y^2 x1^2 x2^2
9 1
1 10 1,3 9 13 0,0 1,70 100,00 1,69 81
2 6 2 12 4 1 36,00 4
7 49
2,0 4,00
2
3 5 1,7 5 8,5 5,0 8,50 25,00 2,89 25
16 2
4 12 1,5 14 18 8,0 1,00 144,00 2,25 196
15 2
5 10 1,6 15 16 0,0 4,00 100,00 2,56 225
18 1
6 15 1,2 12 18 0,0 4,40 225,00 1,44 144
3
7 5 1,6 6 8 0,0 9,60 25,00 2,56 36
12 1
8 12 1,4 10 16,8 0,0 4,00 144,00 1,96 100
25 1
9 17 1 15 17 5,0 5,00 289,00 1 225
42 2
10 20 1,1 21 22 0,0 3,10 400,00 1,21 441
1.48 1 21,5 1.
TOTAL 112 14,4 114 149,3 0,0 55,3 1488,00 6 522

Para este caso, se tienen dos variables independientes (el precio por unidad
del galòn y los gastos por publicidad) y una dependiente (las ventas).

Copiamos los datos:

Mediante sistema de ecuaciones, se aplican las siguientes fórmulas:

∑ y=n ( a ) +b 1 ∑ x 1+b 2 ∑ x 2
∑ x 1 y =a ∑ x 1+b 1 ∑ x 12 +b 2 ∑ x 1 x 2
∑ x 2 y=a ∑ x 2+ b1 ∑ x 1 x 2+ b 2 ∑ x 2
Reemplazando con los datos de la tabla se obtiene:

112 = (a)14 + (b1)14.4 + (b2)114

194.3 = a (14.4) + (b1) (21.56) + b2(155.3)

1480 = a (114) +b1(155.3) + b2(1522)

El sistema se resuelve igualando de dos en dos las ecuaciones, para luego


igualar los resultados y obtener el valor de las variables, en este caso b 1. Lo
cual quedaría de la siguiente forma:

B1 =-8.2476

Reemplazando dicho valor en la fórmula, obtenemos:

B2 = 0.5851

A= 16.4064

Una vez obtenidos estos datos, procedemos a formar la ecuación de regresión:

Y’= 16.41 – 8.25 x1 + 0.59 x2

Nos piden la estimación de ventas para un precio unitario de US$1.5 y gastos


de publicidad de US$1000, reemplazamos en la fórmula :

Y’ = 16.41 – 8.25(1.5) + 0.59(10)

Y’ = 9.93 (miles de galones)

Es decir, obtendríamos ventas de 9930 galones.

COEFICIENTE DE CORRELACIÒN (R)

• Se utiliza la siguiente fórmula:


∑ ( y −Y ' )2
• R= √ 1−
∑ ¿¿¿
¿

Pero primero necesitamos saber los valores que toma Y’, reemplazando
los valores de x1 y x2:

(Y-
Y X1 X2 Y' Y-Y' (Y-Y')^2 Y-
)^2
SEMANA
1 10 1,3 9 10,995 -0,995 0,990025 -1,2 1,44

2 6 2 7 4,04 1,96 3,8416 -5,2 27,04


3 5 1,7 5 5,335 -0,335 0,112225 -6,2 38,44
4 12 1,5 14 12,295 -0,295 0,087025 0,8 0,64
5 10 1,6 15 12,06 -2,06 4,2436 -1,2 1,44
6 15 1,2 12 13,59 1,41 1,9881 3,8 14,44
7 5 1,6 6 6,75 -1,75 3,0625 -6,2 38,44
8 12 1,4 10 10,76 1,24 1,5376 0,8 0,64
9 17 1 15 17,01 -0,01 0,0001 5,8 33,64
10 20 1,1 21 19,725 0,275 0,075625 8,8 77,44
TOTAL 112 14,4 114 -0,56 15,9384 0 233,6

Una vez obtenidos los datos, reemplazamos en la fórmula:

15.9384
• R = 1−
√ 233.6

• R = √ 0.9317705479

• R =0.965

COEFICIENTE DE DETERMINACIÒN ( R2 ¿

R2 = ∑ ¿¿ ¿ ¿  



219.7844
R2 = 233.6

R2 =0.93
Un 93 % de la variación de las ventas de gas, se debe a la variación de los
precios por unidad de los galones y de los gastos por publicidad

REFERENCIAS BIBLIOGRÁFICAS

Barrero, V. J. (2013). Prezi. Obtenido de https://prezi.com/fi8hf56q7s0l/regresion-lineal-


multiple/

Berrendero, J. R. (2012). Modelo de regresión múltiple. Universidad Autónoma de Madrid,


España. Recuperado el 10 de 02 de 2020, de
http://verso.mat.uam.es/~joser.berrendero/cursos/adatos/ad2-tema4-12.pdf

Gonzalez, L. (30 de Noviembre de 2018). LIGDIELI. Obtenido de Regresión Lineal Simple -


Teoria: https://ligdigonzalez.com/algoritmo-regresion-lineal-simple-machine-learning/

MIPROFE.COM. (s.f.). Mínimos Cuadrados. Obtenido de Mínimos Cuadrados:


https://miprofe.com/minimos-cuadrados/

PRO, Q. (s.f.). ¿Qué es el análisis de regresión? Obtenido de ¿Qué es el análisis de regresión?:


https://www.questionpro.com/blog/es/analisis-de-regresion/

Potrebbero piacerti anche