Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Estadstica
Samuel Prez
Regresin Lineal Simple
Consiste en determinar una relacin funcional
entre dos variables, con el fin de predecir el valor
de una variable(dependiente) en base a la
otra(independiente)
Diagrama de dispersin
Covarianza
Regresin lineal simple
Coeficiente o indice de correlacin
2
Diagramas de dispersin
3
Covarianza
Mide el grado de dispersin conjunta de
dos variables
n n
SS xy ( x x)( y y) x y n x y
i i i i
S xy i 1
i 1
n 1 n 1 n 1
Varianzas
n n
(x x) x nx
2 2 2
i i
SS xx
s
2
i 1
i 1
n 1 n 1 n 1
x
n n
(y y) y ny
2 2 2
i i
SS yy
s
2
i 1
i 1
n 1 n 1 n 1
y
4
Modelos de Regresin
Modelo: y = + xi + ui
ser estimado por: y = a + b xi + ei
Donde: e i = yi - a - b xi
Mtodo Mnimos Cuadrados Ordinario
5
Estimadores
S xy
b 2 a y bx
s x
Estimacin o Pronstico
y a b * x0
6
Estimador de 2
Que mide la variacin de los valores de Y, respecto a
la lnea E(y)=+xi. Tambin conocido como la
desviacin estndar de los errores.
SSE SSE
s
2
Grados libertad para el error n 2
Donde:
n
SSE ( yi y i ) SS yy b.SS xy
2
i 1
7
Prueba de utilidad del Modelo
La hiptesis a probar es:
Ho:=0
H1:0
El estadstico de Prueba:
b b
t
sb s / ssxx
Si t > t/2,n-2 se rechaza Ho. Lo que significa que la
relacin entre la Variable Dependiente (Y) y la variable
independiente (X) es significativa.
8
Intervalo de confianza para
1 ( x x ) 2
1 ( x x ) 2
y tn2, / 2 .s 0
Y y tn2, / 2 .s 0
n ssxx n ssxx
1 ( x x ) 2
1 ( x x ) 2
y tn2, / 2 .s 1 0
Y y tn2, / 2 .s 1 0
n ssxx n ssxx
9
Indice de correlacin ()
Mide el grado de asociacin entre dos
variables, ser estimado por:
n
s xy x y i i nx y
r n
i 1
n
sx s y
x nx yi2 n y
2 2 2
i
i 1 i 1
10
Coeficiente Determinacin
Mide el porcentaje de variacin de la variable
dependiente (Y) que es explicada por la variable
independiente (X)
R2 = r2*100%
(n 1) SSE (n 1)
R 1
2
aj 1
n (k 1) SSYY
n (k 1)
1 R2
11
Prueba Hipotesis de
La hiptesis a probar es:
Ho: = 0
H1: 0
El estadstico de Prueba:
(r ) n 2
t
1 r 2
12
ANLISIS DE RESIDUALES
Recordando que: ei Yi Yi
Se puede evaluar lo apropiado del modelo, trazando los ei en
el eje vertical contra los valores Xi en el eje horizontal. Si el
modelo es apropiado no habr un padrn en la grfica. Si el
modelo no es el apropiado, habr un patrn.como muestra los
grficos:
13
Anlisis de Influencias
14
Los elementos hi
Cada hi refleja la influencia de cada xi sobre el
modelo de regresin ajustado. Si existen esos
puntos de influencia quiz sea necesario evaluar la
necesidad de mantenerlos en el modelo, la frmula
a emplear es:
1 ( xi x ) 2 1 ( xi x ) 2
hi n
i
n ssxx n
( x x ) 2
i 1
15
Residual Estandarizado
Permite considerar la magnitud de los residuales en
unidades que reflejan la variacin estandarizada en torno a
la lnea de regresin.
ei
SRi
s 1 hi
Para un modelo determinado, parece ser adecuado, como lo
muestra el grfico
16
Los residuales de Student eliminados ti
ei
t
*
1 hi
i
s( i )
Si ti*>t0.10,n-3
SRi2 .hi
Di
2(1 hi )
Regla:
18
Supuestos Bsicos
1. Linealidad en lo parmetros
2. Los valores de x son fijos en muestreo repetido
3. El valor medio de i es cero [E(i)=0]
4. Homoscedasticidad, igual varianza de i, Var(i/xi)=2
5. No autocorrelacin en los i [cov(i,j/xi,xj= 0)]
6. La covarianza entre i y xi es cero. E(i,xi)=0
7. El nmero de observaciones es mayor al N de
parmetros (n>k)
8. Variabilidad en los valores de X
9. El modelo de regresin esta correctamente
especificado
10. No hay multicolinealidad perfecta
11. Los i est normalmente distribuido
19
Anlisis de la Regresin con el SPSS
Datos:
Encuesta Sexo Nro. Hijos salario gastos edad peso (kg) talla (cm)
1 1 1 810 749 25 61 156
2 0 5 450 450 31 68 171
3 0 6 680 590 54 65 159
4 1 3 840 740 50 72 175
5 0 0 560 550 22 62 155
6 1 1 320 469 29 59 164
7 0 5 1250 980 35 64 168
8 0 4 650 620 36 67 174
9 1 0 799 645 23 70 174
10 1 1 980 821 24 74 177
11 0 3 650 589 40 66 159
12 0 2 420 460 60 71 169
13 0 0 840 780 26 58 149
14 1 0 946 697 24 63 171
15 1 3 1140 950 42 72 174
16 0 1 450 423 19 70 169
17 1 3 960 877 54 68 159
18 0 4 590 466 33 69 170
19 1 3 1500 975 41 59 162
20 1 0 520 510 22 80 174
20
Resultados del Anlisis de Regresin: Gasto=f(Salario)
Desv iacin
Media tp. N
GASTO 667.0500 184.75915 20
SALARIO 767.7500 301.68088 20
Correlaciones
21
Resultados del Anlisis de Regresin: Gasto=f(Salario)
b
Variables i ntrodu cidas/eliminadas
Variables Variables
Modelo introducidas elim inadas Mtodo
1 SALARIOa . Introducir
a. Todas las v ariables solicitadas introducidas
b. Variable dependiente: GASTO Variable
independiente
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 582902.564 1 582902.564 159.747 .000a
Residual 65680.386 18 3648.910
Total 648582.950 19 Si sig.=0< =0.05
a. Variables predict oras: (Constante), SALARIO
se rechaza
b. Variable dependiente: GASTO
Ho:=0
Coeficientesa
Coef icientes
Coef icientes no estandarizad Interv alo de conf ianza para
estandarizados os B al 95%
Lmite
Modelo B Error tp. Beta t Sig. Lmite inf erior superior
1 (Constante) 221.298 37.766 5.860 .000 141.955 300.641
SALARIO .581 .046 .948 12.639 .000 .484 .677
a. Variable dependiente: GASTO
Y 221.298 0.581X
23
Regresin
Mltiple
24
Regresin Mltiple
Permite estudiar la relacin entre una variable dependiente (Y)
y dos o ms variables independientes (X1, X2, ..., Xk).
El modelo poblacional a considerar es:
( X ' X )1 X 'Y
Teniendo:
yi n
x x 1i 2i x ki
x1i x x x x x
2
x1i yi
1i 2i 1i ki 1i
A X ' X x2 i x x x 2
x x
g X ' Y x 2 i yi
1i 2i 2i ki 2i
x
ki x x x x 2
ki
x
x y
ki i
1i ki 2i ki
i
( y
i 1
y ) i
2
(
y y ) i i
(
i 1
y
y ) 2
2
i 1
Debido a la
Regresin
Debido a los
errores
Total
29
Coeficiente de Determinacin
' X ' y Ny 2
R 2
y' y Ny 2
Coeficiente de Determinacin Ajustado
Permite determinar el grado de relacin entre las variables explicatorias
y la explicada, considerando el tamao de la muestra.
n 1
R 2
1 (1 R )
2
n (k 1)
ajust
30
Anlisis de Influencias
31
Los elementos hi
Cada hi refleja la influencia de cada xi sobre el modelo
de regresin ajustado. Si existen esos puntos de influencia
quiz sea necesario evaluar la necesidad de mantenerlos en
el modelo. Supongase que el vector xi representa los
valores correspondiente al i-simo punto.
xi=(1, x1i, x2i,..., xki)
Considerando:
hii= xi(XX)-1xi
Que representa la varianza del valor ajustado. Resultan
tambin de la diagonal de:
H=X(XX)-1X
Donde, 0<hii<1, adems: nhii=k+1, el nmero de parmetros.
El puntos es sospechoso si hii>2(k+1)/n.
32
Residual Estandarizado
Permite considerar la magnitud de los residuales en
unidades que reflejan la variacin estandarizada en torno
al modelo de regresin.
ei
SRi
s 1 hii
Para un modelo determinado, parece ser adecuado, como lo
muestra el grfico
33
Los residuales de Student eliminados t*i
ei
t
*
1 hii
i
s( i )
Si ti*>t0.10,n-3
SRi2 .hii
Di
2(1 hii )
Regla:
35
Anlisis de la Regresin Mltiple con el SPSS
Datos:
Encuesta Sexo Nro. Hijos salario gastos edad peso (kg) talla (cm)
1 1 1 810 749 25 61 156
2 0 5 450 450 31 68 171
3 0 6 680 590 54 65 159
4 1 3 840 740 50 72 175
5 0 0 560 550 22 62 155
6 1 1 320 469 29 59 164
7 0 5 1250 980 35 64 168
8 0 4 650 620 36 67 174
9 1 0 799 645 23 70 174
10 1 1 980 821 24 74 177
11 0 3 650 589 40 66 159
12 0 2 420 460 60 71 169
13 0 0 840 780 26 58 149
14 1 0 946 697 24 63 171
15 1 3 1140 950 42 72 174
16 0 1 450 423 19 70 169
17 1 3 960 877 54 68 159
18 0 4 590 466 33 69 170
19 1 3 1500 975 41 59 162
20 1 0 520 510 22 80 174
36
Resultados: Gasto=f(Salario, hijos, edad)
Desv iacin
Media tp. N
GASTO 667.0500 184.75915 20
SALARIO 767.7500 301.68088 20
NHI JOS 2.25 1.916 20
EDAD 34.50 12.344 20
Correlaciones
37
Resultados: Gasto=f(Salario, hijos, edad)
b
Variables i ntroducidas/eliminadas
Variables Variables
Modelo introducidas elim inadas Mtodo
1 EDAD,
SALARIO, a
. Introducir
NHI JOS
a. Todas las v ariables solicitadas introducidas
b. Variable dependiente: GASTO
38
Resultados: Gasto=f(Salario, hijos, edad)
ANOVAb
Suma de Media
Modelo cuadrados gl cuadrtica F Sig.
1 Regresin 587991.986 3 195997.329 51.756 .000a
Residual 60590.964 16 3786.935
Si sig.=0< =0.05
Total 648582.950 19
a. Variables predict oras: (Constante), EDAD, SALARIO, NHIJOS
b. Variable dependiente: GASTO se rechaza
Ho:1=2=3=0
Coeficientesa
Coeficientes
Coeficientes no estandarizad Interv alo de conf ianza para
estandarizados os B al 95%
Lmite
Modelo B Error tp. Beta t Sig. Lmite inf erior superior
1 (Constante) 186.447 53.157 3.507 .003 73.759 299.135
SALARIO .580 .047 .946 12.214 .000 .479 .680
NHIJOS -8.803 9.357 -.091 -.941 .361 -28.639 11.033
EDAD 1.608 1.451 .107 1.108 .284 -1.468 4.684
a. Variable dependiente: GASTO
El modelo:
Estas dos variables no
39
Regresin Lineal sin Intercepto
40
Regresin Lineal sin Intercepto
41
Valores pronosticados
Son los valores que el modelo de regresin pronostica para cada caso.
No tipificados. Valor predicho por el modelo para la variable
dependiente.
Tipificados. Transformacin de cada valor predicho a su forma
tipificada. Es decir, se sustrae el valor predicho medio al valor
predicho y el resultado se divide por la desviacin estndar de los
valores pronosticados. Los valores pronosticados tipificados tienen
una media de 0 y una desviacin estndar de 1.
Corregidos. Valor predicho para un caso cuando dicho caso no se
incluye en los clculos de los coeficientes de regresin.
E.T. del prediccin promedio. Error estndar de los valores
pronosticados. Estimacin de la desviacin estndar del valor
promedio de la variable dependiente para los casos que tengan los
mismos valores en las variables independientes.
42
Distancias
Son medidas para identificar casos con combinaciones poco usuales de
valores para las variables independientes y casos que puedan tener un
gran impacto en el modelo.
Mahalanobis. Medida de cunto difieren del promedio para todos los
casos los valores en las variables independientes de un caso dado. Una
distancia de Mahalanobis grande identifica un caso que tenga valores
extremos en una o ms de las variables independientes.
De Cook. Una medida de cunto cambiaran los residuos de todos los
casos si un caso particular se excluyera del clculo de los coeficientes
de regresin. Una Distancia de Cook grande indica que la exclusin de
ese caso del clculo de los estadsticos de regresin har variar
substancialmente los coeficientes.
Valores de influencia. Mide la influencia de un punto en el ajuste de la
regresin. Influencia centrada vara entre 0 (no influye en el ajuste) a
(N-1)/N.
. 43
44
45
Regresin segmentada
Make Effective Presentations
Using Awesome Backgrounds
Engage your Audience
Capture Audience Attention
Slide Title
Product A Product B
Feature 1 Feature 1
Feature 2 Feature 2
Feature 3 Feature 3