Sei sulla pagina 1di 77

Estadstica para Administracin

4a Edicin
Captulo 12
Regresin Lineal Simple

Business Statistics, A First Course (4e) 2006 Prentice-Hall, Inc.

Chap 12-1

Objetivos de Aprendizaje
En este captulo, usted aprender:

Como usar el anlisis de regresin para predecir los


valores de una variable de respuesta con base en una
variable independiente (o explicativa)

El significado de los coeficientes de regresin b0 y b1

Como evaluar los supuestos de regresin y saber qu


hacer cuando alguno de los supuestos es violado

Probar hiptesis sobre la pendiente y el coeficiente de


correlacin

Estimar el valor medio de respuesta y predecir los


valores individuales de respuesta

Correlacin vs. Regresin

Un diagrama de dispersin se usa para mostrar


el tipo de relacin entre dos variables

El anlisis de Correlacin se usa para medir la


fuerza de asociacin (asociacin lineal) entre
dos variables

La correlacin crece o decrece a medida que la


fuerza de asociacin (lineal) de las dos variables
crece o decrece

Una alta correlacin no implica una relacin de


causa efecto entre las dos variables relacionadas

Introduccin al
Anlisis de Regresin

El anlisis de Regresin se usa para:

Predecir el valor de una variable dependiente o de


respuesta, basado en el valor de al menos una
variable independiente o explicativa
Explicar el impacto que tienen los cambios de una
variable explicativa o independiente sobre la variable
de respuesta o dependiente

Variable Dependiente o de respuesta: la variable


que se quiere explicar o predecir
Variable Independiente o explicativa: La variable
usada para explicar la variable dependiente

Modelo de Regresin Lineal


Simple

Tiene solo una variable independiente X

La relacin entre Y y X es descrita por


una funcin lineal

Se asume que los cambios en Y son


causados por los cambios en X

Tipos de relacin entre Y y X


Relacin lineal

Relacin curvilnea

X
Y

X
Y

Tipos de relacin entre Y y X


(continuacin)
Relacin fuerte

Relacin dbil

X
Y

X
Y

Tipos de relacin entre Y y X


(continuacin)
Sin relacin
Y

X
Y

Modelo de Regresin Lineal


Simple

Variable de
Respuesta

Intercepto
poblacional
con Y

Coeficiente
poblacional
de la
pendiente

Variable
explicativa

Trmino
de error
aleatorio

Yi 0 1Xi i
Componentes lineales

Componente de error
aleatorio

Modelo de Regresin Lineal


Simple

(continuacin)

Yi 0 1Xi i

Valor observado
de Y para Xi

Valor
pronosticado
de Y para Xi

Pendiente = 1
Error aleatorio para
este valor de Xi

Intercepto =
0

Xi

Ecuacin de Regresin Lineal


simple (Lnea de prediccin)
La ecuacin de regresin lineal simple provee una
estimacin de la lnea de regresin poblacional
Valor
estimado (o
pronosticado)
de Y para la
observacin i

Estimacin
del intercepto
de la
regresin

Estimacin de la
pendiente de
regresin

Yi b0 b1Xi

Valor de X
para la
observacin i

Los valores individuales de los trminos de error


aleatorios ei tienen promedio cero

Mtodo de Mnimos Cuadrados

b0 y b1 se obtienen encontrando los valores


de b0 y b1 que minimizan la suma de los
:
cuadrados de las diferencias entre Y y Y

2
2

min (Yi Yi ) min (Yi (b0 b1Xi ))

Clculo de la ecuacin de
Mnimos Cuadrados

Los coeficientes b0 y b1 , y otros


resultados en este captulo, pueden ser
hallados usando Excel u otro software
estadstico
Las frmulas se presentan en el texto gua
para consulta de los interesados

Interpretacin de la Pendiente y del


Intercepto

b0 es la estimacin del valor promedio


de Y cuando el valor de X es cero

b1 es la estimacin de el cambio en el
valor promedio de Y como resultado
de el cambio de una unidad en el valor
de X

Ejemplo de una Regresin


Lineal simple

Un corredor de bienes races desea examinar la


relacin entre el precio de venta de las casas y su
tamao (medido en ft)

Se selecciona una muestra aleatoria de 10 casas


Variable de Respuesta (Y) = precio de las
casas en US$1000s
Variable explicativa (X) = ft

Datos muestrales para el modelo del


precio de las casas
Precio de las casas en
US$1000s
(Y)

Tamao de las casas ft


(X)

245

1400

312

1600

279

1700

308

1875

199

1100

219

1550

405

2350

324

2450

319

1425

255

1700

Grfico de Dispersin

Modelo para el precio de las


casas: diagrama de dispersin

Herramientas para el modelo


mediante Excel

Herramientas / Analisis de Datos / Regresin

Salidas de Excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

precio casa 98.24833 0.10977 (ft)

41.33032

Observations

ANOVA

La ecuacin de regresin es:

10

df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Grfico del modelo

Modelo del precio de las casas: diagrama


de dispersin y lnea de regresin
Pendiente
= 0.10977

Intercepto
= 98.248

precio casas 98.24833 0.10977 (ft)

Interpretacin del intercepto, b0


precio casa 98.24833 0.10977 (ft)

b0 es el valor medio estimado de Y cuando X


vale cero (Si X = 0 est en el rango de valores
observados de X)

En este caso, no hay casas con un rea de cero ft,


entonces b0 = 98.24833 solo indica que, para casas
dentro del rango de tamao observado, $98,248.33
es la porcin del precio de las casas que no es
explicada por el tamao de las mismas en ft

Interpretacin de la pendiente, b1
precio casa 98.24833 0.10977 (ft)

b1 mide la estimacin del cambio en el


valor medio de Y como resultado del
cambio de una unidad en el valor de X

Aqu, b1 = .10977 nos dice que el valor medio de una


casa se incrementa por 0.10977($1000) = $109.77,
en promedio, por cada ft adicional de tamao de la
casa

Predicciones mediante la
ecuacin de regresin
El precio pronosticado para el valor de una
casa con un tamao de 2000 ft:

precio casa 98.25 0.1098 (ft)


98.25 0.1098(2000)
317.85
El precio pronosticado para una casa con
un rea de 2000 ft es 317.85($1,000s) =
$317,850

Interpolacin vs. Extrapolacin

Cuando se usa un modelo de regresin para pronosticar, los


pronsticos relevantes son solamente aquellos dentro del rango de
valores observados para los datos
Rango relevante
para interpolacin

No es aconsejable extrapolar
los resultados por fuera de los
valores observados de las Xs

Medidas de Variacin en el modelo de


Regresin

La variacin total se subdivide en 2 partes:

SST

SSR

Suma de
cuadrados totales

Suma de cuadrados
de la regresin

SST ( Yi Y )2

SSR ( Yi Y )2

SSE
Suma de cuadrados
del error

SSE ( Yi Yi )2

donde:

= Valor medio de la variable de respuesta

Yi = Valor observado de la variable de respuesta

Y = Valor pronosticado de Y para un valor de X dado


i
i

Medidas de variacin en el modelo


de regresin
(continuacin)

SST = suma de cuadrados totales

Mide la variacin de los valores observados Yi


alrededor de su media Y

SSR = suma de cuadrados de la regresin

Variacin explicada o atribuida a la relacin entre


XyY

SSE = suma de cuadrados de los errores

Variacin atribuible a otros factores diferentes a la


relacin lineal entre X y Y

Medidas de Variacin
(continuacin)

Y
Yi

SSE = (Yi - Yi )2

SST = (Yi - Y)2


_
SSR = (Yi - Y)2

Xi

_
Y

Coeficiente de Determinacin, r2

El coeficiente de determinacin es la porcin


del total de la variacin en la variable de
respuesta que es explicada por la variacin en
la variable independiente
Este coeficiente tambin es llamado:
r cuadrado y se denota por r2
SSR suma de cuadrados de la regresin
r

SST
suma de cuadrados totales
2

Note que:

0 r 1
2

Ejemplos de valores
aproximados de r2
Y
r2 = 1

r2 = 1

El 100% de la variacin en Y
es explicada por la variacin
en X

r =1
2

Relacin lineal perfecta entre


Y y X:

Ejemplos de valores
aproximados de r2
Y
0 < r2 < 1

Relacin lineal ms dbil


entre X y Y:
No toda la variacin de Y
es explicada por la
variacin de X

Ejemplos de valores
aproximados de r2
r2 = 0

No existe relacin lineal


entre X y Y:

r2 = 0

Los valores de Y no
dependen de X. (La
variacin de Y NO es
explicada por la variacin
de X)

Salidas de Excel
SSR 18934.9348
r

0.58082
SST 32600.5000
2

Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

41.33032

Observations

ANOVA

58.08% de la variacin en los


precios de las casas es explicada
por la variacin en el tamao de
las casas medido en ft

10

df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Error estndar de la estimacin

La desviacin estndar de la variacin de las


observaciones alrededor de la lnea de
regresin es estimada por
n

S YX

SSE

n2

(
Y

Y
)
i i
i1

n2

Donde
SSE = suma de cuadrados del error
n = tamao de la muestra

Salida de Excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

41.33032

Observations

ANOVA

S YX 41.33032

10

df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Interpretacin de los errores estndar


SYX es una medida de la variacin de los
valores observados de Y con respecto a la
lnea de regresin
Y
Y

sYX pequeo

sYX grande

La magnitud de SYX debe ser comparada con el rango de los


valores observados de Y en los datos de la muestra de forma
relativa a la lnea de regresin
Por ejemplo, SYX = $41.33K es moderadamente pequeo en
relacin a los precios de las casas en el rango de $200 - $300K

Supuestos de la regresin

Linealidad

Independencia de los Errores

Los valores de los Errores son estadsticamente


independientes

Normalidad de los Errores

La relacin fundamental entre X y Y debe ser lineal

Los valores de los Errores () estan normalmente distribuidos


para cualquier valor dado de X

Igualdad de la Varianza (Homoscedasticidad)

La distribucin de probabilidad de los errores tiene varianza


constante

Anlisis de los Residuales


ei Yi Yi

Los residuales para la observacin i, ei, es la


diferencia entre los valores observados y los
pronosticados
Chequee las suposiciones de la regresin examinando
los residuales (o errores del modelo)

Examine la suposicin de linealidad


Evalue la suposicin de independencia de los errores
Evalue la suposicin de distribucin normal de los errores
Examine La homogeneidad de la varianza para todos los
niveles de X (homoscedasticidad de los errores)

Anlisis grfico de los Residuales

Graficando los residuales vs. los valores observados de X

Anlisis de Linealidad de los


residuales
Y

No lineal

residuales

residuales

Lineal

Anlisis grfico de
Independencia de los errores

residuales

Independencia

X
residuales

residuales

No hay independencia

Anlisis grfico de Normalidad de


los residuales
Un grfico de probabilidad Normal de los
residuales puede ser usado para chequear el
supuesto de normalidad:
% 100

0
-3

-2

-1

Residuales

Anlisis grfico de los residuales


para la homoscedasticidad
Y

x
No hay homogeneidad

residuales

residuales

Hay homogeneidad

Salidas de excel para los residuales


SALIDA DE RESIDUALES
Precio casa
pronosticado

Residuales

251.92316

-6.923162

273.87671

38.12329

284.85348

-5.853484

304.06284

3.937162

218.99284

-19.99284

268.38832

-49.38832

356.20251

48.79749

367.17929

-43.17929

254.6674

64.33264

10

284.85348

-29.85348

Los residuales parecen no violar alguno de


los supuestos de regresin

Medicin de la Autocorrelacin:
El estadstico Durbin-Watson

Se utiliza cuando los datos son


recolectados en el tiempo para detectar si
la autocorrelacin est presente

Hay Autocorrelacin si los residuales para


un perodo de tiempo estn relacionados
con los residuales de otro perodo

Autocorrelacin

La Autocorrelacin es la correlacin de los


errores (residuales) en el tiempo

Aqu, los residuales


muestran un patrn de
compartamiento cclico,
no aleatorio. Patrones
cclicos son signo de
una autocorrelacin
positiva

Se violan los supuestos de regresin ya que los


residuales deben ser aleatorios e independientes

El estadstico de Durbin-Watson

El estadstico de Durbin-Watson se usa para probar si


existe autocorrelacin en los errores
H0: los errores no estan correlacionados
H1: Hay correlacin positiva en los errores
El rango posible de D es 0 D 4
n

2
(
e

e
)
i i1
i 2

D debe estar cerca de 2 si H0 es


cierta

2
e
i
i1

Si D es menor que 2 puede haber un


signo de autocorrelacin positiva, si D
es mayor que 2 puede haber un signo
de autocorrelacin negativa.

Prueba para observar si hay


Autocorrelacin positiva
H0: No hay autocorrelacin positiva
H1: Hay autocorrelacin positiva
Calcule el estadstico de prueba Durbin-Watson = D
(El estadstico Durbin-Watson puede ser calculado usando excel o
Minitab)

Encuentre los valores dL y dU de la tabla de Durbin-Watson


(Para un tamao de muestra n y un nmero de k variables independientes)

Regla de Decisin: rechace H0 si D < dL


Rechace H0

Prueba inconclusa

dL

No rechace H0

dU

Prueba para observar si hay


Autocorrelacin positiva

(continuacin)

Supongase que se tienen los datos de la


siguiente serie de tiempo:

Hay autocorrelacin?

Prueba para observar si hay


Autocorrelacin positiva

(continuacin)

Ejemplo con n = 25:

Salida de Excel/PHStat:
Clculos de Durbin-Watson
Suma de cuadrados
Diferencia de Residuales

3296.18

Suma de cuadrados
Residuales

3279.98

Estadstico
Durbin-Watson

1.00494
n

(e e
i 2

ei
i 1

i1

)2

3296.18
1.00494
3279.98

Prueba para observar si hay


Autocorrelacin positiva

(continuacin)

Aqu, n = 25 y hay k = 1 una variable independiente

En la tabla de Durbin-Watson, dL = 1.29 y dU = 1.45

D = 1.00494 < dL = 1.29, entonces se rechaza H0 y se


concluye que existe una autocorrelacin positiva en los
errores

Por lo tanto, el modelo lineal no es apropiado para


pronosticar las ventas
Decisin: rechace H0 porque
D = 1.00494 < dL
Rechazo H0

Inconclusa

dL=1.29

No rechazo H0

dU=1.45

Inferencias sobre la pendiente

El error estndar del coeficiente de la pendiente


de regresin (b1) es estimado por

S YX
Sb1

SSX

S YX

(X X)

donde:

Sb1

= Estimacin del error estndar de la pendiente por mnimos cuadrados

S YX

SSE
= Error estndar de la estimacin del modelo
n2

Salidas de Excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error
Observations

ANOVA

Sb1 0.03297

41.33032
10

df

SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Interpretacin del error


estndar de la pendiente
Sb1 es una medida de variacin de las pendientes de las

lneas de regresin en diferentes muestras posibles


Y

Sb1 pequo

Sb1 grande

Inferencias sobre la pendiente:


Prueba t

Prueba t test para la pendiente poblacional

Hay una relacin lineal entre X y Y?

Hiptesis Nula y Alternativa


H0: 1 = 0 (No hay relacin lineal entre X y Y)
H1: 1 0 (Si hay relacin lineal entre X y Y)

Estadstico de Prueba

b1 1
t
Sb1
g.l. n 2

donde:
b1 = coeficiente de la pendiente
de regresin
1 = Valor hipottico de la
pendiente
1
Sb = error estndar de la
pendiente

Inferencias sobre la pendiente:


Prueba t
(continuacin)
Precio casas
en $1000s
(y)

ft
(x)

245

1400

312

1600

279

1700

308

1875

199

1100

219

1550

405

2350

324

2450

319

1425

255

1700

Ecuacin de regresin lineal simple:


precio casa 98.25 0.1098 (ft)

La pendiente de este modelo es


0.1098
Afecta el tamao en ft de la
casa su precio de venta?

Inferencias acerca de la pendiente:


Ejemplo de Prueba t
H0: 1 = 0

De las salidas de excel:

H1: 1 0

Coefficients
Intercept
Square Feet

b1

Standard Error

Sb1
t Stat

P-value

98.24833

58.03348

1.69296

0.12892

0.10977

0.03297

3.32938

0.01039

b1 1 0.10977 0
t

3.32938
t
Sb1
0.03297

Inferencias sobre la pendiente:


Ejemplo de prueba t
(continuacin)

Estadstico de prueba: t = 3.329


De las salidas de excel:

H0: 1 = 0
H1: 1 0

Coefficients
Intercept
Square Feet

g.l. = 10-2 = 8
/2=.025

Rechace H0

/2=.025

No rechace H0

-t/2
-2.3060

Rechace H

0
t/2
2.3060 3.329

b1

Standard Error

Sb1

t Stat

P-value

98.24833

58.03348

1.69296

0.12892

0.10977

0.03297

3.32938

0.01039

Decisin:
Rechace H0
Conclusin:
Hay suficiente evidencia de
que el tamao de las casas
afecta su precio de venta

Inferencias sobre la pendiente:


Ejemplo de prueba t
(continuacin)

valor-p = 0.01039
H0: 1 = 0

Salidas de excel:

H1: 1 0

Coefficients
Intercept
Square Feet

Esta es una prueba de 2


colas por lo tanto el valorp es
P(t > 3.329)+P(t < -3.329)
= 0.01039
(para 8 g.l.)

Valor-p
Standard Error

t Stat

P-value

98.24833

58.03348

1.69296

0.12892

0.10977

0.03297

3.32938

0.01039

Decisin: valor-p <


Rechace H0
Conclusin:
Hay suficiente evidencia de
que el tamao de las casas
afecta su precio de venta

Prueba F para la significancia del


modelo

MSR
F
MSE

Estadstico de prueba F:
donde

MSR

SSR
k

MSE

SSE
n k 1

Donde F sigue una distribucin F con k g.l. en el numerador y


(n k - 1) g.l. en el denominador
(k = es el nmero de variables independientes en el modelo)

Salida de excel
Regression Statistics
Multiple R

0.76211

R Square

0.58082

Adjusted R Square

0.52842

Standard Error

41.33032

Observations

ANOVA

MSR 18934.9348
F

11.0848
MSE 1708.1957

10

df

Con 1 y 8 grados de
libertad
SS

MS

F
11.0848

Regression

18934.9348

18934.9348

Residual

13665.5652

1708.1957

Total

32600.5000

Coefficients
Intercept
Square Feet

Standard Error

Valor-p para
la prueba F

t Stat

P-value

Significance F
0.01039

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Prueba F para la significancia del


modelo

(continuacin)

Estadstico de prueba:

H 0 : 1 = 0

MSR
F
11.08
MSE

H 1 : 1 0
= .05
gl1= 1

gl2 = 8

Decisin:
Rechace H0 a un nivel
= 0.05

Valor
crtico:
F = 5.32

Conclusin:

= .05

No rechace H0

RechaceH0

F.05 = 5.32

Hay evidencia suficiente de que


el tamao de las casas afecta
su precio de venta

Intervalo de confianza para la


estimacin de la pendiente
Intervalo de confianza para la estimacin de
la pendiente:

b1 t n2Sb1

g.l. = n - 2

Salida de Excel para los precios de las casas:


Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

A un 95% de confiabilidad, el intervalo de confianza para


la pendiente es (0.0337, 0.1858)

Estimacin del intervalo de


confianza para la pendiente

(continuacin)

Coefficients
Intercept
Square Feet

Standard Error

t Stat

P-value

Lower 95%

Upper 95%

98.24833

58.03348

1.69296

0.12892

-35.57720

232.07386

0.10977

0.03297

3.32938

0.01039

0.03374

0.18580

Puesto que las unidades de la variable precio de


las casas son en US$1000s, se tiene una
confiabilidad del 95% de que el impacto promedio
sobre el precio de venta se encuentra entre
$33.70 and $185.80 por cada ft de tamao de la
casa
Este intervalo del 95% de confianza no incluye el cero (0).
Conclusin: Hay una relacin estadsticamente
significativa entre el precio de las casas y su tamao en ft
a un nivel de significancia de 0.05

Prueba t para el coeficiente de


Correlacin

Hiptesis
H0 : = 0
H1 : 0

(No hay correlacin entre X and Y)


(Existe la correlacin)

Estadstico de prueba:

r -

t (con
n 2 grados de libertad)
2
1 r
n2

donde
r r 2 si b1 0
r r 2 si b1 0

Ejemplo: Precio de las casas


Hay evidencia de una relacin lineal entre
el tamao de las casas medido en ft y el
precio de las casas a un nivel de
significancia de 0.05?
H0: = 0

(No hay correlacin)

H1: 0

(Existe correlacin)

=.05 , gl = 10 - 2 = 8

r
1 r 2
n2

.762 0
1 .762 2
10 2

3.329

Ejemplo: solucin a la prueba


t

r
1 r 2
n2

.762 0
1 .762 2
10 2

3.329

Conclusin:
Hay evidencia de
una asociacin
lineal a un nivel
de significancia
del 5%

g.l. = 10-2 = 8
/2=.025

Rechace H0

-t/2
-2.3060

/2=.025

No rechace H0

Rechace H0

t/2
2.3060

Decisin:
Rechace H0

3.329

Estimacin del valor medio de Y y del


valor pronosticado para valores
individuales de Y
Intervalo de
confianza
para la
media de Y,
dado un Xi

Objetivo: construir intervalos alrededor de Y


para expresar la incertidumbre acerca del
valor de Y para un Xi dado

Y = b0+b1Xi

Intervalo de
prediccin para un
valor individual Y,
dado un Xi

Xi

Intervalo de confianza para el


promedio de Y, Dado un X
La estimacin del intervalo de confianza para
la media de Y dado un valor particular de Xi

Intervalo de confianza para Y|X X i :


Y t n 2SYX hi
El tamao del intervalo vara de
acuerdo con las distancias
alrededor de la media X

1 (Xi X)2 1
(Xi X)2
hi

n
SSX
n (Xi X)2

Intervalo de prediccin para un


valor individual de Y, Dado un X
Estimacin del intervalo de confianza para un
Valor individual de Y dado un Xi

Intervalo de confianza para YX Xi :


Y t n 2SYX 1 hi

Este trmino extra sumado al ancho del intervalo


refleja la adicin de incertidumbre para el caso de
un valor individual de Y

Estimacin de los valores


medios: Ejemplo
Estimacin del intervalo de confianza para Y|X=X
Encuentre el intervalo de confianza del 95% para la
media del precio de venta de las casas cuando
tienen un tamao de 2,000 ft

Precio pronosticado Yi = 317.85 ($1,000s)

Y t n-2S YX

1
(Xi X)2

317.85 37.12
2
n (Xi X)

El intervalo de confianza est entre 280.66 y 354.90, o lo


que es lo mismo, de $280,660 a $354,900

Estimacin de los valores


individuales de Y: Ejemplo
Estimacin de intervalo de prediccin para YX=X

Encuentre el intervalo de prediccin del 95% para un valor


individual de una casa que tiene un tamao de 2,000 ft

Precio pronosticado Yi = 317.85 ($1,000s)

Y t n-1S YX

1
(Xi X)2
1
317.85 102.28
2
n (Xi X)

El intervalo de prediccin est entre 215.50 y 420.07, o


lo que es lo mismo de $215,500 a $420,070

Clculo de los intervalos de confianza y


de prediccin usando Excel

En Excel, use
PHStat | regression | simple linear regression

Active el comando de
intervalos de confianza y prediccin para X=
en la caja de dilogo correspondiente y entre el
valor de X y el nivel de confianza deseado

Clculo de los intervalos de


confianza y prediccin en Excel

(continuacin)

Valores de entrada

Y
Intervalo de confianza para Y|X=Xi
Intervalo de prediccin para YX=Xi

Dificultades en el anlisis de
regresin

Incumplimiento de alguno de los supuestos del modelo


de regresin
Desconocimiento de cmo evaluar los supuestos
Desconocimiento de las alternativas a los modelos de
regresin por mnimos cuadrados cuando alguno de los
supuestos es violado
Utilizar un modelo de regresin sin el conocimiento del
tema
Utilizar el modelo encontrado para pronosticar valores
por fuera del rango de los valores observados

Estrategias para evitar las


dificultades de la regresin

Comience con un diagrama de dispersin


de X vs. Y para observar posibles relaciones
Desarrolle el anlisis de los residuales para
verificar los supuestos del modelo

Grafique los residuales vs. X para verificar si se


viola alguno de los supuestos del modelo de
regresin como por ejemplo la
homoscedasticidad
Verifique el supuesto de normalidad de los
errores.

Estrategias para evitar las


dificultades de la regresin

(continuacin)

Si hay violacin de alguno de los supuestos,


utilice modelos de mtodos alternativos
Si no hay evidencia de violacin de alguno de
los supuestos, entonces aplique las pruebas de
significancia del modelo y de los coeficientes de
regresin y construya los intervalos de
confianza y de prediccin para la media y los
valores individuales de Y
Evite utilizar el modelo para hacer pronsticos
fuera del rango de los valores observados

Resumen del Captulo

Se introdujeron los tipos de modelos de regresin.


Se revisaron los supuestos de la regresin y correlacin
Se discuti la determinacin de la ecuacin de la
regresin lineal simple
Se describieron las medidas de variacin del modelo de
regresin
Se discuti el anlisis de los residuales
Se discuti una medicin de la autocorrelacin de los
errores.

Resumen del Captulo


(continuacin)

Se describi la inferencia sobre la pendiente


del modelo de regresin
Se present la correlacin como una medida de
la fuerza de asociacin
Se introdujeron las estimaciones por intervalo
de los valores de la media de Y y de los valores
individuales de Y
Se discutieron las posibles dificultades del
modelo de regresin y se recomendaron
estrategias para evitarlas

Potrebbero piacerti anche