Sei sulla pagina 1di 6

STATGRAPHICS Rev.

4/25/2007

Anlisis Probit
Resumen
El procedimiento Anlisis Probit est diseado para ajustar un modelo de regresin en el cual la
variable dependiente Y caracteriza un evento con slo dos posibles resultados. Se pueden
modelados dos tipos de datos:
1. Datos en los que Y consiste en un conjunto de 0s y 1s, donde 1 representa la
ocurrencia de uno de los dos resultados.
2. Datos en los cuales Y representa la proporcin de veces que ocurre uno de los dos
resultados.
El modelo de regresin relaciona a Y con una o ms variables predictoras X, que pueden ser
cuantitativas o categricas. En este procedimiento, se asume que la probabilidad de un evento
est relacionada con los predictores a travs de la funcin probit. El procedimiento Regresin
Logstica puede usarse para ajustar el mismo tipo de datos pero emplea una forma funcional
diferente.
El procedimiento ajusta un modelo usando mxima verosimilitud o mnimos cuadrados
ponderados. La seleccin por pasos de variables es una opcin. Para probar la significancia de
los coeficientes del modelo se realizan pruebas de cociente de verosimilitud. Se puede graficar el
modelo ajustado y predicciones generados a partir del mismo. Se identifican y grafican residuos
atpicos.
Dado que el procedimiento Anlisis Probit es anlogo al de Regresin Logstica, debe remitirse a
la documentacin de ste ltimo para una descripcin detallada de las diferentes opciones. Esta
documentacin resalta las diferencias entre los dos modelos y cubre un ejemplo simple.

StatFolio de Ejemplo: probit.sgp


Datos de Ejemplo:
El archivo beetles.sf3 contiene un bien conocido conjunto de datos de Bliss (1935) que muestra
los resultados de experimentos en los cuales se expusieron escarabajos a diferentes
concentraciones de bisulfuro de carbono. El archivo de datos muestra la dosis (dose), el nmero
de escarabajos expuestos (exposed), y el nmero de escarabajos muertos (killed).
Dose
1.6907
1.7242
1.7552
1.7842
1.8113
1.8369
1.861
1.8839

Exposed
59
60
62
56
63
59
62
60

2006 por StatPoint, Inc.

Killed
6
13
18
28
52
53
61
60

Anlisis Probit - 1

STATGRAPHICS Rev. 4/25/2007


Para estos datos, la variable dependiente Y es la proporcin de escarabajos expuestos a cada dosis
que murieron, calculada por Y = Killed / Exposed, es decir, Y = muertos / expuestos. Hay una
sola variable predictora X = Dose (dosis). Hay un total de n = 481 sujetos.

Ingreso de Datos
La caja de dilogo del ingreso de datos solicita informacin sobre las variables de entrada:

Variable Dependiente: una variable numrica que contiene a la variable dependiente Y. Y


puede consistir en un conjunto de s proporciones, cada una entre 0 y 1, o un conjunto de n 0s
y 1s binarios que representan la ocurrencia o no ocurrencia de un resultado.

(Tamao de Muestra): Si Y contiene un conjunto de proporciones, ingrese una columna con


los tamaos de muestra correspondientes a cada proporcin. Si Y contiene un conjunto de 0s
y 1s, deje este campo en blanco.

Factores Cuantitativos: columnas numricas que contienen los valores de cualesquiera


factores cuantitativos a ser incluidos en el modelo.

Factores Categricos: columnas numricas o no numricas que contienen los niveles de


cualesquiera factores categricos a ser incluidos en el modelo.

Seleccin: seleccin de un subgrupo de datos.

2006 por StatPoint, Inc.

Anlisis Probit - 2

STATGRAPHICS Rev. 4/25/2007

Modelo Estadstico
El modelo probit relaciona la probabilidad de ocurrencia P del resultado contado por Y con las
variables predictoras X. El modelo toma la forma
P ( X ) = ( 0 + 1 X 1 + 2 X 2 + ... + k X k )

(1)

donde (Z) es la funcin de distribucin acumulada normal estndar.

Resumen del Anlisis


El Resumen del Anlisis presenta una tabla que muestra el modelo estimado y las pruebas de
significancia para coeficientes del modelo. A continuacin se muestra una salida tpica.
Anlisis Probit - Killed/Exposed
Variable dependiente: Killed/Exposed
Tamaos de muestra: Exposed
Factores:
Dose
Modelo Estimado de Regresin (Mxima Verosimilitud)
Error
Parmetro
Estimado
Estndar
CONSTANTE
-34.9349
2.65395
Dose
19.7277
1.49062
Anlisis de Desviacin
Fuente
Desviacin
Modelo
274.083
Residuo
10.1198
Total (corr.)
284.202

Gl
1
6
7

Valor-P
0.0000
0.1197

Porcentaje de desviacin explicado por el modelo = 96.4392


Porcentaje ajustado = 95.0318
Pruebas de Razn de Verosimilitud
Factor Chi-Cuadrada Gl Valor-P
Dose
274.083
1
0.0000
Anlisis de Residuos
Estimacin
n
8
MSE
0.131797
MAE
0.0562163
MAPE
17.4188
ME
-0.0211148
MPE
-3.25668

Validacin

La salida incluye:

Resumen de los Datos: un resumen de los datos que fueron ingresados.

Modelo Estimado de Regresin: estimaciones de los coeficientes del modelo de regresin,


con errores estndar.

2006 por StatPoint, Inc.

Anlisis Probit - 3

STATGRAPHICS Rev. 4/25/2007

Anlisis de Desviacin: descomposicin de la desviacin de los datos en un componente


explicado (Modelo) y un componente no explicado (Residuo). La Desviacin compara la
funcin de verosimilitud de un modelo con el valor ms grande que puede alcanzar la
funcin de verosimilitud, de tal forma que un modelo perfecto tendra una desviacin igual a
0. Hay tres renglones en la tabla:
1. Total (corr.) la desviacin de un modelo que contiene nicamente un trmino
constante, (0).
2. Residuo la desviacin que queda despus de haber ajustado el modelo.
3. Modelo la reduccin en la desviacin debida a las variables predictoras,
(1,2,,k|0), igual a la diferencia entre los otros dos componentes.
El Valor de P para el Modelo prueba si el aadir las variables predictoras reduce
significativamente la desviacin comparada con un modelo que contiene slo un trmino
constante. Un Valor de P pequeo (menor de 0.05 si se trabaja con un nivel de significancia
del 5%) indica que el modelo ha reducido significativamente la desviacin y es as til para
predecir la probabilidad del resultado estudiado. Un Valor de P pequeo indica que una
desviacin significativa queda an en los residuos, as que puede haber un mejor modelo.

Porcentaje de Desviacin el porcentaje de desviacin explicada por el modelo, calculada


por medio de
R2 =

( 1 , 2 ,..., k | 0 )
( 0 )

(2)

Es similar a una estadstica R cuadrada en regresin mltiple, en que va de 0% a 100%.


Tambin se calcula una desviacin ajustada con
2
Radj
=

( 1 , 2 ,..., k | 0 ) 2 p
( 0 )

(3)

donde p es igual al nmero de coeficientes en el modelo ajustado, incluyendo al trmino


constante. Es semejante a la estadstica R-cuadrada ajustada en que compensa el nmero de
variables en el modelo.

Pruebas de Razn de Verosimilitud una prueba de significancia para cada efecto en el


modelo ajustado. Estas pruebas comparan la funcin de verosimilitud del modelo completo
con la del modelo en el cual slo el efecto indicado ha sido removido. Valores de P pequeos
indican que el modelo ha mejorado significativamente por el efecto correspondiente.

Anlisis de Residuos si un subgrupo de filas en la hoja de datos ha sido excluido del


anlisis usando el campo Seleccionar en la caja de dilogo de ingreso de datos, el modelo
ajustado se usa para hacer predicciones de los valores de Y para estas filas. Esta tabla muestra
estadsticas sobre los errores de prediccin, definidos por

2006 por StatPoint, Inc.

Anlisis Probit - 4

STATGRAPHICS Rev. 4/25/2007


(4)

ei = y i P ( X i )

Se incluyen el cuadrado medio del error (CME), el error absoluto medio (EAM), el error
porcentual absoluto medio (EPAM), el error medio (EM), y el error porcentual medio (EPM).
Estas estadsticas de validacin pueden ser comparadas con las estadsticas del modelo
ajustado para determinar qu tan bien el modelo predice las observaciones fuera de los datos
usados para ajustarlo.
El modelo ajustado para los datos del ejemplo es
P ( Killed ) = ( - 34.9349 + 19.7277 Dose )

(5)

La regresin explica alrededor del 96.4% de la desviacin de un modelo sin Dose. El valor de P
para Dose es muy pequeo, indicando que es un predictor estadsticamente significativo para la
proporcin de escarabajos muertos (Killed).
Advierta que el valor de P para los Residuos no es significativo, indicando que no queda falta de
ajuste significativa sin explicar.

Grfico del Modelo Ajustado


El Grfico del Modelo Ajustado presenta la probabilidad estimada de un resultado P ( X ) versus
cualquier variable predictora sola, con las otras variables constantes.
Grfica del Modelo Ajustado
con intervalos de confianza del 95.0%
1

Killed/Exposed

0.8
0.6
0.4
0.2
0
1.6

1.65

1.7

1.75
Dose

1.8

1.85

1.9

Se incluyen en el grfico lmites de confianza para P(X).

2006 por StatPoint, Inc.

Anlisis Probit - 5

STATGRAPHICS Rev. 4/25/2007

Grfico Probit
El Grfico Probit es similar al Grfico del Modelo Ajustado, excepto que el eje vertical est
escalado de manera que el modelo ajustado ser una lnea recta.
Probit(Killed/Exposed)
con intervalos de confianza del 95.0%

porcentaje acumulado

99.9
99
95
80
50
20
5
1
0.1
1.6

1.65

2006 por StatPoint, Inc.

1.7

1.75
Dose

1.8

1.85

1.9

Anlisis Probit - 6

Potrebbero piacerti anche