Sei sulla pagina 1di 40

La regresión de Poisson

Introducción
Regresión de Poisson es similar a la regresión múltiple normal, excepto que la dependiente (Y) variable es un recuento observado que sigue la distribución de
Poisson. Así, los valores posibles de Y son los números enteros no negativos: 0, 1, 2, 3, y así sucesivamente. Se supone que los grandes recuentos son raros. Por lo
tanto, la regresión de Poisson es similar a la regresión logística, que también tiene una variable de respuesta discreta. Sin embargo, la respuesta no se limita a
valores específicos como lo es en la regresión logística.

Un ejemplo de una aplicación adecuada de la regresión de Poisson es un estudio de cómo los recuentos de colonias de bacterias están relacionadas con diversas
condiciones ambientales y diluciones. Otro ejemplo es el número de fallos para una determinada máquina en diversas condiciones de funcionamiento. Otro
ejemplo es las estadísticas vitales relativas a la mortalidad infantil o la incidencia de cáncer entre los grupos con diferentes grupos demográficos.

La mayoría de los libros sobre análisis de regresión discuten brevemente regresión de Poisson. Somos conscientes de un solo libro que está completamente dedicado a la
discusión del tema. Este es el libro por Cameron y Trivedi (1998). La mayoría de los métodos que aquí se presentan se obtuvieron a partir de su libro.

Este programa calcula la regresión de Poisson en ambas variables numéricas y categóricas. Se informa sobre la ecuación de regresión así como la bondad del
ajuste, los límites de confianza, probabilidad y la desviación. Se realiza un análisis residual integral que incluye informes residuales de diagnóstico y parcelas. Se
puede realizar una búsqueda de selección de subconjuntos, en busca de la mejor modelo de regresión con las variables independientes menor cantidad.
Proporciona intervalos de confianza en los valores pronosticados.

La distribución de Poisson
Los modelos de distribución de Poisson, la probabilidad de y eventos (es decir, el fracaso, la muerte, o existencia) con la fórmula

Nótese que la distribución de Poisson se especifica con un solo parámetro μ. Esta es la tasa de incidencia media de un evento raro por unidad de exposición. La exposición

puede ser tiempo, espacio, distancia, el área, el volumen o tamaño de la población. Dado que la exposición es a menudo un período de tiempo, utilizamos el símbolo t para

representar a la exposición. Cuando no se da ningún valor de la exposición, se supone ser una. El parámetro μ puede interpretarse como el riesgo de una nueva ocurrencia del

evento durante un período de exposición especificado, t. La probabilidad de la y eventos entonces dada por

La distribución de Poisson tiene la propiedad de que su media y la varianza son iguales.

325-1
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

El modelo de regresión de Poisson


En la regresión de Poisson, suponemos que la tasa de incidencia de Poisson μ está determinada por un conjunto de k las variables predictoras (la X). La
expresión que relacione estas cantidades es

Tenga en cuenta que a menudo, 1 1 ≡ X y 1 β se llama intersección. Los coeficientes de regresión β1, β2,..., β k son desconocidos parámetros que se estiman a partir de un conjunto
de datos. Sus estimaciones están etiquetadas b1, b2,..., bk. Usando esta notación, el modelo de regresión de Poisson fundamental para una observación i se escribe como

Donde:

Es decir, para un conjunto dado de valores de las variables predictoras, el resultado sigue la distribución de Poisson.

Solución de estimación de máxima verosimilitud


Los coeficientes de regresión se estiman utilizando el método de máxima verosimilitud. El logaritmo de la función de probabilidad es

Tenga en cuenta que algunos paquetes estadísticos ignoran el último plazo, ya que no se trate de los parámetros de regresión. Esto hará que sus
verosimilitudes log calculados diferentes a los nuestros.

Las ecuaciones de probabilidad se pueden formar mediante la adopción de los derivados con respecto a cada coeficiente de regresión y establecer el resultado igual a cero.
Hacer esto conduce a un conjunto de ecuaciones no lineales que no admite solución de forma cerrada. Por lo tanto, un algoritmo iterativo debe ser usado para encontrar el
conjunto de coeficientes de regresión que la máxima verosimilitud logarítmica. Utilizando el método de los mínimos cuadrados iterativamente reponderadas, una solución se
puede encontrar en cinco o seis iteraciones. Sin embargo, el algoritmo requiere un pase completo a través de los datos en cada iteración, por lo que es relativamente lento para
los problemas con un gran número de filas. Con los ordenadores de hoy en día, esto es cada vez menos y menos de un problema.

Distribución de la MLE
La aplicación de la teoría de probabilidad máxima de costumbre, la distribución asintótica de las estimaciones de máxima verosimilitud (MLE de) es normal
multivariante. Es decir,

Donde:

Recuerde que en el modelo de Poisson la media y la varianza son iguales. En la práctica, los datos casi siempre rechazan esta restricción. Por lo
general, la variación es mayor que la media, una situación llamada sobredispersión. los

325-2
Statistical Software NCSS NCSS.com

La regresión de Poisson

Incremento en la varianza está representado en el modelo por un múltiplo constante de la matriz de varianza-covarianza. Es decir, usamos

Dónde φ es estimado usando

NCSS proporciona la opción de usar φ (phi) en el cálculo de las varianzas de los coeficientes de regresión.

Bondad de pruebas de ajuste

El rendimiento global del modelo se mide por dos pruebas de chi-cuadrado. Estos son la estadística de Pearson

Y la desviación, o G, estadística

Ambas estadísticas son aproximadamente distribuido con chi-cuadrado n - k grados de libertad. Cuando se rechaza una prueba, hay una importante falta de ajuste. Cuando no
se rechaza una prueba, no hay evidencia de falta de ajuste. La estadística de Pearson es solamente chi-cuadrado distribuido cuando se analiza los datos agrupados, por lo que si

usted no está utilizando una variable de frecuencia, no se debe utilizar la estadística de Pearson como una prueba de bondad de ajuste. La estadística de Pearson se utiliza a
menudo como una prueba de sobredispersión.

Desviación

La desviación es el doble de la diferencia entre el máximo de verosimilitud logarítmica alcanzable y el logaritmo de la verosimilitud del modelo ajustado. En la
regresión múltiple bajo la normalidad, la desviación es la suma residual de cuadrados. En el caso de regresión de Poisson, la desviación es una generalización de la
suma de cuadrados. La fórmula para la desviación es

Medidas Pseudo R-Ajustada


Los R- Estadística cuadrado no se extiende a los modelos de regresión de Poisson. Varios de pseudo R- Se han propuesto pruebas al cuadrado. Estas medidas seudo
tienen la propiedad de que, cuando se aplica al modelo lineal, que coinciden con la interpretación del modelo lineal R- al cuadrado. En la regresión de Poisson, el
pseudo más popular R- medida al cuadrado es la función de las verosimilitudes log de tres modelos

325-3
© NCSS, LLC. Todos los derechos reservados.
Donde:

Tenga en cuenta que 0 LL es la log-verosimilitud del modelo de solo interceptación, fit LL es la log-verosimilitud del modelo actual y max LL es la máxima logaritmo
posible. La máxima logaritmo-verosimilitud se produce cuando las respuestas reales (las i y 's) son exactamente iguales a las respuestas pronosticadas (las i μ' s).
Tenga en cuenta que este valor de R-cuadrado varía entre cero y uno, con un ajuste perfecto que ocurre en uno. También tenga en cuenta que supone que hay una
intersección en el modelo. Esto puede ser una intercepción explícita real o una intercepción implícita (como cuando se usa un conjunto completo de variables de
indicador para representar una variable categórica).

Derechos residuales de autor

Como en cualquier análisis de regresión, se debe emplear un análisis residual completa. Esto implica el trazado de los residuos contra otras diversas
cantidades tales como las variables regresoras (para comprobar los valores atípicos y curvatura) y la variable de respuesta. Varios residuos pueden ser de
interés. Estos se presentan a continuación.

Prima Residual
El residual en bruto es la diferencia entre la respuesta real y el valor estimado del modelo. Debido a que en el caso de Poisson, la varianza es igual a la
media, se espera que las varianzas de los residuos son desiguales. Esto puede conducir a dificultades en la interpretación de los resultados burdos. Sin
embargo, siguen siendo populares. La fórmula para el residual cruda es

Pearson Residual
Los corrige residuales de Pearson para la desigualdad de la varianza en los residuos dividiendo por la desviación estándar. La fórmula para el
residual Pearson es

La Desviación Residual

La desviación residual es otra residual popular. Es popular porque la suma de los cuadrados de estos residuos es la desviación estadística. La fórmula
para el residual es la desviación

© NCSS, LLC. Todos los derechos reservados.


Statistical Software NCSS NCSS.com
La regresión de Poisson

Valores Sombrero

La matriz de sombrero se utiliza en el diagnóstico residual para medir la influencia de cada observación. Los valores sombrero, h ii, son las entradas diagonales de la matriz
de sombrero que se calcula usando

Dónde W es una matriz diagonal compuesta de u

Los valores sombrero deben estudiarse a sí mismos, para entender qué observaciones tienen una gran influencia en los coeficientes de regresión ajustada. Sombrero
valores grandes son aquellos que son más grandes que 2 k / n. También se utilizan para normalizar aún más residuos como se muestra a continuación.

Studentizado Pearson residual


La fórmula para el residual Pearson studentizados es

Studentizado desviación residual


La fórmula para el residual desviación studentized es

Selección de subconjuntos

Selección de subconjuntos se refiere a la tarea de encontrar un pequeño subconjunto de las variables predictoras disponibles que hace un buen trabajo de la predicción de la
variable dependiente. Debido a la regresión de Poisson debe ser resuelto de forma iterativa, la tarea de encontrar el mejor subconjunto puede llevar mucho tiempo. Por lo
tanto, las técnicas que se ven en todas las combinaciones posibles de las variables predictoras no son factibles. En su lugar, se deben utilizar algoritmos que agregar o eliminar
una variable en cada paso. Dos de esos algoritmos de búsqueda están disponibles en este módulo: la selección hacia adelante y hacia adelante con la selección de
conmutación.

Antes de discutir los detalles de estos dos algoritmos, es importante comentar un par de problemas que pueden surgir. La primera cuestión es qué hacer con las
variables binarias que se generan para una variable independiente categórica. Si dicha variable tiene seis categorías, se generan cinco variables binarias. Se puede
ver que con dos o tres variables categóricas, un gran número de variables binarias puede dar, lo que aumenta considerablemente el número total de variables que
deben ser buscados. Para evitar este problema, los algoritmos utilizados aquí buscan en términos de modelo, más que en las variables individuales. Por lo tanto,
todo el conjunto de variables binarias asociados con un término dado se consideran en conjunto para su inclusión en, o deleción de, el modelo. Sus todos o
ninguno. Debido a la naturaleza que lleva tiempo del algoritmo, esta es la única forma viable para hacer frente a las variables categóricas. Si desea que el algoritmo
subconjunto tratar con ellos de forma individual, se puede generar el conjunto de variables binarias de forma manual y designarlos como variables numéricas.

Los modelos jerárquicos

Una segunda cuestión es qué hacer con las interacciones. Por lo general, una interacción no se introduce en el modelo a menos que los términos individuales que componen
esa interacción también se encuentran en el modelo. Por ejemplo, el término de interacción A * B * C no se incluye menos que los términos A, B, C, A * B, A * C, y B * C ya
están en el modelo. Tales modelos se dice que son

Jerárquico. Tiene la opción durante la búsqueda para forzar el algoritmo de considerar sólo los modelos jerárquicos durante su búsqueda. Por lo tanto, si C no es en
el modelo, las interacciones que implican C son ni siquiera considerados. A pesar de que la opción para los modelos no jerárquicos está disponible, se recomienda
que se tiene en cuenta solamente los modelos jerárquicos.

325-5
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Selección hacia adelante

El método de selección hacia adelante procede como sigue.

1. Comience sin términos en el modelo.

2. Encontrar el término que, cuando se añade al modelo, alcanza el mayor valor de R- al cuadrado. Introducir este término
en el modelo.

3. Continuar añadiendo términos hasta que se alcanza un límite preestablecido en el número máximo de términos en el modelo. Este método es
relativamente rápido, pero no garantiza que el mejor modelo se encuentra a excepción del primer paso cuando encuentra el mejor término sola. Es posible
utilizarlo cuando se tiene un gran número de observaciones para que otros métodos que requieren mucho tiempo, mas, no son factibles, o cuando tiene
demasiadas las variables predictoras posible y desea reducir el número de términos en el grupo de selección.

Selección hacia adelante con conmutación

Este método es similar al método de Forward Selección discutido anteriormente. Sin embargo, en cada etapa cuando se añade un término, todos los términos en
el modelo se conmutan uno a la vez con todos los términos candidatos no en el modelo para determinar si aumentan el valor de R- al cuadrado. Si un interruptor
se puede encontrar, se hace y los términos candidatos se buscaron nuevamente para determinar si otro interruptor se puede hacer.

Cuando la búsqueda de posibles interruptores no cede un candidato, el tamaño de subconjunto se incrementa en uno y se inicia una nueva búsqueda. El algoritmo se
termina cuando se alcanza un tamaño de subconjunto de destino o todos los términos están incluidos en el modelo.

Discusión
Estos algoritmos requieren generalmente dos carreras. En la primera carrera, se establece el tamaño máximo subconjunto en un valor grande como 10. Al estudiar los informes
de selección de subconjuntos de esta ejecución, puede determinar rápidamente el número óptimo de términos. Restablece el tamaño máximo subconjunto de este número y
realice la segunda pasada. Este procedimiento de dos pasos trabaja mejor que depender de algunos F-a-entrar y eliminar F-a-pruebas cuyas propiedades no se entienden
bien, para empezar.

Estructura de datos

Como mínimo, los conjuntos de datos a ser analizados por regresión de Poisson debe contener una variable dependiente y una o más variables
independientes. Para cada variable categórica, el programa genera un conjunto de binario (0 y 1) variables que expresan la misma información. Por
ejemplo, en la tabla siguiente, el grupo de edad variable discreta será reemplazado por las variables Ag2 través AG6 (Ag1 no es necesario).

Koch et. Alabama. (1986) presentan los siguientes datos tomados de la Tercera Encuesta Nacional del Cáncer. Este conjunto de datos contiene el número de nuevos
casos de melanoma en 1969-1971 entre los hombres blancos en dos áreas para diferentes grupos de edad. El tamaño de la población estimada en riesgo se da en
la población variable.

325-6
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

conjunto de datos Koch36

Melanoma Área Grupo Edad Población AG1 AG2 AG3 AG4 AG5 AG6

61 0 <35 2880262 1 0 0 0 0 0
76 0 35-44 564535 0 1 0 0 0 0
98 0 45-54 592983 0 0 1 0 0 0
104 0 54-64 450740 0 0 0 1 0 0
63 0 65-74 270908 0 0 0 0 1 0
80 0 > 74 161850 0 0 0 0 0 1
64 1 <35 1074246 1 0 0 0 0 0
75 1 35-44 220407 0 1 0 0 0 0
68 1 45-54 198119 0 0 1 0 0 0
63 1 54-64 134084 0 0 0 1 0 0
45 1 65-74 70708 0 0 0 0 1 0
27 1 > 74 34233 0 0 0 0 0 1

Valores faltantes
Si se encuentran los valores que faltan en ninguna de las variables independientes que se utiliza, se omite la fila. Si sólo el valor de la variable dependiente
es que falta, ese registro no se utilizará durante el proceso de estimación, pero su valor predicho se genera y se informó sobre.

Opciones para procedimientos

En esta sección se describen las opciones disponibles en este procedimiento.

Variables, Pestaña Modelo

Este panel especifica las variables y el modelo se utilizan en el análisis.

Variables

Dependiente Y

Especificar la variable (respuesta) dependiente. Esta es la variable que se predice por las variables independientes. Los valores de esta variable
deben ser enteros no negativos (cero está bien).

Exposición T
Especificar una variable opcional que contiene valores de exposición. Si esta opción se deja en blanco, todas las exposiciones se establecerán en
1.0. Esta variable se especifica cuando las exposiciones son diferentes para cada fila.

La exposición es la cantidad de tiempo, espacio, la distancia, el volumen o tamaño de la población de la que se cuenta la variable dependiente. Por ejemplo, la
exposición puede ser el tiempo en días, meses o años durante los cuales se obtuvieron los valores en esa fila. Puede que sea el número de personas en situación
de riesgo o el número de años-hombre de la cual se mide la variable dependiente.

Cada exposición debe ser un número positivo (no-cero) o la fila se ignora durante la fase de estimación.

Numéricos de las X

Especificar las variables independientes (continuas) numéricas. Por numérico, queremos decir que los valores son numéricos y al menos ordinal. Las variables
nominales, incluso cuando se codifica con los números, se deben especificar como variables independientes categóricas. Aunque es posible especificar (0-1)
variables binarias aquí, están mejor analizados cuando se especifica como variables independientes categóricas.

325-7
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Si desea crear poderes y productos cruzados de estas variables, especifique un modelo apropiado en el campo 'Modelo personalizado' en la pestaña
Modelo. Si desea crear valores predichos de Y para valores de X no en su base de datos, añadir el X valores a la parte inferior de la base de datos. No van
a ser utilizados durante la estimación, pero los valores predichos se generarán para ellos.

Categóricos de X

Especificar categóricas (nominales o grupo) variables independientes en esta caja. Por categórica queremos decir que la variable tiene sólo unos pocos
único, numérico o de texto, valores como 1, 2, 3 o Sí, no, quizá. Los valores se utilizan para identificar las categorías.

El análisis de regresión sólo se define para las variables numéricas. Desde variables categóricas son nominales, no pueden ser utilizados directamente en la
regresión. En cambio, un conjunto interno de variables numéricas debe ser sustituido para cada variable categórica.

Supongamos que una variable categórica tiene GRAMO categorías. NCSS genera automáticamente el GRAMO- 1, las variables numéricas internos para el análisis. La forma se

crean estas variables internas se determina por el esquema de recodificación y, si es necesario, el valor de referencia. Estas opciones se pueden introducir por separado con
cada variable categórica, o pueden especificado utilizando un valor por defecto (ver Esquema predeterminado recodificación y valor de referencia predeterminado más

adelante). La sintaxis para especificar una variable categórica es NombreVar (CType; RefValue) dónde NombreVar es el nombre de la variable, CType es el esquema de

recodificación y RefValue es el valor de referencia, si es necesario.

CType

El esquema de recodificación se introduce como una carta. Las opciones posibles son B, P, R, N, S, L, F, A, 1, 2, 3, 4, 5, o E. El significado de cada una de estas cartas es
el siguiente.

• segundo para binaria ( el grupo con el valor de referencia se omite).


Ejemplo: Z Variable categórica con 4 categorías. Categoría D es el valor de referencia. Z B1 B2
B3 A 1 0 0 B 0 1 0 C 0 0 1 D 0 0 0

• PAG para Polinomio de hasta el quinto orden (no se puede utilizar esta opción con variables categóricas con más de 6 categorías.

Ejemplo: Z Variable categórica con 4 categorías. Z P1 P2


P3 1 -3 1 -1 -1 -1 3 3 5 1 -1 -3 7 3 1 1

• R comparar cada uno con el valor de referencia ( el grupo con el valor de referencia se omite).
Ejemplo: Z Variable categórica con 4 categorías. Categoría D es el valor de referencia. Z C1 C2
C3 A 1 0 0 B 0 1 0 C 0 0 1 D -1 -1 -1

325-8
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

• norte comparar cada uno con el siguiente categoría.


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 1 0 0 3 1 -1 0 5 0 -1 1 7 0 0 -1

• S comparar cada uno con el promedio de todos los posteriores valores.


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 -3 0 0 3 1 -2 0 5 1 1 -1 7 1 1 1

• L comparar cada uno con el anterior categoría.


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 -1 0 0 3 1 -1 0 5 0 1 -1 7 0 0 1

• F comparar cada uno con el promedio de todos antes categorías.


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 1 1 1 3 1 1 -1 5 1 -2 0 7 0 0 -3

• UN comparar cada uno con el promedio de todos categorías (valor de referencia se omite).
Ejemplo: Z Variable categórica con 4 categorías. Supongamos que el valor de referencia es 3. Z S1
S2 S3 1 -3 1 1 3 1 1 1 5 1 -3 1 7 1 1 -3

• 1 comparar cada uno con el primero categoría después de la clasificación.


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A -1 -1 -1 B 1 0 0 0 C 1 0 D 0 0 1

325-9
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

• 2 comparar cada uno con el segundo categoría después de la clasificación.


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B -1 -1 -1 C 0 1 0 D 0 0 1

• 3 comparar cada uno con el tercero categoría después de la clasificación.


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B 0 1 0 C -1 -1 -1 D 0 0 1

• 4 comparar cada uno con el cuarto categoría después de la clasificación.


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B 0 1 0 C 0 0 1 D -1 -1 -1

• 5 comparar cada uno con el quinto categoría después de la clasificación.


Ejemplo: Z Variable categórica con 5 categorías. Z C1 C2
C3 C4 A 1 0 0 0 B 0 1 0 0 C 0 0 1 0 D 0 0 0 1 E -1 -1 -1 -1

• mi comparar cada uno con el último categoría después de la clasificación.


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B 0 1 0 C 0 0 1 D -1 -1 -1

RefValue
Un segundo argumento, opcional es el valor de referencia. El valor de referencia es una de las categorías. Las otras categorías se comparan a la misma, por lo que es por
lo general un valor de referencia o control. Si ni una línea de base o valor de control es evidente, el valor de referencia es el valor más frecuente.

Por ejemplo, supongamos que desea incluir una variable independiente categórica, Estado, que tiene cuatro valores: Texas, California, Florida, y el NewYork.
Supongamos que el esquema de recodificación se especifica como Cada comparar con el valor de referencia con el valor de referencia de California. Se podría
introducir

Estado (R; California)

325-10
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Por defecto recodificación Esquema

Seleccionar el tipo predeterminado de variable numérica que se generará en el tratamiento de las variables independientes categóricas. Los valores de una
variable categórica no se utilizan directamente en el análisis de regresión. En su lugar, un conjunto de variables numéricas se crea y sustituido por ellos de
forma automática. Esta opción le permite especificar qué tipo de variable numérica se va a crear. Las opciones se describen en las siguientes secciones.

El tipo de contraste también puede ser designado dentro de paréntesis después del nombre de cada variable independiente categórica, en cuyo caso se tiene en
cuenta el tipo de contraste predeterminado.

Si su modelo incluye las interacciones de las variables categóricas, esta opción debe establecerse en 'contraste con Reference'or Comparar con todos los
posteriores' con el fin de igualar los resultados de GLM para los efectos de los factores.

• binaria ( el grupo con el valor de referencia se omite).


Ejemplo: Z Variable categórica con 4 categorías. Categoría D es el valor de referencia. Z B1 B2
B3 A 1 0 0 B 0 1 0 C 0 0 1 D 0 0 0

• Polinomio de hasta el quinto orden (no se puede utilizar esta opción con variables categóricas con más de 6 categorías.

Ejemplo: Z Variable categórica con 4 categorías. Z P1 P2


P3 1 -3 1 -1 -1 -1 3 3 5 1 -1 -3 7 3 1 1

• Cada comparar con Valor de referencia ( el grupo con el valor de referencia se omite).
Ejemplo: Z Variable categórica con 4 categorías. Categoría D es el valor de referencia. Z C1 C2
C3 A 1 0 0 B 0 1 0 C 0 0 1 D -1 -1 -1

• Cada comparar con Siguiente.


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 1 0 0 3 1 -1 0 5 0 -1 1 7 0 0 -1

• Cada comparar con todos los posteriores.


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 -3 0 0 3 1 -2 0 5 1 1 -1 7 1 1 1

325-11
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

• Cada comparar con anterioridad


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 -1 0 0 3 1 -1 0 5 0 1 -1 7 0 0 1

• Cada comparar con All Antes


Ejemplo: Z Variable categórica con 4 categorías. Z S1 S2
S3 1 1 1 1 3 1 1 -1 5 1 -2 0 7 0 0 -3

• Cada comparar con el promedio


Ejemplo: Z Variable categórica con 4 categorías. Supongamos que el valor de referencia es 3. Z S1
S2 S3 1 -3 1 1 3 1 1 1 5 1 -3 1 7 1 1 -3

• Cada comparar con el primer


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A -1 -1 -1 B 1 0 0 0 C 1 0 D 0 0 1

• Cada comparar con el segundo


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B -1 -1 -1 C 0 1 0 D 0 0 1

• Cada comparar con el Tercer


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B 0 1 0 C -1 -1 -1 D 0 0 1

325-12
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

• Cada comparar con el cuarto


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B 0 1 0 C 0 0 1 D -1 -1 -1

• Cada comparar con Fifth


Ejemplo: Z Variable categórica con 5 categorías. Z C1 C2 C3
C4 A 1 0 0 0 B 0 1 0 0 C 0 0 1 0 D 0 0 0 1 E -1 -1 -1 -1

• Cada comparar con el pasado


Ejemplo: Z Variable categórica con 4 categorías. Z C1 C2
C3 A 1 0 0 B 0 1 0 C 0 0 1 D -1 -1 -1

Por defecto Valor de referencia

Esta opción especifica el valor de referencia predeterminado que se utiliza cuando la generación automática de variables de indicador durante el procesamiento de variables
independientes categóricas seleccionados. El valor de referencia es a menudo la línea de base, y los otros valores son comparados a la misma. Las opciones son

• Primer valor después de su clasificación - quinto valor después de la clasificación

Utilice la primera (a través de quinto) valor en orden clasificado alfa-numérico como valor de referencia.

• Último valor después de la clasificación

Utilizar el último valor en el orden de clasificación alfanumérico como valor de referencia.

Frecuencias
Esta es una variable opcional que contiene la frecuencia (recuento de observación) para cada fila. Por lo general, debería dejar esta opción en blanco y dejar que
cada fila recibe la frecuencia por defecto de uno.

Si ya se han resumido sus datos, esta opción le permite especificar el número de filas real de cada fila representa física.

Modelo de regresión

Condiciones

Esta opción especifica qué términos (términos, potencias, productos cruzados, y las interacciones) están incluidos en el modelo de regresión. Para un modelo
de regresión recta de avance, seleccione 1-Way.

325-13
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Las opciones son

• Hasta 1-Way

Esta opción genera un modelo en el que cada variable está representada por un solo término modelo. No se han añadido productos cruzados, interacciones, o
poderes. Utilice esta opción cuando desee utilizar las variables que se han especificado, pero no desea generar otros términos.

Esta es la opción de seleccionar cuando se quiere analizar las variables independientes especificadas sin añadir ningún otro término.

Por ejemplo, si tiene tres variables independientes A, B, y C, esto generaría el modelo:


A+B+C

• Hasta 2-Way

Esta opción especifica que todas las variables individuales, interacciones bidireccionales, y plazas de las variables numéricas se incluyen en el
modelo. Por ejemplo, si tiene tres variables numéricas A, B, y C, esto generaría el modelo:

A+B+C+A*B+A*C+B*C+A*A+B*B+C*C

Por otro lado, si tiene tres variables categóricas A, B, y C, esto generaría el modelo:

A+B+C+A*B+A*C+B*C

• Hasta un 3-Way

Todas las variables individuales, las interacciones de dos vías, de tres vías, plazas interacciones de variables numéricas, y los cubos de las
variables numéricas se incluyen en el modelo. Por ejemplo, si tiene tres variables independientes, numéricos A, B, y C, esto generaría el
modelo:

A+B+C+A*B+A*C+B*C+A*B*C+A*A+B*B+C*C+A*A*B+A*A*C+B*B*C+A*C*C+B*C*C

Por otro lado, si tiene tres variables categóricas A, B, y C, esto generaría el modelo:

A+B+C+A*B+A*C+B*C+A*B*C

• Hasta 4-Way

Todas las variables individuales, las interacciones de dos vías, de tres vías interacciones y las interacciones de cuatro vías se incluyen en el modelo.
También se incluiría cuadrados, cubos y cuárticas de variables numéricas y sus productos cruzados.

Por ejemplo, si tiene cuatro variables categóricas A, B, C, y D, esto generaría el modelo:

A+B+C+D+A*B+A*C+A*D+B*C+B*D+C*D+A*B*C+A*B*D+A*C*D+B*C*D+A*B*C*D

• Interacción

Se utiliza principalmente para las variables categóricas. Se genera un modelo saturado (todos los términos y sus interacciones). Esto requiere un conjunto
de datos categóricos sin combinaciones de variables que faltan (que puede tener un número desigual de observaciones para cada combinación de las
variables categóricas). Sin cuadrados, cubos, etc. se generan. Por ejemplo, si tiene tres variables independientes A, B, y C, esto generaría el modelo:

A+B+C+A*B+A*C+B*C+A*B*C

Tenga en cuenta que la discusión de la opción Modelo personalizado discute la interpretación de este modelo.

• Modelo de encargo

El modelo especificado en el Modelo de encargo se utiliza la caja.

325-14
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Retire Intercepción

Sin control indica que el término de intersección, β 0, está para ser incluido en la regresión. Seleccionado indica que la intercepción debe ser omitido en el modelo de
regresión. Tenga en cuenta que la supresión de la intersección distorsiona la mayor parte de las estadísticas de diagnóstico ( R 2, etc.). En la mayoría de las situaciones,
debe incluir la intersección en el modelo.

Reemplazar modelo personalizado con vista previa Modelo (botón)

Cuando se pulsa este botón, el modelo personalizado se borra y una copia del modelo de vista previa se almacena en el modelo personalizado. A continuación,
puede editar este modelo personalizado según se desee.

Solicitar máximo de Términos personalizados

Esta opción especifica que el número máximo de variables que pueden ocurrir en una interacción (o producto cruzado) plazo en un modelo personalizado. Por
ejemplo, A * B * C es un tercer término de interacción orden y si esta opción se establece en 2, el término A * B * C no sería incluido en el modelo.

Esta opción es particularmente útil cuando se utiliza con la notación de barras de un modelo personalizado para permitir una manera simple para eliminar las
interacciones de alto orden no deseados.

Modelo de encargo

Esta opción especifica un modelo personalizado. Sólo se utiliza cuando el Condiciones opción se establece en Personalizado. Un modelo personalizado especifica los
términos (variables individuales y las interacciones) que se van a tener en el modelo.

Interacciones

Una interacción expresa la relación combinada entre dos o más variables y la variable dependiente mediante la creación de una nueva variable que es
el producto de las variables. La interacción entre dos variables numéricas se genera multiplicando ellos. La interacción entre las variables categóricas se
genera multiplicando cada par de variables indicadoras. La interacción entre una variable numérica y una variable categórica se crea mediante la
generación de todos los productos entre la variable numérica y las variables indicadoras generados a partir de la variable categórica.

Sintaxis

Un modelo está escrito haciendo una lista de uno o más términos. Los términos están separados por una muestra en blanco o plus. Términos incluyen variables e

interacciones. Especificar las variables regulares (efectos principales) mediante la introducción de los nombres de las variables. Especificar interacciones enumerando cada

variable en la interacción separados por un asterisco (*), como la fruta * Nuts o A * B * C. Puede utilizar la barra | símbolo como una técnica de taquigrafía para especificar

muchas interacciones rápidamente (). Cuando varias variables están separados por barras, todas sus interacciones se generan. Por ejemplo, A | B | C se interpreta como A

+B

+ C + A * B + A * C + B * C + A * B * C.

Se pueden utilizar paréntesis. Por ejemplo, A * (B + C) se interpreta como A * B + A * C. Algunos ejemplos

ayudarán a indicar cómo funciona el modelo de sintaxis:

A|B=A+B+A*B

A | BA * AB * B = A + B + A + A * B * A + B * B

Tenga en cuenta que sólo se debe repetir variable numérica. Es decir, A * A es válido para una variable numérica, pero no para una variable categórica.

A | A | B | B (término de orden Max = 2) = A + B + A * A + A * B + B * BA | B | C = A

+ B + C + A * B + A * C + B * C + A * B * C (A + B) * (C + D) = A * C + A * D + B * C

+B * D

(A + B) | C = (A + B) + C + (A + B) * C = A + B + C + A * C + B * C

325-15
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Selección de subconjuntos

Método de búsqueda

Esta opción especifica el algoritmo de selección de subconjunto utilizado para reducir el número de variables independientes que utilizan en el modelo de
regresión. Tenga en cuenta que dado que el algoritmo de solución es iterativo, el proceso de selección puede llevar mucho tiempo. El algoritmo Forward es
mucho más rápido que el delantero con conmutación algoritmo, pero el algoritmo adelante no suele encontrar tan bueno de un modelo.

También tenga en cuenta que en el caso de variables independientes categóricas, el algoritmo de búsqueda entre las variables categóricas originales, no se
encuentran entre las variables binarias individuales generados. Es decir, o todas las variables binarias asociadas a una variable categórica particular, están
incluidos o no-que no son considerados individualmente.

Los modelos jerárquicos son tales que si una interacción es en el modelo, por lo que son los términos que se pueden derivar de ella. Por ejemplo, si A * B * C es en el
modelo, por lo que son A, B, C, A * B, A * C, y B * C. Los estadísticos suelen adoptar modelos jerárquicos más que los modelos no jerárquicos. El procedimiento de
selección de subconjuntos se puede hacer para tener en cuenta sólo los modelos jerárquicos durante su búsqueda. Las opciones de selección subgrupo son:

• Ninguno - No se lleva a cabo la búsqueda

No hay selección de subconjuntos se intenta. Todas las variables independientes especificadas se utilizan en la ecuación de regresión.

• (Hierarchical) Forward
Con este algoritmo, el término con la mayor probabilidad de registro se introduce en el modelo. A continuación, el término que aumenta la probabilidad de registro se
añade la mayor parte. se continúa esta selección hasta que se hayan introducido todos los términos o hasta que el tamaño máximo subconjunto ha sido su alcance.

Si se seleccionan los modelos jerárquicos, solamente aquellos términos que mantendrán el modelo jerárquico son candidatos para la selección. Por
ejemplo, el término de interacción A * B no será considerada a menos que ambos A y B ya están en el modelo.

Al utilizar este algoritmo, se debe hacer una carrera que permite que un gran número de términos para encontrar el número apropiado de términos. A continuación,
una segunda pasada se hizo en el que se disminuye el periodo máximo en el subgrupo con el número después de lo cual el logaritmo de verosimilitud no cambia
significativamente.

• (Hierarchical) Forward con conmutación

Este algoritmo es similar al algoritmo Forward descrito anteriormente. El término con la mayor probabilidad de registro se introduce en el modelo de regresión.
El término que aumenta la probabilidad de registro más cuando se combina con el primer término se introduce siguiente. Ahora, cada término en el modelo
actual se elimina y el resto de los términos se comprueba para determinar si, cuando se utilizan en su lugar, se aumenta la función de probabilidad. Si un
término se puede encontrar por este proceso de conmutación, el interruptor está hecho y todo el proceso de conmutación se comienza de nuevo. El algoritmo
continúa hasta que hay un término se puede encontrar que mejora la probabilidad. Este modelo se convierte en el mejor modelo de dos períodos.

A continuación, el tamaño de subconjunto se incrementa en uno, la mejor tercera término se introduce en el modelo, y el proceso de conmutación se repite. Este
proceso se repite hasta que se alcanza el tamaño máximo subconjunto. Por lo tanto, este modelo se encuentra el subconjunto óptimo para cada tamaño de
subconjunto. Debe hacer una carrera para encontrar un tamaño subconjunto adecuado observando el cambio en el logaritmo de verosimilitud. A continuación,
restablezca el tamaño máximo subconjunto de este valor y volver a ejecutar el análisis.

Si se seleccionan los modelos jerárquicos, solamente aquellos términos que mantendrán el modelo jerárquico son candidatos para la adición o
supresión. Por ejemplo, el término de interacción A * B no será considerada a menos que ambos A y B ya están en el modelo. Asimismo, el término A no
puede ser removido de un modelo que contiene A * B.

325-16
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Detener la búsqueda cuando el número de términos alcances

Una vez que se ha entrado en el modelo de esta serie de términos, el algoritmo de selección de subconjuntos se termina. A menudo tendrá que ejecutar el procedimiento dos
veces para encontrar un valor adecuado. Se podría establecer este valor alto para la primera carrera y luego restablecerlo apropiadamente para la segunda carrera, dependiendo
de los valores del logaritmo de verosimilitud. Tenga en cuenta que la intercepción se cuenta en este número.

iteraciones Tab

Opciones de estimación

Las siguientes opciones se utilizan durante el proceso de maximización de la probabilidad.

Nº máximo de iteraciones

Especifica el número máximo de iteraciones permitidas durante el procedimiento de iteración. Si se alcanza este número, el procedimiento se termina
prematuramente. Por lo general, el procedimiento de máxima verosimilitud converge en cinco o seis iteraciones, por lo que un valor de veinte aquí debe ser
amplia.

convergencia cero

Esta opción especifica el objetivo de convergencia para el procedimiento de estimación de máxima verosimilitud. Cuando todas las ecuaciones de probabilidad máxima son
menos de esta cantidad, se supone que ha convergido el algoritmo. En teoría, todas las ecuaciones debe ser cero. Sin embargo, cuál es el mejor que se puede lograr es 1E-
13, por lo que debe establecer este valor a un número un poco más grande que eso, como el valor por defecto de 1E-9.

El valor real se puede encontrar buscando en el valor máximo de Convergencia en el informe de ejecución Resumen.

Ficha informes

El siguiente control opciones que se muestran los informes.

Ajuste de la varianza

Dispersión utilizar Phi en el sureste de

Indicar si desea utilizar el multiplicador de la phi en el cálculo de los errores estándar de los coeficientes de regresión. El modelo de Poisson supone
que la media y la varianza son idénticos. Por lo general, la varianza es mayor que la media (llamada sobredispersión). Una corrección puede ser
aplicada a los errores estándar multiplicándolas por el coeficiente Phi.

Tenga en cuenta que esta corrección no va a cambiar los coeficientes de regresión estimados.

Alfa

Nivel alfa
Alfa es el nivel de significación utilizado en las pruebas de hipótesis. Un aspecto negativo alfa es el nivel de confianza de los intervalos de confianza. Un valor de
0,05 es más comúnmente utilizado. Esto corresponde a una posibilidad de error de 1 en 20. No se debe tener miedo de utilizar otros valores desde 0,05 se hizo
popular en los días previos a la computadora cuando era el único valor disponible.

Los valores típicos intervalo de 0,001 a 0,20.

325-17
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Seleccione Informes - Resúmenes

Resumen correr ... Medios


Cada una de estas opciones especifica si el informe correspondiente se calcula y se muestra.

Seleccione Informes - Selección de subconjuntos

Selección de subconjuntos - Resumen y selección de subconjuntos - Detalle

Indicar si desea visualizar estos informes de selección de subconjuntos.

Seleccione Informes - Estimación

Los coeficientes de regresión ... coeficientes de velocidad

Indicar si desea visualizar estos informes de estimación.

Seleccione Informes - Bondad del Ajuste

Pruebas de la falta de ajuste ... diario de probabilidad y R²

Indicar si desea visualizar estos informes modelo de bondad de ajuste.

Seleccione Informes - Listas de fila por fila

Incidencia residuos ...


Indicar si desea visualizar estos informes de lista. Tenga en cuenta que, dado que estos informes proporcionan resultados para cada fila, pueden ser demasiado largo para
el uso normal cuando se solicita en grandes bases de datos.

Los datos sobre incidencia

Hasta cinco conteos de incidencia puede ser introducido. Las probabilidades de estos conteos bajo el modelo de regresión de Poisson se mostrarán en el
Informe de Incidencia. Estos valores deben ser enteros no negativos.

Valor de exposición

Especificar la exposición (tiempo, espacio, distancia, volumen, etc.) valor a ser utilizado como un multiplicador en el Informe de incidencia. Todos los productos en
ese informe se escalan a esta cantidad. Por ejemplo, si los datos se redujo en términos de eventos por mes, pero desea que el informe de incidencia a escala para
eventos al año, tiene que escribir '12' aquí.

Opciones del informe Tab

Estas opciones controlan el formato de los informes.

las etiquetas de variable

Los nombres de variables

Esta opción le permite seleccionar si desea mostrar sólo los nombres de variable, etiquetas de variable, o ambos.

325-18
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

etiqueta Stagger y salida si longitud de la etiqueta es ≥

Los nombres de las variables indicadoras pueden ser demasiado largo para caber en el espacio proporcionado. Si el nombre contiene más caracteres que el número

especificado aquí, sólo el nombre se muestra en la primera línea del informe y el resto de la producción se coloca en la línea siguiente. Entrar 1 cuando se desea que los

resultados de cada variable impresas en dos líneas. Entrar 100 cuando se desea que los resultados de cada variable impresas en una sola línea.

Lugares decimales

Precisión
Especifica si los números sin formato (designado como cifras decimales = 'All') se muestran como única (7 dígitos) o números (13 dígitos) de doble
precisión en la salida. Todos los cálculos se realizan en doble precisión, independientemente de la precisión seleccionada aquí.

Soltero

números sin formato se muestran con 7 dígitos. Esta es la configuración predeterminada. Todos los informes han sido formateada para la precisión simple.

Doble

números sin formato se muestran con 13 dígitos. Esta opción se utiliza con mayor frecuencia cuando se necesitan los resultados extremadamente precisos para
su posterior cálculo. Por ejemplo, doble precisión podría ser utilizada cuando se va a utilizar el modelo de regresión múltiple en una transformación.

Formato de precisión doble de desalineación

los números de precisión doble requieren más espacio que está disponible en las columnas de salida, causando problemas de alineación de la columna. La opción de doble
precisión es para aquellos casos en los que la precisión es más importante que la alineación formato.

comentarios

1. Esta opción no afecta a números con formato tales como los niveles de probabilidad.

2. Esta opción sólo influye en el formato de los números como se presentan en la salida. Todos los cálculos se realizan en doble precisión,
independientemente de la precisión seleccionada aquí.

Y ... Chi-cuadrado de Decimales

Especifica el número de dígitos después del punto decimal para mostrar en la salida de los valores de este tipo. Tenga en cuenta que esta opción de ninguna
manera influye en la precisión con la que se realizan los cálculos. Entrar Todas para mostrar todos los dígitos disponibles. El número de dígitos mostrados por esta
opción está controlada por si el
Precisión opción es Soltero o Doble.

Tab parcelas

Estas opciones controlan los atributos de las diferentes parcelas.

Seleccione Parcelas

Incidencia (S / T) vs X Parcela ... Resid vs X Terreno

Indicar si se debe mostrar estas parcelas. Haga clic en el botón de formato de trama para cambiar los parámetros de trazado.

325-19
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Editar Durante Run

Esta es la casilla pequeña en la esquina superior derecha del botón de formato. Si se selecciona, la ventana de formato de gráficos para esta parcela se
mostrará mientras se ejecuta el procedimiento de manera que puede darle formato con los datos reales.

Opciones de trazado

residual trazan
Esta opción especifica cuál de los cinco tipos de residuos se muestran en las gráficas de residuos.

Ficha de almacenamiento

Estas opciones permiten especificar si, y en qué parte del conjunto de datos, se almacenan diversas estadísticas.

Advertencia: Todos los datos que ya están en estas columnas son reemplazados por los nuevos datos. Tenga cuidado de no especificar las columnas que contienen datos
importantes.

Opciones de almacenamiento de datos

Opción de almacenamiento

Esta opción controla si los valores indicados a continuación se almacenan en el conjunto de datos cuando se ejecuta el procedimiento.

• No almacene los datos

No hay datos son almacenados incluso si se comprueban.

• Almacenar en columnas vacías solamente

Los valores se almacenan en sólo las columnas vacías. Las columnas que contienen datos no se utilizan para el almacenamiento de datos, por lo que no se
pueden perder datos.

• Almacenar en columnas designadas

Comenzando en el Almacenar primer elemento de la columna, los valores se almacenan en esta columna y los de la derecha. Si una columna contiene datos, los
datos se sustituyen por los valores de almacenamiento. Se debe tener cuidado con esta opción, ya que no se puede deshacer.

Almacenar primer elemento de

El primer elemento se almacena en esta columna. Cada artículo adicional que se comprueba se almacena en las columnas inmediatamente a la derecha de esta
columna.

Deje este valor en blanco si desea que el almacenamiento de datos para comenzar en la primera columna en blanco en el lado derecho de los datos.

Advertencia: los datos existentes en estas columnas se sustituye de forma automática, así que ten cuidado ..

Opciones de almacenamiento de datos - Seleccione elementos para poder guardar

Los valores X ampliadas ... matriz de covarianza

Indicado si almacenar estos valores fila por fila, comenzando en la columna indicada por la Almacenar primer elemento de
opción. Tenga en cuenta que varios de estos valores incluyen un valor diferente para cada grupo y por lo que requieren varias columnas cuando se
almacenan.

Los valores X ampliadas

Esta opción se refiere a la matriz de diseño experimental. Se incluyen todas las variables binarias y de interacción generados.

325-20
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Ejemplo 1 - Poisson de regresión utilizando un conjunto de datos con variables de indicador

Esta sección presenta varios ejemplos. En el primer ejemplo, se analizarán los datos mostrados anteriormente en la sección de estructura de datos y que se encuentran en el
conjunto de datos Koch36. Koch et. Alabama. (1986) presentó este conjunto de datos. Contiene el número de nuevos casos de melanoma en 1969-1971 entre los hombres blancos
en dos áreas para diferentes grupos de edad. El tamaño de la población estimada en riesgo se da en la población variable.

Este conjunto de datos es instructiva porque muestra la facilidad con que las variables categóricas se tratan. En este ejemplo, dos variables categóricas, el área y
grupo de edad, se incluirán en el modelo de regresión. El conjunto de datos también se puede utilizar para validar el programa ya que los resultados se dan en
Koch (1986).

Es posible que siga a lo largo de aquí al hacer las entradas apropiadas o cargar la plantilla completa Ejemplo 1 Ejemplo haciendo clic en Abrir
plantilla en el menú Archivo de la ventana de regresión de Poisson.

1 Abrir el conjunto de datos Koch36.

• En el menú Archivo de la ventana NCSS de datos, seleccione Ejemplo Datos no.


• Haga clic en el archivo Koch36.NCSS.
• Hacer clic Abierto.

2 Abra la ventana de regresión de Poisson.


• Usando el menú de análisis o el procedimiento de Navigator, buscar y seleccionar el La regresión de Poisson procedimiento.
• En los menús, seleccione Archivo, entonces Nueva plantilla. Esto llenará el procedimiento con la plantilla por defecto.

3 Especificar las variables.

• En la ventana de regresión de Poisson, seleccione el Variables, ficha Modelo.


• Haga doble clic en el dependiente Y caja. Con ello se abre la ventana de selección de variables.
• Seleccionar Melanoma de la lista de variables y clic De acuerdo. Melanoma aparecerá en el dependiente Y
caja.
• Haga doble clic en el T: variable de exposición caja.
• Seleccionar Población de la lista de variables y clic De acuerdo.
• Haga doble clic en el Categóricos de X caja.
• Entrar Área (0) grupo de edad (<35) en el Categóricos de X caja. Los valores entre paréntesis indican el valor de referencia para cada variable.

• El resto de este panel se puede dejar en los valores por defecto.

4 Especificar el modelo.

• Selecciona el Condiciones opción de 1-Way.


• Selecciona el Selección de subconjuntos opción de Ninguna.

5 Especificar los informes.

• Selecciona el ficha Informes.

• Comprobar todos los informes y gráficos. Normalmente, usted no quiere que todos ellos, pero especificarlos ahora para fines
de documentación.
• Selecciona el Los datos sobre incidencia a 5 10 15 20 25.
• Selecciona el Valor de exposición a 100000.

6 Especificar los decimales.

• Selecciona el ficha Opciones de informe.

• Establecer el número de decimales para Probabilidad a 6.

7 Ejecutar el procedimiento.

• En el menú Ejecutar, seleccione Procedimiento ejecutar. Alternativamente, haga clic en el botón Ejecutar verde.

325-21
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

Resumen ejecutar

ít. Valor ít. Valor


Variable dependiente Melanoma filas Usado 12
variable de exposición Población Suma de Frecuencias 12
de frecuencia variable Ninguna iteraciones 5
Ind. De Var Disponible 2 convergencia cero 1E-09
Nº de x en Modelo 6 Máxima convergencia 5.307754E-12
Pseudo R² 0.9931 dispersión Phi 1.2230
definitiva de probabilidad -39.2199 Phi no se utiliza para corregir los errores estándar.
Método subconjunto Ninguna

Este informe proporciona varios detalles acerca de los datos y el algoritmo de MLE.

Dependientes, las variables de exposición y la frecuencia

Estas variables se enumeran a proporcionar un registro de las variables analizadas.

Ind. De Var Disponible

Este es el número de variables independientes que ha seleccionado.

Nº de x en Modelo
Este es el número de real X- variables generadas a partir de los términos en el modelo que se utilizó en el análisis.

Pseudo 𝑹𝟐
Esta es la generalización de ordinario R 2 en la regresión múltiple. Este valor se discute en detalle en la sección Detalles técnicos del
capítulo. Su fórmula es

definitiva de probabilidad

Este es el valor del logaritmo de verosimilitud que se logró para esta ejecución.

Método subconjunto

Este es el tipo de selección de subconjuntos que se ejecutó.

filas Usado
Este es el número de filas utilizados por el algoritmo de estimación. Las filas con valores perdidos y filas filtradas no están incluidos. Siempre comprobar este
valor para asegurarse de que se está analizando todos los datos que la intención de.

Suma de Frecuencias

Este es el número de observaciones utilizadas por el algoritmo de estimación. Si ha especificado una frecuencia variable, esto va a ser mayor que el
número de filas. Si no, van a ser iguales.

iteraciones

Este es el número de iteraciones utilizados por el algoritmo de estimación. Por lo general, el algoritmo terminará en cinco o seis iteraciones.

convergencia cero

El algoritmo de estimación continúa hasta que todas las ecuaciones de probabilidad están cerca de cero. Esto es cero al algoritmo. Cuando el
valor de la máxima convergencia es inferior a esta cantidad, el algoritmo ha convergido. Compare este valor con el valor máximo de
Convergencia.

Convergencia máximo
El algoritmo de estimación continúa hasta que todas las ecuaciones de probabilidad están cerca de cero. Este es el mayor valor de todas estas ecuaciones.
Debe estar cerca de cero o el algoritmo fue terminada antes de que había convergido.

325-22
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

dispersión Phi
Esta línea proporciona el valor estimado de la phi dispersión. También indica si phi se utilizó para ajustar los errores estándar de
los coeficientes de regresión y los valores predichos.

Resumen Modelo

Modelo Error Iniciar sesión Seudo


Modelo DF DF Probabilidad desviación AIC R2
Interceptar 1 11 -484.0223 895.8197 897.8197 0.0000
Modelo 7 5 -39.2199 6.2149 20.2149 0.9931
Máximo 12 0 -36.1125 0.0000 24.0000 1.0000

Este informe es análoga a la tabla de análisis de varianza. Resume la bondad de ajuste del modelo.

Modelo

Este es el término (s) que se informó acerca de esta fila del informe. Tenga en cuenta que la línea del modelo incluye la intersección.

modelo DF

Este es el número de variables en el modelo.

error DF
Este es el número de observaciones menos el número de variables.

probabilidad log

Este es el valor de la función de probabilidad logarítmica para la intersección único modelo, el modelo elegido, y el modelo saturado que se ajuste a los
datos perfectamente. Al comparar estos valores, se obtiene una comprensión de lo bien que el modelo se ajusta a los datos.

desviación

La desviación es la generalización de la suma de cuadrados en regresión múltiple regular. Mide la discrepancia entre los
valores ajustados y los datos.

AIC

Este es el criterio de información de Akaike (AIC). Es igual a la desviación más dos veces el número de parámetros en el modelo. Se combina una
medida de la discrepancia entre los valores ajustados y los datos (el de desviación) con una medida de la simplicidad del modelo (dos veces el
número de parámetros). Se ha demostrado que el uso de AIC para comparar modelos de la competencia con diferente número de parámetros
cantidades de seleccionar el modelo con la estimación mínima del cuadrado medio del error de predicción.

Pseudo R 2
Esta es la generalización de ordinario R 2 en la regresión múltiple. Este valor se discute en detalle en la sección Detalles técnicos del
capítulo. Su fórmula es

325-23
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

significa Informe

Variable Media Mínimo Máximo


Melanoma 68.667 27.000 104.000
Población 554422.917 34233.000 2880262.000

Este informe da la media, mínimo y máximo para cada una de las variables numéricas en el análisis. Utilizarlo para comprobar si hay errores en los datos
obvios.

Coeficientes de regresión Sección

regresión estándar Wald de Baja 95.0% superior 95.0%


Coeficiente independiente Error chi² prob Confianza Confianza
Variable bi) Sb (i) H0: β = 0 Nivel Límite Límite
Interceptar -10.65831 0.09518 12,538.43 0.000000 -10.84487 -10.47175
(Área = 1) 0.81948 0.07103 133,11 0.000000 0.68027 0.95870
(Grupo de edad = "35-44") 1.79737
0.12093 220,92 0.000000 1.56036 2.03439
(Grupo de edad = "45-54") 1.91309
0.11844 260.90 0.000000 1.68095 2.14522
(Grupo de edad = "54-64") 2.24180
0.11834 358,89 0.000000 2.00987 2.47374
(Grupo de edad = "65-74") 2.36572
0.13152 323,56 0.000000 2.10795 2.62349
(Grupo de edad = "> 74") 2.94468
0.13205 497,30 0.000000 2.68587 3.20349
dispersión Phi 1.2230

Estimación del modelo de regresión de Poisson


melanoma =
Exp (-10.6583092620666 + ,819484586814042 * (Área = 1) + 1.79737495802664 * (grupo de edad = "35-44") +
1.91308772800918 * (grupo de edad = "45-54") + 2.24180245796944 * (grupo de edad = "54-64") + 2.36572417048965 * (grupo de edad = "65-74") +
2.94467922306084 * (grupo de edad = "> 74"))

Este informe proporciona el modelo de regresión estimado y las estadísticas asociadas. Proporciona los principales resultados del análisis.

Validación
Koch (1986) da las siguientes estimaciones y los errores estándar.

Independiente Standard ML
Variable Estimar Error
Interceptar -10,66 0.01
Zona 0.82 0.07
AG2 1.80 0.12
AG3 1.91 0.12
GA4 2.24 0.12
GA5 2.37 0.13
AG6 2.94 0.13

Como se puede ver, estos resultados coinciden con los proporcionados por NCSS -exactamente validar nuestros algoritmos. Estos resultados también se validaron
utilizando SAS.

Variable independiente

Este artículo proporciona el nombre de la variable independiente se muestra en esta línea del informe. los Interceptar se refiere al término constante
opcional. los dispersión Phi es el valor estimado del coeficiente phi. Tenga en cuenta que si una línea es saltado después del nombre de la variable
independiente se muestra es controlada por el
Escalone etiqueta y de salida si longitud de la etiqueta es ≥ opción en la ficha Formato.

325-24
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

Coeficiente de regresion

Estas son las estimaciones de máxima verosimilitud de los coeficientes de regresión, b1, b2, b3, bk. Su directa interpretación es difícil, ya
que la fórmula para el valor previsto incluye la función exponencial.

Error estándar

Estos son los errores estándar asintóticos de los coeficientes de regresión, la s segundo yo . La estimación de la precisión del coeficiente de regresión. Los errores
estándar son las raíces cuadradas de los elementos diagonales de esta matriz de covarianza. La matriz de covarianza se obtiene invirtiendo la matriz de información
observada evaluado en las estimaciones de máxima verosimilitud.

Si la opción de dispersión Phi que utilice, se muestra el error estándar corregido. Esto se calcula multiplicando el error estándar sencilla por la raíz
cuadrada de phi. Es decir, el valor que se muestra es 𝒔′𝒃𝒊 dónde

Este es el grado de libertad estadístico chi-cuadrado para probar la hipótesis nula de que β i = 0 frente a la alternativa que β yo ≠ 0. El valor de chi-
cuadrado se llama estadístico de Wald. Esta prueba se ha encontrado para seguir la distribución chi-cuadrado sólo en muestras grandes. La prueba se
calcula utilizando

Nivel probabilidad
La probabilidad de obtener un valor de chi-cuadrado mayor que la anterior. Este es el nivel de significación de la prueba. Si este valor es menor que un cierto nivel
alfa predefinido, por ejemplo 0,05, la variable se dice que es estadísticamente significativa.

Límites de confianza inferior y superior

Estos proporcionan un intervalo de confianza de muestra grande para los valores de los coeficientes. La anchura del intervalo de confianza le
proporciona un sentido de cómo precisa los coeficientes de regresión son. Además, si el intervalo de confianza incluye cero, la variable no es
Estadísticamente significante. La fórmula para el cálculo del intervalo de confianza es

Dónde 1 - α es el coeficiente de confianza del intervalo de confianza y z es el valor apropiado de la


distribución normal estándar.

Dispersión Phi
Esta es la estimación del multiplicador de corrección de dispersión excesiva, phi. Recuerde que en el modelo de Poisson la media y la varianza son iguales. En la
práctica, los datos casi siempre rechazan esta restricción. Por lo general, la variación es mayor que la media, una situación llamada sobredispersión. El incremento en
la varianza está representado en el modelo por un múltiplo constante de la matriz de varianza-covarianza. Es decir, usamos

Dónde φ es estimado usando

© NCSS, LLC. Todos los derechos reservados.


Statistical Software NCSS NCSS.com
La regresión de Poisson

Estimación del modelo de regresión de Poisson

Esta expresión muestra el modelo de regresión estimado en formato escrito. Se puede copiar al portapapeles y se utiliza en otros lugares. Por ejemplo, puede copiar y pegar

como una transformación de variables. Tenga en cuenta que la transformación debe ser inferior a 255 caracteres. Dado que esta fórmula es a menudo mayor que 255 caracteres

de longitud, se debe utilizar la transformación ARCHIVO (nombre de archivo). Para ello, copie la fórmula a un archivo de texto mediante el Bloc de notas, Windows Write o Word
para recibir el texto modelo. Asegúrese de guardar el archivo como un archivo de texto sin formato (ASCII). La transformación es ARCHIVO (nombre de archivo) donde nombre

del archivo es el nombre del archivo de texto, incluyendo la información del directorio. Cuando se ejecuta la transformación, se carga el archivo y utilizar la transformación
almacenada allí.

Informe tasa

Regresión Tarifa Baja 95.0% Superior 95.0%


Independiente Coeficiente Proporción Confianza Confianza
Variable bi) Exp (b (i)) Límite Límite
Interceptar -10.65831 0.00002 0.00002 0.00003
(Área = 1) 0.81948 2.26933 1.97442 2.60830
(Grupo de edad = "35-44")
1.79737 6.03379 4.76055 7.64756
(Grupo de edad = "45-54")
1.91309 6.77397 5.37066 8.54396
(Grupo de edad = "54-64")
2.24180 9.41028 7.46233 11.86672
(Grupo de edad = "65-74")
2.36572 10.65175 8.23138 13.78381
(Grupo de edad = "> 74")
2.94468 19.00457 14.67098 24.61823

Este informe proporciona la proporción de la tasa para cada variable independiente.

Variable independiente
Este artículo proporciona el nombre de la variable independiente se muestra en esta línea del informe. Los Interceptar se refiere al término constante opcional.

Coeficiente de regresion

Estas son las estimaciones de máxima verosimilitud de los coeficientes de regresión, b1, b2, b3, bk. Directa interpretación es difícil, ya que la fórmula para el
valor previsto incluye la función exponencial.

Razón de tasas

Estos son los valores exponenciadas de los coeficientes de regresión. La fórmula utilizada para calcular estos es

La proporción de la tasa es principalmente útil para la interpretación de los coeficientes de regresión de variables indicadoras. En este caso, estiman la
incidencia de la variable de respuesta (melanoma en este ejemplo) en la categoría dada con respecto a la categoría cuya variable de indicador se omitió
(generalmente llamado el controlar grupo).

Límites de confianza inferior y superior


Estos proporcionan un intervalo de confianza de muestra grande para las razones de tasas. La fórmula para el cálculo del intervalo de confianza es

Dónde 1 - α es el coeficiente de confianza del intervalo de confianza y z es el valor apropiado de la


distribución normal estándar.

325-26
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

Las pruebas de falta de ajuste Sección

𝒄𝒉𝒊𝟐 prob
Prueba DF Valor Nivel
Pearson 5 6.12 0.295180
G Estadística 5 6.21 0.285867
Estas pruebas indican si hay una falta significativa de ajuste a los datos por el modelo.

Este informe proporciona los resultados de dos pruebas de bondad de ajuste. Indican si el modelo actual se ajusta adecuadamente los datos. Las
pruebas mismas se describen en la sección Detalles técnicos de este capítulo.

Prueba

Indica cuál de las dos pruebas se muestra en esta línea. Tenga en cuenta que la GRAMO estadística de prueba es más precisa en muestras pequeñas. La prueba de
Pearson se utiliza a menudo como una prueba para la dispersión excesiva.

DF
Ambas pruebas son pruebas de chi-cuadrado. Este es el valor de los grados de libertad. Es igual al número de observaciones menos
el número de parámetros en el modelo de regresión.

Chi 2 Valor
Este es el valor del estadístico de prueba chi-cuadrado.

Nivel prob
Este es el nivel de probabilidad de la prueba. La hipótesis nula es que el modelo se ajusta adecuadamente a los datos. La hipótesis alternativa es que el modelo
es una representación inadecuada de los datos. Si este nivel de probabilidad es menor que un cierto valor de corte, tales como 0,10 o 0,05, hay una falta
significativa de ajuste.

Análisis de la sección Desviación

De aumentar
Modelo
Término desviación prob
omitido DF desviación (Chi 2) Nivel
Todas 1 968.0446
Zona 1 202.6602 124,22 0.000000
Grupo de edad 5 875.1835 796,74 0.000000
Ninguno (Modelo) 7 78.4398

Este informe es el análogo de regresión de Poisson de la tabla de análisis de varianza. Se muestra los resultados de una prueba de chi-cuadrado utilizado para probar si cada
uno de los términos individuales de la regresión es estadísticamente significativos después de ajustar para todos los otros términos en el modelo.

Este informe no se produce durante un ciclo de selección de subconjuntos.

Tenga en cuenta que este informe requiere que una regresión por separado se ejecutará para cada línea. Por lo tanto, si el tiempo de ejecución es demasiado largo,
puede considerar la omisión de este informe.

Se omite plazo

Este es el término modelo que se está probando. La prueba se forma mediante la comparación de la desviación estadística cuando el término se elimina con la
desviación del modelo completo. Por lo tanto, se muestra la desviación cuando el término se deja fuera del modelo.

La línea “All” se refiere al modelo de intercepción-solamente. El “None (Modelo)” se refiere al modelo completo sin términos eliminado.

Tenga en cuenta que por lo general no es aconsejable incluir un término de interacción en un modelo cuando uno de los principales efectos asociados no se
encuentra, que es lo que sucede aquí. Sin embargo, en este caso, creemos que esto es una prueba útil.

325-27
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Tenga en cuenta que el nombre puede llegar a ser muy largo, especialmente para los términos de interacción. Estos nombres largos pueden desalinear el informe.
Puede forzar el resto de los elementos que se imprime en la siguiente línea mediante el uso de la etiqueta Stagger y salida opción en la ficha Opciones de informe.
Esto debería crear un informe mejor aspecto cuando los nombres son extra largos.

DF
Se trata de los grados de libertad de la ji 2 la prueba está representada en esta línea.

Desviación

La desviación es igual a menos de dos veces el logaritmo de verosimilitud alcanzado por el modelo que se describe en esta línea del informe. Véase la discusión
dada anteriormente en este capítulo para una discusión técnica de la desviación. Una forma útil para interpretar la desviación es como el análogo de la suma
residual de cuadrados en regresión múltiple. Este valor se utiliza para crear la diferencia en la desviación que se utiliza en la prueba de chi-cuadrado.

De aumentar Modelo Desviación (Chi 2)

Esta es la diferencia entre la desviación para el modelo descrito en esta línea y la desviación del modelo completo. Este valor sigue el chi 2 distribuciones
en un medio para muestras grandes. Este valor puede la idea de que el análogo de la suma residual de cuadrados en regresión múltiple. Por lo tanto, se
puede pensar en este valor como el aumento de la suma de cuadrados residual que se produce cuando este término se retira del modelo.

Otra forma de interpretar esta prueba es como una prueba de redundancia, ya que pone a prueba si este término es redundante después de considerar todos los
otros términos en el modelo.

Nivel prob
Este es el nivel de significación de la prueba de chi-cuadrado. Esta es la probabilidad de que un chi 2 valores con grados de libertad DF es igual a este valor o
mayor. Si este valor es menor que 0,05 (u otro valor adecuado), se dice que el término para ser estadísticamente significativa.

Probabilidad log & R 2 Informe

R² de Reducción Reducción
Condiciones) Iniciar sesión Restante De De
omitido Probabilidad DF Condiciones) modelo R² saturada R²
Todas 1 -484.0223 0.0000
Zona 1 -101.3301 0.8544 0.1387 0.1456
Grupo de edad 5 -437.5917 0.1037 0.8894 0.8963
Ninguno (Modelo) 7 -39.2199 0.9931 0.0000 0.0069
Ninguno (saturado) 12 -36.1125 1.0000 0.0000

Este informe proporciona las probabilidades de registro y R 2 valores de varios modelos. Este informe no se produce durante un ciclo de selección de subconjuntos.

Tenga en cuenta que este informe requiere que una regresión por separado se ejecutará para cada línea. Por lo tanto, si el tiempo de ejecución es demasiado largo,
puede considerar la omisión de este informe.

Se omite plazo

Este es el término que se omite en el modelo. La línea “All” se refiere al modelo de intercepción-solamente. El “None (Modelo)” se refiere al modelo
completo sin términos eliminado. La línea “Ninguno (saturado)” da los resultados para el modelo saturado.

Tenga en cuenta que el nombre puede llegar a ser muy largo, especialmente para los términos de interacción. Estos nombres largos pueden desalinear el informe. Puede
forzar el resto de los elementos que se imprimirán en la siguiente línea mediante el uso de etiqueta Stagger y salida si longitud de la etiqueta es ≥ opción en la ficha Opciones
de informe. Esto debería crear un informe mejor aspecto cuando los nombres son extra largos.

DF
Se trata de los grados de libertad de la expresión que aparece en esta línea.

325-28
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Probabilidad log

Este es el logaritmo de verosimilitud del modelo que aparece en esta línea. Tenga en cuenta que este es el logaritmo de verosimilitud de la regresión sin el término
indicado.

R 2 de plazo restante (s)

Este es el R 2 del modelo que aparece en esta línea. Tenga en cuenta que el modelo no incluye el término que aparece al principio de la línea. Tenga en cuenta que
este es un pseudo R 2 como se ha discutido anteriormente en este capítulo.

Reducción De Modelo R 2
Esta es la cantidad que R 2 se reduce cuando el término se omite del modelo de regresión. Esta reducción se calcula a partir de la R 2 alcanzado por
el modelo completo.

Esta cantidad se utiliza para determinar si la eliminación de un plazo provoca una gran reducción de R 2. Si no lo hace, entonces el término se puede quitar con toda
seguridad el modelo.

La reducción de la saturación R 2

Esta es la cantidad que R 2 se reduce cuando el término se omite del modelo de regresión. Esta reducción se calcula a partir de la R 2 logrado por el modelo
saturado. Este artículo está incluido porque muestra cómo la eliminación de estos impactos a largo plazo de la mejor R 2 eso es posible.

Covarianzas de los coeficientes de regresión Sección

La matriz de covarianza de los coeficientes de regresión no se muestra como un informe. Sin embargo, puede ser almacenada en la base de datos para una
mayor investigación y uso.

La matriz de covarianza se obtiene invirtiendo la matriz de información observada evaluado en las estimaciones de máxima verosimilitud. Si la
opción Usar Dispersión Phi se comprobó, los valores originales se multiplican por phi.

Informe de residuos

Melanoma Predicho Crudo Pearson desviación Población


Fila (Y) Valor Residual Residual Residual (T)
1 61 67.6998 -6.6998 -0.8143 -0.8283 2880262
2 76 80.0638 -4.0638 -0.4542 -0.4581 564535
3 98 94.4150 3.5850 0.3690 0.3667 592983
4 104 99.6974 4.3026 0.4309 0.4279 450740
5 63 67.8263 -4.8263 -0.5860 -0.5932 270908
6 80 72.2979 7.7021 0.9058 0.8904 161850
7 64 57.3002 6.6998 0.8851 0.8686 1074246
8 75 70.9362 4.0638 0.4825 0.4780 220407
9 68 71.5850 -3.5850 -0.4237 -0.4273 198119
10 63 67.3026 -4.3026 -0.5245 -0.5302 134084
11 45 40.1737 4.8263 0.7614 0.7469 70708
12 27 34.7021 -7.7021 -1.3075 -1.3609 34233

Este informe proporciona los valores predichos y los distintos tipos de residuos. Grandes residuos indican puntos de datos que no se ajustaron bien por el modelo
de regresión. Usted puede considerar la eliminación de filas con grandes residuos y reacondicionamiento, pero usted debe estar seguro de que tiene una buena
razón para hacerlo. No se puede quitar simplemente porque tienen grandes residuos.

Fila
El número de fila del elemento. Si ha excluido algunas filas mediante el uso de un filtro o si algunas de las filas habían desaparecido los valores, el número de fila
identifica la fila original en la base de datos.

325-29
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Y
Este es el valor de la variable dependiente.

Valor predicho
Este es el valor previsto de Y. Es la tasa de incidencia de Poisson, 𝒖𝒊 estimado por

Prima residual
El residual en bruto es la diferencia entre la respuesta real y el valor estimado del modelo. La fórmula para el residual cruda es

Pearson Residual
Los corrige residuales de Pearson para la desigualdad de la varianza en los residuos dividiendo por la desviación estándar. La fórmula para el
residual Pearson es

La Desviación Residual
La desviación residual es otra residual popular. Es popular porque la suma de los cuadrados de estos residuos es la desviación estadística. La fórmula
para el residual es la desviación

Dónde sign(x) es 1 si X es mayor que o igual a 0 y -1 en caso contrario.

T
Se proporciona el valor de la variable de exposición (si está activo) para su referencia.

Los valores predichos Informe

Baja 95.0% superior 95.0%


Melanoma Predicho Confianza La confianza Estándar Población
Fila (Y) Valor Error Límite Límite (T)
1 61 67.6998 6.4440 55.0698 80.3297 2880262
2 76 80.0638 7.0419 66.2619 93.8657 564535
3 98 94.4150 7.8780 78.9743 109.8556 592983
4 104 99.6974 8.2257 83.5752 115.8195 450740
5 63 67.8263 6.7681 54.5610 81.0916 270908
6 80 72.2979 7.1850 58.2156 86.3802 161850
7 64 57.3002 5.5790 46.3656 68.2349 1074246
8 75 70.9362 6.3609 58.4691 83.4034 220407
9 68 71.5850 6.2636 59.3085 83.8615 198119
10 63 67.3026 5.9387 55.6630 78.9423 134084
11 45 40.1737 4.2609 31.8226 48.5249 70708
12 27 34.7021 3.7454 27.3612 42.0430 34233

Este informe proporciona los valores previstos, junto con sus errores estándar y los límites de confianza. Si desea generar valores predichos y los límites de
confianza para X Los valores no en su base de datos, debe añadirlos a la parte inferior de la base de datos, dejando Y en blanco (si está utilizando una variable de
exposición, ajuste el valor de T a una

325-30
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Valor deseado). Estas filas no serán incluidos en el algoritmo de estimación, pero que van a aparecer en este informe con un estimado Y' s.

Fila
El número de fila del elemento. Si ha excluido algunas filas mediante el uso de un filtro o si algunas de las filas habían desaparecido los valores, el número de fila
identifica la fila original en la base de datos.

Y
Este es el valor de la variable dependiente.

Valor predicho
Este es el valor previsto de Y. Es la media prevista de la distribución de Poisson, 𝒖𝒊 estimado por

Error estándar
El error estándar del valor de referencia es una medida de la precisión del valor estimado. La fórmula para el error estándar es

Donde:

Tenga en cuenta que si φ no se utiliza, se pone a uno en las fórmulas anteriores.

Límites de confianza

Estos límites definen un intervalo de confianza de muestra grande para 𝒖𝒊 . La fórmula es

T
Se proporciona el valor de la variable de exposición (si está activo) para usted referencia.

Residual informe de diagnóstico

studentizado studentizado
Melanoma Predicho Crudo Pearson desviación Sombrero
Fila (Y) Valor Residual Residual Residual Diagonal
1 61 67.6998 -6.6998 -1.3095 -1,3321 0.6134
2 76 80.0638 -4.0638 -0.7361 -0.7425 0.6194
3 98 94.4150 3.5850 0.6303 0.6264 0.6573
4 104 99.6974 4.3026 0.7602 0.7548 0.6787
5 63 67.8263 -4.8263 -1.0285 -1.0411 0.6754
6 80 72.2979 7.7021 1.6939 1.6651 0.7140
7 64 57.3002 6.6998 1.3095 1.2852 0.5432
8 75 70.9362 4.0638 0.7361 0.7293 0.5704
9 68 71.5850 -3.5850 -0.6303 -0.6357 0,5481
10 63 67.3026 -4.3026 -0.7602 -0.7685 0.5240
11 45 40.1737 4.8263 1.0285 1.0089 0.4519
12 27 34.7021 -7.7021 -1.6939 -1.7632 0.4042
Corte alto apalancamiento 1.166667

325-31
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Este informe proporciona las diagonales sombrero y residuos studentizados. Se le permite estudiar la influencia (influencia) de cada observación.

Fila
El número de fila del elemento. Si ha excluido algunas filas mediante el uso de un filtro o si algunas de las filas habían desaparecido los valores, el número de fila
identifica la fila original en la base de datos.

Y
Este es el valor de la variable dependiente.

Valor predicho
Este es el valor previsto de Y. Es la tasa de incidencia de Poisson, 𝒖𝒊 estimado por

Prima Residual
El residual en bruto es la diferencia entre la respuesta real y el valor estimado del modelo. La fórmula para el residual cruda es

Studentizado Pearson residual


El residual Pearson studentizados se obtiene dividiendo el Pearson normal residual por la raíz cuadrada de uno menos el sombrero diagonal. La
fórmula es

Studentizado Desviación Residual

La residual desviación studentized se obtiene dividiendo la desviación normal residual por la raíz cuadrada de uno menos el sombrero diagonal.
La fórmula es

Sombrero Diagonal

Este es el valor de la medida de influencia, h ii. La matriz de sombrero se utiliza en el diagnóstico residual para medir la influencia de cada observación. Los
valores sombrero, h ii, son las entradas diagonales de la matriz de sombrero que se calcula usando

Dónde W es una matriz diagonal compuesta de 𝒖𝒊 .

Los valores sombrero deberían estudiarse para entender qué observaciones tienen la mayor influencia sobre los coeficientes de regresión ajustada. Sombrero
valores grandes son aquellos que son más grandes que 2 k / n.

325-32
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

Incidencia Sección cuando Exposición = 100000

Promedio prob que prob que prob que prob que prob que
Incidencia count es count es count es count es count es
Fila Tarifa 5 10 15 20 25
1 2.3505 0.056990 0.000135 0.000000 0.000000 0.000000
2 14.1822 0.003313 0.062866 0.100093 0.030868 0.002778
3 15.9220 0.001037 0.035105 0.099684 0.054827 0.008800
4 22.1186 0.000011 0.001914 0.028111 0.079991 0.066422
5 25.0366 0.000001 0.000357 0.009747 0.051537 0.079521
6 44.6697 0.000000 0.000000 0.000000 0.000016 0.000457
7 5.3340 0.173603 0.024788 0.000297 0.000001 0.000000
8 32.1842 0.000000 0.000003 0.000332 0.006156 0.033343
9 36.1323 0.000000 0.000000 0.000036 0.001201 0.011606
10 50.1944 0.000000 0.000000 0.000000 0.000001 0.000034
11 56.8164 0.000000 0.000000 0.000000 0.000000 0.000001
12 101.3703 0.000000 0.000000 0.000000 0.000000 0.000000

Este informe da la tasa de incidencia prevista y de Poisson probabilidades para varias cuentas.

Fila
El número de fila del elemento. Si ha excluido algunas filas mediante el uso de un filtro o si algunas de las filas habían desaparecido los valores, el número de fila
identifica la fila original en la base de datos.

Tasa de Incidencia media


Esta es la tasa de incidencia predicho calculó utilizando la fórmula

Tenga en cuenta que el cálculo se hace por un valor de exposición específica, no el valor de T en la base de datos. Esto le permite hacer comparaciones válidas de las
tasas de incidencia.

PROB que Count es Y

El uso de la distribución de probabilidad de Poisson, la probabilidad de obtener exactamente Y eventos durante la cantidad de exposición dado en el cuadro Valor
exposición se calcula para los valores de Y especificada en el cuadro Los datos sobre incidencia.

Parcelas de Y / T (incidencia) vs X

(Cuatro más parcelas similares se muestran aquí)

325-33
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Estos gráficos muestran cada una de las variables independientes graficados contra la incidencia medido por Y / T. Ellos deben ser analizados en busca de valores
atípicos y patrones curvilíneos.

Parcelas de Residuos vs Y y Y predicha

Estos gráficos muestran los residuales contra la variable dependiente y el valor predicho de la variable dependiente. Se utilizan para detectar valores
atípicos.

Parcelas de Residuos y sombreros vs Fila

Estos gráficos muestran los residuales y los valores sombrero frente a los números de fila. Se utilizan para detectar rápidamente las filas que tienen grandes residuos o
grandes valores sombrero.

325-34
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Parcelas de residuos y de X

(Cuatro más parcelas similares se muestran aquí)

Estos gráficos muestran los residuales representa frente a las variables independientes. Se utilizan para detectar valores atípicos. También se utilizan para encontrar
patrones curvilíneos que no están representados en el modelo de regresión.

325-35
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Ejemplo 2a - Selección de subconjuntos

Este ejemplo demostrará cómo seleccionar un subconjunto adecuado de las variables independientes que están disponibles. El conjunto de datos para ser
analizados consta de diez variables independientes, una variable dependiente, una variable de frecuencia, y una variable de exposición. La variable dependiente
se generó usando variables independientes X1, X2, y X3 usando la fórmula

Variables X4, X5, X6 y eran copias de X1 más un pequeño componente aleatorio. Del mismo modo, X7 y X8 estaban cerca de copias de X2 y X9 y X10 estaban cerca de copias de
X3. Se añadieron Estas cerca de copias de las variables originales causar confusión para el algoritmo de selección. Las cuarenta filas de datos se almacenan en el conjunto de
datos PoisReg. Ahora asumimos que no sabemos cómo se generaron los datos. Nuestra tarea es encontrar un subconjunto de las diez variables independientes que hace un
buen trabajo de ajuste de los datos. Tenemos la intención de hacer dos carreras. El objetivo de la primera carrera será encontrar un tamaño subconjunto apropiado. Luego, en la
segunda pasada, vamos a identificar las variables en este subgrupo y determinar las distintas estadísticas de regresión.

Es posible que siga a lo largo de aquí al hacer las entradas apropiadas o cargar la plantilla completa Ejemplo 2a Ejemplo haciendo clic en Abrir
plantilla en el menú Archivo de la ventana de regresión de Poisson.

1 Abrir el conjunto de datos PoisReg.

• En el menú Archivo de la ventana NCSS de datos, seleccione Ejemplo Datos no.


• Haga clic en el archivo PoisReg.NCSS.
• Hacer clic Abierto.

2 Abra la ventana de regresión de Poisson.

• Usando el menú de análisis o el procedimiento de Navigator, buscar y seleccionar el La regresión de Poisson procedimiento.
• En los menús, seleccione Archivo, entonces Nueva plantilla. Esto llenará el procedimiento con la plantilla por defecto.

3 Especificar las variables.

• En la ventana de regresión de Poisson, seleccione el Variables, ficha Modelo.


• Selecciona el dependiente Y a Contar.
• Selecciona el T: variable de exposición a Hora.
• Selecciona el X de las variables independientes: numéricos a X1-X10.
• Selecciona el frecuencias a Casos.

4 Especificar el modelo.

• Selecciona el Condiciones a 1-Way.


• Selecciona el Método de búsqueda a Jerárquica adelante con conmutación.
• Conjunto Detener la búsqueda cuando el número de términos alcances a 6.
• El resto de este panel se puede dejar en los valores por defecto.

5 Especificar los informes.

• Selecciona el ficha Informes.

• Desactive todos los informes y gráficos, excepto Ejecutar Resumen, Selección de subconjuntos - Resumen, y Selección de subconjuntos - Detalle ( éstos deben ser
revisados).

6 Ejecutar el procedimiento.

• En el menú Ejecutar, seleccione Procedimiento ejecutar. Alternativamente, haga clic en el botón Ejecutar verde.

325-36
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

Resumen ejecutar

ít. Valor ít. Valor


Variable dependiente Contar filas Usado 40
variable de exposición Hora Suma de Frecuencias 130
de frecuencia variable Casos iteraciones 20
Ind. De Var Disponible 10 convergencia cero 1E-09
Nº de x en Modelo 5 La máxima convergencia 1.489973E-06
Pseudo R² 0.9980 dispersión Phi 0,0138
definitiva de probabilidad -288.8153 Phi no se utiliza para corregir los errores estándar.
Método subconjunto Jerárquica adelante / Conmutación

Este informe proporciona varios detalles acerca de los datos y el algoritmo MLE, ya que se ajusta a la mejor modelo encontrada durante la búsqueda. Observamos que, como se
esperaba, había 40 filas utilizadas. El hecho de que se necesitaban 20 iteraciones para resolver las ecuaciones de probabilidad es una fuente de preocupación, ya que esto
demuestra que el algoritmo no puede haber convergido. Esto puede haber sido debido a nuestra instalación de un modelo que tenía demasiados términos.

Selección subconjunto Resumen Sección

Número de Iniciar sesión


Condiciones Probabilidad R2 desviación AIC
1 -730.6939 0.0000 885.5007 887.5007
2 -434.0619 0.6700 292.2366 296.2366
3 -348.4077 0,8634 120.9282 126.9282
4 -288.8552 0.9979 1.8233 9.8233
5 -288.8343 0.9980 1.7815 11.7815
6 -288.8153 0.9980 1.7434 13.7434

Este informe nos ayudará a determinar un tamaño de subconjunto apropiado. De modo que cada columna, podemos ver que se necesitan tres variables. Todas estas
medidas son las funciones de cada uno. Sin embargo, cada uno de ellos ofrece información sobre el tamaño subconjunto apropiado.

En este ejemplo, las cuatro medidas apuntan unánimemente a tres como el tamaño subconjunto apropiado.

Número de variables

Este es el número de términos en el modelo incluyendo la intersección. Cada línea se presenta los resultados para el mejor modelo encontrado para ese tamaño de
subconjunto. La primera línea presenta los resultados para el modelo de intercepción-solamente.

Probabilidad log

Este es el valor de la función de probabilidad logarítmica. Dado que el objetivo de máxima verosimilitud es maximizar este valor, queremos seleccionar un tamaño subconjunto

después de lo cual la probabilidad de registro no se incrementa significativamente. En este ejemplo, después se añaden tres términos (además de la intersección) el logaritmo

de verosimilitud no cambia mucho. El logaritmo de verosimilitud apunta a un tamaño de subconjunto de tres términos, más la intersección para un total de cuatro.

R 2

Este es el valor de la pseudo R 2 -una medida de la adecuación del modelo. Dado que nuestro objetivo es maximizar este valor, queremos seleccionar un tamaño
subconjunto después de lo cual el este valor no se incrementa significativamente. En este ejemplo, después de cuatro términos se incluyen, la R 2 es 0.9979 y no
cambia mucho. Los R 2 valores de punto a un tamaño de subconjunto de cuatro.

Desviación

La desviación es una medida de la falta de ajuste. Por lo tanto, queremos seleccionar un tamaño subconjunto después de lo cual la desviación no se reduce
significativamente.

En este ejemplo, se incluyen después de cuatro términos, la desviación es 1,8233 y no cambia mucho. Los valores Deviance apuntan a un tamaño
subconjunto de cuatro.

325-37
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

AIC

Estos son los valores criterio de información de Akaike para cada tamaño de subconjunto. Este criterio mide tanto la falta de ajuste y el tamaño del modelo de
regresión. Nuestro objetivo es minimizar este valor.

En este ejemplo, el tamaño de subconjunto de cuatro da el valor AIC más bajo y por lo tanto el tamaño de subconjunto implicado por esta estadística.

Selección subconjunto Sección de Detalle

No. de No. de Iniciar sesión Término Término


Términos Paso Acción Probabilidad de X R2 Ingresó Remoto
1 Añadir 1 1 -730.6939 0.0000 Interceptar
2 Añadir 2 2 -434.0619 0.6700 X3
3 Añadir 3 3 -348.4423 0,8634 X2
4 Cambiar 3 3 -348.4077 0,8634 X9 X3
5 Añadir 4 4 -289.2634 0.9970 X6
6 Cambiar 4 4 -289.0943 0.9974 X8 X2
7 Cambiar 4 4 -288.8552 0.9979 X3 X9
8 Añadir 5 5 -288.8343 0.9980 X5
9 Añadir 6 6 -288.8201 0.9980 X7
10 Cambiar 6 6 -288.8153 0.9980 X2 X5

Este informe muestra el progreso del algoritmo de selección de subconjunto a través de sus diversas etapas. Se muestra el término original añadido en cada etapa y
cualquier conmutación que se hizo.

Paso
Este es el número de la etapa en el proceso de selección de subconjuntos.

Acción

Dos acciones son posibles en cada paso: Añadir o Cambiar. Añadir significa que el tamaño subconjunto se incrementó y el término introduce como añadido al
conjunto de variables regresoras activos. Cambiar significa que el tamaño subconjunto sigue siendo el mismo, mientras que uno regresor activo se eliminó y otro
se activó.

Nº de Términos

Este es el número de términos activos (incluyendo el intercepto) al final de este paso.

Nº de equis

Este es el número de variables activas (con exclusión de la intersección) al final de este paso. Esto le recuerda a cuántos X las variables se generaron
para cada término que involucra una variable categórica.

Probabilidad log
Este es el valor de la probabilidad log después de este paso se completó.

R 2

Esta es la seudo R 2 se completó valor después de este paso.

Variables se introducen

Este es el nombre de la variable independiente que se ha añadido a la lista de variables predictores activos.

Variable Eliminado
En la conmutación pasos, este es el nombre de la variable que se ha eliminado de la lista de variables regresoras activos.

325-38
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com
La regresión de Poisson

Ejemplo 2b - Subconjunto Selección Continúa


Ejemplo 2a completado el primer paso en el proceso de selección subconjunto indicando que un subconjunto de cuatro términos es apropiado. Ahora, un segundo,
deberá hacerse para encontrar esos términos.

Las instrucciones proporcionan aquí se supone que acaba de terminar el Ejemplo 2a. Si no lo ha hecho, debe completar primero ya que
sólo diremos que desea necesita ser cambiado.

Es posible que siga a lo largo de aquí al hacer las entradas apropiadas o cargar la plantilla completa Ejemplo 2b Ejemplo haciendo clic en Abrir
plantilla en el menú Archivo de la ventana de regresión de Poisson.

1 Especificar el modelo.

• En la ventana de regresión de Poisson, seleccione el ficha Modelo.


• Selecciona el Detener la búsqueda cuando el número de términos alcances a 4.
• El resto de este panel se puede dejar en los valores por defecto.

2 Especificar los informes.

• Selecciona el ficha Informes.

• Desactive todos los informes y gráficos, excepto Ejecutar Resumen, Selección de subconjuntos - Resumen, subgrupo Selección - Detalle, Los
coeficientes de regresión, y (residuos éstos deben ser revisados).

3 Ejecutar el procedimiento.

• En el menú Ejecutar, seleccione Procedimiento ejecutar. Alternativamente, haga clic en el botón Ejecutar (el botón de la izquierda en la barra de botones en la parte
superior) o pulse la tecla de función F9.

Resumen de ejecución del informe

ít. Valor ít. Valor


Variable dependiente Contar filas Usado 40
variable de exposición Hora Suma de Frecuencias 130
de frecuencia variable Casos iteraciones 10
Ind. De Var Disponible 10 convergencia cero 1E-09
Nº de x en Modelo 3 Máxima convergencia 5.654499E-10
Pseudo R² 0.9979 dispersión Phi 0,0142
definitiva de probabilidad -288.8552 Phi no se utiliza para corregir los errores estándar.
Método subconjunto Jerárquica adelante / Conmutación

Observamos que el modelo final convergieron en sólo cinco iteraciones y la máxima convergencia es menor que cero Convergencia. Esto
significa que el algoritmo termina normalmente.

Resumen subconjunto Selección

Número de Iniciar sesión


Condiciones Probabilidad R2 desviación AIC
1 -730.6939 0.0000 885.5007 887.5007
2 -434.0619 0.6700 292.2366 296.2366
3 -348.4077 0,8634 120.9282 126.9282
4 -288.8552 0.9979 1.8233 9.8233

Este informe de nuevo nos muestra que un tamaño subconjunto de cuatro es una opción razonable.

325-39
© NCSS, LLC. Todos los derechos reservados.
Statistical Software NCSS NCSS.com

La regresión de Poisson

Detalle Selección subconjunto

No. de No. de Iniciar sesión Término Término


Términos Paso Acción Probabilidad de X R2 Ingresó Remoto
1 Añadir 1 1 -730.6939 0.0000 Interceptar
2 Añadir 2 2 -434.0619 0.6700 X3
3 Añadir 3 3 -348.4423 0,8634 X2
4 Cambiar 3 3 -348.4077 0,8634 X9 X3
5 Añadir 4 4 -289.2634 0.9970 X6
6 Cambiar 4 4 -289.0943 0.9974 X8 X2
7 Cambiar 4 4 -288.8552 0.9979 X3 X9

Este informe muestra el viaje del algoritmo a través del laberinto de posibles modelos. Durante el proceso, tres variables fueron
cambiados a fin de lograr un mejor modelo.

Coeficientes de regresión Informe

regresión estándar Wald de Baja 95.0% superior 95.0%


Coeficiente independiente Error chi² prob Confianza Confianza
Variable bi) Sb (i) H0: β = 0 Nivel Límite Límite

Interceptar -0.12374 0.10638 1.35 0.2448 -0.33224 0.08476


X3 0.01047 0,00041 656,32 0.0000 0.00967 0.01127
X6 0,00345 0.00031 121.68 0.0000 0.00283 0.00406
X8 0.00677 0,00043 245.70 0.0000 0.00592 0.00761
dispersión Phi 0,0142

Este informe proporciona los detalles del modelo que fue seleccionado. Observamos el X3, X6, X8 y se incluyeron en el modelo. Suponemos que X8 está tomando
el lugar de X2 y X6 está tomando el lugar de X1. De hecho, nos encontramos con una regresión de Poisson con X1, X2, y X3 en el modelo. El logaritmo de
verosimilitud para este modelo fue -288.9466, que es ligeramente menor que el alcanzado por -288.8552 nuestro mejor modelo. Con esto concluye nuestra
discusión de este ejemplo. Por lo general, volvería a estudiar los gráficos de residuos y completar el análisis haciendo una tercera carrera con sólo el X3 de
variables, X6 y X8 especificado.

325-40
© NCSS, LLC. Todos los derechos reservados.