Sei sulla pagina 1di 84

ESTADSTICA APLICADA CON SPSS

Alfonso Garca Prez

ESTADSTICA APLICADA CON SPPS

Copyright 2005 Alfonso Garca Prez

``No est permitida la reproduccin total o parcial de este libro, ni su tratamiento informtico, ni la transmisin de ninguna forma o por cualquier medio, ya sea electrnico, mecnico, por fotocopia, por registro u otros medios, sin el permiso previo y por escrito de los titulares del Copyright. El contenido de este libro est registrado por el autor en el Registro de la Propiedad Intelectual y protegido por la Ley, que establece penas de prisin adems de las correspondientes indemnizaciones para quien lo plagiara"

Edita: Universidad Nacional de Educacin a Distancia

ALFONSO GARCA PREZ

Contenido

Prlogo. 5 Captulo 1: Introduccin al SPSS 7 Captulo 2: Anlisis de Componentes Principales .. 11 Captulo 3: Anlisis de Correspondencias .... 15 Captulo 4: Escalado Multidimensional ..... 21 Captulo 5: Anlisis de Conglomerados.. 27 Captulo 6: Anlisis de Discriminante ............ 35 Captulo 7: Anlisis Factorial ........... 41 Captulo 8: Modelos Log-lineales ........ 43 Captulo 9: Regresin Logstica .......... 51 Captulo 10: Regresin Poisson .............. 57 Captulo 11: Regresin no Lineal............. 63 Captulo 12: Anlisis de la Varianza con Medidas Repetidas ...... 67 Captulo 13: Anlisis de Series Temporales.......... 73 Captulo 14: Control Estadstico de la Calidad......... 81

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

Prlogo

El presente libro es la segunda parte de la tercera Unidad Didctica del curso Mtodos Avanzados de Estadstica Aplicada, dedicada al estudio del Tratamiento Informtico. Como se indicaba en la introduccin de la primera parte, la gran implantacin de SPSS como software de trabajo por muchos usuarios, nos ha llevado a dedicar un volumen entero a este paquete estadstico. No obstante, ya adelantamos que no es exhaustivo en cuanto al anlisis de todos los Mtodos a los que dicho paquete se puede aplicar, ya que la mejor manera de aprenderlo es utilizarlo y, en la mayora de las ocasiones, los comentarios resultan redundantes ante la sencillez de manejo de este software. Lo que advertimos es que, como ya pasaba con BMDP o SAS, slo se van a poder ejecutar, bsicamente, Mtodos Clsicos con este software, debiendo utilizarse el software enviado por el curso para la ejecucin de Mtodos Robustos y de Remuestreo. Ya que los ejemplos que analizaremos en este texto son los del libro Mtodos Avanzados de Estadstica Aplicada. Tcnicas Avanzadas, no repetiremos aqu los enunciado de dichos ejemplos, indicndolos con la abreviatura TA y el nmero del ejemplo correspondiente. Por ltimo, le recordamos que puede ver ms grandes la figuras utilizando el zoom de su pdf. Alfonso Garca Prez agar-per@ccia.uned.es

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

Captulo 1

Introduccin al SPSS

1.1. Introduccin
Una de las caractersticas ms destacadas de SPSS (en especial con respecto a BMDP o SAS) es que no es necesario conocer un lenguaje de programacin para utilizarlo (aunque lo tiene). Su exitosa presentacin de Mtodos Estadsticos a ejecutar en forma de persianas, permite comenzar a utilizarlo casi sin conocimientos previos del paquete. Por esta razn, este texto ser simple y breve ya que, sin duda, la mejor manera de aprende a manejar SPSS es utilizarlo.

1.2. El editor de datos


Lo primero que analizaremos es cmo introducir los datos de nuestro problema, definiendo las variables a analizar con posterioridad. Al abrir el paquete SPSS nos aparece un cuadro como el de la Figura 1.1, en el que, si queremos ir tecleando los datos, elegiremos la opcin Introducir datos, apareciendo, a continuacin el editor de datos en blanco en el que debemos introducir los datos observados en el primer individuo de la primera variable en la primera fila de la primera columna. Para ir viendo cmo funciona el editor de datos, vamos a considerar un ejemplo que analizaremos ms adelante cuando estudiemos los modelos loglineales. Ejemplo 8.1-TA ___________________________________________ En los modelos log-lineales, las variables deben ser categricas; es decir, deben definir categoras en las que clasificar los datos, pero ya veremos que esto lo haremos antes de ejecutar el anlisis en cuestin. Nosotros, de momento, utilizaremos datos de tipo numrico. Para ello, lo ms simple es ir introduciendo los datos y ms tarde, modificar, si es necesario, sus propiedades.

ESTADSTICA APLICADA CON SPPS

Figura 1.1 Para el ejemplo en cuestin, incluiremos (por este orden) datos de las tres variables: la variable Edad, con tres valores, 1 para los individuos menores de 20 aos, 2 para los individuos entre 20 y 50 aos y 3 para los individuos mayores de 50 aos. Para la variable Sexo, dos valores, 0 para los hombres y 1 para las mujeres. Y, finalmente, la variable Fumador, con dos valores, 0 para los individuos que no fuman y 1 para los que s fuman. As, los datos de los individuos de la tabla anterior sern los de la Figura 1.2.

Figura 1.2 Con objeto de introducir el nombre de las variables, pincharemos con el Ratn la pestaa de abajo Vista de variables, apareciendo un panel como el de la

ALFONSO GARCA PREZ

Figura 1.3. Pinchando el 1, podremos teclear el nombre de las tres variables as como sus principales caractersticas. Volveremos al editor de datos pinchando en la pestaa inferior, Vista de datos.

Figura 1.3 En la barra de arriba (en Archivo) deberemos salvar nuestro fichero de datos. Si nuestros datos estn ya en un archivo, debemos incluirlos en el Editor de datos con la opcin: Archivo Abrir Datos (Figura 1.4)

Figura 1.4

10

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

11

Captulo 2

Anlisis de Componentes Principales

2.1. Anlisis de Componentes Principales


El Anlisis de Componentes Principales se obtiene ejecutando la secuencia: Analizar Reduccin de datos Anlisis Factorial (Figura 2.1).

Figura 2.1 Una vez incluidas todas las variables a utilizar en el Anlisis, incluyndolas en el cuadro de la derecha con la flecha, es importante comprobar que en Extraccin se utilice la opcin Componentes Principales y Grfico de sedimentacin (Figura 2.2). Una vez seleccionadas stas, SPSS se ejecuta con el botn Aceptar que aparece en dicha Figura 2.2.

12

ESTADSTICA APLICADA CON SPPS

Ejemplo 2.1-TA ___________________________________________ Si ejecutamos la secuencia anterior con los datos del Ejemplo 2.1 del texto Tcnicas Avanzadas, se obtienen los siguientes resultados. En [1] y [2] puede verse la variacin explicada por cada componente principal. A continuacin aparece lo que SPSS denomina Grfico de sedimentacin y que en TA denominamos Grfico de desmoronamiento. Por ltimo, en [3] aparecen las Componentes Principales, con coeficientes algo distintos de los que obtenamos en TA pero, por supuesto, con la misma interpretacin.

Figura 2.2

A. factorial
Comunalidades Inicial 1,000 1,000 1,000 1,000 1,000 1,000 1,000 1,000 Extraccin ,973 ,747 ,817 ,862 ,945 ,597 ,781 ,969

X1 X2 X3 X4 X5 X6 X7 X8

Mtodo de extraccin: Anlisis de Componentes principales.

ALFONSO GARCA PREZ

13

Varianza total explicada Sumas de las saturaciones al cuadrado de la extraccin Total 2,686 1,862 1,112 1,030 % de la varianza 33,577 23,275 13,905 12,881 % acumulado 33,577 56,852 70,757 83,637

Autovalores iniciales Componente 1 2 3 4 5 6 7 8 Total 2,686 1,862 1,112 1,030 ,619 ,367 ,277 ,045 % de la varianza 33,577 23,275 13,905 12,881 7,740 4,591 3,467 ,564 % acumulado 33,577 56,852 70,757 83,637 91,377 95,968 99,436 100,000

Mtodo de extraccin: Anlisis de Componentes principales. [1] [2]

Grfico de sedimentacin

3,0

2,5

2,0

Autovalor

1,5

1,0

0,5

0,0 1 2 3 4 5 6 7 8

Nmero de componente

14
Matriz de componentes(a) Componente 1 X1 X2 X3 X4 X5 X6 X7 X8 ,753 -,704 -,113 ,064 ,803 ,629 -,719 -,222 2 ,450 ,363 ,872 ,764 ,273 -,159 ,255 -,140 3 ,445 ,093 -,176 -,443 ,470 -,392 ,445 ,326

ESTADSTICA APLICADA CON SPPS

4 -,070 -,332 ,118 ,279 -,078 ,149 ,026 ,891

Mtodo de extraccin: Anlisis de componentes principales. a 4 componentes extrados [3]

Los resultados obtenidos al ejecutar SPSS son ficheros que pueden ser salvados y reutilizados.

2.2. Sintaxis de SPSS


Aunque la forma habitual de utilizar SPPS (al menos en una primera aproximacin al paquete) es mediante las persianas de la barra de comandos superior, SPSS puede ser utilizado a travs de un lenguaje de programacin como lo era SAS o BMDP. Este lenguaje SPSS se llama Sintaxis SPSS. Si observamos de nuevo la Figura 2.2, vemos un botn denominado Pegar. Si lo hubiramos seleccionado, obtendramos el Programa
FACTOR /VARIABLES X1 X2 X3 X4 X5 X6 X7 X8 /MISSING LISTWISE /ANALYSIS X1 X2 X3 X4 X5 X6 X7 X8 /PRINT INITIAL EXTRACTION /PLOT EIGEN /CRITERIA MINEIGEN(1) ITERATE(25) /EXTRACTION PC /ROTATION NOROTATE /METHOD=CORRELATION .

Este Programa SPSS ejecuta lo mismo que el botn Aceptar de dicha Figura 2.2 y puede ser salvado, modificado y reutilizado, de manera que una forma de ejecutar SPSS reiteradamente sin tener que ir completando las diversas ventanas de dilogo de las persianas SPSS, es utilizar directamente Sintaxis SPSS. Adems, esta Sintaxis puede modificarse adecundola precisamente a aquello en lo que estamos interesados, pudiendo unirse varios Programas en una sola Sintaxis.

ALFONSO GARCA PREZ

15

Captulo 3

Anlisis de Correspondencias

3.1. Anlisis de Correspondencias


La explicacin detallada de este tipo de anlisis aparece en el captulo 3 del texto TA. Explicaremos su ejecucin siguiendo el ejemplo 3.2 de dicho texto. Ejemplo 3.2-TA ___________________________________________ La primera observacin que debemos hacer es sobre el manejo de los datos. SPSS requiere que los valores de las dos variables sean de tipo numrico pero, por otro lado, stas tienen un marcado acento de etiqueta. Adems, como los datos se refieren a tablas de frecuencia, no vamos a introducir los, para este ejemplo, 6851 datos uno a uno.

Figura 3.1

16

ESTADSTICA APLICADA CON SPPS

Lo haremos mediante una variable de frecuencia a la que hemos denominado Pondera. De ah que el Editor de datos para este ejemplo sea el de la Figura 3.1. Pero observemos cmo hemos trabajado la opcin de la pestaa Vista de variables en la Figura 3.2, dando nombres a los valores de las variables.

Figura 3.2 Ahora ya tenemos preparados los datos para realizar un Anlisis de Correspondencias. Para ello ejecutaremos la secuencia: Analizar Reduccin de datos Anlisis de correspondencias (Figura 3.3).

Figura 3.3

ALFONSO GARCA PREZ

17

En el anlisis hemos utilizado las opciones que aparecen en la Figura 3.4. Resaltamos que debemos codificar las variables que forman la tabla, como se indica en el panel de la izquierda, y que con el botn Modelo obtenemos el cuadro de dilogo de la derecha, en donde se ve que la solucin que buscamos es de dos dimensiones y que utilizamos una distancia chi-cuadrado.

Figura 3.4 Con estas opciones obtenemos los siguientes resultados,

Correspondencias

Tabla de correspondencias Bebe Madre jnf jf mnf mf Margen activo pm 50 9 41 4 104 pv 315 40 147 11 513 gcm 24 6 14 1 45 gcv 4012 459 1594 124 6189 Margen activo 4401 514 1796 140 6851

[1]

18

ESTADSTICA APLICADA CON SPPS


Resumen

Proporcin de inercia

Confianza para el Valor

Corre Dimensin 1 2 3 Total a 9 grados de libertad Valor propio ,050 ,016 ,004 Inercia ,003 ,000 ,000 ,003 19,109 ,024(a) Chi-cuadrado Sig. Explicada ,908 ,087 ,005 1,000 Acumulada ,908 ,995 1,000 1,000 Desviacin tpica ,013 ,015

[2]

Examen de los puntos de fila(a)

Puntuacin en la dimensin De los puntos a la inercia de la dimensin Madre jnf jf mnf mf Total activo Masa ,642 ,075 ,262 ,020 1,000 1 -,165 ,190 ,313 ,465 2 -,015 ,418 -,063 -,253 Inercia ,001 ,000 ,001 ,000 ,003 1 ,347 ,054 ,511 ,088 1,000 2 ,009 ,840 ,066 ,084 1,000

Contribucin De la dimensin a la inercia del 1 ,997 ,400 ,986 ,877 2 ,003 ,599 ,012 ,081

a Normalizacin Simtrica

Examen de los puntos columna(a)

Puntuacin en la dimensin De los puntos a la inercia de la dimensin Bebe pm pv gcm gcv Total activo Masa ,015 ,075 ,007 ,903 1,000 1 1,562 ,265 ,899 -,055 2 -,360 -,008 1,441 -,004 Inercia ,002 ,000 ,000 ,000 ,003 1 ,736 ,105 ,106 ,054 1,000 2 ,126 ,000 ,873 ,001 1,000

Contribucin De la dimensin a la inercia del 1 ,983 ,960 ,556 ,994 2 ,016 ,000 ,443 ,001

a Normalizacin Simtrica

ALFONSO GARCA PREZ

19

Puntos de columna y de fila

Simtrica Normalizacin
1,5

gcm

Bebe Madre

1,0

Dimensin 2

0,5

jf

0,0

jnf gcv

pv mnf mf

-0,5 -0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2

pm
1,4 1,6

Dimensin 1
[3] En [1] puede comprobarse que la tabla de doble entrada ha sido bien creada. La inercia acumulada puede verse en [2] . A continuacin aparecen las coordenadas suministradas pos SPSS (algo distintas que las obtenidas con el software del curso) y, por ltimo, en [3] , el grfico, principal objetivo del Anlisis, ampliamente comentado en TA.

20

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

21

Captulo 4

Escalado Multidimensional

4.1. Escalado Multidimensional


El Escalado Multidimensional fue tratado en el captulo 4 de TA. Aqu estudiaremos cmo ejecutar con SPSS el Escalado Multidimensional Clsico Mtrico mediante la utilizacin de sus persianas. Para ejecutar los otros tipos de escalamiento deberemos utilizar la Sintaxis de SPSS. Ejemplo 4.1-TA ___________________________________________ Analizar Escalas Escalamiento multidimensional (ALSCAL). Despus de introducir los datos como aparece en la Figura 4.1, ejecutamos la secuencia que tambin aparece en dicha Figura:

Figura 4.1

22

ESTADSTICA APLICADA CON SPPS

Se abrir entonces la ventana de dilogo que aparece en la Figura 4.2, en donde ya se ve que hemos incorporado todas las variables al anlisis. Ahora debemos modificar algo los dos botones que all aparecen. En Modelo completamos los cuadros como en la Figura 4.2, dado el tipo de datos que tenemos.

Figura 4.2 El botn Opciones le completamos como se indica en la Figura 4.3.

Figura 4.3 Con estas selecciones obtendramos los resultados que aparecen a continuacin,

ALFONSO GARCA PREZ

23

Escalamiento multidimensional

Raw (unscaled) Data for Subject 1 1 1 2 3 4 5 6 7 8 9 10 11 12 ,000 7,500 8,500 6,000 9,500 7,000 8,000 9,500 5,500 8,500 9,500 9,000 6 6 7 8 9 10 11 12 ,000 7,500 7,500 6,000 7,500 7,500 9,000 11 11 12 ,000 2,500 2 ,000 2,000 5,000 7,500 5,000 2,000 9,000 5,500 6,000 9,000 6,000 7 ,000 2,000 2,000 2,500 3,000 ,500 12 ,000 3 4 5

[1]

,000 7,500 8,000 8,500 2,000 9,000 9,000 8,000 7,500 5,500 8

,000 8,000 5,500 7,500 7,000 7,500 8,000 8,000 9,000 9

,000 6,000 2,000 5,000 7,500 6,500 1,500 2,000 10

,000 2,500 6,000 2,000 4,500

,000 4,500 6,500 6,500

,000 5,000 6,000

Iteration history for the 2 dimensional solution (in squared distances) Young's S-stress formula 1 is used. Iteration S-stress ,26241 ,20757 ,18765 ,17950 ,17669 ,17540 ,17449 Improvement ,05484 ,01992 ,00815 ,00281 ,00129 ,00091 ,001000

[2]

1 2 3 4 5 6 7

Iterations stopped because S-stress improvement is less than

24

ESTADSTICA APLICADA CON SPPS


Stress and squared correlation (RSQ) in distances

RSQ values are the proportion of variance of the scaled data (disparities) in the partition (row, matrix, or entire data) which is accounted for by their corresponding distances. Stress values are Kruskal's stress formula 1.

Stress

For matrix ,15209 RSQ =

,85524

Configuration derived in 2 dimensions

Stimulus Coordinates Dimension Stimulus Number 1 2 3 4 5 6 7 8 9 10 11 12 Stimulus Name V1 V2 V3 V4 V5 V6 V7 V8 V9 V10 V11 V12 1 -2,2273 -,9499 -,1722 -1,4457 1,3464 -,8397 ,5210 ,8699 -,3767 ,7265 1,5429 1,0047 2 ,0931 -,8015 -1,9273 ,4841 ,2773 ,9476 -,5959 1,0628 ,6495 ,4236 ,2237 -,8369

[3]

Optimally scaled data (disparities) for subject 1 1 2 3 4 5 6 7 8 9 10 11 12 ,000 1,808 2,793 1,342 3,579 1,808 2,793 3,305 1,342 2,793 3,772 3,305 6 6 ,000 2 ,000 1,342 1,342 2,537 1,342 1,342 2,793 1,342 1,808 2,793 1,808 7 3 4

1 5

,000 2,553 2,677 2,793 1,342 3,166 2,793 2,553 2,553 1,342 8

,000 2,793 1,342 2,244 1,808 1,808 2,553 2,793 2,793 9

,000 1,808 1,202 1,342 1,808 1,808 ,408 1,166 10

ALFONSO GARCA PREZ

25

7 8 9 10 11 12

2,058 1,808 1,342 1,808 2,490 2,793 11

,000 1,342 1,342 1,342 1,342 ,408 12 ,000

,000 1,342 1,342 1,076 1,342

,000 1,342 1,808 1,808

,000 1,342 1,342

11 12

,000 1,342

Configuracin de estmulos derivada

Modelo de distancia eucldea

V6 V4 V9

V8

V10

Dimensin 2

V5 V11

V1

V7 V2
-1

V12

-2 -2 -1

V3
0 1 2

Dimensin 1

[4]

En estos resultados se observa, en [1] , la matriz de distancias. A continuacin, en [2] , aparece el Stress de Young, algo distinto del que utilizamos en TA pero con el mismo significado. En [3] aparecen las coordenadas a ser representadas ms abajo y, en [4] , el grfico que buscamos con el escalado Multidimensional, algo distinto que el obtenido en TA pero con la misma interpretacin.

26

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

27

Captulo 5

Anlisis de Conglomerados

5.1. Introduccin
Como sabemos, existen, bsicamente, dos mtodos de Anlisis Cluster: uno es el Anlisis Jerrquico y otro el Algoritmo k-medias. Analizaremos estos dos mtodos en dos secciones separadas.

5.2. Anlisis Jerrquico


Con SPSS es posible realizar los cinco mtodos de agrupamiento estudiados en TA: Agrupamiento simple, Agrupamiento completo, Agrupamiento promedio, Agrupamiento centroide, y el Mtodo de Ward, as como utilizar las diversas distancias all estudiadas. Tambin podemos obtener el dendograma.

Figura 5.1

28

ESTADSTICA APLICADA CON SPPS

Ejemplo 5.6-TA ___________________________________________ Despus de introducir los datos como aparece en la Figura 5.1, ejecutamos la secuencia que tambin aparece en dicha Figura: Analizar Clasificar Conglomerados jerrquicos apareciendo un cuadro de dilogo como el de la Figura 5.2, en donde hemos incluido las dos variables en anlisis. Tambin aparecen all los cuatro botones en donde tendremos que seleccionar nuestras opciones.

Figura 5.2 Para formar los clusters utilizando un Agrupamiento centroide, seleccionamos en el botn Mtodo las tres opciones que aparecen en la Figura 5.3,

Figura 5.3

ALFONSO GARCA PREZ

29

Agrupacin de centroides, Distancia Eucldea y que no estandarice los datos con la opcin de Ninguno. Para este ejemplo, no es necesario pinchar en el botn Estadsticos ni en Guardar, puesto que las opciones que vienen por defecto son adecuadas. En el botn Grficos es necesario indicarle que nos ejecute el Dendograma. Como en situaciones anteriores, salimos de las ventanas con Continuar. Despus de nuestras selecciones, como siempre, pinchando en el botn Aceptar, obtenemos los resultados que vienen a continuacin,

Conglomerados jerrquicos
Advertencia La medida eucldea al cuadrado debera emplearse cuando se solicite el mtodo de conglomeracin CENTROID, MEDIAN o WARD.

Resumen del procesamiento de los casos(a,b) Casos Vlidos Porcentaje 5 100,0 a distancia eucldea usada b Vinculacin de centroides N N 0 Perdidos Porcentaje ,0 N 5 Total Porcentaje 100,0

Vinculacin de centroides
Historial de conglomeracin Etapa en la que el conglomerado aparece por primera vez Conglomer ado 1 0 0 2 3 Conglomer ado 2 0 0 0 1 Prxima etapa 4 3 4 0

Conglomerado que se combina Conglomer ado 1 4 1 1 1 Conglomer ado 2 5 3 2 4

Etapa 1 2 3 4

Coeficientes 10,770 11,180 10,701 62,556

[1]

[3]

30
Diagrama de tmpanos vertical Caso 5 X X X X X X X X 4 X X X X X 2 X X X X X X

ESTADSTICA APLICADA CON SPPS

Nmero de conglomerados 1 2 3 4

3 X X X X

X X X

1 X X X X

Dendrograma
* * * * * * H I E R A R C H I C A L * * * * * Dendrogram using Centroid Method Rescaled Distance Cluster Combine C A S E Label Num 4 5 1 3 2 0 5 10 15 20 25 +---------+---------+---------+---------+---------+ C L U S T E R A N A L Y S I S *

En ellos se observa, en [1] , en la tabla Historial de conglomeracin, como en la Etapa 1, se unen los elementos 4 y 5. En el paso segundo, Etapa 2, se unen los elementos 1 y 3. Luego, en la Etapa 3, se une el elemento 2 al elemento 1; mejor dicho, al cluster en el que est el elemento 1, unindose finalmente el cluster donde est el elemento 4 (primer cluster formado) al cluster donde est el elemento 1. El Dendograma que aparece en [2] , corresponde a esa aglomeracin y en l parece que se unen aal principio los elementos casi a la vez. Lo que ocurre es que las distancias a las que se van uniendo son muy inferiores a la de aglomeracin final, como puede verse en [3] .

5.3. Algoritmo k-medias


El proceso para realizar el algoritmo k-medias es similar al realizado para ejecutar el anlisis jerrquico. Esta vez (Figura 5.4) deberemos ejecutar la secuencia Analizar Clasificar Conglomerados de K medias

ALFONSO GARCA PREZ

31

Figura 5.4 Ejemplo 5.6-TA ___________________________________________ Despus de introducir los datos y ejecutar la secuencia anterior, incluimos las dos variables en anlisis (Figura 5.5)

Figura 5.5 Con el botn Guardar seleccionamos las dos opciones que permite (Figura 5.6)

32

ESTADSTICA APLICADA CON SPPS

Figura 5.6 Con el botn Opciones seleccionamos las marcadas en la Figura 5.7

Figura 5.7

Pulsando los botones Continuar y, finalmente, Aceptar, obtenemos los resultados que aparecen a continuacin, los cuales, lgicamente, son los mismos que los comentados en TA.

ALFONSO GARCA PREZ

33

Anlisis de conglomerados de K medias


Centros iniciales de los conglomerados Conglomerado talla sueldo 1 189,00 100,00 2 170,00 180,00

Historial de iteraciones(a) Cambio en los centros de los conglomerados Iteracin 1 2 1 5,385 2 8,333

,000 ,000 a Se ha logrado la convergencia debido a que los centros de los conglomerados no presentan ningn cambio o ste es pequeo. El cambio mximo de coordenadas absolutas para cualquier centro es de ,000. La iteracin actual es 2. La distancia mnima entre los centros iniciales es de 82,225.

Centros de los conglomerados finales Conglomerado talla sueldo 1 187,00 105,00 2 175,00 173,33

ANOVA Conglomerado Media gl cuadrtica talla sueldo 172,800 1 Error Media cuadrtica 19,333

gl 3

F 8,938

Sig. ,058

5603,333 1 55,556 3 100,860 ,002 Las pruebas F slo se deben utilizar con una finalidad descriptiva puesto que los conglomerados han sido elegidos para maximizar las diferencias entre los casos en diferentes conglomerados. Los niveles crticos no son corregidos, por lo que no pueden interpretarse como pruebas de la hiptesis de que los centros de los conglomerados son iguales.

Nmero de casos en cada conglomerado Conglomerad o Vlidos Perdidos 1 2 2,000 3,000 5,000 ,000

34

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

35

Captulo 6

Anlisis Discriminante

6.1. Anlisis Discriminante


El Tratamiento Informtico de Anlisis Discriminante que ejecuta SPSS es algo distinto que el estudiado en el captulo 6 de TA.

Figura 6.1 Ejemplo 6.1-TA ___________________________________________ Despus de introducir los datos ejecutamos la secuencia que aparece en la Figura 6.1: Analizar Clasificar Discriminante

36

ESTADSTICA APLICADA CON SPPS

Apareciendo el cuadro de dilogo que aparece en la Figura 6.2, en donde se ha incluido la variable X6 en Variable de agrupacin por ser sta la que determina los dos grupos que componen los datos.

Figura 6.2 Las otras variables, X1, ,X5 se incluyen en la ventana Independientes. Si se quiere obtener la Funcin Discriminante lineal de Fisher, se debe seleccionar esta opcin en el botn Estadsticos (Figura 6.3).

Figura 6.3 Con esta seleccin obtendramos los siguientes resultados,

ALFONSO GARCA PREZ

37

Discriminante
Resumen del procesamiento para el anlisis de casos Casos no ponderados Vlidos Excluidos Cdigos de grupo perdidos o fuera de rango Perdida al menos una variable discriminante Perdidos o fuera de rango ambos, el cdigo de grupo y al menos una de las variables discriminantes. Total excluidos Casos Totales N 32 0 0 Porcentaje 100,0 ,0 ,0

,0

0 32

,0 100,0

Estadsticos de grupo N vlido (segn lista) No ponderados Ponderados 17 17,000 17 17 17 17 15 15 15 15 15 32 32 32 32 32 17,000 17,000 17,000 17,000 15,000 15,000 15,000 15,000 15,000 32,000 32,000 32,000 32,000 32,000

x6 1,0

x1 x2 x3 x4 x5

2,0

x1 x2 x3 x4 x5

Total

x1 x2 x3 x4 x5

38

ESTADSTICA APLICADA CON SPPS

Anlisis 1 Resumen de las funciones cannicas discriminantes


Autovalores Correlacin cannica Autovalor % de varianza % acumulado ,930(a) 100,0 100,0 ,694 a Se han empleado las 1 primeras funciones discriminantes cannicas en el anlisis. Funcin 1 Lambda de Wilks Contraste de las funciones 1 Lambda de Wilks ,518

Chi-cuadrado 18,083

gl 5

Sig. ,003

Coeficientes estandarizados de las funciones discriminantes cannicas Funcin 1 x1 x2 x3 x4 x5 ,367 -,578 -,017 ,405 ,627

Matriz de estructura Funcin 1 x4 x1 x5 x3 x2 ,830 ,759 ,578 ,246 -,048

Correlaciones intra-grupo combinadas entre las variables discriminantes y las funciones discriminantes cannicas tipificadas Variables ordenadas por el tamao de la correlacin con la funcin. Funciones en los centroides de los grupos Funcin x6 1,0 2,0 1 -,877 ,994

Funciones discriminantes cannicas no tipificadas evaluadas en las medias de los grupos

ALFONSO GARCA PREZ

39

Estadsticos de clasificacin
Coeficientes de la funcin de clasificacin x6 x1 x2 x3 x4 x5 (Constante) 1,0 1,468 2,361 2,752 ,775 ,195 -514,956 2,0 1,558 2,205 2,747 ,952 ,372 -545,419

Funciones discriminantes lineales de Fisher

[1] Al final de dichos resultados, en [1] , aparecen los coeficientes cuya diferencia son los obtenidos en TA: 1,468-1,558 = -009, 2,361-2,205=0156, 2,752-2,747=0005, 0,775-0,952=-0177, 0,195-0,372=-0177.

40

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

41

Captulo 7

Anlisis Factorial

7.1. Anlisis Factorial


La ejecucin del Anlisis Factorial con SPSS se lleva a cabo ejecutando la siguiente secuencia Analizar Reduccin de datos Anlisis factorial Como se indica e la Figura 7.1. No obstante, como no hemos dedicado mucho espacio en el texto de TA a este tipo de anlisis no lo desarrollaremos aqu tampoco.

Figura 7.1

42

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

43

Captulo 8

Modelos Log-lineales

8.1. Modelos Log-lineales


El estudio de este tipo de modelos puede seguirse en el captulo 8 del texto TA. La forma de introducir los datos del ejemplo que sigue fue explicada en el captulo 1 de este texto. Ejemplo 8.1-TA ___________________________________________ Despus de introducir los datos ejecutamos la secuencia : Analizar Loglineal Seleccin de modelo

Figura 8.1

44

ESTADSTICA APLICADA CON SPPS

A continuacin nos aparecer un ventana de dilogo como la de la Figura 8.2, en la que incluiremos todas la variables en la ventana Factores, delimitando el rango de cada una de las variables con el botn Definir rango.

Figura 8.2 Si tocamos el botn Modelo, podemos definir el modelo log-lineal que deseemos. Lo ms interesante es utilizar la opcin que viene por defecto (Saturado) ya que, de esta manera, analizar todos los modelos log-lineales posibles y nos dar el mejor de todos ellos. En el botn Opciones, lo mejor es utilizar las que aparecen en la Figura 8.3.

Figura 8.3

ALFONSO GARCA PREZ

45

Con todas estas selecciones, los resultados que obtendremos, pulsando finalmente el botn Aceptar, sern los siguientes,

Loglineal jerrquico
* * * * * * * * DATA H I E R A R C H I C A L L O G L I N E A R * * * * * * * * Information 56 0 0 56 unweighted cases accepted. cases rejected because of out-of-range factor values. cases rejected because of missing data. weighted cases will be used in the analysis.

FACTOR Information Factor Level edad 3 sexo 2 fumador 2 Label

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - * * * * * * * * H I E R A R C H I C A L L O G L I N E A R * * * * * * * *

DESIGN 1 has generating class edad*sexo*fumador Note: For saturated models ,000 has been added to all observed cells. This value may be changed by using the CRITERIA = DELTA subcommand. The Iterative Proportional Fit algorithm converged at iteration 1. The maximum difference between observed and fitted marginal totals is and the convergence criterion is ,250

,000

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Observed, Expected Frequencies and Residuals. Factor edad sexo fumador fumador sexo fumador fumador edad sexo fumador fumador sexo fumador fumador edad sexo fumador fumador sexo fumador * * * * * * * * Code 1 0 0 1 1 0 1 2 0 0 1 1 0 1 3 0 0 1 1 0 H I E R A R C H I C A L 6,0 L O G 6,0 L I N E A R ,00 ,00 * * * * * * * * 2,0 13,0 2,0 13,0 ,00 ,00 ,00 ,00 5,0 4,0 5,0 4,0 ,00 ,00 ,00 ,00 2,0 1,0 2,0 1,0 ,00 ,00 ,00 ,00 7,0 3,0 7,0 3,0 ,00 ,00 ,00 ,00 1,0 11,0 1,0 11,0 ,00 ,00 ,00 ,00 OBS count EXP count Residual Std Resid

Observed, Expected Frequencies and Residuals. (Cont.)

46

ESTADSTICA APLICADA CON SPPS

Factor fumador

Code 1

OBS count 1,0

EXP count 1,0

Residual ,00

Std Resid ,00

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Goodness-of-fit test statistics Likelihood ratio chi square = Pearson chi square = ,00000 ,00000 DF = 0 DF = 0 P = P = . .

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Tests that K-way and higher order effects are zero. K 3 2 1 DF 2 7 11 L.R. Chisq 5,948 29,042 34,978 Prob ,0511 ,0001 ,0002 Pearson Chisq 7,163 26,289 37,429 Prob ,0278 ,0004 ,0001 Iteration 4 2 0

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Tests that K-way effects are zero. K 1 2 3 * * * * * * * * DF 4 5 2 L.R. Chisq 5,936 23,094 5,948 Prob ,2040 ,0003 ,0511 Pearson Chisq 11,139 19,126 7,163 L O G Prob ,0250 ,0018 ,0278 Iteration 0 0 0 * * * * * * * *

H I E R A R C H I C A L

L I N E A R

Tests of PARTIAL associations. Effect Name edad*sexo edad*fumador sexo*fumador edad sexo fumador DF 2 2 1 2 1 1 Partial Chisq 4,533 ,374 15,227 3,855 ,286 1,795 Prob ,1037 ,8292 ,0001 ,1455 ,5928 ,1803 Iter 2 2 2 2 2 2

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Note: For saturated models ,000 has been added to all observed cells. This value may be changed by using the CRITERIA = DELTA subcommand. Estimates for Parameters. edad*sexo*fumador Parameter 1 2 edad*sexo Parameter 1 2 Coeff. -,0380838588 -,4520733408 Std. Err. ,26302 ,27777 Z-Value Lower 95 CI Upper 95 CI -,14479 -1,62749 -,55361 -,99651 ,47744 ,09236 Coeff. -,2747356875 ,6540635032 Std. Err. ,26302 ,27777 Z-Value Lower 95 CI Upper 95 CI -1,04454 2,35467 -,79026 ,10963 ,24079 1,19850

edad*fumador

ALFONSO GARCA PREZ

47

Parameter 1 2

Coeff. -,3281202374 ,2886017987

Std. Err. ,26302 ,27777

Z-Value Lower 95 CI Upper 95 CI -1,24750 1,03899 L O G -,84364 -,25583 L I N E A R ,18740 ,83304_ * * * * * * * *

* * * * * * * *

H I E R A R C H I C A L

Estimates for Parameters. (Cont.) sexo*fumador Parameter 1 edad Parameter 1 2 sexo Parameter 1 fumador Parameter 1 Coeff. -,0595291157 Std. Err. ,19113 Z-Value Lower 95 CI Upper 95 CI -,31145 -,43415 ,31510 Coeff. -,1235729324 Std. Err. ,19113 Z-Value Lower 95 CI Upper 95 CI -,64652 -,49820 ,25105 Coeff. ,1788416633 -,2595429008 Std. Err. ,26302 ,27777 Z-Value Lower 95 CI Upper 95 CI ,67995 -,93437 -,33668 -,80398 ,69436 ,28489 Coeff. -,5365625958 Std. Err. ,19113 Z-Value Lower 95 CI Upper 95 CI -2,80724 -,91119 -,16194

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

* * * * * * * *

H I E R A R C H I C A L

L O G

L I N E A R

* * * * * * * *

Backward Elimination (p = ,050) for DESIGN 1 with generating class edad*sexo*fumador Likelihood ratio chi square = ,00000 DF = 0 P = .

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - If Deleted Simple Effect is edad*sexo*fumador Step 1 The best model has generating class edad*sexo edad*fumador sexo*fumador Likelihood ratio chi square = 5,94817 DF = 2 P = ,051 DF 2 L.R. Chisq Change 5,948 Prob ,0511 Iter 4

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - If Deleted Simple Effect is edad*sexo edad*fumador sexo*fumador Step 2 The best model has generating class DF 2 2 1 L.R. Chisq Change 4,533 ,374 15,227 Prob ,1037 ,8292 ,0001 Iter 2 2 2

48

ESTADSTICA APLICADA CON SPPS

edad*sexo sexo*fumador Likelihood ratio chi square = 6,32264 DF = 4 P = ,176

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - If Deleted Simple Effect is edad*sexo sexo*fumador * * * * * * * * Step 3 The best model has generating class edad*sexo sexo*fumador Likelihood ratio chi square = 6,32264 DF = 4 P = ,176 H I E R A R C H I C A L DF 2 1 L O G L.R. Chisq Change 6,012 16,707 L I N E A R Prob ,0495 ,0000 Iter 2 2

* * * * * * * *

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

* * * * * * * *

H I E R A R C H I C A L

L O G

L I N E A R

* * * * * * * *

The final model has generating class edad*sexo sexo*fumador The Iterative Proportional Fit algorithm converged at iteration 0. The maximum difference between observed and fitted marginal totals is and the convergence criterion is ,250 ,000

[1]

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Observed, Expected Frequencies and Residuals. Factor edad sexo fumador fumador sexo fumador fumador edad sexo fumador fumador sexo fumador fumador edad sexo fumador fumador sexo fumador fumador Code 1 0 0 1 1 0 1 2 0 0 1 1 0 1 3 0 0 1 1 0 1 6,0 1,0 4,8 2,2 1,15 -1,15 ,52 -,79 2,0 13,0 2,5 12,5 -,50 ,50 -,32 ,14 5,0 4,0 6,2 2,8 -1,23 1,23 -,49 ,74 2,0 1,0 ,5 2,5 1,50 -1,50 2,12 -,95 7,0 3,0 6,9 3,1 ,08 -,08 ,03 -,04 1,0 11,0 2,0 10,0 -1,00 1,00 -,71 ,32 OBS count EXP count Residual Std Resid

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

ALFONSO GARCA PREZ

49

Goodness-of-fit test statistics Likelihood ratio chi square = Pearson chi square = 6,32264 7,80576 DF = 4 DF = 4 P = P = ,176 ,099

[2]

En donde hemos remarcado con [1] que el programa elige como mejor modelo (ya hechos los tests condicionales para modelos anidados de la seccin 8.4.1 de TA) el mismo que se obtuvo all. Los tests para este mejor modelo se observan en [2].

50

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

51

Captulo 9

Regresin Logstica

9.1. Regresin Logstica


Este Mtodo Estadstico se estudia en el captulo 9 del texto TA. Su tratamiento con SPSS se basa en ejecutar la secuencia Analizar Regresin Logstica binaria Explicaremos su ejecucin siguiendo el ejemplo 9.1 de dicho texto. Ejemplo 9.1-TA ___________________________________________ Despus de introducir los datos, ejecutamos la secuencia anterior, como puede verse en la Figura 9.1

Figura 9.1

52

ESTADSTICA APLICADA CON SPPS

Entonces se abre una ventana de dilogo como la de la Figura 9.2 en donde deberemos incluir la variable dependiente (necesariamente dicotmica) en la ventana Dependiente; el resto de las covariables en Covariables, marcando las que sean cualitativas con el botn Categrica.

Figura 9.2 Al correr ahora el programa, presionando el botn Aceptar, se obtienen los siguientes resultados

Regresin logstica
Resumen del procesamiento de los casos Casos no ponderados(a) Casos seleccionados N Incluidos en el anlisis Casos perdidos Total Casos no seleccionados Total 50 0 50 0 50 Porcentaje 100,0 ,0 100,0 ,0 100,0

a Si est activada la ponderacin, consulte la tabla de clasificacin para ver el nmero total de casos.

Codificacin de la variable dependiente Valor original ,00 1,00 Valor interno 0 1

ALFONSO GARCA PREZ

53

Codificaciones de variables categricas Codificacin de parmetros Frecuencia activi ,00 1,00 2,00 3,00 presion angina ,00 1,00 ,00 1,00 9 12 19 10 24 26 7 43 (1) 1,000 ,000 ,000 ,000 1,000 ,000 1,000 ,000 (2) ,000 1,000 ,000 ,000 (3) ,000 ,000 1,000 ,000

[1]

Bloque 0: Bloque inicial


Tabla de clasificacin(a,b) Observado Pronosticado infarto ,00 Paso 0 infarto Porcentaje global a En el modelo se incluye una constante. b El valor de corte es ,500 ,00 1,00 0 0 1,00 17 33 Porcentaje correcto ,0 100,0 66,0

Variables en la ecuacin B Paso 0 Constante ,663 E.T. ,299 Wald 4,936 gl 1 Sig. ,026 Exp(B) 1,941

Variables que no estn en la ecuacin Puntuacin 2,957 2,273 ,570 ,806 1,410 3,566 ,230 7,395 gl 3 1 1 1 1 1 1 6 Sig. ,398 ,132 ,450 ,369 ,235 ,059 ,632 ,286

Paso 0

Variables

Activi activi(1) activi(2) activi(3) angina(1) presion(1) Edad

Estadsticos globales

Bloque 1: Mtodo = Por pasos hacia atrs (Wald)


Pruebas omnibus sobre los coeficientes del modelo

54

ESTADSTICA APLICADA CON SPPS

Paso 1

Paso Bloque Modelo

Chi-cuadrado 8,441 8,441 8,441 -2,171 6,270 6,270 -,707 5,563 5,563 -1,912 3,650 3,650

gl 6 6 6 3 3 3 1 2 2 1 1 1

Sig. ,208 ,208 ,208 ,538 ,099 ,099 ,400 ,062 ,062 ,167 ,056 ,056

Paso 2(a) Paso 3(a) Paso 4(a)

Paso Bloque Modelo Paso Bloque Modelo Paso Bloque Modelo

a Un valor de chi-cuadrado negativo indica que ha disminuido el valor de chi-cuadrado con respecto al paso anterior.

Resumen de los modelos R cuadrado de Nagelkerke ,215 ,163 ,146 ,097

Paso 1 2 3 4

-2 log de la verosimilitud 55,662(a) 57,834(a) 58,541(a) 60,453(b)

R cuadrado de Cox y Snell ,155 ,118 ,105 ,070

a La estimacin ha finalizado en el nmero de iteracin 5 porque las estimaciones de los parmetros han cambiado en menos de ,001. b La estimacin ha finalizado en el nmero de iteracin 4 porque las estimaciones de los parmetros han cambiado en menos de ,001. Tabla de clasificacin(a) Observado Pronosticado infarto ,00 Paso 1 infarto Porcentaje global Paso 2 infarto Porcentaje global Paso 3 infarto Porcentaje global Paso 4 infarto Porcentaje global a El valor de corte es ,500 ,00 1,00 0 0 17 33 ,00 1,00 12 10 5 23 ,00 1,00 7 4 10 29 ,00 1,00 5 1 1,00 12 32 Porcentaje correcto 29,4 97,0 74,0 41,2 87,9 72,0 70,6 69,7 70,0 ,0 100,0 66,0

ALFONSO GARCA PREZ

55

Variables en la ecuacin B Paso 1(a) activi activi(1) activi(2) activi(3) angina(1) presion(1 ) edad Constant e angina(1) presion(1 ) edad Constant e angina(1) -1,221 ,017 ,088 2,111 1,178 -,038 2,083 1,633 1,328 -,030 1,429 1,127 1,036 ,919 1,408 ,703 ,039 2,223 1,204 ,671 ,036 1,808 E.T. Wald 2,063 1,174 ,000 ,009 2,248 2,812 ,978 ,877 1,840 3,916 ,691 ,625 gl 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Sig. ,559 ,279 ,987 ,924 ,134 ,094 ,323 ,349 ,175 ,048 ,406 ,429 ,218 ,054 ,931 ,064 ,695 Exp(B) ,295 1,017 1,092 8,260 3,249 ,962 8,026 5,120 3,773 ,971 4,174 4,148 3,500 ,964 3,257 1,167

Paso 2(a)

1,423 1,154 1,520 presion(1 1,253 ,651 3,699 ) Constant -,036 ,421 ,007 e Paso presion(1 1,181 ,638 3,423 4(a) ) Constant ,154 ,393 ,154 e a Variable(s) introducida(s) en el paso 1: activi, angina, presion, edad. Variables que no estn en la ecuacin

Paso 3(a)

Paso 2(a)

Variables

Activi activi(1) activi(2) activi(3)

Puntuacin 2,187 2,171 ,099 ,462 2,187 1,894 1,744 ,177 ,512 ,706 2,816 1,567 1,163 ,153 ,631 1,699 ,281 4,107

gl 3 1 1 1 3 3 1 1 1 1 4 3 1 1 1 1 1 5

Sig. ,534 ,141 ,753 ,497 ,534 ,595 ,187 ,674 ,474 ,401 ,589 ,667 ,281 ,696 ,427 ,192 ,596 ,534

Estadsticos globales Paso 3(b) Variables Activi activi(1) activi(2) activi(3) Edad Estadsticos globales Paso 4(c) Variables Activi activi(1) activi(2) activi(3) angina(1) Edad Estadsticos globales a Variable(s) eliminada(s) en el paso 2: activi. b Variable(s) eliminada(s) en el paso 3: edad. c Variable(s) eliminada(s) en el paso 4: angina.

[2]

56

ESTADSTICA APLICADA CON SPPS

Es muy interesante la codificacin que realiza SPSS, la cual hemos marcado ms arriba con [1] , que indica cul ser el modelo finalmente ajustado, la cual aparentemente lleva a ajustes de modelos distintos a los obtenidos con BMDP SAS. En la ltima tabla hemos marcado con [2] el lugar en el que podemos observar que la nica covariable de las 4 con lo que nos quedamos ser la que no aparece all, es decir, Presin. Volviendo a correr el programa ahora slo con Presin obtendramos el modelo final que se ajusta, log (p/(1-p)) = 0154 + 1181 Presin en donde apuntamos de nuevo la diferencia de codificaciones en las variables para explicar la aparente diferencia con los resultados de otros paquetes estadsticos.

ALFONSO GARCA PREZ

57

Captulo 10

Regresin Poisson

10.1. Regresin Poisson


El estudio de este tipo de modelos puede seguirse en el captulo 10 del texto TA. Su ejecucin con SPSS consiste en la secuencia Analizar Loglineal General Ejemplo 10.1-TA __________________________________________ Despus de introducir los datos y ejecutar la secuencia anterior, Figura 10.1,

Figura 10.1 En la ventana que se abra despus de hacer dicha seleccin deberemos incluir (Figura 10.2) la variable dependiente (es decir, la Tasa) en la ventana

58

ESTADSTICA APLICADA CON SPPS

Estructura de las casillas y las covariables cualitativas, Edad y Sexo, en Factores.

. Figura 10.2 A continuacin, en el botn Modelo, elegimos la opcin Personalizado y completamos la ventana de la derecha desplazando las dos covariables como Efectos principales (Figura 10.3).

Figura 10.3 Despus de aceptar esas selecciones con el botn Continuar, volvemos a la ventana de dilogo anterior, en donde elegimos las Opciones que aparecen en la Figura 10.4.

ALFONSO GARCA PREZ

59

Figura 10.4 Una vez aceptadas stas con el botn Continuar y ejecutando todas las selecciones con el botn Aceptar de la ventana de dilogo principal, obtenemos los resultados que aparecen a continuacin,

Loglineal general
Informacin sobre los datos N Casos Vlidos Perdidos Vlidos ponderados Casillas definidas Ceros estructurales Ceros de muestreo edad sexo 6 0 6 6 0 0 3 2

Casillas

Categoras

Informacin sobre la convergencia(a,b) Nmero mximo de iteraciones Tolerancia de convergencia Mxima diferencia absoluta final Mxima diferencia relativa final Nmero de iteraciones 20 ,00100 ,00013(c) ,00078 3

60

ESTADSTICA APLICADA CON SPPS

a Modelo: Poisson b Diseo: Constante + edad + sexo c La iteracin ha convergido ya que el mximo de cambios absolutos de las estimaciones de los parmetros es inferior al criterio de convergencia especificado. Contrastes de bondad de ajuste(a,b) Valor ,004 ,004 gl 2 2 Sig. ,998 ,998

Razn de verosimilitudes Chi-cuadrado de Pearson

a Modelo: Poisson b Diseo: Constante + edad + sexo

[3]

Residuos y recuentos de casillas(a,b) Observado edad 1,00 2,00 3,00 sexo ,00 1,00 ,00 1,00 ,00 1,00 Recuento 1 1 1 1 1 1 % 16,7% 16,7% 16,7% 16,7% 16,7% 16,7% Esperado Recuento ,976 1,024 1,038 ,962 ,985 1,015 % 16,3% 17,1% 17,3% 16,0% 16,4% 16,9% Residual ,024 -,024 -,038 ,038 ,015 -,015

Residuo tipificado ,024 -,023 -,037 ,039 ,015 -,014

Residuo corregido ,041 -,041 -,066 ,066 ,025 -,025

Desviacin ,024 -,023 -,038 ,039 ,015 -,014

a Modelo: Poisson b Diseo: Constante + edad + sexo

Estimaciones de los parmetros(b,c) Intervalo de confianza al 95% Parmetro Constante [edad = 1,00] [edad = 2,00] [edad = 3,00] [sexo = ,00] [sexo = 1,00] Estimacin 2,540 -,328 -,171 0(a) -,029 0(a) Error tpico ,814 1,000 1,000 . ,817 . Z 3,122 -,328 -,171 . -,036 . Sig. ,002 ,743 ,864 . ,972 . Lmite inferior ,946 -2,288 -2,131 . -1,630 . Lmite superior 4,135 1,632 1,789 . 1,572 .

[1]

[2]

a Este parmetro se ha definido como cero ya que es redundante. b Modelo: Poisson c Diseo: Constante + edad + sexo Correlaciones de las estimaciones de los parmetros(a,b,c) Constante 1 -,616 -,604 -,495 [edad = 1,00] -,616 1 ,500 ,004 [edad = 2,00] -,604 ,500 1 -,022 [sexo = ,00] -,495 ,004 -,022 1

Constante [edad = 1,00] [edad = 2,00] [sexo = ,00]

a Modelo: Poisson

ALFONSO GARCA PREZ

61

b Diseo: Constante + edad + sexo c Los parmetros redundantes no se muestran.

Covarianzas de las estimaciones de los parmetros(a,b,c) Constante ,662 -,501 -,491 -,329 [edad = 1,00] -,501 1,000 ,500 ,003 [edad = 2,00] -,491 ,500 1,000 -,018 [sexo = ,00] -,329 ,003 -,018 ,667

Constante [edad = 1,00] [edad = 2,00] [sexo = ,00]

a Modelo: Poisson b Diseo: Constante + edad + sexo c Los parmetros redundantes no se muestran.

Modelo de Poisson

Residuos corregidos Frecuencias ...

Frecuencias ...

Frecuencias ...

Frecuencias ...

Residuos corregidos

Grfico Q-Q normal de residuos corregidos

1,5

1,0

Valor normal esperado

0,5

0,0

-0,5

-1,0

-1,5 -0,075 -0,050 -0,025 0,000 0,025 0,050 0,075

Residuos corregidos

62

ESTADSTICA APLICADA CON SPPS

Grfico Q-Q normal de residuos corregidos

0,3

0,2

Desviacin de normal

0,1

0,0

-0,1

-0,2

-0,3 -0,075 -0,050 -0,025 0,000 0,025 0,050 0,075

Residuos corregidos

En la mencionada salida se observa, marcado con [1] , la codificacin que da SPSS a los parmetros del modelo, haciendo iguales a cero [Edad=3] y [Sexo=1] ya que de las covariables cualitativas hay que construir el Modelo con tantas variables indicadoras como clases tengan las covariables cualitativas menos una. En [2] aparecen las estimaciones obtenidas, las cuales proporcionan el Modelo log Tasa = 2'540 - 0'328 [Edad=1] -0'171 [Edad=2] -0'029 [Sexo=0] Esto hace que para un Hombre ([Sexo=0]) de 50 a 70 aos ([Edad=2]) se obtenga una prediccin en su tasa de supervivencia igual a log Tasa} = 2'540 - 0'328 * 0 - 0'171 * 1 - 0'029 * 1 = 2'34. Observemos que en TA obtuvimos, en esta misma situacin, prcticamente el mismo valor pero con signo menos; la razn es que SPSS ajusta un modelo de la forma Xi en donde la variable dependiente que supuestamente sigue la distribucin de Poisson (habitualmente una tasa de fallo) es de la forma r = exp{- Xi }

Por tanto, deberemos cambiar el signo de la tasas ajustadas con SPSS, quedando, en este caso igual a -2'34, como en TA. Por ltimo, en [3] , observamos el contraste del modelo ajustado que claramente puede admitirse.

ALFONSO GARCA PREZ

63

Captulo 11

Regresin no Lineal

11.1. Regresin no Lineal


El estudio de la Regresin no Lineal se lleva a cabo en el captulo 11 del texto TA. Su ejecucin con SPSS se obtienen mediante la secuencia Analizar Regresin No lineal Ejemplo 11.2-TA __________________________________________ Despus de introducir los datos ejecutamos la secuencia anterior, como puede verse en la Figura 11.1,

Figura 11.1

64

ESTADSTICA APLICADA CON SPPS

Entonces se abre una ventana de dilogo como la de la Figura 11.2 en donde completamos las ventanas segn se indica en dicha Figura.

Figura 11.2 Mencin especial merece la incorporacin de los parmetros. Primero debemos darle un nombre genrico y un valor inicial (Figura 11.3).

Figura 11.3 En este caso, hemos dado como valores iniciales los mismos que dimos en el texto TA. Una vez completados todos los datos se pulsa el botn Aceptar y se obtienen los siguientes resultados de entre los que destacan las estimaciones

ALFONSO GARCA PREZ

65

de los parmetros dadas en [1] y los intervalos de confianza para los parmetros, dados en [2] , los cuales implican la no eliminacin de ninguno de los parmetros al no contener al cero ninguno de los intervalos.
All the derivatives will be calculated numerically.
Iteration 1 1.1 2 2.1 3 3.1 4 4.1 5 5.1 6 6.1 7 7.1 8 8.1 9 9.1 10 10.1 Residual SS 993,2441321 67,90285456 67,90285456 24,33046743 24,33046743 20,59971311 20,59971311 20,46053149 20,46053149 20,44963384 20,44963384 20,44875851 20,44875851 20,44868814 20,44868814 20,44868248 20,44868248 20,44868203 20,44868203 20,44868199 b1 70,0000000 65,6001840 65,6001840 64,2628457 64,2628457 64,6000975 64,6000975 64,5407676 64,5407676 64,5205754 64,5205754 64,5144551 64,5144551 64,5126874 64,5126874 64,5121838 64,5121838 64,5120408 64,5120408 64,5120002 b2 61,0000000 54,9183822 54,9183822 53,7680819 53,7680819 54,0847130 54,0847130 53,9265466 53,9265466 53,8717716 53,8717716 53,8552854 53,8552854 53,8505316 53,8505316 53,8491779 53,8491779 53,8487936 53,8487936 53,8486844 b3 -10,000000 -12,031581 -12,031581 -15,414270 -15,414270 -16,550650 -16,550650 -16,875970 -16,875970 -16,970436 -16,970436 -16,997416 -16,997416 -17,005080 -17,005080 -17,007254 -17,007254 -17,007870 -17,007870 -17,008045 b4 3,00000000 3,41315663 3,41315663 4,39184922 4,39184922 4,71582674 4,71582674 4,80922669 4,80922669 4,83634021 4,83634021 4,84408360 4,84408360 4,84628342 4,84628342 4,84690719 4,84690719 4,84708406 4,84708406 4,84713430

Run stopped after 20 model evaluations and 10 derivative evaluations. Iterations have been stopped because the relative reduction between successive residual sums of squares is at most SSCON = 1,000E-08 Nonlinear Regression Summary Statistics Source Regression Residual Uncorrected Total (Corrected Total) DF 4 5 9 8 Sum of Squares 18193,42942 20,44868 18213,87810 4276,50156 ,99522 Dependent Variable y Mean Square 4548,35735 4,08974

R squared = 1 - Residual SS / Corrected SS = Asymptotic Std. Error

Parameter b1 b2 b3 b4

Estimate 64,512000215 53,848684361 -17,00804517 4,847134303

Asymptotic 95 % Confidence Interval Lower Upper

1,332847270 61,085807233 67,938193196 2,122116694 48,393609734 59,303758988 2,100618342 -22,40785652 -11,60823382 ,601470650 3,301004775 6,393263832

[1]

[2]

[2]

66

ESTADSTICA APLICADA CON SPPS


Asymptotic Correlation Matrix of the Parameter Estimates b1 b1 b2 b3 b4 1,0000 ,7084 ,3246 -,3477 b2 ,7084 1,0000 ,6106 -,6140 b3 ,3246 ,6106 1,0000 -,9991 b4 -,3477 -,6140 -,9991 1,0000

ALFONSO GARCA PREZ

67

Captulo 12

Anlisis de la Varianza con Medidas Repetidas

12.1. Anlisis de la Varianza con Medidas Repetidas


Este Mtodo Estadstico se estudia en el captulo 12 del texto TA. Su tratamiento con SPSS se basa en ejecutar la secuencia Analizar Modelo lineal general Medidas repetidas Ejemplo 12.1-TA __________________________________________ El propsito que se persigue es, como all, contrastar la igualdad de crecimiento medio entre las mandbulas de chicos y chicas, contrastando la hiptesis nula

H0: h = m
adems, contrastar si ha habido variacin significativa a lo largo del tiempo de observacin, contrastando

H0': 8 = 10 = 12 = 14
y analizando tambin, por ltimo, si existe o no interaccin entre ambos factores, contrastando la hiptesis

H0'': No existe interaccin entre Sexo y Edad


Primero debemos introducir los datos mediante la utilizacin de tantas variables como clases presente la Repeticin, en nuestro caso, cuatro. Esto lo hacemos como se indica en la Figura 12.1. Despus debemos ejecutar la secuencia antes comentada, como aparece en la Figura 12.2.

68

ESTADSTICA APLICADA CON SPPS

Figura 12.1 Despus debemos ejecutar la secuencia antes comentada, como aparece en la Figura 12.2.

Figura 12.2 Se abre entonces una ventana que solicita un nombre para la variable Repeticin. En la Figura 12.3 le hemos dado el nombre de edad; nos pide tambin el nmero de niveles a los que acta esta variable Repeticin, el cual es, en nuestro caso, igual a 4.

ALFONSO GARCA PREZ

69

Figura 12.3 Finalmente, debemos presionar, primero el botn Aadir y luego Definir, para indicarle al SPSS, cules de las variables que definen los datos, son los niveles de la variable Repeticin, como puede observarse en la Figura 12.4, incluyendo tambin a la variable sexo en la ventana Factores inter-sujetos.

Figura 12.4 Finalmente, presionando el botn Aceptar de esta ltima ventana, se obtienen los resultados que aparecen a continuacin.

70

ESTADSTICA APLICADA CON SPPS

Modelo lineal general


Factores intra-sujetos Medida: MEASURE_1 edad 1 2 3 4 Variable dependiente edad8 edad10 edad12 edad14

Factores inter-sujetos

sexo

1 2

N 1 1 1 1

Contrastes multivariados(b) Gl de la hiptesis 3,000 3,000 3,000 3,000 3,000 3,000 3,000 3,000

Efecto Edad

Traza de Pillai Lambda de Wilks Traza de Hotelling Raz mayor de Roy Traza de Pillai

Valor ,869 ,131 6,631 6,631

F 39,787(a) 39,787(a) 39,787(a) 39,787(a) 2,149(a) 2,149(a) 2,149(a) 2,149(a)

Gl del error 18,000 18,000 18,000 18,000 18,000 18,000 18,000 18,000

Significacin ,000 ,000 ,000 ,000 ,130 ,130 ,130 ,130

,264 Lambda de ,736 Wilks Traza de ,358 Hotelling Raz mayor de ,358 Roy a Estadstico exacto b Diseo: Intercept+sexo Diseo intra sujetos: edad

edad * sexo

Prueba de esfericidad de Mauchly(b)


Medida: MEASURE_1 Epsilon(a) Efecto intra-sujetos Edad W de Mauchly ,599 Chi-cuadrado aprox. 9,583 gl 5 Significacin ,088 GreenhouseGeisser ,733 Huynh-Feldt ,869 Lmit

Contrasta la hiptesis nula de que la matriz de covarianza error de las variables dependientes transformadas es proporcional a una matriz identidad. a Puede usarse para corregir los grados de libertad en las pruebas de significacin promediadas. Las pruebas corregidas se muestran en la tabla Pruebas de los efectos inter-sujetos. b Diseo: Intercept+sexo Diseo intra sujetos: edad

ALFONSO GARCA PREZ

71

Pruebas de efectos intra-sujetos. Medida: MEASURE_1 Suma de cuadrados tipo III Esfericidad asumida GreenhouseGeisser Huynh-Feldt Lmite-inferior edad * sexo Esfericidad asumida GreenhouseGeisser Huynh-Feldt Lmite-inferior Error(edad) Esfericidad asumida GreenhouseGeisser Huynh-Feldt Lmite-inferior 149,940 149,940 149,940 149,940 9,372 9,372 9,372 9,372 92,125 92,125 92,125 92,125 Media cuadrtica 3 2,199 2,606 1,000 3 2,199 2,606 1,000 60 43,982 52,111 20,000 49,980 68,182 57,547 149,940 3,124 4,262 3,597 9,372 1,535 2,095 1,768 4,606

Fuente edad

gl

F 32,551 32,551 32,551 32,551 2,035 2,035 2,035 2,035

Significacin

[2]

,000 ,000 ,000 ,000

[3]

,119 ,139 ,128 ,169

Pruebas de contrastes intra-sujetos Medida: MEASURE_1 Suma de cuadrados tipo III 146,051 1,776 2,114 4,105 2,071 3,196 23,557 15,716 52,852 Media cuadrtica 1 1 1 1 1 1 20 20 20 146,051 1,776 2,114 4,105 2,071 3,196 1,178 ,786 2,643

Fuente edad

edad Lineal Cuadrtico Cbico

Gl

F 123,999 2,260 ,800 3,485 2,636 1,209

Significacin

[4]

,000 ,148 ,382 ,077 ,120 ,285

edad * sexo

Lineal Cuadrtico Cbico

Error(edad)

Lineal Cuadrtico Cbico

Pruebas de los efectos inter-sujetos Medida: MEASURE_1 Variable transformada: Promedio Suma de cuadrados tipo III 50376,480 143,821 352,511 Media cuadrtica 50376,480 143,821 17,626

Fuente Interseccin sexo Error

gl 1 1 20

F 2858,148 8,160

Significacin ,000

[1]

,010

72

ESTADSTICA APLICADA CON SPPS

En donde hemos marcado con [1] , [2] y [3] los tres tests que estudiamos en TA, antes mencionados, respectivamente, sobre la igualdad de los dos niveles de Sexo, de los cuatro niveles de la variable Repeticin Edad, y sobre la ausencia de interaccin entre Sexo y Edad. En [4] aparece el test de linealidad all estudiado.

ALFONSO GARCA PREZ

73

Captulo 13

Anlisis de Series Temporales

13.1. Introduccin
El Anlisis de Series Temporales se estudi en el captulo 13 de TA.

13.2. Identificacin del modelo


Los grficos necesarios para identificar el modelo se obtienen ejecutando la secuencia Grficos Serie temporal Autocorrelacin Ejemplo 13.1-TA __________________________________________ Ejecutando la secuencia anterior (Figura 13.1)

Figura 13.1

74

ESTADSTICA APLICADA CON SPPS

Obtenemos los siguientes resultados en donde se observa que los dos ltimos grficos se corresponden exactamente con las figuras 13.2 y 13.4 del texto TA, funciones ACF y PACF respectivamente, con la excepcin del primer valor que, como all dijimos, es siempre igual a 1 y que aqu desaparece.

Autocorrelaciones simples
MODEL: MOD_2.

Autocorrelations:

niveles Box-

Auto- Stand. Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 Ljung Prob. 1 ,576 ,140 . *****.****** 16,914 ,000 2 ,182 ,138 . **** . 18,639 ,000 3 -,145 ,137 . *** . 19,756 ,000 4 -,175 ,135 . *** . 21,423 ,000 5 -,150 ,134 . *** . 22,673 ,000 6 -,021 ,132 . * . 22,698 ,001 7 -,020 ,131 . * . 22,722 ,002 8 -,004 ,129 . * . 22,723 ,004 9 -,136 ,127 . *** . 23,856 ,005 10 -,154 ,126 . *** . 25,351 ,005 11 -,097 ,124 . ** . 25,964 ,007 12 ,049 ,122 . * . 26,124 ,010 13 ,120 ,121 . ** . 27,104 ,012 14 ,087 ,119 . ** . 27,635 ,016 15 ,119 ,117 . ** . 28,663 ,018 16 ,151 ,115 . *** . 30,374 ,016 Plot Symbols: Total cases: 48 Autocorrelations *

Two Standard Error Limits . 47

Computable first lags:

ALFONSO GARCA PREZ

75

Partial Autocorrelations:

niveles

Pr-Aut- Stand. Lag Corr. Err. -1 -.75 -.5 -.25 0 .25 .5 .75 1 1 ,576 ,144 . *****.****** 2 -,223 ,144 . **** . 3 -,227 ,144 .***** . 4 ,103 ,144 . ** . 5 -,076 ,144 . ** . 6 ,068 ,144 . * . 7 -,104 ,144 . ** . 8 ,012 ,144 . * . 9 -,188 ,144 . **** . 10 ,003 ,144 . * . 11 ,066 ,144 . * . 12 ,032 ,144 . * . 13 ,022 ,144 . * . 14 -,093 ,144 . ** . 15 ,230 ,144 . *****. 16 ,044 ,144 . * . Plot Symbols: Total cases: 48 Autocorrelations * Two Standard Error Limits . 47

Computable first lags:

niveles

1,0

Coeficiente Lmite superior de confianza Lmite inferior de confianza

0,5

ACF

0,0

-0,5

-1,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

No de retardos

76

ESTADSTICA APLICADA CON SPPS

niveles

1,0

Coeficiente Lmite superior de confianza Lmite inferior de confianza

0,5

ACF parcial

0,0

-0,5

-1,0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

No de retardos

13.3. Estimacin de parmetros


La estimacin de los parmetros del modelo ARIMA(p,d,q) seleccionado en la seccin anterior se lleva a cabo con la secuencia Analizar Series temporales ARIMA Ejemplo 13.1-TA(continuacin) ________________________________ Ejecutando la secuencia anterior a los datos del ejemplo 13.1 del texto 13.1, como se indica en la Figura 13.2 aparece la ventana de dilogo de la Figura 13.3 en donde incluimos la variable en estudio como variable Dependiente segn se indica en la Figura 13.3, as como los valores del modelo ARIMA a ajustar

ALFONSO GARCA PREZ

77

Figura 13.2

Figura 13.3 Antes de preceder a ejecutar el Anlisis, es conveniente modificar un tanto las Opciones, eligiendo las que aparecen en la Figura 13.4. En concreto, en lo Que se refiere al nmero de iteraciones (aumentndolo), a los niveles de tolerancia (disminuyndolos) y a la eliminacin de los clculos intermedios, de manera que slo nos d las estimaciones finales.

78

ESTADSTICA APLICADA CON SPPS

Figura 13.4 Con estas selecciones, pulsando los botones Continuar y luego Aceptar, se obtuvieron los siguientes resultados, en donde pueden verse, en [1] , los valores de las estimaciones obtenidas, las mismas que en TA pero con el signo cambiado la del coeficiente de la Media Mvil. En [2] aparece el valor del logaritmo de la verosimilitud alcanzada y, en [3] , el de la cantidad de informacin de Akaike.

Arima
MODEL: MOD_1

Split group number: 1 Series length: 48 No missing data. Melard's algorithm will be used for estimation.

Conclusion of estimation phase. Estimation terminated at iteration number 68 because: Sum of squares decreased by less than ,0001 percent. FINAL PARAMETERS: Number of residuals Standard error Log likelihood AIC SBC 48 ,45291761 -28,798731 63,597462 69,211065

[2] [3]

ALFONSO GARCA PREZ

79

Analysis of Variance: DF Residuals 45 Adj. Sum of Squares 9,3163187 Residual Variance ,20513437

Variables in the Model: B AR1 MA1 CONSTANT ,4478397 -,2041347 2,4100066 SEB ,22299179 ,24527657 ,13973742 T-RATIO 2,008324 -,832263 17,246680 APPROX. PROB. ,05063335 ,40965538 ,00000000

[1]
The following new variables are being created: Name FIT_1 ERR_1 LCL_1 UCL_1 SEP_1 Label Fit for niveles from ARIMA, MOD_1 CON Error for niveles from ARIMA, MOD_1 CON 95% LCL for niveles from ARIMA, MOD_1 CON 95% UCL for niveles from ARIMA, MOD_1 CON SE of fit for niveles from ARIMA, MOD_1 CON

80

ESTADSTICA APLICADA CON SPPS

ALFONSO GARCA PREZ

81

Captulo 14

Control Estadstico de la Calidad

14.1. Grfico de control para la media


Para obtener el grfico de control para la media deberemos ejecutar la secuencia, Grficos Control Explicaremos su ejecucin siguiendo el ejemplo 14.1 de dicho texto. Ejemplo 14.1-TA __________________________________________ Advertimos que el grfico de control que se obtiene con SPSS es el caso correspondiente a no tener un patrn dado. Adems, los lmites inferior y supe-

Figura 14.1

82

ESTADSTICA APLICADA CON SPPS

rior proporcionados por SPSS son un poco diferentes de los obtenidos en TA. Para ejecutar este ejemplo, despus de introducir los datos ejecutamos la secuencia anterior, como se indica e la Figura 14.1. Se abrir, entonces, una ventana de dilogo como la de la Figura 14.2,

Figura 14.2 en donde deberemos seleccionar, para este ejemplo, el primero de los grficos, X-barra, R, S y tambin la opcin, los casos son unidades .

Figura 14.3

ALFONSO GARCA PREZ

83

Ahora, presionando el botn Definir se abre una ventana como la de la Figura 14.3 en donde le indicamos cul es la variable en observacin en Medida del proceso, en nuestro caso longitud, y cul es la variable que define los grupos, en la ventana Subgrupos definidos por, en nuestro ejemplo, grupo. Presionando finalmente le botn Aceptar, obtenemos los siguientes resultados, en donde destaca el grfico de control para la media, dado en [1] .

Grfico SP

Grfico de control: longitud


11,5 longitud LCS = 11,47943219 11,0 Promedio = 10,09015853 LCI = 8,70088487

10,5

Media

10,0

9,5

9,0

8,5 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Nivel sigma:

[1]

84

ESTADSTICA APLICADA CON SPPS

Grfico de control: longitud


6 longitud LCS = 5,09278694 5 Promedio = 2,40850745 LCI = , 00000000

Amplitud

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Nivel sigma:

Potrebbero piacerti anche