Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
CON SPSS
Estadstica EUITIO Curso 04-05
Estadstica EUITIO
El paquete SPSS (Statistical Package for the Social Sciences) es una coleccin de programas diseada para el anlisis estadstico de datos, permitiendo desde los anlisis descriptivos ms sencillos, como tablas de frecuencias simples o mltiples, a procedimientos inferenciales ms complejos como el ANOVA , el Anlisis de Componentes Principales o el Control de Calidad. El SPSS realiza tres funciones esenciales: (1) leer datos, (2) especificar el tipo de anlisis que se quiere realizar con esos datos y (3) mostrar los resultados obtenidos tras los anlisis. La interpretacin de los resultados es tarea del investigador.
1. El editor de datos
La primera pantalla que aparece al entrar en el SPSS es la ventana del editor de datos, que ofrece el siguiente aspecto:
En la parte superior puede observarse una barra que consta de una serie de mens (Archivo, Edicin, Datos, etc.). Si se selecciona con el ratn cada una de ellas aparece un men despegable donde se ofrecen otros submens, cada uno de los cuales tiene a su vez un cuadro de dilogo que es el lugar donde se especifican los detalles de cada procedimiento. Algunos de estos (los ms utilizados) pueden definirse en la barra inferior. En lugar de mens, sta consta de una serie de botones cada uno de ellos con un icono dibujado y se denomina barra de herramientas. La parte central de la ventana consiste en una cuadrcula, donde se escriben y presentan los datos o las variables dependiendo de la solapa activada (Vista de datos o Vista de variables). La barra de estado ocupa la parte inferior de la ventana e indica el estado del procesador y la presencia de filtro, ponderacin de casos y/o divisin del archivo.
Entre los mens se encuentran los que son comunes a todos los programas de tipo Windows: Archivo, Edicin, Ver, Ventana, etc. En el SPSS, los que ofrecen mayores diferencias son los mens Datos, Transformar, Analizar y Grficos, los cuales permiten realizar operaciones con los datos:
Estadstica EUITIO
Archivo: Sirve para abrir crear o grabar los diferentes ficheros de SPSS, as como para controlar la impresin de los mismos. Edicin: Permite modificar ficheros, seleccionar copiar, borrar, etc., as como personalizar las opciones predeterminadas de las tablas, tipo de variables, etc. Ver: Nos permite elegir los detalles que se muestran en pantalla, barra de estado, barra de herramientas y cuadrcula, as como el tipo de letra utilizada como fuente y elegir entre los datos y nombre o las etiquetas para representar las variables. Datos: Se utiliza para insertar variables o casos, segmentar archivos, seleccionar y ponderar casos, etc. Transformar: Permite modificar las variables existentes, as como la creacin de otras nuevas, la generacin de nmeros aleatorios, etc. Es necesario grabar los cambios realizados en el fichero de datos si queremos que estos se conserven. Analizar: Nos da acceso a los distintos tipos de anlisis estadsticos disponibles en SPSS. Grficos: Sirve para crear diferentes tipos de grficas, de barras, de sectores, etc. Algunos anlisis estadsticos, tambin nos dan la opcin de realizar grficas que sirvan para la mejor interpretacin de los resultados. Ventana: Permite acceder a las distintas ventanas de SPSS.
?: Presenta ayuda en lnea por temas, un asesor estadstico, una gua exhaustiva de sintaxis de SPSS y
un tutorial. Es posible obtener ayuda pulsando el botn derecho del ratn.
Adems, la mayora de los cuadros de dilogo disponen de un botn Ayuda que ofrece informacin general sobre el mismo. Si se desea obtener ayuda sobre los controles individuales de un cuadro de dilogo, se pulsar el botn derecho del ratn en el control sobre el que se desea obtener informacin y aparecer una ventana emergente que presentar informacin acerca del control.
Tambin es posible acceder a las definiciones de los trminos que aparecen en las tablas, editndolas y pulsando el botn derecho del ratn en el trmino sobre el que se desea obtener una explicacin.
Estadstica EUITIO
2. El visor de resultados
Una vez que se solicita un anlisis con los datos, los resultados obtenidos se muestran en la ventana Visor de resultados, cuyo aspecto es el siguiente:
Las barras de mens y de herramientas, que aparecen en la parte superior, as como la barra de estado de la parte inferior son bastante similares a las de la ventana Editor de datos. La parte central principal est separada: en el panel derecho se muestran los resultados obtenidos (tablas, grficos, etc.) y en el panel izquierdo aparece una lista con os ttulos de los contenidos mostrados en la ventana Visor de resultados.
El Editor de tablas pivote permite modificar los resultados mostrados en este tipo de tablas de diversas maneras. Se activa haciendo doble clic en cualquier zona de la tabla y entonces la pantalla de SPSS nos quedar de la siguiente forma:
Los resultados de texto que no aparecen en las tablas pivote pueden modificarse con el Editor de resultados de texto.
El Editor de Grficos, nos permitir modificar una grfica y se obtiene haciendo doble clic sobre la misma. Utilizando los mens y los iconos es posible aadir, cambiar y modificar los ttulos y las leyendas, cambiar colores, etc... Adems existen opciones especificas para cada tipo de grfica, as por ejemplo, en el Histograma, se puede elegir el nmero de intervalos (barras), en los grficos de dispersin
Estadstica EUITIO
el tipo de marcadores y el tamao de los mismos o si se quiere realizar algn tipo de interpolacin o poner lneas de referencia, etc.
3. La ventana de sintaxis
Se puede acceder a la mayora de los comandos desde los mens y cuadros de dilogo. No obstante, algunos comandos y opciones slo estn disponibles mediante el uso del lenguaje de comandos. El lenguaje de comandos tambin permite guardar los trabajos en un archivo de sintaxis, con lo que podr repetir los anlisis en otro momento o ejecutarlos en un trabajo automatizado con la Unidad de produccin.
Un archivo de sintaxis es simplemente un archivo de texto que contiene comandos. Aunque es posible abrir una ventana de sintaxis y escribir comandos, es ms sencillo permitir que el programa le ayude a construir un archivo de sintaxis pegando la sintaxis de comandos desde los cuadros de dilogo, copiando la sintaxis desde las anotaciones de los resultados o copiando la sintaxis desde el archivo diario (SPSS.JNL) En la ayuda en pantalla de un procedimiento determinado, pulse en el botn Sintaxis para saber qu opciones del lenguaje de comandos estn disponibles (si hay alguna) para ese procedimiento y para acceder al diagrama de sintaxis del comando pertinente. Si desea informacin completa sobre el lenguaje de comandos, consulte el manual de referencia de sintaxis (Base Syntax Reference Guide).
Estadstica EUITIO
Al introducir los datos, se observa que el SPSS da por defecto nombre a las variables (var00001, var00002, ...) y define sus caractersticas. Si se desea cambiar alguno de los parmetros anteriores hay que pulsar en la solapa Vista de variables con lo que se accede a una ventana que contiene tantas filas como variables hay definidas en el editor de datos. Las caractersticas se pueden modificar escribiendo en cada casilla la informacin deseada o rellenando el cuadro de dilogo que se activa al seleccionarlas.
q q q q q q q q q q
Nombre (a lo sumo 8 caracteres). Tipo de variable: numrico, cadena, etc. Anchura. Nmero de decimales. Etiqueta de variable. Etiqueta de los valores de las variables. Definicin de los valores perdidos: Propios del sistema, Determinados por el usuario. Nmero de columnas. Alineacin del texto. Medida de escala: Escala, Ordinal, Nominal.
Estadstica EUITIO
El SPSS guarda la informacin introducida en el editor de datos en archivos con la extensin sav. Para ello se selecciona el men Archivo de la barra de mens y se elige la opcin Guardar o bien se hace clic sobre el icono correspondiente. Aparecer entonces un cuadro de dilogo donde se elegir la unidad y directorio donde se quiere guardar el archivo y se le dar un nombre. El procedimiento a seguir para guardar los resultados es exactamente igual con la nica diferencia de que la extensin para este tipo de archivos es spo. Es posible tambin exportar tablas y grficos por separado.
Siempre que se desee iniciar una sesin del SPSS para llevar a cabo un anlisis es necesario que el archivo donde se encuentran los datos se encuentre abierto.
Estadstica EUITIO
Estadstica EUITIO
1. Tablas de frecuencias.
Para organizar los datos correspondientes a una variable, puede confeccionarse con el procedimiento Frecuencias una tabla donde aparezcan los valores de la variable, sus frecuencias absolutas, las frecuencias relativas en porcentajes y las relativas acumuladas en porcentajes.
2. Representaciones grficas.
Las representaciones grficas permiten captar rpidamente y sin gran esfuerzo las principales caractersticas de una distribucin de frecuencias. Son un medio complementario, aunque muy importante, para realizar un anlisis estadstico de los datos. Desde el cuadro de dilogo del botn Grficos del procedimiento de Frecuencias slo es posible seleccionar uno de los siguientes grficos:
Estadstica EUITIO
Otras representaciones como los diagramas y polgonos de frecuencias acumuladas se pueden construir con el men de Grficos.
1 2 S2 = (X i X ) n 1 i
Medidas de asimetra
S=
1 2 (X i X ) n 1 i
Asimetra a la derecha
Simetra
Asimetra a la izquierda
El ndice de asimetra que se obtiene con el SPSS es una aproximacin del coeficiente de asimetra de Fisher
(X
i
X ) fi
3
S3 X
Cuando 1 > 0 se dice que la distribucin es asimtrica a la derecha. Cuando 1 = 0 se dice que la distribucin es simtrica. Cuando 1 < 0 se dice que la distribucin es asimtrica a la izquierda
10
Estadstica EUITIO
Lep tocrtica
Platicrtica
(X
i
X ) fi
4
4 SX
Cuando 2 > 0 se dice que la distribucin es leptocrtica o ms apuntada que la normal. Cuando 2 = 0 se dice que la distribucin es mesocrtica o igual de apuntada que la normal. Cuando 2 < 0 se dice que la distribucin es platicrtica o menos apuntada que la normal.
Para conocer los estadsticos descriptivos ms representativos de las variables cuantitativas tambin puede seleccionarse el procedimiento Descriptivos. Ofrece tambin la posibilidad de obtener las puntuaciones tpicas para cada uno de los individuos en una variable denominada zvar.
11
Estadstica EUITIO
Otra forma de proceder para obtener las medidas que resumen la distribucin de frecuencias de una variable estadstica es desde el procedimiento Explorar. El estudio se puede realizar por separado en cada una de las modalidades de la variable Factor , lo que es equivalente a Segmentar el archivo por dicha variable.
Este procedimiento proporciona adems mtodos simples de identificacin de outliers u observaciones que tienen un comportamiento muy diferente respecto al resto de los datos, en relacin al anlisis que se desea realizar sobre las observaciones. Estadsticos descriptivos como la media recortada al 5% o el recorrido intercuartlico. Valores atpicos Grficos como el diagramas de tallos y hojas y el diagrama de cajas
Aunque no es exactamente un grfico, los diagramas de tallos y hojas se utilizan para describir variables cuantitativas y presenta la particularidad de permitir visualizar globalmente la distribucin manteniendo la individualidad de los datos. Realmente, este diagrama tiene una gran similitud con los histogramas pero representa directamente los dgitos de los valores observados en vez de barras o rectngulos. Se pueden realizar desde el botn de Grficos del procedimiento Explorar.
Consumo (l/100Km) Stem-and-Leaf Plot for ORIGEN= Europa Frequency Stem & Leaf 4,00 Extremes (=<5,0) 4,00 6 . 0000 8,00 7 . 00000000 16,00 8 . 0000000000000000 17,00 9 . 00000000000000000 7,00 10 . 0000000 5,00 11 . 00000 5,00 12 . 00000 4,00 Extremes (>=13,0) Stem width: Each leaf: 1 1 case(s)
12
Estadstica EUITIO
Los diagramas de caja o box-plot pueden interpretarse como representaciones grficas construidas para mostrar las caractersticas principales de la muestra, as como para identificar la posible presencia de observaciones atpicas. Para construirlo es necesario localizar la mediana y los cuartiles, Q y Q3 , con los que se dibuja un 1 rectngulo o caja. As, la amplitud de la caja ser la amplitud intercuartl, RI.
30
20
26
Consumo (l/100Km)
10
0
N = 248 70 79
EE.UU.
Europa
Japn
Pas de origen
13
Estadstica EUITIO
Las tablas de contingencia slo tienen sentido para variables de tipo cualitativo (nominal u ordinal). Si se desea representar la distribucin conjunta de dos variables cuantitativas es necesario agrupar los valores de cada una de las variables con el procedimiento Recodificar del men Transformar.
En la tabla de resultados aparece una tabla de doble entrada con las frecuencias conjuntas y marginales de las variables.
Tabla de contingencia Pas de origen * Nmero de cilindros Recuento Nmero de cilindros 3 cilindros 4 cilindros 5 cilindros 6 cilindros 8 cilindros Pas de origen Total EE.UU. Europa Japn 72 66 69 207 3 3 74 4 6 84 107 Total 253 73 79 405
4 4
107
Tambin pueden obtenerse los porcentajes por filas y columnas si se selecciona esta opcin en el botn Casillas.
2. Representaciones grficas
Desde el procedimiento Tablas de contingencia se puede mostrar un diagrama de barras conjunto de las dos variables.
14
Estadstica EUITIO
120
100
80
Nmero de cilindros
60 3 cilindros 40 4 cilindros 5 cilindros 20 6 cilindros 0 EE.UU. Europa Japn 8 cilindros
Recuento
Pas de origen
El grfico ms adecuado para dos variables cuantitativas es el diagrama de dispersin que se realiza a partir de la opcin Dispersin del men Grficos.
20
Consumo (l/100Km)
10
15
Estadstica EUITIO
Segn la grfica de la nube de puntos, es factible o no buscar una recta que se ajuste a dicha nube. Entre las diferentes rectas que podran trazarse para predecir una variable a partir de la otra, se representa la que se obtiene por el criterio de mnimos cuadrados, que minimiza el promedio de los errores cuadrticos entre lo observado y lo pronosticado.
Los coeficientes de la recta de regresin (segn el criterio de mnimos cuadrados) as como la bondad del ajuste (coeficiente de Pearson al cuadrado o coeficiente de determinacin) se pueden obtener con el procedimiento Regresin lineal.
16
Estadstica EUITIO
Aunque el SPSS ofrece muchas tablas de resultados de la regresin, por el momento nos fijaremos en los que se refieren a los coeficientes del modelo y a su bondad.
Resumen del modelo Modelo 1 R R cuadrado ,837a ,701 R cuadrado corregida ,700 Error tp. de la estimacin 2,161
b
a. Variables predictoras: (Constante), Peso total (kg) b. Variable dependiente: Consumo (l/100Km)
a Coeficientes
Modelo 1
Coeficientes no estandarizados B Error tp. (Constante) -,279 Peso total (kg) 1,167E-02
t -,710 30,467
4. Regresin curvilnea
A partir del diagrama de dispersin se puede vislumbrar que el tipo de curva que mejor se ajusta a la nube de puntos no es una recta. Existen modelos de ajuste no lineales manejables que se pueden reducir a un ajuste lineal mediante las transformaciones convenientes.
1800 1600 1400 1200 1000 800
Cilindrada en cc
En el procedimiento Estimacin curvilnea se puede optar por distintos modelos que se pueden comparar con el coeficiente de determinacin.
Estimacin curvilnea
Independent: MOTOR Dependent Mth Rsq PESO LIN ,871 PESO LOG ,847 PESO POW ,888 d.f. F 404 2730,66 404 2243,78 404 3217,56 Sigf ,000 ,000 ,000 b0 b1 501,871 ,1534 -2671,2 462,489 21,0743 ,4811
17
Estadstica EUITIO
Series temporales
Una serie temporal es una sucesin de observaciones cuantitativas de un fenmeno ordenadas en el tiempo. El primer paso en un anlisis clsico descriptivo es la asignacin a cada valor del momento temporal que le corresponde, lo cual se realiza con la opcin Definir fechas del men de Datos.
1. Representacin grfica
Una representacin grfica de la serie temporal persigue identificar las componentes que la forman, el esquema segn el cual se combinan, la existencia de outliers y por lo tanto, la metodologa de anlisis ms adecuada. Se realiza con la opcin Secuencia del men de Grficos:
2. Determinacin de la estacionalidad
Para determinar la componente estacional vamos a utilizar el procedimiento Descomposicin estacional de la opcin Serie temporal del men Analizar.
18
Estadstica EUITIO
Se indica el esquema que sigue la serie (multiplicativo o aditivo) y cuando el orden de periodicidad es par, se selecciona la opcin de ponderar por la mitad los puntos finales, mientras que se ponderan todos los puntos por igual si el orden es impar. Como consecuencia se crean cuatro nuevas variables que se aaden al archivo: ERR_1 Contiene la componente residual de la serie. SAS_1 Recoge los valores de la serie desestacionalizada y que se calcula por la diferencia entre los valores de la serie y los ndices de estacionalidad en el caso de que el esquema sea aditivo y por el cociente en el caso de que el esquema sea multiplicativo. SAF_1 Presenta los ndices de estacionalidad de la serie, que aparecen tambin en el visor de resultados. STC_1 Representa la componente tendencia-ciclo resultante de aplicar un anlisis de tendencia utilizando el mtodo de la media mvil. La salida del programa ofrece los ndices de estacionalidad:
Results of SEASON procedure for variable IPI Additive Model. Centered MA method. Period = 12. Period 1 2 3 4 5 6 7 8 9 10 11 12 Seasonal index -,614 -,352 6,397 -1,352 6,056 6,874 7,228 -36,391 3,729 7,629 6,613 -5,818
3.1. Mtodo de las medias mviles. Consiste en el suavizado de la serie a partir del clculo de valores medios, para lo cual podemos designar el orden de la media m vil en el cuadro de dilogo de Crear serie temporal del men Transformar:
Se crea as una nueva variable que se denomina var_1 que al representarla grficamente junto a la serie original nos aproxima a la tendencia de la serie eliminando la componente es tacional.
19
Estadstica EUITIO
160
140
120
100
80 ndice de produccin 60 40
02 20 Y 1 MA 200 P 1 SE 2000 N 0 JA Y 20 9 MA 199 P 9 SE 9 19 N 98 JA Y 19 7 MA 199 P 7 SE 199 6 N 9 JA Y 19 5 MA 199 P 5 SE 199 4 N 9 JA Y 19 3 MA 199 P 3 SE 199 2 N 9 JA Y 19 1 MA 199 P 91 SE 19 N JA
industrial MA(IPI,12,12)
Fecha
El mtodo de la media mvil es muy flexible pero no ofrece cuantificacin de la estacionalidad ni posibilidad de realizar predicciones de la variable en cuestin. 3.2. Mtodo del ajuste analtico. Para buscar el mejor ajuste para la tendencia se puede recurrir al procedimiento Estimacin curvilnea del men de Regresin de Analizar con la variable tiempo como variable independiente. Si la serie no presenta estacionalidad se busca el mejor modelo que se ajusta a la serie original y en el caso de existencia de estacionalidad, es la serie desestacionalizada la que se ajusta. Estimacin curvilnea Independent: Time Rsq ,799 ,807 ,796 d.f. 142 141 142 F 566,07 295,01 553,22 Sigf b0 b1 ,2430 ,1502 ,0022 b2
,0006
Seas adj ser for IPI from SEASON, MOD_6 ADD CEN 12
140 130
120
110
100
Observada Lineal
Cuadrtico Exponencial
Serie
20