Manual Winidams

IDAMS
Paquete de Programas
para el Analisis y Manejo de Datos
Desarrollado Internacionalmente
Manual de Referencia de WinIDAMS
(version 1.3)
Abril de 2008
Copyright c UNESCO 2001-2008
Publicado por
UNESCO, Organizacion de las Naciones Unidas
para la Educacion, la Ciencia y la Cultura
7, Place de Fontenoy
75352 Paris 07 SP, Francia
Ttulo de la obra original:
WinIDAMS Reference Manual (release 1.3)
c 2001-2008 by UNESCO
Primera edici on en ingles por la UNESCO en 1988
Traduccion en espa nol:
Prof. Bernardo LIEVANO
Profesor de Fisica y Matem aticas
Escuela Colombiana de Ingeniera, Bogota, Colombia
ISBN 92-3-102577-5 (UNESCO - versi on en ingles)
Prefacio
Objetivos de IDAMS
La idea en IDAMS, es poner a disposicion de los Estados Miembros de UNESCO, exento de costo, un
paquete de programas para el manejo y el analisis estadstico de datos. IDAMS utilizado en combinaci on con
CDS/ISIS (programas de UNESCO para la administracion y recuperaci on de datos de texto), entrega a los
Estados Miembros de un paquete de programas integrado que permite el procesamiento de datos de texto
y numericos de una manera unicada para prop osito cientco y administrativo en universidades, institutos
de investigacion, administraciones nacionales, etc. El objetivo nal es ayudar a los Estados Miembros a
progresar en la racionalizacion del manejo de sus diversos sectores de actividad, objetivo crucial para el
establecimiento de planes de desarrollo adecuados y las correspondientes monitoras de su ejecuci on.
Origen y breve historia de IDAMS
IDAMS proviene originalmente del paquete estadstico OSIRIS III.2 desarrollado al comienzo de la decada
de los a nos 70 en el Instituto para la Investigacion Social de la Universidad de Michigan en los Estados
Unidos de America. Ha sido y continua siendo enriquecido, modicado y puesto al dia por el Secretariado
de la UNESCO con la cooperaci on de expertos de diferentes paises, a saber: especialistas Belgas, Brit anicos,
Colombianos, Eslovacos, Estadounidenses, Franceses, H ungaros, Poloneses, Rusos y Ucranianos; de ah el
nombre Internationally Developed Data Analysis and Management Software Package, en castellano Pa-
quete de software para el analisis y manejo de datos desarrollado internacionalmente.
Inicialmente, IDAMS se dise n o para computadores grandes de tipo IBM
La primera version (1.2) sali o en 1988; tena la mayora de las facilidades de manaejo y analisis de datos. A
pesar de que se tomo un n umero b asico de rutinas y programas de OSIRIS III.2 estos fueron substancialmente
modicados y se adicionaron nuevos programas consistentes en ordenamiento de puntajes, analisis factorial,
ordenamiento de alternativas y tipologa con clasicaci on ascendente. Se incorporaron recursos para manejo
de nombres de c odigos y de documentacion de programas. Los programas estaban acompa nados del Manual
del Usuario, Listados de muestra y una Tarjeta de referencia rapida.
La version 2.0 sali o en 1990 con mejoras tecnicas en varios programas, se reagrupadon dos programas para
calcular correlaciones de Pearson, por una parte, y otros dos programas para ordenamiento de alternativas
por rangos, por la otra.
La version 3.0 sali o en 1992; tena mejoras signicativas tales como: armonizacion de par ametros, palabras
clave y sint axis de proposiciones de control, posibilidad de vericar sin ejecuci on la sint axis de las proposi-
ciones de control, posibilidad de ejecutar programas con un n umero limitado de casos, armonizacion de los
mensajes de error, posibilidad de reunir y listar las variables de Recode, recodicacion alfabetica y seis nuevas
funciones aritmeticas en la facilidad Recode. Se adicionaron dos nuevos programas para la vericacion de
consistencias y analisis discriminatorio. Se incluyo el anexo con formulas estadsticas al Manual.
Nota: en 1993, despues de la preparacion de la versi on 3.02 para los sistemas operacionales OS y VM/CMS,
termino el desarrollo de la versi on para compuadores mainframe.
Paralelamente, se adapt o IDAMS para microcomputadores bajo MS-DOS
El desarrollo de la versi on para microcomputadores comenzo en 1988 y avanzo en forma simult anea con el
desarrollo de la versi on para computadores grandes hasta la versi on 3.0.
II
La primera version (1.0) sali o en 1989, con las mismas facilidades de la versi on para computadores
grandes.
La version 2.0 sali o en 1990 y era totalmente compatible con la versi on para OS. Es mas, suministraba en
la Interfaz del Usuario, facilidades para preparar el diccionario, entrada de datos, preparacion y ejecuci on
de archivos de setup e impresion de resultados.
La version 3.0 aparecio en 1992 junto con la versi on para OS. Sin embargo, la Interfaz del Usuario era
mucho mas amigable ya que tena nuevos editores para el diccionario y los datos, ofreca un acceso directo
a prototipos de setup para todos los programas y se enriqueci o con un modulo para exploraci on interactiva
gr aca.
Las dos versiones intermedias (3.02 y 3.04) que salieron en 1993 y 1994 respectivamente, incluan mejoras
tecnicas internas y la depuracion de los programas. La versi on 3.02 fue la ultima totalmente compatible con
la versi on de computadores grandes.
La existencia independiente de micro IDAMS comenz o en 1993. Los programas se sometieron a pruebas
completas y sistem aticas, especialmente en el area del manejo de errores del usuario y se hizo una depuracion
total.
La version 4.0 que aparecio en 1996 ( ultima versi on para DOS) incluye una Interfaz del Usuario mas ami-
gable, posibilidad de ambiente personalizado, Manual del Usuario en linea, lenguaje de control simplicado,
nuevas modalidades de presentacion graca y capacidad de producir versiones en distintos idiomas. Dos
nuevos programas aparecieron para dar al usuario tecnicas de analisis de conglomerados y de b usqueda de
estructura. Se reorganizo el Manual del Usuario para presentar los t opicos de una manera mas concisa y mas
facil de consultar. Inicialmente estaba solo en ingles.
Desde 1998, la versi on 4 se desarroll o progresivamente en Espa nol, Frances, Arabe y Ruso.
2000: primera versi on de IDAMS para Windows y desarollo posterior
La version 1.0 de IDAMS para el sistema operativo graco Windows de 32 bits se puso a prueba en 2000
y su distribuci on se inici o en 2001. Ofrece una moderna Interfaz del Usuario, nuevas caractersticas para
facilitar el uso y acceso en lnea al Manual de Referencia con la ayuda est andar de Windows. Nuevos com-
ponentes interactivos de analisis suministran herramientas para construcci on de tablas multidimensionales,
la exploraci on graca de datos y analisis de series de tiempo.
La version 1.1 sali o en septiembre de 2002 con las siguientes mejoras: (1) externalizaci on de textos para
el uso de los programas en otros idiomas ademas del ingles; (2) concordancia de los textos en los resultados.
Fue una primera versi on para Windows que aparecio en ingles, frances y espa nol.
La version 1.2 sali o en julio de 2004 en ingles, frances y espa nol, y contiene nuevas funciones en tres
programas, en la Interfaz del Usuario, y en los componentes interactivos para la exploraci on graca de datos
y el analisis de series de tiempo. Ella sali o en abril 2006 en portugues.
La version 1.3 sali o igualmente en ingles, frances, espa nol y portugues, y contiene un nuevo programa para
analisis de variancia multivariado (MANOVA), c alculo de coeciente de variabilidad en cuadro programas,
mejora de tratamiento de variables de Recode con decimales en SCAT y TABLES, y armonizacion completa
de la longitud de registro de datos.
Reconocimientos
En primer lugar, se debe agradecer al profesor Frank-M. Andrews ( 1994) del Instituto para la Investigacion
en Ciencias Sociales de la Universidad de Michigan, Estados Unidos de America, y a este Instituto el cual
autorizo a UNESCO tomar el c odigo fuente de OSIRIS III.2 para usarlo en el desarrollo del paquete de
programas IDAMS. A partir de entonces, continu o el aporte de adiciones y mejoras sustanciales. En este
aspecto, fueron particularmente importantes: el Dr. Jean-Paul Aimetti, Administrador de D.H.E. Conseil,
Paris y profesor en el Conservatoire National des Arts et Metiers (CNAM), Pars (Francia); los profesores J.-
P. Benzecri y E.-R. Iagolnitzer, U.E.R. de Mathematiques, Universite de Pars V (Francia); el ingeniero Tibor
Diamant y el Dr. Zoltan Vas de la Universidad Jozsef Attila, Szeged (Hungra); la profesora Anne-Marie
Dussaix, Ecole Superieure des Sciences Economiques et Commerciales (ESSEC), Cergy-Pontoise (Francia);
el Dr. Igor S. Enyukov y el ingeniero Nicola D. Vylegjanin, StatPoint, Mosc u (Federacion Rusa); el Dr
III
Peter Hunya, quien fue Director del Laboratorio Kalmar de Cibernetica, Universidad Jozsef Attila, Szeged
(Hungra), y quien fue el Administrador del Programa IDAMS en UNESCO entre julio 1993 y febrero 2001;
Jean Massol, EOLE, Pars (Francia); la profesora Anne Morin, Institut de Recherche en Informatique et
Systèmes Aleatoires (IRISA), Rennes (Francia); Judith Rattenbury, ex-directora, Data Processing Division,
World Fertility Survey, Londres y actualmente fundadora y cabeza de publicaciones SJ MUSIC, Cambridge
(Reino Unido); J.M. Romeder y la Association pour le Developpement et la Diusion de lAnalyse des
Donnees (ADDAD), Pars (Francia); el profesor Peter J. Rousseeuw, Universitaire Instelling Antwerpen,
Amberes (Belgica); el Dr. A.V. Skofenko, Academia de Ciencias, Kiev (Ucrania); el ingeniero Neal Van Eck,
Philadelphia College of Textiles and Science, Philadelphia (EEUU); Nicole Visart quien lanzo el programa
IDAMS y quien, en adici on a sus contribuciones tecnicas en todas las etapas, aseguro la coordinaci on y el
monitoreo de todo el proyecto hasta su retiro en 1992.
Es imposible dar el credito a todas las personas, ademas de las mencionadas, quienes han contribuido con
ideas y esfuerzo para IDAMS y para OSIRIS III.2 del cual se derivo IDAMS. Hasta ahora, IDAMS se
desarrolla principalmente en UNESCO. A continuacion se presenta una lista de los principales programas,
componentes y facilidades incluidas en IDAMS, con los nombres de sus autores y programadores, y las
instituciones en las cuales se llev o a cabo el trabajo.
Interfaz del Usuario y facilidades basicas
Recodicacion de datos Ellen Grun ISR
Peter Solenberger ISR
Tibor Diamant UNESCO
Jean-Claude Dauphin UNESCO
Interfaz del Usuario Jean-Claude Dauphin UNESCO
Acceso en lnea al Pawel Hoser Polish Academy of Sciences
Manual del Usuario Jean-Claude Dauphin UNESCO
Facilidades para el manejo de datos
AGGREG Tina Bixby ISR
BUILD Carl Bixby ISR
Sylvia Barge ISR
CHECK Tina Bixby ISR
CONCHECK Neal Van Eck Van Eck Computing Consulting
CORRECT Tibor Diamant UNESCO
IMPEX Peter Hunya UNESCO
LIST Marianne Stover ISR
Sylvia Barge ISR
MERCHECK Karen Jensen ISR
Sylvia Barge ISR
Zoltan Vas JATE
MERGE Tina Bixby ISR
Nancy Barkman ISR
SORMER Carol Cassidy ISR
SUBSET Judy Mattson ISR
Judith Rattenbury ISR
TRANS Jean-Claude Dauphin UNESCO
IV
Facilidades para el analisis de datos
CLUSFIND Leonard Kaufman Vrije Universiteit Brussel
Peter J. Rousseeuw Vrije Universiteit Brussel
Neal Van Eck Van Eck Computing Consulting
CONFIG Herbert Weisberg ISR
DISCRAN J.-M. Romeder ADDAD
and ADDAD
Peter Hunya UNESCO
Tibor Diamand UNESCO
FACTOR J.P. Benzecri, Universite de Paris V
E.R. Iagolnitzer Universite de Paris V
Peter Hunya JATE
MANOVA Charles E. Hall George Washington University
Elliot M. Cramer George Washington University
Neal Van Eck ISR
Tibor Diamand UNESCO
MCA Edwin Dean ISR
John Sonquist ISR
MDSCAL Joseph Kruskal Bell Telephone
Frank Carmone Bell Telephone
Lutz Erbring ISR
ONEWAY Spyros Magliveras ISR
PEARSON John Sonquist ISR
Spyros Magliveras ISR
Neal Van Eck ISR
Ronald Nuttal Boston College
POSCOR Peter Hunya JATE
QUANTILE Robert Messenger ISR
RANK Anne-Marie Dussaix ESSEC
Albert David ESSEC
Peter Hunya JATE
A.V. Skofenko Ukrainian Academy of Sciences
REGRESSN M.A. Efroymson ESSO Corporation
Bob Hsieh ESSO Corporation
Neal Van Eck ISR
Peter Solenberger ISR
SCAT Judith Goldberg ISR
SEARCH John Sonquist ISR
Elizabeth Lauch Baker ISR
James N. Morgan ISR
Neal Van Eck Van Eck Computing Consulting
TABLES Neal Van Eck ISR and Van Eck Computing Consulting
TYPOL Jean-Paul Aimetti CFRO
Jean Massol CFRO
Peter Hunya JATE
Tablas multidimensionales Jean-Claude Dauphin UNESCO
GraphID Igor S. Enyukov StatPoint
Nicola D. Vylegjanin StatPoint
TimeSID Igor S. Enyukov StatPoint
V
Con relacion a la documentaci on, se debe agradecer a todas las personas que han aportado su colab-
oraci on, en particular a Judith Rattenbury quien redact o la primera versi on del Manual en ingles (1988)
as como la revision de las versiones posteriores hasta 1998; Jean-Paul Griset (UNESCO, Paris) quien con-
cibio junto con Nicole Visart el dise no tipogr aco utilizado para el Manual hasta 1998; Teresa Krukowska
(grupo IDAMS, UNESCO, Paris) quien compilo los captulos de las formulas estadsticas y a partir de 1998
mantiene al da la versi on original inglesa, hizo el nuevo dise no tipogr aco y es responsable de la produccion
electronica de las versiones en ingles, espa nol, frances y portugues, y se hace cargo de la concordancia de los
textos en ingles, espa nol, frances y portugues hasta donde esto es posible.
Reconocimientos a los autores de los documentos de OSIRIS de los cuales se tomo material para el Manual
del Usuario de WinIDAMS, as: Volumen 1 del Manual del Usuario de OSIRIS III.2 (editado por Sylvia
Barge y Gregory A. Marks) y el Volumen 5 (compilado por Laura Klem), Insituto para la Investigacion
Social, Universidad de Michigan, Estados Unidos de America.
De la misma manera, se agradece la cooperaci on a los traductores de la documentacion y del paquete de
software en espa nol, frances y portugues:
Profesor Jose Raimundo Carvalho, CAEN P os-gradua c ao em Economia, UFC, Fortaleza, Brasil, por
la traducci on del Manual y de los textos que hacen parte integral de los programas en portugues.
Profesor Bernardo Lievano, Escuela Colombiana de Ingeniera (ECI) Bogota, Colombia, por la traduc-
cion del Manual y de los textos que hacen parte integral de los programas en espa nol.
Profesora Anne Morin, Institut de Recherche en Informatique et Systèmes Aleatoires (IRISA), Rennes,
Francia, por su contribucion a la traducci on de los textos que hacen parte integral de los programas
en frances.
Nicole Visart, Grez-Doiceau, Belgica, por la traducci on del Manual en frances.
Las siguientes instituciones se han encargado de las traducciones en arabe y en ruso del paquete y del Manual:
ALECSO - Departmento de Documentacion e Informaci on, T unez, T unez, y Universidad Hidrometeorol ogica
del Estado Ruso, Departmento de Telecomunicaciones, San Petersburgo, Federacion Rusa.
Solicitudes de WinIDAMS e informacion adicional
Para informacion adicional sobre WinIDAMS referente a contenido, actualizaciones, entrenamiento y dis-
tribucion, por favor escribir a:
UNESCO
Sector de la Comunicacion y la Informaci on
Division de la Sociedad de la Informaci on
CI/INF - IDAMS
1, rue Miollis
75732 PARIS CEDEX 15
Francia
e-mail: idams@unesco.org
http://www.unesco.org/idams
Indice general
1. Introducci on 1
1.1. Interfaz del Usuario de WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Facilidades para el manejo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3. Facilidades para el analisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4. Los datos en IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.5. Comandos de IDAMS y el archivo Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.6. Caractersticas est andar de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.7. Importacion y exportacion de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.8. Intercambio de datos entre CDS/ISIS e IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.9. Estructura de este Manual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
I Nociones fundamentales 9
2. Los datos en IDAMS 11
2.1. El dataset IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1. Descripcion general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2. Metodo de almacenamiento y acceso . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2. Archivos Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.1. El arreglo de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2. Caractersticas del archivo Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.3. Archivos jerarquicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.4. Variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2.5. Codigos de datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2.6. Valores no numericos o en blanco en variables numericas - datos malos . . . . . . . . . 13
2.2.7. Las reglas de edici on de las variables en salida de programas IDAMS . . . . . . . . . . 13
2.3. El diccionario IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3.2. Ejemplo de un diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4. Matrices IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4.1. La matriz cuadrada IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2. La matriz rectangular IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5. Uso de datos de otros paquetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.1. Datos primarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.5.2. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3. El archivo Setup de IDAMS 21
3.1. Contenido y prop osito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2. Comandos de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.3. Especicaci on de archivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.4. Ejemplos de uso de comandos $ y especicaci on de archivos . . . . . . . . . . . . . . . . . . . 23
3.5. Proposiciones de control de programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5.2. Reglas generales de codicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5.3. Filtros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
3.5.4. Ttulos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.5.5. Parametros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.6. Proposiciones de Recode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
VIII

INDICE GENERAL
4. Facilidad Recode 33
4.1. Reglas de codicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.2. Conjunto de muestra de proposiciones Recode . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3. Tratamiento de datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.4. Como funciona Recode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.5. Operandos b asicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.6. Operadores b asicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
4.7. Expresiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
4.8. Funciones aritmeticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.9. Funciones logicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.10. Proposiciones de asignacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.11. Proposiciones especiales de asignacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.12. Proposiciones de control . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
4.13. Proposiciones condicionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.14. Proposiciones de denicion/de asignacion de valores iniciales . . . . . . . . . . . . . . . . . . 50
4.15. Ejemplos de uso de proposiciones de Recode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
4.16. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
4.17. Nota . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5. Manejo y analisis de datos 57
5.1. Validaci on de datos con IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1.1. Visi on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.1.2. Vericacion si los datos son completos . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.3. Detecci on de valores no numericos e invalidos . . . . . . . . . . . . . . . . . . . . . . . 58
5.1.4. Vericacion de consistencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2. Manejo/transformaci on de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3. Analisis de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.4. Ejemplo de un peque no trabajo a ejecutar con IDAMS . . . . . . . . . . . . . . . . . . . . . . 60
II El trabajo con WinIDAMS 63
6. Instalaci on 65
6.1. Requisitos del sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.2. Procedimiento de instalaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.3. Prueba de la instalaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.4. Archivos y carpetas creados durante la instalaci on . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4.1. Carpetas de WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.4.2. Archivos instalados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.5. Desintalacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
7. Primeros pasos 69
7.1. Visi on general de los etapas con WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
7.2. Creaci on de un ambiente de aplicacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
7.3. Preparacion del diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
7.4. Captura de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.5. Preparacion del setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.6. Ejecuci on del setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
7.7. Revisi on de los resultados y modicacion del setup . . . . . . . . . . . . . . . . . . . . . . . . 76
7.8. Impresi on de los resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
8. Archivos y carpetas 79
8.1. Archivos en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
8.2. Las carpetas en WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9. Interfaz del Usuario 81
9.1. Concepto general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
9.2. Men us comunes a todas las ventanas de WinIDAMS . . . . . . . . . . . . . . . . . . . . . . . 82
9.3. Personalizacion del ambiente para una aplicacion . . . . . . . . . . . . . . . . . . . . . . . . . 83
9.4. Crear/actualizar/mostrar archivos Diccionario . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
INDICE GENERAL IX
9.5. Crear/actualizar/mostrar archivos Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
9.6. Importacion de archivos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.7. Exportacion de archivos Datos de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.8. Crear/actualizar/mostrar archivos Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.9. Ejecuci on de los setups de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.10. Manejo de los archivos Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.11. Creaci on/actualizacion de archivos en formato de texto y RTF . . . . . . . . . . . . . . . . . 94
III Facilidades para el manejo de datos 95
10.Agrupacion de datos (AGGREG) 97
10.1. Descripcion general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.4. Dataset de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.5. Dataset de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
10.6. Estructura del setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
10.7. Proposiciones de control del programa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
10.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
10.9. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
11.Construccion de un dataset IDAMS (BUILD) 103
11.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
11.5. Diccionario de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
11.6. Datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
12.Vericacion de c odigos (CHECK) 109
12.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
12.7. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
12.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
13.Vericacion de consistencia (CONCHECK) 115
13.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
13.7. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
13.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
14.Vericacion de intecalaci on de registros (MERCHECK) 121
14.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
14.4. Datos de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
14.5. Datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124
X

INDICE GENERAL
14.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
14.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127
15.Correccion de datos (CORRECT) 129
15.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
15.8. Restricci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
15.9. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
16.Importacion/exportacion de datos (IMPEX) 135
16.2. Caratersticas est andar de IDAMS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
16.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
16.4. Archivos de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
16.5. Archivos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
16.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
16.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
17.Listado de datasets (LIST) 145
17.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145
17.7. Restricci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
17.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
18.Intercalacion de datasets (MERGE) 149
18.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
18.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
18.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
19.Clasicaci on e intercalacion de archivos (SORMER) 157
19.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
19.4. Diccionario de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
19.5. Datos de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157
19.6. Diccionario de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
19.7. Datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
19.10.Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159
19.11.Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 160
INDICE GENERAL XI
20.Subdivisi on de datasets (SUBSET) 161
20.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161
20.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
20.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164
21.Transformaci on de datos (TRANS) 165
21.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
21.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
21.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 168
IV Facilidades para analisis de datos 171
22.Analisis de conglomerados (CLUSFIND) 173
22.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 173
22.5. Matriz de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
22.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
22.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
23.Analisis de conguraci on (CONFIG) 179
23.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
23.4. Matriz de conguracion de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
23.5. Matriz de distancias de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
23.6. Matriz de conguracion de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
23.9. Restricci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
23.10.Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
24.Analisis discriminatorio (DISCRAN) 185
24.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
24.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
24.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 190
25.Funciones de distribuci on y de Lorenz (QUANTILE) 191
XII

INDICE GENERAL
25.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
25.7. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
25.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
26.Analisis factorial (FACTOR) 197
26.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
26.4. Dataset(s) de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
26.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
26.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
27.Regresi on lineal (REGRESSN) 205
27.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
27.4. Matriz de correlaci on de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
27.5. Dataset de residuos de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
27.7. Matriz de correlaci on de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
27.10.Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
27.11.Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
28.Escalamiento multidimensional (MDSCAL) 215
28.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 216
28.5. Matriz de datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
28.6. Matriz de ponderaciones de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
28.10.Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
28.11.Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220
29.Analisis de clasicacion m ultiple (MCA) 221
29.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
29.4. Dataset(s) de residuos de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224
29.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
29.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
30.Analisis multivariado de variancia (MANOVA) 231
INDICE GENERAL XIII

30.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
30.7. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
30.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 236
31.Analisis de variancia de una entrada (ONEWAY) 239
31.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 239
31.7. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
31.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 243
32.Puntajes basados en el orden parcial de casos (POSCOR) 245
32.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246
32.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
32.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 250
33.Correlaci on de Pearson (PEARSON) 253
33.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 254
33.4. Matrices de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 255
33.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
33.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 257
34.Ordenamiento de alternativas (RANK) 259
34.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 260
34.5. Estructuda del setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262
34.7. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 264
34.8. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 265
35.Diagramas de dispersion (SCAT) 267
35.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268
35.7. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270
35.8. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
36.B usqueda de estructura (SEARCH) 273
XIV

INDICE GENERAL
36.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
36.4. Dataset de residuos de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 274
36.8. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
36.9. Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 278
37.Tablas univariadas y bivariadas (TABLES) 281
37.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282
37.4. Tablas univariadas/bivariadas de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
37.5. Matrices de estadsticas bivariadas de salida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284
37.9. Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 290
37.10.Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 291
38.Tipologa y clasicacion ascendente (TYPOL) 293
38.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
38.10.Restricciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
38.11.Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
V Analisis interactivo de datos 301
39.Tablas multidimensionales y su presentaci on graca 303
39.1. Visi on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
39.2. Preparacion del analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303
39.3. Ventana de tablas multidimensionales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 305
39.4. Presentacion graca de tablas univariadas y bivariadas . . . . . . . . . . . . . . . . . . . . . . 306
39.5. Como hacer una tabla multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 307
39.6. Como cambiar una tabla multidimensional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309
40.Exploracion graca de datos 313
40.1. Visi on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313
40.3. Ventana principal de GraphID para analisis de un dataset . . . . . . . . . . . . . . . . . . . . 313
40.3.1. Barra de men u y barra de herramientas . . . . . . . . . . . . . . . . . . . . . . . . . . 314
40.3.2. Manipulacion de la matriz de gracos de dispersi on . . . . . . . . . . . . . . . . . . . . 316
40.3.3. Histogramas y densidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 318
40.3.4. Lneas de regresion (Lneas suavizadas) . . . . . . . . . . . . . . . . . . . . . . . . . . 318
40.3.5. Diagramas de caja y bigotes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 319
40.3.6. Graco agrupado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 320
40.3.7. Diagramas de dispersi on tridimensionales y su rotacion . . . . . . . . . . . . . . . . . 320
40.4. Ventana de GraphID para analisis de una matriz . . . . . . . . . . . . . . . . . . . . . . . . . 321
40.4.2. Manipulacion de la matriz en pantalla . . . . . . . . . . . . . . . . . . . . . . . . . . . 322
INDICE GENERAL XV
41.Analisis de series de tiempo 323
41.1. Visi on general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
41.3. Ventana principal de TimeSID . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
41.3.2. Ventana de series de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 326
41.4. Transformacion de series de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 327
41.5. Analisis de series de tiempo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328
VI Formulas estadsticas y referencias bibliogracas 331
42.Analisis de conglomerados 333
42.1. Estadsticas univariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
42.2. Medidas estandarizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
42.3. Matriz de disimilitudes calculada a partir de un dataset de IDAMS . . . . . . . . . . . . . . . 334
42.4. Matriz de disimilitudes calculada a partir de una matriz de similitudes . . . . . . . . . . . . . 334
42.5. Matrix de disimilitudes calculada a partir de una matriz de correlaci on . . . . . . . . . . . . . 334
42.6. Reparticion alrededor de medoides (PAM) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 334
42.7. Reparticion para grandes datasets (CLARA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
42.8. Conglomeraci on difusa (FANNY) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 336
42.9. Conglomeraci on jerarquica acumulativa (AGNES) . . . . . . . . . . . . . . . . . . . . . . . . 337
42.10.Conglomeraci on jerarquica divisiva (DIANA) . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
42.11.Conglomeraci on monotetica (MONA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
42.12.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339
43.Analisis de conguraci on 341
43.1. Congurati on centrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
43.2. Congurati on normalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341
43.3. Soluci on en ejes principales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
43.4. Matriz de productos escalares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
43.5. Matriz de distancias entre puntos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
43.6. Conguraci on rotada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
43.7. Conguraci on transladada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342
43.8. Rotaci on varimax . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
43.9. Conguraci on clasicada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
43.10.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343
44.Analisis discriminatorio 345
44.2. Discriminaci on lineal entre 2 grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 346
44.3. Discriminaci on lineal entre mas de 2 grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
44.4. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348
45.Funciones de distribuci on y de Lorenz 349
45.1. Formula para los puntos de separacion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349
45.2. Puntos de separacion de la funci on de distribuci on . . . . . . . . . . . . . . . . . . . . . . . . 349
45.3. Puntos de separacion de la funci on de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
45.4. Curva de Lorenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
45.5. El coeciente de Gini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
45.6. Estadstica D de Kolmogorov-Smirnov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350
45.7. Nota sobre los pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351
46.Analisis factorial 353
46.2. Datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
46.3. Matrices n ucleo (matrices de relaciones) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354
46.4. Huella . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
46.5. Valores y vectores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 355
46.6. Tabla de valores propios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
XVI

INDICE GENERAL
46.7. Tabla de factores de variables activas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356
46.8. Tabla de factores de variables pasivas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
46.9. Tabla de factores de casos activos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358
46.10.Tabla de factores de casos pasivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
46.11.Factores rotados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
46.12.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 360
47.Regresi on lineal 361
47.2. Matriz de sumas totales de cuadrados y productos cruzados . . . . . . . . . . . . . . . . . . . 361
47.3. Matriz de sumas de cuadrados residuales y productos cruzados . . . . . . . . . . . . . . . . . 362
47.4. Matriz de correlaci on total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
47.5. Matriz de correlaci on parcial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
47.6. Matriz inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
47.7. Estadsticas de resumen del analisis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363
47.8. Estadsticas de analisis para los predictores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364
47.9. Residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
47.10.Nota sobre la regresion por pasos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 365
47.11.Nota sobre la regresion descendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
47.12.Nota sobre la regresion con intercepto cero . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 366
48.Escalamiento multidimensional 367
48.1. Orden de los c alculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
48.2. Conguraci on inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
48.3. Centrado y normalizaci on de la conguracion . . . . . . . . . . . . . . . . . . . . . . . . . . . 367
48.4. Historia de los c alculos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 368
48.5. Esfuerzo para la conguracion nal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
48.6. Conguraci on nal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
48.7. Conguraci on clasicada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
48.8. Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 370
48.9. Nota sobre ataduras en los datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
48.10.Nota sobre los pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 371
48.11.References . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 372
49.Analisis de clasicacion m ultiple 373
49.1. Estadsticas de la variable dependiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 373
49.2. Estadsticas de los predictores para analisis de clasicacion m ultiple . . . . . . . . . . . . . . 374
49.3. Estadsticas del analisis para analisis de clasicacion m ultiple . . . . . . . . . . . . . . . . . . 376
49.4. Estadsticas de resumen de residuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376
49.5. Estadsticas de categora de los predictores, para analisis de variancia de una entrada . . . . . 377
49.6. Estadsticas del analisis, para analisis de variancia de una entrada . . . . . . . . . . . . . . . 377
49.7. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
50.Analisis multivariado de variancia 379
50.1. Estadsticas generales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 379
50.2. Calculos para una prueba en un analisis multivariado . . . . . . . . . . . . . . . . . . . . . . . 381
50.3. Analisis univariado . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
50.4. Analisis de covariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384
51.Analisis de variancia de una entrada 385
51.1. Estadsticas descriptivas para cada categora de la variable de control . . . . . . . . . . . . . . 385
51.2. Estadsticas del analisis de variancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386
52.Puntajes basados en el orden parcial de casos 389
52.1. Terminologa especial y deniciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
52.2. Calculo de puntajes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 390
52.3. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
53.Correlaci on de Pearson 393
53.1. Estadsticas pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
53.2. Medias y desviaciones est andar no pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
INDICE GENERAL XVII

53.3. Ecuaci on de regresion para puntajes primarios . . . . . . . . . . . . . . . . . . . . . . . . . . 394
53.4. Matriz de correlaci on . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
53.5. Matriz de productos cruzados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
53.6. Matriz de covariancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394
54.Ordenamiento de alternativas 395
54.1. Manejo de los datos de entrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 395
54.2. Metodo basado en la logica clasica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 396
54.3. Metodos basados en la logica difusa: la relacion de entrada . . . . . . . . . . . . . . . . . . . . 398
54.4. Metodo difuso-1: capas no dominadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 400
54.5. Metodo difuso-2: rangos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 402
54.6. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 403
55.Diagramas de dispersion 405
55.2. Estadsticas univariadas por parejas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 405
55.3. Estadsticas bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 406
56.B usqueda de estructura 407
56.1. Analisis de medias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 407
56.2. Analisis de regresion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409
56.3. Analisis de Ji-cuadrada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410
56.4. Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 411
57.Tablas univariadas y bivariadas 413
57.2. Estadsticas bivariadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414
57.3. Nota sobre los pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 420
58.Tipologa y clasicacion ascendente 421
58.1. Tipos de variables utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
58.2. Perl de caso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
58.3. Perl de grupo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
58.4. Distancias utilizadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422
58.5. Construccion de una tipologa inicial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 423
58.6. Caractersticas de distancias por grupos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
58.7. Estadsticas de resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424
58.8. Descripcion de la tipologa resultante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425
58.9. Resumen de la cantidad de variancia explicada por la tipologa . . . . . . . . . . . . . . . . . 426
58.10.Clasicaci on jerarquica ascendente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 426
58.11.Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 427
Apendice: Mensajes de error de los programas de IDAMS. 429
Indice alfabetico. 431

Captulo 1
Introduccion
IDAMS es un paquete de programas para la validaci on, manejo y analisis estadstico de datos. Consiste en
un grupo de programas y facilidades que usan el mismo ambiente de manera que un solo lenguaje permite el
acceso a las diferentes funciones en todos los programas. Ejemplos del tipo de datos que se pueden procesar
con IDAMS son: respuestas a las preguntas de una encuesta, informacion acerca de los libros en una biblioteca.
caractersticas personales y desempe no de los alumnos en una escuela, medidas de un experimento cientco.
La caracterstica que tienen en com un estos datos es que consisten en valores de variables para cada una de
las colecciones de objetos/casos (por ej. en una encuesta, las preguntas corresponden a las variables y los
encuestados a los casos).
Existen numerosos paquetes y programas que ayudan al analisis estadstico de tales datos. Una caracterstica
especial de IDAMS es que tambien suministra facilidades para hacer una validaci on extensa de los datos (por
ej. vericacion de c odigos y de consistencia) antes del analisis. En lo que concierne al analisis, IDAMS realiza
tecnicas clasicas tales como construcci on de tablas, analisis de regresion, analisis de variancia de una entrada,
analisis de discriminacion y conglomerados y tambien algunas tecnicas mas avanzadas tales como analisis
factorial de componentes principales, analisis factorial de correspondencias, c alculo de puntajes basados en el
orden parcial de casos, ordenamiento de alternativas, segmentacion y tipologa iterativa. Ademas, la versi on
de IDAMS para Windows (WinIDAMS) ofrece los componentes interactivos para construcci on de tablas
multidimensionales, exploraci on graca de datos y analisis de series de tiempo.
1.1. Interfaz del Usuario de WinIDAMS
Es una interfaz de documento m ultiple (MDI). Permite trabajar simult aneamente con diferentes tipos de
documentos en ventanas separadas.
Esta Interfaz suministra lo siguiente:
la denicion de las carpetas Datos, Trabajo y Temporal para una aplicacion;
la ventana Diccionario para crear/actualizar/mostrar archivos Diccionario;
la ventana Datos para crear/actualizar/mostrar archivos Datos;
la ventana Setup para preparar/mostrar archivos Setup (el editor de sint axis en color);
la ventana Resultados para mostrar, copiar e imprimir partes seleccionadas de los resultados;
un editor general de texto;
opcion para ejecutar setups de IDAMS desde un archivo o desde la ventana activa Setup;
facilidades interactivas de importar/exportar datos;
acceso a los componentes de analisis interactivo de datos (Tablas multidimensionales, GraphID, TimeSID);
acceso en lnea al Manual de Referencia.
2 Introducci on
1.2. Facilidades para el manejo de datos
Agrupacion de datos (AGGREG). Permite agrupar en un solo registro los registros que vienen de varios
casos y produce a la salida un nuevo dataset con un registro por grupo, por ejemplo los miembros de
una familia se reagrupan en un registro que representa la familia. Las variables en el nuevo registro son
estadsticas de resumen de variables especcas de los registros individuales, por ej. la suma, media, valor
mnimo/maximo.
Construccion de un dataset IDAMS (BUILD). Lee un archivo de datos primarios (que puede tener
m ultiples registros por caso) junto con un diccionario que describe las variables que se van a seleccionar.
BUILD verica la presencia de valores no numericos en campos numericos; los campos en blanco se pueden
recodicar a valores numericos especicados por el usuario y otros no numericos se reportan y reemplazan
con nueves. La salida es un dataset IDAMS que comprende un archivo Datos con un solo registro por caso
y un diccionario asociado que describe cada campo en los registros de datos.
Vericacion de c odigos (CHECK). Reporta casos que tengan valores invalidos en las variables. Los c odigos
validos para cada variable los especica el usuario y se toman del diccionario.
Vericacion de consistencia (CONCHECK). Reporta casos con inconsistencias entre dos o mas variables.
Las proposiciones de Recode de IDAMS se utilizan para especicar las relaciones logicas a vericar.
Vericacion de intercalacion de registros (MERCHECK). Verica que esten presentes los registros
correctos para cada caso en un archivo de m ultiples registros por caso. Produce un archivo de salida que
tiene un n umero igual de registros por caso. Se pueden eliminar registros invalidos o duplicados y se pueden
insertar registros faltantes con c odigos de valores faltantes especicados por el usuario.
Correccion de datos (CORRECT). Actualiza un archivo al aplicar correcciones a valores individuales de
variables para casos especicados. El archivo Resultados contiene un informe escrito con la historia de las
correcciones y estas se pueden archivar.
Importacion/exportacion de datos (IMPEX). La importacion tiene por objeto crear datasets o matri-
ces de IDAMS a partir de archivos que vienen de otro programa. La exportacion pretende hacer posible
el uso de archivos Datos y Matrices, almacenados o creados por IDAMS, en otros paquetes. Se pueden
importar/exportar archivos de texto en formato libre y en formato DIF.
Listado de datasets (LIST). Se pueden listar los valores de variables seleccionadas (originales o recodi-
cadas) y casos seleccionados en formato de columnas.
Intercalacion de datasets (MERGE). Se pueden intercalar dos datasets emparejando casos de acuerdo con
un conjunto com un de variables llamadas variables de emparejamiento. Hay cuatro opciones para seleccionar
casos en el dataset de salida: (1) solo casos presentes en ambos archivos (interseccion); (2) cada caso en
ambos archivos (uni on); (3) cada caso en el primer archivo; (4) cada caso en el segundo archivo. El usuario
especica cuales variables de cada uno de los dos archivos de entrada van a la salida. Existe una opcion para
encajar un caso de un archivo con mas de un caso del segundo archivo, por ej. para a nadir datos de hogares
de un archivo al registro de cada individuo en un segundo archivo.
Clasicaci on e intercalacion de archivos (SORMER). Es un utilitario de uso general para clasicar
datos en forma ascendente o descendente hasta por 12 campos de clasicacion. Se pueden intercalar hasta
16 archivos.
Subdivisi on de datasets (SUBSET). Produce un nuevo dataset (archivos Datos y Diccionario) con casos
y variables seleccionados del dataset de entrada. Tiene una opcion para vericar casos duplicados.
Transformaci on de datos (TRANS). Este programa se usa para guardar las variables creadas por la
facilidad Recode de IDAMS en un dataset permanente.
1.3 Facilidades para el analisis de datos 3
1.3. Facilidades para el analisis de datos
Analisis de conglomerados (CLUSFIND). Ejecuta analisis de conglomerados dividiendo un conjunto de
objetos (casos o variables) en un conjunto de conglomerados determinado por uno de 6 algoritmos, 2 basados
en la divisi on alrededor de medoides, 1 basado en la logica difusa y los otros 3 basados en una conglomeracion
jerarquica.
Analisis de conguraci on (CONFIG). Ejecuta analisis sobre una conguracion de entrada, creada por
ejemplo con el programa MDSCAL. Tiene la capacidad de centrar, normalizar, rotar, trasladar dimensiones,
calcular distancias entre puntos y productos escalares. Se puede gracar la conguracion despues de cada
transformaci on.
Analisis discriminatorio (DISCRAN). Busca la mejor funci on lineal de discriminaci on de un conjunto de
variables que produce, hasta donde sea posible, una agrupaci on a priori de los casos. Utiliza un procedimiento
por pasos, es decir, en cada paso entra la variable mas poderosa. El programa distingue tres muestras de
casos: la muestra b asica sobre la cual se hacen los analisis discriminatorios principales, muestra de prueba
sobre la cual se verica la potencia de la funci on de discriminacion y muestra anonima que se usa solo para
clasicar los casos. Se pueden guardar en un dataset la ultima asignacion de grupos a los casos y valores de
los dos primeros factores discriminatorios (para analisis con mas de 2 grupos).
Funciones de distribuci on y de Lorenz (QUANTILE). Funciones de distribuci on con 2 a 100 subinter-
valos, funciones de Lorenz, curva de Lorenz y coecientes de Gini, y la prueba de Kolmogorov-Smirnov.
Analisis factorial (FACTOR). Consiste en un conjunto de analisis factoriales de componentes principales
(productos escalares, covariancias, correlaciones) y an alisis factorial de correspondencias. Para cada analisis
construye una matriz que representa las relaciones entre las variables y calcula sus valores propios y vectores
propios. Calcula los factores para los casos y las variables dando para cada caso y cada variable su ordenada,
su calidad de representacion y su contribucion a los factores. Estos factores se pueden guardar en el dataset y
se puede obtener una representacion graca de casos y variables en el espacio factorial. El programa distingue
entre casos y variables activas y pasivas.
Regresi on lineal (REGRESSN). Suministra una capacidad general de regresion m ultiple para analisis de
regresion lineal est andar y por pasos. Se puede usar un dataset o una matriz de correlaci on como entrada.
Se pueden imprimir residuos con la estadstica de Durbin-Watson para su correlaci on de primer orden, y
tambien puede llevarse al archivo de salida, por ej. para analisis posteriores.
Escalamiento multidimensional (MDSCAL). Este es un procedimiento de escalamiento multidimensional
no metrico para el analisis de similitudes. Opera sobre una matriz de medidas de similitud o disimilitud y
est a dise nado para hallar la mejor representacion geometrica de los datos. El usuario controla la dimensi on
de la conguracion, la metrica usada y la manera de manejar las ataduras (valores iguales) en los datos de
entrada.
Analisis de clasicacion m ultiple (MCA). Examina las relaciones entre varias variables predictoras (con-
trol) y una sola variable dependiente y determina el efecto de cada predictor antes y despues del ajuste de sus
intercorrelaciones con otros predictores. Suministra informacion de las relaciones bivariadas y multivariadas
entre predictores y la variable dependiente. Se pueden imprimir los residuos y llevarlos a un dataset.
Analisis de variancia multivariado (MANOVA). Ejecuta analisis de variancia univariado y multivariado,
y analisis de covariancia, usando un modelo general lineal. Se pueden usar hasta ocho factores (variables
dependientes). Cuando hay mas de una variable dependiente, se ejecutan ambos analisis univariado y mul-
tivariado. El programa aplica una solucion exacta con un nombre igual o diferente de casos en las celdas.
Analisis de variancia de una entrada (ONEWAY). Estadsticas descriptivas dentro de las categoras
de la variable de control y estadsticas de analisis de variancia de una entrada tales como: suma total de
cuadrados, suma de cuadrados entre medias, suma de cuadrados dentro grupos, eta y eta cuadrada (no
ajustada y ajustada) y el valor de la prueba F.
Puntajes basados en el orden parcial de casos (POSCOR). Calcula puntajes de escala ordinales a partir
de variables de intervalos u ordinales. Se calculan los puntajes para cada caso involucrado en el analisis y
miden la posicion relativa del caso dentro del conjunto de los mismos. Los puntajes, opcionalmente con otras
variables especicadas por el usuario, salen en la forma de un dataset IDAMS.
4 Introducci on
Correlaci on de Pearson (PEARSON). Calcula los coecientes r de correlaci on de Pearson, covariancias
y coecientes de regresion. Se puede solicitar eliminacion de datos faltantes por parejas o por casos. Las
matrices de correlaci on y de covariancias de salida se pueden guardar en un archivo.
Ordenamiento de alternativas (RANK). Determina un orden de alternativas por rangos usando datos
preferenciales y tres procedimientos diferentes de asignacion de rangos, uno basado en la logica clasica y
otros dos basados en la logica difusa. Los datos preferenciales pueden representar una selecci on o un rango
de alternativas. Se pueden especicar dos tipos de relaciones individuales preferenciales: debil y estricta. Con
la asignacion difusa de rangos, los datos determinan completamente los resultados obtenidos mientras que
con la asignacion clasica el usuario tiene la posibilidad de controlar los c alculos.
Diagramas de dispersion (SCAT). Diagramas de dispersi on, estadsticas univariadas (media, desviacion
est andar y N), estadsticas bivariadas (r de Pearson y estadsticas de regresion: coeciente B y constante A).
B usqueda de estructura (SEARCH). Un procedimiento de segmentacion binaria para desarrollar modelos
predictivos. La pregunta que dicotoma y en que variable predictora se obtendr a el maximo aprovechamiento
de la capacidad para predecir valores de la variable dependiente dentro de un esquema iterativo, es la base
del algoritmo usado.
Tablas univariadas y bivariadas (TABLES). Las opciones incluyen: (1) distributiones de frecuencia
univariadas simples y acumulativas y de porcentajes; (2) estadsticas univariadas: media, mediana, moda,
variancia, desviacion est andar, asimetra, kurtosis, mnimo y maximo; (3) tablas de frecuencias bivariadas con
porcentajes por la, columna y total; (4) tablas de valores medios de una variable adicional; (5) estadsticas
bivariadas: pruebas-t de medias entre pares de las, Ji-cuadrada, coeciente de contingencia, V de Cramer,
Tau a, b, c de Kendall, Gama, Lambda, Ro de Spearman, estadsticas para la medicina basada en evidencia,
y tres pruebas no par ametricas: Wilcoxon, Mann-Whitney y Fisher.
Tipologa y clasicacion ascendente (TYPOL). Crea una variable de clasicacion como el resumen
de un gran n umero de variables cuantitativas y cualitativas. El usuario escoge el n umero inicial y nal de
grupos, el tipo de distancia usada y la manera de comenzar la tipologa inicial. Los grupos de la tipologa
inicial se estabilizan con un procedimiento iterativo. El n umero de grupos se puede reducir con un algoritmo
de clasicacion jerarquica ascendente. El programa distingue entre variables activas que participan en la
construcci on de la tipologa y variables pasivas para las cuales se calculan las estadsticas principales dentro
de los grupos de la tipologa.
Tablas interactivas multidimensionales. El componente Tablas multidimensionales permite visualizar
y personalizar tablas con frecuencias, porcentajes de la, de columna y totales, estadsticas univariadas
(suma, conteo, media, maximo, mnimo, variancia, desviacion est adar) de variables adicionales y estadsticas
bivariadas. Se pueden anidar hasta siete variables en las y columnas. Se puede repetir la construcci on de
tablas para cada valor hasta tres variables de pagina. Tambien se pueden imprimir las tablas o exportarlas
en formato libre (coma o car acter de tabulaci on como delimitador) o en formato HTML.
Exploracion graca interactiva de los datos. Un componente separado, GraphID, est a disponible en
WinIDAMS para explorar datos a traves de despliegues gracos. El despliegue b asico se encuentra en la
forma de gracos de dispersi on m ultiple para diferentes pares de variables. Se puede gracar informacion
adicional tal como histogramas y lneas de regresion. Los gracos se pueden manejar de varias maneras. Por
ejemplo, se pueden marcar en un graco casos seleccionados y luego resaltarlos en todos los otros gracos.
Se pueden aumentar partes del graco (zoom). Las matrices de IDAMS se muestran como gracos de tres
dimensiones en los cuales se representan las variables/los c odigos en dos de los ejes y la tercera dimensi on
se usa para mostrar el tama no de la estadsitica en la matriz (por ej. coeciente de correlaci on) para cada
par de variables.
Analisis interactivo de series de tiempo. Otro componente separado, TimeSID, suministra la posi-
bilidad de analisis interactivo de series de tiempo. Contiene analisis de tendencias, correlaciones auto y
cruzadas, analisis graco y estadstico de los valores de las series de tiempo, pruebas de aleatoriedad y ten-
dencia, predicci on a corto plazo, periodogramas y estimaci on de densidades espectrales. Las series se pueden
transformar calculando promedios, composiciones aritmeticas, diferencias secuenciales, razones de cambio,
se pueden suavizar con promedios moviles y se pueden descomponer usando ltros de frecuancia.
1.4 Los datos en IDAMS 5
1.4. Los datos en IDAMS
Dataset IDAMS - el archivo Datos. El archivo de entrada a IDAMS puede ser cualquier archivo de
caracteres (ASCII) de formato jo, es decir, los valores de una variable ocupan la misma posicion en el
registro para cada caso. Las caracersticas del archivo Datos son:
1-50 registros por caso;
cada caso puede contener hasta 4096 caracteres;
n umero de casos limitado para la capacidad de disco y la representacion numerica interna;
las variables pueden ser numericas (hasta 9 caracteres) o alfabeticas (hasta 255 caracteres).
Dataset IDAMS - el archivo Diccionario. El diccionario se usa para describir los datos:
puede contener hasta 1000 variables identicadas con un n umero unico entre 1 y 9999;
para cada variable, contiene como mnimo el n umero de la variable, su tipo (numerica o alfabetica), su
localizacion en el registro de datos;
para cada variable se puede especicar tambien un nombre de variable, dos c odigos de datos faltantes,
el n umero de cifras decimales y n umero de referencia;
para variables cualitativas se pueden incluir sus c odigos y nombres correspondientes.
El conjunto de los dos archivos Diccionario y Datos se conoce como dataset IDAMS.
Matrices IDAMS. Algunos programas de analisis utilizan como entrada una matriz de valores rectangular
o cuadrada en lugar de un archivo de datos primarios.
La matriz cuadrada se usa para arreglos simetricos de estadsticas bivariadas con una constante en la
diagonal. Solamente se guarda la esquina superior derecha de la matriz, sin la diagonal.
La matriz rectangular es para arreglos no simetricos. El signicado de las y columnas vara seg un el
programa de IDAMS.
1.5. Comandos de IDAMS y el archivo Setup
Excepto los componentes interactivos de WinIDAMS, la ejecuci on de un programa de IDAMS comienza
con un archivo Setup. Contiene informacion tal como especicaci on de archivos, proposiciones de control de
programa, instrucciones de recodicacion de variables, etc. separadas por comandos de IDAMS (comienzan
con un signo $) los cuales identican la clase de informacion que se especica. El primer comando de IDAMS
en el archivo Setup identica siempre el primer programa que se va a ejecutar, por ej.
$RUN TABLES
$FILES
DICTIN = nombre del archivo Diccionario
DATAIN = nombre del archivo Datos
$SETUP
proposiciones de control para el programa TABLES
$RECODE
proposiciones de transformacion de variables
1.6. Caractersticas estandar de IDAMS
Seleccion de casos. Por defecto, en una ejecuci on de un programa de IDAMS se procesan todos los casos
de un archivo Datos. Para escoger un subconjunto, se incluye una proposicion de ltro en el setup, por ej.
INCLUDE V3=1 (incluir solo aquellos casos para los cuales la variable 3 es igual a 1).
6 Introducci on
Seleccion de variables. Las variables son referidas por sus n umeros de variable asignados en el diccionario.
Se especica un conjunto de variables en una lista de variables que sigue a continuacion de palabras clave
tales como VARS, CONVARS, OUTVARS. Tales listas de variables tambien pueden incluir variables R
construidas con la facilidad Recode de IDAMS (ver mas adelante) por ej. VARS=(V3-V6,V129,R100,R101).
Transformaci on/recodicacion de datos. Es una poderosa herramienta de recodicacion que permite
asignar nuevos c odigos y construir nuevas variables. Las instrucciones de recodicacion las escribe el usuario
en el lenguaje Recode de IDAMS. Incluye la posibilidad de hacer c alculos aritmeticos as como tambien
el uso de varias funciones especiales para operaciones tales como agrupamiento de variables, creacion de
variables cticias, etc. Tambien se permiten proposiciones condicionales. Los siguientes son ejemplos de
proposiciones de Recode para construir tres nuevas variables R100, R101, R102:
R100=V4+V5
R101=BRAC(V10,0-15=1,16-60=2,60-98=3,99=9)
IF (MDATA(V3,V4) OR V4 EQ 0) THEN R102=99 ELSE R102=V3*100/V4
Las variables R as construidas para cada caso se pueden usar temporalmente en el programa que se est a eje-
cutando o se pueden guardar en un dataset con el programa TRANS.
Ponderaci on de datos. Cuando se usan procedimentos complejos de muestreo durante la recolecci on de
datos, puede ser necesario usar diferentes ponderaciones de los casos durante el analisis. Tales ponderaciones
se guardan como una variable en el archivo Datos. Se utiliza entonces el par ametro WEIGHT para invocar
la ponderaci on en las proposiciones de control del programa, por ej. WEIGHT=V5.
Tratamiento de datos faltantes y datos malos . Se pueden identicar valores especiales como c odigos
de datos faltantes para cada variable numerica y guardarlos en el diccionario. Durante el procesamiento de
los datos, el manejo de datos faltantes se hace con dos par ametros:
MDVALUES (especica cuales de los c odigos de datos faltantes se usaran para vericar datos faltantes
en las variables numericas);
MDHANDLING (especica que hacer cuando se encuentren datos faltantes).
Normalmente se supone que los datos se han depurado antes del analisis. Si no es este el caso entonces se
dispone del par ametro BADDATA para omitir casos con valores no numericos o con valores en blanco en
campos numericos o para tratar esos valores como datos faltantes.
1.7. Importacion y exportacion de datos
IDAMS no utiliza formatos internos especiales para almacenar los datos. Cualquier archivo de caracteres
ASCII de formato jo puede ser descrito con un diccionario IDAMS y luego ser ledo por IDAMS. Por el
contrario, los datos en formato libre separados con Tab, coma o punto y coma se pueden importar a traves
de la Interfaz del Usuario de WinIDAMS. Aun mas, el programa IMPEX permite crear datos de IDAMS de
formato jo a partir de un archivo de texto en cualquier formato libre o en formato DIF.
Los datos creados por IDAMS son siempre archivos de caracteres de formato jo. Los archivos pueden entrar
directamente a otro programa junto con la informacion descriptiva apropiada para dicho programa. Los
datos en formato libre separados con Tab, coma o punto y coma se pueden obtener a traves de la Interfaz del
Usuario de WinIDAMS. Aun mas, el programa IMPEX permite a exportar un archivo IDAMS de formato
jo como archivo de texto en formato libre o formato DIF.
Las matrices IDAMS se guardan en un formato especco de IDAMS (descrito en el captulo Los datos en
IDAMS). Se puede usar el programa IMPEX para importar/exportar matrices con formato libre.
1.8. Intercambio de datos entre CDS/ISIS e IDAMS
Hay un programa separado, WinIDIS, el cual prepara la descripcion de los datos y hace la transferencia de los
mismos entre IDAMS y CDS/ISIS (programas de UNESCO para el manejo de bases de datos y recuperaci on
de informacion). La transferencia es controlada por los archivos de descripcion de datos de IDAMS e ISIS
1.9 Estructura de este Manual 7
(el diccionario IDAMS y la tabla de denicion de campos de CDS/ISIS). Para ir de ISIS a IDAMS siempre
se construyen nuevos archivos de diccionario y de datos y se pueden intercalar con otros datos usando las
facilidades de manejo de datos de IDAMS. Para ir de IDAMS a ISIS, hay tres posibilidades: (1) se puede
construir una base de datos completamente nueva, (2) se pueden a nadir los registros transferidos a una base
de datos existente como nuevos registros de la base de datos, (3) se pueden actualizar los registros de una
base de datos existente con los datos transferidos.
1.9. Estructura de este Manual
Todas las caractersticas generales de IDAMS, incluida la facilidad Recode, se describen en la Parte 1 de
este Manual.
La Parte 2 incluye las instrucciones de instalaci on, la descripcion de archivos y carpetas usadas en
WinIDAMS, una secci on titulada Primeros pasos la cual lleva al usuario a traves de los pasos requeridos
para hacer una ejecuci on de IDAMS y la descripcion de la Interfaz del Usuario de WinIDAMS.
En las Partes 3 y 4 se dan descripciones detalladas de cada programa IDAMS. Estas documentaciones
contiene las secciones siguientes:
Descripci on general. Una descripci on del prop osito principal del programa.
Caractersticas est andar de IDAMS. Descripcion de las posibilidades de selecci on de casos y de
variables, transformaci on de datos, capacidad de ponderaci on y manejo de datos faltantes.
Resultados. Detalles de los resultados destinados a ser impresos (o revisados en pantalla).
Descripci on de archivos de salida y entrada. Una secci on para cada dataset de IDAMS, cada
matriz y cualquier otro archivo de entrada o salida diferente, que proporciona una descripcion
de su contenido.
Estructura del setup. Una designacion de las deniciones de archivos, comandos de IDAMS y
proposiciones de control necesarias para ejecutar el programa.
Proposiciones de control del programa. Los par ametros y formatos de cada una de las proposi-
ciones de control del programa con un ejemplo para cada tipo.
Restricciones. Un resumen de las limitaciones del programa.
Ejemplos. Ejemplos de conjuntos completos de proposiciones de control para ejecutar el programa.
La Parte 5 suministra una descripcion de los componentes interactivos de IDAMS para la construcci on de
tablas multidimensionales, para la exploraci on graca de los datos y para el analisis de series de tiempo.
En la Parte 6 se pueden encontrar detalles de tecnicas estadsticas, formulas y referencias bibliogracas de
los programas de analisis.
Finalmente, los errores generados por los programas de IDAMS se resumen en el Apendice.
Parte I
Nociones fundamentales
Captulo 2
Los datos en IDAMS
2.1. El dataset IDAMS
2.1.1. Descripcion general
El dataset consiste en dos archivos distintos y asociados: un archivo Datos y un archivo Diccionario que
describe algunos o todos los campos (variables) en los registros de datos. Todos los archivos Diccionario/Datos
que salen de un programa IDAMS son datasets de IDAMS.
2.1.2. Metodo de almacenamiento y acceso
Los archivos Diccionario y Datos se leen y se escriben secuencialmente. De esta manera, se pueden guardar
en cualquier medio de almacenamiento. No hay un archivo especial interno del sistema de IDAMS como
en otros paquetes. Los archivos se encuentran en formato de texto/car acter (ASCII) y se pueden procesar
en cualquier momento con utilitarios generales o editores o pueden entrar directamente a otros paquetes
estadsticos.
2.2. Archivos Datos
2.2.1. El arreglo de datos
Sin importar el formato que tengan los datos en el archivo, estos pueden visualizarse como un arreglo
rectangular de valores de variables, en donde el elemento x
ij
es el valor de la variable representada por la
columna j-esima para el caso representado por la la i-esima. Por ejemplo, los datos de una encuesta se
pueden mostrar de la manera siguiente:
Casos Variables
identificacion educacion sexo edad ...
___________________________________________________________________
caso 1 1300 6 2 31 ... ...
caso 2 1301 2 1 25 ...
. 1302 3 1 55 ...
. . . . . ...
En el ejemplo, cada la representa una persona que responde a una encuesta y cada columna representa una
pregunta del cuestionario.
12 Los datos en IDAMS
2.2.2. Caractersticas del archivo Datos
Este archivo contiene normalmente, pero no necesariamente, registros de longitud ja, ya que el nal del
registro se reconoce con caracteres de alimentacion de retorno. Sin embargo, la longitud del registro mas
largo debe suministrarse en la especicaci on de archivo (ver comando $FILES). No hay lmite para el n umero
de registros del archivo Datos.
La longitud maxima de registro es 4096 caracteres.
Cada caso puede tener mas de un registro (hasta un maximo de 50). Si en una ejecuci on particular de un
programa, se accede a las variables desde mas de un tipo de registro, entonces debe haber exactamente el
mismo n umero de registros para cada caso. El programa MERCHECK puede usarse para crear archivos que
cumplan esta condicion. N otese que cualquier archivo Datos de salida de un programa IDAMS siempre se
reestructura para tener un solo registro por caso.
Si un archivo de datos primarios tiene tipos de registro diferentes y el tipo de registro est a codicado y
no tiene exactamente el mismo n umero de registros por caso, los programas de IDAMS se pueden ejecutar
usando variables de un tipo de registro a la vez, mediante la selecci on de ese tipo de registro al comienzo.
2.2.3. Archivos jerarquicos
IDAMS solo procesa archivos rectangulares como se indico anteriormente. Los archivos jerarquicos se
pueden manejar al almacenar registros de los diferentes niveles en diferentes archivos y despues se usan los
programas AGGREG y MERGE para producir registros compuestos que tengan las variables de los diferentes
niveles. Alternativamente, el archivo jerarquico completo de datos se puede procesar de a un nivel a la vez
mediante el ltrado de registros para ese nivel (siempre que los tipos de registros esten codicados).
2.2.4. Variables
Referencia a variables. Las variables en el archivo Datos se identican con un n umero unico entre 1 y
9999. Este n umero, precedido de una V (por ej. V3) se usa para referirse a una variable en particular en
las instrucciones de control de programa. El n umero de variable se usa para asignar un ndice a un registro
descriptor de variable en el diccionario que suministra el resto de informacion necesaria acerca de la variable
tal como el nombre y su ubicacion dentro del registro de datos.
Tipos de variable. Las variables pueden ser de tipo numerico o alfabetico, ambas almacenadas en modo
de caracteres.
Variables numericas. Estas pueden ser positivas o negativas con las siguientes caractersticas:
Un valor se puede componer de los caracteres numericos 0-9, un punto decimal y un signo (+,-). Se
permiten blancos a la izquierda.
Los valores deben estar justicados a la derecha dentro del campo (es decir, sin blancos a la derecha)
a menos que aparezca un punto decimal.
El ancho maximo de campo es 9 pero solo hasta 7 dgitos signicativos (tomando enteros y decimales)
se retienen en el procesamiento.
Los valores de variable pueden ser enteros (por ej. una variable de edad o una variable categorica
como sexo) o pueden tener decimales (por ej. una variable con valores de porcentajes). El n umero de
decimales (NDEC) se guarda en el registro descriptor de la variable en el diccionario. Normalmente
el punto decimal est a implcito y no aparece en los datos. En este caso NDEC indica el n umero de
dgitos del valor de la variable que se van a tratar como cifras decimales. Si se codica un punto decimal
explcito en los datos, entonces NDEC se utiliza para determinar el n umero de dgitos a retener a la
derecha del punto decimal, con el redondeo necesario del valor, por ej. valores codicados 4.54 y 4.55
con NDEC=1 se usaran como 4.5 y 4.6 respectivamente.
Un signo (si aparece) debe ser el primer car acter, por ej. -0123.
Los campos en blanco se consideran no numericos y se tratan c omo datos malos. Ver mas adelante
c omo tratar los blancos en los datos que indican datos inaplicables y faltantes.
2.2 Archivos Datos 13
Con excepcion de BUILD, todos los programas de IDAMS aceptan valores en notaci on exponencial,
por ej. el valor codicado como .215E02 se usera como 21.5.
Variables alfabeticas. Se pueden guardar variables alfabeticas en los archivos Datos y pueden tener hasta
255 caracteres de longitud. Pueden usarse en los programas de manejo de datos. Las variables alfabeticas
de 1-4 caracteres pueden usarse tambien en ltros. Para usarlas en los programas de analisis deben ser
recodicadas a valores numericos. Esto se puede hacer con la funci on BRAC de Recode.
2.2.5. Codigos de datos faltantes
El valor de una variable para un caso en particular puede ser desconocido por muchas razones, por ejemplo
una pregunta puede ser inaplicable a ciertos encuestados o uno de ellos puede rehusarse a contestar la
pregunta. Se pueden establecer c odigos especiales para datos faltantes en cada variable numerica y se pueden
codicar en los datos cuando se necesiten. Se permiten dos codigos de datos faltantes: MD1 y MD2. En caso
de usarlos, cualquier valor en los datos igual a MD1 se considerar a dato faltante; cualquier valor mayor
o igual que MD2 (si MD2 es positivo o cero) o menor o igual que MD2 (si MD2 es negativo) tambien se
considerar a dato faltante.
Estos c odigos de datos faltantes se guardan en el registro de diccionario de la variable. Igual que para valores
de datos, pueden ser enteros o decimales con punto decimal implcito o explcito. Si se especica MD1 o
MD2 con punto decimal implcito, NDEC da el n umero de dgitos a tratar como cifras decimales. Si se ha
codicado un punto decimal en MD1 o MD2, entonces NDEC determina el n umero de dgitos a la derecha
del punto decimal que deben retenerse, y el valor se redondea apropiadamente.
Cuando los c odigos MD1 y MD2 de una variable est an en blanco en el diccionario, signica que no hay
c odigos especiales numericos de datos faltantes. Durante una ejecuci on de un programa IDAMS, los c odigos
MD1 y MD2 del diccionario que esten en blanco se convierten a c odigos de datos faltantes por defecto con
valores de 1,5 10
9
y 1,6 10
9
respectivamente.
Como los c odigos de datos faltantes est an limitados a un m aximo de 7 dgitos (o 6 dgitos y un signo
negativo), pueden presentar problemas para variables de 8 y 9 dgitos. El usuario debe considerar el uso de
un primer c odigo negativo de datos faltantes en este caso.
2.2.6. Valores no numericos o en blanco en variables numericas - datos malos
En los programas de manejo de datos de IDAMS, estos simplemente se copian de un lado a otro y no
se lleva a cabo una conversi on a modo computacional (binario); en este caso no se verica si las variables
numericas tienen valores numericos. Sin embargo, cuando las variables se usan para analisis o en operaciones
de Recode, entonces sus valores se convierten a modo binario y los valores con caracteres no numericos
causaran problemas. Normalmente, se deben limpiar esos caracteres de los datos antes del analisis. Ademas,
valores en blanco en variables numericas no se tratan autom aticamente como datos faltantes; se consideran
tambien como no numericos o datos malos.
Para permitir el analisis de datos con limpieza incompleta y para el manejo de campos en blanco no recod-
icados, se puede usar el par ametro BADDATA para tratar los blancos y otros valores no numericos como
faltantes y de esta manera tener la posibilidad de eliminarlos del analisis. La especicaci on del par ametro
BADDATA=MD1 o BADDATA=MD2 resulta en la conversi on de valores malos a los c odigos MD1 o MD2
de la variable. Si los c odigos MD1 o MD2 est an en blanco, entonces los valores malos se convierten a los c odi-
gos de datos faltantes correspondientes por defecto (ver arriba) y entonces se tratan como valores faltantes
(ver tambien la descripcion del par ametro BADDATA en el captulo El archivo Setup de IDAMS).
2.2.7. Las reglas de edicion de las variables en salida de programas IDAMS
Los programas IDAMS crean siempre un archivo Datos y un diccionario correspondiente, es decir un dataset
IDAMS.
El archivo Datos contiene un registro para cada caso. La longitud del registro es la suma de los anchos de
campo de todas las variables de salida y es determinada por el programa.
Los valores de las variables numericas se editan de acuerdo con una forma est andar que se describe a
continuacion.
Si la totalidad del campo contiene unicamente los caracteres numericos 0-9, estos se envan a la salida
tal como aparecen en el archivo de entrada.
Si el campo contiene un n umero precedido por blancos (por ej. 5), los blancos se convierten a ceros
antes de la salida de los datos. Los campos con los blancos a la derecha (por ej. 04 en un campo
numerico de tres dgitos), los blancos entre digitos (por ej. 0 4) y solo los blancos, se tratan seg un la
especicaci on de BADDATA.
Si el campo contiene un valor positivo o negativo con los caracteres + y - dados explcitamente,
el signo positivo se elimina y el signo negativo se pone antes del primer dgito numerico signicativo.
Si el campo contiene un n umero con un punto decimal explcito, se elimina el punto decimal y se
produce un valor con el mismo tama no del campo de entrada y n cifras decimales tal como se hayan
denido en el campo NDEC de la descripcion de la variable. Los blancos a la izquierda en el campo
se convierten a ceros. Si en el campo de entrada se encuentran mas de n dgitos despues del punto
decimal, el valor se redondea a n cifras decimales y se enva a la salida (por ej. si n=2 el valor de salida
de 2.146 sera 215; si n=0, el valor de salida para 1.5 sera 002). Los blancos a la derecha no causan
condicion de error. Si se encuentran menos de n dgitos, se insertan ceros a la derecha en los lugares
de los decimales faltantes.
Los valores demasiado grandes para entrar en el campo asignado son tratados seg un la especicaci on
de BADDATA.
Los valores de las variables alfabeticas no se editan y son los mismos en la entrada y en la salida.
2.3. El diccionario IDAMS
El diccionario se usa para describir las variables en los datos. Para cada variable, este debe contener como
mnimo el n umero de la variable, su tipo y su localizacion dentro del registro de datos. Adicionalmente se
puede suministrar un nombre de variable, dos c odigos de datos faltantes, el n umero de cifras decimales y un
n umero o nombre de referencia. La informacion se guarda en registros descriptores de variables conocidos
a veces como registros T. Registros opcionales C para variables categoricas dan nombres a los diferentes
c odigos posibles. El primer registro del diccionario, el registro descriptor del diccionario, identica el tipo
de diccionario, da los n umeros de la primera y de la ultima variable usados en el diccionario y especica el
n umero de registros de datos que hacen un caso.
El diccionario original lo prepara el usuario para describir los datos primarios. Los programas de IDAMS
que construyen datasets siempre producen nuevos diccionarios que reejan el nuevo formato de los datos.
Los registros del diccionario se guardan como registros de formato jo de longitud de 80 caracteres.
A continuacion se ofrece una descripcion detallada de cada tipo de registro de diccionario.
Registro descriptor de diccionario. Es siempre el primer registro del diccionario.
Columnas Contenido
4 3 (indica el tipo de diccionario).
5-8 N umero de la primera variable (justicado a la derecha).
9-12 N umero de la ultima variable (justicado a la derecha).
13-16 N umero de registros por caso (justicado a la derecha).
20 Forma en la cual se ha especicado la localizacion de variables (columnas 32-39) en los registros
descriptores de variable.
Blanco N umero de registro y columnas inicial y nal. La longitud de registro debe ser 80
para usar este formato si el n umero de registros por caso es > 1.
1 Posicion inicial y ancho de campo.
2.3 El diccionario IDAMS 15
Registros descriptores de variables (registros T). El diccionario tiene un registro de estos por cada
variable. Estos registros est an arreglados en orden ascendente por n umero de variable. Los n umeros de
variables no necesitan ser contiguos. El n umero maximo de variables es 1000.
Columnas Contenido
1 T
2-5 N umero de variable.
7-30 Nombre de variable.
32-39 Localizacion; de acuerdo con la columna 20 del registro descriptor de diccionario.
o bien
32-33 N umero secuencial de registro con la columna inicial de la variable.
34-35 N umero de columna inicial.
36-37 N umero secuencial de registro con la columna nal de la variable.
38-39 N umero de columna nal.
o
32-35 Posicion inicial de la variable dentro del caso.
36-39 Ancho de campo (1-9 para las variables numericas y 1-255 para las variables al-
fabeticas).
40 N umero de cifras decimales (solo variables numericas).
Blanco implica que no hay cifras decimales.
41 Tipo de variable.
Blanco Numerica.
1 Alfabetica.
45-51 Primer c odigo de datos faltantes para variables numericas (o blancos si no hay primer c odigo de
datos faltantes).
Justicado a la derecha.
52-58 Segundo c odigo de datos faltantes para variables numericas (o blancos si no hay segundo c odigo
de datos faltantes).
Justicado a la derecha.
59-62 N umero de referencia (opcional - se puede usar para alguna referencia alfanumerica inmodicable
para la variable, por ej. el n umero original de la variable o una referencia a la pregunta).
73-75 Identicador de estudio (opcional - se puede usar para identicar el estudio al cual pertenece este
diccionario).
Nota 1: cuando se usan n umero de registro y de columna para identicar la localizacion de la variable, los
listados de registros de diccionario no muestran el n umero de registro y de columna tal como aparecen en
el registro del diccionario. En cambio, la localizacion de la variable se traslada y se imprime en el formato
de posicion inicial/ancho. Por ejemplo, para una variable en las columnas 22-24 del tercer registro de un
archivo de registros m ultiples por caso (longitud de registro 80), la posicion inicial sera 182 (2 * 80 + 22) y
el ancho 3.
Nota 2: si hay mas de un registro por caso y la longitud de registro no es 80, entonces la notaci on de posicion
inicial y ancho de campo debe usarse en los registros T. La posicion inicial se cuenta a partir del comienzo
del primer registro. Por ejemplo, para registros de longitud 121, la posicion inicial de un campo en la posicion
11 del segundo registro de un caso sera 132.
Registros de nombres de c odigos (registros C). El diccionario puede contener estos registros opcional-
mente para cualquiera de las variables. Van inmediatamente a continuacion del registro T para la variable
a la cual aplican y suministran c odigos y nombres para diferentes valores posibles de la variable. Los usan
programas tales como TABLES para imprimir nombre de las y columnas junto con los c odigos correspondi-
entes. Tambien pueden usarse como la especicaci on de c odigos validos para una variable durante la entrada
de datos con la Interfaz del Usuario de WinIDAMS y para la validaci on de datos con el programa CHECK.
Columnas Contenido
1 C
2-5 N umero de variable.
6-9 N umero de referencia (opcional - se puede usar para alguna referencia inmodicable para la
variable, por ej. el n umero original de la variable o una referencia a la pregunta).
15-19 Valor del c odigo justicado a la izquierda.
22-72 Nombre para este c odigo. (Nota: los programas de analisis solo usan los primeros 8 caracteres e
imprimen nombres de c odigos aunque el nombre completo aparecer a en el listado del diccionario).
73-75 Identicador de estudio (opcional).
2.3.2. Ejemplo de un diccionario
Columnas: 1 2 3 4 5 6...
123456789012345678901234567890123456789012345678901234567890...
3 1 20 1 1
T 1 Identificacion 1 5
T 2 Edad 6 2 99
T 3 Sexo 8 1
C 3 1 Mujer
C 3 2 Hombre
T 11 Regi on 16 1
C 11 1 Norte
C 11 2 Sur
C 11 3 Este
C 11 4 Oeste
T 12 Calificacion promedio 17 31 000 900
T 20 Nombre 31 30 1
Este es un diccionario que describe 6 campos en un registro de datos como se ven esquem aticamente a
continuacion.
1-5 6-7 8 16 17-19 31-60
V1 V2 V3 V11 V12 V20
ID Edad Sexo Region Calif. Nombre
Las localizaciones de variables se expresan en terminos de posicion inicial y ancho de campo (1 en la columna
20 del registro descriptor de diccionario) y hay un registro por caso (1 en la columna 16). Hay una cifra
decimal implcita en la variable de calicacion promedio (V12). La variable edad tiene c odigo 99 para datos
faltantes. Para la calicacion promedio, los ceros signican datos faltantes as como todos los valores mayores
o iguales a 90.0. El nombre de cada encuestado (V20) se graba como una variable de tipo alfabetico (tipo 1)
de 30 caracteres. N otese que los n umeros de variable no necesitan ser contiguos y que no se requiere describir
todos los campos en los datos.
2.4. Matrices IDAMS
Hay dos tipos de matrices IDAMS: cuadradas y rectangulares. Ambos tipos se describen por s mismos, pero
contrariamente al dataset IDAMS, el diccionario se guarda en el mismo archivo de los valores del arreglo.
En general, estas matrices se crean con un programa IDAMS para ser usadas como entrada a otro programa
y el usuario no tiene que estar familiarizado con el formato. Sin embargo, si es necesario preparar una matriz
de correlaci on, una matriz de conguracion, etc. a mano, entonces se deben observar los formatos descritos
mas adelante.
Sin importar el tipo, todos los registros son de longitud ja de 80 caracteres.
2.4 Matrices IDAMS 17
2.4.1. La matriz cuadrada IDAMS
La matriz cuadrada se puede usar solamente para un arreglo cuadrado y simetrico. S olo se guardan los
valores del triangulo superior derecho, sin la diagonal. Un arreglo para una correlaci on de Pearson se guarda
satisfactoriamente en esta forma.
Programas que leen/producen matrices cuadradas. PEARSON produce matrices cuadradas de cor-
relacion y covariancia; REGRESSN produce matrices de correlaci on cuadradas; TABLES produce matrices
cuadradas de medidas de asociaci on bivariadas. Estas matrices son la entrada apropiada para otros progra-
mas, por ej. la matriz de correlaci on que sale de PEARSON puede entrar a REGRESSN y a CLUSFIND.
Adamas, CLUSFIND y MDSCAL leen las matrices cuadradas de similitudes o disimilitudes.
Ejemplo.
Columnas: 111111111122222222223...
123456789012345678901234567890...
Descriptor de matriz 2 4
Formatos | #F (12F6.3)
| #F (6E12.5)
Identificacion de | #T 1 EDAD
variables | #T 3 EDUCACION
| #T 9 RELIGION
| #T 10 SEXO
Arreglo de valores | -.011 -.174 -.033
| .131 -.105
| -.133
Medias y | 0.33350E 01 0.54950E 01 0.50251E 01 0.40960E 01
desviaciones est andar | 0.20010E 01 0.19856E 01 0.15000E 01 0.12345E 01
Formato. La matriz cuadrada contiene lo siguiente:
1. Un registro descriptor de la matriz. Este, el primer registro, da el tipo de matriz y las dimensiones del
arreglo de valores.
Columnas Contenido
4 2 (indica matriz cuadrada).
5-8 N umero de variables (justicado a la derecha).
2. Una proposicion de formato Fortran que describe cada la del arreglo de valores. La proposicion de
formato describe el n umero de campos por registros de 80 caracteres y el formato de cada uno. Por
ejemplo, un formato de (12F6.3) indica que cada la del arreglo se graba hasta con 12 valores por
registro, cada valor ocupa 6 columnas 3 de las cuales son decimales. Si una la contiene mas de 12
valores, el valor 13 quedara en el siguiente registro, etc. Cada nueva la del arreglo siempre comienza
en un nuevo registro.
Columnas Contenido
1-2 #F
3-80 Proposicion de formato, entre parentesis.
3. Una proposicion de formato Fortran que describe los vectores de medias y desviaciones est andar de
variables. La proposicion de formato describe el n umero de valores por registro y el formato de cada
uno.
Columnas Contenido
1-2 #F
3-80 Proposicion de formato, entre parentesis.
4. Registros de identicacion de variables. Son n registros, donde n es el n umero de variables especicadas
en el registro descriptor de matriz. El orden de estos registros corresponde al orden de las variables
que asignan ndices a las las (y columnas) del arreglo de valores. Cuando una matriz es creada por un
programa IDAMS, los n umeros de variable y los nombres de las mismas se retienen del dataset IDAMS
del cual se generaron las estadsticas.
Columnas Contenido
1-2 #T or #R (indica identicacion de variable para una la de la matriz).
3-6 N umero de variable (justicado a la derecha).
8-31 Nombre de variable.
Las cuatro secciones anteriores de la matriz se llaman el diccionario de la matriz. En seguida del
diccionario de la matriz est a el arreglo de valores.
5. El arreglo de valores. Como el arreglo es simetrico y tiene celdas diagonales que contienen una constante
(por. ej. una correlaci on de 1.0 para una variable correlacionada consigo misma), solo se guarda el
angulo superior derecho sin la diagonal. N otese que para una matriz de covariancia los elementos de la
diagonal pueden calcularse utilizando las desviaciones est andar que est an includas en el archivo de la
matriz (ver secci on 7 mas adelante). En el ejemplo anterior de la matriz de 4 variables, el arreglo total
(antes de entrar en el formato de matriz cuadrada) sera as:
vars 1 3 9 10
1 1.000 -.011 -.174 -.033
3 -.011 1.000 .131 -.105
9 -.174 .131 1.000 -.133
10 -.033 -.105 -.133 1.000
La porcion del arreglo que se guarda es:
vars 1 3 9 10
1 -.011 -.174 -.033
3 .131 -.105
9 -.133
10
Cada la de este arreglo reducido da comienzo a un nuevo registro y se escribe de acuerdo con el
formato especicado en el diccionario de la matriz (ver arriba).
6. Un vector de medias de variables. Los n valores se graban de acuerdo con la proposicion de formato
en el diccionario de la matriz.
7. Un vector de desviaciones est andar de variables. Los n valores se graban de acuerdo con la proposicion
de formato en el diccionario de la matriz.
2.4.2. La matriz rectangular IDAMS
La matriz rectangular diere de la matriz cuadrada en que el arreglo de valores puede ser cuadrado (y no
simetrico) o rectangular. M as a un, como las variables no asignan ndices a las las de algunos arreglos, por
ej. una tabla de frecuencias, la matriz rectangular puede o no puede contener registros de identicacion de
variables; la matriz rectangular no contiene ni medias ni desviaciones est andar de variables.
Programas que leen/producen matrices rectangulares. Estas matrices son creadas por los progra-
mas CONFIG, MDSCAL, TABLES y TYPOL. Son apropiadas para como entrada a CONFIG, MDSCAL,
TYPOL.
2.4 Matrices IDAMS 19
Ejemplo.
Columnas: 111111111122222222223...
123456789012345678901234567890...
Descriptor de matriz 3 4 3
Formatos #F (l6F5.0)
Identificacion de | #T 2 CI
variables | #T 5 EDUCACION
| #T 8 MOVILIDAD
| #T 12 RIVALIDAD ENTRE HERMANOS
Arreglo de valores | 59 20 10
| 37 15 2
| 50 40 7
| 8 26 31
Formato. La matriz rectangular continene lo siguiente:
1. Un registro descriptor de la matriz.
Columnas Contenido
4 3 (indica matriz rectangular)
5-8 El n umero de las (justicado a la derecha).
9-12 El n umero de columnas (justicado a la derecha).
16 N umero de registros de proposiciones de formato (#F). (Blanco implica 1).
20 Presencia de nombres de las y columnas:
blanco/0 S olo hay nombres de la (registros #R o #T).
1 S olo hay nombres de columna (registros #C).
2 Hay nombres de las y columnas (registros #R o #T, y #C).
3 No hay nombres de las ni de columnas.
21-40 Nombre de variable de la (opcional).
41-60 Nombre de variable de columna (opcional).
61-80 Descripcion de contenido de la matriz (opcional):
Frequencies/weighted (frecuencias/ponderadas)
Frequencies/unwtd (frecuencias/sin ponderar)
Percentages/row (porcentajes de la)
Percentages/column (porcentajes de columna)
Percentages/total (porcentajes de total de la tabla)
Nombre de la variable par la cual las medias est an includas en la matriz.
2. Una proposicion de formato Fortran que describe cada la del arreglo de valores. El formato describe
un registro de 80 caracteres. Por ejemplo, un formato de (16F5.0) indica que cada la del arreglo se
graba hasta con 16 valores por registro y cada valor ocupa 5 columnas sin ninguna cifra decimal.
Columnas Contenido
1-2 #F
3-80 La proposicion de formato, entre parentesis.
3. Registros de identicacion de variables. El orden de estos registros corresponde al orden de las vari-
ables/los c odigos que asignan ndeces a las las y columnas de la matriz. Cuando un programa de
IDAMS crea una matriz rectangular, los n umeros y nombres de las variables/los c odigos se retienen
del dataset o matriz de entrada del cual o de la cual se derivo el arreglo de valores.
Columnas Contenido
1-2 #T o #R para nombres de las, #C para nombres de columnas.
3-6 N umero de variable o valor de c odigo (justicado a la derecha).
Los c odigos con longitud mayor que 4, se reemplazan con ****.
8-31 Nombre de variable o nombre de c odigo.
Las tres secciones anteriores de la matriz se llaman el diccionario de la matriz. A continuacion del
diccionario de la matriz est a el arreglo de valores.
4. El arreglo de valores. Se guarda todo el arreglo. Cada la del arreglo da comienzo a un nuevo registro
y se escribe de acuerdo con el formato especicado en el diccionario de la matriz.
2.5. Uso de datos de otros paquetes
2.5.1. Datos primarios
Cada archivo en la forma de registros de formato jo en modo de caracteres (ASCII) puede usarse directa-
mente para los programas de IDAMS. Casi todos los paquetes de bases de datos y estadsticos tienen una
funci on de exportar o convertir para producir archivos de datos de caracteres en formato jo. Debe
prepararse entonces un diccionario IDAMS para describir los campos requeridos en los datos.
Un archivo de formato libre con Tab, coma o punto y coma como delimitador se puede importar directamente
utilizando la Interfaz del Usuario de WinIDAMS. Ver el captulo Interfaz del Usuario para mas detalles.
Los archivos de texto en formato libre (se puede utilizar para separar cualquier caracter, incluso blancos) y
en formato DIF se pueden importar usando el programa IMPEX.
Los datos almacenados en una base de datos CDS/ISIS se pueden importar con un programa WinIDIS.
2.5.2. Matrices
Se puede usar el programa IMPEX para importar matrices en formato libre. Ademas, las matrices producidas
fuera de IDAMS, por ejemplo una matriz en una publicacion, pueden entrar de acuerdo con el formato descrito
en la secci on Matrices IDAMS.
Captulo 3
El archivo Setup de IDAMS
3.1. Contenido y proposito
Para ejecutar los programas IDAMS el usuario prepara un archivo especial llamado archivo Setup, el cual
controla la ejecuci on de los programas. El archivo Setup contiene comandos de IDAMS e instrucciones que
especican lo que se requiere, tales como que programa se va a ejecutar, nombres de archivos, opciones a
escoger del programa e instrucciones de transformaci on de variables; por. ej.
$RUN nombre de programa
$FILES
especificacion de archivos
$SETUP
proposiciones de control del programa
$RECODE
proposiciones de Recode
3.2. Comandos de IDAMS
Estos comandos, los cuales comienzan con $, separan las diferentes clases de informacion que se suminsitran
a una ejecuci on de un programa de IDAMS. Los comandos disponibles son:
$RUN programa (nombre del programa a ejecutar)
$FILES [RESET] (se nala el comienzo de especicaci on de archivos)
$RECODE (se nala el comienzo de las proposiciones de Recode)
$SETUP (se nala el comienzo de las proposiciones de control de programa)
$DICT (se nala el comienzo del diccionario)
$DATA (se nala el comienzo de los datos)
$MATRIX (se nala el comienzo de una matriz)
$PRINT (activa/desactiva el interruptor de impresion)
$COMMENT [texto] (comentarios)
$CHECK [n] (verica si el paso previo termino satisfactoriamente).
La primera lnea en un archivo Setup debe ser siempre un comando $RUN que identica el programa IDAMS
a ejecutar. Otros comandos relacionados con la ejecuci on de este programa (seguidos de las proposiciones de
control asociadas o de datos) se pueden colocar en cualquier orden. Estos se siguen con un comando $RUN
para ejecutar el siguiente programa (si lo hay) y as sucesivamente.
Los comandos individuales de IDAMS se describen a continuacion en orden alfabetico.
$CHECK [n]. Cuando este comando est a presente, el programa no se ejecutara si el programa inmediata-
mente precedente termino con un c odigo de condicion mayor que n. Si el comando est a presente pero no se
ha suministrado ning un valor, n toma 1 por defecto.
22 El archivo Setup de IDAMS
Todos los programas de IDAMS terminan con un c odigo de condicion de 16 si se encuentran errores de
setup. Por ejemplo, si TABLES se va a ejecutar inmediatamente despues de TRANS pero el usuario
no quiere ejecutar TABLES si se presenta un error en la ejecuci on de TRANS, un comando $CHECK
despues del comando $RUN TABLES va a impedir la ejecuci on de TABLES.
El comando $CHECK puede aparecer en cualquier parte dentro del setup del programa pero por lo
general se coloca inmediatamente despues del comando $RUN.
$COMMENT texto. El texto en este comando se imprime en el listado del setup. Este comando no
tiene efecto en la ejecuci on del programa.
$DATA. El comando $DATA se nala que vienen los datos.
No se puede usar si el programa genera un archivo Datos de salida y no se ha especicado el archivo
DATAOUT, es decir que los datos de salida van a un archivo temporal por defecto.
No se puede usar si se usa el comando $MATRIX.
La longitud del registro de los datos en el setup no puede exceder de 80 caracteres. Si entran registros,
o lneas mas largas, solo se usaran los primeros 80 caracteres.
El comando $DATA desactiva el interruptor de impresion. As, a menos de que un comando $PRINT
venga inmediatamente despues del comando $DATA, los datos no se imprimen.
$DICT. El comando $DICT se nala que viene un diccionario IDAMS.
No se puede usar si el programa genera un archivo Diccionario de salida y no se ha especicado el
archivo DICTOUT, es decir si el diccionario sale a un archivo temporal por defecto.
El comando $DICT desactiva el interruptor de impresion. As, a menos de que un comando $PRINT
venga inmediatamente despues del comando $DICT, el diccionario no se imprime.
$FILES [RESET]. Se nala el comienzo de especicaci on de archivos. Al comienzo de la ejecuci on de los
programas de IDAMS se colocan nombres por defecto a cada archivo, con el uso de un archivo especial
idams.def. Cualquiera de estos nombres por defecto, se puede cambiar con proposiciones de especicaci on
de archivo introducidas despues del comando $FILES (ver Especicaci on de archivos mas adelante). Para
obtener nuevamente los nombres por defecto para archivos Fortran FT (excepto FT06 y FT50), use el
comando FILES RESET.
$MATRIX. El comando $MATRIX se nala que viene una matriz o una serie de matrices.
No se puede usar si se usa $DATA.
El comando $MATRIX desactiva el interruptor de impresion. As, a menos que un comando $PRINT
venga inmediatamente despues del comando $MATRIX, la matriz no se imprime.
$PRINT. Se invierte el interruptor de impresion; si estaba activado, $PRINT lo desactiva; si estaba de-
sactivado, $PRINT lo activa. Si la impresion estaba activada, las lneas del archvo Setup se imprimen como
una parte de los resultados.
Cuando se encuentra un comando $RUN, el interruptor de impresion siempre se activa. Los comandos
$DICT, $DATA y $MATRIX desactivan autom aticamente el interruptor de impresion.
$RECODE. La presencia de este comando se nala que se va a usar la facilidad Recode de IDAMS. La
facilidad Recode de IDAMS se describe en el captulo La facilidad Recode de este manual.
Las proposiciones de Recode normalmente siguen a continuacion del comando $RECODE. Si un nuevo
comando de IDAMS sigue inmediatamente despues de un comando $RECODE, se usan las proposi-
ciones Recode del setup del programa precedente.
3.3 Especicacion de archivos 23
$RUN programa. $RUN especica el programa que se va a ejecutar y siempre es la primera proposicion
en el setup.
programa es el nombre del programa de 1-8 caracteres.
Todos los comandos y proposiciones que van a continuacion del comando $RUN y van hasta el siguiente
comando $RUN se aplican al programa nombrado.
El interruptor de impresion se activa cuando se encuentra un comando $RUN. Ver la descripcion de
$PRINT.
$SETUP. El comando $SETUP se nala el comienzo de las proposiciones de control del programa, es decir
el ltro, ttulo, proposicion de par ametros, etc. (ver mas adelante).
Se requiere el comando $SETUP aun cuando haya proposiciones de control de programa imediatamente
despues del comando $RUN.
3.3. Especicacion de archivos
Los nombres de los archivos a usar se dan despues del comando $FILES y toman el formato siguiente:
ddname=nombre de archivo [RECL=longitud maxima de registro]
donde:
ddname es el nombre de la referencia de archivo usado interiormente para los programas, por ej.
DICTIN. Los archivos requeridos y los correspondientes ddnames para un programa en particular se
dan en la documentacion del programa en la secci on titulada Estructura del setup.
nombre de archivo es el nombre del archivo fsico. Encierre el nombre entre comillas sencillas si este
tiene blancos. Ver la secci on Carpetas en WinIDAMS para explicaciones adicionales.
RECL debe usarse si el primer registro del archivo Datos no es el mas largo. Si no se ha especicado
RECL la longitud de registro se toma como la longitud del primer registro. Si un registro posterior es
mas largo, se presenta un error de entrada.
Ejemplos:
DATAIN = A:ECON.DAT RECL=92
PRINT = RSLTS.LST
FT02 = ECON.MAT
DICTIN = \\nec0102\commondata\econ.dic
Referirse a la secci on Personalizacion del ambiente para una aplicacion en el captulo Interfaz del Usuario
para una descripcion adicional.
3.4. Ejemplos de uso de comandos $ y especicacion de archivos
Ejemplo A. Hacer m ultiples ejecuciones de un programa de analisis, por ej. ONEWAY con los mismos
datos pero, por ejemplo, con ltros diferentes.
$RUN ONEWAY
$FILES
DICTIN = CHEESE.DIC
DATAIN = CHEESE.DAT
$RUN ONEWAY
$SETUP
Filtro 1
Otras proposiciones de control para ONEWAY
$RUN ONEWAY
$SETUP
Filtro 2
Otras proposiciones de control para ONEWAY
Ejemplo B. Ejecutar TABLES y ONEWAY usando el mismo diccionario y los mismos datos para cada
programa y con el mismo Recode; no imprimir las proposiciones de Recode.
$RUN TABLES
$FILES
DICTIN = ABC.DIC
DATAIN = ABC.DAT RECL=232
$SETUP
Proposiciones de control para TABLES
$RECODE
$PRINT
Proposiciones de Recode
$RUN ONEWAY
$SETUP
Proposiciones de control para ONEWAY
$RECODE
$COMMENT EL RECODE DE ENTRADA PARA TABLES SE USARA EN ONEWAY
Ejemplo C. Ejecutar TABLES usando Recode de IDAMS, diccionario en el setup, datos en disco. Imprimir
el diccionario de entrada.
$RUN TABLES
$FILES
DATAIN = A:MYDATA.DAT
$RECODE
$SETUP
Proposiciones de control para TABLES
$DICT
$PRINT
Diccionario
Ejemplo D. Usar los datos de salida de un programa de manejo de datos como entrada a los programas de
analisis sin retener el archivo de salida, por ej. ejecutar TRANS seguido de TABLES usando los datos de
salida de TRANS mediante la especicaci on del par ametro INFILE=OUT. TABLES no se ejecuta si TRANS
tiene errores en las proposiciones de control.
$RUN TRANS
$FILES
DICTIN = MY.DIC
DATAIN = MY.DAT
$SETUP
Proposiciones de control para TRANS
$RECODE
$RUN TABLES
$CHECK
$SETUP
Proposiones de control para TABLES, includo el par ametro INFILE=OUT
3.5 Proposiciones de control de programa 25
3.5. Proposiciones de control de programa
Las proposiciones de control de la ejecuci on de programa (van a continuacion del comando $SETUP), se
usan para especicar los par ametros del programa a ejecutar. Hay tres proposiciones de control est andar que
usan todos los programas:
1. la proposicion opcional de ltro para seleccionar los casos a usar del archivo de datos,
2. la proposicion mandatoria de ttulo que asigna un ttulo a la ejecuci on,
3. una proposicion mandatoria de par ametros que selecciona las opciones para el programa; algunas
opciones de programa son est andar en muchos programas, otras son especcas de cada uno.
Proposiciones de control adicionales requeridas en programas individuales se describen en la documentacion
del programa.
3.5.2. Reglas generales de codicacion
Las proposiciones de control entran en lneas de hasta 255 caracteres de longitud.
Las lneas se pueden continuar si se coloca un gui on al nal de la lnea y se sigue en la siguiente.
La longitud maxima de la informacion que puede entrar en una proposicion de control es 1024 carac-
teres, excludos los caracteres de continuacion.
Las letras min usculas, con excepci on de las que se encuentren en cadenas entre comillas sencillas, se
convierten a letras may usculas.
Si se incluyen cadenas de caracteres entre comillas sencillas en una proposicion de control, estas deben
continuar en una lnea.
3.5.3. Filtros
Proposito. Una proposicion de ltro se usa para seleccionar un subconjunto de casos. Una proposicion
de ltro se expresa en terminos de variables y de los valores tomados por esas variables. Por ejemplo, si la
variable V5 indica sexo del encuestado en una encuesta y el c odigo 1 representa mujer, entonces INCLUDE
V5=1 es una proposicion de ltro que especica encuestados femeninos como el subconjunto deseado de
casos.
El ltro principal selecciona casos de un archivo Datos de entrada y se aplica en toda la ejecuci on de
un programa. Estos ltros est an disponibles en todos los programas de IDAMS que cargan un diccionario
(excepto BUILD y SORMER). Algunos programas permiten subdivisi on adicional. Tales ltros locales se
aplican solamente a una accion especca del programa, por ej. una tabla de frecuencias.
Ejemplos.
1. INCLUDE V2=1-5 AND V7=23,27,35 AND V8=1,2,3,6
2. EXCLUDE V10=2-3,6,8-9 AND V30=<5 OR -
V91=25
3. INCLUDE V50=FRAN,UK,MORO,INDI
Colocaci on. Si se usa un ltro principal, es siempre la primera proposicion de control de programa. La
documentacion de cada programa indica si se pueden usar ltros locales tambien.
Reglas de codicacion.
La proposicion de ltro comienza con las palabras INCLUDE o EXCLUDE. Seg un la palabra usada,
la proposicion de ltro dene el subconjunto de casos a usar (INCLUDE) o ignorar (EXCLUDE) por
el programa.
Una proposicion puede contener un maximo de 15 expresiones. Una expresion consiste en un n umero
de variable, un signo igual y una lista de posibles valores. Esta lista puede tener valores individuales
y/o rangos de los mismos separados con comas, por ej. V2=1,5-9. Los rangos con extremos abiertos
se indican con < o >, por ej. INCLUDE V1=0,3-5,>10; sin embargo la variable siempre debe estar
seguida de un signo = para comenzar, por ej. V1>0 debe expresarse como V1=>0 y V1<0 como
V1=<0.
Las expresiones se conectan con las conjunciones AND y OR.
AND indica que debe hallarse un valor de cada una de las series de expresiones conectadas con
AND.
OR indica que debe hallarse un valor por lo menos de una de las series de expresiones conectadas
con OR.
Las expresiones conectadas con AND se eval uan antes de las expresiones conectadas con OR. Por ejem-
plo, expresion-1 OR expresion-2 AND expresion-3 se interpreta como expresion-1 OR (expresion-2
AND expresion-3). As, para que un caso este en el subconjunto denido por estas expresiones, debe
presentarse un valor de expresion-1 o valores de expresion-2 y expresion-3 o bien debe presentarse un
valor de cada una de las tres expresiones.
No se pueden usar parentesis en la proposicion de ltro para indicar precedencia de evaluacion de
expresiones.
Las variables pueden aparecer en cualquier orden y en mas de una expresion. Sin embargo, n otese que
V1=1 OR V1=2 es equivalente a la expresion sencilla V1=1,2. N otese tambien que V1=1 AND
V1=2 es una condicion imposible ya que un caso no puede tener ambos valores 1 y 2 para la
variable V1.
Una proposicion de ltro puede terminar opcionalmente con un asterisco.
Las variables en un ltro.
Se pueden usar variables de caracteres de tipo numerico y alfabetico.
No se permiten variables R en ltros principales. Se permiten en ltros especicos de analisis o
en ltros locales. N otese que la proposicion REJECT de Recode se puede usar para utilizar las
variables R para ltrar casos.
Los valores en un ltro para variables numericas.
Los valores numericos pueden ser enteros o decimales, positivos o negativos, por ej. 1, 2.4, -10.
Los valores se expresan en forma sencilla o en rangos y se separan con comas, por ej. 1-5, 8, 12-13.
Para variables numericas de ltro, los valores en el archivo de datos se convierten primero a
modo binario real con el n umero correcto de cifras decimales del diccionario y despues se hace
la comparaci on numericamente con el valor en el ltro. N otese que esto signica que para una
variable con decimales, los valores de ltro se deben suministrar con el punto decimal en el lugar
correcto, por ej. V2=2.5-2.8.
Los casos con valores no numericos en una variable de ltro siempre se excluyen de la ejecuci on.
Los valores en un ltro para variables alfabeticas.
Valores de 1-4 caracteres se expresan como cadenas de caracteres entre comillas sencillas, por ej.
F. No se requiere entrar los blancos a la derecha, es decir que se a naden los blancos a la derecha.
Si la variable tiene un ancho de campo mayor que 4, entonces se usan solo los primeros cuatro
caracteres de los datos para comparar con la variable de ltro.
No se pueden usar rangos de cadenas de caracteres; solo se permiten valores individuales separados
con comas.
Nota. La primera proposicion despues del comando $SETUP se reconoce como ltro principal si comienza
con INCLUDE o EXCLUDE. Si los primeros caracteres que no esten en blanco son cualquier otra cosa, se
supone que la proposicion es un tltulo.
3.5.4. Ttulos
Proposito. Una proposicion de ttulo se usa para titular los resultados que produce un programa. Algunos
programas de IDAMS imprimen este ttulo una vez al comienzo del listado mientras que otros lo utilizan
para titular cada p agina del mismo.
Ejemplos.
1. TABLAS DE LOS DATOS DE LAS ELECCIONES - JULIO, 2000
2. LISTADO DE DATOS DE ENCUESTA CORREGIDOS A34
Colocaci on. Todos los programas de IDAMS requieren una proposicion de ttulo. El ttulo es la primera
proposicion de control de programa o (si se usa ltro) la segunda. Si no se desea ttulo en especial, es necesario
de todas maneras incluir una lnea en blanco.
La proposicion puede ser cualquier cadena de caracteres de los cuales se usan los primeros 80, es decir,
si entra un ttulo con mas de 80 caracteres, se trunca a los primeros 80.
Si el ttulo no esta encerrado entre comillas sencillas, las min usculas se convierten a may usculas y los
blancos se reducen a un solo blanco.
El ttulo no puede empezar con las palabras INCLUDE o EXCLUDE.
3.5.5. Parametros
Proposito. Todos los programas de IDAMS se han dise nado de una manera m as o menos general de forma
tal que permitan al usuario seleccionar varias opciones. Estas opciones y valores se llaman parametros y
se suministran en las proposiciones de control del programa, tales como parametros, especicaciones de
regresion, especicaciones de tablas, etc. El usuario especica los par ametros en formato de palabra clave
est andar con una palabra inglesa o su abreviaci on para identicar una opcion.
Ejemplos.
1. WRITE=CORR WEIGHT=V3, PRINT=(DICT, PAIR)
(par ametros de PEARSON)
2. DEPV=V5 METHOD=STEP VARS=(R3-R9,V30) WRITE=RESID
(par ametros de regresion de REGRESSN)
3. ROWV=(V3,V9,V10) COLV=(V4,V11,V19) CELLS=(FREQ,ROWPCT) STATS=(CHI,TAUA)
(descripcion de tabla de TABLES)
Colocaci on. Todos los programas de IDAMS requieren la proposicion principal de par ametros y debe
seguir despues de la proposicion de ttulo. Si se escogen todos los valores por defecto, debe suministrarse
una lnea con un asterisco. Cada documentacion de programa indica el tipo y contenido de cualesquiera
otras listas de par ametros que se requieran e indica su posicion relativa a otras proposiciones de control del
programa.
Presentaci on de parametros en formato de palabra clave en la documentaci on de programas.
Toda la documentacion tiene una notaci on est andar en las secciones que describen los par ametros de los que
se dispone. La notaci on b asica es la siguiente:
Una diagonal indica que se puede escoger solo uno de los terminos mutuamente excluyentes, por ej.
SAMPLE/POPULATION o PRINT=CDICT/DICT.
Una coma indica que se pueden escoger todos, algunos o niguno de los tems, por ej. STATS=(TAUA,
TAUB, GAMMA).
Cuando se combinan comas y diagonales, se puede escoger solo uno (o ninguno) de los tems dentro
de cada grupo separados por comas y conectados con diagonales, por ej. PRINT= (CDICT/DICT,
LONG/SHORT).
Valores por defecto, si los hay, est an en negrilla, por ej. METHOD=STANDARD/STEPWISE/
DESCENDING. Un valor por defecto es un valor que el programa asume para el par ametro, si no hay
una selccion explcita hecha por el usuario.
Si el uso de un par ametro es obligatorio pero no tiene valores por defecto se usan las palabras Sin
valor por defecto.
Las palabras en may usculas son palabras clave. Palabras o frases en min usculas indican que el usuario
debe reemplazar la palabra o la frase con un valor apropiado, por ej. MAXCASES=n, VARS=(lista de
variables).
Tipos de palabras clave. Hay 5 tipos de palabras clave para especicar par ametros.
1. Una palabra clave seguida de una cadena de caracteres. Este tipo de palabra clave identica un
par ametro que consiste en una cadena de caracteres, por ej.
INFILE=IN/xxxx
Un sujo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de entrada.
El usuario puede especicar:
INFILE=IN2
(los ddnames serian DICTIN2 y DATAIN2)
2. Una palabra clave seguida de uno o mas n umeros de variables, por ej.
WEIGHT=n umero de variable
El n umero de la variable de ponderaci on, si se van a ponderar los datos.
VARS=(lista de variables)
Usar solo las variables en la lista; los n umeros se pueden listar en cualquier orden con notaci on V
o sin ella, es decir VARS=(V1-V3) o VARS=(1-3). N otese que la documentacion de los programas
indica si se pueden usar variables V y R o solo variables tipo V.
WEIGHT=V39
(la variable de ponderaci on es V39)
VARS=(32,1,10)
(solo se usan las variables especicadas)
3. Una palabra clave seguida de uno o mas valores numericos, por ej.
MAXCASES=n
S olo se procesar an los primeros n casos.
IDLOC=(i1,f1,i2,f2, ...)
Columnas inicial y nal para 1-5 campos de identicacion de caso.
MAXCASES=100
(solo se procesar an los primeros 100 casos)
IDLOC=(1,3,7,9)
(la identicacion de caso se halla en las columnas 1-3 y 7-9)
4. Una palabra clave seguida de uno o mas valores de palabras clave. Los valores de palabra clave pueden
ser una mezcla de opciones mutuamente excluyentes (separadas con diagonales) y opciones independi-
entes (separadas con comas). Por ejemplo:
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT,DATA)
OUTD Imprimir diccionario de salida sin registros C.
OUTC Imprimir diccionario de salida con registros C si los hay.
NOOU No imprimir diccionario de salida.
DATA Imprimir los valores de las variables de salida.
PRINT=(OUTC,DATA)
(se imprime todo el diccionario de salida y se imprimen los datos)
PRINT=NOOUTDICT
(no se imprime el diccionario de salida ni los datos)
5. Un conjunto de palabras clave mutuamente excluyentes. De un conjunto de opciones solo se puede
seleccionar una de ellas, por ej.
SAMPLE/POPULATION
SAMP Calcule la variancia y/o desviacion est andar con la ecuaci on de la muestra.
POPU Usar la ecuaci on de la poblacion.
Todas las palabras clave con excepcion del ultimo tipo van seguidas de un signo igual (=). Los valores de
caracteres, numericos y palabras clave que siguen al signo igual se llaman valores asociados.
Reglas para especicar palabras clave
S olo se requiere suministrar las primeras 4 letras de una palabra clave o una palabra clave asociada,
aunque se puede suministrar toda la palabra clave. As, TRAN es una abreviaci on apropiada para
de la palabra clave TRANSVARS. No hay abreviaci on para palabras clave de 4 letras o menos.
Reglas para especicar valores asociados
El valor asociado es una lista de tems.
Los tems en la lista se separan con comas.
Si hay dos o mas tems, la lista debe estar entre parentesis.
Rangos de valores enteros numericos o de variables se indican con un gui on.
No se permiten rangos de valores numericos con decimales.
Por ejemplo:
R=(V2,3,5)
PRIN=(DICT,DATA,STAT)
MAXC=5
TRAN=(V5,V10-V25,V32)
IDLOC=(1,3,7,8)
El valor asociado es una cadena de caracteres.
La cadena debe encerrarse entre comillas sencillas si contiene caracteres no-alfanumericos, por ej.
FNAME=EDUCACION:ONDA 1. N otese que los blancos, el punto y la coma son caracteres
no-alfanumericos. Cuando haya duda, use comillas sencillas.
Dos comillas sencillas consecutivas (no el car acter de comilla doble) se deben usar para representar
una comilla sencilla, por ej. ANAME=KEVINS (la comilla sencilla extra se elimina una vez
que se ha ledo la cadena).
Es mejor no separar una cadena entre lneas.
Reglas para especicar listas de palabras clave
Las palabras clave (con o sin valores asociados) se separan unas de otras con comas o con uno o mas
blancos, por ej.
FNAME=FRED, TRAN=3 KAISER
Una lista de palabras clave puede continuar en tantas lneas como sea necesario pero un gui on es
necesario al nal de cada lnea para indicar la continuaci on, por ej.
FNAME=FRED -
TRAN=3 -
KAISER
Las palabras clave se pueden suministrar en cualquier orden. Si una palabra clave aparece mas de una
vez en la lista, entonces se utiliza el ultimo valor encontrado.
Una palabra clave no puede separarse entre dos lneas.
Cada lista de palabras clave puede terminar opcionalmente con un asterisco.
Si se escogen todas las opciones por defecto, debe suministrarse una lnea con un asterisco.
Detalles de parametros mas comunes y no descritos totalmente en la documentaci on de cada
programa.
1. BADDATA. Tratamiento de datos no numericos.
BADDATA=STOP/SKIP/MD1/MD2
Cuando se encuentran caracteres no numericos (incluidos blancos intercalados y campos total-
mente en blanco) en variables numericas, el programa debe:
STOP Terminar la ejecuci on.
SKIP Saltar el caso.
MD1 Reemplazar los valores no numericos por el primer c odigo de datos faltantes (o por
1,5 10
9
si el primer c odigo de datos faltantes no est a specicado).
MD2 Reemplazar los valores no numericos por el segundo c odigo de datos faltantes (o por
1,6 10
9
si el segundo c odigo de datos faltantes no est a specicado).
Para SKIP, MD1 y MD2 se imprime un mensaje acerca del n umero de casos as tratados.
2. MAXCASES. N umero maximo de casos a procesar.
MAXCASES=n
El valor dado es el maximo n umero de casos que se van a procesar. Si n=0, no se leen casos;
esta opcion se puede usar para probar setups sin leer datos. Si no se especica el par ametro, se
procesan todos los casos.
3. MDVALUES. Especica cuales de los c odigos de datos faltantes (MD1,MD2) del diccionario o de
las especicaciones de MDCODES en el Recode, si los hay, se van a usar para vericar datos faltantes
en los valores de las variables. N otese que algunos programas tienen adicionalmente un par ametro
MDHANDLING para especicar c omo se van a manejar los valores faltantes en los datos.
MDVALUES=BOTH/MD1/MD2/NONE
BOTH Los valores de las variables se vericar an contra los c odigos MD1 y los rangos de los
c odigos denidos par MD2.
MD1 Los valores de las variables se vericar an contra los c odigos MD1 solamente.
MD2 Los valores de las variables se vericar an contra los rangos de los c odigos denidos par
MD2 solamente.
NONE No se usaran c odigos MD. Se consideran validos todos los valores de los datos.
Por defecto siempre se usan ambos c odigos MD.
4. INFILE, OUTFILE. Especican los ddnames con los cuales se denen los archivos Diccionario y
Datos de entrada y salida.
INFILE=IN/xxxx
OUTFILE=OUT/yyyy
Los archivos Diccionario y Datos de entrada y de salida para los programas de IDAMS se denen
con ddnames DICTxxxx, DATAxxxx, DICTyyyy, DATAyyyy. Normalmente tienen los valores por
defecto DICTIN, DATAIN. DICTOUT, DATAOUT. Si se usan varios programas de IDAMS en
el setup, por ejemplo programas que utilizan diferentes datasets como entrada o cuando se usa
la salida de un programa como entrada directa a otro programa (encadenamiento), entonces es
necesario algunas veces cambiar estos valores por defecto.
5. WEIGHT. Este par ametro especica la variable cuyos valores se usaran para ponderar los datos en
los casos.
La variable especicada puede ser tipo V o tipo R, entera o decimal. Los casos con valores
de ponderaci on faltantes, ceros, negativos y no numericos, siempre se saltan y se imprime un
mensaje acerca del total de casos as tratados. Si no se especica el par ametro WEIGHT, no se
hace ponderaci on.
3.6 Proposiciones de Recode 31
6. VARS. Este par ametro y otros similares como ROWVARS, OUTVARS, CONVARS, etc. se usan
para especicar una lista de variables.
Si se especica mas de una variable, la lista debe estar entre parentesis.
Reglas para especicar listas de variables
Las variables se especican con un n umero de variable precedido de una V o una R. Una V
denota una variable de un dataset o de una matriz de IDAMS. Una R denota una variable que
resulta de una operaci on de Recode. N otese que internamente en el programa y en los resultados
del mismo, las variables tipo V y tipo R se distinguen con el signo del n umero de variable; los
n umeros positivos denotan variables tipo V y los n umeros negativos denotan variables tipo R.
Para especicar un conjunto de variables numeradas en forma contigua, tales como V3, V4, V5,
V6, conecte dos n umeros con un gui on, cada n umero precedido de una V (por ej. V3-V6 es valido;
V3-6 es invalido). Use los rangos con precauci on si el dataset que contiene las variables tiene
vacos en la numeraci on de las mismas, ya que todas las variables dentro del rango deben aparecer
en el dataset o en la matriz, es decir V6-V8 implica V6,V7,V8. Si V7 no est a en el diccionario
entonces aparecer a un mensaje de error. Las variables tipo V y tipo R no pueden estar mezcladas
en un rango, es decir V2-R5 es invalido.
Los n umeros de variables individuales o rangos de n umeros de variables se separan con comas.
En general, para los programas de manejo de datos, las variables se pueden listar mas de una vez
mientras que para los programas de analisis de datos especicar una variable mas de una vez es
inapropiado y causara la terminaci on. Ver la documentacion del programa para los detalles.
Se pueden insertar blancos en cualquier parte de la lista.
En general, las variables se pueden especicar en cualquier orden, Sin embargo, el orden de las
variables puede tener signicaci on especial para algunos programas, vericar la documentacion
del programa para los detalles.
Ejemplos:
VARS=(V1-V6, V9, V16, V20-V102, V18, V11, V209)
OUTVARS=(R104, V7, V10-V12, R100-R103, -
V16, V1)
CONVARS=V10
3.6. Proposiciones de Recode
La facilidad Recode de IDAMS permite recodicar temporalmente los datos durante la ejecuci on de progra-
mas de IDAMS. Los resultados de esas operaciones de recodicacion junto con las variables transferidas del
archivo de entrada se pueden guardar tambien en archivos permanentes con el programa TRANS.
La recodicacion se invoca con el comando $RECODE. Este comando y las proposiciones asociadas de
recodicacion se colocan despues del comando $RUN para el programa con el cual se va a usar la facilidad
Recode. Por ejemplo:
$RUN programa $RUN ONEWAY
$FILES $FILES
Definici on de archivos DICTIN=MYDIC
DATAIN=MYDAT
$RECODE $RECODE
Proposiciones de Recode R10 = BRAC(V3,0-10=1,11-20=2)
R11 = SUM(V7,V8)
NAME R10 NIVEL EDUC., R11ING. TOT
$SETUP $SETUP
Proposiciones de control INGRESO POR EDUC, SEXO
de programa BADDATA=SKIP
CONVARS=(R10,V2) DEPVAR=R11
Una descripcion completa de la facilidad Recode se encuentra en el captulo Facilidad Recode.
Captulo 4
Facilidad Recode
4.1. Reglas de codicacion
Las proposiciones de Recode, tienen la forma:
eti proposicion
donde eti es una etiqueta opcional de 1-4 caracteres que comienza en la posicion 1 de la lnea y
est a seguido, por lo menos, de un espacio en blanco. Las proposiciones sin etiqueta deben comenzar en
la posicion 2 o mas alla.
La etiqueta permite que proposiciones de control tales como GO TO, se reeran a una proposicion en
particular, por ej. GO TO ST1. No puede haber etiquetas en las proposiciones de iniciacion (CARRY,
MDCODES, NAME).
Para continuar una proposicion en otra lnea, coloque un gui on al nal de la lnea y contin ue en la
lnea siguiente en cualquier posicion.
La longitud maxima de lnea es de 255 caracteres y el n umero total maximo de caracteres por cada
proposicion es de 1024, excluidos los guiones de continuacion y los blancos despues de cada gui on.
4.2. Conjunto de muestra de proposiciones Recode
Para dar alguna idea de como encajan los elementos del lenguaje de Recode, se ofrece a continuacion una
muestra de proposiciones Recode.
$RECODE
IF V5 LT 8 THEN REJECT (excluir casos donde V5 < 8)
IF NOT MDATA(V6) THEN R51=TRUNC(V6/4) -
ELSE R51=0
R52=BRAC(V10,0-24=1,25-49=2,50-74=3, - (agrupar valores de V10)
74-99=4,TAB=1)
R53=BRAC(V11,TAB=1) (agrupar V11 igual que V10)
IF V26 INLIST(1-10) THEN R54=1 AND R55=1 -
ELSE R54=2
IF R54 EQ 1 THEN GO TO L1
R55=99
R56=V15 + V35
GO TO L2
L1 R56=99
L2 R57=COUNT(1,V20-V27,V29) (cuantas de las variables tienen el valor 1)
NAME R52 EDAD AGRUPADA, -
R53 EDAD AGRUPADA EN MATRIM
MDCODES R55(99),R56(99)
34 Facilidad Recode
4.3. Tratamiento de datos faltantes
Recode no verica autom aticamente los datos faltantes en las variables con excepcion de las funciones
especiales MAX, MEAN, MIN, STD, SUM, VAR. Por lo tanto el usuario debe controlar especcamente los
datos faltantes antes de hacer c alculos con las variables. Para este prop osito est a la funci on MDATA, por ej.
IF MDATA (V5,V6) THEN R1=999 ELSE R1=V5+V6
Hay dos funciones adicionales, MD1 y MD2, las cuales devuelven el primero o segundo c odigo de datos
faltantes para una variable, por ej.
R2=MD1(V6)
asigna a R2 el valor del primer c odigo de datos faltantes de V6.
Finalmente, se pueden asignar c odigos de datos faltantes a variables R o V con la proposicion de denicion
MDCODES, por ej.
MDCODES R3(8,9)
asigna 8 y 9 como primero y segundo c odigo de datos faltantes de R3.
Algunas veces un conjunto de proposiciones de Recode no asigna un valor a una variable de resultado para
un registro de datos en particular. La variable R tomara entonces el valor MD1 por defecto 1,5 10
9
el cual
le fue asignado como valor inicial. Para cambiarla a un valor mas aceptable, debemos ensayar si el valor es
grande y si es as, asignar el valor de datos faltantes apropiado, por ej.
IF R100 GT 1000000 THEN R100=99
MDCODES R100(99)
4.4. Como funciona Recode
Vericacion de sintaxis e interpretacion. Las proposiciones de Recode se leen y se analizan para detectar
errores antes de ser interpretadas por otras proposiciones de control de programa de IDAMS y antes de la
ejecuci on del programa. Si se encuentran errores, se imprimen mensajes de diagnostico y termina la ejecuci on
del programa en curso.
Resultados. Recode imprime las proposiciones de Recode que fueron suministradas por el usuario junto
con los errores de sintaxis detectados, si los hubo. Esto se presenta antes de ejecutar el programa, es decir
antes de imprimir la interpretaci on de las proposiciones de control del programa.
Iniciacion antes de comenzar a procesar un archivo de datos. Las tablas, c odigos de datos faltantes,
nombres, etc. se inician (de acuerdo con las proposiciones de iniciacion/denicion proporcionadas por el
usuario) antes de comenzar la lectura de los datos, siempre que no haya errores de sintaxis. Las variables R
en las proposiciones CARRY se inician con cero.
Iniciacion antes de procesar cada caso. Al comenzar el procesamiento de cada caso y antes de la
ejecuci on de las proposiciones de Recode para ese caso, todas las variables R con excepcion de aquellas
listadas en proposiciones CARRY, se inician con los valores internos por defecto de IDAMS para datos
faltantes (1,5 10
9
).
Ejecucion de proposiciones de Recode. La recodicacion propiamente dicha tiene lugar despues de
haber ledo los datos para un caso y despues de haber aplicado el ltro principal. Los casos que no pasan
el ltro no van a las rutinas de Recode. Por lo tanto, no se pueden usar variables de Recode en ltros
principales.
El uso de las proposiciones de Recode es secuencial (es decir, la primera proposicion se usa primero, despues
la segunda, la tercera, etc.) excepto cuando se modican con las proposiciones GO TO, BRANCH, RETURN,
REJECT, ENDFILE, ERROR (proposiciones de control). Cuando se han usado todas las proposiciones, el
caso se pasa al programa IDAMS que se ejecuta.
Cuando el programa ha terminado de usar el caso, se procesa el siguiente caso que haya pasado el ltro, la
variables R se re-inician (excepto las variables en CARRY) con los c odigos de datos faltanes y se ejecutan
las proposiciones de Recode para ese caso y as sucesivamente hasta llegar al nal del archivo de datos.
4.5 Operandos basicos 35
Prueba de proposiciones Recode. Se pueden presentar errores de logica que no son detectables por la
facilidad Recode. Para vericar los resultados buscados contra los generados por Recode, las proposiciones
de Recode deben probarse sobre unos pocos registros con el programa LIST y el par ametro MAXCASES
iniciado por ejemplo a 10. Se pueden inspeccionar entonces los valores de las variables de entrada y de las
correspondientes variables de resultados.
Archivos usados por Recode. Cuando se encuentra un comando $RECODE en el archivo Setup, las
lneas subsiguientes se copian a un archivo de trabajo en la unidad FT46. El programa RECODE lee las
proposiciones Recode de este archivo y las analiza para buscar errores antes de pasar a la interpretaci on
de otras proposiciones de control y antes de la ejecuci on cualquier programa IDAMS. Si hay errores, se
imprimen los mensajes de diagnostico y se termina la ejecuci on de ese programa de IDAMS.
Las proposiciones interpretadas se escriben en forma de tablas en un archivo de trabajo en la unidad FT49
en la cual las lee el programa IDAMS que se ejecuta.
Los mensajes acerca de las proposiciones de Recode se escriben en la unidad FT06 junto con los resultados
del programa que se ejecuta.
4.5. Operandos basicos
Variables. Las variables de Recode se reeren a variables de entrada (variables V) o variables de resultado
(variables R). Se denen as:
Variables de entrada (Vn). V seguida de un n umero. Estas son variables que siguen la denicion
del diccionario de entrada. Sus valores se pueden cambiar con Recode (por ej. V10=V10+V11).
Normalmente deben ser numericas, pero se pueden usar variables alfabeticas que no tengan mas
de cuatro (4) caracteres y en particular se pueden recodicar a valores numericos.
Variables de resultado (Rn). R seguida de un n umero (1 a 9999). Estas son variables creadas
por el usuario. Las variables R, (excepto aquellas listadas en proposiciones CARRY - ver mas
adelante) se incian con el valor de datos faltantes por defecto 1,5 10
9
antes de procesar cada
caso.
Para usar una variable R en un programa, se especica una R (en lugar de V) en la lista de vari-
ables correspondiente a un par ametro de palabra clave (por ej. WEIGHT=R50 o VARS=(R10-
R20)). Cuando los programas las escriben, se puede identicar un n umero de variables de resul-
tado con un signo negativo. As, la variable 10 es V10 y la variable -10 es R10. Es menos
confuso usar n umeros diferentes para las variables de resultado a los n umeros de las variables de
entrada. Las variables R siempre son numericas.
Constantes numericas. Las constantes pueden ser enteras o decimales, positivas o negativas, por ej. (3,
5.5, -50, -0.5).
Constantes de caracteres. Las constantes de caracteres se encierran entre comillas sencillas (por ej.
ABCXYZ, M). Una comilla sencilla dentro de una constante de caracteres se debe representar por dos
comillas sencillas adyacentes (por ej. DONTS se escribira: DONTS). Se usan constantes de caracteres
en la proposicion NAME para asignar nombres a nuevas variables. Tambien pueden usarse en expresiones
logicas para vericar valores de variables alfabeticas (por ej. IF V10 EQ M); para estas comparaciones, solo
se usan los cuatro primeros caracteres y los valores de las variables/constantes con longitud inferior a cuatro
(4) caracteres, se llenan de espacios en blanco a la derecha. Las constantes de caracteres no se pueden usar
en funciones aritmeticas (a excepcion de BRAC).
4.6. Operadores basicos
Operadores aritmeticos. Los operadores aritmeticos se usan dentro de los operandos aritmeticos. Los
operadores aritmeticos en orden de precedencia, son:
36 Facilidad Recode
- (negacion)
EXP x (exponenciacion a la potencia x, donde -181 < x < 175)
* (multiplicacion)
/ (division)
+ (adicion)
- (sustraccion)
Operadores relacionales. Los operadores relacionales se usan para determinar si existe o no alguna relacion
particular entre dos valores aritmeticos. Los operadores relacionales son:
LT (menor que)
LE (menor o igual que)
GT (mayor que)
GE (mayor o igual que)
EQ (igual)
NE (no igual)
Operadores l ogicos. Los operadores logicos se usan entre operandos logicos. Los operandos logicos toman
solamente los valores verdadero o falso. Los operadores logicos son:
NOT
AND (ambos)
OR (uno u otro)
4.7. Expresiones
Una expresion es una representacion de un valor. Una constante sola, una variable o una referencia de
una funci on son expresiones. Las combinaciones de constantes, variables, funciones y otras expresiones con
operadores, son tambien expresiones. Recode puede evaluar expresiones aritmeticas y expresiones logicas.
N otese que se pueden usar parentesis en cualquier parte dentro de una expresion para claricar el orden de
evaluacion deseado.
Expresiones aritmeticas. Las expresiones aritmeticas se construyen con operadores aritmeticos y variables,
constantes y funciones aritmeticas. Las expresiones aritmeticas producen un valor numerico. Ejemplos:
V732 (el valor de V732)
44 (la constante 44)
R67/V807 + 25 (25 mas el valor de R67 dividido por el valor de V807)
LOG(R10) (el logaritmo del valor de R10)
Expresiones l ogicas. Las expresiones logicas se eval uan para obtener un valor de verdadero o falso. No
existen variables logicas en el lenguaje Recode, de manera que el resultado de la evaluacion de expresiones
logicas no se puede asignar a una variable. Las expresiones logicas se pueden usar solamente con proposiciones
IF. Ejemplos:
R5 EQ V33
Verdadera, si el valor de R5 es igual al valor de V333, falsa si no lo es.
(V62 GT 10) OR (R5 EQ V333)
Verdadera, si alguna de las dos expresiones logicas resulta verdadera, falsa si ambas expresiones logicas
resultan falsas.
MDATA(V10,R20) AND V9 GT 2
Verdadera, si el valor de V10 o el valor de R20 corresponden a un c odigo de datos faltantes y si el valor de
V9 es mayor que 2, falsa, si lo anterior no se cumple.
4.8 Funciones aritmeticas 37
4.8. Funciones aritmeticas
Todas las funciones aritmeticas devuelven un solo valor numerico. Las listas de argumentos para las fun-
ciones aritmeticas pueden ser listas simples encerradas entre parentesis o listas altamente estructuradas que
involucren elementos de palabras clave y elementos en posiciones especcas dentro de la lista. Las funciones
disponibles son:
Functi on Ejemplo Prop osito
ABS ABS(R3) Valor absoluto
BRAC BRAC(V5,TAB=1,ELSE=9, - Agrupamiento univariado
1-10=1,11-20=2)
BRAC(V10,F=1,M=2) Recodicacion alfabetica
COMBINE COMBINE V1(2), V42(3) Combinaci on de 2 variables
COUNT COUNT(1,V20-V25) Conteo de ocurrencias de un valor a traves
de un conjunto de variables
LOG LOG(V2) Logaritmo de base 10
MAX MAX(V10-V20) Valor maximo
MD1,MD2 MD1(V3) Valor de c odigo de datos faltantes
MEAN MEAN(V5-V8,MIN=2) Valor medio
MIN MIN(V10-V20) Valor mnimo
NMISS NMISS(V3-V6) Nr. de valores de datos faltantes
NVALID NVALID(V3-V6) Nr. de valores de datos no faltantes
RAND RAND(0) N umero aleatorio
RECODE RECODE V7,V8,(1/1)(1/2)=1, - Recodicacion multivariada
(2-3/3)=2, ELSE=0
SELECT SELECT (BY=V10,FROM=R1-R5,9) Seleccion del valor de una variable dentro de un
conjunto de variables seg un una variable ndice
SQRT SQRT(V2) Raz cuadrada
STD STD(V20-V25,MIN=4) Desviaci on est andar
SUM SUM(V6,V8,V9-V12,MIN=3) Suma de valores
TABLE TABLE(V5,V3,TAB=2,ELSE=9) Recodicacion bivariada
TRUNC TRUNC(V26/3) Parte entera del valor del argumento
VAR VAR(V6,R5-R10,MIN=7) Variancia
A continuacion se muestra la sintaxis exacta para cada funci on.
ABS. La funci on ABS devuelve un valor que corresponde al valor absoluto del argumento entregado a la
funci on.
Prototipo: ABS(arg)
Donde arg es cualquier expresion aritmetica para la cual se tomara el valor absoluto.
Ejemplo:
R5=ABS(V5-V6)
BRAC. La funci on BRAC devuelve un valor que es el resultado de operaciones especcas (reglas) ejecutadas
sobre una sola variable.
Prototipo: BRAC(var [,TAB=i] [,ELSE=valor] [,regla1,...,regla n] )
Donde:
var es cualquier variable tipo V o tipo R cuyos valores se van a probar.
TAB=i numera el conjunto de reglas y la clausula ELSE asociada en este uso de BRAC (opcional)
o bien, se reere a un conjunto de reglas establecidas en una utilizaci on previa de BRAC. Nota: la
clausula ELSE se considera parte del conjunto de reglas de recodicacion.
ELSE=valor se usa cuando el valor de var no se puede encontrar dentro de las reglas dadas. Si
ELSE=valor se omite, entonces se asume por defecto ELSE=99, esto signica entonces que BRAC
siempre recodica.
38 Facilidad Recode
regla 1, regla 2, ..., regla n es el conjunto de reglas que denen los valores que BRAC debe devolver,
seg un el valor de var. Las reglas se expresan en la forma: x=c, en donde x dene uno o mas c odigos y c
es el valor a devolver cuando el valor de var sea igual al c odigo o c odigos denidos por x. Las posibles
reglas (m es cualquier constante numerica o de caracteres) son:
>m=c (si el valor de var es mayor que m, devuelva c)
<m=c (si el valor de var es menor que m, devuelva c)
m=c (si el valor de var es igual a m, devuelva c)
m1-m2=c (si el valor de var est a dentro del rango de m1 a m2, es decir m1<=var<=m2, devuelva
c).
Se pueden dar tantas reglas como sean necesarias. Se eval uan de izquierda a derecha y se usa la primera
que se satisfaga. N otese que se usan los smbolos > y < a cambio de los operadores logicos GT y
LT.
ELSE, TAB y las reglas se pueden especicar en cualquier orden.
No se permiten rangos de valores de variables alfabeticas, por ej. A-B no estan permitidos.
Ejemplos:
R1=BRAC(V10,TAB=1,ELSE=9,1-10=1,11-20=2,<0=0)
El valor de R1 sera 1 si la variable V10 est a dentro del rango de 1 a 10, sera 2 si la variable V10 est a dentro
del rango 11 a 20 y sera cero (0) cuando el valor de V10 sea menor que cero (0). Si V10 tiene cualquier otro
valor, por ej. -3, 10.5, 25, 0, entonces se aplica la clausula ELSE y R1 toma el valor de 9. Estas reglas de
agrupamiento entre parentesis se denominan tabla 1, de manera que pueden usarse posteriormente, por ej.
R2=V1 + BRAC(V2, TAB=1) * 3
En este ejemplo, para la variable V2 se aplicaran las mismas reglas que a la variable V10 de agrupamiento
entre parentesis del ejemplo previo. El valor asignado a la variable R2 sera igual al de la variable V1 +
(resultado del agrupamiento multiplicado por 3).
R100=BRAC(V10,F=1,M=2,ELSE=9)
Este es un ejemplo de recodicacion de una variable alfabetica, la cual tiene los valores F o M recodicados
a los valores numericos 1 y 2.
COMBINE. La funci on COMBINE devuelve un valor unico para cada combinaci on de valores de las
variables que se usan como argumentos. Esta funci on se utiliza normalmente con variables categoricas.
Prototipo: COMBINE var1 (n1), var2 (n2),...,varm(nm)
Donde:
var1 a varm son las variables tipo V o tipo R que se van a combinar.
n1 a nm son los c odigos maximos +1 de las respectivas variables.
La lista de argumentos para la funci on COMBINE, no va entre parentesis.
Cada variable debe tener solamente valores no-negativos y enteros.
Los valores devueltos se calculan con la siguiente formula:
V1 + (n1 * V2) + (n1 * n2 * V3) + (n1 * n2 * n3 * V4) etc.
El usuario, sin embargo, determina normalmente el resultado de la funci on al listar las combinaciones
de valores en una tabla, como se ve en el primer ejemplo que sigue a continuacion.
Ejemplos:
R1=COMBINE V6(2), R330(3)
Suponga que V6 tiene dos c odigos (0,1) que representan hombres y mujeres respectivamente y R330 tiene
tres c odigos que representan jovenes, personas con edad media y viejos, la proposicion combinara los c odigos
de V6 y R330 para devolver una sola variable R1 as:
V6 V330 R1
0 0 0 Hombres jovenes
1 0 1 Mujeres jovenes
0 1 2 Hombres con edad media
1 1 3 Mujeres con edad media
0 2 4 Hombres viejos
1 2 5 Mujeres viejas
Como V6 tiene dos c odigos y R330 tiene tres, R1 tendra seis. En el ejemplo anterior, si V6 tuviera c odigos
1 y 2 en vez de 0 y 1, el valor maximo se debera establecer como 3. Esto permitira los valores 0,
1 y 2, aunque el c odigo 0 nunca aparecera. Para evitar estos c odigos extra, el usuario debe primero
agrupar aquellas variables que produzcan un conjunto continuo de c odigos que comiencen desde 0, es decir
BRAC(V6,1=0,2=1).
Restricciones:
Puede tener un maximo de 13 variables.
La funci on COMBINE no se puede usar con otras funciones dentro de la misma proposicion de asig-
nacion.
Se debe tener especial cuidado en especicar con los c odigos maximos cuando se usa la funci on COM-
BINE, de lo contrario, se generaran valores no- unicos. Por ejemplo, con COMBINE V1(2), V2(4) la
funci on devolvera un valor de 7 para el par de valores, V1=1 y V2=3, y tambien devolvera un valor
de 7 para el par de valores V1=3 y V2=2. Si los valores de 3 pueden existir para V1, entonces n1 se
debe especicar como 4 (1 + c odigo maximo).
COUNT. La funci on COUNT devuelve un valor que es igual al n umero de veces que se presenta un valor
de una variable o de una constante como el valor de una de las variables en la lista varlist.
Prototipo: COUNT(val,varlist)
Donde:
val es normalmente una constante pero tambien puede ser una variable tipo V o tipo R.
varlist especica las variables V y/o las variables R, cuyos valores se vericaran contra val.
Ejemplos:
R3=COUNT(1,V20-V25)
R3 se le asignar a un valor igual al n umero de veces que se repita el valor 1 dentro de las seis variables
V20-V25. Esto se podra usar, por ejemplo, para contar el n umero de respuestas SI en un conjunto de
preguntas hechas a un encuestado.
R5=COUNT(V1,V8-V10)
R5 se le asignar a un valor igual al n umero de veces que se repita el valor de V1 dentro de las variables
V8-V10.
LOG. La funci on LOG devuelve un valor de punto otante que es el logaritmo con base 10 del argumento
entregado a la funci on.
Prototipo: LOG(arg)
Donde arg es cualquier expresion aritmetica para la cual se quiere calcular su logaritmo con base 10.
Ejemplos:
R10=LOG(V30)
40 Facilidad Recode
Nota: el logaritmo de cualquier n umero X en otra base B, se puede calcular facilmente a partir de la siguiente
transformaci on:
R1=LOG(X)/LOG(B)
Para el logaritmo natural (base e), sera: R1=2.302585 * LOG(X).
As R1=2.302585 * LOG(V30) asignar a a R1 el logaritmo natural de la variable V30.
MAX. La function MAX devuelve el valor maximo de un conjunto de variables. Se excluyen datos faltantes.
El argumento MIN se puede usar para especicar el mnimo n umero de valores validos a partir del cual se
devolvera el valor maximo. En caso contrario, se devuelve el valor 1,5 10
9
asignado por defecto para datos
faltantes.
Prototipo: MAX(varlist [,MIN=n] )
Donde:
varlist es una lista de variables tipo V y tipo R, y constantes.
n es el n umero mnimo de valores validos, para los cuales se calcula el valor maximo. El valor por
defecto para n es 1.
Ejemplo:
R12=MAX(V20-V25)
MD1, MD2. La funci on MD1 (o MD2) devuelve un valor que es el primero (o segundo) c odigo de datos
faltantes de la variable suministrada en el argumento.
Prototipo: MD1(var) o MD2(var)
Donde var es cualquier variable de entrada (variable V) o cualquier variable de resultado previamente denida
(variable R).
Ejemplo:
R12=MD2(V20)
Para cada caso procesado, R12 tendra asignado el segundo c odigo de datos faltantes para la variable de
entrada V20.
MEAN. La funci on MEAN devuelve el valor de la media de un conjunto de variables. Se excluyen valores de
datos faltantes. El argumento MIN se usa para especicar el n umero mnimo de valores validos para calcular
la media. En caso contrario, el sistema devuelve el valor por defecto 1,5 10
9
para datos faltantes.
Prototipo: MEAN(varlist [,MIN=n] )
Donde:
n es el n umero mnimo de datos validos, para los cuales se calcula el valor de la media. El valor por
Ejemplo:
R15=MEAN(R2-R4,V22,V5,MIN=2)
El resultado sera el valor de la media de las variables especicadas, si por lo menos dos de las variables tienen
valores no-faltantes. En caso contrario, el resultado ser a 1,5 10
9
.
MIN. La funci on MIN devuelve el valor mnimo de un conjunto de variables. Se excluyen valores de datos
faltantes. El argumento MIN se puede usar para especicar el mnimo n umero de valores validos, a partir
del cual se calculara el valor mnimo. En caso contrario, se devuelve el valor 1,5 10
9
asignado por defecto
para datos faltantes.
Prototipo: MIN(varlist [,MIN=n] )
Donde:
n es el n umero mnimo de valores validos, para los cuales se calcula el valor mnimo. El valor por
Ejemplo:
R10=MIN(V5,V7,V9,R2)
NMISS. La funci on NMISS devuelve el n umero de valores faltantes en un conjunto de variables.
Prototipo: NMISS(varlist)
Donde varlist es una lista de variables tipo V y tipo R.
Ejemplo:
R22=NMISS(R6-R10)
El valor que se devuelve, depende de cuantas de las variables R6-R10 tienen valores faltantes. El valor
maximo es de 5 para un caso, en el cual todas las cinco variables tengan datos faltantes.
NVALID. La funci on NVALID devuelve el n umero de valores validos (no faltantes) dentro de un conjunto
de variables.
Prototipo: NVALID(varlist)
Donde varlist es una lista de variables tipo V o tipo R.
Ejemplo:
R2=NVALID(V20,V22,V24)
El valor que se devuelve, depende de cuantas variables tienen valores validos. Se obtendr a un maximo valor
de 3, si todas las variables tienen todos los valores validos. Se devuelve cero cuando faltan datos para todas
las tres variables.
RAND. La funci on RAND devuelve un valor que corresponde a un n umero aleatorio uniformemente dis-
tribuido, basado en los argumentos comienzo y lmite que se describen a continuacion.
Prototipo: RAND(comienzo [,lmite] )
Donde:
comienzo es una constante entera que se usa para iniciar la secuencia aleatoria. Si comienzo es cero,
entonces se usa el tiempo ordinario del reloj.
lmite es un argumento opcional. Es una constante entera que se usa para especicar el rango (3 signica
un rango de 1 a 3). El valor asumido por defecto es 10, es decir que el rango por defecto es de 1 a 10.
Ejemplos:
R1=RAND(0)
IF RAND(0) NE 1 THEN REJECT
Para cada caso procesado, R1 tendra asignado un n umero aleatorio, uniformemente distribuido de 1 a 10.
La secuencia se inicia con el tiempo del reloj al ejecutar RAND por primera vez. N otese que RAND puede
usarse con la proposicion REJECT para seleccionar una muestra aleatoria de casos. En el segundo ejemplo,
el resultado sera la inclusi on de una muestra aleatoria de 1/10 de casos.
RECODE. La funci on RECODE se usa para devolver un valor basado en los valores concurrentes de m
variables.
Prototipo: RECODE var1,var2,...,varm [,TAB=i] [,ELSE=valor] [,regla1,regla2,...,regla n]
42 Facilidad Recode
Donde:
var1,var2,...,varm es una lista de hasta 12 variables tipo V y tipo R que se van a probar.
TAB=i numera el conjunto de reglas de recodicacion establecidas en este uso de RECODE (opcional)
o bien, se reere a un conjunto de reglas establecidas en una utilizaci on previa de RECODE. Nota: la
clausula ELSE no se considera parte del conjunto de reglas de recodicacion.
ELSE=valor (opcional), indica el valor a devolver cuando ninguna de las listas de c odigos coincide con
los valores de las variables. Aunque normalmente es una constante, tambien puede ser una expresion
aritmetica. Si ELSE se omite y ninguna de las listas de c odigos coincide con los valores de las variables,
la funci on no devuelve ning un valor, es decir que su valor permanece sin modicarse. Cuando es la
primera proposicion de asignacion para una variable, entonces su valor sera el dato de entrada para
una variable tipo V o datos faltantes para una variable tipo R.
regla1, regla2, ..., regla n, es el conjunto de reglas que denen los valores a devolver, seg un los valores
de var1, var2,..., varm. Cada regla es de la forma (lista de c odigos 1)(lista de c odigos 2) ... (lista de
c odigos p)=c. Cada lista de c odigos es de la forma (a1/a2/.../am) donde a1 es el c odigo que se
compara con var1, a2 es el c odigo que se compara con var2, etc. El valor c corresponde al n umero que
se devuelve cuando var1, var2,...,varm coinciden con los c odigos denidos en cualquiera de las listas de
c odigos.
El prototipo para una regla es:
(a1/a2/.../am)(b1/b2/.../bm)...(x1/x2/.../xm)=c
Cada lista de c odigos contiene una lista y/o un rango de valores para cada variable, por ej. con dos
variables, (3/2)(6-9/4)(0/1,3,5)=1.
Los c odigos en una lista de c odigos pueden separarse por una diagonal (indica AND) o por una barra
vertical (indica OR), aunque solo una o la otra pueden usarse en una lista de c odigos dada.
Por ejemplo:
(a1/a2/a3)=c
(la funcion devolver a c si var1=a1 y var2=a2 y var3=a3)
(a1|a2|a3)=c
(la funcion devolver a c si var1=a1 o var2=a2 o var3=a3)
Las reglas se examinan de izquierda a derecha. La primera lista de c odigos que coincida con los valores
de la lista de variables, determina el valor a devolver.
La lista de argumentos para la funci on RECODE no va entre parentesis.
TAB, ELSE y las reglas pueden estar en cualquier orden.
Ejemplos:
R7=RECODE V1,V2,(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignar a un valor basado en los valores de V1 y V2. En este ejemplo, R7 sera 1 si V1=3 y V2=5,
o si V1=7 y V2=8. R7 sera 2 si V1=6-9 y V2=1-6. En los dem as casos, R7 permanecer a sin cambios (ver
atr as).
R7=RECODE V1,V2,TAB=1,ELSE=MD1(R7),(3/5)(7/8)=1,(6-9/1-6)=2
A R7 se le asignar a un valor igual al del ejemplo anterior, excepto que a R7 se le asignar a su propio valor
de MD1 cuando no se cumplan las reglas. TAB=1 permitira usar estas mismas reglas en otra llamada a la
funci on RECODE.
Restricci on: Cuando se use la funci on RECODE, esta debe ser el unico operando al lado derecho del signo
igual.
SELECT. La funci on SELECT devuelve el valor de la constante o variable en la lista que se dene en
FROM y el cual se encuentra en la misma posicion denida por el valor de la variable en BY. (Advertencia:
si el valor de la variable en BY es menor que 1 o mayor que el n umero de variables en la lista de FROM,
resulta un error fatal). Puede haber hasta 50 elementos en la lista de FROM, por lo tanto el valor maximo
para la variable en BY es 50. Una funci on SELECT puede combinarse con otras funciones, operaciones y
variables y formar as expresiones complejas. Nota: la funcion SELECT selecciona el valor de una sola
variable de un conjunto de variables; la proposici on SELECT selecciona la variable que se va a usar para
el resultado. (Ver la secci on Proposiciones especiales de asignacion para una descripcion de la proposicion
SELECT).
Prototipo: SELECT (FROM=lista de variables y/o constantes, BY=variable)
Ejemplo:
R10=SELECT (FROM=R1-R3,9,BY=V2)
R10 tendra asignado el valor de R1, R2, R3 o 9 para los valores 1, 2, 3 y 4 de la variable V2 respectivamente.
SQRT. La funci on SQRT devuelve un valor que es la raz cuadrada del argumento entregado a la funci on.
Prototipo: SQRT(arg)
Donde arg es cualquier expresion aritmetica.
Ejemplo:
R5=SQRT(V5)
STD. La funci on STD devuelve la desviacion est andar de los valores de un conjunto de variables. Se excluyen
valores de datos faltantes. El argumento MIN se usa para especicar el n umero mnimo de valores validos
para los cuales se va a calcular la desviacion est andar. En caso contrario el sistema asume el valor para datos
faltantes de 1,5 10
9
.
Prototipo: STD(varlist [,MIN=n] )
Donde:
n es el n umero mnimo de valores validos, para los cuales se calcula la desviacion est andar. El valor
por defecto para n es 1.
Ejemplo:
R5=STD(V20-V24,R56-R58,MIN=3)
SUM. La funci on SUM devuelve la suma de los valores de un conjunto de variables. Se excluyen valores
faltantes. El argumento MIN especica el n umero mnimo de valores validos de un caso, para calcular la
suma. En caso contrario se asume el valor para datos faltantes por defecto 1,5 10
9
.
Prototipo: SUM(varlist [,MIN=n] )
Donde:
n es el n umero mnimo de valores validos, para los cuales se calcula la suma. El valor por defecto para
n es 1.
Ejemplo:
R8=SUM(V20,V22,V24,V26,MIN=3)
Si tres o mas variables, tienen valores validos, se devuelve la suma de estas variables, de lo contrario, se
devuelve el valor 1,5 10
9
.
TABLE. La funci on TABLE devuelve un valor basado en los valores concurrentes de dos variables.
Prototipo: TABLE (r, c, [TAB=i,] [ELSE=valor,] [PAD=valor,] COLS c1,c2,...,cm,
ROWS r1(vals la r1),r2(vals la r2),...,rn(vals la rn))
44 Facilidad Recode
Donde:
r es una variable o constante que se usara como ndice de la de una tabla.
c es una variable o constante que se usara como ndice de columna de una tabla.
TAB=i numera la tabla denida en este uso de TABLE (opcional) o bien, se reere a una tabla denida
en una utilizaci on previa de TABLE.
ELSE=valor da un valor para usar con pares de valores que no est an denidos en la tabla. Este valor
puede ser una expresion aritmetica. El valor de ELSE usa 99 por defecto cuando no se especica, o sea
que TABLE siempre devuelve un valor.
PAD=valor da un valor para insertar en cualquier celda denida por la especicaci on COLS, pero no
denida por la especicaci on ROWS.
TAB, ELSE y PAD pueden estar en cualquier orden.
c1,c2,...,cm son las columnas de la tabla. Se pueden usar rangos en la denicion de columnas.
r1,r2,...,rn son las las de la tabla. El tama no total de la tabla sera m por n, donde m es el n umero de
columnas y n es el n umero de las.
(vals la r1), (vals la r2),...,(vals la rn) son los valores retornados dependiendo de los valores de r y
c. Los valores se dan en el mismo orden de la especicaci on de columnas; el primer valor corresponde
en c1, el segundo en c2, etc. Se pueden usar rangos en la denicion de los valores de las las.
Ejemplos: suponga la siguiente tabla:
Col: 1 2 3 4 5 6
Fil: 2 1 1 2 2 3 4
3 1 2 2 2 3 4
5 1 2 2 2 3 4
6 3 3 3 3 3 4
8 9 9 9 9 9 9
R1=TABLE (V6, V4, TAB=1, ELSE=0, PAD=9, COLS 1-6, ROWS 2(1,1,2,2,3,4), -
3(1,2,2,2,3,4),5(1,2,2,2,3,4),6(3,3,3,3,3,4),8(9))
Si V6 es igual a 5 y V4 es igual a 3, entonces a R1 se le asigna el valor 2 (la interseccion de la la 5 y la
columna 3).
Si V6 es igual a 2 y V4 es igual a 6, entonces a R1 se le asigna el valor 4 (la interseccion de la la 2 y la
columna 6).
Si V6 es igual a 4 y V4 es igual a 2, entonces a R1 se le asigna el valor 0 (la la 4 no est a denida; se usa el
valor de la clausula ELSE).
R5=TABLE (3, V8, TAB=7, ELSE=TABLE(V1,V8,TAB=1) )
Este ejemplo usara la tabla llamada 7 con 3 como ndice de la y el valor de V8 como ndice de columna.
Si un valor de V8 no est a en la tabla 7, entonces se usara la tabla denominada 1, con ndice de la la
variable V1 e ndice de columna la variable V8.
TRUNC. La funci on TRUNC devuelve el valor entero de un argumento.
Prototipo: TRUNC(arg)
Donde arg es cualquier expresion aritmetica de la cual se va a tomar la parte entera.
Ejemplo:
R5=TRUNC(V5)
R5 se le asignar a el valor de la variable de entrada V5 truncada a un entero.
4.9 Funciones l ogicas 45
VAR. La funci on VAR devuelve la variancia de los valores de un conjunto de variables, excluyendo los datos
faltantes. El argumento MIN se usa para especicar el n umero mnimo de valores validos, para los cuales se
va a calcular la variancia. En caso contrario el sistema asume el valor para datos faltantes de 1,5 10
9
.
Prototipo: VAR(varlist [,MIN=n] )
Donde:
n es el n umero mnimo de valores validos, para los cuales se calcula la variancia para el caso. El valor
por defecto para n es 1.
Ejemplo:
R9=VAR(V5-V10)
4.9. Funciones logicas
Cuando se eval uan funciones logicas, estas devuelven un valor verdadero o falso. No se pueden usar como
operandos aritmeticos. Se usan funciones logicas en expresiones logicas y las expresiones logicas comprenden
la porcion de prueba de la proposicion condicional IF prueba THEN .... Las funciones disponibles son:
Funci on Exjemplo Prop osito
EOF IF EOF THEN GO TO NEXT Verica el nal del archivo de datos
INLIST IF V5 INLIST(2,4,6) THEN - Busca una lista de valores
R100=1 ELSE R100=0
MDATA IF MDATA(V5,V6) THEN R101=99 Verica datos faltantes
EOF. La funci on EOF se usa para agrupar valores a traves de los casos. Ver el ejemplo 10 dado en la secci on
Ejemplo de uso de proposiciones de Recode. La presencia de la funci on EOF hace que las proposiciones
de Recode se ejecuten una vez mas despues de encontrar el n de archivo. El valor de la funci on EOF es
verdadero durante de esta pasada de las proposiciones de Recode, y es falso todas las otras veces.
Para la pasada nal a traves de las proposiciones de Recode, las variables tipo V tendran el valor que tenan
despues de haber procesado totalmente el ultimo caso. Las variables tipo R (excepto aquellas listadas en
proposiciones CARRY), tendran asignado el valor 1,5 10
9
. Las variables tipo R de CARRY permanecer an
sin modicacion. El usuario debe tener cuidado de establecer un camino correcto a seguir a traves de las
proposiciones de Recode cuando se haya llegado al n de archivo.
Prototipo: EOF
Ejemplo:
IF R1 NE V1 OR EOF THEN GO TO L1
INLIST. La funci on INLIST (abreviada IN) devuelve un valor verdadero si el resultado de una expresion
aritmetica es uno de los valores de un conjunto especicado de valores. Si la expresion es igual a un valor
por fuera del conjunto de valores, la funci on devuelve el valor falso.
Prototipo: expr INLIST(valores) o expr IN(valores)
Donde:
expr es cualquier expresion aritmetica o una variable individual.
valores es una lista de valores. Pueden ser discretos y/o un rango de valores.
Ejemplos:
IF R12 INLIST(1-5,9,10) THEN V5=0
46 Facilidad Recode
Si R12 tiene un valor de 1,2,3,4,5,9 o 10, la funci on INLIST devuelve un valor verdadero y a la variable
de entrada V5 se le asigna el valor cero. En caso contrario, la funci on INLIST devuelve un valor falso y la
variable de entrada V5 mantiene su valor original.
IF (V3 + V7) IN(2,4,5,6) THEN R1=1 ELSE R1=9
Si la suma de las variables de entrada V3 y V7 resulta en el valor 2,4,5 o 6, entonces INLIST devuelve un
valor verdadero y la variable de resultado R1 contendra el valor 1. En caso contrario, INLIST devolvera el
valor falso y a la variable R1 se le asignar a el valor 9.
MDATA. La funci on MDATA devuelve un valor verdadero cuando cualquiera de las variables que se han
pasado a la funci on tienen valores de datos faltantes; en caso contrario, la funci on devuelve el valor falso.
Esta funci on se usa ampliamente ya que los valores de datos faltantes no se verican autom aticamente en la
evaluacion de expresiones, con excepcion de las funciones MAX, MEAN, MIN, STD, SUM y VAR.
Prototipo: MDATA(varlist)
Donde varlist es una lista de variables de tipo V y tipo R. Puede haber un maximo de 50 variables en esta
lista.
Ejemplo:
IF MDATA(V1,V5-V6) THEN R1=MD1(R1) ELSE R1=V1+V5+V6
Si alguna variable de la lista V1, V5, V6 tiene un valor igual a su c odigo MD1 de datos faltantes, o est a en
el rango especicado por su c odigo MD2, la funci on MDATA devuelve un valor verdadero y a la variable
de resultado R1 se le asigna el valor de su primer c odigo de datos faltantes. En caso contrario, la funci on
MDATA devuelve el valor falso y a la variable R1 se le asigna el resultado de la suma de V1, V5 y V6.
4.10. Proposiciones de asignacion
Estas son las unidades estructurales principales del lenguaje Recode. Se usan para asignar un valor a un
resultado. Se puede usar cualquier n umero entre 1 y 9999 para una variable R, pero se evita confusi on si los
n umeros R son distintos de los n umeros V de las variables en el diccionario, por ej. si hay 22 variables en
el diccionario entonces comience la numeraci on de las variables R desde R30. Tambien se pueden usar para
asignar un valor nuevo a una variable de entrada. En este caso se pierde el valor original de la variable de
entrada durante la ejecuci on del programa de IDAMS.
Prototipo: variable=expresion
Donde:
variable es cualquier variable de entrada (Vn) o de resultado (Rn).
expresion es cualquier expresion aritmetica que use opcionalmente funciones aritmeticas de Recode.
N otese que para las variables usadas en la expresion, no se verican autom aticamente los datos faltantes
con excepcion de las funciones especiales MAX, MEAN, MIN, STD, SUM, VAR. En todos los dem as
casos, se deben introducir proposiciones especicas para la vericacion de datos faltantes en donde sea
necesario. Para un ejemplo, ver Proposiciones condicionales mas adelante.
Ejemplos:
R10=5
A R10 se le asigna el valor constante 5.
R5=2*V10 + (V11 + V12)/2
Se puede usar cualquier expresion aritmetica y los parentesis se utilizan para cambiar la precedencia normal
de los operadores aritmeticos.
V20=SQRT(V20)
El valor en V20 se reemplaza por el valor de su raz cuadrada al usar la funci on SQRT.
4.11 Proposiciones especiales de asignaci on 47
R20=BRAC(V6,0-15=1,16-25=2,26-35=3,36-90=4,ELSE=9)
A R20 se le asigna el valor 1, 2, 3, 4 o 9 de acuerdo con el grupo dentro del cual este el valor de la variable
V6.
R10=MD1(V10)
A R10 se le asigna un valor igual al primer c odigo de datos faltantes de V10.
4.11. Proposiciones especiales de asignacion
DUMMY. La proposicion DUMMY produce una serie de variables cticias, codicadas 0 o 1, a partir
de una sola variable.
Prototipo: DUMMY var1,...,varn USING var(val1)(val2)...(valn) [ELSE expresion]
Donde:
var1, var2,...,varn es una lista de las variables cticias cuyos valores est an denidos por esta proposicion.
Pueden ser variables tipo V o tipo R, pueden listarse individualmente o en rangos y deben estar
separadas por comas (por ej. R1-R3, R10, R7-R9, V20). El orden especicado se mantiene.
Las referencias dobles (R1, R3, R1) son validas.
var es cualquier variable tipo V o tipo R. El valor de esta variable es probado contra las listas de valores
(val1)(val2) etc. para asignar el valor apropiado a las variables cticias.
(val1)(val2)...(valn) son listas de valores que se usan para asignar el valor de las variables cticias.
Debe haber el mismo n umero de listas como variables cticias haya (var1, var2, ..., varn). Las listas de
valores pueden tener constantes solas o rangos o ambos.
expresion es cualquier expresion aritmetica que se usa como valor para todas las variables cticias
cuando el valor de la variable var no se encuentra en una de las listas de valores. El valor por defecto
para expresion es la constante 0.
El valor de la variable var se prueba contra las listas de valores (el n umero de listas de valores debe ser
igual al n umero de variables cticias); si var tiene un valor en la primera lista de valores, la primera
variable cticia toma el valor 1 y las otras 0; si el valor de var se presenta en la segunda lista de valores,
la segunda variable cticia toma el valor 1 y las dem as 0, etc. Si el valor de var no se presenta en
ninguna de las listas de valores, todas las variables cticias toman el valor especicado despues de la
clausula ELSE (valor por defecto 0).
Ejemplo:
DUMMY R1-R3 USING V8(1-4)(5,7,9)(0,8) ELSE 99
La tabla siguiente muestra los valores de R1, R2 y R3, basados en valores diferentes de V8:
V8: 1 2 3 4 5 7 8 9 0 OTROS
R1: 1 1 1 1 0 0 0 0 0 99
R2: 0 0 0 0 1 1 0 1 0 99
R3: 0 0 0 0 0 0 1 0 1 99
SELECT. La proposicion SELECT hace que la variable en la lista de FROM que tiene una posicion igual
al valor de la variable BY, tome el valor de la expresion a la derecha del signo igual, es decir, selecciona a
cual variable se le va a asignar un valor. Si el valor de la variable en BY es menor que 1 o mayor que el
n umero de variables en la lista de FROM, resulta un error fatal. El n umero maximo de variables en la lista
de FROM es de 50, por lo tanto, el maximo valor de la variable en BY es 50.
Prototipo: SELECT (FROM=lista de variables, BY=variable)=expresi on
Ejemplos:
SELECT (FROM=R1, V3-V10, BY=R99)=1
SELECT (BY=V1, FROM=V8, R2, R5)=R7*5
48 Facilidad Recode
En el primer ejemplo, R1 tomara el valor de 1 si R99 es igual a 1; V3 tomara el valor de 1 si R99 toma el
valor de 2,...; y V10 tomara el valor de 1 si R99 toma el valor de 9. Si R99 es mayor que 9 o menor que 1,
se presentar a un error fatal. Los valores de las ocho variables no referidas no se alterar an.
SELECT se puede usar para un bucle as:
R99=1
L1 SELECT (BY=R99, FROM=R1, V3-V10)=0
IF R99 LT 9 THEN R99=R99+1 AND GO TO L1
Las nueve variables R1, V3-V10, tomaran el valor cero una despues de la otra, en tanto que R99 se incrementa
de 1 a 9. El bucle se completa cuando R99 es igual a 9 y a todas las variables se han asignado valores iniciales.
4.12. Proposiciones de control
Las proposiciones de Recode se ejecutan normalmente sobre cada caso en orden desde el primero hasta el
ultimo. El orden se puede cambiar con una de las proposiciones de control:
Proposici on Ejemplo Prop osito
BRANCH BRANCH (V16,L1,L2) Ramicar seg un el valor de una variable
CONTINUE CONTINUE Continuar con la siguiente proposicion
ENDFILE ENDFILE No procesar mas casos despues de este
ERROR ERROR Terminar la ejecuci on completamente
GO TO GO TO TOWN Ramicar incondicionalmente
REJECT REJECT Rechazar el caso
RELEASE RELEASE Entregar el caso al programa para ser procesado
y asumir la ejecuci on de las proposiciones Recode
nuevamente despues, sin leer otro caso
RETURN RETURN Usar el caso para analisis, sin recodicacion adicional
BRANCH. La proposicion BRANCH cambia la secuencia en la cual se ejecutan las proposiciones, seg un el
valor de la variable.
Prototipo: BRANCH(var, etiquetas)
Donde:
var es una variable tipo V o tipo R.
etiquetas es una lista de una o mas etiquetas de proposiciones de 1-4 caracteres.
Ejemplo:
BRANCH(R99,LAB1,LAB2,LAB3)
La transferencia se hace a LAB1, LAB2 o LAB3, seg un el valor de R99 sea 1, 2 o 3.
CONTINUE. CONTINUE es una proposicion simple que no ejecuta ninguna operaci on. Se usa como un
punto conveniente al cual se hace la transferencia.
Prototipo: CONTINUE
Ejemplo:
IF V17 EQ 10 THEN GO TO AT
R10=V11
GO TO THAT
AT R20=V11*100
THAT CONTINUE
ENDFILE. La proposicion ENDFILE hace que Recode cierre el dataset de entrada, exactamente como si
hubiera encontrado un n de archivo. Si se ha especicado la funci on EOF, la funci on EOF tomara un valor
4.12 Proposiciones de control 49
verdadero para una pasada nal a traves de las proposiciones de Recode desde el principio, despues de
haber ejecutado ENDFILE.
Prototipo: ENDFILE
Ejemplo:
IF V1 EQ 100 THEN ENDFILE
Esta proposicion se puede usar para probar un conjunto de proposiciones Recode o un setup de IDAMS con
los primeros n casos de un dataset.
ERROR. La proposicion ERROR hace que Recode termine con un mensaje de error que indica el n umero
del caso y el n umero de la proposicion de Recode en donde se present o el error.
Prototipo: ERROR
Ejemplo:
IF R6 EQ 2 THEN GO TO B
ERROR
B CONTINUE
GO TO. La proposicion GO TO se usa para cambiar la secuencia en la cual se ejecutan las proposiciones.
Cuando no hay un GO TO o un BRANCH, cada proposicion se ejecuta secuencialmente.
Prototipo: GO TO etiqueta
Donde etiqueta es una etiqueta de proposicion de 1 a 4 caracteres. La proposicion identicada por la etiqueta
puede estar antes o despues de GO TO. (Advertencia: tenga cuidado al referir una proposicion antes de GO
TO ya que pueden formarse bucles innitos).
Ejemplo:
GO TO TOWN
.
.
R10=R5
GO TO 1
TOWN R10=R5+V11
1 R11=...
REJECT. La proposicion REJECT hace que Recode rechace el caso presente y obtenga otro caso. El nuevo
caso se procesa desde el comienzo de las proposiciones de Recode. De esta manera, REJECT se puede usar
como un ltro con variables tipo R.
Prototipo: REJECT
Ejemplo:
IF MDATA (V8,V12-V13) THEN REJECT
RELEASE. La proposicion RELEASE hace que Recode entregue el caso al programa para procesarlo y
tome nuevamente el control despues de ese procesamiento sin leer otro caso. Despues de tomar el control
nuevamente, Recode contin ua con la primera proposicion de Recode. RELEASE se puede usar para separar
un registro individual en varios casos para analisis. Nota: cuando se utiliza la proposicion RELEASE tenga
cuidado de no crear bucles innitos.
Prototipo: RELEASE
Ejemplo:
CARRY (R1)
R1=R1+1
IF R1 LT V1 THEN RELEASE ELSE R1=0
RETURN. La proposicion RETURN hace que Recode regrese el control al programa de IDAMS. No se
ejecutan mas proposiciones Recode para el caso en cuestion.
50 Facilidad Recode
Prototipo: RETURN
Ejemplo:
IF V8 LT 12 THEN GO TO A
RETURN
A R10=V8
4.13. Proposiciones condicionales
La proposicion IF permite la asignacion condicional y/o control condicional. Es una proposicion compuesta
con varias proposiciones simples conectadas por las palabras clave THEN, AND y ELSE.
Prototipo:
IF prueba THEN prop1 [AND prop2 AND...prop n] [ELSE eprop1] [AND eprop2 AND...eprop n]
Donde:
prueba puede ser cualquier combinaci on de expresiones logicas (incluidas funciones logicas) conectadas
con AND u OR y opcionalmente precedidas de NOT. Puede estar entre parentesis, pero esto no es
necesario.
prop1,...,prop n,eprop1,...,eprop n puede ser cualquier proposicion de asignacion o proposicion de con-
trol (excepto CONTINUE).
La(s) proposicion(es) entre THEN y ELSE se ejecutan si el resultado de la prueba es verdadero.
La(s) proposicion(es) despues de ELSE se ejecutan si el resultado de la prueba es falso. Si no hay
clausula ELSE, se ejecuta la siguiente proposicion.
Las palabras clave THEN y ELSE pueden estar seguidas cada una por cualquier n umero de proposi-
ciones, conectadas cada una con la palabra clave AND.
Ejemplos:
IF V5 EQ V6 THEN R1=1 ELSE R1=2
Asigne el valor 1 a la variable R1 si V5 es igual a V6; si no lo es, entonces asigne a R1 el valor 2.
IF MDATA(V7,V10-V12) THEN R6=MD1(V7) AND R10=99 -
ELSE R6=V7+V10+V11 AND R10=V12*V7
Asigne a la variable R6, el primer c odigo de datos faltantes de la variable V7 cuando cualquiera de las
variables V7, V10, V11, V12 sean iguales a sus c odigos de datos faltantes; si esta condicion no se cumple,
entonces haga R6 igual a la suma de V7, V10 y V11 y haga tambien R10 igual al producto de las variables
V12 y V7.
IF (V5 NE 7 AND R8 EQ 9) THEN V3=1 ELSE V3=0
Haga V3 igual a 1 cuando V5 no sea igual a V7 y R8 sea igual a 9 (debe cumplir ambas condiciones), en
caso contrario haga V3 igual a 0. (Nota: los parentesis no son necesarios).
IF MDATA(V6) OR V10 LT 0 THEN GO TO X
Si falta el valor de V6 o si V10 es menor que cero, vaya a la proposicion etiquetada X; de lo contrario,
continue con la siguiente proposicion.
4.14. Proposiciones de denicion/de asignacion de valores iniciales
Estas proposiciones se ejecutan una sola vez, antes de comenzar el procesamiento de los datos, para asignar
de valores iniciales que se van a utilizar durante la ejecuci on de proposiciones de Recode. No se pueden usar
dentro de expresiones y no pueden tener etiquetas.
4.14 Proposiciones de denicion/de asignaci on de valores iniciales 51
CARRY. La proposicion CARRY hace que los valores de las variables listadas sean llevados de caso en caso.
Las variables de CARRY son asignadas los valores iniciales con ceros solo una vez (antes de comenzar a leer
los datos). Las variables de CARRY se pueden usar como contadores o acumuladores para agrupamiento.
Prototipo: CARRY(varlist)
Donde varlist es una lista de variables tipo R.
Ejemplo:
CARRY(R1,R5-R10,R12)
MDCODES. La proposicion MDCODES cambia los c odigos de datos faltantes del diccionario para las
variables de entrada o asigna c odigos de datos faltantes a variables de resultado. Los valores por defecto que
usa Recode para variables tipo R y tipo V que no tengan especicaci on de datos faltantes en el diccionario
y que no tengan especicaci on en MDCODES son MD1=1,5 10
9
y MD2=1,6 10
9
.
Prototipo: MDCODES (varlist1)(md1,md2),(varlist2)(md1,md2), ..., (varlistn)(md1,md2)
Donde:
varlist1, varlist2, ..., varlistn son listas de variables individuales y de rangos de variables.
md1 y md2 son respectivamente, el primero y segundo c odigos de datos faltantes para todas variables
listadas. Los c odigos de datos faltantes que tengan decimales deben especicarse con el punto decimal
explcito. Advertencia: solo se retienen 2 cifras decimales para variables R y se redondean los valores
apropiadamente, por ej. md1 especicado como 9.999 se trata como 10.00 .
Se puede omitir cualquiera de los dos c odigos md1 o md2. Si se omite md1, se debe colocar una coma
que preceda al valor de md2.
Ejemplos:
MDCODES V5(8,9)
El primer c odigo de datos faltantes para V5 sera 8; el segundo sera 9.
MDCODES (R9-R11)(,99), V7(8,9), V6(9)
Para R9, R10 y R11, el primer c odigo de datos faltantes sera 1,5 10
9
y el segundo sera 99.
Para V7, el primer c odigo de datos faltantes sera 8 y el segundo sera 9.
Para V6, el primer c odigo de datos faltantes sera 9 y el segundo sera 1,6 10
9
.
NAME. La proposicion NAME asigna nombres a variables tipo R o reasigna nombres a variables tipo V.
Prototipo: NAME var1 nombre1, var2 nombre2, ..., varn nombre n
Donde:
var1,var2,...,varn son variables tipo V o tipo R.
nombre1, nombre2, ..., nombre n son los nombres a asignar a estas variables.
El n umero maximo de caracteres por nombre es 24; si es mas largo, el nombre se trunca a 24 caracteres.
El valor por defecto del nombre para una variable tipo R es RECODED VARIABLE Rn.
Para incluir un apostrofo en un nombre (por ej. PERSONS), usar dos comillas sencillas (por ej.
PERSONS).
Ejemplo:
NAME R1 V5 + V6, V1 PERSONS STATUS
52 Facilidad Recode
4.15. Ejemplos de uso de proposiciones de Recode
Supongamos que existe un archivo de datos con las siguientes variables:
V1 Identicador de ciudad
V2 Sexo 1=hombre, 2=mujer
V4 Edad 21-98, 99=sin denir
V5 Nivel educativo 1=primaria, 2=secundaria,
3=universitaria, 9=sin denir
V8 Ingreso del primer empleo
V9 Ingreso del segundo empleo
V10 Ingreso del compa nero(a)
V21 Peso en Kg (un decimal)
V22 Altura en metros (dos decimales)
V31 Posee autom ovil? 1=si, 2=no, 9=sin denir
V32 Posee TV?
V33 Posee estereo?
V34 Posee refrigerador?
V35 Posee microcomputador?
V41 N umero de hijos
V42 Edad primer hijo
V43 Edad segundo hijo
V44 Edad tercer hijo
V45 Edad cuarto hijo
A continuacion se muestra someramente la construcci on de algunas variables de analisis posibles a partir de
estos datos.
1. Ingreso total. Si faltan los ingresos del primero y del segundo empleos, entonces faltar a el ingreso total.
Si falta solo uno de ellos entonces uselo como ingreso total.
IF NVALID(V8,V9) EQ 0 THEN R101=-1 AND GO TO END
IF NVALID(V8,V9) EQ 2 THEN R101=V8+V9 AND GO TO END
IF MDATA(V8) THEN R101=V9 ELSE R101=V8
END CONTINUE
MDCODES R101(-1)
o R101=SUM(V8,V9,MIN=1)
IF R101 EQ 1.5 * 10 EXP 9 THEN R101=-1
MDCODES R101(-1)
2. No usar el caso si el ingreso total es cero o falta.
IF MDATA(R101) OR R101 EQ 0 THEN REJECT
3. Componer el ingreso con 3/4 del ingreso propio mas 1/4 del ingreso del compa nero(a). Si falta el ingreso
del compa nero(a) supongalo como cero.
IF MDATA(V10) THEN V10=0
IF MDATA(R101) THEN R102=MD1(R102) -
ELSE R102=R101 * .75 + V10 * .25
NAME R102Ingreso compuesto
MDCODES R102(99999)
4. Peso del encuestado agrupado en liviano (30-50), medio (51-70), y pesado (70+).
R103=BRAC(V21,30-50=1,50-70=2,70-200=3,ELSE=9)
N otese que V21 est a grabada con un decimal. Para asegurarase de que valores tales como 50.2 tengan
una asignacion a una categora, los rangos dentro de la proposicion BRAC deben traslaparse. Recode
trabaja de izquierda a derecha y asigna el c odigo al primer rango en el cual se presente el caso. De esta
manera, un valor de 50.0 se ubicar a en la categora 1 pero un valor de 50.1 se ubicar a en la categora
2. Para colocar valores de 50.0 en la categora 2, usar
4.15 Ejemplos de uso de proposiciones de Recode 53
R103=BRAC(V21, <50=1, <70=2, <200=3, ELSE=9)
Un valor de 49 caera en todas las tres categoras pero Recode usara el primer rango valido que
encuentre (codigo 1). Un valor de 50 no satisfara al primer rango y se asignar a el c odigo 2.
5. Indice de aluencia con valores de 0-5 de acuerdo con el n umero de bienes posedos.
R104=COUNT(1,V31-V35)
Si todos los tems se codican 1 (s), el ndice, R104, tomara el valor 5. Si todos se codican 2 (no) o
faltan, entonces el ndice sera cero.
6. Crear tres variables cticias (codicadas 0/1) a partir de la variable educacion.
DUMMY R105-R107 USING V5(1)(2)(3)
Las tres variables de resultado tomaran los valores siguientes:
V5=1 R105=1, R106=0, R107=0
V5=2 R105=0, R106=1, R107=0
V5=3 R105=0, R106=0, R107=1
V5 no es ni 1 R105=0, R106=0, R107=0 (valor por defecto si no hay valor para ELSE)
ni 2 ni 3
7. Edad del hijo menor. Las edades de los ultimos 4 hijos se guardan en las variables 42 a 45, el mayor
est a en V42. Si alguien tiene 3 hijos, entonces el valor de V44 da la edad del menor de los hijos; si
alguien tiene 4 o mas hijos entonces queremos V45. En este caso, V41 (n umero de hijos) se puede usar
como un ndice para seleccionar la variable correcta con la funci on SELECT.
IF V41 GT 4 THEN V41=4
IF V41 EQ 0 OR MDATA(V41) THEN R109=99 ELSE -
R109=SELECT (FROM=V42-V45, BY=V41)
NAME R109Edad ultimo hijo
MDCODES R109(99)
8. Relacion peso/edad como un decimal redondeado al entero proximo.
IF MDATA (V21,V22) OR V22 EQ 0 THEN R111=99 AND R112=99 -
ELSE R111=V21/V22 AND R112=TRUNC ((V21/V22) + .5)
NAME R111relacion peso/edad dec, R112 P/E REDONDEADO
MDCODES (R111,R112)(99)
9. Crear una variable sencilla combinando sexo y nivel educacional en cuatro grupos as:
Mujeres, solo educacion primaria
Mujeres, educacion+ secundaria
Hombres, solo educacion primaria
Hombres, educacion+ secundaria
Metodo a. Primero se reducen los c odigos para sexo y educacion a c odigos contiguos que comienzan
desde 0, se guardan los resultados temporalmente en las variables R901, R902.
R901=BRAC (V5,1=0,2=1,ELSE=9)
R902=BRAC (V6,1=0,2=1,3=1,ELSE=9)
Ahora se usa la funci on COMBINE asegurandose primero de que los casos con codigos falsos se coloquen
en una categora de datos faltantes.
IF R901 GT 1 OR R902 GT 1 THEN R110=9 ELSE -
R110=COMBINE R901(2),R902(2)
54 Facilidad Recode
Metodo b. Usar IFs, colocando un valor por defecto de 9 al comienzo.
R110=9
IF V5 EQ 1 AND V6 EQ 1 THEN R110=1
IF V5 EQ 1 AND V6 INLIST (2,3) THEN R110=2
IF V5 EQ 2 AND V6 EQ 1 THEN R110=3
IF V5 EQ 2 AND V6 INLIST (2,3) THEN R110=4
Metodo c. Usar la funci on RECODE.
R110=RECODE V5,V6(1/1)=1,(1/2-3)=2,(2/1)=4,(2/2-3)=5,ELSE=9
10. Agrupaci on de casos con Recode. Supongamos que queremos analizar los datos (que consisten en reg-
istros de nivel individual) a nivel ciudad, por ejemplo producir una tabla que muestre la distribuci on
de ciudades por ingreso (V8,V9) y el % de gente con automovil propio en la ciudad (V31). Podramos
hacerlo con AGGREG para agrupar los datos a nivel de ciudad y despues ejecutar TABLES. Alter-
nativamente, podemos usar las proposiciones CARRY, EOF, y REJECT del lenguaje Recode y usar
TABLES directamente.
1 CARRY (R901,R902,R903,R904)
2 IF (R901 EQ 0) THEN R901=V1
3 IF (R901 NE V1) THEN GO TO VIL
4 IF EOF THEN GO TO VIL
5 R902=R902+1
6 R903=R903+V8+V9
7 IF (V31 EQ 1) THEN R904=R904+1
8 REJECT
9 VIL R101=(R904*100)/R902
10 R101=BRAC(R101,<25=1,<50=2,<75=3,<101=4)
11 R102=R903/R902
12 R102=BRAC(R102,<1000=1,<2000=2,<5000=3,ELSE=4)
13 R901=V1
14 R902=1
15 R903=V8+V9
16 IF (V31 EQ 1) THEN R904=1 ELSE R904=0
17 NAME R102ingr. promedio, R101% con automovil
R901 es una variable de trabajo usada para para retener el identicador de la ciudad; cuando se lee
el primer caso (R901=0), a R901 se le asigna el valor del identicador de ciudad (V1); R902 a R904
son variables de trabajo para el n umero de personas en la ciudad, el ingreso total de las personas en
la ciudad y el n umero de personas con autom ovil en la ciudad respectivamente.
Mientras que el identicador de ciudad se mantiene igual, se acumulan los datos en las variables R902
a R904 (cuyos valores se llevan a medida que se lean nuevos casos). Entonces el caso se rechaza (no
pasa al analisis) y se lee el nuevo caso. Cuando aparece un cambio en el identicador de ciudad, se
ejecutan las instrucciones en la etiqueta VIL: los contenidos que tienen las variables R9902, R903 y
R904 en ese momento se usan para calcular las variables requeridas (media agrupada del ingreso y %
agrupado de propietarios de autom oviles) y entonces se pasan estas variables al analisis despues de
colocar primero en las variables de trabajo los valores para el ultimo caso ledo (el primer caso de la
siguiente ciudad). Cuando se llega al nal del archivo, necesitamos estar seguros de que se usaran los
datos de la ultima ciudad. La proposicion 4 hace esto.
4.16. Restricciones
1. El maximo n umero de variables R es 200.
2. El maximo n umero de tablas numeradas (BRAC, RECODE, TABLE) es 20.
3. El maximo n umero de caracteres en una proposicion de Recode, excluidos los guiones de continuacion
es 1024.
4.17 Nota 55
4. El n umero maximo de etiquetas de proposiciones es aproximadamente 60.
5. El maximo n umero de constantes, incluidas las de todas las tablas es aproximadamente 1500.
6. El maximo n umero de nombres que se pueden denir en proposiciones NAME es 70.
7. El maximo n umero de valores de datos faltantes que se pueden denir en proposiciones MDCODES es
100 y solo se retienen 2 cifras decimales para variables R.
8. El n umero maximo de anidamientos con parentesis dentro de una proposicion (es decir, parentesis
dentro de parentesis) es 20.
9. El maximo n umero de operadores aritmeticos es aproximadamente 400.
10. El maximo n umero de variables en proposicion SELECT es 50.
11. El maximo n umero de proposiciones IF es aproximadamente 100.
12. El maximo n umero de anidamientos de funciones (es decir, referencias a funci on como argumentos de
funci on) es 25.
13. El maximo n umero de proposiciones es aproximadamente 200.
14. El maximo n umero de etiquetas en una proposicion BRANCH es 20.
15. El maximo n umero de variables de CARRY es 100.
16. El m aximo n umero de variables dado en la secci on de restricciones de cada documentacion de
programa de analisis, incluye variables R y variables V usadas en el analisis y variables V usadas en
Recode pero no en el analisis. As, si un programa tiene un maximo de 40 variables y se usan 40 variables
de entrada en el analisis, no se pueden usar mas variables de entrada que las 40 en las proposiciones
de Recode. Las variables R denidas en las proposiciones de Recode y que no se usan en el analisis, no
se necesita tenerlas en cuenta para el m aximo n umero de variables.
17. El ltrado se hace antes de la recodicacion, de manera que a las variables de resultado no se les pueda
hacer referencia en ltros principales.
4.17. Nota
Recodicacion univariada/bivariada se puede hacer con los metodos de TABLE, IF y RECODE. M as adelante
hay una breve comparaci on de estos metodos teniendo en cuenta dos aspectos de ejecuci on.
Totalidad
TABLE ... hace una recodicacion completa. Se produce un valor de resultado, a un cuando el valor de
entrada este por fuera de la tabla (por que ELSE asume 99 por defecto).
RECODE permite recodicacion parcial. Si ninguna prueba es verdadera y no hay valor especicado
para ELSE, no hay recodicacion.
Tama no de tabla
Las recodicaciones bivariadas y univariadas completas de gran tama no tienen mayor eciencia si usa
TABLE e IF...
Para una recodicacion grande, uno a uno, univariada, con una lnea de una tabla rectangular, TABLE
es mejor que IF...
Captulo 5
Manejo y analisis de datos
5.1. Validacion de datos con IDAMS
5.1.1. Vision general
Antes de iniciar un analisis de datos con cualquier programa, los datos necesitan, normalmente, validarse.
Esta validaci on comprende tpicamente tres etapas:
1. Vericar si los datos son completos, es decir vericar que todos los casos esperados est an presentes en
el archivo de datos y vericar que existan los registros correctos para cada caso cuando hay registros
multiples per caso.
2. Vericar que las variables numericas solo tienen valores numericos y vericar que los valores son
validos.
3. Vericar la consistencia entre las variables.
Como muchos otros programas estadsticos, IDAMS exija que debe haber la misma cantidad de datos para
cada caso. Si los datos para un caso abarcan varios registros, entonces cada caso debe abarcar exactamente
el mismo conjunto de registros. Si algunas variables no se aplican a algunos casos, entonces se deben asignar
valores faltantes. La capacidad de IDAMS de vericacion de intercalaci on de registros, permite chequear
que cada caso de datos tenga el conjunto correcto de registros. Esto se hace con el programa MERCHECK
el cual produce un archivo de salida rectangular en el cual se han eliminado los registros extra/duplicados
y los casos con registros faltantes se han rellenado o bien se les han asignado registros cticios.
La vericacion de valores no numericos en variables numericas y la conversi on opcional de campos en blanco
a valores numericos especicados por el usuario la hace el programa BUILD. La vericacion de otros c odigos
invalidos la hace el programa CHECK en donde los que son c odigos validos se denen en proposiciones
especiales de control o bien se toman de registros C en el diccionario que describe los datos.
Si los datos se introducen con la Interfaz del Usuario de WinIDAMS, no se permiten caracteres no numericos
(excepto campos en blanco) en campos numericos. M as aun, existe la posibilidad de vericacion de c odigos
durante la introduccion de datos y de una vericacion general de c odigos invalidos en todo el archivo de
datos. Los registros C del diccionario, se usan para este prop osito.
Las vericaciones de consistencia se pueden expresar en el lenguaje Recode de IDAMS y se usan con el
programa CONCHECK para listar casos con incosistencias.
Los errores hallados en cualquiera de estos pasos se pueden corregir o bien con la Interfaz del Usuario o con
el programa CORRECT. Una secuencia tpica de pasos para la deteccion y correccion de errores con IDAMS
se describe con mas detalle a continuacion.
58 Manejo y analisis de datos
5.1.2. Vericacion si los datos son completos
Paso 1 Producir tablas de resumen que muestren la distribuci on de los casos dentro de las unidades
de muestreo, zonas geogr acas, etc. para obtener una vericacion contra los totales esperados.
Esto es particularmente util en una encuesta por muestreo. Por ejemplo, supongamos que se
va a hacer una encuesta de hogares. Se toma una muestra seleccionando primero unidades
primarias de muestreo (UPM), despues, hasta cinco (5) areas dentro de cada UPM y luego se
entrevistan los hogares ubicados dentro de esas areas. La distribuci on que tienen en los datos
los hogares por UPM y area se puede obtener con la preparaci on de un peque no diccionario
que contenga solamente las dos variables: UPM y area. La tabla tendra el siguiente aspecto:
V2 AREA
01 02 03 04 05
01 3 6 2
V1 UPM 02 10 4 2 8 5
03
.
.
Esta tabla puede compararse con la bit acora de registro de los entrevistadores para vericar
si en el archivo existen los datos de todas las entrevistas tomadas.
Pasos 2, 3 y 4 son necesarios solo cuando hay mas que un registro por caso.
Paso 2 Los registros de datos primarios se clasican en orden de identicacion de casos/identicacion
de registros con SORMER.
Paso 3 Los datos primarios ya clasicados, se verican con MERCHECK para ver si se tiene el grupo
correcto de registros para cada caso. El archivo de salida contiene solamente casos buenos,
es decir, aquellos con registros correctos. Los registros que sobren y los duplicados se eliminan.
Los casos con registros faltantes se eliminan o se completan. Se imprimen todos los casos que
tengan errores de intercalaci on.
Paso 4 A continuacion se hacen las correcciones de los errores detectados por MERCHECK. Esto se
pueden hacer de varias maneras:
Recapturar casos malos e intercalarlos con el archivo de salida de MERCHECK usando
SORMER.
Editar los datos primarios originales con un editor del sistema y repetir los pasos 2 y 3.
Recapturar los casos malos, hacer los pasos 2 y 3 con estos datos y despues intercalar
el archivo de salida de esta ejecuci on del paso 3 con el archivo de salida original del paso
3.
Con cualquier metodo que se escoja, el programa MERCHECK debe ejecutarse nuevamente
con el archivo corregido para cerciorarse de que no hay errores.
5.1.3. Deteccion de valores no numericos e invalidos
Paso 5 Preparar un diccionario para todas las variables, con las proposiciones apropiadas para el
manejo de campos en blanco. Ejecutar BUILD. La salida es un dataset IDAMS (archivos
Datos y Diccionario). Todos los valores no numericos inesperados se convierten en nueves (9)
y se indican en los resultados.
Paso 6 Con TABLES imprimir distribuciones de frecuencias de todas las variables cualitativas y los
valores maximos, mnimos y medios de las variables cuantitativas. Esto da una idea inicial
del contenido de los datos y muestra cuales variables tienen c odigos invalidos (variables cual-
itativas) o valores muy grandes o muy peque nos (variables cuantitativas). Tambien pueden
compararse posteriormente con un listado similar producido despues de la limpieza para ob-
servar c omo la validaci on afecto los datos.
Paso 7 Preparar proposiciones de control que especiquen los c odigos validos o los rangos de valores
para cada variable. Estas proposiciones se pueden preparar con anterioridad para todas las
5.2 Manejo/transformacion de datos 59
variables, o bien, despues del paso 6, solamente para aquellas variables de las cuales se sabe
que tienen c odigos invalidos. Usar el dataset de salida del paso 5 como entrada al programa
CHECK para obtener un listado que muestre los casos que tienen valores invalidos. Tengase
en cuenta que la especicaci on de c odigos validos para las variables tambien se puede tomar
de los registros C del diccionario, si estos se introdujeron en el paso 5.
Paso 8 Preparar la correccion de errores en variables detectados en los pasos 5 y 7. Usar el programa
CORRECT para actualizar el dataset IDAMS creado en el paso 5.
Tengase en cuenta que las correcciones tambien se podran hacer con la Interfaz del Usuario
si el n umero de casos no es muy grande. Sin embargo, el uso de CORRECT es un metodo
menos propenso a los errores.
Ejecute nuevamente los pasos 7 y 8 hasta que no se encuentren errores.
5.1.4. Vericacion de consistencia
Paso 9 Preparar proposiciones logicas de las vericaciones de consistencia que se van a hacer, por
ej. PREGNANT (V32) = no aplicable si y solo si SEX (V6) = masculino.
Asignar un n umero de resultado a cada vericacion de consistencia y traducir la logica a
proposiciones de RECODE en donde el resultado se pone en uno (1) para una inconsistencia,
por ej.
IF V6 EQ 1 AND V32 NE 9 THEN R1001=1
IF V6 NE 1 AND V32 EQ 9 THEN R1001=1 ELSE R1001=0
Usar el conjunto de proposiciones de Recode con CONCHECK para imprimir los casos con
errores.
Paso 10 Corregir los casos con errores como en el paso 8.
Ejecute nuevamente los pasos 9 y 10 hasta que no se encuentren errores. Entonces los datos de salida de la
ultima ejecuci on de CORRECT estar an listos para analizarlos.
5.2. Manejo/transformacion de datos
IDAMS posee un extenso conjunto de ayudas para generar ndices, medidas derivadas, agrupamientos
y otras transformaciones de los datos, incluida la recodicacion alfabetica. Las capacidades utilizadas mas
frecuentemente las provee la facilidad Recode, la cual puede llevar a cabo operaciones temporales en todos los
programas de analisis que usan como entrada un dataset IDAMS. Los resultados de la recodicacion se pueden
guardar como variables permanentes con el programa TRANS. Estas facilidades operan en las variables
que forman un caso y permiten recodicar los valores de una o mas variables, generar nuevas variables
mediante la combinaci on de las mismas, controlar la secuencia de estas operaciones mediante la ejecuci on de
proposiciones logicas y ejecutar un n umero de proposiciones y funciones especializadas adicionales. La nueva
informacion del diccionario, necesaria para describir los resultados de las operaciones realizadas, se produce
autom aticamente.
Para agrupaciones entre diferentes casos se dispone del programa AGGREG. AGGREG suministra sumas
aritmeticas y medidas relacionadas, rangos y conteos de valores de datos validos dentro de grupos de casos.
Las ejecuciones tpicas de AGGREG involucran el uso previo del programa SORMER para clasicar el
archivo Datos en los grupos deseados.
Hay un n umero de circunstancias en las cuales es necesario combinar los registros de dos archivos diferentes,
por ejemplo, datos recolectados en puntos diferentes en el tiempo. En la medida en que se reciben nuevos
grupos de datos para las variables, el objetivo es a nadirlos al registro que contena los datos previos para
el mismo caso o el mismo encuestado. El programa MERGE se encarga de esta labor, incluido el relleno
apropiado con datos faltantes cuando no se encuentren entrevistados en el nuevo grupo. Ejemplos similares
se presentan cuando en un programa de analisis se generan residuos o alg un tipo de puntajes de escala para
cada caso y se necesita incluirlos en los datos originales.
Un proceso de combinaci on algo diferente se presenta cuando se van a combinar datos obtenidos de diferentes
60 Manejo y analisis de datos
niveles de analisis. Una ilustraci on de esto es la adici on de datos de hogares a los registros individuales de
los encuestados. Cuando se ordena un dataset de tal manera que todos los encuestados de un mismo hogar
queden juntos, MERGE hace la intercalaci on necesaria de los registros duplicados. Se presenta una situaci on
similar cuando se van a adicionar res umenes de grupo obtenidos con AGGREG a los registros de cada caso
en el grupo respectivo.
Otro proceso de combinaci on de datasets, a menudo tambien llamado intercalaci on, se presenta cuando se
desea a nadir casos adicionales a un dataset. Los nuevos registros deben ser descritos por el mismo diccionario
del dataset original. Este tipo de intercalaci on puede lograrse con el programa SORMER.
La mayora de los programas de IDAMS disponen como operaciones temporales, de funciones para la
subdivisi on de los datos (usando un ltro), con el objeto de seleccionar casos particulares para procesar.
Tambien es posible crear archivos permanentes que contengan subconjuntos de los datasets IDAMS (un
subconjunto de variables o un subconjunto de casos, o ambos). Los programas TRANS y SUBSET son los
mas adecuados para esta clase de tareas, aunque otros programas que producen un dataset IDAMS como
salida, tales como MERGE, tambien pueden usarse. La selecci on de casos puede hacerse sobre la base de que
solo ciertos casos tienen un interes logico (por ejemplo solo los encuestados de sexo femenino), o tambien
puede hacerse al azar, con la funci on RAND de Recode en el programa TRANS.
Muchas veces es de gran ayuda para el usuario poder obtener una imagen de los valores almacenados en
el dataset IDAMS, con el objeto de vericar los resultados de los pasos de modicacion de los datos y
ciertamente en cualesquiera otras etapas. El programa LIST es el adecuado para este prop osito y permite
obtener listados completos de diferentes selecciones de variables y casos especcos. El ltrado o la selecci on
de los casos que se van a mostrar se puede lograr mediante la combinaci on de varias variables dentro de
expresiones logicas; un ejemplo sera una selecci on de solo aquellos registros de mujeres solteras entre los 21 y
los 25 a nos de edad. Tanto las variables numericas y alfabeticas de un dataset como las variables construidas
con proposiciones de Recode se pueden incluir en la salida impresa. La Interfaz del Usuario tambien tiene
una opcion para imprimir el contenido de un archivo de datos en formato de tabla.
5.3. Analisis de datos
La consideracion fundamental del usuario con respecto a la escogencia de un programa de analisis es si este
posee las funciones estadsticas apropiadas. Una gua en esta materia est a fuera del alcance de este manual.
En la Introduccion se puede hallar un resumen de la funci on de cada programa de analisis de IDAMS. Se
dan mas detalles en la documentacion individual de cada programa. Las formulas usadas en cada programa
para calcular las estadsticas, y referencias se encuentran en la parte F ormulas estadsticas y referencias
bibliogracas.
5.4. Ejemplo de un peque no trabajo a ejecutar con IDAMS
Supongamos que un dataset IDAMS contiene las respuestas al cuestionario de una encuesta e incluye las
siguientes variables:
V11 representa el sexo del encuestado seg un la codicacion siguiente:
1. Hombre 2. Mujer 9. Sin informacion
V12 representa el ingreso del encuestado en d olares (99999 = sin informacion).
V13 a V16 representan medidas de actitud ante diferentes situaciones. Las variables se codican cada una
para reejar los sentimientos del encuestado as:
1. Muy positivo 2. Positivo 3. Neutro 4. Negativo 5. Muy negativo 8. No sabe
9. Sin informacion 0. La pregunta es irrelevante para el encuestado
Supongamos que solo se necesita un agrupamiento o recodicacion de niveles de ingreso as:
5.4 Ejemplo de un peque no trabajo a ejecutar con IDAMS 61
Codigo nuevo Signicado
1 Ingreso en el rango $0 a $9999
2 Ingreso en el rango $10,000 a $29,999
3 Ingreso de $30,000 o mayor
9 Rechazado, sin informacion, no sabe
Los cruces deseados son entre la versi on nuevamente codicada de la variable de ingreso, V12, y cada una
de las variables de actitud V13 a V16. Para este analisis solo se seleccionaran encuestados femeninos.
A continuacion se muestra un setup de IDAMS con las proposiciones de control necesarias para hacer este
trabajo. Los n umeros entre parentesis a la izquierda identican cada proposicion de control y la relacionan
a la explicaci on subsiguiente.
(1) $RUN TABLES
(2) $FILES
(3) DICTIN = ECON.DIC
(4) DATAIN = ECON.DAT
(5) $RECODE
(6) R101=BRAC(V12,0-9999=1,10000-29999=2,30000-99998=3, -
(7) ELSE=9)
(8) NAME R101Ingreso agrupado
(9) $SETUP
(10) INCLUDE V11=2
(11) EJEMPLO DE TABLES USANDO DATOS ECONOMICOS
(12) *
(13) TABLES
(14) ROWVARS=(R101,V13-V16)
(15) ROWVAR=R101 COLVARS=(V13-V16) CELLS=(FREQS,ROWPCT) STATS=CHI
En pocas palabras, lo siguiente es lo que hace cada proposicion:
(1) $RUN TABLES es un comando de IDAMS, en el cual se le informa que se va a utilizar el
programa TABLES.
(2) Esta proposicion se nala el comienzo de especicaci on de archivos para este trabajo.
(3)&(4) El dataset IDAMS se almacena en dos archivos separados. Uno contiene el diccionario y el
otro los datos.
(5) Esta proposicion indica que se requieren transformaciones de los datos. Las proposiciones que
siguen a continuacion se reeren especcamente a los comandos de Recode.
(6)(7) Estas dos lneas (una original y una de continuacion) forman una proposicion de Recode que
indica que el agrupamiento entre corchetes deseado para la variable de ingreso V12, sigue
el esquema indicado atr as. El resultado de la funci on BRAC se almacena en la variable de
resultado R101.
(8) Esta proposicion asigna un nombre a la variable R101.
(9) $SETUP es un comando que indica el n de las proposiciones de Recode y el comienzo de
las proposiciones de control del programa TABLES.
(10) Este es un ltro que indica que los unicos casos que se van a usar son aquellos en los cuales
la variable V11 tenga el c odigo 2, para las mujeres.
(11) Este es un ttulo que contiene el texto que se va a utilizar como encabezamiento de los listados.
(12) Esta lnea especica los par ametros principales. Como solo se ha dado un asterisco, para esta
ejecuci on se escogen las opciones por defecto para todos los par ametros.
(13) La palabra TABLES se introduce en este punto para separar la informacion global precedente,
valida para toda la ejecuci on, de las especicaciones de las tablas individuales que siguen.
(14) Esta proposicion solicita distribuciones de frecuencia univariadas para 5 variables.
(15) Ahora se solicitan tablas bivariadas. Las celdas van a contener los conteos (frecuencias) y los
porcentajes de la; para cada tabla se imprimira la estadstica Ji-cuadrada. Las dos listas de
variables que siguen a las palabras clave ROWVAR y COLVARS especican aquellas variables
que se utilizaran, para las las y las columnas de las tablas, respectivamente. De esta manera
se produciran sucesivamente cuatro tablas: R101 (ingreso agrupado) por V13, V14, V15 y
V16.
Parte II
El trabajo con WinIDAMS
Captulo 6
Instalacion
6.1. Requisitos del sistema
El paquete de programas WinIDAMS est a disponible para versiones del sistema operacional Windows
de 32 bits (Windows 95, 98, NT 4.0, 2000 y XP).
Se recomienda un procesador Pentium II o un procesador mas veloz y memoria RAM de 64 megabytes.
En todos los sistemas se deben tener cerca de 11 megabytes de espacio libre en disco antes de instalar
el programa WinIDAMS en cada versi on ling ustica.
6.2. Procedimiento de instalacion
La versi on 1.3 de WinIDAMS se almacena en CD de distribuci on en archivo de autoextraccion
WinIDAMS\English\Install\WIDAMSR13E.EXE : la version en ingl es
WinIDAMS\French\Install\WIDAMSR13F.EXE : la version en frances
WinIDAMS\Portuguese\Install\WIDAMSR13P.EXE : la version en portugues
WinIDAMS\Spanish\Install\WIDAMSR13S.EXE : la version en espa~ nol
o en un archivo telecargado equivalente.
Para instalar la versi on en espa nol:
1. Seleccione WIDAMSR13S.EXE con el explorador Windows.
2. Haga doble click en este archivo y siga las instrucciones de pantalla.
3. Al nal del proceso de instalaci on aparece una caja de di alogo con la pregunta Do you wish to
install HTML Help 1.3 update now? (Desea instalar la actualizacion de ayuda 1.3 de HTML
ahora?). Se recomienda responder YES (S
I).
El procedimiento de instalaci on crea dos elementos en el Administrador de programas/men u Inicio,
uno para ejecutar WinIDAMS y uno para desinstalar WinIDAMS. Tambien crea un cono que es un
vnculo/atajo de WinIDAMS.
6.3. Prueba de la instalacion
Un archivo Setup con las proposiciones para ejecutar 4 programas de manejo de datos (CHECK, CONCHECK,
TRANS y AGGREG) y 6 programas de analisis (TABLES, REGRESSN, MCA, SEARCH, TYPOL y RANK)
se copia en la carpeta Trabajo durante la instalaci on. Para ejecutarlo:
Active WinIDAMS con un doble click en su cono.
66 Instalaci on
Aparece la ventana principal de WinIDAMS con una aplicacion por defecto desplegada en el panel
izquierdo. Abra la carpeta Setup. Hay all el archivo demo.set con las proposiciones para ejecutar los
10 programas
Con un doble click este archivo se abre en la ventana Setup. Ejec utelo desde adentro de esta ventana. Los
resultados se escriben en el archivo idams.lst que se abre autom aticamente en la ventana Resultados.
El archivo demo.lst con la versi on distribuida de los resultados se encuentra en la carpeta Results.
Compare las dos versiones de resultados.
6.4. Archivos y carpetas creados durante la instalacion
6.4.1. Carpetas de WinIDAMS
El nombre completo de la carpeta del sistema WinIDAMS se da en Seleccione la Carpeta Destino del
instalador y se crean las siguientes carpetas (ver el captulo Carpetas y archivos para una descripcion mas
detallada) durante la instalaci on:
de la version en ingl es de la version en frances
<WinIDAMS13-EN>\appl <WinIDAMS13-FR>\appl
<WinIDAMS13-EN>\data <WinIDAMS13-FR>\data
<WinIDAMS13-EN>\temp <WinIDAMS13-FR>\temp
<WinIDAMS13-EN>\trans <WinIDAMS13-FR>\trans
<WinIDAMS13-EN>\work <WinIDAMS13-FR>\work
de la version en portugues de la version en espa~ nol
<WinIDAMS13-PT>\appl <WinIDAMS13-SP>\appl
<WinIDAMS13-PT>\data <WinIDAMS13-SP>\data
<WinIDAMS13-PT>\temp <WinIDAMS13-SP>\temp
<WinIDAMS13-PT>\trans <WinIDAMS13-SP>\trans
<WinIDAMS13-PT>\work <WinIDAMS13-SP>\work
6.4.2. Archivos instalados
Archivos del sistema en la carpeta Sistema
(\WinIDAMS13-EN, \WinIDAMS13-FR, \WinIDAMS13-PT, \WinIDAMS13-SP)
WinIDAMS.exe Archivo principal ejecutable de la Interfaz del Usuario de WinIDAMS
Ter32.dll |
Hts.dll | Dlls usados por la Interfaz del Usuario de WinIDAMS
unesys.exe Archivo ejecutable usado para la ejecucion de setups
Idame.mst Archivo maestro de base de datos de texto para los programas de IDAMS
Idame.xrf Archivo de referencias cruzadas para la base de datos de texto
idams.def Definici on del mapeo entre ddnames y nombres de archivo
Graph32.exe Archivo ejecutable GraphID
graphid.ini Archivo .ini usado por GraphID para almacenar colores,
fuentes y coordenadas
Idtml32.exe Archivo ejecutable TimeSID
Idaddto32.dll Dll usado por GraphID y TimeSID
IDAMSC_DLL.dll Dll usado por TimeSID
Idams.chm Archivo de ayuda (Manual de referencias del usuario) de WinIDAMS
<pgname>.pro Prototipos para programas de IDAMS
6.5 Desintalacion 67
Archivos de diccionario y de datos usados como ejemplos, guardados en la carpeta Datos
(\WinIDAMS13-EN\data, \WinIDAMS13-FR\data, \WinIDAMS13-PT\data, \WinIDAMS13-SP\data)
educ.dic
educ.dat
rucm.dic
rucm.dat
watertim.dic
watertim.dat
data.csv
tab.mat
Archivos de setup y de resultados de demostracion, guardados en la carpeta Trabajo
(\WinIDAMS13-EN\work, \WinIDAMS13-FR\work, \WinIDAMS13-PT\work, \WinIDAMS13-SP\work)
demo.set
demo.lst
6.5. Desintalacion
Durante el procedimiento de instalaci on, se crea un programa desinstalador. El usuario puede ejecutar
el desinstalador bien haciendo clic en WinIDAMS/Uninstall WinIDAMS en el Administrador de progra-
mas/men u Inicio o bien suprimiendo la entrada WinIDAMS versi on 1.3 en espa nol, Julio de 2006 en Agre-
gar/Quitar programas del Panel de control. Este desinstalador borra el contenido del carpeta de WinIDAMS
usada en el proceso de instalaci on. No borra carpetas que no esten vacas.
Captulo 7
Primeros pasos
7.1. Vision general de los etapas con WinIDAMS
En este ejemplo, se prepara un diccionario IDAMS para la descripcion de los datos recogidos en un cues-
tionario y se toman los datos de algunos encuestados. Luego se prepara un conjunto de instrucciones (un
setup) y se usa para obtener distribuciones de frecuencias de Edad, Sexo, y Educacion (n umero de a nos
agrupado en 4 grupos). Se procede como sigue:
1. Cree un ambiente de la aplicacion.
2. Prepare y almacene un diccionario IDAMS que describa las variables en los datos.
3. Capture los datos (este paso sobra si los datos se capturaran fuera de WinIDAMS).
4. Haga y almacene un setup de instrucciones que especique que se va a hacer con los datos.
5. Ejecute el programa de IDAMS seg un el setup.
6. Revise los resultados y modique el setup si es necesario; despues repita a partir del paso 4.
7. Imprima los resultados.
Para comenzar, primero active WinIDAMS. Vera la ventana principal de WinIDAMS
70 Primeros pasos
7.2. Creacion de un ambiente de aplicacion
El ambiente de la aplicacion le permite denir rutas para tres carpetas. Todos los archivos de entrada/salida
se abrir an/crear an por defecto en una de estas carpetas. Esto le evita tener que escoger o suministrar siempre
la ruta completa de la carpeta.
Los archivos Diccionario y Datos: en la carpeta Datos.
Los archivos Setup y Resultados: en la carpeta Trabajo.
Los archivos temporales: en la carpeta Temporal.
Haga clic en Aplicacion en la barra de men u y despues en Nuevo. Ahora ve el siguiente dialogo:
Crearemos una nueva aplicacion con el nombre MyAppl y con las carpetas de aplicacion C:\MyAppl\data,
C:\MyAppl\work y C:\MyAppl\temp suministrando estos nombres en los correspondientes cuadros de texto.
7.3 Preparaci on del diccionario 71
Para cada carpeta de aplicacion creada que no exista, se vera un dialogo como el sigue a continuacion:
Haga clic en Yes (Si) para cada carpeta nueva y luego haga clic en OK. Ahora se ve la ventana principal
WinIDAMS nuevamente.
7.3. Preparacion del diccionario
Crearemos un diccionario para describir los registros de datos para las siguientes variables:
N umero Nombre Ancho Codigo de datos faltantes (MD)
1 Identicacion 3
2 Edad 2
3 Sexo 1 9
1 Hombre
2 Mujer
9 MD
4 Educacion 2
Teclee Ctrl/N o haga clic en Archivo/Nuevo. Estos comandos abren el dialogo del Nuevo documento:
El dialogo muestra la lista de tipos de documentos usados en WinIDAMS. Debe escoger IDAMS
Dictionary le (archivo Diccionario), ya seleccionado por defecto.
Haga clic en el campo de Nombre de archivo y suministre el nombre demog. Haga clic en OK. N otese
que autom aticamente se a nade la extensi on .dic al nombre del archivo.
72 Primeros pasos
Ahora se ve:
la ventana Aplicacion;
una ventana con dos paneles para entrar la descripcion de las variables y los c odigos y nombres de
c odigos opcionales asociados. Aparece el nombre completo del archivo Diccionario demog.dic.
Haga clic en la primera celda de la la en el panel de variables e introduzca el n umero de la primera
variable. Tan pronto como comience a introducir los datos de la la marcada con un asterisco, se crea
una nueva la inmediatamente despues y en la la que est a editando, aparece un lapiz en el encabezador
de la. Con Intro o Tab se puede mover al campo siguiente. Ahora introduzca nombre y ancho. Salte
sobre los campos siguientes con Intro o con Tab y capture la descripcion con Intro o Tab en el ultimo
campo. N otese que WinIDAMS adopta la localizacion por defecto cuando se ha aceptado la la de
descripcion.
Cuando se teclea Intro o Tab en el ultimo campo, el lapiz desaparece, lo cual signica que la la ha
sido capturada despues de una vericacion rudimentaria de campos. Ahora el campo es el primero de
la la siguiente (marcada con un asterisco) y puede introducir la descripcion de la segunda variable,
Edad. Haga lo mismo para la variable 3, Sexo, pero suministre para esta variable un c odigo MD1 de
datos faltantes con valor 9 (codigo para ausencia de respuesta).
Despues de aceptar la descripcion de la variable 3, el primer campo (n umero de variable) de la la con
un asterisco, se convierte en el siguiente campo para recibir datos. Haga clic en cualquier campo de la
la que se acaba de introducir (variable 3, Sexo) para activarla.
Cambiese al panel de c odigos haciendo clic en el campo de codigo de la primera la. N otese que este
panel est a sincronizado con la variable para la cual se est an suministrando los datos en el panel de
variables.
Teclee 1 en el campo de c odigo. Nuevamente, tan pronto como se comienza a introducir la informacion
de los nombres de c odigos, se crea una nueva la inmediatamente despues y la la que se est a editando
muestra un lapiz. Oprima Intro para moverse al siguiente campo, introduzca Hombre en el campo de
nombre. Oprima Intro. El campo actual es ahora el campo de c odigo de la la siguiente y puede entrar
2 con nombre Mujer y similarmente para el c odigo 9.
7.4 Captura de datos 73
Regrese al panel de variables haciendo clic en el campo del n umero de variable en la la con asterisco.
Introduzca las informaciones para la variable 4.
Para suprimir las, haga clic al lado de la la y escoja Cortar del men u Edici on.
Guarde el diccionario haciendo clic en Archivo/Guardar como y aceptando el nombre del archivo
demog.dic.
7.4. Captura de datos
Oprima Ctrl/N o haga clic en Archivo/Nuevo. Aparece el mismo dialogo de documento que ya se
vi o para el diccionario.
Seleccione la lnea IDAMS Data le (archivo Datos) de la lista e introduzca el nombre del archivo
Datos. Por convencion, es mejor usar el mismo nombre para el archivo Datos y el archivo Diccionario
correspondiente. S olo cambia la extensi on de archivo, dic para el archivo Diccionario y dat para
el archivo Datos. El diccionario y los datos forman un dataset de IDAMS. Introduzca demog como
nombre de archivo y haga clic en OK.
Un dialogo Abrir archivo muestra ahora los diccionarios que existen para la aplicacion actual y solicita
escoger el diccionario que describe los datos. Escoja demog.dic y haga clic en Abrir.
74 Primeros pasos
Aparece ahora una ventana de entrada de datos con tres paneles. Los datos son introducidos solo en el
panel del fondo. Los otros dos paneles est an sincronizados para mostrar la descripcion de la variable
para la cual est an entrando los datos y los nombres de c odigos si los hay. Se muestra el nombre completo
del archivo Datos demog.dat (la extensi on .dat se a nade autom aticamente).
N otese que en las imagenes que siguen, la ventana Aplicacion est a cerrada.
Haga clic en el primer campo de la la con un asterisco y teclee la primera lnea de datos como se ve
a continuacion, oprima la tecla Intro despues de cada dato. Tan pronto como se empiezan a entrar los
datos, aparece una nueva la y aparece un lapiz en el encabezador de la la a la cual est an entrando
los datos, lo cual indica que se est a editando esta la.
Despues de entrar el valor de la ultima variable V4 y oprimir Intro, el primer campo de la la siguiente
se habilita para recibir datos.
Introduzca los datos de los cinco casos que se dan a continuacion.
7.5 Preparaci on del setup 75
Haga clic en Archivo/Guardar para guardar los datos en el archivo demog.dat.
7.5. Preparacion del setup
Oprima Ctrl/N o haga clic en Archivo/Nuevo.
Seleccione la lnea IDAMS Setup le (archivo Setup) de la lista e introduzca un nombre, por ejemplo,
demog1 para el archivo Setup. Haga clic en OK. N otese que la extensi on .set se a nade autom atica-
mente al nombre del archivo y se muestra el nombre completo del archivo demog1.set.
Se ve ahora una ventana vaca de setup. Introduzca lo siguiente:
76 Primeros pasos
$RUN identica el programa de IDAMS deseado; despues del comando $FILES, se especica el archivo
Datos y el archivo Diccionario correspondiente; en seguida, las proposiciones de Recode aparecen
precedidas de la lnea $RECODE (aqu se usa Recode para reunir a nos de educacion en 4 grupos);
nalmente, se dan los par ametros (de acuerdo con las reglas del programa TABLES) para la tarea (en
este caso se solicitan distribuciones de frecuencia univariadas), precedidas del comando $SETUP.
Haga clic en Archivo/Guardar y guarde el setup en el archivo demog1.set.
7.6. Ejecucion del setup
Desde adentro de la ventana Setup, haga clic en Ejecutar/Setup actual. Se guarda el setup en un
archivo temporal y se ejecuta. Aparece un dialogo durante la ejecuci on y desaparece si la ejecuci on
tuvo exito.
Los resultados se escriben, por defecto, en el archivo idams.lst. Para cambiar esta accion por defecto,
se puede a nadir debajo de $FILES una lnea PRINT con el nombre del archivo requerido, por ejemplo,
print=a:demog1.lst para guardar los resultados en un diskette.
7.7. Revision de los resultados y modicacion del setup
El archivo de los resultados se carga autom aticamente cuando se termina la ejecuci on.
7.7 Revision de los resultados y modicacion del setup 77
La tabla de contenido de los resultados que hay en el panel izquierdo permite localizar rapidamente
partes diferentes.

Abrala haciendo clic en idams.lst y oprima el boton con un asterisco en el teclado
numerico, ahora haga clic en el elemento que desea ver.
Si desea cambiar algo en el setup mientras revisa los resultados, entonces haga clic en el TAB de-
mog1.set y haga las modicaciones requeridas. Oprima Ctrl/E para ejecutar.
78 Primeros pasos
7.8. Impresion de los resultados
Seleccione Archivo/Imprimir.
Seleccione las p aginas que desea imprimir y haga clic en OK.
Captulo 8
Archivos y carpetas
8.1. Archivos en WinIDAMS
Archivos del usuario
Estos archivos los crea el usuario con la ayuda de las herramientas suministradas por la Interfaz del Usuario
de WinIDAMS, o bien, se producen por IDAMS como un resultado nal o como una salida para ser proce-
sada posteriormente. Todos son archivos est andar de texto ASCII. Se permiten caracteres de tabulaci on; se
convierten autom aticamente al n umero correcto de blancos. Las extensiones unicadas las usa la Interfaz del
Usuario para reconocer el tipo del archivo.
Archivo Datos (*.dat). Cualquier archivo de datos puede entrar a los programas de IDAMS teniendo
en cuenta que cada caso contenga un n umero igual de registros de formato jo. Sin embargo, si la
Interfaz del Usuario usa un archivo Datos, solo puede haber un registro por caso.
Puede haber registros de longitud variable con un maximo de 4096 caracteres por caso. Si el primer
registro del archivo no es mas largo, entonces la longitud maxima de registro (RECL) debe especi-
carse en la proposicion de especicaci on de archivo correspondiente. Los archivos producidos por los
programas de IDAMS tienen registros de longitud ja sin caracteres de tabulaci on. En general, no hay
lmite para el n umero de casos que pueden entrar a un programa de IDAMS.
Archivo Diccionario (*.dic). Se usa para describir las variables en los datos. Como mnimo,
debe describir solamente las variables usadas en una ejecuci on particular de un programa, pero puede
describir todas las variables en cada registro de datos. La longitud de registro es variable, pero tiene
un maximo de 80. Si un programa IDAMS produce un diccionario, entonces la longitud del registro es
ja (80 caracteres) sin caracteres de tabulaci on.
El diccionario se puede preparar sin conocer su formato interno, en la ventana Diccionario de la Interfaz
del Usuario. Alternativamente, se puede preparar con el Editor General y siguiendo el formato dado
en el captulo Los datos en IDAMS.
Archivo Matriz (*.mat). Las matrices de IDAMS (para guardar varias estadsticas) tienen registros
de longitud ja (80 caracteres) sin caracteres de tabulaci on.
Archivo Setup (*.set). Este archivo se usa para guardar comandos de IDAMS, especicaciones
de archivos, proposiciones de control del programa y proposiciones de Recode (si las hay). Se puede
preparar en la ventana Setup de la Interfaz del Usuario. La longitud de registro es variable aunque el
maximo es de 255 caracteres.
Archivo Resultados (*.lst). Normalmente IDAMS escribe los resultados en un archivo. El contenido
de este archivo puede entonces revisarse antes de producir la salida al papel.
Nota: para facilitar el trabajo con WinIDAMS, se aconseja utilizar el mismo nombre para los archivos
Diccionario y Datos, y el mismo nombre para los archivos Setup y Resultados.
Los archivos del usuario se especican a continuacion del comando $FILES en el archivo Setup (ver el captulo
El archivo Setup de IDAMS).
80 Archivos y carpetas
Archivos del sistema
El usuario no tiene acceso directo a los archivos del sistema. Estos se crean durante el proceso de instalaci on
(archivos permanentes del sistema), durante la personalizacion del ambiente para una aplicacion (archivos
Aplicacion) o durante la ejecuci on de procedimientos de WinIDAMS (archivos temporales de trabajo).
Archivos permanentes del sistema. Incluyen los archivos ejecutables de programas, archivos dll,
archivos de par ametros del sistema, archivo del Manual en pantalla (en formato HTML Help) y archivos
de prototipos de setup.
Archivos de controle del sistema.
Idams.def : deniciones de archivos por defecto que suministran conexion entre nombres logicos
y nombres fsicos de los archivos de usuario y los archivos temporales de trabajo.
<application nombre>.app : un archivo por aplicacion que contiene los nombres de las car-
petas Datos, Trabajo y Temporal.
lastapp.ini : archivo que contiene el nombre de la ultima aplicacion usada.
graphid.ini : los par ametros de conguracion para el componente GraphID .
tml.ini : los par ametros de conguracion para el componente TimeSID .
Archivos temporales de trabajo. No conciernen al usuario ya que se denen y se eliminan au-
tomaticamente. Tienen extensi on de archivo .tmp y .tra.
8.2. Las carpetas en WinIDAMS
Los archivos que usa WinIDAMS se guardan en las siguientes carpetas:
archivos permanentes del systema en la carpeta Sistema,
archivos Aplicacion en la carpeta Aplicaci on,
archivos Datos, Diccionario y Matriz en la carpeta Datos,
archivos Setup y Resultados en la carpeta Trabajo,
archivos temporales de trabajo en la carpeta Temporal y la carpeta Transpuesta.
Las cinco carpetas obligatorias para la aplicacion por defecto deben siempre estar presentes bajo la
carpeta <system dir>. Se denen y se crean por la primera vez durante el proceso de instalaci on. Despues,
cuando WinIDAMS se ejecuta y falta alguna de las carpetas, esta se crea nuevamente de manera autom atica.
carpeta Aplicacion <system dir>\appl
carpeta Datos <system dir>\data
carpeta Temporal <system dir>\temp
carpeta Transpuesta <system dir>\trans
carpeta Trabajo <system dir>\work
donde <system dir> es el nombre de la carpeta Sistema dado durante el proceso de instalaci on.
Referirse a la secci on Personalizacion del ambiente para una aplicacion del captulo Interfaz del Usuario
para una descripcion mas detallada de como las rutas denidas en la aplicacion se usan en los programas de
IDAMS.
Captulo 9
Interfaz del Usuario
9.1. Concepto general
La Interfaz del Usuario de WinIDAMS es una interfaz de documentos m ultiples. Puede mostrar y trabajar
simult aneamente diferentes tipos de documentos tales como Diccionario, Datos, Setup, Resultados y docu-
mentos Texto en ventanas separadas. M as aun, suministra el acceso a la ejecuci on de los setups de IDAMS
y de los componentes para el analisis interactivo de datos, a saber: Tablas multidimensionales, Exploraci on
graca de los datos y Analisis de series de tiempo desde cualquier ventana del documento. La ventana
principal de WinIDAMS contiene:
la barra de men u para abrir men us desplegables con opciones o comandos de WinIDAMS,
la barra de herramientas para escoger comandos rapidamente,
la barra de estado para mostrar informacion acerca del documento activo o de la opcion o comando
resaltado,
la ventana Aplicaci on, ubicada en el lado izquierdo, para mostrar el nombre de la aplicacion,
carpetas y documentos para la aplicacion activa,
las ventanas de documentos para mostrar los diferentes documentos de WinIDAMS.
82 Interfaz del Usuario
La barra de men u y la barra de herramientas tienen contenidos jos y dependiente de documentos. Los
men us comunes a todos los tipos de documento se describen a continuacion y los men us que dependen del
tipo de documento se describen en las secciones relevantes.
9.2. Men us comunes a todas las ventanas de WinIDAMS
La barra de men u principal contiene siempre los siguientes siete men us: Archivo, Edici on, Ver, Ejecutar,
Interactivo, Ventana y Ayuda.
Archivo
Nuevo Llama al cuadro de dialogo para seleccionar el tipo de documento a crear y
suministrar su nombre y localizacion.
Abrir Despues de escoger el tipo de documento, llama al cuadra de dialogo para
seleccionar el documento a abrir.
Cerrar Cierra la ventana activa.
Guardar Guarda el documento mostrado en la ventana activa.
Guardar como Llama al cuadro de dialogo para guardar el documento que est a en la ventana
activa.
Congurar impresora Llama al cuadro de dialogo para cambiar las optiones de impresion y de la
impresora.
Vista preliminar Muestra el documento activo tal como se vera cuan lo se imprima.
Imprimir Llama al cuadro de impresion para imprimir el conenido del documento
mostrado en la ventana activa o en el panel activo. N otese que las partes
ocultas del documento no se imprimen.
Salir Termina la sesi on de WinIDAMS.
El men u puede contener tambien la lista hasta de 7 documentos abiertos recientemente, es decir, documentos
usados en sesiones anteriores de WinIDAMS.
Edicion
La disponibilidad y algunas veces el ttulo de algunos comandos en este men u puede ser diferente en diferentes
ventanas.
Deshacer Reversa la ultima accion.
Rehacer Hace nuevamente la ultima accion cancelada.
Cortar Mueve la selecci on al portapapeles.
Copiar Copia la selecci on al portapapeles.
Pegar Copia el contenido del portapapeles al sitio donde est a ubicado el cursor.
Buscar Da comienzo al mecanismo de b usqueda de Windows.
Reemplazar Da comienzo al mecanismo de reemplazo de Windows.
Buscar siguiente Busca la siguiente ocurrencia de la cadena de caracteres activa en el cuadro
de dialogo de Buscar.
N otese que en las ventanas Resultados y Texto, las acciones de buscar/reemplazar se activan con los comandos
Buscar, Buscar adelante, Buscar atr as, y Reemplazar.
9.3 Personalizacion del ambiente para una aplicacion 83
Ver
Barra de herramientas Muestra/oculta la barra de herramientas.
Barra de estado Muestra/oculta la barra de estado.
Aplicaci on Muestra/oculta la ventana Aplicacion.
Pantalla completa Muestra la ventana activa en pantalla completa. Haga clic en el cono Cerrar
la pantalla completa en la esquina superior izquierda o teclee Esc para
regresar a la ventana anterior.
Ejecutar
Con excepcion de la ventana Setup, el men u solo tiene un comando, Seleccionar setup, para seleccionar un
archivo con el setup a ejecutar.
Interactivo
Con este men u, se puede acceder a tres componentes de analisis interactivo, a saber:
Tablas multidimensionales
Exploracion graca de los datos
Analisis de series de tiempo
Ver los captulos correspondientes para una descripcion detallada de cada componente.
Ventana
El men u contiene la lista de ventanas abiertas y de comandos est andar de Windows para organizarlos.
Ayuda
Manual de WinIDAMS Da acceso al Manual de Referencia de WinIDAMS.
Acerca de WinIDAMS Muestra informacion de la versi on y el copyright de WinIDAMS y un vnculo
para acceder a la p agina web de IDAMS en la sede principal de UNESCO.
9.3. Personalizacion del ambiente para una aplicacion
El usuario puede denir y guardar los nombres de carpetas Datos, Tarbajo y Temporal en los archivos
Aplicacion con el nombre de la aplicacion como nombre del archivo. El nombre de la ultima aplicacion usada
es guardado por el sistema y las caractersticas que denen esta aplicacion se cargan al comienzo de la
siguiente sesi on. Estas caractersticas se pueden cambiar en cualquier momento durante la sesi on de trabajo
mediante la selecci on/creacion y activaci on de otra aplicacion.
Como es necesario, por lo menos, un archivo Aplicacion para usar WinIDAMS, se suministra una aplicacion
est andar llamada Default y se activa cuando se usa WinIDAMS por primera vez despues de la instalaci on.
Las caractersticas de denicion por defecto son:
Carpeta Datos <system dir>\data
Carpeta Trabajo <system dir>\work
Carpeta Temporal <system dir>\temp
donde <system dir> es el nombre de la carpeta Sistema jado durante la instalaci on. Esta aplicacion (guarda-
da en el archivo Default.app) nunca debe suprimirse o modicarse.
El usuario puede crear, modicar, o suprimir los archivos Aplicacion (excepto el archivo Default.app) con
el men u Aplicaci on de la barra de men u de la ventana principal de WinIDAMS. Contiene los siguientes
comandos:
Nueva Llama al cuadro de dialogo para crear una aplicacion nueva.
Abrir Llama al cuadro de dialogo para escoger un archivo con los detalles de la
aplicacion que se va a abrir.
Mostrar Llama al cuadro de dialogo para escoger el archivo Aplicaci on y muestra las
caractersticas de la aplicacion.
Cerrar Cierra la aplicacion activa y abre la aplicacion Default.
Actualizar Crea nuevamente el arbol de la aplicacion en uso.
Creaci on de una nueva aplicacion. La selecci on del comando Nueva de men u Aplicacion suministra un
cuadro de dialolgo para introducir el nombre de una nueva aplicacion y los nombres de las carpetas Datos,
Trabajo y Temporal. Con excepcion del campo para el nombre de la aplicacion, el cual est a libre, todos los
otros campos tienen valores tomados de la aplicacion por defecto, que se pueden modicar. Puede introducir
el nombre de la ruta o escogerlo, moviendo el resaltador al nombre requerido en el arbol de las carpetas.
Oprima el boton de OK para guardar la aplicacion. Con Cancelar, cancela la creacion de una nueva aplicacion
y regresa a la ventana principal de WinIDAMS con las caractersticas mostradas previamente.
Abrir una aplicacion. El comando Abrir de men u Aplicacion llama al cuadro de dialogo para escoger un
archivo de aplicacion para abrir y suministra una lista de aplicaciones existentes en la carpeta Aplicacion.
Haciendo clic en el nombre requerido, se activan las caractersticas de esta aplicacion.
Modicar una aplicacion. Primero abrala y luego cambie los valores de la misma manera que para crear
una aplicacion.
Mostrar las caractersticas de una aplicacion. Use el comando Mostrar de men u Aplicacion para llamar
al cuadro de dialogo y haga clic en el nombre deseado.
Para mostrar las caractersticas de una aplicacion activa, haga doble clic en el nombre en la ventana Apli-
cacion.
Suprimir una aplicacion. Se puede retirar una aplicacion existente si se suprime el archivo correspondiente.
Use el comando Abrir de men u Aplicacion para obtener una lista de archivos Aplicacion, escoja el archivo
para suprimir y use el boton derecho para acceder al comando de supresi on de Windows. No se debe suprimir
el archivo Default.app.
Restaurar las caractersticas de WinIDAMS por defecto. Se puede hacer de dos maneras: con el
comando Cerrar de men u Aplicacion, o bien para escoger y abrir el archivo Default.app.
Cerrar una aplicacion activa. Use el comando Cerrar de men u Aplicacion. Se activa la aplicacion por
defecto.
Las rutas denidas en la aplicacion las usan los programas de IDAMS para prejar el nombre de
cualquier archivo que no comience con <unidad>:\... o con \....
9.4 Crear/actualizar/mostrar archivos Diccionario 85
La ruta de la carpeta Datos : en las proposiciones con ddnames DICT..., DATA..., o FTnn referido a
matrices.
La ruta de la carpeta Trabajo : en las proposiciones con ddnames PRINT o FT06.
La ruta de la carpeta Temporal : los nombres de archivos temporales.
Ejemplo:
Carpeta Datos: c:\MyStudy\students\data
Especificacion en el setup: dictin=students2004.dic
Nombre completo del archivo diccionario: c:\MyStudy\students\data\students2004.dic
9.4. Crear/actualizar/mostrar archivos Diccionario
La ventana Diccionario para crear, actualizar o mostrar un diccionario de IDAMS, se llama cuando:
usted crea un nuevo archivo Diccionario (el comando Nuevo/IDAMS Dictionary le (archivo Dic-
cionario) de men u Archivo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Diccionario (con la extensi on .dic) mostrado en la ventana Aplicacion (haga
doble clic en el nombre del archivo requerido de la lista de Datasets),
usted abre un archivo Diccionario (con cualquier extensi on) que no est a en la ventana Aplicacion (el
comando Abrir/Diccionario de men u Archivo o el boton Abrir de la barra de herramientas).
Esta ventana suministra dos paneles: uno para la denicion de variables (panel Variables) y otro para los
c odigos y los nombres de c odigos de la variable en cuestion (panel Codigos). Una lnea azul en la parte
superior del panel, indica el panel activo.
Los encabezamientos de columna en el panel Variables tiene el siguiente signicado:
N umero N umero de variable.
Nombre Nombre de variable.
Loc, Ancho Posicion inicial y ancho del campo de la variable en el archivo Datos.
Dec N umero de cifras decimales; un blanco implica que no hay decimales.
Tipo Tipo de variable (N=numerica, A=alfabetica).
Md1 Primer c odigo de datos faltantes para variables numericas.
Md2 Segundo c odigo de datos faltantes para variables numericas.
Refe N umero de referencia.
IdEs Identicador del estudio.
Para mayor detalle, ver la secci on El diccionario IDAMS en el captulo Los datos en IDAMS. N otese
que con la ventana Diccionario, solo se pueden crear, actualizar, mostrar diccionarios de descripcion de datos
que tengan un registro por caso.
Cambiar la apariencia de los paneles. La apariencia de cada panel se puede cambiar separadamente y
los cambios se aplican exclusivamente al panel activo.
En cada panel hay las siguientes posibilidades de modicacion:
Aumentar el tama no de la fuente - use el boton Aumentar de la barra de herramientas.
Disminuir el tama no de la fuente - use el boton Reducir de la barra de herramientas.
Restaurar el tama no de la fuente por defecto - use el boton 100 % de la barra de herramientas.
Aumentar/Disminuir el ancho de columna - coloque el cursor del rat on sobre la lnea que separa dos
columnas en el encabezado de columna hasta que le cursor se haya convertido en una barra horizontal
con dos echas y muevalo a derecha/izquierda teniendo apretado el boton izquierdo del rat on.
El panel Variables puede modicarse aun mas asi:
Aumentar/Disminuir el alto de las - coloque el cursor del rat on sobre la lnea que separa dos las en
el encabezado de la hasta que el cursor se haya convertido en una barra horizontal con dos echas y
muevalo arriba/abajo manteniendo apretado el boton izquierdo del rat on.
Denir una variable. Coloque el cursor en el panel Variables, llene el n umero de variable (por lo menos uno
es obligatorio, las siguientes variables se numeraran a nadiendo el valor 1), nombre (opcional), localizacion
(si no se suministra, se asigna 1 a la primera variable y para las variables siguientes, se calcula la localizacion
sumando el ancho de la variable precedente) y ancho (obligatorio). Otros campos tienen valores por defecto
(que usted puede aceptar o modicar) o son opcionales y se pueden dejar en blanco. Oprima Intro o Tab para
aceptar un valor en un campo y moverse al siguiente, o May usculas/Tab para moverse al campo anterior.
N otese que mientras aparezca un lapiz peque no en el encabezado de la, esta no se habr a guardado. Oprima
Intro para aceptar la denicion completa de variables. Un asterisco en el encabezado de la indica que esta
es la la siguiente y puede introducir una nueva denicion de variable.
Denir los c odigos y sus nombres para una variable. Cambiese al panel Codigos y llene los campos
de c odigos y nombres de c odigos. Llene el valor del c odigo, luego oprima Intro o Tab y llene el nombre del
c odigo, luego Intro o Tab para aceptar la la y moverse a la siguiente. Una vez que se hayan denido los
c odigos y sus nombres, regrese al panel de Variables para la denicion de una nueva variable.
Modicar un campo bien en panel Variables o panel Codigos. Haga clic en el campo e introduzca el nuevo
valor (al entrar el primer car acter del nuevo valor se borra el campo). Si se hace doble clic en el campo su
valor se puede modicar parcialmente. Se puede usar la tecla Esc para recuperar el valor previo.
Las operaciones de edicion se pueden hacer en una la o en un bloque de las. Para marcar una la,
haga clic en cualquier campo de la misma. Aparece un triangulo en el encabezado de la y la la se colorea
con azul oscuro. Para marcar un bloque de las, coloque el cursor en el encabezado de la en donde se desea
iniciar la marcacion y haga clic sobre le boton izquierdo del rat on. La la se vuelve amarilla, indicando que
est a activa. Ahora mueva el cursor arriba o abajo hasta la la en la que desea terminar la marcacion y haga
clic en el boton izquierdo del rat on mientra oprime la tecla de may usculas. Las las marcadas se colorean
con azul oscuro y el color amarillo marca la la activa.
Puede Cortar, Copiar y Pegar las marcadas usando los comandos de Edici on, botones equivalentes de la
barra de herramientas o las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Con el boton derecho del rat on usted puede Insertar antes, Insertar despues, Suprimir o Borrar la la activa
(aun cuando se haya marcado un bloque de las).
9.5 Crear/actualizar/mostrar archivos Datos 87
Detectar errores en un diccionario. Utilize el comando Validez de men u Vericar. Est an se nalados
uno a uno y se pueden corregir una vez se hayan mostrado todos. M as aun la Interfaz trata de prevenir
que se guarden diccionarios con errores. Tambien, cuando se abre un diccionario con errores, se advierte su
existencia antes de abrir el mismo.
9.5. Crear/actualizar/mostrar archivos Datos
La ventana Datos se usa para crear, actualizar o mostrar un archivo Datos de IDAMS. N otese que debe
haberse construido un diccionario de IDAMS que corresponda al archivo Datos y que con la ventana Datos
solo se pueden crear, actualizar o mostrar archivos Datos con un registro por caso. Esta ventana se llama
cuando:
usted crea un nuevo archivo Datos (el comando Nuevo/IDAMS Data le (archivo Datos) de men u Archi-
vo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Datos (con la extensi on .dat) mostrado en la ventana Aplicacion (haga doble
clic en el nombre del archivo requerido de la lista de Datasets),
usted abre un archivo Datos (con cualquier extensi on) que no est a en la ventana Aplicacion (el comando
Abrir/Datos de men u Archivo o el boton Abrir de la barra de herramientas).
La ventana se divide en tres paneles: uno muestra los c odigos y sus nombres de la variable se nalada (panel
Codigos), el segundo muestra la denicion de las variables (panel Variables) y el tercero provee lugar para
introduccion/modicacion de datos (panel Datos). S olo se puede editar el panel Datos. Los otros dos paneles
solo muestran la informacion relevante. Una lnea azul en la parte superior de cada panel indica cual panel
est a activa. Los paneles est an sincronizados, es decir, la selecci on de un campo de variable en el panel Datos
hace resaltar su correspondiente descripcion y la selecci on de un campo en el panel Variables muestra el
valor correspondiente a la variable en el caso se nalado. Para la variable seleccionada, siempre se muestran
los c odigos y sus nombres, si los hay.
Cambiar la apariencia de los paneles. La apariencia de cada panel se puede cambiar separadamente y
los cambios se aplican exclusivamente al panel activo.
En cada panel hay las siguientes posibilidades de modicacion:
Aumentar el tama no de la fuente - use el comando Aumentar de men u Ver o el boton Aumentar de la
barra de herramientas.
Disminuir el tama no de la fuente - use el comando Reducir de men u Ver o el boton Reducir de la barra
de herramientas.
Restaurar el tama no de la fuente por defecto - use el comando 100 % de men u Ver o el boton 100 % de
la barra de herramientas.
columnas en el encabezado de columna hasta que le cursor se haya convertido en una barra horizontal
El panel Datos puede modicarse aun mas as:
Aumentar/Disminuir el alto de las - coloque el cursor del rat on sobre la lnea que separa dos las en
muevalo arriba/abajo manteniendo apretado el boton izquierdo del rat on.
Colocar columna(s) al comienzo - marque la(s) columna(s) requerida(s) y use el comando Inmovilizar
columnas de men u Ver (use el comando Liberar de men u Ver para regresarlas).
Mostrar datos en un panel m ultiple - use el comando Dividir de men u Ventana. Se suministra una
cruz para determinar el tama no de los cuatro paneles. El tama no se puede cambiar despues usando
la tecnica estandar de Windows. Se muestran todos los datos cuatro veces. La divisi on horizontal se
puede quitar haciendo doble clic en la lnea horizontal, la divisi on vertical se puede quitar haciendo
doble clic en la lnea vertical y toda la divisi on se puede quitar haciendo doble clic en el centro de la
divisi on.
Introducir un nuevo caso. Haga clic en el primer campo de una la vaca y comience a teclear los datos.
Oprima Intro o Tab para aceptar un dato para la variable y muevase a la variable siguiente, o May usculas/Tab
para moverse a la variable anterior. N otese que mientras aparezca un peque no lapiz en el encabezado de la,
el caso no se guarda. Oprimir Intro en la ultima variable guarda el caso y mueve el cursor al comienzo de
la la siguiente. Se puede insertar una la nueva antes o despues de la la resaltada (haga clic en el boton
derecho del rat on), o puede adicionarse la nal del archivo (la con un asterisco en el encabezado de la).
La entrada de datos se puede facilitar tomando ventaja de dos opciones dadas en el men u Opciones:
Verica c odigos verica valores de datos durante la entrada de los mismos contra c odigos denidos en el
diccionario, los solos dados por validos.
Salto automatico mueve el cursor autom aticamente al siguiente campo cuando haya un n umero suciente
de dgitos para llenar el campo. Si no se selecciona, debe oprimir Intro o Tab para moverse al campo
siguiente.
Modicar el valor de una variable. Haga clic en el campo de la variable y entre el nuevo valor (la entrada
del primer car acter del nuevo valor, borra el campo). Se puede usar doble clic en el campo de una variable
para modicar parte del valor. Se puede usar la tecla Esc para recuperar el valor previo.
Copiar el valor de una variable a otro campo. Haga clic en el campo de la variable y copie su contenido
al portapapeles (el comando Copiar de men u Edici on, Ctrl/C o Copiar de la barra de herramientas). Despues,
haga clic en otro campo y peque el valor (el comando Pegar de men u Edici on, Ctrl/V o Pegar de la barra
de herramientas). El comando Deshacer caso de men u Edici on se puede usar para recuperar el valor previo.
Las operaciones de edicion se pueden hacer sobre una la o un bloque de las de la misma manera que
en la ventana del Diccionario. Para marcar una la, haga clic en cualquier campo de esta la. Aparece un
triangulo en el encabezado de la la y la la se colorea en azul oscuro. Para marcar un bloque de las, colque
le cursor en el encabezado de la la en donde quiere comenzar a marcar y haga clic en el boton izquierdo del
rat on para encenderlo. La la se torna amarilla, para indicar que est a activa. Mueva ahora el cursor hacia
arriba o hacia abajo hasta la la en la cual desea terminar la marcacion y haga clic en el boton izquierdo
del rat on mientras oprime la tecla de may usculas. Las las marcadas se colorean con azul oscuro y el color
amarillo muestra la la que est a activa.
9.6 Importacion de archivos de datos 89
Las las marcadas se pueden cortar, copiar o pegar con los comandos bajo Edici on, con los botones equiva-
lentes de la barra de herramientas o con las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Con el boton derecho del rat on se puede Insertar antes, Insertar despues, Suprimir o Borrar la la activa
(aun si est a marcado un bloque de las).
Dos comandos para manejo de datos en el men u Gestion de datos permiten vericacion de los datos
despues de la entrada de los mismos o bien de los datos venidos del exterior, y clasicacion de los datos:
Vericar c odigos verica valores de datos de todos los casos en el archivo Datos contra los c odigos denidos
en el diccionario, los solos dados por validos. Al nal de la vericacion, aparece un mensaje que muestra
el n umero de errores encontrados y se ofrece la posibilidad de corregirlos uno a uno con el cuadro de
dialogo para correccion de datos. Este cuadro suministra el n umero secuencial de caso, n umero y
nombre de variable, valor de c odigo invalido, y una lista de c odigos validos como est an denidos en el
diccionario.
Clasicar llama al cuadro de dialogo de la clasicacion para especicar hasta tres variables de clasicacion
y su correspondiente orden de clasicacion de cada una de ellas. Despues de hacer clic en OK, aparece
el archivo clasicado en el panel Datos.
Tambien se pueden clasicar los datos sobre una variable (una columna) con doble clic en el n umero de
la variable del encabezado del panel de datos. Un doble clic clasica los casos en orden ascendente. Para
obtener la clasicacion en orden descendiente, repita el doble clic.
Se proponen dos tipos de gr aco para una variable en el men u Gracos.
Graco de barras suministra un graco de barras basado en frecuencias o porcentajes de las categoras de
una variable cualitativa. Para variables cuantitativas, el usuario dene el n umero de barras (NB) en dos lados
de la media (M) y un coeciente (C) para calcular el ancho de las barras (clases). El ancho de las barras
(BW) es igual al valor de la desviacion est andar (STD) multiplicado para el coeciente (BW=C*STD).
Las barras se construyen usando los valores M-NB*BW, ..., M-2BW, M-BW, M, M+BW, M+2BW, ...,
M+NB*BW. El alto de un ect angulo= (frecuencia relativa de la clase)/(ancho de la clase). Ademas, para
variables cuantitativas se puede obtener una curva de la distribuci on normal con la media y desviacion
est andar calculadas.
Histograma, orientado a variables cuantitativas, suministra un histograma basado en frecuencias o por-
centajes con el n umero de barras especicado por el usuario.
Los gracos para variables cuantitativas contienen tambien estadsticas univariadas para la variable trazada
tales como: media, desviacion est andar, variancia, asimetra y kurtosis. Las variables con puntos decimales se
multiplican por un factor de escala para obtener valores enteros. En este caso, se debe ajustar en consecuencia
los valores de la media, de la desviacion est andar y de la variancia.
9.6. Importacion de archivos de datos
WinIDAMS suministra una herramienta para importar archivos de datos directamente a IDAMS a traves
de la Interfaz del Usuario. Se puede acceder a esta herramienta en la ventana principal de WinIDAMS, en
la ventana Datos y en la ventana Tablas multidimensionales.
Se pueden importar tres tipos de archivos de formato libre:
archivos .txt delimitados con Tab,
archivos .csv separados con punto y coma,
archivos .csv separados con coma.
La informacion dada en la primera la se considera como etiquetas de columnas y se usa como nombres de
variables durante el proceso de construcci on del diccionario. Entonces, la presencia de etiquetas de columnas
es obligatoria en la primera la de los archivos de entrada.
Ademas, el car acter usado para separar campos se detecta en la primera la y el car acter usado en la notaci on
decimal se detecta en la secunda la del archivo. Entonces, si una variable tiene valores decimale, la presencia
de estos valores es obligatoria en la secunda la del archivo.
Durante el proceso de importacion, el contenido de las variables alfabeticas importadas se puede cambiar a
c odigos numericos, manteniendo los valores alfabeticos como nombres de c odigos en el diccionario de IDAMS
creado. Comas usadas como separador decimal para variables numericas se convierten en puntos.
La operacion de importacion de datos se activa con el comando Importar de men u Archivo, seguido
de la selecci on del archivo requerido en el cuadro de dialogo est andar Abrir de archivos. Se muestran juntos
con los valores de todos los campos para los tres primeros casos. Entonces, se puede vericar la lectura de
los datos antes de proceder a la importacion. Despues aparecen dos ventanas llamadas Datos externos y
Denicion de variables, ambas son ventanas de tipo hoja de c alculo.
La ventana de Datos externos solo muestra el contenido del archivo a importar. No se permiten opera-
ciones de edici on con excepcion de copiar una selecci on al portapapeles.
La ventana de Denici on de variables sirve para preparar descripcion de variables de IDAMS. Su
contenido inicial viene dado por defecto y sobre la base de los datos importados, pero hay libertad de
cambiarlo y completarlo si es necesario.
Las columnas tienen la siguiente informacion:
Descripcion Nombre de variable
Tipo Tipo de variable (numerica por defecto). Es el tipo de variable de entrada.
Si una variable de entrada es alfabetica y debe salir como numerica, solicite
recodicacion (ver mas adelante).
AnchMax Ancho maximo de la variable.
NDec N umero de cifras decimales; blanco implica que no hay cifras decimales.
Md1 Primer c odigo de datos faltantes para variables numericas.
Md2 Segundo c odigo de datos faltantes para variables numericas.
Recodicacion Solicitud para recodicar una variable alfabetica a valores numericos.
Para modicar la denicion de variables, coloque el cursor dentro de la ventana y despes use las teclas de
navegaci on o el rat on para moverse al campo requerido y cambiar su contenido.
Use el comando Dataset de men u Construir para crear el archivo Diccionario de IDAMS y el archivo Datos.
Ambos estar an en la carpeta Datos de la aplicacion activa.
9.7. Exportacion de archivos Datos de IDAMS
WinIDAMS tiene tambien una herramienta para exportar datos directamente a traves de la Interfaz del
Usuario. Esto se puede hacer desde la ventana Datos con el comando Exportar de men u Archivo. El archivo
Datos de IDAMS que aparece en la ventana en que se est a trabajando, se puede guardar en uno de los tres
tipos de archivos de formato libre:
archivos .txt delimitados por Tab,
archivos .csv separados con punto y coma.
archivos .csv separados con coma.
En la primera la de los datos exportados, los nombres de variables del diccionario correspondiente, aparecen
como nombres de columnas.
Si existen nombres de c odigos para una variable, los valores numericos de c odigos se pueden sustituir opcional-
mente por sus correspondientes nombres en el archivo de datos en salida. Ademas, las variables numericas
pueden salir con coma usada como separador decimal.
9.8 Crear/actualizar/mostrar archivos Setup 91
9.8. Crear/actualizar/mostrar archivos Setup
La ventana Setup para preparar o mostrar un archivo Setup de IDAMS se llama cuando:
usted crea un nuevo archivo Setup (el comando Nuevo/IDAMS Setup le (archivo Setup) de men u Archi-
vo o el boton Nuevo de la barra de herramientas),
usted abre un archivo Setup (con extensi on .set) mostrado en la ventana Aplicacion (haga doble clic
en el nombre del archivo requerido en la lista de Setups),
usted abre un archivo Setup (con cualquier extensi on) que no este en la ventana Aplicacion (el comando
Abrir/Setup de men u Archivo o el boton Abrir de la barra de herramientas.
La ventana suministra dos paneles: el de arriba es para preparar el archivo mismo de setup (panel Setup) y
el de abajo para mostrar los mensajes de error cuando se verican proposiciones de ltro y Recode (panel
Mensajes). S olo se puede editar el panel Setup. N otese que se muestran los comandos de IDAMS en negrilla
y los nombres de programas en rosado si se han escrito correctamente. Los textos colocados en un comando
$comment se muestran en verde.
Para preparar un nuevo setup usted puede teclear todas las proposiciones o puede usar el prototipo de
setup del programa requerido y modicarlo seg un sea necesario. Se suministran prototipos de setup para
todos los programas. Se puede acceder a ellos seleccionando el nombre del programa en la lista bajo el boton
Prototipos de la barra de herramientas. Para copiar el prototipo al panel Setup, haga clic en el nombre del
programa requerido. Para los detalles acerca de c omo preparar archivos Setup, vea el captulo El archivo
Setup de IDAMS y la descripcion del programa correspondiente.
Se pueden hacer operaciones de edicion igual que con cualquier editor de textos ASCII, es decir, usted
puede Cortar, Copiar, y Pegar cualquier selecci on usando los comandos de Edici on, los botones equivalentes
de la barra de herramientas o las teclas de acceso rapido Ctrl/X, Ctrl/C y Ctrl/V respectivamente.
Dos comandos de vericaci on de setup en el men u Vericar permiten la vericacion de conjuntos de
proposiciones de ltro y de Recode.
Sintaxis de Recode activa la vericacion de la sintaxis en las proposiciones de Recode incluidas en el
setup. Todos los errores que se encuentren se reportan en el panel Mensajes con el n umero del conjunto
de Recode, la lnea con error y el car acter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lnea erronea o en el mensaje de error en el panel Mensajes muestra esta lnea en
el panel Setup con una echa amarilla. Puede corregir los errores y repetir la vericacion de sintaxis,
antes de pasar a la ejecuci on del setup.
Sintaxis de ltros activa la vericacion de la sintaxis en las proposiciones de ltro incluidas en el setup.
Todos los errores que se encuentren se reportan en el panel Mensajes con el n umero de la proposicion de
ltro, la lnea de la proposicion y el car acter o caracteres que causan el problema de sintaxis. Haciendo
doble clic sobre la lnea erronea o en el mensaje de error en el panel Mensajes muestra esta lnea en el
panel Setup con una echa amarilla.
N otese que aunque la mayora de los errores de sintaxis en las proposiciones de ltro y de Recode se pueden
detectar y corregir aqu, IDAMS lleva a cabo otra vericacion sistem atica de sintaxis durante la ejecuci on
del setup. Tambien se reportan en los resultados, los errores de ejecuci on que no se pueden detectar aqu.
9.9. Ejecucion de los setups de IDAMS
Para ejecutar los programas de IDAMS (para los que se han preparado instrucciones y se han guardado en
un archivo Setup), use el comando Seleccionar setup de men u Ejecutar en cualquier ventana de documento
de WinIDAMS. En el cuadro de dialogo est andar de Windows, se pide escoger el archivo del cual se deben
tomar las instrucciones para la ejecuci on.
Si usted est a preparando sus instrucciones en la ventana Setup, puede ejecutar los programas del setup activo
usando el comando Setup actual de men u Ejecutar.
El programa o los programas se ejecutaran y los resultados se escribiran en el archivo especicado para PRINT
bajo $FILES (por defecto IDAMS.LST en la carpeta Trabajo que este activa). Al nal de la ejecuci on, se
abrir a el archivo de resultados en la ventana Resultados.
9.10. Manejo de los archivos Resultados
La ventana Resultados para acceder, mostrar e imprimir partes seleccionadas de resultados se llama
cuando:
usted abre un archivo Resultados (con extensi on .lst) mostrado en la ventana Aplicacion (haga doble
clic en el nombre del archivo requerido en la lista de Results),
usted abre un archivo Resultados (con cualquier extensi on) que no est a en la ventana Aplicacion (el
comando Abrir/Resultados de men u Archivo o el boton Abrir de la barra de herramientas),
usted ejecuta el setup de IDAMS; se muestra autom aticamente el contenido del archivo Resultados.
La tabla de contenido del archivo Resultados, facilita una navegaci on rapida por los resultados. Puede
acceder al comienzo del resultado de un programa en particular o aun, a una secci on en particular. Es mas,
el men u Edici on suministra acceso a una facilidad de b usqueda.
9.10 Manejo de los archivos Resultados 93
La ventana est a dividida en tres paneles: uno muestra la tabla de contenido de resultados (TDC) como una
estructura de arbol, el segundo muestra el contenido de resultados y el tercero muestra mensajes de errores
y de advertencias incluidos en los resultados.
Por defecto, se retiene la divisi on en las p aginas del contenido de resultados hecha por los programas (la
opcion Modo de pagina en el men u Ver esta activa). Para hacer mas compacto el contenido de resultados,
desactive esta opcion. Las lneas en blanco al nal de las p aginas se retiran de todas las p aginas y los saltos
de p agina insertados por los programas se reemplazan con la lnea de texto Page break.
Para abrir/cerrar rapidamente el arbol TDC se dispone de tres botones en el teclado numerico:
* abre todos los niveles del arbol bajo el nodo seleccionado
- cierra todos los niveles del arbol bajo el nodo seleccionado
+ abre un nivel bajo el nodo seleccionado.
Para ver una seccion en particular, haga doble clic sobre su ttulo en el arbol TDC.
Para localizar un mensaje de error o de advertencia, haga doble clic sobre el texto del mismo.
No se permite modicacion del contenido de resultados. Sin embargo, partes seleccionadas (resaltadas o
marcadas en cuadros de selecci on en el arbol TDC) o todos los resultados, se pueden copiar al portapapeles
(el comando Copiar de men u Edici on, Ctrl/C o boton de Copiar en la barra de herramientas) y pegadas a
cualquier documento con las tecnicas est andar de Windows.
Se puede imprimir todo el contenido o p aginas seleccionadas de un archivo Resultados con el comando
Imprimir de men u Archivo o con el boton Imprimir de la barra de herramientas. N otese que la impresion se
hace con orientacion horizontal y esta orientacion no se puede cambiar.
El contenido del archivo Resultados tal como se muestra, se puede guardar en formato RTF o en formato
de texto con el comando Guardar como de men u Archivo. Las lneas en blanco al nal se eliminan siempre.
Los saltos de p agina se manejan de acuerdo con la opcion Modo de p agina.
9.11. Creacion/actualizacion de archivos en formato de texto y
RTF
WinIDAMS tiene un Editor General que le permite abrir y modicar cualquier tipo de documento en formato
de caracteres. Sin embargo, su funci on b asica es suministrar una facilidad para editar archivos Texto y ofrecer
aspectos sosticados de formato y edici on. Se debe evitar la manipulaci on de archivos Diccionario, Datos o
Setup y la manipulaci on de archivos Matriz debe hacerse cuidadosamente.
La ventana Texto se llama cuando:
usted crea un nuevo archivo Texto (el comando Nuevo/Text le (archivo Texto) o RTF le (archivo
RTF) de men u Archivo, o el boton Nuevo de la barra de herramientas),
usted abre un archivo Matriz (con extensi on .mat) mostrado en la ventana Aplicacion (haga doble clic
en el nombre del archivo requerido en la lista de Matrices),
usted abre cualquier archivo de caracteres que no este en la ventana Aplicacion (el comando Abrir/Con
el Editor General de men u Archivo o el boton Abrir de la barra de herramientas).
El Editor General suministra un n umero de comandos est andar de edici on que son conocidos por los usuarios
de Windows. Se escriben a continuacion pero no se describen en detalle.
Insertar suministra comandos para insertar salto de p agina y de secci on, pintura, objeto OLE (vinculacion
e incrustaci on de objetos), marco y objeto de dibujo.
Los comandos de la Fuente le permiten cambiar la fuente y el color del texto seleccionado y el color del
fondo.
Los comados del Parrafo le permiten alinear p arrafos diferentemente, sangrarlos, mostrarlos en doble
espacio, dibujar un borde alrededor y sombrear el fondo.
Tabla permite el acceso a un n umero de comandos para insertar y manipular tablas.
Ver contiene tres comandos adicionales para mostrar el documento activo en modo de p agina, mostrar la
regla y el marcador de par agrafo.
La barra de herramientas de formato le permite escoger rapidamente los comandos de formato usados
con mas frecuencia.
Parte III
Facilidades para el manejo de datos
Captulo 10
Agrupacion de datos (AGGREG)
10.1. Descripcion general
AGGREG reune registros individuales (casos) en grupos denidos por el usuario y calcula las estadsticas
descriptivas de resumen para variables especicadas en cada grupo. Las estadsticas incluyen sumas, medias,
variancias, desviaciones est andar, as como valores maximos y mnimos y el conteo de datos no faltantes. Se
crea un dataset IDAMS como salida, es decir, el archivo de datos agrupado (agregado) y descrito por un
diccionario IDAMS; el archivo de datos agrupados, contiene un registro (caso) por grupo con variables que
son el resumen a nivel de grupo de cada una de las variables de entrada seleccionadas.
En el captulo Tablas univariadas y bivariadas de la parte F ormulas estadsticas y referencias bibliogra-
cas se pueden encontrar formulas para calular media, variancia y desviacion est andar. Sin embargo, deben
ajustarse ya que los casos no est an ponderados y el coeciente N/(N-1) no se usa en el c alculo de la variancia
y desviacion est andar de la muestra. N otese que las estadsticas se seleccionan para el conjunto total de
variables agrupadas. De esta manera, si hay 2 variables agrupadas y tres estadsticas seleccionadas, entonces
habr a 6 variables calculadas.
AGGREG le permite al usuario cambiar el nivel de agrupaci on de datos, por ejemplo, de miembros de una
familia a nivel de hogares o de distrito a nivel regional, etc. Por ejemplo, supongamos que un archivo de
datos contiene registros de cada individuo de un hogar y queremos analizar estos datos a nivel de hogares.
AGGREG nos permite agrupar valores de las variables de registros individuales de cada hogar para crear
un archivo de registros a nivel de hogares para analisis posteriores. Para ser mas especcos, si el archivo
de datos a nivel de individuos tiene una variable que nos da el ingreso personal, AGGREG podra crear
registros a nivel de hogares con una variable que describa el ingreso total por hogar.
Agrupamiento de datos. El usuario especica hasta 20 variables de denicion de grupos (variables de
identicacion) que determinan el nivel de agrupamiento del archivo de salida. Por ejemplo, si se quieren
agrupar datos a nivel de miembros de una familia a nivel de hogares, entonces una variable que identique
el hogar sera la variable de denicion de grupo. Cada vez que AGGREG lee un registro de entrada, busca
cambios en cualquiera de las variables de identicacion. Cuando se encuentra un cambio, se produce un
registro de salida que contiene estadsticas de resumen, calculadas con las variables agrupadas especicadas
para el grupo de registros que se acaban de procesar.
Insercion de constantes dentro de los registros de grupo. Se pueden insertar constantes dentro de
cada registro de grupo con los par ametros PAD1, ... , PAD5, los cuales especican las llamadas variables
pad. El valor de una variable pad es una constante.
Transferencia de variables. Se pueden transferir variables a los registros de salida. N otese que solamente
los valores del primer caso dentro del grupo son transferidos.
98 Agrupacion de datos (AGGREG)
Seleccion de casos y variables. El ltro est andar est a disponible para escoger un subconjunto de casos a
partir de los datos de entrada. Con los par ametros, se especican las variables de identicacion que denen
los grupos y las variables a ser agrupadas. Las variables de identicacion se incluyen autom aticamente en el
dataset de salida.
Transformaci on de datos. Se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. El valor de cada variable agrupada se compara con ambos c odigos de
datos faltantes y si se detecta que se trata de un valor faltante, se excluye autom aticamente de los c alculos.
Un porcentaje suministrado por el usuario, el punto de corte (ver el par ametro CUTOFF), determina el
n umero de datos faltantes permitido antes de producir el valor de resumen como un c odigo de datos faltantes.
Por ejemplo, supongamos que se quiere calcular la media de una variable agrupada dentro de un grupo y
este contiene 12 registros, 6 de los cuales tienen datos faltantes, es decir, el 50 %. Si el valor de CUTOFF es
75 %, se calcula la media de los 6 datos no faltantes y esta es la salida para el grupo. Si el valor de CUTOFF
es de 25 %, entonces no se calcula la media y se produce como salida el primer c odigo de datos faltantes.
10.3. Resultados
Resumen de datos faltantes. (Opcional: ver el par ametro PRINT). Para cada variable en cada grupo, se
imprime: el n umero de la variable de entrada, el n umero de la variable de salida, el n umero de registros con
datos no faltantes y el porcentaje de registros con datos faltantes.
Resumen de grupos. (Opcional: ver el par ametro PRINT). El n umero de registros de entrada para cada
grupo.
Diccionario de entrada. (Opcional: ver el par ametro PRINT). Registros descriptores de variables y reg-
istros C si los hay, solo para las variables usadas en la ejecuci on.
Diccionario de salida. (Opcional: ver el par ametro PRINT).
Estadsticas generadas. (Opcional: ver el par ametro PRINT). Se pueden imprimir todas las variables
calculadas para cada registro agrupado. Tambien se dan el n umero de variable de la correspondiente variable
agrupada y las variables de identicacion.
10.4. Dataset de salida
El dataset de los datos agrupados en la salida es un archivo Datos descrito por un diccionario IDAMS.
Cada registro contiene valores de las variables de identicacion, de las variables calculadas, de las variables
transferidas y de las constantes pad; se produce un registro para cada grupo.
Orden y numeraci on de variables. Las variables de salida se encuentran en el mismo orden relativo de
las variables de entrada a partir de las cuales fueron derivadas, sin importar si la variable de entrada se
uso como variable de identicacion, variable a ser agrupada o variable a ser transferida. De esta manera, si
se utiliza la primera variable de entrada, la variable o variables que se deriven de ella, seran la primera o
primeras variables de salida. Cada variable de entrada que se use como variable de identicacion o variable
a ser transferida, corresponde a una variable de salida; cada variable agrupada corresponde a 1-7 variables
de salida, seg un el n umero de estadsticas de resumen solicitadas (estas variables salen en el orden relativo:
suma, media, variancia, desviacion est andar, conteo, mnimo, maximo). Las variables de salida son siempre
renumeradas, a partir del n umero suministrado en el par ametro VSTART. Las constantes pad siempre van
al nal.
Nombres de variable. Las variables de salida tienen los mismos nombres de las variables de entrada de
las cuales se derivaron, con la excepcion de que para las variables agrupadas se codican los caracteres 23 y
24 del campo del nombre:
10.5 Dataset de entrada 99
S = suma
M = media
V = variancia
D = desviacion est andar
CT = conteo
MN = mnimo
MX = maximo.
Las constantes pad, tienen los nombres de variable Pad variable 1, Pad variable 2, etc.
Tipo de variable. Las variables de identicacion y las variables transferidas salen con el mismo tipo de
variable que la de entrada. Las variables calculadas son siempre numericas.
Ancho de campo y n umero de decimales. El ancho de campo de las variables agrupadas de salida
depende de las estadsticas, el ancho de campo de entrada (FW), el n umero de cifras decimales de entrada
(ND) y las cifras decimales extra, solicitadas por el usuario en el par ametro DEC. Los anchos de campo y el
n umero de cifras decimales, se asignan de la manera mostrada a continuacion, donde FW=ancho del campo
de entrada y ND=n umero de cifras decimales de entrada para las variables de entrada, y FW=6 y ND=0
para las variables que vienen de Recode.
Estadstica Ancho de campo Cifras decimales
SUMA FW + 3 * ND
MEDIA FW + DEC ** ND + DEC ***
VARIANCIA FW + DEC ** ND + DEC ***
DESVIACION EST
ANDAR FW + DEC ** ND + DEC ***

M
INIMO FW ND
M
AXIMO FW ND
COUNTEO 4 0
* Si el ancho de campo pasa de 9, se reduce a 9.
** Si el ancho de campo pasa de 9, entonces el n umero de decimales extra se reduce igualmente.
*** Si el n umero de decimales pasa de 9, entonces DEC se reduce de la misma manera.
Codigos de datos faltantes. Los c odigos de datos faltantes para las variables de identicacion y para las
variables transferidas se toman del diccionario de entrada. El segundo c odigo de datos faltantes (MD2) es
siempre blancos para variables calculadas. El valor del primer c odigo de datos faltantes (MD1) se asigna de
la siguiente manera:
Variable de salida MD1 de salida
FW de salida <= 7 9s
FW de salida > 7 -999999
variable CONTEO 9999
N umeros de referencia. Las variables calculadas reciben un n umero de referencia igual al de su variable
de base.
Registros C. Los registros C del diccionario de entrada se transeren al diccionario de salida para las
variables de identicacion y para las variables transferidas.
Nota acerca del calculo de las estadsticas. Antes de producir la salida, los valores calculados se
redondean al ancho de campo y al n umero de cifras decimales calculadas. Si el valor calculado excede a
999999999 o es inferior a -99999999, entonces sale como 999999999.
10.5. Dataset de entrada
La entrada es un archivo Datos descrito por un diccionario IDAMS. Las variables de denicion de grupo
(identicadoras) y las variables a ser transferidas pueden ser numericas o alfabeticas, aunque las variables
numericas se tratan como cadenas de caracteres, es decir, un valor de 044 es diferente de 44. No pueden
ser variables recodicadas. Las variables a ser agrupadas deben ser numericas y pueden ser variables recod-
icadas.
El archivo se procesa secuencialmente y se reunen los registros contiguos que tengan el mismo valor para
las variables identicadoras. De esta manera, el archivo de entrada debe clasicarse con las variables identi-
cadoras como llave de clasicacion antes de usar AGGREG. Notar que AGGREG no verica el orden de
clasicacion de los registros del archivo de entrada.
10.6. Estructura del setup
$RUN AGGREG
$FILES
Epecificacion de archivos
$RECODE (opcional)
$SETUP
1. Filtro (opcional)
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx diccionario de entrada (omitir si se usa $DICT)
DATAxxxx datos de entrada (omitir si se usa $DATA)
DICTyyyy diccionario de salida
DATAyyyy datos de salida
PRINT resultados (por defecto IDAMS.LST)
10.7. Proposiciones de control del programa
Referirse al captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, tems 1-3, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci on.
Ejemplo: INCLUDE V1=10,20,30,50 OR V10=90-300
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los resultados.
Ejemplo: REUNION DE DATOS PROFESOR/ESTUDIANTE
3. Parametros (mandatorio). Para seleccionar opciones del programa.
Ejemplo: IDVARS=(V1,V2) STATS=(SUM,VARI) DEC=3 AGGV=(V5-V10,V50-V75) PAD1=80
INFILE=IN/xxxx
Por defecto: DICTIN, DATAIN.
Tratamiento de datos no numericos. Ver el captulo El archivo Setup de IDAMS.
10.7 Proposiciones de control del programa 101
MAXCASES=n
N umero maximo de casos (despues de ltrar) a usar del archivo de entrada.
Por defecto: se usan todos los casos.
IDVARS=(lista de variables)
Hasta 20 n umeros de variable para denir los grupos. No se permiten variables R.
Sin valor por defecto.
AGGV=(lista de variables)
Variables V o R para ser agrupadas.
STATS=(SUM, MEAN, VARIANCE, SD, COUNT, MIN, MAX)
Parametros para escoger las estadsticas solicitadas (se debe seleccionar al menos una de: SUM,
MEAN, VARIANCE, SD). Salen para cada grupo y para cada variable AGGV.
SUM La suma.
MEAN La media.
VARI La variancia.
SD La desviacion est andar.
COUN El n umero de casos validos.
MIN El valor mnimo.
MAX El valor maximo.
SAMPLE/POPULATION
SAMP Calcular la variancia y/o la desviacion est andar con la ecuaci on de muestra.
POPU Usar la ecuaci on de poblacion.
OUTFILE=OUT/yyyy
Un sujo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de salida.
Por defecto: DICTOUT, DATAOUT.
VSTART=1/n
N umero de variable para la primera variable en el dataset de salida.
CUTOFF=100/n
Porcentaje de casos con c odigos MD permitidos antes de producir la salida de un c odigo MD. Un
valor entero.
DEC=2/n
Para las variables calculadas que involucren media, variancia o desviacion est andar: n umero de
cifras decimales adicionales a aquellas de las correspondientes variables de entrada (ver restriccion
7).
TRANSVARS=(lista de variables)
Las variables cuyos valores, tal como aparezcan en el primer caso de cada grupo, se van a
transferir al archivo de salida. No se permiten variables R.
PAD1=constante
PAD2=constante
PAD3=constante
PAD4=constante
PAD5=constante
Se pueden a nadir hasta 5 constantes al dataset de salida. El n umero de caracteres dado, determina
el ancho del campo de la constante PAD.
PRINT=(MDTABLES, GROUPS, DATA, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
MDTA Imprimir una tabla que suministre el porcentaje de datos faltantes encontrado para
cada variable agrupada en cada grupo.
GROU Imprimir el n umero de casos por grupo.
DATA Imprimir los valores de cada variable calculada en cada registro de grupo.
CDIC Imprimir el diccionario de entrada para las variables accedidas con registros C, si los
hay.
DICT Imprimir el diccionario de entrada sin registros C.
OUTD Imprimir el diccionario de salida sin registros C.
OUTC Imprimir el diccionario de salida con registros C, si los hay.
NOOU No imprimir el diccionario de salida.
10.8. Restricciones
1. M aximo n umero de variables a ser agrupadas es 400.
2. M aximo n umero de variables de identicacion es 20.
3. M aximo n umero de caracteres en las variables de identicacion es 180.
4. M aximo n umero de variables a ser transferidas es 100.
5. No se permiten variables recodicadas como IDVARS o TRANSVARS.
6. La misma variable no pueden aparecer en dos listas de variables.
10.9. Ejemplo
Producir un dataset de salida que contenga un caso agrupado para cada valor unico de V5 y V7; las variables
en cada caso van a ser la suma, la media y la desviacion est andar de 4 variables de entrada y 1 variable
recodicada, agrupadas en los casos que forman el grupo (es decir, con los mismos valores de V5 y V7);
los valores de V10 y de V11 para el primer caso de cada grupo van a transferirse a los registros de salida;
se requiere un listado de los valores producidos para cada caso; en el archivo de salida, las variables se
numeraran a partir del n umero 1001.
$RUN AGGREG
$FILES
PRINT = AGGR.LST
DICTIN = IND.DIC archivo Diccionario de entrada
DATAIN = IND.DAT archivo Datos de entrada
DICTOUT = AGGR.DIC archivo Diccionario de salida
DATAOUT = AGGR.DAT archivo Datos de salida
$RECODE
R100=COUNT(1,V20-V29)
NAME R100INDICE DE SALUD
$SETUP
REUNION DE 4 VARIABLES DE ENTRADA Y UNA VARIABLE RECODIFICADA
IDVARS=(V5,V7) AGGV=(V31,V41-V43,R100) STATS=(SUM, MEAN, SD) -
VSTART=1001 PRINT=DATA TRANS=(V10,V11)
Captulo 11
Construccion de un dataset IDAMS
(BUILD)
BUILD toma un archivo de datos primarios, que puede contener varios registros por caso, junto con un
diccionario que describe las variables requeridas y crea un archivo Datos nuevo con un solo registro por caso
que contiene valores solamente para las variables especicadas. Al mismo tiempo, produce un diccionario
IDAMS de salida que describe el archivo Datos con nuevo formato, en otras palabras se crea un dataset
IDAMS.
Ademas de la reconstrucci on de los datos, BUILD tambien verica valores no numericos en variables numeri-
cas.
Por que usar BUILD? Cualquier programa IDAMS se puede usar sin tener que utilizar BUILD, al preparar
por separado un diccionario IDAMS. Sin embargo, se recomienda usar BUILD como un paso preliminar ya
que:
- verica la correcta preparacion del diccionario,
- asegura que haya una correspondencia exacta entre el diccionario y los datos,
- asegura que no haya caracteres no numericos inesperados en los datos,
- reduce los datos a la forma de un solo registro compacto por caso,
- recodica los espacios en blanco con valores especicados por el usuario.
Procesamiento de las variables numericas. Cuando BUILD procesa un campo como si tuviera una
variable numerica, verica que el campo contenga un n umero reconocible o contenga solamente blancos.
Si se presenta un valor diferente de los anteriores, por ej. 3J, 3-, ++2, etc. se imprime la posicion
secuencial del caso, el n umero de variable asociado con el campo y el caso de entrada y se usa una cadena
de nueves como el valor de salida.
Las reglas de procesamiento son las siguientes:
Si un campo contiene un n umero reconocible, el n umero se edita a una forma est andar antes de enviarlo
a la salida (ver el captulo Los datos en IDAMS para una descripcion mas detallada).
Si un campo contiene solo blancos, BUILD recodicar a el valor asign andole el primero o segundo
c odigos de datos faltantes, nueves o ceros en el campo de salida o, si no se especico recodicacion,
indicara un error y el campo de salida estar a en blanco. La columna 64 de los registros T se puede usar
para especicar la recodicacion correspondiente a la variable (ver la secci on Diccionario de entrada).
Si un campo contiene los blancos a la derecha, por ej. 04 en un campo numerico de tres dgitos o
los blancos entre digitos, por ej. 0 4, se reportar a como un error y el valor se llenara con dgitos 9.
Si un campo contiene un valor positivo o negativo con el car acter + o - mal colocado, por ej.
1-23, se reportar a como un error y el valor se llenara con dgitos 9.
104 Construccion de un dataset IDAMS (BUILD)
Si un c odigo de datos faltantes para una variable tiene un dgito mas que el campo de entrada, el
campo de salida sera un dgito mayor que el campo de entrada. Se puede usar cuando es necesario
aumentar el ancho del campo de salida sin cambiar el ancho del campo de entrada; por ejemplo, si se
han denido los c odigos 0-9 y blanco para una variable que ocupa una sola columna, el campo blanco
no se podra recodicar con un valor numerico unico sin disponer de un c odigo de salida de 2 dgitos.
Tabla que muestra ejemplos de ediciones hechas con BUILD
y el contenido del campo de salida
para un campo de entrada num erico de 3 dgitos
____________________________________________________________________________________
Valor Nr. MD1 Recodif. Valor Ancho del Mensaje de error
de dec. especif. de campo de
entrada salida salida
______ ___ ____ ________ ______ ________ _______________
032 0 9999 - 0032 4 -
32 0 - 032 3 -
3 2 0 - 999 3 blancos intercalados en var...
32 0 - 999 3 blancos intercalados en var...
-03 0 - -03 3 -
-3 0 - -03 3 -
- 3 0 - -03 3 -
3.2 0 - 003 3 -
32 1 - 032 3 -
.32 1 - 003 3 -
3.2 1 - 032 3 -
.32 2 - 032 3 -
.35 1 - 004 3 -
-.3 0 - -00 3 -
-.3 1 - -03 3 -
-03 1 - -03 3 -
- 8888 1 8888 4 (solo si PRINT=RECO)
- 0 000 3 (solo si PRINT=RECO)
- Ninguna 3 blancos en var ...
A32 - - 999 3 caracteres malos en var...
3-2 - - 999 3 caracteres malos en var...
Seleccion de casos y variables. Este programa no tiene provision para la selecci on de casos a partir del
archivo de datos de entrada. El ltro est andar no est a disponible. Por medio de la descripcion de variables,
se puede seleccionar para los datos de salida cualquier subconjunto de los campos dentro de un caso.
Transformaci on de datos. Las proposiciones de Recode no se pueden usar.
Tratamiento de datos faltantes. BUILD no hace distincion entre datos verdaderos y valores de datos
faltantes. Sin embargo, los campos en blanco se pueden recodicar a c odigos de datos faltantes, ceros o
nueves.
11.3. Resultados
Diccionario de entrada. (Opcional: ver el par ametro PRINT). La columna Brule del listado del dic-
cionario contiene reglas para la recodicacion de campos en blanco, tal como se especica en la columna 64
del diccionario de entrada. Tener en cuenta que los posibles mensajes de error producidos para las descrip-
ciones de las variables, est an mezclados con el listado del diccionario y no contienen un n umero de variable.
Si no se imprime el diccionario de entrada, puede ser muy difcil la identicacion de errores.
11.4 Dataset de salida 105
Diccionario de salida. (Opcional: ver el par ametro PRINT). Los registros descriptores de variables (reg-
istros T) se imprimen con o sin registros C, si los hay.
Caractersticas del archivo Datos de salida. Longitud del registro de datos de salida.
Mensajes de la edicion de datos. Para cada caso que contenga errores se imprime el caso de entrada
(hasta 100 caracteres por lnea) y un registro de los errores en el orden del n umero de variable.
Mensajes de la recodicacion de campos en blanco. (Opcional: ver el par ametro PRINT). Para cada
caso que contenga campos en blanco recodicados, se imprime un mensaje de la recodicacion junto con el
caso de entrada. Este listado est a integrado con la impresion de los mensajes de errores en los datos, si se
presentan errores para el caso.
BUILD crea un archivo Datos y el diccionario IDAMS correspondiente, es decir un dataset IDAMS. Tengase
en cuenta que los registros T producidos por BUILD siempre denen la ubicacion de las variables en terminos
de la posicion inicial y el ancho del campo.
El archivo Datos contiene un registro para cada caso o unidad de analisis. La longitud del registro es la suma
de los anchos de campo de todas las variables de salida y es determinada por el programa BUILD.
Valores de variables numericas. Los valores de las variables numericas se editan de acuerdo con una
forma est andar que se describe en el p arrafo Procesamiento de las variables numericas arriba.
Valores de variables alfabeticas. Los valores de las variables alfabeticas no se editan y son los mismos
en la entrada y en la salida.
Ancho de campo. BUILD normalmente asigna como ancho de una variable el n umero de caracteres del
campo de la variable de entrada correspondiente. Sin embargo, cuando un c odigo de datos faltantes para
una variable tiene un dgito mas que el campo de entrada, el campo de salida sera un dgito mayor que el
campo de entrada.
Localizacion de variable. BUILD asigna los campos de salida seg un el orden de los n umeros de las
variables. De acuerdo con esto, si las dos primeras variables tienen anchos de salida de 5 y 3, se asignan las
posiciones 1-5 para la primera variable y 6-8 para la segunda variable, etc.
N umero de referencia e identicador de estudio. El n umero de referencia, si no es blanco, e identi-
cador de estudio son los mismos que sus valores de entrada. Si el campo del n umero de referencia de un
registro T o un registro C es blanco, se llena con el n umero de la variable.
11.5. Diccionario de entrada
Describe las variables que se van a seleccionar para la salida. El formato est a descrito en el captulo Los
datos en IDAMS, la columna 64 del registro T se usa para especicar una regla de recodicacion de campos
en blanco en una variable de la manera siguiente:
blanco - no hay recodicacion de campos en blanco,
0 - recodique campos en blanco a ceros,
1 - recodique campos en blanco al primer c odigo de datos faltantes de la variable,
2 - recodique campos en blanco al segundo c odigo de datos faltantes de la variable,
9 - recodique campos en blanco a nueves.
Nota. La ventana Diccionario de la Interfaz del Usuario no permite acceso a la columna 64; entonces, use el
Editor General de WinIDAMS (Archivo/Nuevo/Archivo usando Editor General) o cualquier otro editor de
texto para llenar esta columna.
11.6. Datos de entrada
Los datos pueden ser cualquier archivo de registros de longitud ja, con uno o mas registros por caso, siempre
que se tenga exactamente el mismo n umero de registros para cada caso. El archivo debe estar clasicado
por tipo de registro dentro de cada ID de caso. Los valores para cualquier variable deben localizarse en las
mismas columnas del mismo registro para cada caso.
Si los datos de entrada tienen mas de un registro por caso, debe usarse siempre MERCHECK antes que
BUILD para garantizar que los datos tengan los mismos registros para cada caso.
N otese que BUILD no acepta notaci on exponencial en los datos.
$RUN BUILD
$FILES
Especificacion de archivos
$SETUP
1. Ttulo
2. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: ESTUDIO DE CONSTRUCCION DE ARCHIVO A35
Ejemplo: MAXERROR=50
INFILE=IN/xxxx
11.9 Ejemplos 107
LRECL=80/n
Longitud de cada registro de los datos de entrada.
(Se usa para vericar si las posiciones de comienzo de las variables en los registros T son validas).
MAXCASES=n
N umero maximo de casos a usar del archivo de entrada.
VNUM=CONTIGUOUS/NONCONTIGUOUS
CONT Verica que las variables esten numeradas en orden ascendente y consecutivo en el
diccionario de entrada.
NONC Verica solamente que las variables esten numeradas en orden ascendente.
MAXERR=10/n
N umero maximo de casos con errores antes de terminar la ejecuci on de BUILD.
OUTFILE=OUT/yyyy
PRINT=(RECODES, CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
RECO Imprimir los casos de entrada que tengan uno o mas campos, todos en blanco, que
hayan sido recodicados.
CDIC Imprimir el diccionario de entrada para todas las variables con registros C, si los hay.
11.9. Ejemplos
Ejemplo 1. Construir un dataset IDAMS (archivos Diccionario y Datos); los registros de datos de entrada
tienen una longitud de registro de 80 con 3 registros por caso; las variables tienen una numeraci on no
contigua en el diccionario de entrada; la variable 2 es el identicador completo (columnas 5-10) mientras
que las variables V3 y V4 contienen las dos partes del identicador (columnas 5-8, 9-10 respectivamente);
los campos en blanco se reemplazaran por el primer c odigo de datos faltantes de las variables V101, V122,
V168, y con ceros para la variable V169; los blancos en la variable V123 (edad) se trataran como errores.
$RUN BUILD
$FILES
DATAIN = ABCDATA.DAT RECL=80 archivo Datos de entrada
DICTOUT = ABC.DIC archivo Diccionario de salida
DATAOUT = ABC.DAT archivo Datos de salida
$SETUP
CONSTRUCCION DE UN DATASET IDAMS
VNUM=NONC MAXERR=200
$DICT
3 1 169 3
T 1 CODIGO CIUDAD 1 1 1 3 ID
T 2 IDENTIFICADOR DEL ENCUE 5 10 ID
T 3 NUMERO DEL HOGAR 5 8 ID
T 4 NUMERO DEL ENCUESTADO 9 10 ID
T 101 POS. DEL ENCUE EN FAMIL 13 0 9 1 QS1
T 122 SEXO 225 9 1 QS2
T 123 EDAD 48 49 QS2
T 168 OCUPACION 358 59 99 98 1 QS3
T 169 INGRESO 61 65 99998 0 QS3
Ejemplo 2. Vericar la presencia de caracteres no numericos en 4 campos numericos; el archivo Datos de
entrada tiene un registro por caso; los registros se identican con un campo alfabetico; las 5 variables no se
numeran en forma contigua; como no se necesitan los archivos de salida que BUILD produce normalmente,
se denen como archivos temporales (extension TMP) que IDAMS borra autom aticamente al nal de la
ejecuci on.
$RUN BUILD
$FILES
DATAIN = NEWDATA.DAT RECL=256 archivo Datos de entrada
DICTOUT = DIC.TMP archivo temporal Diccionario de salida
DATAOUT = DAT.TMP archivo temporal Datos de salida
$SETUP
VERIFICACION DE CARACTERES NO NUMERICOS Y CAMPOS EN BLANCO
VNUM=NONC LRECL=256 PRINT=NOOU MAXERR=200
$DICT
3 1 35 1 1
T 1 NOMBRE ENCUESTADO 1 20 1
T 21 EDAD 21 2
T 22 INGRESO 29 6
T 25 NR. SITIOS DE TRABAJO 129 1
T 35 TITULO SCI. 201 1
Captulo 12
Vericacion de codigos (CHECK)
CHECK verica si las variables tienen datos validos y produce un listado con todos los c odigos invalidos por
identicador de caso y n umero de variable.
Especicacion de c odigos. Hay dos maneras de especicar los c odigos de las variables a vericar. Primera,
las proposiciones de control del programa incluyen un conjunto de especicaciones de c odigos en el cual se
denen las variables y sus c odigos validos. Segunda, el usuario puede suministrar una lista de variables de la
cual se van a tomar c odigos validos de los registros C en el diccionario. En cualquier ejecuci on de CHECK,
el usuario puede aplicar el primer metodo para unas variables y el segundo para otras. Las especicaciones
de c odigo para variables en el setup tienen prioridad sobre las especicaciones del diccionario.
Metodo usado para vericar valores de los datos. Los valores de los datos para variables numericas
y alfabeticas se verican car acter por c aracter contra los c odigos validos especicados. As, si se da una
especicaci on de c odigos validos de V2=02,03, un valor de 2 en los datos sera invalido; un blanco a la
izquierda en los datos no se considera igual a cero. Si se especican valores de c odigos con menos dgitos que
el ancho de campo de la variable, se suponen ceros a la izquierda. As, si se da la especicaci on V2=2,3,
donde V2 es una variable de 2 dgitos, los valores validos para la comparaci on de los datos seran 02,03. De
manera similar, si se suministran -3 y 1 como c odigos validos para una variable de 3 dgitos, CHECK
editara los c odigos con -03 y 001 antes de efectuar cualquier comparaci on de datos con estos valores.
Nota. Si se encuentra un error de sintaxis en una especicaci on de c odigos, se verica el resto de las
especicaciones de c odigos pero no se procesan los datos.
Seleccion de casos y variables. El ltro est andar est a disponible para seleccionar un subconjunto de casos
del dataset de entrada. El usuario escoge las variables a vericar, especicandolas en una lista de variables
y/o en las especicaciones de c odigos.
Tratamiento de datos faltantes. CHECK no hace distincion entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.
12.3. Resultados
Diccionario de entrada. (Opcional: ver el par ametro PRINT). Se imprimen los registros del diccionario
para todas las variables, no solamente para aquellas variables que se van a vericar.
110 Vericacion de c odigos (CHECK)
Documentaci on de c odigos invalidos. Para cada caso en el que se encuentre una variable con un c odigo
invalido, CHECK imprime el valor o los valores de la(s) variable(s) de identicacion, las variables con error
y sus valores.
La entrada es un archivo Datos descrito por un diccionario IDAMS. CHECK puede vericar datos validos
en variables numericas y alfabeticas. Si el diccionario contiene registros C, estos pueden usarse para denir
c odigos validos de las variables.
Para los valores de las variables numericas se supone que se encuentran en la forma que tendran despues
de haber pasado por el programa BUILD. Esta suposicion implica que no hay blancos a la izquierda (fueron
reemplazados por ceros), que un signo negativo, si lo hay, aparece en el extremo izquierdo del campo y que
no aparecen puntos decimales explcitos.
$RUN CHECK
$FILES
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de codigos (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: INCLUDE V10=3 AND V20=1-9
Ejemplo: DATOS: DATOS DE TESIS, VERSION 1
Ejemplo: IDVA=(V1-V4) VARS=(V22-V26,V101-V102)
INFILE=IN/xxxx
MAXCASES=n
START=1/n
N umero secuencial del primer caso a ser vericado.
Variables para las cuales se van a tomar codigos validos de los registros C en el diccionario.
MAXERR=100/n
M aximo n umero de casos permitidos con c odigos invalidos; si se excede este n umero, se termina
la ejecuci on del programa.
Hasta 20 variables cuyos valores se imprimen cuando se encuentra un c odigo invalido. Estas consis-
tiran normalmente como mnimo, de las variables que identican un caso pero pueden incluir otras
variables que suministren informacion adicional al usuario. Las variables pueden ser alfabeticas o
numericas.
PRINT=CDICT/DICT
4. Especicaciones de c odigos (opcional). Estas especicaciones denen las variables a vericar y sus
valores de c odigo validos o invalidos.
Ejemplos:
V3=1,3,5-9 (Los datos para la variable 3 pueden tener los codigos
1,3,5-9. Cualquier otro codigo ser a inv alido y ser a
documentado).
V7,V9,V12-V14= - (Los datos para las variables 7,9 y 12 a 14 pueden
2,50-75,100 tener solo los valores 2, 50-75, 100).
V50 <> 75 (Los datos para la variable 50 pueden tener cualquier
valor excepto 75).
Formato general
lista de variables = lista de valores de c odigo
o
lista de variables <> lista de valores de c odigo
Reglas de codicacion
Cada especicaci on de c odigos debe comenzar en una lnea nueva. Para continuar en otra lnea, inter-
rumpa despues de una coma y coloque un gui on. Se pueden usar todas las lneas de continuacion que
sean necesarias. Pueden aparecer blancos en cualquier lugar de las especicaciones.
112 Vericacion de c odigos (CHECK)
Lista de variables
Cada n umero de variable debe estar precedido por una letra V.
Las variables se pueden expresar una por una (separadas con una coma), por rangos (separadas
con un gui on) o una combinaci on de ambos (V1,V2,V10-V20).
Las variables se pueden denir en cualquier orden.
Todas las variables agrupadas en una expresion deben tener el mismo ancho de campo (por ej. para
V2,V3=10-20 V2 y V3 deben tener ambas el mismo ancho de campo denido en el diccionario).
Las variables a vericar pueden ser numericas o alfabeticas.
V alido (=) o inv alido (<>)
Un signo = indica que los valores de c odigo que siguen son los c odigos validos para las variables
especicadas. Todos los dem as c odigos se documentar an como errores.
<> (no igual) indica que los c odigos que siguen son invalidos. Todos los casos que tengan estos
c odigos para las variables especicadas se documentar an como errores.
Lista de valores de c odigo
Los c odigos se pueden expresar uno por uno (separados con una coma), por rangos (separados
con un gui on) o una combinaci on de ambos.
Para variables numericas, no es necesario suministrar ceros a la izquierda (por ej. V1=1-10), pero
recuerde que si se verican varias variables para c odigos comunes, todas deben tener denido en
el diccionario el mismo ancho de campo.
Para datos con cifras decimales, no coloque el punto decimal en el valor, pero suministre el valor
de manera que reeje exactamente las cifras decimales implicadas, por ej. el n umero 2 con un
decimal debe ser dado como 20.
Para valores alfabeticos, no es necesario colocar blancos a la derecha, estos son a nadidos por el
programa de manera que completen la longitud del ancho de campo de la variable.
Para denir un blanco o para especicar un valor con blancos intercalados, encierre el valor entre
comillas sencillas. (por ej. V10=NEW YORK,WASHINGTON, ).
Los valores de c odigo se pueden denir en cualquier orden.
Notas.
1) Si se dan dos especicaciones diferentes para la misma variable, solo se utilizara la ultima de ellas.
2) Las especicaciones de c odigos para una variable reemplazan el uso de registros de nombres de
c odigos del diccionario para las variables especicadas con el par ametro VARS.
12.7. Restricciones
1. El maximo n umero de variables de identicacion es 20.
2. El maximo n umero de c odigos distintos que se pueden suministrar en las especicaciones de c odigo es
4000. Esta restriccion se puede obviar con rangos de c odigos ya que un rango de c odigos se cuenta solo
como 2 c odigos.
12.8. Ejemplos
Ejemplo 1. Busqueda de c odigos ilegales en variables cualitativas y valores fuera de rango en variables
cuantitativas; los unicos c odigos validos para las variables V10, V12 y V21 a V25 son 1 a 5 y 9; el c odigo
9998 es ilegal para la variable V35; los c odigos 0 y 8 son ilegales para las variables V41, V44 y V46; las
variables V71 a V77 deben tener valores dentro del rango de 0 a 100 o 999; los casos se identican con las
variables V1, V2 y V4; no se usan los valores de c odigos del diccionario.
12.8 Ejemplos 113
$RUN CHECK
$FILES
PRINT = CHECK1.LST
DICTIN = STUDY1.DIC archivo Diccionario de entrada
DATAIN = STUDY1.DAT archivo Datos de entrada
$SETUP
BUSQUEDA DE CODIGOS ILEGALES Y VALORES FUERA DE RANGO
IDVARS=(V1,V2,V4)
V10,V12,V21-V25=1-5,9
V35<>9998
V41,V44,V46<>0,8
V71-V77=0-100,999
Ejemplo 2. Vericacion de la validez del c odigo unicamente para un subconjunto de casos (cuando la
variable V21 es igual a 2 o igual a 3 y la variable V25 es igual a 1); los c odigos validos para algunas variables
se toman de los registros C del diccionario; adicionalmente, se da una especicaci on valida para la variable
V48; los casos se identican con la variable V1.
$RUN CHECK
$FILES
DICTIN = STUDY2.DIC archivo Diccionario de entrada
DATAIN = STUDY2.DAT archivo Datos de entrada
PRINT = CHECK.PRT
$SETUP
INCLUDE V21=2,3 AND V25=1
BUSQUEDA DE CODIGOS ILEGALES
IDVARS=V1 VARS=(V18-V28,V36-V41)
V48=15-45,99
Captulo 13
Vericacion de consistencia
(CONCHECK)
El uso de CONCHECK junto con las proposiciones de Recode de IDAMS ofrece la capacidad de vericacion de
consistencia la cual permite probar relaciones ilegales entre valores de diferentes variables. Las proposiciones
condicionales incluidas en el setup de CONCHECK se usan para denominar cada una de las vericaciones e
indicar que variables se deben listar ante un error.
La vericacion de consistencia se dene por medio de Recode al probar una relacion logica y despues asignar
el valor 1 a una variable R si la condicion no se satisface, por ej. si V3 no puede tomar logicamente el valor
de 9 cuando V2 toma el valor de 3, se puede usar la siguiente proposicion de Recode:
IF V2 EQ 3 AND V3 EQ 9 THEN R100=1 ELSE R100=0
Cuando se detecta una inconsistencia en un caso, se imprimen los identicadores del caso (ID). Ademas se
imprimen tambien los valores de un conjunto de variables denidas con el par ametro VARS. Este conjunto
de variables se usa para tener una vision general del caso, de manera que se pueda detectar mas facilmente
la raz on de la inconsistencia y asegurar que la correccion de una inconsistencia no va a producir otra. Para
cada condicion de consistencia que falle se puede imprimir un conjunto separado de variables con el n umero
y nombre de la condicion; este conjunto consiste normalmente de las variables que se verican.
vericar. Las variables a imprimir cuando se presenten inconsistencias se especican con el par ametro VARS
(para el caso) o CVARS (para una condicion individual).
Transformaci on de datos. Las proposiciones de Recode se usan para indicar las validaciones de consis-
tencia requeridas.
Tratamiento de datos faltantes. CONCHECK no hace distincion entre datos sustantivos y valores de
datos faltantes; todos los datos reciben el mismo tratamiento.
13.3. Resultados
istros C, si los hay, solo para las variables usadas en la ejecuci on.
116 Vericacion de consistencia (CONCHECK)
Inconsistencias. Para cada caso que presente una inconsistencia se imprime una lnea de identicacion con
el n umero de secuencia del caso y opcionalmente los valores de los identicadores de caso. A continuacion se
imprimen los valores de las variables especicadas en el par ametro VARS.
Para cada inconsistencia individual detectada en un caso, se imprimen el n umero y nombre de la condicion
correspondiente y los valores de las variables especicadas en la proposicion de condicion.
Estadsticas de error. Al nal de la ejecuci on se imprime una tabla de resumen con el n umero de ca-
sos procesados, el n umero de casos que tienen por lo menos una inconsistencia y, para cada condicion de
consistencia, su n umero y nombre y el n umero de casos que no pasaron la prueba.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden usar variables numericas o
alfabeticas.
$RUN CONCHECK
$FILES
$RECODE (opcional)
Proposiciones de Recode que indican las inconsistencias
$SETUP
2. Ttulo
3. Par ametros
4. Proposiciones de condicion
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: INCLUDE V1=1
Ejemplo: PRUEBA DE INCONSISTENCIAS PARA LA REGION NORTE
Ejemplo: IDVARS=(V1,V3-V4) MAXERR=50
INFILE=IN/xxxx
Tratamiento de los datos no numericos. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
MAXERR=999/n
N umero maximo de inconsistencias a imprimir antes de detener la ejecuci on de CONCHECK.
Hasta 5 variables cuyos valores se imprimiran para identicar casos con inconsistencias.
Por defecto: se imprime el n umero secuencial de caso.
Variables a imprimir para cualquier caso que tenga por lo menos un error.
FILLCHAR=cadena de caracteres
Hasta 8 caracteres usados para separar variables cuando se imprimen las inconsistencias.
Por defecto: 2 espacios.
PRINT=(CDICT/DICT, VNAMES)
hay.
VNAM Cuando se imprimen variables para casos inconsistentes, imprimir los primeros 6 car-
acteres del nombre en vez de los n umeros de las variables.
4. Proposiciones de condici on (se debe dar por lo menos una). Se suministra una proposicion de
condicion para cada consistencia a vericar con una referencia a las correspondientes proposiciones
de Recode, un nombre para la prueba y las variables cuyos valores se deben imprimir cuando falle la
prueba.
Las reglas de codicacion son las mismas de los par ametros. Cada proposicion condicional debe comen-
zar en una nueva lnea.
Ejemplo: TEST=R3 CVARS=(V34,V36,V52) -
CNAME=EDAD, SEXO, ESTADO DE EMBARAZO
TEST=n umero de variable
Una variable para la cual un valor no igual a cero, indica que una vericacion de consistencia ha
fallado.
118 Vericacion de consistencia (CONCHECK)
CVARS=(lista de variables)
Lista de variables cuyos valores se deben imprimir cuando se presente esta inconsistencia.
Por defecto: solo se imprimen las variables especicadas en IDVARS y VARS.
CNUM=n
N umero de condicion.
Por defecto: n umero secuencial de la condicion.
CNAME=cadena de caracteres
Nombre para esta condicion, hasta 40 caracteres.
Por defecto: no asigna nombre.
13.7. Restricciones
1. S olo se imprimen los primeros 4 caracteres de las variables alfabeticas.
2. Los nombres de condicion no pueden tener mas de 40 caracteres de longitud.
3. El n umero maximo de variables de identicacion es 5.
4. El n umero maximo de variables a imprimir para cada caso con errores es 20 (lista de variables en
VARS).
5. El n umero maximo de variables a imprimir para cada condicion es 20 (lista de variables en CVARS).
13.8. Ejemplos
Ejemplo 1. Vericar la relacion entre V6 y V7 y entre V20 y V21; para cada caso con errores se imprimiran
las variables de identicacion V2 y V3 junto con los valores de las variables claves V8-V10; se imprimiran
los nombres de las variables.
$RUN CONCHECK
$FILES
PRINT = CONCH1.LST
DICTIN = MY.DIC archivo Diccionario de entrada
DATAIN = MY.DAT archivo Datos de entrada
$RECODE
R1=0
R2=0
IF V5 INLIST(1-5,8) AND V7 EQ 2 THEN R1=1
IF V20 LE 3 AND V21 EQ 5 OR V20 EQ 8 AND V21 EQ 7 OR V20 EQ V21 THEN R2=1
$SETUP
PRUEBA PARA 2 INCONSISTENCIAS
PRINT=VNAMES IDVARS=(V2,V3) VARS=(V8-V10)
TEST=R1 CNAME=primera inconsistencia CVARS=(V5,V7)
TEST=R2 CNAME=segunda inconsistencia CVARS=(V20,V21)
Ejemplo 2. Vericar 5 condiciones en la parte 2 de un cuestionario; las pruebas se van a numerar a partir
de 201; se van a listar todas las variables de la parte 2 para cada cuestionario con errores, junto con las
variables claves de la parte uno (V5-V10); ademas, se van a imprimir nuevamente ciertas variables usadas
en las pruebas para cada prueba que falle. Tenga en cuenta el uso de la funci on SELECT de Recode para
iniciar con ceros las correspondientes variables de resultados.
13.8 Ejemplos 119
$RUN CONCHECK
$FILES
$SETUP
PARTE 2 DE LA VERIFICACION DE CONSISTENCIA
MAXERR=400 IDVARS=(V1,V3) VARS=(V5-V10,V200-V231)
TEST=R1 CNUM=201 CVARS=(V203-V205)
TEST=R2 CNUM=202 CVARS=(V203,V210-V212)
TEST=R3 CNUM=203 CVARS=(V214,V215)
TEST=R4 CNUM=204 CVARS=(V222-V226)
TEST=R5 CNUM=205 CVARS=(V229,V230)
$RECODE
R900=1
A SELECT (FROM=(R1-R5), BY R900) = 0
IF R900 LT 5 THEN R900=R900+1 AND GO TO A
IF V203 IN(1-5,17,20-25) AND V204 EQ 3 OR V205 EQ M THEN R1=1
IF V203 GT 6 AND MDATA(V210,V211,V212) THEN R2=1
IF 2*TRUNC(V214/2) EQ V214 OR V215 EQ 0 THEN R3=1
IF COUNT(1,V222-V226) LT 2 THEN R4=1
IF MDATA(V229) AND NOT MDATA(V230) THEN R5=1
Captulo 14
Vericacion de intecalacion de
registros (MERCHECK)
El programa MERCHECK detecta y corrige los errores de intercalaci on de registros (registros faltantes,
duplicacion de registros y registros invalidos) en un archivo con registros m ultiples por caso. La salida es un
archivo con igual n umero de registros por caso, rellena los registros faltantes y elimina los registros duplicados
y los registros invalidos. Aunque la concepcion original de este programa se hizo para imagen de tarjeta, se
pueden tener registros hasta de 128 caracteres de longitud. Como los dem as programas IDAMS suponen que
cada caso en un archivo de datos tiene exactamente el mismo n umero de registros, el uso de MERCHECK
es un paso esencial de vericacion inicial para todos los archivos que tengan mas de un registro por caso.
Operacion del programa. El usuario suministra un conjunto de Descripciones de registros que denen los
tipos de registro permitidos. En el momento de procesar los datos, el programa carga en un area de trabajo
todos los registros de datos consecutivos de entrada que tengan un mismo identicador de caso. Los registros
se comparan, uno a uno, con los tipos de registro denidos y se construye un caso de salida. Los registros
se rellenan, se eliminan, se reordenan, etc. seg un las necesidades. El caso se lleva al archivo de salida y el
programa regresa para leer el conjunto de registros de entrada para el siguiente caso. Los resultados muestran
las correcciones hechas por el programa a los datos de entrada.
Identicacion de casos y de registros. MERCHECK requiere que el identicador de caso este en la
misma posicion para todos los registros. Los campos del identicador de casos pueden estar ubicados entre
columnas no contiguas y puede estar compuesto por cualquier tipo de caracteres. Los tipos de registro se
identican por un solo campo identicador de registro (de 1-5 columnas) que puede tener cualquier tipo de
car acter excepto blancos. A continuacion se muestra el bosquejo de un archivo de datos con dos tipos de
registros. Los puntos hacen referencia a campos de datos o campos en blanco.
...SE23..........01...............10......
...SE23..........01...............12......
...SE23..........02...............10......
...SE23..........02...............12......
...SE24..........01...............10......
...SE24..........01...............12......
primer segundo campo
campo campo identificador
identificador identificador de registro
de caso de caso
En este ejemplo hay dos tipos de registro para cada caso, que se identican con los n umeros 10 o 12 en las
columnas 35 y 36. El identicador de caso (ID de caso) est a compuesto por dos campos no consecutivos en
las columnas 4-7 y 18-19. As SE2301, es un identicador de caso, SE2302 es otro y SE2401 es otro.
122 Vericacion de intecalaci on de registros (MERCHECK)
Eliminaci on de registros invalidos. Se imprime de manera opcional pero no se transmite al archivo de
salida, un registro de datos de entrada conocido como registro extra, el cual contiene un identicador de
registro no denido en las Descripciones de registros. Adicionalmente, hay dos opciones para eliminar otros
tipos de registros invalidos.
Los registros que no tengan una constante especca, se rechazan. (Ver los par ametros CONSTANT,
CLOCATION, y MAXNOCONSTANT).
El usuario puede especicar el valor del identicador del primer caso valido. Todos los casos con un
identicador cuyo valor sea menor que el valor especicado, se rechazan. (Ver el par ametro BEGINID).
Opciones para el manejo de casos con registros faltantes. El usuario debe escoger, con el par ametro
DELETE, una de las tres formas posibles para el manejo de los casos incompletos.
1. DELETE=ANYMISSING. No se produce caso de salida cuando faltan uno o mas tipos de registro.
2. DELETE=ALLMISSING. Un caso no sale si no se encuentra por lo menos un identicador valido de
registro.
3. DELETE=NEVER. El programa nunca excluye ning un caso que tenga uno o mas registros faltantes.
En esta alternativa, el programa construye un registro para cada tipo de registro faltante y lo llena
con blancos o con valores suministrados por el usuario. Ver el par ametro PADCH y el par ametro
PAD de las Descripciones de registros. La complementacion tiene lugar en columnas diferentes de
las de identicacion de campos de caso y de campos de registro. El programa siempre inserta los
identicadores apropiados para casos y registros.
Opciones para el manejo de casos con registros duplicados. Un registro duplicado es aquel que tiene
los mismos identicadores de caso y de registro que otro, sin interesar el contenido de ambos registros. El
usuario especica cual duplicado debe mantenerse si hay mas de un registro de entrada con los mismos
identicadores de caso y de registro. Por ejemplo, la opcion DUPKEEP=1 hace que el programa guarde el
primer registro y descarte los otros. El caso no se transere al archivo de salida si se encuentra un n umero de
duplicados menor que n (donde DUPKEPP=n), es decir, que para borrar casos con registros duplicados, se
especica un valor grande para n. Precauci on: puede suceder que registros con identicadores duplicados no
contengan los mismos datos. Corresponde al usuario decidir la conveniencia de retener o no un determinado
registro.
Opciones para el manejo de registros eliminados. Los registros de datos de entrada que se han
eliminado, es decir, aquellos que no van al archivo de salida, se pueden colocar en otro archivo (ver el
par ametro WRITE).
Seleccion de tipos de registro. MERCHECK le permite al usuario subdividir tipos de registros, selec-
cionados a partir de un archivo de entrada mas amplio. Incluya simplemente solo los identicadores requeridos
en las Descripciones de registros y escoja una opcion apropiada para la impresion de errores (EXTRAS=n o
PRINT=ERRORS, por ejemplo) y un valor razonable para MAXERR. Es esencial minimizar la impresion
de casos con errores ya que casi siempre cada caso con identicadores faltantes en el archivo de entrada,
sera impreso como error debido a registros con identicacion invalida (es decir, aquellos que no se han
especicado en las Descripciones de registros).
Capacidad de comenzar nuevamente. El par ametro BEGINID se usa para volver a comenzar el programa
MERCHECK cuando la ejecuci on anterior termino antes de haber procesado todos los datos de entrada.
El usuario debe determinar el identicador del ultimo caso procesado y asignar al par ametro BEGINID ese
valor +1. (Si el programa termina porque se excedio el valor del par ametro MAXERR, en el listado de salida
aparecer a el ultimo registro leido y el valor asignado al par ametro BEGINID debera ser el identicador de
caso de ese registro).
Nota. MERCHECK tiene por objeto la vericacion de archivos de datos con m ultiples registros por caso
y debe haber un identicador de registro en cada registro. Te oricamente, MERCHECK se podra usar
para eliminar registros duplicados y registros sin alguna constante especca para archivos con casos de
un solo registro por caso. Sin embargo, esto solo puede hacerse si los registros contienen alguna constante
cuyo valor se pueda asimilar a un identicador de registro. Este tipo de operaci on se realiza mejor con el
programa SUBSET al usar un ltro que excluya los registros que carezcan de una constante y con la opcion
DUPLICATE=DELETE para eliminar los duplicados. (Ver la documentacion de SUBSET).
14.2 Caractersticas estandar de IDAMS 123
Seleccion de casos y variables. Con excepcion de las deniciones anteriores, esta opcion no se encuentra
en este programa.
Transformaci on de datos y datos faltantes. Estas opciones no se aplican en MERCHECK.
14.3. Resultados
Casos con errores. El listado completo de la documentacion de cada caso con errores tiene tres partes: un
resumen de los errores, registros no transferidos al archivo de salida (registros malos) y los casos transferidos
al archivo de salida (casos buenos) tal como aparecen en este archivo de salida. Ver mas adelante para mayor
informacion sobre estos componentes. Para datos con un gran n umero de tipos de registros y muchos casos
con errores, el listado de los casos errados puede ser costoso y para algunos jobs innecesario. La cantidad de
listado requerido depende del mayor o menor conocimiento que el usuario tenga acerca de los datos y de su
habilidad para corregir o re-corregir los errores. Por ejemplo, si un usuario espera que se presenten muchos
rellenos (padding), pero ninguna o casi ninguna duplicaci on de registros o registros invalidos, es suciente
tener en el papel solo el resumen de los errores y especicar que se almacenen los casos con errores (si los
hay) (ver la opcion WRITE=BADRECS) y listarlos posteriormente. Se pueden aplicar varios controles a la
cantidad de listado obtenido con los par ametros PRINT, EXTRAS, DUPS y PADS.
Casos con errores: resumen de errores. El resumen de errores consiste en una identicacion del caso
con errores (conteo de caso o ID de caso) y uno de tres tipos de mensaje referentes a los errores que se
presentaron. El conteo secuencial de los casos no considera los registros o casos eliminados porque ellos
aparecen antes del comienzo del identicador o les falta la constante requerida. El identicador del caso se
toma de los identicadores del campo tal como se haya especicado en el par ametro IDLOC.
Se reportan tres tipos de errores, a saber:
1. tipo de registro invalido,
2. casos con registros faltantes,
3. casos con registros duplicados.
Casos con errores: registros malos. Se presentan los registros invalidos y los registros duplicados, as co-
mo tambien todos los registros de casos que se han rechazado por carencia de registros. Se imprimen en el
orden en que se encuentran en el archivo de entrada.
Casos con errores: registros buenos. Cuando se guarda un caso, despues de haber detectado un error,
los registros que pasan al archivo de salida, incluidos aquellos que se han rellenado, se imprimen.
Registros anteriores a BEGINID. Su impresion es opcional. Ver par ametro PRINT=LOWID.
Registros sin clasicar. Normalmente se imprimen, sin embargo el listado puede suprimirse. Ver par ametro
PRINT=NOSORT.
Registros sin constante especicada. Se imprime cualquier registro que carezca de la constante especi-
cada por el usuario en las columnas adecuadas. Este listado se puede suprimir. Ver par ametro PRINT=NOCONSTANT.
Estadsticas de ejecuci on. Al nal de resultados, se imprimen los totales de registros faltantes, registros
invalidos y registros duplicados asi como tambien, el n umero total de casos ledos, casos escritos, casos
eliminados y casos con errores.
14.4. Datos de salida
Los datos de salida van a un archivo con longitud de registro igual a la de los registros de entrada y con el
mismo n umero de registros por caso. Cada caso tiene cada uno de los tipos de registro especicados en las
descripciones de registros.
Los datos de entrada consisten en un archivo con registros de longitud ja, clasicado normalmente por el
ID del caso y dentro de este, por el identicador de registro. La longitud del registro no puede exceder de
128 caracteres.
$RUN MERCHECK
$FILES
$SETUP
1. Ttulo
2. Par ametros
3. Descripciones de registros (tantas como se requieran)
$DATA (condicional)
Datos
Archivos:
FT02 registros rechazados (registros de casos malos)
cuando se ha especificado WRITE=BADRECS
DATAyyyy datos de salida (casos buenos)
Ejemplo: MERCHECK DE MIS DATOS ESTUDIO 308 SAM 7/18/48
Ejemplo: MAXE=25 RECORDS=8 IDLOC=(1,5)
INFILE=IN/xxxx
Un sujo de ddname de 1-4 caracteres para el archivo Datos de entrada.
Por defecto: DATAIN.
MAXCASES=n
N umero maximo de casos a usar del archivo de entrada.
MAXERR=10/n
N umero maximo de casos con errores. Cuando hay casos que tengan (n + 1) errores, termina la
ejecuci on del programa. Los casos que est an antes del parametro BEGINID, los casos sin clasicar
y los registros sin constante, no se cuentan como casos con errores. Se consideran casos con error
los que contienen registros invalidos, duplicados o faltantes.
OUTFILE=OUT/yyyy
Un sujo de ddname de 1-4 caracteres para el archivo Datos de salida.
Por defecto: DATAOUT.
RECORDS=2/n
N umero de registros por caso (tal como se hayan denido en las Descripciones de registros).
IDLOC=(i1,f1, i2,f2, ...)
Columnas inicial y nal para identicacion de 1-5 campos de identicacion de caso. Debe sumin-
istrarse por lo menos una columna. Si hay mas de un campo de identicacion de caso, entonces
deben especicarse en el orden en el cual los datos est an clasicados.
BEGINID=ID del caso
El caso con el identicador mas bajo a partir del cual el programa comienza el proceso: de 1-40
caracteres encerrados entre comillas sencillas si contiene caracteres no alfanumericos. Si se usan
casos con identicadores de campos m ultiples, el valor debe ser el resultado de la concatenaci on
de los identicadores individuales de cada campo clasicados.
Por defecto: blancos.
NOSORT=0/n
N umero maximo de casos sin clasicar tolerado por el programa. Cuando se presenta un n umero
de casos sin clasicar igual o mayor que (n+1), la ejecuci on del programa termina.
DELETE=NEVER/ANYMISSING/ALLMISSING
Especica bajo que condiciones referentes a registros faltantes, se borra o no se borra un caso.
NEVE Nunca rechaza un caso por registros faltantes. Si falta uno o todos los registros, el
programa rellena (con blancos o con valores especicados por el usuario), todos los
registros que falten y rechaza cualquier registro con identicador invalido, antes de la
salida del caso.
ANYM No sale ning un caso para el cual falten uno o mas registros, es decir que no se graban
casos incompletos.
ALLM No sale ning un caso para el cual no haya registros validos, es decir, cuando todos los
registros para un caso tienen valores invalidos de los ID de registro.
PADCH=x
Caracter para usar cuando se rellenan los registros. Los caracteres no alfanumericos deben estar
entre comillas sencillas. Ver tambien Descripciones de registros para mayores detalles sobre la
accion de relleno (padding) de registros.
DUPKEEP=1/n
Especica (para registros duplicados) que se debe guardar el n-esimo duplicado. Si se encuentran
menos duplicados que n, el caso en el cual estos se presentan se elimina (a un si se especica
DELETE=NEVER).
WRITE=BADRECS
Crear un archivo de los registros rechazados (casos malos).
CONSTANT=valor
Valor de una constante. Debe ir entre comillas sencillas si contiene caracteres no alfanumericos.
Cualquier registro de datos de entrada sin la constante, se rechaza. La localizacion de la constante
debe ser la misma en todos los registros de entrada, sin importar el tipo de registro.
CLOCATION=(i, f)
(Se suministra solo cuando se usa CONSTANT). Localizacion del campo de la constante.
i Columna inicial para el campo de la constante en cada registro.
f Columna nal para el campo de la constante en cada registro.
MAXNOCONSTANT=0/n
(Se suministra solo cuando se usa CONSTANT). N umero maximo de registros sin la constante que
son tolerados por el programa. Cuando se encuentran n + 1 registros sin constante, MERCHECK
termina la ejecuci on.
PRINT=(CONSTANT/NOCONSTANT, SORT/NOSORT, ERRORS/NOERRORS, LOWID,
BADRECS, GOODRECS)
CONS Imprimir registros sin constante especicada.
NOCO No imprimir registros sin constante especicada.
SORT Imprimir mensaje de tres lneas para los casos por fuera del orden de clasicacion.
NOSO No imprimir casos por fuera del orden de clasicacion.
LOWI Imprimir todos los registros que tengan un identicador de caso menor de BEGINID.
Las siguientes opciones de impresion, se reeren a los listados de casos con errores (es decir,
registros faltantes, duplicaciones e invalidos).
ERRO Imprimir resumen de errores para cada caso con un error.
NOER No imprimir resumen de errores para casos con errores.
BADR Imprimir registros rechazados (malos) para casos con errores.
GOOD Imprimir registros aceptados (buenos) para casos con errores.
EXTRAS=0/n
DUPS=0/n
PADS=0/n
Si un caso tiene un n umero de registros invalidos (extra/duplicados/con relleno) inferior a n y no
otros errores, no se imprime. As, un caso que tenga solamente 2 registros invalidos y no le falten
registros o no tenga registros duplicados, no se imprime si se asigna EXTRAS=3; pero, por otra
parte, se imprime de acuerdo con la especicaci on en PRINT si le falta 1 registro.
Por defecto: se imprimen todos los casos con errores, de acuerdo con las especicaciones de PRINT.
3. Descripciones de registros (obligatoria: una por cada tipo de registro que se seleccione como salida).
Las reglas de codicacion son las mismas de los par ametros. Cada descripcion de registro debe comenzar
en una nueva lnea.
Ejemplo: RECID=21 RIDLOC=1
RECID=3 RIDLOC=2 PAD=43599-
999998889999999881119
RECID=xxxxx
Un c odigo de tipo de registro, de 1-5 caracteres no blancos. Debe encerrarse entre comillas sencillas
si contiene caracteres en min usculas.
RIDLOC=i
Columna inicial para el identicador de campo.
PAD=xxx....
Valores a usar cuando se rellena un registro de este tipo. La cadena de valores debe estar entre
comillas sencillas cuando contenga caracteres no alfanumericos. El primer car acter se colocar a en
la columna 1 del registro rellenado de salida, etc. Para pasar a la lnea siguiente, coloque un gui on.
Si la longitud de la cadena es menor que la longitud de registro, entonces el resto se rellena hacia
la derecha con el PADCH especicado en la proposicion del par ametro.
Por defecto: se usa PADCH para toda la cadena.
Nota: los valores correctos de los identicadores de caso y registro, se insertan autom aticamente
en las posiciones correctas, en el registro que se ha rellenado.
14.8 Restricciones 127
14.8. Restricciones
1. La longitud maxima del registro de entrada es 128.
2. El n umero maximo de registros de salida por caso es 50.
3. El programa reserva un espacio de trabajo para un maximo de 60 registros con valor igual del iden-
ticador de caso. En esta cuenta se incluyen los registros v alidos, duplicados, invalidos y registros
rellenados por el programa. MERCHECK termina la ejecuci on cuando en el area de trabajo hay mas
de 60 registros con un identicador de caso igual.
4. La longitud maxima combinada de los identicadores de campo dentro de un caso en particular, es de
40 caracteres.
5. La longitud maxima de un campo identicador de registro es de 5 caracteres consecutivos no blancos.
6. La longitud maxima de una constante para vericacion es de 12 caracteres.
7. El n umero maximo de campos identicadores de caso es 5.
14.9. Ejemplos
Ejemplo 1. Vericar la intercalaci on de tres registros por caso, los cuales tienen tipos de registro 1, 2 y 3
respectivamente; los registros faltantes se rellenan: registros 1 y 2 se rellenan con blancos y el registro 3 se
rellena con una copia de los valores dados en el par ametro PAD; los casos con registros no validos (cuando
todos los registros de un caso tienen tipos de registro invalidos), se escriben en el archivo BAD; los registros
que presenten un maximo de cuatro registros duplicados, tambien se escriben en el archivo BAD (si un caso
tiene 5 o mas duplicados de un tipo de registro en particular, entonces se guarda como un caso bueno usando
el quinto duplicado y eliminando los otros).
$RUN MERCHECK
$FILES
PRINT = MERCH1.LST
FT02 = \DEMO\BAD.DAT archivo de registros malos de salida
DATAIN = \DEMO\DATA1.DAT archivo Datos de entrada
DATAOUT = \DEMO\DATA2.DAT archivo Datos de salida (solo con casos buenos)
$SETUP
VERIFICACION DE INTERCALACION DE DATOS
IDLO=(1,3,5,6,10,10) RECO=3 DELE=ALLM DUPK=5 WRITE=BADRECS MAXE=200
RECID=1 RIDLOC=12
RECID=2 RIDLOC=12
RECID=3 RIDLOC=12 PAD=9999999999-
9399999999999999999999999999999999999999999999999999999999999999999999
Ejemplo 2. Vericar los datos, borrando casos con registros faltantes y eliminando casos que no pertenecen
al estudio; el archivo Datos contiene dos registros por caso; se guardan los casos con registros duplicados
(se desechan todos, excepto el primero de una serie de registros duplicados); hay un tipo de registro TT en
las columnas 4 y 5 de un registro y un tipo AB en las columnas 7 y 8 del otro registro; el identicador del
estudio, HST, debe aparecer en las columnas 124-126 de cada registro.
$RUN MERCHECK
$FILES
FT02 = BAD.DAT archivo de registros malos de salida
DATAIN = DATA.DAT RECL=126 archivo Datos de entrada
DATAOUT = GOOD.DAT archivo Datos de salida (solo con casos buenos)
$SETUP
VERIFICACION DE INTERCALACION DE DATOS
IDLO=(1,3) RECO=2 WRITE=BADRECS MAXE=20 -
CONS=HST CLOC=(124,126)
RECID=TT RIDLOC=4
RECID=AB RIDLOC=7
Captulo 15
Correccion de datos (CORRECT)
CORRECT ofrece la facilidad de corregir la informacion contenida en un dataset IDAMS. Se pueden corregir
valores de las variables individuales en casos especicados o eliminar casos en forma total.
CORRECT sirve para corregir errores en variables individuales de casos especcos que hayan sido detec-
tados por BUILD, CHECK o CONCHECK. La preparacion de instrucciones de actualizacion es facil. Las
vericaciones se llevan a cabo de manera que exista compatibilidad entre los datos y la correccion y se
imprime una buena documentacion en la cual se describen todas las correcciones hechas.
Operacion del programa. CORRECT lee primero el diccionario y almacena la informaci on acerca de
todas las variables del dataset. A continuacion se procesan las instrucciones de correccion. Despues de leer
una instruccion, CORRECT lee el archivo Datos y copia los casos hasta identicar el caso especicado en la
instruccion. CORRECT ejecuta la instruccion, bien sea, imprimiendo el caso o revisando los valores de las
variables seleccionadas y llevando el caso al archivo de salida o elimin andolo del mismo, seg un lo apropiado.
Cuando se han agotado todas las instrucciones, los casos restantes, si los hay, se copian al archivo de salida
y la ejecuci on termina en forma normal. Si hay errores en el orden de clasicacion de las instrucciones de
correccion o en el orden de clasicacion de los casos, y tambien, si hay errores de sintaxis en las instrucciones
de correccion, CORRECT informa de la situaci on en el listado de salida y pasa a la instruccion siguiente.
Correccion de variables. El usuario especica la identicacion del caso seguida de los n umeros de variables
que se van a corregir, junto con sus nuevos valores. Se pueden corregir las variables numericas (enteras o
decimales) y alfabeticas.
Correccion de variables de identicacion de casos. Si se va a corregir un campo de identicacion, se
afectara, normalmente, el orden de clasicacion y por lo tanto debe usarse el par ametro CKSORT=NO. Si
la variable de identicacion contiene caracteres no-numericos erroneos, entonces se encierra su valor entre
comillas sencillas en la instruccion de correccion.
Eliminaci on de casos. El usuario puede eliminar un caso del archivo Datos mediante la especicaci on de
la informacion de identicacion del caso y la palabra DELETE.
Listado de casos. El usuario puede escoger un caso en particular para imprimirlo con la especicaci on de
la identicacion del caso y la palabra LIST.
Seleccion de casos y variables. Se puede escoger un subconjunto de casos para procesar y llevar a la
salida mediante la inclusi on de un ltro est andar. La selecci on de variables es inapropiada.
130 Correccion de datos (CORRECT)
Tratamiento de datos faltantes. CORRECT no hace distincion entre datos verdaderos y valores de datos
faltantes; el concepto no aplica a la operaci on del programa.
15.3. Resultados
Diccionario de entrada. (Opcional: ver el par ametro PRINT). Se imprimen los registros del diccionario
para todas las variables, no solamente aquellos que corresponden a las que se van a corregir.
Listado de las instrucciones de correccion. Siempre se imprimen las instrucciones de correccion. El
programa tambien imprime, en forma opcional, con cada correccion: (1) registros de datos de entrada, (2)
registros eliminados, o (3) registros corregidos (ver el par ametro PRINT).
Siempre sale una copia del diccionario. Si no se necesita, la denicion de archivo DICTOUT puede omitirse.
Los datos se copian siempre al archivo de salida, a un si no hay correcciones o eliminaciones.
La entrada es un archivo Datos descrito por un diccionario de IDAMS. Normalmente, CORRECT espera que
los casos vengan clasicados en orden ascendente por las variables de identicacion de caso. Sin embargo,
el usuario puede indicar (con el par ametro CKSORT) que los casos no se encuentran en orden ascendente.
Esta opcion debe usarse con precauci on: el orden de las instrucciones de correccion debe ser exactamente el
mismo orden de los datos en el archivo.
$RUN CORRECT
$FILES
$SETUP
2. Ttulo
3. Par ametros
4. Instrucciones de correcci on (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: INCLUDE V1=10,20,30 AND V12=1,3,7
Ejemplo: CORRECCION DE CODIGOS ALFA EN LA ELECCION DE 2001
Ejemplo: PRINT=CORRECTIONS, IDVARS=V4
INFILE=IN/xxxx
MAXCASES=n
N umero maximo de casos (despues de ltrar) a usar del archivo de entrada. Si MAXC=0, en todas
las instrucciones de correccion se verican los errores de sint axis pero no se procesan los datos.
Hasta 5 n umeros de variable para los campos de identicaci on de caso. Si se especica mas de un
identicador de campo, los n umeros de variables deben suministrarse en orden de clasicacion de
mayor a menor.
CKSORT=YES/NO
Indica si se debe vericar la clasicacion del orden ascendente secuencial de los campos de iden-
ticacion. La ejecuci on termina si se detecta un caso fuera de orden.
OUTFILE=OUT/yyyy
PRINT=(DELETIONS, CORRECTIONS, CDICT/DICT)
DELE Listar los casos para los cuales se especico una instruccion de eliminacion en las
instrucciones de correci on.
CORR Listar los casos corregidos.
4. Instrucciones de correccion. Estas proposiciones indican cual de las opciones de listar, eliminar o
corregir se van a aplicar y para cuales casos.
Ejemplos:
ID=1026,V5=9,- (Para el caso con identificador "1026", cambie
V6=22 el valor de V5 a 9 y el valor de V6 a 22).
ID=PEDRO PEREZ,DELETE (Elimine el caso con identificador "PEDRO PEREZ"
del archivo de salida).
ID=091,3,LIST (Listar el caso con identificador "091", "3").
ID=023,16,V8=DON_T,- (Cambiar el valor de V8 a DONT y de V9 a TEACH,RES).
V9=TEACH|RES
132 Correccion de datos (CORRECT)
Cada instruccion de correccion debe comenzar en una lnea nueva. Para seguir a otra lnea, interrumpa
despues de la coma al nal de una correccion completa de variable y coloque un gui on. Se pueden usar
tantas lneas de continuacion como sean necesarias. Pueden aparecer blancos en cualquier lugar de las
instrucciones.
Los casos y las instrucciones de correccion deben estar clasicados exactamente en el mismo orden
relativo seg un los identicadores.
Valores de identicaci on de caso
El caso a corregir se identica con la palabra clave ID= seguida del valor o valores de la variable
o variables de identicacion.
La lista de valores en la instruccion no va entre parentesis.
Cada valor, incluido el ultimo, debe estar seguido de una coma y el orden de los valores debe
corresponder al orden de las variables en la lista de variables de identicacion especicadas con
el par ametro IDVARS.
El n umero de dgitos o de caracteres en un valor debe ser igual al ancho de la variable como se
haya establecido en el diccionario, es decir, puede ser necesario incluir los ceros a la izquierda.
Valores que contengan caracteres no numericos deben encerrarse entre comillas sencillas, por ej.
ID=9, PAM.
Tipo de instrucci on
La identicacion de caso est a seguida de la palabra LIST, de la palabra DELETE o de una cadena
de correccion de variables.
Correcciones de variables
Una correccion de variable consiste en un n umero de variable precedido de una V y seguido de
un = y del valor correcto, por ej. V3=4.
Correcciones de variable para diferentes variables en el mismo caso se separan con comas.
Valores de correccion para variables numericas pueden especicarse sin ceros a la izquierda.
Si la variable incluye cifras decimales, se puede colocar el punto decimal pero este no se escribe en
el archivo de salida. Los dgitos se alinean de acuerdo con el n umero de cifras decimales indicado
en el diccionario y se redondean los dgitos decimales en exceso.
Si el valor contiene caracteres no numericos, este debe encerrarse entre comillas sencillas. Una
coma intercalada debe representarse como una barra vertical y una comilla sencilla intercalada
debe representarse como un gui on de subrayado; el programa convertira la barra vertical y el
subrayado a la coma y a la comilla sencilla respectivamente, por ej. v8=Don t).
Los valores de correccion para valores alfabeticos deben encajar con el ancho de la variable. Si
el valor de correccion contiene blancos o caracteres en min usculas, este debe encerrarse entre
comillas sencilas.
15.8. Restriccion
El n umero maximo de variables identicadoras de caso es 5.
15.9. Ejemplo
Correcci on de un archivo Datos; se van a corregir variables numericas y alfabeticas y se van a eliminar dos
casos; los casos se identican con las variables V1, V2 y V5; no se cambia el diccionario y por lo tanto, no
se requiere diccionario de salida.
15.9 Ejemplo 133
$RUN CORRECT
$FILES
PRINT = CORRECT1.LST
DICTIN = DATA1.DIC archivo Diccionario de entrada
DATAIN = DATA1.DAT archivo Datos de entrada
DICTOUT = DATA2.DIC archivo Diccionario de salida (igual a entrada)
DATAOUT = DATA2.DAT archivo Datos de salida (corregido)
$SETUP
CORRECCION DE UN ARCHIVO DE DATOS
IDVARS=(V1,V2,V5)
ID=311,01,21,V12=JUAN MOLINA
ID=311,05,41,DELETE
ID=557,11,32,V58=199,V76=2,V90=155
ID=559,11,35,V12=AGATA CHRISTI,V13=F
ID=657,31,11,V58=100,V77=4,V90=105,V36=999999,V37=999999,V38=999999, -
V41=98,V44=99
ID=711,15,11,DELETE
Captulo 16
Importacion/exportacion de datos
(IMPEX)
El programa IMPEX hace importacion y exportacion de datos en formato libre o formato DIF, e importacion
y exportacion de matrices en formato libre. En un archivo de formato libre los campos pueden separarse con
un car acter de tabulaci on, un blanco, la coma, punto y coma o con otro car acter dado por el usuario. El
car acter usado en notaci on decimal puede ser el punto o la coma. Un archivo Datos importado/exportado
puede contener n umeros y nombres de variable como nombrestas de columnas. Un archivo Matriz impor-
tado/exportado puede contener n umeros de variable/valores de c odigo y nombres de variable/nombres de
c odigo como nombres de columnas/las.
Importacion de datos. El programa crea un nuevo dataset de IDAMS a partir de un archivo de datos
ASCII existente en formato libre o formato DIF (un formato para intercambio de datos desarrollado por
Software Art ProductsCorp.) y a partir de un diccionario IDAMS. El diccionario de entrada es para denir
c omo se van a transferir los campos del archivo Datos de entrada al dataset IDAMS de salida.
Exportacion de datos. El programa crea un nuevo archivo de datos ASCII que contiene variables de un
dataset existente de IDAMS y variables nuevas denidas con proposiciones Recode de IDAMS. El archivo
exportado puede ser de formato libre o formato DIF.
Importacion de matrices. El programa crea un archivo Matriz de IDAMS a partir de un archivo ASCII
en formato libre que contenga un triangulo inferior de una matriz cuadrada o una matriz rectangular.
Exportacion de matrices. El programa crea un archivo ASCII que contiene todas las matrices almace-
nadas en un archivo Matriz de IDAMS. Para exportar matrices solo se dispone del formato libre.
16.2. Caratersticas estandar de IDAMS
Seleccion de casos y variables. El ltro est andar est a disponible para seleccionar un subconjunto de casos
de los datos de entrada cuando se solicita exportar datos. Tambien en exportacion de datos, la selecci on de
variables se hace con el parametro OUTVARS.
Transformaci on de datos. Si se exportan datos, se pueden usar las proposiciones de Recode.
Tratamiento de datos faltantes. No se verican datos faltantes a excepcion de la vericaci on que se hace
con Recode en la exportacion datos. En la importacion de datos, los campos vacos (campos vacios entre
delimitadores consecutivos) se reemplazan con el primer codigo de datos faltantes o con un campo de nueves
si no se ha denido el primer c odigo de datos faltantes.
136 Importacion/exportacion de datos (IMPEX)
16.3. Resultados
Importaci on de datos
Diccionario de entrada. (Opcional: ver el par ametro PRINT). Los registros descriptores de variable y
registros C, si los hay, para todas las variables incluidas en el diccionario de entrada.
Nombres y c odigos de columnas de entrada. (Opcional: ver los par ametros PRINT y EXPORT/IMPORT).
Se imprimen los nombres y los c odigos de columnas (sin formato) tal como se leen del archivo de entrada.
Datos de entrada. (Opcional: ver el par ametro PRINT). Se imprimen sin formato para todos los casos las
lneas de datos de entrada, tal como se leen del archivo de entrada.
Datos de salida. (Opcional: ver el par ametro PRINT). Se dan los valores para todos los casos y todas las
variables, 10 valores por lnea, en el mismo orden de las lneas de datos de entrada.
Exportaci on de datos
Diccionario de entrada. (Opcional: ver el par ametro PRINT). Los registros descriptores de variable y
registros C, si los hay, solo para variables usadas en la ejecuci on.
Datos de salida. (Opcional: ver el par ametro PRINT). Se dan los valores de las variables V o R para todos
los casos, 10 valores por lnea. Para variables alfabeticas solo se imprimen los primeros 10 caracteres.
Importaci on de matrices
Matriz de entrada. (Opcional: ver el par ametro PRINT). Se imprime la matriz que se encuentra en el
archivo ASCII de entrada, con o sin nombres y c odigos de columnas.
Exportaci on de matrices
Matrices de entrada. (Opcional: ver el par ametro PRINT). Se imprimen las matrices que se encuentran
en el archivo Matriz de IDAMS de entrada, con o sin registros descriptores de variable o de nombres de
c odigo.
16.4. Archivos de salida
Importaci on
La salida es un dataset IDAMS o una matriz IDAMS segun se haya solicitado una importacion de datos o
de matriz.
En el caso de un dataset IDAMS, los valores de las variables numericas se editan de acuerdo con las reglas
de IDAMS (ver el captulo Los datos en IDAMS).
Campos numericos vacos (es decir, cadenas vacas entre caracteres delimitadores) en un formato libre se
reemplazan con el primer c odigo de datos faltantes o con nueves si el primer c odigo de datos faltantes no
est a denido.
Exportaci on
La salida es un archivo ASCII cuyo contenido vara de acuerdo con los requerimientos de exportacion.
Datos en formato DIF. Este es un archivo con secciones Header (encabezamiento) y Data (datos). Los
VECTORS corresponden a variables IDAMS y los TUPLES a los casos. Adicionalmente a los tems requeridos
de encabezamiento, se usa LABEL (un tem est andar opcional) para exportar nombres de variables. En la
secci on DATA, el indicador de valor V se usa siempre para valores numericos. Se usa punto decimal o
coma en la notaci on decimal cuando el n umero de decimales denido en el diccionario es mayor que cero.
Datos en formato libre. Este es un archivo en el cual los valores de variables se separan con un delimitador
(ver los par ametros WITH y DELCHAR) y los casos se separan, adicionalmente, con retornos de carro mas
caracteres de alimentacion de lnea. Para valores numericos, se incluye un punto decimal o una coma (ver el
par ametro DECIMALS) si el n umero de decimales denido en el diccionario es mayor que cero. Los valores
16.5 Archivos de entrada 137
de variables alfabeticas pueden estar entre comillas sencillas o comillas dobles, o sin encerrar entre caracteres
especiales (ver el par ametro STRINGS).
Matriz en formato libre. El formato de las matrices producidas por IMPEX es el mismo que el formato
requerido para matrices importadas (ver Importacion de matrices en la secci on Archivos de entrada mas
atr as). La unica diferencia es que se insertan caracteres adicionales de separacion para asegurar la posicion
correcta de los nombre de las y columnas en un paquete de hoja electronica.
16.5. Archivos de entrada
Importaci on de datos
Para importar datos, la entrada es:
un archivo ASCII con un arreglo de datos en formato libre en el cual los campos est an separados con un
delimitador y un diccionario IDAMS el cual dene como transferir datos a un dataset IDAMS (deben
describirse todos los campos en el diccionario de entrada);
un archivo de datos en formato DIF, y tambien un diccionario IDAMS.
Los archivos de entrada tambien pueden tener informacion de diccionario. Para archivos de formato libre esto
signica que los nombres y c odigos de columna (los cuales corresponden a nombres de variable y n umeros
de variable) se suministran con el arreglo de datos como primeras las del arreglo. Los nombres y c odigos
son ambos opcionales. Si se suministran, los nombres de columna reemplazan a los nombres de variable del
diccionario de entrada y se insertan en el diccionario de salida. Pueden encerrarse entre caracteres especiales
(ver el par ametro STRINGS). Los c odigos de columna solo se usan para vericar contra los n umeros de
variable del diccionario de entrada. Para archivos de formato DIF, los nombres de columna aparecen como
tems LABEL en la secci on de Header (encabezamiento). Los c odigos de columna pueden estar presentes
como primera la en el arreglo de datos.
Importaci on de matrices
Para importacion de matrices, la entrada es siempre un archivo ASCII en formato libre en el cual los valores
numericos/cadenas de caracteres se separan con un delimitador. Campos vacos (es decir, cadenas vacas
entre caracteres delimitadores) se saltan. Cada archivo puede tener una sola matriz para importar.
El archivo Matriz de entrada puede opcionalmente suministrar informacion del diccionario consistente en
una serie de cadenas para nombrar columnas/las de la matriz y los valores correspondientes de c odigo. Si
se suministran, deben seguir la sint axis dada mas adelante (la cual es diferente para matrices rectangulares
y cuadradas).
Matriz rectangular
Esta es un archivo ASCII que contiene un arreglo rectangular de valores en formato libre; puede incluir
informacion del diccionario.
Ejemplo.
Salario promedio; Grupo de edad; Sexo;
Hombre; Mujer;
1;2;
20 - 30;1;600;530;
31 - 40;2;650;564;
41 - 60;3;723;618;
Formato.
1. Las primeras tres cadenas contienen: (1) una descripcion del contenido de la matriz, (2) el ttulo de
la (nombre de variable de la) y (3) el ttulo de columna (nombre de variable de columna).
(Opcional).
2. Nombres de columna. (Opcional: un nombre para una columna de valores en el arreglo).
3. Codigos de columna (Opcional: un c odigo para una columna de valores en el arreglo).
4. El arreglo de valores. (Puede contenir opcionalmente un nombre y un c odigo de la antes de cada la
de valores).
Nota. Si los nombres de la y columna, y c odigos no est an presentes, se generan autom aticamente para la
matriz IDAMS de salida (nombres como R-#0001, R-#0002, ... C-#0001, C-#0002, ... y c odigos desde 1
hasta el n umero de las y columnas respectivamente).
Matriz cuadrada
Esta es un archivo ASCII que contiene un triangulo inferior izquierdo de una matriz triangular inferior (sin
los elementos de la diagonal) y opcionalmente vectores de medias y desviaciones est andar despues de la
matriz como una serie de datos en formato libre.
Ejemplo.
;;Paris;Londres;Bruselas;Madrid; ...
;;1;2;3;4; ...
Paris;1;
Londres;2;0.55;
Bruselas;3;0.45;0.35;
Madrid;4;1.45;2.35;1.15;
.
.
.
Formato.
1. Nombres de columna (nombres de variable). (Opcional: tantos nombres como columnas/las de
valores en el arreglo).
2. Codigos de columna (n umeros de variable). (Opcional: tantos c odigos como columnas/las de valores
en el arreglo).
3. El arreglo de valores. (Puede contenir opcionalmente un nombre y c odigo de la antes de cada la de
valores).
4. Un vector de medias. (Opcional).
5. Un vector de desviaciones est andar. (Opcional).
Nota. Si los nombres o c odigos no est an presentes, se generan autom aticamente para la matriz IDAMS de
salida (nombres como V-#0001, V-#0002, ... y c odigos desde 1 hasta el n umero de las/columnas respecti-
vamente).
Exportaci on de datos y matrices
Seg un se vaya a exportar datos o una matriz, la entrada es un archivo Datos descrito por un diccionario
IDAMS (se pueden usar variables numericas y alfabeticas) o un archivo Matriz IDAMS cuadrada o rectan-
gular.
16.6 Estructura del setup 139
$RUN IMPEX
$FILES
$RECODE (opcional con exportaci on de datos; no disponible otramente)
$SETUP
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTxxxx diccionario de entrada para exportar/importar datos
(omitir si se usa $DICT)
DATAxxxx datos/matriz de entrada (omitir si se usa $DATA)
DICTyyyy diccionario de salida para importar datos
DATAyyyy datos/matriz de salida
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci on si se ha especicado
exportacion de datos.
Ejemplo: EXCLUDE V19=2-3
Ejemplo: EXPORTACION DE INDICADORES DE DESARROLLO SOCIAL
Ejemplo: EXPORT=(DATA,NAMES) FORMAT=DELIMITED WITH=SPACE
IMPORT=(DATA/MATRIX, NAMES, CODES)
DATA Se solicita importar datos.
MATR Se solicita importar matriz.
NAME Se incluyen nombres de variable en el archivo Datos a importar. Se incluyen nombres
de variable/de c odigo en el archivo Matriz a importar.
CODE Se incluyen n umeros de variable en el archivo Datos a importar. Se incluyen n umeros
de variable/valores de c odigo en el archivo Matriz a importar.
EXPORT=(DATA/MATRIX, NAMES, CODES)
DATA Se solicita exportar datos.
MATR Se solicita exportar matriz.
NAME Se exportan nombres de variable en el archivo Datos de salida. Se exportan nombres
de variable/de c odigo en el archivo Matriz de salida.
CODE Se exportan n umeros de variable en el archivo Datos de salida. Se exportan n umeros
de variable/valores de c odigo en el archivo Matriz de salida.
Nota. Sin valor por defecto. Se debe especicar IMPORT o EXPORT (no ambos).
INFILE=IN/xxxx
Un sujo de ddname de 1-4 caracteres para el(los) archivo(s) de entrada:
archivo Datos o Matriz para importar (ddname por defecto: DATAIN),
archivos Diccionario y Datos para exportar (ddnames por defecto: DICTIN, DATAIN),
archivo Matriz IDAMS para exportar (ddname por defecto: DATAIN).
Tratamiento de los datos no numericos a exportar o importar y los valores con amplitud insu-
ciente de campo en salida. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
S olo se aplica si se ha especicado importacion/exportacion de datos.
N umero maximo de casos (despues de ltrar) a usar del archivo Datos de entrada.
MAXERR=0/n
N umero maximo de errores amplitud insuciente de campo permitido antes de detener la eje-
cucion. Estos errores se presentan cuando el valor de una variable es muy grande para caber en
el campo asignado, por ej. un valor de 250 cuando se ha especicado un ancho de campo de 2.
OUTFILE=OUT/yyyy
Un sujo de ddname de 1-4 caracteres para el(los) archivo(s) de salida:
archivos Diccionario y Datos obtenidos por importacion (ddnames por defecto: DICTOUT, DATAOUT),
archivo Matriz IDAMS obtenido por importacion (ddname por defecto: DATAOUT),
archivo Datos o archivo Matriz exportado (ddname por defecto: DATAOUT).
OUTVARS=(lista de variables)
Se aplica solo si se ha especicado exportacion de datos.
Las variables V y R que se van a exportar. El orden de las variables en la lista no es signicativo
ya que salen en orden numerico ascendente. Todos los n umeros de las variables V y R deben ser
unicos.
MATSIZE=(n,m)
Se aplica solo si se ha especicado importacion de matriz.
N umero de las y columnas de la matriz a importar. El programa supone una matriz rectangular
si han especicado ambos y una matriz cuadrada simetrica si uno de ellos se ha omitido.
n N umero de las.
m N umero de columnas.
FORMAT=DELIMITED/DIF
Especica el formato de los datos/la matriz de entrada para importacion o el formato de los
datos/la(s) matriz(ces) de salida para exportacion.
DELI Los datos/la(s) matriz(ces) se esperan en formato libre, en el cual los campos est an
separados por un delimitador (ver adelante).
DIF Los datos se esperan en formato DIF.
Nota: el formato DIF est a disponible solo para exportar o importar datos.
WITH=SPACE/TABULATOR/COMMA/SEMICOLON/USER
(Condicional: ver FORMAT=DELIMITED).
Especica el car acter delimitador para separar campos de archivos en formato libre.
SPAC Un car acter en blanco (codigo ASCII: 32).
TABU Un car acter de tabulaci on (codigo ASCII: 9).
COMM La coma , (codigo ASCII: 44).
SEMI El punto y coma ; (codigo ASCII: 59).
USER Un car acter especicado por el usuario (ver el par ametro DELCHAR mas adelante).
Nota: cuando se importan/exportan archivos DIF, siempre se usa COMMA como car acter delim-
itador, independientemente del que se haya seleccionado.
DELCHAR=x
(Condicional: ver el par ametro WITH=USER atr as).
Dene el car acter usado para separar campos de archivos en formato libre.
Valor por defecto: blancos.
DECIMALS=POINT/COMMA
Dene el car acter usado en notaci on decimal.
POIN El punto . (codigo ASCII: 46).
COMM La coma , (codigo ASCII: 44).
STRINGS=PRIME/QUOTE/NONE
Dene el car acter para encerrar cadenas de caracteres.
PRIM Comillas sencillas.
QUOT Comillas dobles.
NONE No se usa un car acter especial.
Nota: en importacion/exportacion de archivos DIF, siempre se usa QUOTE, independientemente
de lo que se haya seleccionado.
NDEC=2/n
N umero de cifras decimales a retener en exportacion.
PRINT=(DICT/CDICT/NODICT, DATA)
DICT Imprimir diccionario sin registros C.
CDIC Imprimir diccionario con registros C, si los hay.
DATA Imprimir los datos/la(s) matriz(ces).
Nota:
a) Las opciones de impresion del diccionario controlan la impresion del diccionario de salida y de
entrada.
b) La opcion de impresion de datos controla la impresion de datos de salida si se est a exportando
un archivo Datos; controla la impresion de datos la salida y la entrada si se est a importando un
archivo Datos (nunca se imprime la entrada si se importa un archivo de formato DIF).
c) Para matrices, la matriz de entrada se imprime si se ha especicado imprimir datos.
16.8. Restricciones
1. El n umero maximo de variables R que se pueden exportar es 250.
2. El n umero maximo de variables que se pueden usar en una ejecuci on (incluidas las variables usadas
solamente en proposiciones de Recode) es 500.
3. El n umero maximo de las de matriz es 100.
4. El n umero maximo de columnas de matriz es 100.
5. El n umero maximo de casillas de matriz es 1000.
16.9. Ejemplos
Ejemplo 1. Variables escogidas del dataset de entrada se transeren al archivo de salida junto con las dos
nuevas variables; los datos salen en formato libre y sus valores se separan con punto y coma; se usa coma
en la notaci on decimal y los valores alfabeticos se encierran entre comillas dobles; los nombres y n umeros de
variable se incluyen en el archivo de salida.
$RUN IMPEX
$FILES
PRINT = EXPDAT.LST
DICTIN = OLD.DIC archivo Diccionario de entrada
DATAIN = OLD.DAT archivo Datos de entrada
DATAOUT = EXPORTED.DAT archivo Datos exportado
$SETUP
EXPORTACION DE DATOS IDAMS DE FORMATO FIJO A DATOS DE FORMATO LIBRE
EXPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 -
OUTVARS=(V1-V20,V33,V45-V50,R105,R122) -
FORMAT=DELIM WITH=SEMI DECIM=COMMA STRINGS=QUOTE
$RECODE
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105GRUPOS DE EDAD
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122ARTICULOS POR A
~
NO
Ejemplo 2. Se importan datos en formato DIF a IDAMS; nombres y c odigos de columna se incluyen en el
archivo de entrada y se usa la coma para notaci on decimal.
$RUN IMPEX
$FILES
PRINT = IMPDAT.LST
DICTIN = IDA.DIC archivo Diccionario que describe
los datos a importar
DATAIN = IMPORTED.DAT archivo Datos a importar
DICTOUT = IDAFORM.DIC archivo Diccionario de salida
DATAOUT = IDAFORM.DAT archivo Datos de salida
$SETUP
IMPORTACION DE DATOS EN FORMATO DIF A DATASET IDAMS DE FORMATO FIJO
IMPORT=(DATA,NAMES,CODES) BADD=MD1 MAXERR=20 -
FORMAT=DIF DECIM=COMMA
16.9 Ejemplos 143
Ejemplo 3. Se exporta un conjunto de matrices rectangulares creadas con el programa TABLES; los campos
se separan con punto y coma y la coma se usa para notaci on decimal; los nombres y c odigos de la y columna
se incluyen en el archivo de la matriz de salida; se imprimen las matrices de entrada.
$RUN IMPEX
$FILES
PRINT = EXPMAT.LST
DATAIN = TABLES.MAT archivo con las matrices rectangulares
DATAOUT = EXPORTED.MAT archivo con las matrices exportadas
$SETUP
EXPORTACION DE MAT RECTANG DE IDAMS EN FORMATO FIJO A MAT DE FORMATO LIBRE
EXPORT=(MATRIX,NAMES,CODES) PRINT=DATA -
FORMAT=DELIM WITH=SEMI DECIM=COMMA STRINGS=QUOTE
Ejemplo 4. Importacion de una matriz cuadrada que contiene medidas de distancia para 10 objetos nu-
merados de 1 a 10; solo se incluyen valores enteros y se separan con el signo % ; los codigos de la/columna
as como los vectores de medias y desviaciones est andar se incluyen en el archivo de la matriz.
$RUN IMPEX
$FILES
PRINT = IMPMAT.LST
DATAOUT = IMPORTED.MAT archivo con la matriz importada
$SETUP
IMPORTACION DE UNA MAT EN FORMATO LIBRE A MAT CUADRADA IDAMS DE FORMATO FIJO
IMPORT=(MATRIX,CODES) MATSIZE=10 -
FORMAT=DELIM WITH=USER DELCH=%
$DATA
$PRINT
% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10%
1%
2%38%
3%72%25%
4%24%53%17%
5%64%26%76%18%
6%48%25%63%15%61%
7%12%50%7%42%8%8%
8%19%7%13%4%14%1%15%
9%29%37%34%21%24%35%3%5%
10%32%57%29%45%26%28%74%24%61%
%46%15%7%7119%74%38%9%19%34%256%
%9%11%84%8971%23%28%12%20%35%843%
Captulo 17
Listado de datasets (LIST)
LIST se usa para imprimir los datos de un archivo, las variables recodicadas e informacion del diccionario
IDAMS asociado. Se pueden seleccionar variables especcas para ser impresas o se pueden listar todos los
datos y/o el diccionario.
Cada registro de un archivo Datos es una ujo continuo de valores. Cuando se imprime tal como es, resulta
difcil distinguir los valores de variables adyacentes. LIST elimina esta inconveniencia porque ofrece un
formato de impresion de datos que separa los valores de las variables.
Se puede imprimir un diccionario IDAMS sin su correspondiente archivo Datos mediante el suministro de
un archivo cticio (es decir, un archivo vaco o nulo), al denir el archivo Datos.
Seleccion de casos y variables. Los casos se pueden seleccionar con un ltro o con la opcion de saltar
casos (SKIP). La opcion de saltar, si se usa, especica que se imprime el primer caso y despues cada n-esimo
caso. Si se especica un ltro, la opcion de saltar se aplica a los casos que han pasado por el ltro. De los
casos seleccionados, se imprimen los valores de los datos para todas las variables descritas en el diccionario
o para un subconjunto si se ha especicado el par ametro VARS.
Tratamiento de datos faltantes. Los valores de datos faltantes se imprimen tal como se presentan, sin
causar accion especial.
17.3. Resultados
Diccionario de entrada. (Opcional: ver el par ametro PRINT). Registros descriptores de variable y registros
C, si los hay, solamente para variables utilizadas en la ejecuci on. Si se escogen para imprimir todas las
variables, entonces se imprime el diccionario completo en orden secuencial.
Datos. Las variables numericas se imprimen con el punto decimal explcito, si lo hay, y sin ceros a la
izquierda. Si un valor desborda el ancho de campo, este se imprime como una cadena de asteriscos. Los datos
malos reemplazados por c odigos de datos faltantes por defecto se imprimen como blancos. Se imprimen los
valores de una variable en una columna que se extiende con el n umero de p aginas necesarias para abarcar
todos los casos escogidos para imprimir. El siguiente es un bosquejo en bloque del formato de impresion:
146 Listado de datasets (LIST)
v v v v
xxx xxxx x xxxxxxxx
xxx xxxx x xxxxxxxx
xxx xxxx x xxxxxxxx
xxx xxxx x xxxxxxxx
. . . .
. . . .
Los encabezamientos v de las columnas representan los n umeros de las variables y las x representan los
valores de las variables. Si el usuario pide mas variables de las que caben en una la (127 caracteres), LIST
har a un n umero de pasadas al archivo de datos e imprimira tantas variables como pueda cada vez. Por
ejemplo, si se van a imprimir 50 variables, LIST lee los datos, escribe todos los valores, digamos para las
primeras 10 variables. Despues lee nuevamente los datos y escribe, digamos para las siguientes 12 variables
y as sucesivamente. El n umero de variables impresas en cada pasada, depende de los anchos de campo de
las variables que se van a imprimir y es calculado autom aticamente por LIST.
Secuencia e identicacion de casos. Existen opciones para imprimir un n umero secuencial de caso y/o de
los valores de las variables de identicacion en cada caso (ver par ametros PRINT e IDVARS). Se imprimen
como las primeras columnas.
Variables de Recode. Se imprimen con 11 dgitos incluidos un punto decimal explcito y dos cifras deci-
males.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Si solo se necesita un listado del
diccionario, el archivo Datos se especica como NUL.
$RUN LIST
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: INCLUDE V5=100-199
Ejemplo: LISTADO DEL ESTUDIO: 113A
Ejemplo: VARS=(V3,V10-V25) IDVARS=V1
INFILE=IN/xxxx
MAXCASES=n
N umero maximo de casos a imprimir.
Por defecto: se imprimen todos los casos.
SKIP=n
Se imprime cada caso n-esimo (o cada caso n-esimo que pase por el ltro), comenzando por el
primer caso. El ultimo caso siempre se imprime a no ser que la opcion MAXCASES lo prohiba.
Por defecto: se imprimen todos los casos (o todos los casos que pasen por el ltro).
Imprimir los datos de las variables especicadas. Los valores de variables se imprimen en el orden
en que aparecen en esta lista.
Por defecto: se imprimen todas las variables del diccionario.
Se imprimen los valores de la(s) variable(s) especicada(s) para identicar cada caso.
SPACE=3/n
N umero de espacios entre columnas. El valor maximo es SPACE=8.
PRINT=(CDICT/DICT, SEQNUM, LONG/SHORT, SINGLE/DOUBLE)
SEQN Imprimir un n umero secuencial para cada caso que se imprima. N otese que los casos
se numeran despues de pasar por el ltro.
LONG Asume 127 caracteres por lnea de impresion.
SHOR Asume 70 caracteres por lnea de impresion.
SING Espacio sencillo entre lneas.
DOUB Doble espacio entre lneas.
17.7. Restriccion
La suma de los anchos de campo de las variables que se van a imprimir, incluidos las variables identicadoras
de caso, debe ser menor o igual a 10,000 caracteres.
148 Listado de datasets (LIST)
17.8. Ejemplos
Ejemplo 1. Listar 50 variables, incluida una variable de recodicaci on; todos los casos se imprimiran con
sus variables de identicacion (V1, V2 y V4); se imprimira el diccionario pero sin registros C.
$RUN LIST
$FILES
PRINT = LIST1.LST
DICTIN = STUDY.DIC archivo Diccionario de entrada
DATAIN = STUDY.DAT archivo Datos de entrada
$RECODE
R6=BRAC(V6,0-50=1,51-99=2)
$SETUP
LISTADO DE 50 VARIABLES CON 3 VARIABLES ID CON CADA GRUPO
IDVA=(V1,V2,V4) VARS=(V3-V49,V59,V52,R6) PRIN=DICT
Ejemplo 2. Imprimir un diccionario completo con registros C, sin imprimir los datos.
$RUN LIST
$FILES
DATAIN = NUL
$SETUP
LISTADO COMPLETO DE UN DICCIONARIO
PRIN=CDICT
Ejemplo 3. Vericacion de una recodicacion mediante el listado de valores de variables de entrada y de
variables recodicadas para 10 casos.
$RUN LIST
$FILES
DICTIN = A.DIC archivo Diccionario de entrada
DATAIN = A.DAT archivo Datos de entrada
$RECODE
R101=COUNT(1,V40-V49)
IF MDATA(V9,V10) THEN R102=99 ELSE R102=V9+V10
R103=BRAC(V16,15-24=1,25-34=2,35-54=3,ELSE=9)
$SETUP
VERIFICACION DE LOS VALORES DE TRES VARIABLES RECODIFICADAS
MAXCASES=10 SKIP=10 SPACE=1 -
VARS=(V40-V49,R101,V9,V10,R102,V16,R103)
Captulo 18
Intercalacion de datasets (MERGE)
MERGE intercala variables que vienen de casos en un dataset IDAMS, con variables que vienen de un
segundo dataset, emparejando los casos con una(s) variable(s) comun(es) de emparejamiento. Los casos en
los dos datasets no tienen que ser identicos; esto es, todos los casos presentes en un dataset, no tienen que
estar en el otro. El archivo Datos de salida est a compuesto de registros que tienen variables especicadas
por el usuario de cada uno de los dos datasets de entrada, junto con su correspondiente diccionario IDAMS.
Con el objeto de distinguir los dos datasets de entrada, uno se llama dataset A y el otro dataset B en
la documentacion del programa.
Combinacion de datasets con colecciones identicas de casos. Un ejemplo de uso del programa es
la combinaci on de los datos de la primera y subsiguiente series de entrevistas con la misma colecci on de
encuestados.
Combinacion de datasets con recolecciones diferentes de casos. Cuando hay mas de una serie de
entrevistas en una encuesta, algunos encuestados pueden retirarse y otros incluirse. El programa permite
estas discrepancias entre datasets y se le puede solicitar, por ejemplo, que produzca registros de salida para
todos los encuestados, incluidos aquellos entrevistados en una sola serie. En este ejemplo, los valores de las
variables para una serie en la cual un encuestado no fue entrevistado, saldr an como datos faltantes.
Combinacion de datasets con diferentes niveles de datos. Tambien se usa MERGE para combinar
dos datasets diferentes, uno de los cuales contiene datos mas agregados que el otro. Por ejemplo, los datos
de hogares se pueden a nadir a registros individuales de miembros de familia.
Seleccion de casos y variables. Se puede especicar un ltro para uno o para los dos datasets de entrada.
La unica diferencia en el formato del ltro es que debe estar precedido de una A: o de una B: en las
columnas 1-2, para indicar el dataset al cual se aplica el ltro.
Las variables de salida seleccionadas o todas las variables de salida de cada dataset de entrada se pueden
incluir en el dataset de salida. Estas variables de salida se especican en una lista de variables que tiene el
formato usual, excepto que las variables se denotan con una A o una B (en vez de V) para indicar
el dataset de entrada en el cual se encuentran. Por ejemplo, A1, B5, A3-A45 selecciona las variables V1,
V3-V45 del dataset A y la variable V5 del dataset B. Ver la descripcion de variables de salida en la secci on
Proposiciones de control del programa.
Tratamiento de datos faltantes. Para las opciones de salida MATCH=UNION, MATCH=A y MATCH=B,
se usan los c odigos de datos faltantes como valores para las variables de salida que no est an disponibles para
un caso particular. Ver el par agrafo Manejo de casos que aparecen en un dataset de entrada solamente en
la secci on que describe el dataset de salida mas adelante. Los c odigos de datos faltantes se obtienen de los
150 Intercalacion de datasets (MERGE)
diccionarios de los datasets A y B. El usuario indica para cada dataset si se usa el primero o segundo c odigo
de datos faltantes, y esto para todas las variables de este dataset (ver los par ametros APAD y BPAD). Si
una variable no tiene un c odigo de datos faltantes apropiado en el diccionario, se usan espacios en blanco en
el dataset de salida.
Los datos faltantes nunca salen como el valor de una variable de salida que sea tambien una variable de
emparejamiento, por que una variable de emparejamiento siempre est a disponible en el dataset que contiene
el caso. Por ejemplo, si se selecciona MATCH=UNION, supongamos que las variables A1 y B3 se han
seleccionado como las variables de emparejamiento y que solo A1 se imprimi o como variable de salida (A1 y
B3 no se imprimen ambas ya que presumiblemente, tienen el mismo valor): entonces, si falt o un caso en el
dataset A, el valor de la variable de salida A1 sera el valor de la variable B3.
18.3. Resultados
N umeros de variable anteriores (de entrada) versus n umeros de variable nuevos (de salida).
(Opcional: ver el par ametro PRINT). Una carta que contiene los n umeros de las variables de entrada y los
n umeros de referencia y los n umeros correspondientes de las variables de salida y n umeros de referencia.
Documentaci on de casos sin emparejar en cualquiera de los datasets A o B. Hay varias maneras
de documentar los casos sin emparejar, es decir, casos que aparecen solo en un dataset (ver el par ametro
PRINT).
Se pueden imprimir los valores de las variables de emparejamiento:
- cuando las variables de salida de cualquiera de los datasets se rellenan con datos faltantes,
- cuando se eliminan casos del dataset A,
- cuando se eliminan casos del dataset B.
Se pueden imprimir los valores de las variables del dataset A cuando un caso del dataset A no encaja
con ning un caso del dataset B. Las variables se imprimen en el orden especicado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Se pueden imprimir los valores de las variables del dataset B cuando un caso del dataset B no encaja
con ning un caso del dataset A. Las variables se imprimen en el orden especicado para el dataset en
la lista de variables de salida, seguida de la lista de variables de emparejamiento que tampoco son
variables de salida.
Conteo de casos. El programa imprime el n umero de casos existentes en los datasets A y B, el n umero de
casos en el dataset A y que no est an en el dataset B, el n umero de casos en el dataset B y que no est an en
el dataset A y el n umero total de casos escritos en la salida.
La salida es un nuevo archivo Datos y un diccionario IDAMS correspondiente.
Cada registro de datos contiene el valor de las variables de salida para emparejar casos de los datasets A y
B. N otese que una variable de emparejamiento no se produce autom aticamente: el usuario debe incluir la(s)
variable(s) de emparejamiento a partir de uno de los datasets en la lista de variables de salida para asignar
al registro de salida un identicador de caso.
Manejo de casos que aparecen solamente en un solo dataset de entrada. Hay cuatro acciones
posibles:
1. MATCH=INTERSECTION. Los casos que aparecen en un solo dataset de entrada no se incluyen en
el dataset de salida. (Si los datasets A y B se consideran como conjuntos de casos, la salida es la
interseccion de los conjuntos A y B).
2. MATCH=UNION. Cualquier caso que aparezca en cualquiera de los datasets de entrada se incluye en
el dataset de salida. A las variables del dataset de entrada que no contengan el caso se les asignan
valores de datos faltantes en el dataset de salida. (La salida es la union de los conjuntos A y B).
3. MATCH=A. Cualquier caso que aparezca en el dataset A, se incluye en el dataset de salida, mientras
que un caso que solo aparece en el dataset B, no se incluye. Si un caso solo se encuentra en el dataset
A, a las variables del dataset B se les asignan valores de datos faltantes en el dataset de salida para
ese caso. (La salida es el conjunto A).
4. MATCH=B. Tiene la misma accion que la opcion 3, pero el dataset B dene cuales casos se incluyen
en el dataset de salida. (La salida es el conjunto B).
Manejo de casos duplicados. Cuando uno de los dos datasets de entrada contiene mas de un caso con el
mismo valor en la variable o variables de emparejamiento, se dice que el dataset contiene casos duplicados.
Normalmente (es decir, cuando no se especica el par ametro DUPBFILE) el programa imprime un mensaje
que se nala la presencia de duplicados y luego los trata cada uno como un caso diferente. Los casos escritos
en el dataset de salida dependeran de la opcion escogida en MATCH. El cuadro siguiente muestra c omo
funciona esto.
Intercalaci on de archivos con duplicados (sin especicar DUPBFILE)
Entrada Salida
A | B | MATCH = UNION | MATCH = A | MATCH = B | MATCH =INTER
| | | | |
ID N1 | ID N2 | ID N1 N2 | ID N1 N2 | ID N1 N2 | ID N1 N2
| | | | |
01 EVA | 01 ADAN | 01 EVA ADAN | 01 EVA ADAN | 01 EVA ADAN | 01 EVA ADAN
01 ANA | 02 PEDRO | 01 ANA ____ | 01 ANA ____ | 02 CORA PEDRO | 02 CORA PEDRO
02 CORA | 03 JORGE | 02 CORA PEDRO | 02 CORA PEDRO | 03 ____ JORGE |
| | 03 ____ JORGE | | |
Sin embargo, los duplicados se pueden interpretar y manejar de una manera diferente cuando uno de los dos
datasets contiene casos en un nivel de analisis mas bajo que el otro. Por ejemplo, un dataset contiene datos de
hogares y el segundo contiene datos de miembros de hogares. En este caso, las variables de emparejamiento
especicadas para cada dataset seran la identicacion de los hogares. As, naturalmente se presentar an
duplicados en el dataset de miembros de hogares, ya que la mayora de hogares tienen mas de un miembro.
Al especicar el par ametro DUPBFILE, no se imprime mensaje de presencia de duplicados y se construyen
casos para cada caso duplicado en el dataset B con las variables del caso de emparejamiento del dataset
A, copiadas en cada caso construido. El siguiente cuadro muestra un ejemplo de este procedimiento.
Intercalaci on de archivos a diferentes niveles (se especico DUPBFILE)
Entrada Salida
A | B | MATCH = UNION | MATCH = A | MATCH = B | MATCH = INTER
| | | | |
ID N1 | ID N2 | ID N1 N2 | ID N1 N2 | ID N1 N2 | ID N1 N2
| | | | |
01 ALVA | 01 ANA | 01 ALVA ANA | 01 ALVA ANA | 01 ALVA ANA | 01 ALVA ANA
03 MORA | 01 EVA | 01 ALVA EVA | 01 ALVA EVA | 01 ALVA EVA | 01 ALVA EVA
04 RIZO | 01 PEDRO | 01 ALVA PEDRO | 01 ALVA PEDRO | 01 ALVA PEDRO | 01 ALVA PEDRO
| 02 CORA | 02 ____ CORA | 03 MORA JORGE | 02 ____ CORA | 03 MORA JORGE
| 02 ADAN | 02 ____ ADAN | 04 RIZO ____ | 02 ____ ADAN |
| 03 JORGE | 03 MORA JORGE | | 03 MORA JORGE |
| | 04 RIZO _____ | | |
Orden y numeraci on de variables. La salida de variables se lleva acabo en el orden en el que aparecen
en la lista de variables de salida y siempre se renumeran a partir del valor dado en el par ametro VSTART.
As, una lista de variables de salida tal como A1-A5, B6, A7-A25,B100 crea un dataset con variables de
V1 a V26 si VSTART=1. Los n umeros de referencia de variables, si los hay, se transeren sin modicar al
diccionario de salida.
Localizacion de variables. MERGE asigna la localizacion de variables a partir de la primera variable de
salida y luego contin ua en orden a traves de la lista de variables de salida.
MERGE necesita dos archivos de datos de entrada, cada uno de ellos descrito por un diccionario IDAMS.
Las variables de emparejamiento pueden ser alfabeticas o numericas. Las variables de emparejamiento cor-
respondientes que vienen de los datasets A y B, deben tener el mismo ancho de campo.
Las variables de salida pueden ser alfabeticas o numericas.
Cada archivo de datos de entrada debe estar clasicado en orden ascendente por las variables de empare-
jamiento, antes de usar MERGE.
$RUN MERGE
$FILES
$SETUP
1. Filtro(s) (opcional)
2. Ttulo
3. Par ametros
4. Especificacion de variables de emparejamiento
5. Variables de salida
$DICT (condicional)
Diccionario (ver Nota mas adelante)
$DATA (condicional)
Datos (ver Nota mas adelante)
Archivos:
DICTxxxx diccionario de entrada del dataset A (omitir si se usa $DICT)
DATAxxxx datos de entrada del dataset A (omitir si se usa $DATA)
DICTyyyy diccionario de entrada del dataset B (omitir si se usa $DICT)
DATAyyyy datos de entrada del dataset B (omitir si se usa $DATA)
DICTzzzz diccionario de salida
DATAzzzz datos de salida
Nota. En el setup, se puede introducir uno de los datasets de entrada A o B, pero no ambos. Sin embargo,
los registros que siguen a continuacion de $DICT y $DATA se copian en los archivos denidos por DICTIN
y DATAIN respectivamente. Entonces, si el dataset A se coloca en el setup, el dataset A estar a denido por
DICTIN y DATAIN y se debe especicar el par ametro INAFILE=IN. De la misma manera, si el dataset B
va en el setup, se debe especicar el par ametro INBFILE=IN.
1. Filtro(s) (opcional). Selecciona un subconjunto de casos de los datasets A y/o B para usar en la
ejecuci on. N otese que cada proposicion de ltro debe estar precedida por A: o B: en las columnas
1 y 2 para indicar a cual dataset se va a aplicar el ltro.
Ejemplo: A: INCLUDE V1=10,20,30
B: INCLUDE V1=10,20,30
Ejemplo: INTERCALACION DE DATOS DE MAESTROS Y ESTUDIANTES
Ejemplo: MATCH=INTE PRINT=(A,B)
INAFILE=INA/xxxx
Un sujo de ddname de 1-4 caracteres para los archivos Diccionario y Datos A de entrada.
Por defecto: DICTINA, DATAINA.
INBFILE=INB/yyyy
Un sujo de ddname de 1-4 caracteres para los archivos Diccionario y Datos B de entrada.
Por defecto: DICTINB, DATAINB.
MAXCASES=n
N umero maximo de casos (despues de ltrar) a usar del archivo A de entrada.
MATCH=INTERSECTION/UNION/A/B
INTE Llevar a la salida solo los casos que aparezcan en ambos datasets A y B.
UNIO Llevar a la salida los casos que aparezcan en uno de los dos o en ambos datasets A y
B, rellenando las variables con datos faltantes cuando sea necesario.
A Llevar a la salida solo los casos que aparezcan en el dataset A, rellenando las variables
que vienen del dataset B con datos faltantes cuando sea necesario.
B Llevar a la salida solo los casos que aparezcan en el dataset B, rellenando las variables
que vienen del dataset A con datos faltantes cuando sea necesario.
DUPBFILE
Un caso en el dataset A puede emparejarse con uno o mas casos (es decir, duplicados) del dataset
B. Para cada emparejamiento, se crea un registro de salida, dependiendo del par ametro MATCH.
Nota: el dataset con los duplicados esperados debe denirse como el dataset B.
Por defecto: los casos duplicados en cualquiera de los datasets seran anotados en los resultados y
entonces seran tratados como casos diferentes seg un la especicaci on en el par ametro MATCH.
OUTFILE=OUT/zzzz
VSTART=1/n
N umero de variable para la primera variable en el dataset de salida.
APAD=MD1/MD2
Cuando se rellenan las variables de A con datos faltantes:
MD1 Llevar a la salida el primer c odigo de datos faltantes.
MD2 Llevar a la salida el segundo c odigo de datos faltantes.
BPAD=MD1/MD2
Cuando se rellenan las variables de B con datos faltantes:
MD1 Llevar a la salida el primer c odigo de datos faltantes.
MD2 Llevar a la salida el segundo c odigo de datos faltantes.
PRINT=(PAD/NOPAD, ADELETE/NOADELETE, BDELETE/NOBDELETE, VARNOS,
A, B, OUTDICT/OUTCDICT/NOOUTDICT)
PAD Imprimir los valores de las variables de emparejamiento cuando se rellenen cualesquiera
variables de los datasets A o B con c odigos de datos faltantes.
ADEL Imprimir los valores de la variable de emparejamiento para el dataset A cada vez que
no se incluya un caso del dataset A en el archivo de datos de salida.
BDEL Imprimir los valores de la variable de emparejamiento para el dataset B cada vez que
no se incluya un caso del dataset B en el archivo de datos de salida.
VARN Imprimir un listado con los n umeros de las variables de los datasets de entrada y sus
correspondientes n umeros de variable en el dataset de salida.
A Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset A, esten o no esten incluidas en el dataset de
salida.
B Imprimir todos los valores de las variables de emparejamiento y de salida para los casos
que aparezcan solamente en el dataset B, esten o no esten incluidas en el dataset de
salida.
4. Especicacion de variables de emparejamiento (mandatorio). Esta proposicion dene las vari-
ables de los datasets A y B que se van a comparar para emparejar los casos. N otese que cada archivo
Datos de entrada debe estar clasicado, con la(s) variable(s) de emparejamiento como llaves de clasi-
cacion antes de usar MERGE.
Ejemplo: A1=B3, A5=B1
Lo cual signica que para emparejar un caso del dataset A con un caso del dataset B, el valor de la
variable V1 del dataset A, debe ser igual al valor de la variable V3 del dataset B y similarmente para
las variables V5 y V1.
Formato general
An=Bm, Aq=Br, ...
El ancho de campo de las dos variables que se van a comparar debe ser identico. La comparaci on
se hace car acter por car acter, no numericamente. As, 0.9 no es equivalente a 009, ni 9
es igual a 09. Si el ancho de campo no es el mismo, use el programa TRANS para cambiar el
ancho de una de las variables antes de usar MERGE.
Cada par de variables de emparejamiento est a separado con una coma.
Puede haber blancos en cualquier parte de la proposicion.
Para continuar en otra lnea, termine la informacion en una coma y coloque un gui on para indicar
continuacion.
5. Variables de salida (mandatorio). Denen cuales variables de cada uno de los datasets de entrada
se van a transferir a la salida y cual es su orden de salida.
Ejemplo: A1, B2, A5-A10, B5, B7-B10
Lo que signica que el dataset de salida contendra la variable V1 del dataset A, seguida por la variable
V2 del dataset B, seguida por las variables V5 hasta V10 del dataset A, etc. en ese orden.
Las reglas de codicacion son las mismas que las de la especicaci on de variables con el par ametro
VARS, excepto que se usan las letras A y B en vez de la letra V. Cada n umero de variable del
dataset A est a precedido de una A y cada n umero de variable del dataset B est a precedido de
una B.
Las variables duplicadas en la lista, se cuentan como variables separadas.
18.8. Restricciones
1. El n umero maximo de variables de emparejamiento de cada dataset es 20.
2. Las variables de emparejamiento deben ser del mismo tipo y ancho de campo en cada dataset.
3. La longitud total maxima del conjunto de variables de emparejamiento de cada dataset es 200 carac-
teres.
18.9. Ejemplos
Ejemplo 1. Combinaci on de registros de dos datasets con el mismo n umero de casos; en ambos datasets,
los casos se identican con las variables 1 y 3; todas las variables se seleccionan de cada uno de los datasets
de entrada.
$RUN MERGE
$FILES
DICTOUT = AB.DIC archivo Diccionario de salida
DATAOUT = AB.DAT archivo Datos de salida
DICTINA = A.DIC archivo Diccionario de entrada del dataset A
DATAINA = A.DAT archivo Datos de entrada del dataset A
DICTINB = B.DIC archivo Diccionario de entrada del dataset B
DATAINB = B.DAT archivo Datos de entrada del dataset B
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON EL MISMO NUMERO DE CASOS
MATCH=UNION
A1=B1,A3=B3
A1-A112,B201-B401
Ejemplo 2. Combinaci on de datasets con n umero de casos diferentes; solo los casos con registros en ambos
datasets se llevan a la salida; los casos se identican con las variables 2 y 4 en el primer dataset y con
las variables 105 y 107 respectivamente en el segundo dataset; las variables en el dataset de salida seran
renumeradas a partir del n umero 201 y se pide un listado de referencias; solo se tomaran las variables
seleccionadas de cada dataset de entrada.
$RUN MERGE
$FILES
los mismos del ejemplo 1
$SETUP
COMBINACION DE REGISTROS DE 2 DATASETS CON DIFERENTE NUMERO DE CASOS
MATCH=INTE VSTA=201 PRIN=VARNOS
A2=B105,A4=B107
B105,B107,A36-A42,B120,B131
Ejemplo 3. Combinaci on de datasets con datos de niveles diferentes; los casos del dataset A se combinan
con un subconjunto de casos del dataset B; un caso del dataset A puede aparearse con uno o mas casos
del dataset B; los casos del dataset A que no se emparejen con un caso del subconjunto del dataset B se
descartan y no se imprimen.
$RUN MERGE
$FILES
$SETUP
B: INCLUDE V18=2 AND V21=3
COMBINACION DE 2 DATASETS CON DIFERENTES NIVELES DE DATOS
MATCH=B DUPB
A1=B15
B15,A2,A6-A12,B20-B31,B40
Ejemplo 4. Se va a calcular el ingreso por hogar a partir de un dataset de miembros de hogares y luego
intercalarlo con los registros individuales de los miembros; se usa primero AGGREG para sumar los ingresos
(V6) de los individuos en los hogares; V3 es la variable que identica cada hogar; el dataset de salida de
AGGREG (denido por DICTAGG y DATAAGG) contendra 2 variables, el identicador de hogar (V1) y
el ingreso por hogar (V2); este dataset se usa en seguida como el dataset A de MERGE para sumar el
ingreso por hogar apropiado (variable A2) al registro original de cada individuo (variables B1-B46).
$RUN AGGREG
$FILES
PRINT = MERGE4.LST
DICTIN = INDIV.DIC archivo Diccionario de entrada
DATAIN = INDIV.DAT archivo Datos de entrada
DICTAGG = AGGDIC.TMP archivo temporal Diccionario de salida de AGGREG
DATAAGG = AGGDAT.TMP archivo temporal Datos de salida de AGGREG
DICTOUT = INDIV2.DIC archivo Diccionario de salida de MERGE
DATAOUT = INDIV2.DAT archivo Datos de salida de MERGE
$SETUP
SUMA DE LOS INGRESOS
IDVARS=V3 AGGV=V6 STATS=SUM OUTF=AGG
$RUN MERGE
$SETUP
FUSION DEL INGRESO POR HOGAR CON LOS REGISTROS INDIVIDUALES
INAFILE=AGG INBFILE=IN DUPB MATCH=B
A1=B3
B1-B46,A2
N otese que una vez que se han hecho las asignaciones de datasets bajo $FILES, no es necesario repetirlas si
se vuelven a usar en pasos siguientes.
Captulo 19
Clasicacion e intercalacion de
archivos (SORMER)
SORMER le permite al usuario ejecutar Clasicar/Intercalar de una manera mas conveniente ya que permite,
mediante el uso de los formatos de los par ametros de IDAMS, especicar la informacion de los campos de
control para clasicacion o intercalaci on. Si el archivo Datos est a descrito por un diccionario IDAMS, entonces
se puede enviar a la salida una copia del diccionario correspondiente a los datos clasicados y los campos
de clasicacion se especican con las variables apropiadas; en caso contrario, se especican a traves de su
localizacion.
Orden de clasicacion. El usuario debe especicar si los datos se van a clasicar/intercalar en orden
ascendente o descendente.
SORMER es un programa utilitario y no contiene ninguna de las caractersticas est andar de IDAMS.
19.3. Resultados
istros C, si los hay, para las variables claves de classicaccion.
Resultados de Clasicar/Intercalar. N umero de registros clasicados/intercalados.
19.4. Diccionario de salida
Una copia del diccionario de entrada que corresponde al archivo Datos de salida.
19.5. Datos de salida
La salida es un archivo con los mismos atributos del archivo o archivos de entrada cuyos registros est an
clasicados seg un el orden solicitado.
158 Clasicaci on e intercalacion de archivos (SORMER)
19.6. Diccionario de entrada
Si los campos de clasicacion se especican con n umeros de variable, entonces se debe entrar un diccionario
IDAMS con registros T, como mnimo para estas variables. S olo se permiten diccionarios que describan un
registro por caso.
Para clasicar, se lee un solo archivo Datos el cual contiene uno o mas campos (o variables) cuyos valores
denen el orden de clasicacion deseado.
Para intercalar, la entrada consiste de 2-16 archivos Datos, cada uno con el mismo formato de registro,
es decir, la misma longitud de registro y los campos que denen el orden de clasicacion en las mismas
posiciones. Cada archivo debe haberse clasicado previamente con los campos de control de intercalaci on,
antes de pasar a intercalar los archivos.
$RUN SORMER
$FILES
$SETUP
1. Ttulo
2. Par ametros
$DICT (condicional)
Diccionario para las variables de los campos de clasificacion/intercalaci on
Archivos para clasificar:
DICTxxxx diccionario IDAMS para las variables de los campos de clasificacion
SORTIN datos de entrada
SORTOUT datos de salida
Archivos para intercalar:
DICTxxxx diccionario IDAMS para las variables de los campos de intercalacion
SORTIN01 1er archivo de datos
SORTIN02 2do archivo de datos
.
.
SORTOUT datos de salida
Nota. Cuando se solicita la ejecuci on de SORMER mas de una vez en un archivo Setup, las deniciones
para el archivo de entrada en la ejecuci on subsiguiente, solamente modican pero no reemplazan las deni-
ciones del archivo de entrada especicadas previamente, por ej. si SORTIN01, SORTIN02 y SORTIN03 se
especican para la primera ejecuci on y SORTIN01 y SORTIN02 se especican para la segunda ejecuci on en
el mismo setup, los nuevos SORTIN01 y SORTIN02, as como el antiguo SORTIN03 se tomaran para
la intercalaci on.
Ejemplo: CLASIFICACION ONDA UNO
Ejemplo: KEYVARS=(V2,V3)
INFILE=IN/xxxx
Un sujo de ddname de 1-4 caracteres para el archivo Diccionario de entrada.
Por defecto: DICTIN.
OUTFILE=yyyy
Un sujo de ddname de 1-4 caracteres para el archivo Diccionario de salida.
Debe especicarse para obtener en la salida una copia del diccionario de entrada.
SORT/MERGE
SORT Se clasican los datos de entrada.
MERG Se intercalan dos o mas archivos de datos.
ORDER=A/D
A Clasicaci on ascendente sobre los campos de clasicacion.
D Clasicaci on descendente.
KEYVARS=(lista de variables)
Lista de las variables que se van a usar como campos de clasicacion (se debe suministrar el
diccionario IDAMS).
Nota: el archivo Datos debe tener solo un registro por caso para seleccionar esta opcion. Si hay
mas de un registro por caso, usar KEYLOC.
KEYLOC=(I1,F1, I2,F2, ...)
In Localizacion del comienzo del n-esimo campo de clasicacion.
Fn Localizacion del nal del n-esimo campo de clasicaci on. Debe especicarse a un si tiene
el mismo valor de la posicion de comienzo de campo.
Nota. Sin valor por defecto. Se debe especicar uno de los dos par ametros KEYVARS o bien KEYLOC,
pero no ambos.
PRINT=CDICT/DICT
CDIC Imprimir el diccionario de entrada para las variables de clasicacion con registros C,
si los hay.
DICT Imprimir el diccionario de entrada sin los registros C.
19.10. Restricciones
1. Se pueden intercalar hasta 16 archivos como maximo.
2. Se puede especicar un maximo de 12 campos de control o variables para clasicar/intercalar.
3. El n umero maximo de registros depende del espacio de disco disponible para el archivo de salida y
para los archivos de trabajo SORTWK01, 02, 03, 04, 05. Estos archivos de trabajo pueden asignarse a
un disco diferente al disco por defecto si es necesario.
160 Clasicaci on e intercalacion de archivos (SORMER)
19.11. Ejemplos
Ejemplo 1. Intercalar tres archivos con igual formato, clasicados previamente; cada archivo est a descrito
por el mismo diccionario IDAMS; los casos se clasican en orden ascendente sobre tres variables: V1, V2 y
V4.
$RUN SORMER
$FILES
PRINT = SORT1.LST
DICTIN = \SURV\DICT.DIC archivo Diccionario de entrada
SORTIN01 = DATA1.DAT archivo Datos 1 de entrada
DICTOUT = \SURV\DATA123.DIC archivo Diccionario de salida
SORTOUT = \SURV\DATA123.DAT archivo Datos de salida
$SETUP
INTERCALAR DE TRES ARCHIVOS DE DATOS: DATA1 DATA2 Y DATA3
MERG KEYVARS=(V1,V2,V4) OUTF=OUT
Ejemplo 2. Clasicar un archivo de datos en orden descendente sobre dos campos: el primer campo tiene
4 caracteres de longitud y comienza en la columna 12; el segundo campo tiene una longitud de 2 caracteres
y comienza en la columna 3; no se usa diccionario.
$RUN SORMER
$FILES
SORTIN = RAW.DAT archivo Datos de entrada
SORTOUT = SORT.DAT archivo Datos de salida
$SETUP
CLASIFICACION DE UN ARCHIVO DE DATOS SIN USAR DICCIONARIO
KEYLOC=(12,15,3,4) ORDER=D
Captulo 20
Subdivision de datasets (SUBSET)
SUBSET divide en subconjuntos un archivo Datos y su diccionario IDAMS correspondiente por caso y/o
variable, o copia los archivos completos.
Vericacion del orden de clasicacion. El programa tiene una opcion para vericar que los casos se
encuentren clasicados en orden ascendente, basado en una lista de variables de clasicacion (ver el par ametro
SORTVARS). Los casos adyacentes con identicacion duplicada no se consideran fuera de orden. Sin embargo
hay una opcion para eliminar las duplicaciones de cualquier caso.
Seleccion de casos y variables. La subdivisi on de un caso en subconjuntos se lleva a cabo con un ltro
que selecciona un conjunto particular de casos del dataset de entrada. La selecci on de variables se hace al
denir un conjunto de variables de entrada que se van a transferir al dataset de salida. Las variables pueden
salir en cualquier orden y pueden ser transferidas mas de una vez, si los n umeros de variable de salida son
renumerados.
Tratamiento de datos faltantes. SUBSET no hace distincion entre datos sustantivos y valores de datos
faltantes; todos los datos reciben el mismo tratamiento.
20.3. Resultados
Estadsticas de subdivisi on. La longitud del registro de salida, el n umero de registros del diccionario de
salida y el n umero de registros de datos de salida.
N umeros de variable anteriores (de entrada) versus n umeros de variable nuevos (de salida).
(Opcional: ver el par ametro PRINT). Se imprime una cartilla que contiene los n umeros de variable de entrada
y n umeros de referencia y los correspondientes n umeros de variable de salida y n umeros de referencia.
Noticaci on de casos duplicados. (Condicional: si se verica el orden de clasicacion del archivo, todos
los casos duplicados se documentan, no importa si se ha especicado el par ametro DUPL=DELE). Para
cada identicacion de caso que aparezca mas de una vez en los datos, se imprime el n umero de duplicados,
el n umero secuencial y la identicacion del caso. Ademas, el programa imprime el n umero de registros de
datos de entrada y el n umero de registros de datos de entrada eliminados.
162 Subdivisi on de datasets (SUBSET)
El archivo Datos de salida y su diccionario IDAMS correspondiente se construyen a partir del subconjunto
de casos y/o variables, especicado por el usuario a partir del archivo de entrada. Cuando se copian todas
las variables, es decir, cuando no se ha especicado OUTVARS, la estructura de los registros de salida es
identica a la de los registros de entrada y el diccionario de salida sera una copia exacta del diccionario de
entrada. De lo contrario, la informacion del diccionario para las variables en el archivo de salida se asigna
de la manera siguiente:
Orden y numeraci on de variables. Si se ha especicado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
par ametro VSTART. Si no se ha especicado VSTART, el programa no cambia los n umeros de variable y
las variables salen en orden ascendente de los n umeros.
Localizacion de variables. La localizacion de variables se asigna de forma contigua de acuerdo con el
orden de las variables en la lista OUTVARS (si se ha especicado VSTART) o en el orden de los n umeros
de variable despues de clasicar (si no se ha especicado VSTART).
Tipo de variable, ancho y n umero de decimales son los mismos que sus valores de entrada.
N umero de referencia. Los mismos que sus valores de entrada o modicados de acuerdo con el par ametro
REFNO.
Registros C. Los registros C del diccionario de entrada se transeren al diccionario de salida.
alfabeticas.
$RUN SUBSET
$FILES
$SETUP
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: INCLUDE V1=10,20,30 AND V2=1,5,7
Ejemplo: SUBDIVISION DE LA ELECCION DE 1968, V1-V50
Ejemplo: SORT=(V1,V2), DUPLICATE=DELETE
INFILE=IN/xxxx
MAXCASES=n
SORTVARS=(lista de variables)
Si se va a vericar el orden de clasicacion del archivo, se especican hasta 20 variables que denen
la secuencia de clasicacion en orden de mayor a menor. Los duplicados se consideran en orden
ascendente.
DUPLICATE=KEEP/DELETE
Eliminacion de casos duplicados (solo se aplica cuando se especica SORT).
KEEP Lleva a la salida todos casos duplicados que se presenten.
DELE Lleva a la salida solo el primer caso de los casos duplicados y escribe mensaje para los
duplicados.
Suministre esta lista solo si va a salir un subconjunto de variables del dataset de entrada. Si no
se ha seleccionado VSTART, la lista de variables no puede contener duplicados. De lo contrario,
las variables pueden estar en cualquier orden y repetirse seg un se necesite.
Por defecto: se llevan a la salida todas las variables.
OUTFILE=OUT/yyyy
VSTART=n
Las variables se numeraran secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los n umeros de variable de entrada.
REFNO=OLDREF/VARNO
OLDR Retiene los n umeros de referencia en los registros T y C tal como est an en el dataset
de entrada.
VARN Actualiza el campo del n umero de referencia en los registros C y T para que encaje
con el n umero de variable de salida.
164 Subdivisi on de datasets (SUBSET)
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, VARNOS)
VARN Imprimir una lista con los n umeros de variables anteriores y nuevos y con los n umeros
de referencia.
20.8. Restricciones
1. El maximo n umero de variables de clasicacion es 20.
2. El ancho de los campos combinados de las variables usadas para la clasicacion, no puede exceder de
200 caracteres.
20.9. Ejemplos
Ejemplo 1. Construccion de un subconjunto de casos para variables seleccionadas; las variables se renumer-
ar an a partir de 1 y se imprimira una tabla que muestre la numeraci on anterior de las variables y la nueva
numeraci on asignada.
$RUN SUBSET
$FILES
PRINT = SUBS1.LST
DICTIN = ABC.DIC archivo Diccionario de entrada
DATAIN = ABC.DAT archivo Datos de entrada
DICTOUT = SUBS.DIC archivo Diccionario de salida
DATAOUT = SUBS.DAT archivo Datos de salida
$SETUP
INCLUDE V5=2,4,5 AND V6=2301
SUBDIVISION DE CASOS Y VARIABLES
PRINT=VARNOS VSTART=1 -
OUTVARS=(V1-V5,V18,V43-V57,V114,V116)
Ejemplo 2. Uso del programa SUBSET para vericar casos duplicados; los casos se identican con las
variables de las columnas 1-3 y 7-8; hay un registro por caso; no se necesita dataset de salida y no se guarda.
$RUN SUBSET
$FILES
DATAIN = DEMOG.DAT archivo Datos de entrada
$SETUP
CHEQUEO DE CASOS DUPLICADOS
SORT=(V2,V4) PRIN=NOOUTDICT
$DICT
$PRINT
3 2 4 1 1
T 2 PRIMERA VAR ID DE CASO 1 3
T 4 SEGUNDA VAR ID DE CASO 7 2
Captulo 21
Transformacion de datos (TRANS)
El programa TRANS crea un nuevo dataset IDAMS que contiene variables de un dataset existente y nuevas
variables denidas por las proposiciones de Recode. Es la manera de salvar variables recodicadas.
TRANS tiene una opcion de impresion y as puede usarse para probar proposiciones de Recode sobre un
n umero peque no de casos antes de ejecutar un programa de analisis o antes de guardar el archivo completo.
Seleccion de casos y variables. El ltro est andar est a disponible para seleccionar un subconjunto de los
casos del archivo Datos de entrada. La selecci on de variables se lleva a cabo con el par ametro OUTVARS.
Tratamiento de datos faltantes. Los c odigos de datos faltantes apropiados se escriben en el diccionario
de salida; estos se copian normalmente del diccionario de entrada pero pueden tambien ser obviados o
suministrados para variables de salida a traves de la proposicion Recode MDCODES. No se hace vericacion
de datos faltantes sobre valores de datos, excepto a traves del uso de proposiciones de Recode.
21.3. Resultados
Datos de salida. (Opcional: ver el par ametro PRINT). Se dan los valores de todos los casos para cada
variable V o R, 10 variables por lnea. Para variables alfabeticas solo se imprimen los primeros 10 caracteres.
La salida es un dataset IDAMS que contiene solo aquellas variables (V y R) especicadas en el par ametro
OUTVARS. La informacion del diccionario para las variables en el archivo de salida se asigna de la manera
siguiente:
Orden y numeraci on de variables. Si se ha especicado VSTART, la salida de variables se lleva acabo
en el orden en el que aparecen en la lista OUTVARS y siempre se renumeran a partir del valor dado en el
par ametro VSTART. Si no se ha especicado VSTART, el programa no cambia los n umeros de variable y
las variables salen en orden ascendente de los n umeros.
166 Transformaci on de datos (TRANS)
Nombre de variable y c odigos de datos faltantes. Se toman del diccionario de entrada (solo variables
V) o de las proposiciones de Recode NAME y MDCODES, si las hay.
Localizacion de variable. La localizacion de variables se asigna de forma contigua de acuerdo con el orden
de las variables en la lista OUTVARS (si se ha especicado VSTART) o en el orden de los n umeros de
variable despues de clasicar (si no se ha especicado VSTART).
Tipo de variable, ancho y n umero de decimales.
Variables V: tipo, ancho de campo y n umero de decimales son los mismos que sus valores de entrada.
Variables R: el tipo para variables R es siempre numerico; el ancho y n umero de decimales se asignan de
acuerdo con los valores especicados para los par ametros WIDTH (por defecto 9) y DEC (por defecto
0), o de acuerdo con los valores especicados para variables individuales con las especicaciones de
diccionario.
N umero de referencia e identicador de estudio. El n umero de referencia y el identicador de estudio
para una variable V son sus mismos valores de entrada. Para las variables R el identicador de estudio es
siempre REC.
Registros C. No se pueden crear registros C para variables R. Los registros C (si los hay) para todas las
variables V se copian al diccionario de salida. N otese que si una variable V es codicada nuevamente durante
una ejecuci on de TRANS, los registros C que salen no se pueden aplicar mas a la nueva versi on de la variable.
alfabeticas.
$RUN TRANS
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de diccionario (opcional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: EXCLUDE V19=2-3
Ejemplo: CONSTRUCCION DE INDICADORES DE VIOLENCIA
Ejemplo: VSTART=1, WIDTH=2, OUTVARS=(V2-V5,R7)
INFILE=IN/xxxx
Tratamiento de los datos no numericos en entrada y los valores con amplitud insuciente de
campo en salida. Ver el captulo El archivo Setup de IDAMS.
MAXCASES=n
MAXERR=0/n
M aximo n umero de errores insucient-eld width (amplitud insuciente de campo) permiti-
do antes de detener la ejecuci on. Estos errores se presentan cuando el valor de una variable es
demasiado grande para caber dentro del campo asignado, por ej. un valor de 250 cuando se ha
especicado WIDTH=2. Ver el captulo Los datos en IDAMS.
OUTFILE=OUT/yyyy
Las variables V o R que ir an a la salida. El orden de las variables en la lista es siginicativo solo
si se ha especicado el par ametro VSTART. Si no se especica VSTART todos los n umeros de
variables V o R deben ser unicos.
VSTART=n
Las variables se numeraran secuencialmente a partir de n en el dataset de salida.
Por defecto: se retienen los n umeros de variable de entrada.
WIDTH=9/n
Valor por defecto del ancho de campo de la variable de salida a usar para las variables R. Este
valor por defecto se puede reemplazar para variables especcas con la especicaci on de diccionario
WIDTH. Para cambiar el ancho de campo de una variable numerica V, se crea una variable R
equivalente (ver Ejemplo 1).
DEC=0/n
N umero de cifras decimales a retener para variables R.
168 Transformaci on de datos (TRANS)
PRINT=(OUTDICT/OUTCDICT/NOOUTDICT, DATA)
DATA Imprimir los valores de las variables de salida.
4. Especicaciones de diccionario (opcional). Para cualquier conjunto particular de variables, se puede
especicar el ancho de campo y el n umero de cifras decimales. Estas especicaciones obviar an los valores
colocados por los par ametros principales WIDTH y DEC. N otese que los c odigos de datos faltantes y los
nombres de variables se asignan con las proposiciones de Recode MDCODES y NAME respectivamente.
Advertencia: la proposicion MDCODES retiene solo 2 cifras decimales para variables R y redondea los
valores apropiadamente.
Las reglas de codicacion son las mismas de los par ametros. Cada especicaci on de diccionario debe
comenzar en una lnea nueva.
Ejemplos: VARS=R4, WIDTH=4, DEC=1
VARS=R8, WIDTH=2
VARS=(R100-R109), WIDTH=1
La lista de variables a la cual aplican los par ametros WIDTH y DEC.
WIDTH=n
Ancho de campo para las variables de salida.
Por defecto: valor dado para el par ametro WIDTH.
DEC=n
N umero de cifras decimales.
Por defecto: valor dado para el par ametro DEC.
21.8. Restricciones
1. El maximo n umero de variables R que puede salir es 250.
2. El maximo n umero de variables que pueden ser usadas en la ejecuci on (incluidas las variables usadas
solo en las proposiciones Recode) es 500.
3. El maximo n umero de especicaciones de diccionario es 200.
21.9. Ejemplos
Ejemplo 1. Las variables seleccionadas del dataset de entrada se transeren al archivo de salida junto con
las dos nuevas variables; no se cambian los n umeros de variable; el ancho de campo de la variable de entrada
V20 se cambia a 4.
$RUN TRANS
$FILES
PRINT = TRANS1.LST
DICTIN = OLD.DIC archivo Diccionario de entrada
DATAIN = OLD.DAT archivo Datos de entrada
DICTOUT = NEW.DIC archivo Diccionario de salida
DATAOUT = NEW.DAT archivo Datos de salida
$SETUP
CONSTRUCCION DE DOS NUEVAS VARIABLES
PRINT=NOOUTDICT OUTVARS=(V1-V19,R20,V33,V45-V50,R105,R122)
VARS=R105,WIDTH=1
VARS=R122,WIDTH=3,DEC=1
21.9 Ejemplos 169
VARS=R20,WIDTH=4
$RECODE
R20=V20
NAME R20VARIABLE 20
R105=BRAC(V5,15-25=1,<36=2,<46=3,<56=4,<66=5,<90=6,ELSE=9)
MDCODES R105(9)
NAME R105GRUPOS DE EDAD
IF MDATA(V22) THEN R122=99.9 ELSE R122=V22/3
MDCODES R122(99.9)
NAME R122NR. ARTICULOS POR ANO
Ejemplo 2. Este ejemplo ilustra el uso de TRANS para vericar proposiciones de Recode; se listan los
valores de los datos para las variables identicadoras (V1, V2), las variables usadas en Recode y las variables
de resultado para los primeros 30 casos; no se requiere el dataset de salida y no se dene.
$RUN TRANS
$FILES
PRINT = TRANS2.LST
$SETUP
VERIFICACION DE RECODE
WIDTH=2 PRINT=(DATA,NOOUTDICT) MAXCASES=30 -
OUTVARS=(V1-V2,V71-V74,V118,V12,V13,R901-R903)
$RECODE
R901=BRAC(V118,1-16=2,17=1,18-23=3,24=1,25-35=3,36=1,37=2,ELSE=9)
IF NOT MDATA(V12,V13) THEN R902=TRUNC(V12/V13) ELSE R902=99
R903=COUNT(1,V71-V74)
Ejemplo 3. Creaci on de un archivo de prueba con una muestra aleatoria de 1/20 del archivo Datos; no se
necesita salvar el diccionario de salida ya que sera identico al de entrada.
$RUN TRANS
$FILES
DATAOUT = TESTDATA archivo Datos de salida
$SETUP
CREA ARCHIVO PRUEBA CON TODAS VARIABLES MUESTRA DE CASOS 1/20
PRINT=NOOUTDICT OUTVARS=(V1-V505)
$RECODE
IF RAND(0,20) NE 1 THEN REJECT
Parte IV
Facilidades para analisis de datos
Captulo 22
Analisis de conglomerados
(CLUSFIND)
CLUSFIND hace analisis de conglomerados mediante la separation de un conjunto de objetos (casos o
variables) en un conjunto de conglomerados seg un se determina por uno de seis algoritmos: dos algoritmos
basados en repartici on alrededor de medoides, uno basado en conglomeracion difusa y tres basados en
conglomeracion jerarquica.
Seleccion de casos y variables. Si entran datos primarios, se puede utilizar el ltro est andar para escoger
un subconjunto de casos de los datos de entrada. Las variables para analisis se espcican en el par ametro
VARS.
Transformaci on de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderaci on de datos. No se aplica el uso de variables de ponderaci on.
Tratamiento de datos faltantes. Si entran datos primarios, el par ametro MDVALUES est a disponible
para indicar cuales valores de datos faltantes, si los hay, se usaran para vericar datos faltantes. Los casos en
los cuales hay datos faltantes para todas las variables se eliminan autom aticamente. Si no, datos faltantes se
eliminan por pares. Si los datos est an estandarizados, el promedio y la desviacion media absoluta se calculan
usando solo valores validos. Cuando se calculan las distancias, solo se consideran en la suma aquellas variables
para las cuales hay valores validos presentes para ambos objetos.
Si entra una matriz, el par ametro MDMATRIX est a disponible para indicar que valor se va a usar para
vericar elementos invalidos en la matriz.
22.3. Resultados
istros C, si los hay, solamente para variables utilizadas en la ejecuci on.
Datos de entrada despues de la estandarizacion. (Opcional: ver el par ametro PRINT). Los valores
estandarizados para todos los casos para cada variable V o R usada en el analisis, precedidos de el promedio
y la desviacion absoluta media para estas variables.
Matriz de disimilitudes. (Opcional: ver el par ametro PRINT). El triangulo inferior izquierdo de la matriz,
tal como se leyo o fue calculado por el programa.
174 Analisis de conglomerados (CLUSFIND)
Resultados del analisis PAM. Para cada n umero de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
n umero de objetos representativos (conglomerados) y la distancia nal promedio,
para cada conglomerado: identicador del objeto representativo, n umero de objetos y la lista de objetos
que pertenecen a ese conglomerado,
coordenandas de los medoides (valores de la variables de an alisis para cada objeto repersentativo; solo
para el dataset de entrada),
vector de conglomeracion (un vector de n umeros que corresponde a los objetos e indica a que conglom-
erado pertenece cada objeto) y caracteristicas de conglomeracion,
representacion graca de los resultados, es decir, un gr aco de silueta para cada conglomerado (opcional
- ver el par ametro PRINT).
Resultados del analisis FANNY. Para cada n umero de conglomerados en turno (desde CMIN a CMAX)
se imprime lo siguiente:
n umero de conglomerados,
valor de la funci on objetivo en cada iteraci on,
para cada objeto, su identicador y el coeciente de pertenencia para cada conglomerado,
coeciente de partici on de Dunn y su versi on normalizada,
conglomeracion dura mas cercana, es decir, n umero de objetos y la lista de objetos que pertenecen a
cada conglomerado,
vector de conglomeracion,
Resultados del analisis CLARA. Para el n umero de conglomerados ensayados se imprime lo siguiente:
lista de objetos seleccionados en la muestra retenida,
vector de conglomeracion,
para cada conglomerado: identicador del objeto representativo, n umero de objetos y la lista de objetos
que pertenecen a ese conglomerado,
distancia promedio y distancia maxima a cada medoide,
Resultados del analisis AGNES contiene lo siguiente:
ordenamiento nal de los objetos (identicados por su identicador) y disimilitudes entre ellos,
representacion graca de los resultados, es decir, un gr aco de bandera de disimilitudes (opcional -
ver el par ametro PRINT).
Resultados del analisis DIANA contiene lo siguiente:
ordenamiento nal de los objetos (identicados por su identicador) y diametros de los conglomerados,
representacion graca de los resultados, es decir, un gr aco de bandera de disimilitudes (opcional -
Resultados del analisis MONA contiene lo siguiente:
huella de las separaciones (opcional - ver el par ametro PRINT) para cada paso, con el conglomerado
a separar, la lista de objetos (identicados por su valor de la variable identicadora) en cada uno de
los dos subconjuntos y la variable usada para la separacion,
el ordenamiento nal de objetos,
representacion graca de los resultados, es decir, un gr aco de separacion con la lista de objetos en
cada conglomerado y la variable usada para la separacion (opcional - ver el par ametro PRINT).
El dataset de entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas
para analisis deben ser numericas; pueden ser enteras o con cifras decimales. La variable identicadora de
caso puede ser alfabetica. Las variables usadas en los analisis PAM, CLARA, FANNY, AGNES o DIANA
deben tener escala de intervalo. Las variables usadas en el analisis MONA deben ser binarias (con valores 0
o 1). N otese que CLUSFIND usa como maximo 8 caracteres del nombre de la variable como se suministra
en el diccionario.
22.5 Matriz de entrada 175
22.5. Matriz de entrada
Esta es una matriz cuadrada de IDAMS. Ver el captulo Los datos en IDAMS. Puede contener medidas
de similitudes, disimilitudes o coecientes de correlacion. N otese que CLUSFIND usa maximo 8 caracteres
del nombre del objeto como se suministra en los registros de identicacion de variables.
$RUN CLUSFIND
$FILES
$RECODE (opcional con entrada de datos primarios;
no disponible con entrada matricial)
$SETUP
1. Filtro (opcional, solo para entrada de datos primarios)
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario para la entrada de datos primarios
$DATA (condicional)
Datos para la entrada de datos primarios
$MATRIX (condicional)
Matriz para la entrada de la matriz
Archivos:
FT09 matriz de entrada
(si no se usa $MATRIX y se usa entrada matricial)
DICTxxxx diccionario de entrada (si $DICT no se usa y INPUT=RAWDATA)
DATAxxxx datos de entrada (si $DATA no se usa y INPUT=RAWDATA)
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci on. Disponible solamente
con datos primarios de entrada.
Ejemplo: PARTICION CON CONGLOMERACION DIFUSA
Ejemplo: ANALYSIS=PAM VARS=(V7-V12)
INPUT=RAWDATA/SIMILARITIES/DISSIMILARITIES/CORRELATIONS
RAWD En entrada: un archivo Datos descrito por un diccionario IDAMS.
SIMI En entrada: medidas de similitudes en la forma de una matriz cuadrada IDAMS.
DISS En entrada: medidas de disimilitudes en la forma de una matriz cuadrada IDAMS.
CORR En entrada: coecientes de correlaci on en la forma de una matriz cuadrada IDAMS.
Par ametros s olo para entrada de datos primarios
INFILE=IN/xxxx
MAXCASES=100/n
Su valor depende de la memoria disponible.
n=0 No ejecuta, solo verica los par ametros.
0<n<=100 Ejecuci on normal.
n>100 S olo permite ANALYSIS=CLARA.
Cuales valores de datos faltantes se van a usar para las variables accedidas en esta ejecuci on. Ver
el captulo El archivo Setup de IDAMS.
STANDARDIZE
Estandarizar las variables antes de calcular las disimilitudes.
DTYPE=EUCLIDEAN/CITY
Tipo de distancia utilizado para calcular las disimilitudes.
EUCL Distancia euclideana.
CITY Distancia en cuadra urbana (city block).
IDVAR=n umero de variable
Variable que se imprime como identicadora de caso. S olo se usan tres caracteres en el listado.
As, las variables enteras deben tener valores menores que 1000. S olo se imprimen los tres primeros
caracteres de una variable alfabetica.
PRINT=(CDICT/DICT, STAND)
hay.
STAN Imprimir los datos de entrada despues de la estandarizacion.
Par ametros s olo para entrada matricial
DISSIMILARITIES=ABSOLUTE/SIGN
Para INPUT=CORR, especica c omo se debe calcular la matriz de disimilitudes.
ABSO Considerar valores absolutos de coecientes de correlaci on como medida de similitud.
SIGN Usar coecientes de correlaci on con sus signos.
MDMATRIX=n
Tratar los elementos de la matriz iguales a n como datos faltantes.
Por defecto: todos los valores son validos.
PRINT=MATRIX
Imprimir la martiz de entrada.
Par ametros para ambos tipos de entrada
Variables a usar en este analisis.
ANALYSIS=PAM/FANNY/CLARA/AGNES/DIANA/MONA
Especica el tipo de analisis a hacer.
PAM Reparticion alrededor de medoides.
FANN Conglomeraci on difusa.
CLAR Reparticion alrededor de medoides (igual a PAM), pero para datasets de al menos
100 casos. CLUSFIND har a un muestreo de los casos y escogera la mejor muestra
representativa. Se extraen cinco muestras de 40+2*CMAX casos (ver el par ametro
CMAX mas adelante).
S olo para entrada de datos primarios.
AGNE Conglomerati on jerarquica acumulativa.
DIAN Conglomerati on jerarquica divisiva.
MONA Conglomeraci on monotetica de datos con variables binarias. Requiere al menos tres
variables.
S olo para entrada de datos primarios.
CMIN=2/n
Para PAM y FANNY. N umero mnimo de conglomerados a ensayar.
CMAX=n
Para PAM y FANNY, n umero maximo de conglomerados a ensayar.
Para CLARA, n umero exacto de conglomerados ensayar.
Por defecto: el mayor de 20 y el valor especicado en CMIN.
PRINT=(DISSIMILARITIES, GRAPH, TRACE, VNAMES)
DISS Imprimir la matriz de disimilitudes.
GRAP Imprimir la representacion graca de los resultados.
TRAC Imprimir cada paso de la separacion binaria cuando se especica MONA.
VNAM Para entrada matricial, imprimir los primeros 3 o 8 caracteres de nombres en vez de
los n umeros de las variables como identicador del objecto.
22.8. Restricciones
1. El n umero maximo de casos que se pueden usar en un analisis (excepto CLARA) es 100.
2. El n umero mnimo de casos requerido para analisis CLARA) es 100.
3. El n umero maximo de objetos en una matriz de entrada es 100.
4. S olo los tres caracteres de una variable alfabetica se usan en el listado.
22.9. Ejemplos
Ejemplo 1. Conglomerar los primeros 100 casos en 5 grupos usando 6 variables cuantitativas V11-V16; se
estandarizan los valores de las variables y se usa la distancia euclideana en los c alculos; la conglomeracion se
hace con la repartici on alrededor de los medoides; se solicita imprimir gracos; los casos se identican con
la variable V2.
$RUN CLUSFIND
$FILES
PRINT = CLUS1.LST
$SETUP
ANALISIS PAM CON DATOS PRIMARIOS COMO ENTRADA
BADD=MD1 VARS=(V11-V16) STAND IDVAR=V2 CMIN=5 CMAX=5 PRINT=GRAP
Ejemplo 2. Conglomerado jerarquico aglomerativo de 30 pueblos; la matriz de entrada contiene distancias
entre los pueblos y los pueblos se numeran de 1 a 30; se solicita imprimir gracos; los nombres de pueblo se
usan en el listado.
$RUN CLUSFIND
$FILES
PRINT = CLUS2.LST
FT09 = TOWNS.MAT archivo Matriz de entrada
$SETUP
ANALISIS AGNES CON LA MATRIZ DE DISTANCIAS COMO ENTRADA
$COMMENT LAS DISTANCIAS ACTUALES SE DIVIDIERON POR 10.000 PARA
$COMMENT ESTAR EN EL INTERVALO 0-1
INPUT=DISS VARS=(V1-V30) ANAL=AGNES PRINT=(GRAP,VNAMES)
Captulo 23
Analisis de conguracion (CONFIG)
CONFIG hace analisis de conguracion espacial sencilla, sobre datos de entrada en la forma de una matriz
rectangular de IDAMS (tal como se produce, por ejemplo en MDSCAL). Tiene la capacidad de centrar,
normalizar, rotar, trasladar dimensiones, calcular distancias entre puntos y calcular productos escalares.
Cada la de una matriz de conguracion suministra las coordenadas de un punto de la conguracion. As,
el n umero de las es igual al n umero de puntos (variables), mientras que el n umero de columnas es igual al
n umero de dimensiones.
CONFIG puede proveer resultados que le permiten al usuario comparar de manera mas facil, conguraciones
las cuales originalmente tenan orientaciones dismiles. Puede tambien usarse para hacer analisis adicionales
sobre una conguracion. La rotacion, por ejemplo, puede hacer una conguracion mas facilmente interpre-
tada.
Seleccion de casos y variables. No se aplica la selecci on de un subconjunto de casos y no hay ltro
disponible. Tampoco hay una opcion de CONFIG que permita subdividir la conguracion de entrada. Existe
en CONFIG una opcion para seleccionar una matriz de un archivo que tenga m ultiples matrices (ver el
par ametro DSEQ).
Transformaci on de datos. No se aplica el uso de las proposiciones de Recode con CONFIG.
Tratamiento de datos faltantes. CONFIG no reconoce datos faltantes en la conguracion de entra-
da. Normalmente, esto no presenta ning un problema, ya que las conguraciones se presentan usualmente
completas.
23.3. Resultados
Diccionario de la matriz de entrada. (Condicional: solo si la matriz de entrada tena diccionario. Ver
par ametro MATRIX). Los registros de variables del diccionario de entrada con los n umeros correspondientes
usados en los gracos (etiquetas de gracos).
Conguracion de entrada. Una copia impresa de la conguracion de entrada.
Conguracion centrada. (Opcional: ver el par ametro PRINT). Si se especica PRINT=ALL o PRINT=CENT
y la conguracion de entrada ya est a centrada, se imprime el mensaje Conguracion de entrada est a cen-
trada.
180 Analisis de conguraci on (CONFIG)
Conguracion normalizada. (Opcional: ver el par ametro PRINT). Si se especica PRINT=ALL o
PRINT=NORM y la conguracion de entrada ya est a normalizada, se imprime el mensaje Conguracion
de entrada est a normalizada.
Solucion en ejes principales. (Opcional: ver el par ametro PRINT). Las las de la matriz son los puntos
y las columnas son los ejes principales. Los elementos de la matriz son las proyecciones de los puntos sobre
los ejes.
Productos escalares. (Opcional: ver el par ametro PRINT). Se imprime la mitad inferior izquierda de la
matriz simetrica. Cada elemento de la matriz es el producto escalar de un par de puntos (variables).
Distancias entre puntos. (Opcional: ver el par ametro PRINT). Se imprime la mitad inferior izquierda
de la matriz simetrica. Cada elemento de la matriz es la distancia entre un par de puntos (variables). La
diagonal, siempre en ceros, se imprime.
Conguracion(es) transformada(s). (Opcional: ver el par ametro de especicaci on de transformaci on
PRINT). La conguracion transformada se imprime despues de la rotacion/traslacion.
Graco de la(s) conguraci on(es) transformada(s). (Opcional: ver el par ametro de especicaci on
de transformaci on PRINT). Se dibuja la conguracion transformada en dos ejes a la vez despues de la
rotacion/traslacion. Se numeran los puntos.
Historia de la rotacion varimax. (Opcional: ver el par ametro PRINT). Se imprime un vector que
contiene la variancia de la matriz de conguracion antes de cada ciclo de iteraci on. En seguida se imprime
la matriz de conguracion despues de la rotacion para maximizar el criterio normal de varimax. Tendr a el
mismo n umero de las y columnas de la matriz de conguracion de entrada.
Conguracion clasicada. (Opcional: ver el par ametro PRINT). Se imprime horizontalmente a traves de
la p agina cada columna de la matriz de conguracion, despues de haber sido clasicada.
Gracos de vectores. (Opcional: ver el par ametro PRINT). Se dibuja la conguracion nal en dos ejes a
la vez. Los puntos se numeran con las etiquetas de los gracos de las variables tal como se imprimi o con el
diccionario de la conguracion de entrada.
23.4. Matriz de conguracion de salida
La conguracion nal se puede escribir en un archivo (ver el par ametro WRITE). Sale como una matriz
rectangular de IDAMS. Ver el captulo Los datos en IDAMS para una descripcion de las matrices de
IDAMS. Los registros de identicacion de variables se imprimen solo si tales registros se han incluido en el
archivo de la conguracion de entrada (ver el par ametro MATRIX). El formato de los elementos de la matriz
es 10F7.3. Los registros que contienen los elementos de la matriz se identican con CFG en las columnas
73-75 y un n umero secuencial en las columnas 76-80. Las dimensiones de la matriz son las mismas de la
matriz de entrada.
23.5. Matriz de distancias de salida
La matriz de distancias entre puntos se puede escribir en un archivo (ver el par ametro WRITE). Sale en la
forma de una matriz cuadrada de IDAMS, con registros cticios suministrados para la media y la desviacion
est andar esperadas en este tipo de matriz. Los registros de identicacion de variables se producen solo si
estos se incluyeron en el archivo de la conguracion de entrada (ver el par ametro MATRIX). El formato de
los elementos de la matriz es 10F7.3. Los registros que contienen los elementos de la matriz se identican
con CFG en las columnas 73-75 y un n umero secuencial en las columnas 76-80.
23.6. Matriz de conguracion de entrada
La matriz de entrada debe estar en la forma de una matriz rectangular de IDAMS, con o sin registros de
identicacion de variables (ver el par ametro MATRIX). Ver el captulo Los datos en IDAMS para una
descripcion del formato.
Las matrices de conguracion obtenidas con el programa MDSCAL, pueden entrar directamente a CONFIG.
La matriz de entrada de n(las) por m(columnas), debe tener las coordenadas de n puntos para m dimen-
siones. No puede haber datos faltantes en la matriz de entrada.
En un archivo leido por CONFIG, puede haber mas de una conguracion. La conguracion a analizar se
escoge con el par ametro DSEQ.
$RUN CONFIG
$FILES
$SETUP
1. Ttulo
2. Par ametros
3. Especificaciones de transformacion (opcionales)
Matriz
Archivos:
FT02 configuracion de salida y/o matriz de distancias
FT09 configuracion de entrada (omitir si se usa $MATRIX)
Ejemplo: EJECUCION DE CONFIG DESPUES DE MDSCAL
Ejemplo: PRINT=(CENT,SORT,DIST) TRANS
MATRIX=STANDARD/NONSTANDARD
STAN Se incluyen los registros de identicacion de variables en la matriz de entrada.
NONS No se incluyen los registros de identicacion de variables en la matriz de entrada.
DSEQ=1/n
El n umero secuencial en el archivo de entrada de la conguracion que se analiza.
WRITE=(CONFIG,DISTANCES)
CONF Llevar la conguracion nal a un archivo.
DIST Llevar a un archivo la matriz de distancias entre puntos.
182 Analisis de conguraci on (CONFIG)
TRANSFORM
Se suministraran especicaciones de transformaci on.
PRINT=(CENTER, NORMALIZE, PRINAXIS, SCALARS, DISTANCES, VARIMAX, SORTED,
PLOT, ALL)
CENT Mover el origen al centroide del espacio.
NORM Alterar el tama no del espacio de manera que al sumar las cargas al cuadrado, esta
suma sea igual al n umero de variables.
PRIN B usqueda de solucion en ejes principales.
SCAL Matriz de productos escalares.
DIST Matriz de distancias entre puntos.
VARI Rotaci on (despues de transformaci on, si la hay) ortogonal (varimax).
SORT Conguraci on clasicada (despues de transformaci on, si la hay).
PLOT Gracar la conguracion nal.
ALL Imprimir CENT, NORM, PRIN, SCAL, DIST, VARI, SORT, PLOT.
Por defecto: la conguracion de entrada se imprime.
Nota. Las opciones de analisis se llevan a cabo sobre los datos de la conguracion de entrada en la
secuencia especicada arriba, sin importar el orden en el cual se hayan especicado con el par ametro
PRINT. Transformaciones, si las hay, se llevan a cabo antes de la rotacion ortogonal de la conguracion.
Despues de cada operaci on, se imprimen los resultados. Los efectos de las opciones de analisis son
acumulativos. Si la conguracion nal se graca y/o se almacena, esto se hace despues de haber hecho
todos los analisis.
3. Especicaciones de transformacion. (Condicional: si se ha especicado TRANSFORM, usar los
par ametros como se explica a continuacion). Se pueden especicar tantas transformaciones como se
desee; cada una debe comenzar en una nueva lnea.
Si el usuario especica el angulo de rotacion (DEGREES) y dos dimensiones (DIMENSION), entonces
se hace una rotacion. Si se especica una constante (ADD) y una dimensi on (DIMENSION), se hace
una traslacion.
Ejemplo: DEGR=45, DIME=(5,8) PRINT=PLOT
PRINT=(CONFIG, PLOT)
CONF Imprimir la conguracion rotada o trasladada (autom atico para conguraciones con 2
dimensiones y para la conguracion nal).
PLOT Gracar la conguracion rotada o trasladada.
Nota: no habr an resultados para la transformaci on si no se especica PRINT. Debe especicarse
para cada transformaci on.
Par ametros de rotaci on
DIMENSION=(n, m)
Las dos dimensiones a rotar (solo rotacion pareada).
DEGREES=n
Angulo de rotacion en grados (solo rotacion ortogonal).
Par ametros de traslaci on
DIMENSION=n
La dimensi on a trasladar.
ADD=n
Valor a sumar a cada coordenada en la dimensi on especicada (puede ser negativo y tener cifras
decimales).
23.9 Restriccion 183
23.9. Restriccion
El tama no maximo de la matriz de conguracion de entrada es de 60 las por 10 columnas.
23.10. Ejemplos
Ejemplo 1. Rotaci on y transformaci on de una matriz de conguracion creada previamente por el programa
MDSCAL; la conguracion nal se escribe en un archivo y se graca; se rotan las dimensiones 1 y 2 por un
angulo de 60 grados; la dimensi on 1 se transformara sumando 6.
$RUN CONFIG
$FILES
PRINT = CONF1.LST
FT02 = CONFIG.MAT archivo para la matriz de configuracion de salida
FT09 = MDS.MAT matriz de configuracion de entrada
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(PLOT,VARI) TRAN WRITE=CONF
DEGR=60 DIME=(1,2) PRINT=PLOT
ADD=6 DIME=1 PRINT=PLOT
Ejemplo 2. Calculo de la matriz de productos escalares y la matriz de distancias entre puntos para la cuarta
conguracion en el archivo de entrada; no se requieren gracos.
$RUN CONFIG
$FILES
PRINT = CONF2.LST
FT02 = SCAL.MAT archivo de salida para la matriz de productos
escalares y la matriz de distancias entre puntos
FT09 = MDS.MAT matriz de configuracion de entrada
$SETUP
ANALISIS DE CONFIGURACION
PRINT=(SCAL,DIST) DSEQ=4
Captulo 24
Analisis discriminatorio (DISCRAN)
La tarea del analisis discriminatorio es hallar la mejor o las mejores funciones de discriminacion lineal de un
conjunto de variables que reproduzca o reproduzcan, hasta donde sea posible, un agrupamiento a priori
de los casos considerados.
En este programa se usa un procedimiento por pasos, es decir, en cada paso la variable mas poderosa entra a
la funci on discriminatoria. La funci on criterio para la selecci on de la variable siguiente, depende del n umero
de grupos especicados (el n umero de grupos vara entre 2 y 20). En el caso de dos grupos se usa la distancia
de Mahalanobis. Cuando el n umero de grupos es mayor que dos, entonces el criterio para la selecci on de
variables es la huella de un producto entre la matriz de covariancia de las variables involucradas y la matriz
de covariancia interclase en una paso en particular. Esto es una generalizaci on de la distancia de Mahalanobis
denida para dos grupos.
Ademas de ejecutar los pasos principales de analisis discriminatorio sobre una muestra basica, hay dos
posibilidades opcionales: vericacion del poder de la funci on o funciones discriminatorias con la ayuda de
una muestra de prueba, para la cual se conoce la asignacion de casos a grupos (como en la muestra
b asica) pero los cuales no se usaron en el analisis, y clasicacion de los casos con la ayuda de funcion(es)
discriminatoria(s) suministrada(s) por el analisis en una muestra anonima en la cual se desconoce, o por
lo menos no se usa la asignacion de casos a grupos.
Seleccion de casos y variables. El ltro est andar est a disponible para escoger un subconjunto de casos
de los datos de entrada. Es posible hacer una subdivisi on adicional con el uso de las variables de muestra y
de grupo. Las variables de analisis se escogen con el par ametro VARS.
Ponderaci on de datos. Se puede usar una variable para ponderar los datos de entrada; esta variable de
ponderaci on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci on para un
caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n umero
de casos as tratados.
Tratamiento de datos faltantes. El par ametro MDVALUES est a disponible para indicar cuales valores
de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Los casos con datos faltantes en
la variable de muestra, la variable de grupo y/o las variables de analisis, se pueden excluir del analisis de
manera opcional.
186 Analisis discriminatorio (DISCRAN)
24.3. Resultados
istros C, si los hay, solo para las variables usadas en la ejecuci on.
N umero de casos en las muestras. El n umero de casos en las muestras b asica, de prueba y anonima de
acuerdo con los par ametros de denicion de la muestra.
N umero revisado de casos en las muestras. El n umero de casos en las muestras b asica, de prueba
y anonima de acuerdo con los par ametros de denicion de la muestra y del grupo. N otese que las cifras
revisadas pueden ser menores que las no revisadas para la muestra b asica y la muestra de prueba si los
grupos denidos no cubren completamente las muestras.
Muestra basica. (Opcional: ver el par ametro PRINT). Se imprimen por grupos, las variables de identi-
cacion y de analisis de los casos en la muestra b asica, los grupos se separan unos de otros con una lnea de
asteriscos.
Muestra de prueba. Igual a la muestra b asica.
Muestra anonima. Igual a la muestra b asica pero no hay grupos.
Estadsticas univariadas. El programa imprime las medias y desviaciones est andar grupales, as como la
media total para cada variable usada en el analisis.
Resultados del procedimiento por pasos (para cada paso)
N umero del paso. El n umero secuencial del paso.
Variables ingresadas. La lista de variables retenidas en este paso.
Funcion discriminatoria lineal. (Condicional: solo si se especican 2 grupos). El termino constante y los
coecientes de la funci on discriminatoria lineal correspondientes a las variables que ya han entrado.
Tabla de clasicacion para la muestra basica. Una tabla bivariada de frecuencias que muestra la re-
distribuci on de casos entre los grupos originales y los grupos en los cuales se los ha colocado seg un la funci on
discriminatoria, seguida del porcentaje de casos clasicados correctamente.
Tabla de clasicacion para la muestra de prueba. Igual a la muestra b asica.
Lista de asignaci on de casos. (Opcional: ver el par ametro PRINT). Se imprimen los casos de las tres
muestras con identicacion de caso, colocacion de caso y valor de la funci on discriminatoria (para 2 grupos)
o distancias a cada grupo (para mas de 2 grupos).
Resultados del analisis factorial discriminatorio. (Condicional: solo si se han especicado mas de 2
grupos). Poder discriminatorio general y poder discriminatorio de los primeros tres factores, seguidos de
los valores de los factores discriminatorios para las medias de grupos. Adicionalmente, se suministra una
representacion graca de casos y medias en el espacio de los dos primeros factores.
Se puede pedir un dataset para la ultima asignacion de grupos a los casos. Sale en la forma de un archivo
Datos descrito por un diccionario IDAMS (ver el par ametro WRITE y el captulo Los datos en IDAMS).
Contiene en orden siguiente:
- las variables transferidas,
- el c odigo del grupo original renumerado por DISCRAN (Original group),
- el c odigo del grupo asignado a los casos al nal (Assigned group),
- el tipo de la muestra (Sample type - 1=muestra b asica, 2=muestra de prueba, 3=muestra anonima) y,
- para analisis con mas de 2 grupos, valores de los dos primeros factores discriminatorios
(Factor-1, Factor-2).
Las variables se numeran desde uno.
El c odigo del grupo original contiene el primer c odigo de datos faltantes (999.9999) para los casos en la
muestra anonima; los factores contienen el primer c odigo de datos faltantes (999.9999) para los casos en la
muestra de prueba y la muestra anonima.
Nota: la variable especicada en IDVAR no sale de manera autom atia y entonces debe ser incluida en la
lista de variables para ser transferidas.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Se pueden especicar tres tipos de
muestra en el archivo de entrada:
- muestra b asica,
- muestra de prueba,
- muestra anonima.
El analisis se basa en la muestra b asica. La muestra de prueba se usa para probar la(s) funci on(es) discrim-
inatoria(s), los casos en la muestra anonima simplemente se clasican con las funciones discriminatorias.
Las muestras se denen con una variable de muestra. La muestra b asica no debe estar vaca. Los grupos
que se van a separar con la funci on discriminatoria deben denirse con una variable de grupo. Esta variable
dene una clasicacion a priori de la muestra b asica y de la muestra de prueba de los casos.
Todas las variables usadas para analisis deben ser numericas; pueden tener cifras enteras o decimales. La
variable identicadora del caso y las variables para ser transferidas pueden ser alfabeticas.
$RUN DISCRAN
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTyyyy diccionario de salida si se especifica WRITE=DATA
DATAyyyy datos de salida si se especifica WRITE=DATA
Ejemplo: INCLUDE V3=6 OR V11=99
Ejemplo: ANALISIS DISCRIMINATORIO DE UNA ENCUESTA AGRICOLA
Ejemplo: MDHA=SAMPVAR IDVAR=V4 SAVAR=R5 BASA=(1,5) -
VARS=(V12-V15)
INFILE=IN/xxxx
MAXCASES=n
Lista de las variables V o R a usar en el analisis.
MDHANDLING=(SAMPVAR, GROUPVAR, ANALVARS)
Seleccion del tratamiento de datos faltantes.
SAMP Se excluyen del analisis los casos que tengan datos faltantes en la variable de muestra.
GROU Se excluyen del analisis los casos que tengan datos faltantes en la variable de grupo de
las muestras b asica y de prueba.
ANAL Se excluyen del analisis los casos con datos faltantes en las variables de analisis.
Por defecto: se incluyen los casos con datos faltantes.
N umero de la variable de ponderaci on si se van a ponderar los datos.
Variable de identicacion de caso para el listado de datos y/o de asigancion de casos.
Por defecto: se utiliza DISC como un identicador para todos los casos.
STEPMAX=n
M aximo n umero de pasos a ejecutar. Debe ser menor o igual al n umero de variables de analisis.
Por defecto: n umero de variables de analisis.
MEMORY=20000/n
Memoria necesaria para ejecuci on del programa.
WRITE=DATA
Crear un dataset IDAMS que contenga las variables transferidas, las variables de asignacion de
grupo, el tipo de muestra y los valores de factores discriminatorios, si los hay.
OUTFILE=OUT/yyyy
TRANSVARS=(variable list)
Variables (hasta 99) para ser transferidas al dataset de salida.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, DATA, GROUP)
hay.
OUTC Imprimir el diccionario de salida con registros C si los hay.
DATA Imprimir los datos con asignacion original de casos por grupos.
GROU Imprimir para cada caso, la asignacion de grupo basada en la funci on discriminatoria.
Especicaci on de muestra
Estos par ametros son opcionales. Si no se especican, se toman todos los casos del archivo de entrada
como muestra b asica. Las muestras de prueba y anonima, si existen, se deben denir siempre en forma
explcita. La interseccion pareada de las muestras debe estar vaca. Sin embargo, las muestras no
necesitan cubrir todo el archivo de entrada. Se puede usar un solo valor o un rango de valores para
escoger los casos que pertenecen a la muestra correspondiente:
m1 = valor de la variable de muestra
o
m1 <= valor de la variable de muestra < m2
donde m1 y m2 pueden ser valores enteros o decimales.
SAVAR=n umero de variable
La variable usada para la denicion de la muestra. Se pueden usar variables V o variables R.
BASA=(m1, m2)
Condicional: dene la muestra b asica. Se debe suministrar si se especica SAVAR.
TESA=(m1, m2)
Condicional y opcional: si se especica SAVAR. Dene la muestra de prueba.
ANSA=(m1, m2)
Condicional y opcional: si se especica SAVAR. Dene la muestra anonima.
Clasicaci on de la muestra b asica
Estos par ametros denen los grupos a priori usados en el procedimiento de analisis discriminatorio. To-
dos los grupos se deben denir explcitamente y su interseccion pareada debe estar vaca. Sin embargo,
no necesitan cubrir toda la muestra b asica.
GRVAR=n umero de variable
La variable usada para la denicion de grupos. Se pueden usar variables V o R.
GR01=(m1, m2)
Dene el primer grupo en la muestra b asica.
GR02=(m1, m2)
Dene el segundo grupo en la muestra b asica.
GRnn=(m1, m2)
Dene el n-esimo grupo en la muestra b asica (nn <= 20).
Nota. Por lo menos, se deben especicar dos grupos.
24.8. Restricciones
1. N umero maximo de grupos a priori es 20.
2. La misma variable no se puede usar dos veces.
3. El tama no maximo de campo para la variable identicadora de caso es 4.
4. N umero maximo de variables a ser transferidas as 99.
5. No se pueden transferir variables R.
6. Si una variable a ser transferida es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.
24.9. Ejemplos
Ejemplo 1. Analisis discriminatorio de todos los casos juntos; los casos se identican con la variable V1;
se solicitan 5 pasos de analisis; los grupos a priori se denen con la variable V111 que incluye las categoras
1-6.
$RUN DISCRAN
$FILES
PRINT = DISC1.LST
$SETUP
ANALISIS CANONICO DE DISCRIMINACION LINEAL
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) -
GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)
Ejemplo 2. Repetir el analisis descrito en el Ejemplo 1, con el subconjunto de encuestados que tienen el
valor 1 en la variable V5 y probar los resultados con los encuestados que tienen valor 2 en la variable V5.
$RUN DISCRAN
$FILES
$SETUP
ANALISIS DE DISCRIMINACION LINEAL USANDO MUESTRAS BASICA Y DE PRUEBA
PRINT=(DATA,GROUP) IDVAR=V1 STEP=5 VARS=(V101-V105) -
SAVAR=V5 BASA=1 TESA=2 -
GVAR=V111 GR01=(1,3) GR02=(3,5) GR03=(5,7)
Captulo 25
Funciones de distribucion y de Lorenz
(QUANTILE)
QUANTILE genera funciones de distribuci on, funciones de Lorenz y coecientes de Gini para variables
individuales y hace la prueba de Kolmogorov-Smirnov entre dos variables o entre dos muestras.
Seleccion de casos y variables. Se puede usar el ltro est andar para escoger un subconjunto de casos de
los datos de entrada. Ademas, se puede hacer cada analisis sobre un conjunto adicional mediante el uso de
un par ametro de ltro. Las variables a analizar se especican con el par ametro VAR.
Ponderaci on de datos. Se puede usar una variable de ponderaci on para ponderar los datos; esta variable
de ponderaci on puede tener valores enteros hasta el valor maximo asignable de 32,767. N otese que los valores
decimales se redondean al entero mas proximo. Cuando el valor de una variable de ponderaci on para un caso
es cero, negativo, faltante, no numerico o excede el maximo, entonces el caso se omite; se imprime el n umero
de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Los casos con un dato faltante en
una variable de analisis se eliminan de ese analisis.
25.3. Resultados
Resultados para cada analisis.
Funci on de distribuci on: mnimo, maximo, puntos de separacion en el subintervalo.
Funci on de Lorenz (opcional): mnimo, maximo, puntos de separacion en el subintervalo y coeciente
de Gini.
Curva de Lorenz (opcional): dibujada por deciles.
Estadsticas de prueba de Kolmogorov-Smirnov (opcional).
192 Funciones de distribuci on y de Lorenz (QUANTILE)
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables referidas (excepto
del ltro principal) deben ser numericas; pueden tener valores enteros o decimales.
$RUN QUANTILE
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de subconjuntos (opcional)
5. QUANTILE
6. Especificaciones de analisis (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
de control del programa, tems 1-3 y 6 a continuacion.
Ejemplo: CONSTRUCCION DE DECILES
Ejemplo: MDVAL=MD1, PRINT=DICT
INFILE=IN/xxxx
MAXCASES=n
el captulo El archivo Setup de IDAMS. Los casos con datos faltantes se eliminan del analisis.
PRINT=CDICT/DICT
hay.
4. Especicaciones de subconjuntos (opcional). Estas proposiciones permiten escoger un subconjunto
de casos para un analisis en particular.
Ejemplo: MUJERES INCLUDE V6=2
Prototipo: nombre proposicion
nombre
Nombre del subconjunto. 1-8 caracteres alfanumericos comenzando con una letra. Este nombre
debe coincidir exactamente con el nombre usado en las especicaciones de analisis subsecuentes.
Blancos intercalados no se permiten. Se recomienda que todos los nombres se justiquen a la
izquierda.
proposicion
Denicion del subconjunto que siga la sint axis del ltro est andar de IDAMS.
5. QUANTILE. La palabra QUANTILE en esta lnea, se nala que siguen especicaciones de analisis.
Debe incluirse (con el objeto de separar las especicaciones de subconjunto de las especicaciones de
analisis) y solo debe aparecer una vez.
6. Especicaciones de analisis. Las reglas de codicacion son las mismas de los par ametros. Cada
especicaci on de analisis debe comenzar en una nueva lnea.
Ejemplos: VAR=R10 N=5 PRINT=CLORENZ
VAR=V25 N=10 FILTER=MALE ANALID=M
VAR=V25 N=10 FILTER=FEMALE KS=M
VAR=n umero de variable
Variable a ser analizada.
El n umero de la variable de ponderaci on, si se van a ponderar los datos. En la prueba de
Kolmogorov-Smirnov no se pueden ponderar los datos.
N=20/n
N umero de subintervalos. Si n<2 o n>100, se imprime un mensaje de advertencia y se usa 20
como valor por defecto.
194 Funciones de distribuci on y de Lorenz (QUANTILE)
FILTER=xxxxxxxx
S olo se usan en este analisis los casos que satisfagan la condicion denida en la especicaci on de
subconjunto denominada xxxxxxxx. Si el nombre contiene caracteres no alfanumericos, debe estar
encerrado entre comillas sencillas. Se deben usar letras may usculas para hacer encajar el nombre
del subconjunto el cual se convierte autom aticamente a may usculas.
ANALID=nombre
Un nombre para este analisis de manera que pueda ser referencia para una prueba de Kolmogorov-
Smirnov. Si el nombre contiene caracteres no alfanumericos, debe estar encerrado entre comillas
sencillas.
KS=nombre
Es el nombre asignado a un analisis anterior, con el par ametro ANALID y dene la variable y/o
la muestra con la cual se va a comparar este analisis usando la prueba de Kolmogorov-Smirnov.
Si el nombre contiene caracteres no alfanumericos, debe estar encerrado entre comillas sencillas.
PRINT=(FLORENZ, CLORENZ)
FLOR Imprimir la funci on de Lorenz y los coecientes de Gini.
CLOR Imprimir la curva de Lorenz, dibujada en deciles. (Se imprime la funci on de Lorenz
tambien).
Nota: si se ha especicado KS, se ignora el par ametro PRINT.
25.7. Restricciones
1. El n umero maximo de variables usadas (variables de analisis + la variable de ponderaci on + variables
en ltros locales) es 50.
2. El n umero maximo de casos que se pueden analizar es 5000.
3. N umero mnimo de subintervalos es 2; maximo es 100.
4. El n umero maximo de especicaciones de subconjuntos es 25.
5. Si se usa la prueba de Kolmogorov-Smirnov, el n umero maximo de casos que se pueden analizar es
2500.
6. La funci on de Lorenz y la prueba de Kolmogorov-Smirnov no se pueden solicitar para el mismo analisis.
7. Los valores de los puntos de separacion siempre se imprimen con tres cifras decimales. Las variables
con mas de tres decimales se truncan a tres cuando se imprimen.
25.8. Ejemplo
Generacion de funci on de distribuci on, funci on de Lorenz y coecientes de Gini para la variable V67; se hacen
analisis separados en todos los datos y despues en dos subconjuntos; se hace la prueba de Kolmogorov-Smirnov
para probar la diferencia de distribuciones de la variable V67 en los dos subconjuntos de datos.
$RUN QUANTILE
$FILES
PRINT = QUANT.LST
$SETUP
COMPARACION DE DISTRIBUCION DE EDADES PARA HOMBRES Y MUJERES
* (valores por defecto para todos los par ametros)
FEMALE INCLUDE V12=1
MALE INCLUDE V12=2
QUANTILE
25.8 Ejemplo 195
VAR=V67 N=15 PRINT=(FLOR,CLOR)
VAR=V67 N=15 PRINT=(FLOR,CLOR) FILT=FEMALE ANALID=F
VAR=V67 N=15 PRINT=(FLOR,CLOR) FILT=MALE
VAR=V67 N=15 FILT=MALE KS=F
Captulo 26
Analisis factorial (FACTOR)
FACTOR cubre una serie de analisis factoriales de componentes principales y analisis de correspondencias
que tengan especicaciones comunes. Da la posibilidad de ejecutar, con una sola lectura de datos, los analisis
factoriales de correspondencias, de productos escalares, de productos escalares normados, de covariancias y
de correlaciones.
Para cada analisis, el programa construye una matriz que representa las relaciones entre las variables y calcula
sus valores propios y sus vectores propios. Despues calcula los factores de caso y variable que dan, para
cada caso y variable, su ordenada, su calidad de representacion y su contribucion a los factores. Tambien
se puede imprimir una representacion graca de los factores con opciones ordinarias o simplicio-factoriales.
Los casos/variables activos (principales) son los casos/variables sobre cuya base se ejecuta el proced-
imiento de descomposicion factorial, es decir, se usan en la computacion de la matriz de relaciones. Tambien
se puede buscar una representacion de otros casos/variables en el espacio factorial, que corresponde a las
variables activas. Tales casos/variables (al no tener inuencia en los factores) se llaman casos/variables
pasivos (suplementarions).
Se habla acerca de la representaci on ordinaria (de casos/variables) si los valores (puntajes de factores)
que vienen directamente del analisis, se usan en la representacion graca. Sin embargo, para una com-
prension mejor de la relacion entre casos y variables, es posible otra representacion simult aneamente, la
representaci on simplicio-factorial.
Seleccion de casos y variables. Se puede usar el ltro est andar para la selecci on de un subconjunto de
casos de los datos de entrada. Las variables se escogen con los par ametros PVARS y SVARS.
de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Hay dos maneras de manipular los
datos faltantes:
se excluyen los casos con datos faltantes en las variables activas, en cambio, los datos faltantes en las
variables pasivas se tratan como datos validos,
se excluyen del analisis, los casos con datos faltantes en variables activas y/o pasivas.
198 Analisis factorial (FACTOR)
26.3. Resultados
Estadsticas univariadas. (Opcional: ver el par ametro PRINT). N umero de variable, nombre de vari-
able, nuevo n umero de variable (renumerada a partir de 1), valores mnimos y maximos, media, desviacion
est andar, coeciente de variacion, suma, variancia, asimetra, kurtosis y n umero ponderado de casos vali-
dos para cada variable. N otese que la desviacion est andar y la variancia se estiman a partir de los datos
ponderados.
Datos de entrada. (Opcional: ver el par ametro PRINT). Grupos de 16 variables, que tienen en cada la: el
n umero correspondiente de casos, el total para variables activas y los valores de todas las variables, precedidos
del total de las columnas (calculado solamente para los casos activos). Los valores se imprimen con el punto
decimal explcito y con una cifra decimal. Si se requieren mas de 7 caracteres para imprimir un valor, este
se reemplaza por asteriscos.
Matriz de relaciones (matriz n ucleo). (Opcional: ver el par ametro PRINT). La matriz (despues de
multiplicar por 10 a la n-esima potencia como se indica en la lnea delente de la matriz), el valor de la huella
y la tabla de valores propios y vectores propios.
Histograma de valores propios. El histograma de porcentajes y porcentajes acumulativos de la contribu-
cion de cada valor propio a la inercia total. Los guiones en el histograma muestran el criterio de Kaiser para
el analisis de correlaci on.
Diccionarios de los archivos Datos de salida. (Opcional: ver el par ametro PRINT). El diccionario
correspondiente a los factores de caso seguido del de los factores de variable.
Tabla(s) de factores. Seg un la opcion u opciones escogidas, se tiene: una tabla (para factores de caso o
de variable), o dos tablas (para factores de caso y variable, en ese orden). Seg un la opcion de impresion
escogida, estas tablas solo contienen los casos (variables) activos, solamente los casos (variables) pasivos, o
ambos.
Tabla de factores de caso. Suministra, lnea por lnea:
valor del identicador de caso,
informacion relevante a todos los factores juntos, es decir, la calidad de la representacion del caso en
el espacio denido por los factores, la ponderaci on del caso y la inercia del caso,
informacion para cada factor a su turno, es decir, la ordenada del caso, el coseno cuadrado del angulo
entre el caso y el factor y la contribucion del caso al factor.
Tabla de factores de variable. Suministra, lnea por lnea, la misma informacion para las variables.
Gracos de puntos. (Opcional: ver el par ametro PLOTS). La primera lnea da el n umero del factor
representado en el eje horizontal con su valor propio y su rango de valores mnimos-maximos. La segunda
lnea da la misma informacion, concerniente al eje vertical. Junto con el ttulo de la ejecuci on, se da el n umero
de casos/variables (es decir puntos) representados. A la derecha de cada graco se imprime:
n umero de puntos que no se pueden imprimir para esa ordenada (puntos traslapados),
n umero de puntos que no fue posible representar,
n umero de p agina.
Factores rotados. (Opcional: ver el par ametro ROTATION). Se imprime la variancia calculada para cada
matriz de factores en cada iteraci on de la rotacion (con el metodo VARIMAX), seguida de las comunalidades
de las variables antes y despues de la rotacion, y se termina con la tabla de factores rotados.
Mensaje de terminacion. Al nal de cada analisis, se imprime un mensaje de terminaci on con el tipo de
analisis hecho.
26.4. Dataset(s) de salida
Se pueden construir, opcionalmente, dos archivos Datos cada uno con su diccionario IDAMS asociado. En
el dataset de factores de caso, los registros corresponden a los casos (activos y pasivos), las columnas
corresponden a las variables (incluidos el identicador de casos y las variables transferidas) y a los factores.
En el dataset de factores de variable, los registros corresponden a las variables de analisis y las columnas
contienen las identicaciones de variables (n umeros originales de variables) y factores.
Las variables de salida se numeran secuencialmente a partir de 1 y tienen las caractersticas siguientes:
Variable identicadora de casos y variables transferidas: las variables V tienen las mismas caractersti-
cas que su equivalente de entrada, las variables de Recode salen con WIDTH=9 y DEC=2.
Variables calculadas de factores:
Nombre especicado por FNAME
Ancho de campo 7
Nr. de decimales 5
MD1 et MD2 9999999
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables usadas para analisis
deben ser numericas; pueden tener valores enteros o decimales. Deben ser dicotomizadas o medidas en
una escala de intervalo. La variable de identicacion de caso y las variables a ser transferidas pueden ser
alfabeticas. Hay dos clases de variables de analisis, activas y pasivas. Adicionalmente, debe existir una variable
que identique el caso. Se pueden escoger otras variables para ser transferidas al archivo de salida de factores
de caso. Se pueden especicar uno o mas casos al nal del archivo de entrada como casos pasivos.
Para analisis de correspondencias, son adecuados dos tipos de datos: a) variables dicotomicas de un archivo
Datos primarios o b) una tabla de contingencia descrita por un diccionario y entrada como un dataset.
$RUN FACTOR
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de graficos definidos por el usuario (condicional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTyyyy diccionario de salida para factores de caso
DATAyyyy datos de salida para factores de caso
DICTzzzz diccionario de salida para factores de variable
DATAzzzz datos de salida para factores de variable
Ejemplo: EXCLUDE V10=99 OR V11=99
2. Ttulo (mandatorio). Una lnea que contenga hasta 80 caracteres para titular los listados.
Ejemplo: ENCUESTA AGRICOLA 1984
Ejemplo: ANAL=(CRSP,SSPRO) TRANS=(V16,V20) IDVAR=V1 -
PVARS=(V31-V35)
INFILE=IN/xxxx
MAXCASES=n
MDHANDLING=PRINCIPAL/ALL
PRIN Se excluyen del analisis, los casos con datos faltantes en las variables activas y se
incluyen los casos pasivos que tengan datos faltantes. Los factores de variables pasivas
se basan solo en datos validos.
ALL Se excluyen todos los casos con datos faltantes.
ANALYSIS=(CRSP/NOCRSP, SSPRO, NSSPRO, COVA, CORR)
Seleccion del analisis.
CRSP Analisis factorial de correspondencias.
SSPR Analisis factorial de productos escalares.
NSSP Analisis factorial de productos escalares normados.
COVA Analisis factorial de covariancias.
CORR Analisis factorial de correlaciones.
PVARS=(lista de variables)
Lista de variables V o R a usar como variables activas (principales).
SVARS=(lista de variables)
Lista de variables V o R a usar como variables pasivas (suplementarias).
NSCASES=0/n
N umero de casos pasivos. Nota: estos casos no se incluyen en el c alculo de las estadsticas, matriz
y factores; son los ultimos n del archivo Datos.
Variable de identicacion de caso usada para identicar puntos en los gracos y para identicar
casos en el archivo de salida.
KAISER/NFACT=n/VMIN=n
Criterio para determinar el n umero de factores.
KAIS Criterio de Kaiser - n umero de races mayor de 1.
NFAC N umero de factores deseado.
VMIN El porcentaje mnimo de variancia a ser explicado por los factores tomados todos
juntos. No debe teclearse el decimal, por ej. VMIN=95.
ROTATION=KAISER/UDEF/NOROTATION
Especica rotacion VARIMAX de factores de variable. S olo analisis de correlaciones.
KAIS El n umero de factores a rotar se dene de acuerdo con el criterio de KAISER.
UDEF El numero de factores a rotar lo especica el usuario (ver el par ametro NROT).
NROT=1/n
N umero de factores a rotar (si se especica ROTATION=UDEF).
WRITE=(OBSERV, VARS)
Controla la salida de archivos de factores de caso y variable. Si se solicita mas de un analisis
con el par ametro ANALYSIS, estos archivos seran para el primer analisis especicado.
OBSE Crear un archivo que contenga factores de caso.
VARS Crear un archivo que contenga factores de variable.
OUTFILE=OUT/yyyy
Un sujo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
caso.
OUTVFILE=OUTV/zzzz
Un sujo de ddname de 1-4 caracteres para los archivos Diccionario y Datos para los factores de
variable.
Por defecto: DICTOUTV, DATAOUTV.
Variables a transferir (hasta 99) al archivo de salida de factores de caso.
FNAME=uuuu
Una cadena de 1-4 caracteres usada como prejo para nombres de variables de factores en los dic-
cionarios de salida. Debe encerrarse entre comillas sencillas si contiene caracteres no-alfanumericos.
Los factores tienen los nombres uuuuFACT0001, uuuuFACT0002, etc.
Por defecto: espacio en blanco.
PLOTS=STANDARD/USER/NOPLOTS
Controla la representacion graca de los resultados.
STAN Se imprimen gracos est andar para pares de factores 1-2, 1-3, 2-3 con las opciones
PAGES=1, OVLP=LIST, NCHA=4, REPR=COOR, VARPL=(PRIN,SUPP).
USER Se desean gracos denidos por el usuario (ver par ametros de control para gracos
denidos por el usuario, mas adelante).
PRINT=(CDICT/DICT, OUTCDICTS/OUTDICTS, STATS, DATA, MATRIX,
VFPRINC/NOVFPRINC, VFSUPPL, OFPRINC, OFSUPPL)
hay.
OUTC Imprimir diccionarios de salida con registros C, si los hay.
OUTD Imprimir diccionarios de salida sin registros C.
STAT Imprimir las estadsticas de variables activas y pasivas.
DATA Imprimir los datos de entrada.
MATR Imprimir matriz de relaciones (n ucleo) y vectores propios.
VFPR Imprimir factores de variable para las variables activas.
VFSU Imprimir factores de variable para variables pasivas.
OFPR Imprimir factores de caso para los casos activos.
OFSU Imprimir factores de caso para los casos pasivos.
4. Especicaciones de gracos denidos por el usuario. (Condicional: si PLOT=USER se especica
como par ametro). Repetir para cada graco bi-dimensional a imprimir. Las reglas de codicacion son
las mismas de los par ametros. Cada especicaci on de graco debe comenzar en una lnea nueva.
Ejemplo: X=3 Y=10
X=n umero de factor
N umero del factor a representar en el eje horizontal.
Y=n umero de factor
N umero del factor a representar en el eje vertical (ver tambien el par ametro FORMAT=STANDARD).
ANSP=ALL/CRSP/SSPRO/NSSPRO/COVA/CORR
Especica los analisis para los cuales se van a imprimir los gracos.
ALL Gracos para todos los analisis especicados en el par ametro ANALYSIS.
Para el resto, se imprime un graco para un solo analisis (las palabras clave tienen el mismo
signicado que para el par ametro ANALYSIS). Estas opciones implican un solo graco.
OBSPLOT=(PRINCIPAL, SUPPL)
Seleccion de casos a representar en el graco o gracos.
PRIN Representar casos activos.
SUPP Representar casos pasivos.
VARPLOT=(PRINCIPAL/NOPRINCIPAL, SUPPL)
Seleccion de variables a representar en el graco o gracos.
PRIN Representar variables activas.
SUPP Representar variables pasivas.
REPRESENT=COORD/BASVEC/NORMBV
Seleccion de representacion simult anea de puntos (casos/variables).
COOR Coordenadas como se indican en la tabla de factores.
BASV Representar vectores b asicos.
NORM Representar vectores b asicos con norma especial para la representacion simplicio-
factorial.
OVLP=FIRST/LIST/DEN
Opcion concerniente a la representacion de puntos traslapados.
FIRS Imprimir el n umero de la variable/identicacion de casos solo del primer punto.
LIST Dar una lista vertical de los puntos que tengan la misma abscisa en el graco, hasta
hallar otro punto (entonces se pierden los n umeros de variable y/o los identicadores
de caso).
DEN Imprimir la densidad (n umero de puntos traslapados). Imprimir para un punto .,
para dos puntos (traslapados) :, para tres puntos 3, etc, para 9 puntos 9, para
mas de 9 puntos *. Se debe especicar NCHAR=2 si se selecciona esta opcion.
NCHAR=4/n
N umero de dgitos/caracteres usados para la identicacion de variables/casos en el graco o
gracos (1 a 4 caracteres).
PAGES=1/n
N umero de p aginas por graco.
FORMAT=STANDARD/NONSTANDARD
Dene el tama no del marco del graco.
STAN Usar un marco de 21 x 30 centmetros para el graco que muestra el factor con rango
mas amplio en el eje horizontal y usa diferentes escalas para los dos ejes.
NONS El marco no se estandariza en el sentido indicado en la opcion anterior. El tama no del
graco se dene con PAGES=n y los ejes son X e Y.
26.8. Restricciones
1. N umero maximo de variables de analisis es 80.
2. Se debe especicar una y solo una variable de identicacion.
3. N umero maximo de variables a ser transferidas es 99.
4. N umero maximo de variables de entrada incluidas aquellas usadas en proposiciones de ltro y de Recode
es 100.
5. N umero maximo de gracos denidos por el usuario es 24.
6. Si la variable de identicacion o una variable a ser transferida es alfabetica con ancho > 4, solo se usan
los primeros cuatro caracteres.
7. Los par ametros deben cumplir las siguientes especicaciones:
max(D1,D2,D3) < 5000
donde
D1 = NPV * NPV + 10 * NV
D2 = NV * (NF + 6) + NPV * NIF
D3 = NV + NF + NIF + 3 * NP
y NV, NPV, NF, NIF, NP denominan el n umero total de variables de analisis, n umero de variables
activas, n umero de factores a calcular, n umero de factores a ignorar y n umero maximo de puntos a
representar en gracos, respectivamente.
26.9. Ejemplos
Ejemplo 1. Analisis factorial de correlaciones; el analisis se basa en 20 variables y se solicitan 7 factores; el
n umero de factores a rotar se dene de acuerdo con el criterio de Kaiser; se imprimiran las estadsticas, matriz
de correlaci on, los valores propios, seguidos de factores de variables y gracos est andar; no se almacenar an
los factores en un archivo.
$RUN FACTOR
$FILES
PRINT = FACT1.LST
$SETUP
ANALISIS FACTORIAL DE CORRELACIONES
ANAL=(NOCR,CORR) ROTA=KAISER NFACT=7 IDVAR=V1 PRINT=(STATS,MATRIX) -
PVARS=(V12-V16,V101-V115)
Ejemplo 2. Analisis factorial de productos escalares basado en 10 variables; se representar an en gracos 2
variables pasivas V5 y V7; los gracos seran denidos por el usuario ya que solo se requiere el primero de
los puntos traslapados; se utilizara el criterio de Kaiser para determinar el n umero de factores y el n umero
de factores a rotar; los factores de caso y de variable se llevaran a archivos de salida.
$RUN FACTOR
$FILES
DICTOUT = CASEF.DIC archivo Diccionario de factores de caso
DATAOUT = CASEF.DAT archivo Datos de factores de caso
DICTOUTV = VARF.DIC archivo Diccionario de factores de variable
DATAOUTV = VARF.DAT archivo Datos de factores de variable
$SETUP
ANALISIS FACTORIAL DE PRODUCTOS ESCALARES
ANAL=(NOCRSP,SSPR) IDVAR=V1 WRITE=(OBSERV,VARS) PRINT=STATS PLOT=USER -
PVARS=(V112-V116,V201-V205) SVARS=(V5,V7)
X=1 Y=2 VARP=(PRINCIPAL,SUPPL)
Ejemplo 3. Analisis de correspondencias sobre una tabla de contingencia descrita por un diccionario y
entrada como un dataset en un archivo Setup a ejecutar; el n umero de factores se dene de acuerdo con
el criterio de Kaiser; se imprimiran la matriz de relaciones seguida de factores de variables y de casos; los
gr acos seran denidos por el usuario ya que se pide una projeccion de casos.
$RUN FACTOR
$FILES
PRINT = FACT3.LST
$SETUP
ANALISIS DE CORRESPONDENCIAS SOBRE UNA TABLA DE CONTINGENCIA
BADD=MD1 IDVAR=V8 PLOTS=USER PRINT=(MATRIX,OFPRINC) PVARS=(V31-V33)
$DICT
3 8 33 1 1
T 8 Grado cientfico 1 20
C 8 81 Professor
C 8 82 Ass.Prof.
C 8 83 Doctor
C 8 84 Ma^trise
C 8 85 Licencia
C 8 86 Otro
T 31 Jefe 4 20
T 32 Cientfico 7 20
T 33 Tecnico 10 20
$DATA
81 5 0 0
82 1 3 0
83 0 17 01
84 0 28 04
85 0 0 01
86 0 0 17
Captulo 27
Regresion lineal (REGRESSN)
REGRESSN suministra una capacidad general para regresion m ultiple, dise nada para analisis de regresion
lineal est andar o por pasos. Se pueden hacer varios analisis de regresion, con par ametros y variables diferentes
en una misma ejecuci on.
Termino constante. Si los datos de entrada son datos primarios, el usuario puede solicitar que las
ecuaci ones no tengan termino constante (ver el par ametro de regresion CONSTANT=0). En este caso se
analiza una matriz basada en la matriz de productos cruzados en vez de una matriz de correlaci on. Esto
cambia la pendiente de la lnea ajustada y puede afectar sustancialmente los resultados. En la regresion por
pasos, las variables pueden entrar a la ecuaci on en un orden diferente al que se hubiese requerido en caso de
estimar un termino constante. Si la entrada es una matriz de correlaci on, la ecuaci on de regresion contiene
siempre un termino constante.
Uso de variables categ oricas como variables independientes. Existe una opcion para crear un
conjunto de variables cticias (dicot omicas) a partir de variables categoricas especcadas (ver el par ametro
CATE). Estas se pueden utilizar como variables independientes en el analisis de regresion.
Cociente F para introducir una variable en la ecuacion. En la regresion por pasos, se adicionan a su
turno, variables a la ecuaci on de regresion hasta que la ecuaci on sea satisfactoria. En cada paso, se selecciona
la variable que tenga la correlaci on parcial mas alta con la variable dependiente. Se calcula entonces un
valor parcial de la prueba F para la variable y este valor se compara con un valor crtico suministrado por el
usuario. Tan pronto como la F parcial para la proxima variable que va entrar sea menor que el valor crtico,
se termina el analisis.
Cociente F para retirar una variable de la ecuacion. Una variable que puede haber sido la mejor
variable individual para entrar en una etapa inicial de un analisis de regresion por pasos, en una etapa
posterior, puede no ser la mejor debido a la relacion actual con otras variables en la regresion. Para detectar
esto, el valor parcial F de cada variable en la regresion en cada paso del c alculo, es calculado y comparado
con un valor crtico suministrado por el usuario. Cualquier variable cuyo valor parcial F se presente por
debajo del valor crtico, se retira del modelo.
Regresi on por pasos. Si se pide regresion por pasos, el programa determina que variables o cuales conjuntos
de variables cticias dentro del conjunto especicado de variables independientes se van a usar en la regresion
y en que orden se van a introducir, se comienza con las variables forzadas y se contin ua con las dem as variables
y los conjuntos de variables cticias, una a una. Despues de cada paso, el algoritmo escoge entre las variable
predictoras restantes, la variable o el conjunto de variables cticias que produzcan la reduccion mas grande
en la variancia residual (no explicada) de la variable dependiente, a menos de que su contribucion al cociente
F total para la regresion permanezca por debajo de un umbral especicado. Igualmente, el algoritmo eval ua
despues de cada paso, si la contribucion de alguna variable o de alg un conjunto de variables cticias ya
incluidas, se presentan o no se presentan por debajo de un umbral especicado, caso en el cual se elimina de
la regresion.
Regresi on descendente por pasos. Igual que en la regresion por pasos, excepto que el algoritmo comienza
con todas las variables independientes y luego elimina variables y conjuntos de variables cticias por pasos.
206 Regresi on lineal (REGRESSN)
En cada paso el algoritmo selecciona a partir de las variables predictoras que quedan, la variable o el
conjunto de variables cticias que produzcan la reduccion mas baja en la variancia explicada de la variable
dependiente, a menos que esta exceda un umbral especicado. Igualmente, el algoritmo eval ua en cada paso
si la contribucion de alguna variable o conjunto de variables cticias previamente suprimidas de la regresion,
se ha elevado por encima de un umbral especicado, caso en el cual, se vuelve a incluir en la regresion.
Generacion de un dataset de residuos. Con datos primarios como entrada, se pueden calcular residuos
y llevarlos como un archivo Datos de salida descrito por un diccionario IDAMS. Ver la secci on Datasets
de residuos de salida para detalles del contenido. N otese que para cada ecuaci on, se genera un dataset
de residuos separado. Tambien, como REGRESSN no tiene la capacidad de transferir variables de interes
especco en un analisis de residuos a partir de los datos primarios de entrada al dataset de residuos, puede
ser necesario usar el programa MERGE para crear el dataset que contenga todas las variables deseadas.
Una variable de identicacion de caso (ID) del dataset de entrada se lleva al dataset de residuos para hacer
posible el encaje.
Generacion de una matriz de correlacion. Si entran datos primarios, el programa calcula coecientes
de correlaci on que pueden salir en el formato de una matriz cuadrada de IDAMS y ser usados para analisis
posteriores. Las correlaciones de REGRESSN incluyen todas las variables de todas las ecuaciones de regresion
y se basan en casos con datos validos en todas las variables de la matriz. De esta manera, las correlaciones
seran generalmente diferentes de las correlaciones obtenidas con el programa PEARSON cuando se ejecuta
con la opocion MDHANDLING=PAIR. Cuando la eliminacion de datos faltantes en REGRESSN deja un
tama no de muestra aceptablemente grande, REGRESSN es una alternativa de PEARSON para generar
matrices de correlaci on (ver par agrafo Tratamiento de datos faltantes).
Seleccion de casos y variables. Si entran datos primarios, se puede usar el ltro est andar para escoger un
subconjunto de casos a partir de los datos de entrada. Si se utiliza una matriz de correlaci on como entrada
al programa, no se puede usar la selecci on de casos. Las variables para la ecuaci on de regresion se especican
en los par ametros DEPVAR y VARS.
Transformaci on de datos. Si entran datos primarios, se pueden usar las proposiciones de Recode.
Ponderaci on de datos. Si entran datos primarios, se puede usar una variable para ponderar los datos de
entrada; esta variable de ponderaci on puede tener cifras enteras o decimales. El programa forzar a la suma
de las ponderaciones para que sea igual al n umero de casos de entrada. Cuando el valor de la variable de
ponderaci on para un caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite;
se imprime el n umero de casos as tratados.
Tratamiento de datos faltantes.
1. Entrada. Si entran datos primarios, el par ametro MDVALUES est a disponible para indicar cuales
valores de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Los casos en los cuales
haya datos faltantes para cualquier variable de regresion en cualquier analisis se eliminan (eliminacion
de datos faltantes por casos). Una opcion (ver par ametro MDHANDLING) permite al usuario especi-
car el maximo n umero de casos con datos faltantes que puede tolerarse antes de terminar la ejecuci on.
Advertencia: si se llevan a cabo analisis m ultiples en una ejecuci on de REGRESSN, se calcula una sola
matriz de correlaci on para todas las variables utilizadas en los diferentes analisis. Por causa del metodo
de eliminacion de casos con datos faltantes por casos, el n umero de casos usado y por lo tanto las
estadsticas de regresion producidas pueden ser diferentes si los analisis se llevan a cabo separadamente.
Si entra una matriz, los casos con datos faltantes se han debido acomodar al crear la matriz. Si una
celda de la matriz de entrada tiene un c odigo de dato faltante (es decir, 99.999) cualquier analisis que
involucre dicha celda, se omite.
2. Residuos de salida. Si se piden residuos, se calculan para todos los casos que pasen el ltro (opcional)
valores predichos y residuos. Si un caso tiene datos faltantes en cualquiera de las variables requeridas
para estos c alculos, se generan c odigos de datos faltantes en la salida.
3. Matriz de correlacion de salida. El algoritmo de REGRESSN para el manejo de datos faltantes en
la entrada de datos primarios no puede resultar en valores de datos faltantes en la matriz de correlaci on.
27.3 Resultados 207
27.3. Resultados
Estadsticas univariadas. (Solo datos primarios). Se imprime la suma, el promedio, la desviacion est andar,
el coeciente de variacion, el valor maximo y el valor mnimo para todas las variables dependientes e inde-
pendientes utilizadas.
Matriz de sumas totales de cuadrados y productos cruzados. (Solo datos primarios. Opcional: ver
el par ametro PRINT).
Matriz de sumas de cuadrados residuales y productos cruzados. (Solo datos primarios. Opcional:
Matriz de correlacion total. (Opcional: ver el par ametro PRINT).
Matriz de correlacion parcial. (Opcional para cada regresion: ver el par ametro de regresion PARTIALS).
El elemento ij-esimo es la correlaci on parcial entre la variable i y la variable j, manteniendo constantes las
variables especicadas en la lista de variables de PARTIALS.
Matriz inversa. (Opcional para cada regresion: ver el par ametro PRINT).
Estadsticas de resumen del analisis. Las siguientes estadsticas se imprimen para cada regresion o para
cada paso de un regresion por pasos:
error est andar de estimaci on,
cociente F,
coeciente de correlaci on m ultiple (ajustado y no ajustado),
fracci on de variancia explicada (ajustada y no ajustada),
determinante de la matriz de correlaci on,
grados de libertad de residuos,
termino constante.
Estadisticas de analisis para predictores. Las siguientes estadsticas se imprimen para cada regresion
o para cada paso de un regresion por pasos:
coeciente B (coeciente de regresion parcial no estandarizado),
error est andar (sigma) de B,
coeciente beta (coeciente de regresion parcial estandarizado),
error est andar (sigma) de beta,
R cuadrada parcial y marginal,
cociente t,
cociente de covariancia,
valores de la R cuadrada marginal para todos los predictores y cocientes t para todos conjuntos de las
variables cticias (para la regresion por pasos).
Diccionario de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el par ametro
de regresion WRITE).
Datos de residuos de salida. (Para entrada de datos primarios solamente. Opcional: ver el par ametro de
regresion PRINT). Si hay menos de 1000 casos, los valores calculados, los valores observados y los residuos
(diferencias) se pueden listar en orden ascendente por el valor del residuo. Se puede listar cualquier n umero
de casos en el orden secuencial de entrada de los mismos. La estadstica de Durbin-Watson para la asociaci on
de residuos se imprime para los residuos impresos en el orden secuencial de los casos.
27.4. Matriz de correlacion de salida
Se puede producir la matriz de correlaci on calculada (ver el par ametro WRITE). Se escribe en la forma
de una matriz cuadrada de IDAMS (ver el captulo Los datos en IDAMS). El formato es 6F11.7 para
las correlaciones y 4E15.7 para las medias y desviaciones est andar. Ademas, en las columnas 73-80 de los
registros se escriben ttulos para la informacion as:
registro descriptor de matriz N=nnnnn
registros de correlaci on REG xxx
registros de media MEAN xxx
registros de desviacion est andar SDEV xxx
(nnnnn es el tama no de la muestra de REGRESSN. Las xxx corresponden a un n umero secuencial que
comienza con 1 para el primer registro de correlaci on y se incrementa de uno en uno para cada registro
sucesivo hasta el ultimo registro de desviacion est andar).
Los elementos de la matriz son r de Pearson. Estas r, as como las medias y las desviaciones est andar se
basan en casos que tienen datos validos en todas las variables especicadas en cualquiera de las listas de
variables de regresion. Las correlaciones son para todos los pares de variables de toda la lista de variables de
analisis, tomadas a la vez.
27.5. Dataset de residuos de salida
Se puede pedir un dataset de residuos para cada analisis (ver el par ametro de regresion WRITE). Este tiene
la forma de un archivo Datos descrito por un diccionario IDAMS. Contiene cuatro o cinco variables por caso,
seg un los datos sean o no sean ponderados: una variable de identicacion (ID), una variable dependiente,
una variable dependiente predicha (calculada), un residuo y una ponderaci on, si la hay. El archivo de salida
de los residuos tiene el mismo orden de los casos de entrada. Las caracetrsticas del archivo son:
N umero de Ancho de N umero de Codigo
variable Nombre campo decimales MD1
(identicador) 1 igual a entrada * 0 igual a entrada
(variable dependiente) 2 igual a entrada * ** igual a entrada
(variable predicha) 3 Predicted value 7 *** 9999999
(residuo) 4 Residual 7 *** 9999999
(ponderaci on - si hay) 5 igual a entrada * ** igual a entrada
* transferido del diccionario de entrada para variables V o 7 para variables R
** transferido del diccionario de entrada para variables V o 2 para variables R
*** 6 + Nr. de decimales para la variable dependiente menos el ancho de la variable dependiente; si
esta es negativa, entonces este valor es cero.
Si el valor calculado o el residuo exceden el ancho de campo asignado, se reemplazan por c odigo MD1.
El dataset de entrada de datos primarios es un archivo Datos descrito por un diccionario IDAMS. Todas
las variables usadas para analisis deben ser numericas; pueden ser enteras o con decimales. La variable
identicadora de casos puede ser alfabetica.
27.7. Matriz de correlacion de entrada
Es una matriz cuadrada de IDAMS. Una matriz de correlaci on generada por PEARSON o por una ejecuci on
anterior de REGRESSN resulta apta como matriz de entrada a REGRESSN.
El diccionario de la matriz de entrada debe contener n umeros y nombres de variables. La matriz debe contener
correlaciones, medias y desviaciones est andar. Se usan ambas, las medias y las desviaciones est andar.
$RUN REGRESSN
$FILES
$RECODE (opcional con datos primarios como entrada;
no se usa con entrada matricial)
$SETUP
2. Ttulo
3. Par ametros
4. Definici on de variables ficticias (condicional)
5. Especificaciones de regresion (tantas como sean necesarios)
$DICT (condicional)
Diccionario para entrada de datos primarios
$DATA (condicional)
Datos primarios de entrada
Matriz de correlaci on de entrada
Archivos:
FT02 matriz de correlaci on de salida
FT09 matriz de correlaci on de entrada
(si no se usa $MATRIX e INPUT=MATRIX)
DICTyyyy diccionario de residuos de salida ) un conjunto por cada
DATAyyyy datos de residuos de salida ) archivo de residuos
de control del programa, tems 1-3 y 5, a continuacion.
1. Filtro (opcional). Selecciona un subconjunto de casos para usar en la ejecuci on. Disponible solo con
datos primarios de entrada.
Ejemplo: ANALISIS DE REGRESION
Ejemplo: IDVAR=V1 MDHANDLING=100
INPUT=RAWDATA/MATRIX
RAWD Los datos de entrada vienen en la forma de un archivo Datos descrito por un diccionario
IDAMS.
MATR Los datos de entrada son coecientes de correlaci on en la forma de una matriz cuadrada
de IDAMS.
Par ametros s olo para datos primarios de entrada
INFILE=IN/xxxx
MAXCASES=n
MDHANDLING=0/n
N umero de casos con datos faltantes admitido antes de terminar. Un caso se considera faltante si
este contene datos faltantes en cualquiera de las variables de las ecuaciones de regresion.
N umero de la variable de ponderaci on, si se van a ponderar los datos.
CATE
Se especica CATE si se suministra una denicion de variables cticias.
Variable que se lleva a la salida o se imprime como identicadora de casos si se han solicitado
dataset de residuos. La variable de identicacion no se debe incluir en ninguna lista de variables.
WRITE=MATRIX
Escribir la matriz de correlaci on calculada a partir de los datos primarios de entrada en un archivo
de salida.
PRINT=(CDICT/DICT, XMOM, XPRODUCTS, MATRIX)
hay.
XMOM Imprimir la matriz de sumas residuales de cuadrados y productos cruzados.
XPRO Imprimir la matriz de sumas totales de cuadrados y de productos cruzados.
MATR Imprimir la matriz de correlaci on.
Par ametros para entrada de la matriz de correlaci on
CASES=n
Haga CASES igual al n umero de casos usados para la creacion de la matriz de entrada. Este
n umero se utiliza en el c alculo del nivel F.
No admite valor por defecto; debe suministrarse cuando entra la matriz de correlaci on.
PRINT=MATRIX
Imprimir la matriz de correlaci on.
4. Denicion de variables cticias (condicional: si se ha especicado CATE como un par ametro). El
programa REGRESSN puede transformar una variable categorica en un conjunto de variables cticias.
Para tener un tratamiento de variables como categoricas, el usuario debe: a) incluir el par ametro
CATE en la lista de par ametros y b) especicar cuales variables se van a considerar como categoricas
y los c odigos a usar. Cada variable categorica a transformar est a seguida de los c odigos a usar entre
parentesis cuadrados. Para cada variable, los c odigos no listados se excluyen de la construcci on. Nota:
la lista de c odigos no debe ser exahustiva, es decir, no se deben imprimir todos los c odigos existentes
o de lo contrario, resultara una matriz singular.
Ejemplo: V100(5,6,1), V101(1-6)
Los c odigos 5, 6 y 1 de la variable 100 se representar an en la regresion como variables cticias,
as como tambien los c odigos 1 a 6 de la variable 101.
Una variable especicada en la denicion de variables cticias, cuando se use en listas de variables
predictoras (VARS), variables parciales (PARTIALS) o variables forzadas (FORCE) para regresion
por pasos, se referir an al conjunto de variables cticias creado a partir de esa variable. En regresiones
por pasos, los c odigos de esa variable entraran o se excluiran ambos a la vez, las R cuadradas marginales
y los cocientes-F se calculan para todos los c odigos de las variables conjuntamente as como para los
c odigos individualmente. Una variable usada en la denicion de variables cticias no se puede usar
como variable dependiente.
5. Especicaciones de regresion. Las reglas de codicacion son las mismas de los par ametros. Cada
conjunto de par ametros de regresion debe comenzar en una nueva lnea.
Ejemplo: DEPV=V5 METH=STEP FORCE=(V7) VARS=(V7,V16,V22,V37-V47,R14)
METHOD=STANDARD/STEPWISE/DESCENDING
STAN Se hace regresion est andar.
STEP Se hace regresion por pasos.
DESC Se hace una regresion descendente por pasos.
DEPVAR=n umero de variable
N umero de la variable dependiente.
Las variables independientes que se van a usar en el analisis.
PARTIALS=(lista de variables)
Calcular e imprimir una matriz de correlaci on parcial con las variables eliminadas de la lista de
variables independientes.
Por defecto: no hay parciales.
FORCE=(lista de variables)
Forzar las variables listadas a entrar en la regresion por pasos (METHOD=STEP) o a permanecer
en la regresion descendente por pasos (METHOD=DESC).
Por defecto: no hay forzamiento.
FINRATIO=.001/n
El valor del cociente F por debajo del cual una variable no entra al procedimiento por pasos; este
es el cociente F para entrar. Debe darse el punto decimal.
FOUTRATIO=0.0/n
El valor del cociente F por encima del cual una variable se debe mantener para permanecer en el
procedimiento por pasos; este es el cociente F para retirar. Debe darse el punto decimal.
CONSTANT=0
S olo para la entrada de datos primarios.
El termino constante debe ser igual a cero y no se estimara termino constante.
Por defecto: se calcula un termino constante.
WRITE=RESIDUALS
Los residuos se escriben en un dataset IDAMS.
OUTFILE=OUT/yyyy
Se aplica solamente cuando se ha especicado WRITE=RESI.
Un sujo de ddname de 1-4 caracteres para los archivos del diccionario y de los datos de residuos
de salida. Si se llevan los residuos al archivo de salida para mas de un analisis, el nombre por
defecto OUT, solo puede utilizarse una sola vez.
PRINT=(STEP, RESIDUALS, ERESIDUALS, INVERSE)
STEP Se aplica solamente a una regresion por pasos: imprimir R cuadradas marginales para
todos los predictores en cada paso.
RESI Imprimir los residuos en el orden de los casos de entrada y la estadstica de Durbin-
Watson.
ERES Imprimir los residuos, excepto para datos faltantes, en orden de magnitud del error,
siempre que haya menos de 1000 casos.
INVE Imprimir la matriz de correlaci on inversa.
1. Con datos primarios como entrada, puede haber hasta 99 o 100 variables distintas, (dependiendo de si
hay o no hay una variable de ponderaci on) para utilizar en una sola ecuaci on de regresion; el n umero
total de variables en todo el analisis, incluidas las variables de Recode, la variable de ponderaci on y la
variable de identicacion, no puede ser mayor de 200.
2. Cuando la entrada es una matriz, esta puede ser de 200 x 200 y se pueden usar hasta 100 variables en
una sola ecuaci on de regresion.
3. FINRATIO debe ser mayor o igual a FOUTRATIO.
4. Los residuos se pueden listar en orden ascendente por valor de residuo si hay menos de 1000 casos.
5. Una variable especicada en la denicion de variables cticias, no puede usarse como variable depen-
diente.
6. M aximo se pueden denir 12 variables cticias a partir de una variable categorica.
7. Si la variable de identicacion es alfabetica con ancho > 4, solo se usan los primeros cuatro caracteres.
27.11. Ejemplos
Ejemplo 1. Regresi on est andar con cinco variables independientes con una matriz de correlaci on IDAMS
como entrada.
$RUN REGRESSN
$FILES
FT09 = A.MAT archivo Matriz de entrada
SETUP
REGRESION ESTANDAR - USA MATRIZ DE ENTRADA
INPUT=MATR CASES=1460
DEPV=V116 VARS=(V18,V36,V55-V57)
27.11 Ejemplos 213
Ejemplo 2. Regresi on est andar con seis variables independientes y dos variables cada una con 3 categoras
transformadas a 6 variables cticias; se usan datos primarios de entrada; se van a calcular residuos y se
escriben en un dataset de salida (los casos se identican con la variable V2).
$RUN REGRESSN
$FILES
PRINT = REGR2.LST
DICTOUT = RESID.DIC archivo Diccionario de los residuos
DATAOUT = RESID.DAT archivo Datos para residuos
$SETUP
REGRESION ESTANDAR - USA DATOS PRIMARIOS DE ENTRADA Y ESCRIBE RESIDUOS
MDHANDLING=50 IDVAR=V2 CATE
V5(1,5,6),V6(1-3)
DEPV=V116 WRITE=RESI -
VARS=(V5,V6,V8,V13,V75-V78)
Ejemplo 3. Dos regresiones: una est andar y una por pasos con datos primarios como entrada.
$RUN REGRESSN
$FILES
$SETUP
DOS REGRESIONES
PRINT=(XMOM,XPROD)
DEPV=V10 VARS=(V101-V104,V35) PRINT=INVERSE
DEPV=V11 METHOD=STEP PRINT=STEP VARS=(V1,V3,V15-V18,V23-V29)
Ejemplo 4. Regresi on en dos etapas; la primera usa las variables V2 - V6 para estimar los valores de la
variable dependiente V122; en la segunda etapa, dos variables adicionales V12, V23 se usan para estimar los
valores predichos de V122, es decir V122 sin los efectos de V2 - V6.
En la primera regresion, los valores predichos para la variable dependiente (V122) se calculan y se escriben
en el archivo de residuos (OUTB) como la variable V3. Despues se usa el programa MERGE para intercalar
esta variable con las variables del archivo original que se necesitan en la segunda etapa. El dataset de salida
de MERGE (un archivo temporal y por lo tanto no es necesario denirlo) tendra cinco variables de la lista
de construcci on, numeradas V1 a V5, donde A12 y A23 (para usar como predictores de la segunda etapa) se
convierten en V2 y V3, A122, la variable dependiente original, se convierte en V4 y B3, la variable que da
los valores predichos de V122, se convierte en V5. Este archivo de salida se utiliza entonces como entrada de
la segunda etapa.
$RUN REGRESSN
$FILES
PRINT = REGR4.LST
DICTOUTB = RESID.DIC archivo Diccionario de los residuos
DATAOUTB = RESID.DAT archivo Datos para residuos
$SETUP
REGRESION EN DOS ETAPAS - PRIMERA ETAPA
MDHANDLING=100 IDVAR=V1
DEPV=V122 WRITE=RESI OUTF=OUTB VARS=(V2-V6)
$RUN MERGE
$SETUP
INTERCALACION DE LOS VALORES PREDICHOS (V3 EN ARCH.DE RES.) EN ARCH DE DATOS
MATCH=INTE INAF=IN INBF=OUTB
A1=B1
A1,A12,A23,A122,B3
$RUN REGRESSN
$SETUP
REGRESION EN ETAPAS - SEGUNDA ETAPA
MDHANDLING=100 INFI=OUT
DEPV=V5 VARS=(V2,V3)
Captulo 28
Escalamiento multidimensional
(MDSCAL)
MDSCAL es un programa del escalamiento multidimensional no metrico para el analisis de similitudes. El
programa, el cual opera sobre una matriz de medidas de similitud o disimilitud, est a dise nado para encontrar,
en cada dimensi on especicada, la mejor representacion geometrica de los datos en el espacio.
El uso del escalamiento multidimensional no metrico, es parecido al del analisis factorial: por ej. se pueden
puntualizar conglomerados de variables, se puede descubrir el n umero de dimensiones de los datos y algunas
veces se pueden interpretar las dimensiones. Se puede usar el programa CONFIG para hacer analisis sobre
una conguracion de salida de MDSCAL.
Conguracion de entrada. Para comenzar los c alculos, se usa normalmente, una conguracion inicial
creada internamente, en forma arbitraria. Sin embargo, el usuario puede suministrar una conguracion inicial.
Hay varias razones para suministrar una conguracion inicial. El usuario puede tener motivos teoricos para
comenzar con una cierta conguracion; se puede desear hacer iteraciones adicionales sobre una conguracion
que no se encuentra sucientemente cerca a la mejor; o, para ahorrar tiempo de computacion, se puede desear
suministrar una conguracion de dimensiones mas elevadas como punto de partida para una conguracion
de mas baja dimensi on.
Algoritmo de escalamiento. El programa comienza con una conguracion inicial, generada arbitraria-
mente o suministrada por el usuario, e itera (usando un procedimiento del tipo descenso mas inclinado)
sobre sucesivas conguraciones de ensayo, cada vez compara el orden de rango de las diferencias entre puntos
en la conguracion de ensayo con el orden de rango de la medida correspondiente en los datos. Una medida
de calidad de ajuste (coeciente de esfuerzo) se calcula despues de cada iteraci on y la conguracion se
arregla nuevamente para mejorar el ajuste a los datos, hasta que, idealmente, el orden de rango entre las
distancias entre puntos es perfectamente monot onico con el orden de rango de disimilitudes dado por los
datos; en este caso, el esfuerzo sera cero. En la practica, los c alculos de escalamiento (en cualquier n umero
de dimensiones) se detienen porque el esfuerzo alcanz o un valor sucientemente peque no (STRMIN), el fac-
tor de escala (magnitud) del gradiente, alcanz o un valor sucientemente peque no (SRGFMN), el esfuerzo
ha mejorado demasiado lentamente (SRATIO), o se alcanz o un n umero de iteraciones denido previamente
(ITERATIONS). El programa se detiene con cualquiera de estas condiciones que se presente primero. El
mismo procedimiento se repite para la dimensi on mas baja que sigue, utiliza como conguracion inicial los
resultados anteriores, hasta alcanzar un n umero mnimo de dimensiones especicado. Durante los c alculos, el
coseno del angulo entre gradientes sucesivos, juega un papel importante de varias maneras; opcionalmente,
se pueden especicar dos par ametros internos de ponderaci on (ver par ametros COSAVW y ACSAVW).
N umero de dimensiones y metrica. Se pueden obtener soluciones en 2 a 10 dimensiones. El usuario
controla el n umero de dimensiones de las conguraciones obtenidas, a partir de la especicaci on del n umero
maximo y mnimo de dimensiones deseadas y la diferencia de dimensiones de las soluciones sucesivas pro-
ducidas (ver par ametros DMAX, DMIN, y DDIF). El usuario tambien especica, con el par ametro R, si la
metrica de distancia debe ser euclideana (R=2), que es el caso usual, o alguna otra metrica r de Minkowski.
216 Escalamiento multidimensional (MDSCAL)
Esfuerzo. El esfuerzo es una medida de la bondad del ajuste de la conguracion a los datos. El usuario
puede escoger entre dos formulas para calcular el coeciente de esfuerzo: el esfuerzo se estandariza por la
suma de las distancias cuadradas desde la media (SQDIST) o bien, el esfuerzo se estandariza por la suma de
las desviaciones cuadradas desde la media (SQDEV). En muchas situaciones, las conguraciones obtenidas
por las dos formulas no son sustancialmente diferentes. En la formula 2, se obtienen valores mas altos del
esfuerzo para el mismo grado de ajuste.
Ataduras en los coecientes de entrada. Hay dos metodos alternos para el manejo de ataduras entre los
datos de entrada; las distancias correspondientes puede requerirse que sean iguales (TIES=EQUAL) o puede
permitirse diferir (TIES=DIFFER). Cuando hay pocas ataduras, es muy poca la diferencia entre las dos
alternativas. Cuando hay gran n umero de ataduras, hay diferencia y se hace necesario considerar el contexto
para hacer la selecci on.
Seleccion de casos y variables. El ltrado de casos debe hacerse en el momento de creacion de la matriz,
no en MDSCAL. El par ametro VARS permite que los c alculos se hagan sobre subconjuntos de la matriz y
no sobre toda la matriz.
Transformaci on de datos. No se aplica el uso de las proposiciones de Recode con MDSCAL. La transfor-
maci on de los datos debe hacerse al crear la matriz.
Ponderaci on de datos. La ponderaci on en el sentido usual (ponderar casos para corregir diferentes tasas
de muestreo o diferentes niveles de agregacion) debe hacerse antes de usar MDSCAL; tales ponderaciones
deben ser incorporadas como datos en la matriz de entrada. Hay una opcion de ponderaci on de naturaleza
muy diferente en MDSCAL (ver el par ametro INPUT=WEIGHTS). Se puede usar para asignar ponderaci on
a las celdas de las matriz de entrada; el usuario suministra una matriz de valores que se van a usar como
coecientes de ponderaci on para los elementos correspondientes en la matriz de entrada.
Tratamiento de datos faltantes. Los datos faltantes de casos individuales se deben tener en cuenta en el
momento de formaci on de la matriz, no en MDSCAL. Si despues de haber creado la matriz, falta una entrada
de la misma, es decir, contiene un c odigo de dato faltante, existe la posibilidad de procesarlo en MDSCAL.
La opcion de recorte de MDSCAL (ver el par ametro CUTOFF) se puede usar para excluir del analisis los
valores de datos faltantes si estos son menores que valores de datos validos. MDSCAL no tiene la opcion de
reconocer c odigos de datos faltantes que sean n umeros grandes (tales como 99.999, que es el c odigo de datos
faltantes emitido por PEARSON). Si existen c odigos de datos faltantes grandes, estos deberan editarse a
n umeros peque nos. Si una variable en particular, tiene muchos valores faltantes de entrada, posiblemente
debera ser excluida del analisis.
28.3. Resultados
Matriz de entrada. (Opcional: ver el par ametro PRINT).
Ponderaciones de entrada. (Opcional: ver el par ametro PRINT).
Conguracion de entrada. Si se da una conguracion inicial, esta siempre se imprime.
Historia de los calculos. Para cada solucion, el programa imprime una historia completa de los c alculos,
reporta el esfuerzo y sus par ametros auxiliares para cada iteraci on:
Iteracion el n umero de la iteraci on
Stress el valor actual del esfuerzo
SRAT el valor actual del cociente de esfuerzo
SRATAV el promedio actual del cociente de esfuerzo (es un promedio ponderado exponencial)
CAGRGL el coseno del angulo entre el gradiente actual y el gradiente previo
COSAV el promedio del coseno del angulo entre gradientes sucesivos (un promedio ponderado)
ACSAV el promedio del valor absoluto del coseno del angulo entre gradientes sucesivos
(un promedio ponderado)
SFGR la longitud (m as apropiadamente, el factor de escala) del gradiente
STEP el tama no del paso.
28.4 Matriz de conguraci on de salida 217
Motivo para terminar. Cuando se termina el c alculo, se indican los motivos con uno de los siguientes
mensajes: Se logro el mnimo, N umero maximo de iteraciones usado, Se alcanz o esfuerzo satisfactorio,
o Se alcanz o esfuerzo cero.
Conguracion nal. Para cada solucion, se imprimen las coordenadas cartesianas de la conguracion nal.
Conguracion clasicada. (Opcional: ver el par ametro PRINT). Para cada solucion, las proyecciones de
puntos de la conguracion nal se clasican ascendentemente por separado en cada dimensi on y se imprimen.
Resumen. Para cada solucion, los datos originales se ordenan y se imprimen junto con sus distancias nales
correspondientes (DIST) y las distancias hipoteticas requeridas para un ajuste monot onico perfecto (DHAT).
Cuando se ha calculado la conguracion nal para cada n umero de dimensiones, se puede obtener como una
matriz rectangular IDAMS. La conguracion es centrada y normalizada. Las las representan variables y
las columnas dimensiones. Los elementos de la matriz se escriben en formato 10F7.3. Se generan registros
de diccionario. Esta matriz puede ser una conguracion inicial para otra ejecuci on de MDSCAL, o tambien
puede ser capturada por otro programa, tal como CONFIG, para otros analisis.
28.5. Matriz de datos de entrada
La entrada usual a MDSCAL es una matriz cuadrada IDAMS (ver el captulo Los datos en IDAMS).
Esta matriz es la mitad superior derecha sin diagonal y se dene con el par ametro INPUT=STANDARD.
TABLES y PEARSON generan matrices que son aptas para entrar a MDSCAL. La media y la desviacion
est andar no se usan, pero se deben suministrar registros cticios apropiados. MDSCAL acepta matrices
en otros formatos adicionalmente al triangulo superior derecho sin diagonal. Sin embargo, tales matrices
deben tener la porcion del diccionario de una matriz cuadrada IDAMS y deben tener registros al nal, que
contengan la pseudo-media y la pseudo-desviacion est andar.
Los siguientes par ametros de entrada, indican el formato exacto de la matriz de entrada:
STAN triangulo superior derecho, sin diagonal
STAN, DIAG triangulo superior derecho, con diagonal
LOWER, DIAG triangulo inferior izquierdo, con diagonal
LOWER triangulo inferior izquierdo, sin diagonal
SQUARE toda la matriz cuadrada con diagonal.
Las medidas contenidas en la matriz de datos pueden ser de similitud (tales como correlaciones) o de dis-
imilitud. Aunque la entrada a MDSCAL, es normalmente, una matriz de coecientes de correlaci on (por ej.
una matriz de gamas o una matriz de r de Pearson), la matriz de entrada puede contener cualquier medida
que tenga sentido como medida de proximidad. Como el escalamiento no metrico hace uso solamente de la
ordinalidad de los datos, no se requiere suponer nada acerca de las propiedades cuantitativas o numericas
de los mismos. Al nal debe haber el doble de variables que dimensiones.
28.6. Matriz de ponderaciones de entrada
Si se suministra una matriz de ponderaciones, debe tener exactamente el mismo formato de la matriz de datos.
El par ametro INPUT=(STAN/LOWE/SQUA,DIAG) se aplica a la matriz de ponderaciones, tanto como a
la matriz de datos. El diccionario para la matriz de ponderaciones debe ser el mismo de la matriz de datos.
No se utilizan medias ni desviaciones est andar, pero se deben suministrar las lneas cticias correspondientes.
Esta matriz contiene valores en correspondencia uno a uno con la matriz de datos, los cuales se usaran como
ponderaciones para los datos. Estos valores se usan conjuntamente con el valor del par ametro CUTOFF al
aplicarlos a los datos. Si un dato es mayor que el valor correspondiente del par ametro CUTOFF, pero su
ponderaci on correspondiente es menor o igual a cero, entonces se se nala una condicion de error. Similarmente,
si el dato es menor o igual al valor del par ametro CUTOFF y su ponderaci on correspondiente es mayor de
cero, se genera una condicion de error. Si se presenta una de estas inconsistencias, la ejecuci on termina.
La conguracion de entrada debe estar en el formato de una matriz rectangular de IDAMS. Ver el captulo
Los datos en IDAMS.
Suministra una conguracion inicial, a partir de la cual se llevan a cabo los c alculos. Las las deben repre-
sentar las variables y las columnas las dimensiones. Usualmente es producida por una ejecuci on previa de
MDSCAL y se pueda continuar una ejecuci on anterior, en el punto en el cual esta quedo.
La matriz debe tener tantas dimensiones como hayan sido dadas para el par ametro DMAX.
Nota: si se especica una lista de variables (VARS), MDSCAL usa las primeras n las de la conguracion
de entrada, donde n es el n umero de variables del subconjunto, sin vericar los numeros de variable.
$RUN MDSCAL
$FILES
$SETUP
1. Ttulo
2. Par ametros
Matriz de datos
Matriz de ponderaciones
Matriz de configuracion inicial
(Nota: no es necesario incluir todas las matrices aqu ; sin embargo, si
se incluyen mas matrices, estas deben estar en el orden arriba indicado).
Archivos:
FT02 matriz de configuracion de salida
FT03 matriz de ponderaciones de entrada, si se ha especificado INPUT=WEIGHTS
(omitir si se usa $MATRIX)
FT05 configuracion inicial de entrada, si se ha especificado INPUT=CONFIG
(omitir se usa $MATRIX)
FT08 matriz de datos de entrada (omitir si se usa $MATRIX)
Ejemplo: CORRIDA DE MDSCAL CON EL ARCHIVO X4952
Ejemplo: DMAX=5 ITER=75 WRITE=CONFIG
INPUT=(STANDARD/LOWER/SQUARE, DIAGONAL, WEIGHTS, CONFIG)
STAN La entrada es una matriz cuadrada IDAMS, sin diagonal, mitad superior derecha.
LOWE La matriz de entrada es la mitad inferior izquierda de la matriz.
SQUA La matriz de entrada es una matriz cuadrada completa.
DIAG La matriz de entrada tiene los elementos de la diagonal.
WEIG Se suministra una matriz de ponderaciones.
CONF Se suministra la matriz de conguracion inicial.
Lista de variables de la matriz sobrer la cual se va a hacer el analisis.
Por defecto: se usa toda la matriz de entrada.
FILE=(DATA, WEIGHTS, CONFIG)
DATA La matriz de datos de entrada est a en un archivo.
WEIG La matriz de ponderaciones est a en un archivo.
CONF La matriz de conguracion de entrada est a en un archivo.
Por defecto: se supone que todas las matrices se encuentran despues de un comando $MATRIX
en el orden: datos, ponderaciones, conguracion.
COEFF=SIMILARITIES/DISSIMILARITIES
SIMI Coecientes grandes en la matriz de datos indican que los puntos son similares o est an
cerca unos de otros.
DISS Coecientes grandes indican que los puntos no son similares o est an lejos unos de otros.
DMAX=2/n
El maximo de la dimensi on: el escalamiento comienza con el espacio de maxima dimensi on.
DMIN=2/n
El mnimo de la dimensi on: el escalamiento contin ua hasta que alcance o pase de la dimensi on
mnima.
DDIF=1/n
Diferencia de dimensi on: el escalamiento se lleva a cabo desde la dimensi on maxima hasta la
mnima, con pasos del tama no de la diferencia de dimensi on.
R=2.0/n
Indica cual es la metrica r de Minkowski a usar. Se puede utilizar cualquier valor >= 1.0.
R=1.0 Metrica de cuadra urbana (city block).
R=2.0 Distancia euclideana ordinaria.
CUTOFF=0.0/n
Se descartan los valores de datos iguales o menores a n. Si los valores legtimos de los coecientes
de entrada se encuentran en el rango -1.0 a 1.0, se debe usar CUTOFF=-1.01.
TIES=DIFFER/EQUAL
DIFF Las distancias desiguales que correspondan a valores iguales en los datos, no con-
tribuyen al coeciente de esfuerzo y no se intenta igualarlas.
EQUA Las distancias desiguales que correspondan a valores iguales en los datos, s contribuyen
al coeciente de esfuerzo y s se hace el intento de igualarlas.
ITERATIONS=50/n
N umero maximo de iteraciones a hacer para un n umero dado de dimensiones. Este maximo es
una precauci on de seguridad para controlar el tiempo de ejecuci on.
STRMIN=.01/n
Esfuerzo mnimo. El escalamiento se detiene cuando se alcanza el valor de esfuerzo mnimo.
SFGRMN=0.0/n
El valor mnimo de factor de escala de gradiente. El proceso de escalamiento se detiene cuando se
alcanza el valor mnimo de la magnitud del gradiente.
SRATIO=.999/n
El cociente de esfuerzo. El proceso de escalamiento se detiene si el cociente de esfuerzo entre dos
pasos consecutivos alcanza n.
ACSAVW=.66/n
El factor de ponderaci on para el promedio del valor absoluto del coseno del angulo entre dos
gradientes sucesivos.
COSAVW=.66/n
El factor de ponderaci on del promedio del coseno del angulo entre dos gradientes sucesivos.
STRESS=SQDIST/SQDEV
SQDI Calcular el esfuerzo utilizando la estandarizacion por la suma de las distancias cuadradas.
SQDE Calcular el esfuerzo utilizando la estandarizacion por la suma de las desviaciones
cuadradas desde la media.
WRITE=CONFIG
Guardar en un archivo la conguracion nal de cada solucion.
PRINT=(MATRIX, SORTCONF, LONG/SHORT)
MATR Imprimir la matriz de entrada y la matriz de ponderaciones, si la hay.
SORT Clasicar cada dimensi on de la conguracion nal e imprimirla.
LONG Imprimir las matrices en lneas largas.
SHOR Imprimir las matrices en lneas cortas.
1. La capacidad del programa es de 1800 puntos (por ej. 1800 elementos de la matriz de similitud o
disimilitud). Esto es equivalente a una matriz triangular de 60x60 o a una matriz cuadrada de 42x42.
2. Las variables se pueden escalar hasta 10 dimensiones.
3. La matriz de conguracion inicial puede tener un maximo de 60 las y 10 columnas.
28.11. Ejemplo
Generacion de una matriz de conguracion de salida; la matriz de entrada de datos es una matriz est andar
de IDAMS en un archivo; no hay matriz de entrada de ponderaciones ni matriz de conguracion de entrada;
se solicitan 20 iteraciones; se hace el analisis sobre un subconjunto de variables.
$RUN MDSCAL
$FILES
FT02 = MDS.MAT archivo Matriz de configuracion de salida
FT08 = ABC.COR archivo Matriz de datos de entrada
$SETUP
ESCALAMIENTO MULTIDIMENSIONAL
ITER=20 WRITE=CONFIG FILE=DATA VARS=(V18-V36)
Captulo 29
Analisis de clasicacion m ultiple
(MCA)
MCA examina las relaciones entre varias variables de predicci on y una sola variable dependiente y determina
los efectos de cada predictor antes y despues de los ajustes para sus intercorrelaciones con otros predictores
dentro del analisis. Tambien produce informacion acerca de las relaciones bivariadas y multivariadas entre
los predictores y la variable dependiente. La tecnica MCA se puede considerar equivalente a un analisis de
regresion m ultiple con variables cticias. Sin embargo, a menudo MCA resulta mas conveniente para usar e
interpretar. MCA tiene tambien la posibilidad de hacer an alisis de variancia de una entrada.
MCA asume que los efectos de los predictores son aditivos, es decir que no hay interacciones entre los
predictores. Est a dise nado para usar con variables predictoras las cuales se miden en escalas nominales,
ordinales y de intervalos. Acepta un n umero desigual de casos en las celdas construidas por clasicacion
cruzada de los predictores.
Como alternativa al uso de MCA, se tiene REGRESSN y ONEWAY. REGRESSN suministra una capacidad
de tipo general de regresion m ultiple. ONEWAY hace un analisis de variancia de una entrada. La ventaja
de MCA sobre REGRESSN consiste en aceptar variables predictoras en una forma tan debil como escalas
nominales y no supone una relacion lineal en la regresion. Las ventajas sobre ONEWAY son que en MCA
el c odigo maximo para una variable de control en un analisis de una entrada es 2999 (en lugar de 99 en
ONEWAY).
Generacion de un dataset de residuos. Se pueden calcular residuos y llevarlos como un archivo de
datos de salida descrito por un diccionario IDAMS. Ver la secci on Dataset(s) de residuos de salida para
detalles del contenido. Esta opcion no se puede usar cuando se tiene solo un predictor.
Procedimientos iterativos. MCA utiliza un algoritmo de iteraci on para aproximar los coecientes que
constituyen las soluciones del conjunto de ecuaciones normales. El algoritmo de iteraci on se detiene cuando
los coecientes generados tienen la exactitud suciente. Esto involucra la denicion de una tolerancia y la
especicaci on de una prueba para determinar cuando se ha satisfecho esta tolerancia (ver par ametros de
analisis CRITERION y TEST). Hay cuatro pruebas de convergencia. Si los coecientes no convergen dentro
de los lmites impuestos por el usuario, el programa imprime los resultados de la ultima iteraci on. El n umero
de iteraciones utiles depende, en alguna forma, del n umero de predictores usados en el analisis y de la fracci on
especicada de tolerancia. Cuando hay menos de 10 predictores, se ha encontrado que resulta conveniente
especicar 10 como el n umero de maximo de iteraciones.
Deteccion y tratamiento de interacciones. El programa asume que el fenomeno que se va estudiar se
puede entender en terminos de un modelo aditivo.
Si sobre bases a priori, se sospecha que algunas variables en particular presentan interacciones entre ellas,
MCA se puede usar para determinar la extensi on de estas interacciones as. Si se especica un predictor, MCA
hace analisis de variancia de una entrada. Este analisis puede ayudar a determinar y eliminar interacciones
entre predictores. El procedimiento completo es el siguiente (ver tambien Ejemplo 3):
222 Analisis de clasicacion m ultiple (MCA)
1. Determinar un conjunto de predictores de los cuales se sospecha que tendran interacciones.
2. Formar una sola variable de combinaci on con estos predictores y la proposicion COMBINE de
Recode.
3. Ejecutar un analisis de MCA con los predictores sospechosos para obtener una R cuadrada ajustada.
4. Ejecutar un analisis de MCA con la variable de combinaci on como control en un analisis de variancia
de una entrada para obtener eta cuadrada ajustada, la cual sera mayor o igual a la R cuadrada ajustada.
5. Use la diferencia, eta cuadrada ajustada menos R cuadrada ajustada (la fracci on de la variancia expli-
cada que se pierde debido a la suposicion de aditividad), como gua para determinar si se justica el
uso de una variable de combinaci on a cambio de los predictores originales.
La prueba para interacci on debe basarse en la misma muestra de la ejecuci on normal de MCA. Si se detectan
interacciones, entonces debe usarse la variable de combinaci on como variable de predicci on en lugar de las
variables individuales que interact uan.
Seleccion de casos y variables. Los casos se pueden excluir del analisis en la ejecuci on de MCA con una
proposicion de ltro est andar. En el analisis de clasicacion m ultiple, se excluyen casos por haber excedido el
c odigo maximo de predictor. (Nota: si en una ejecuci on, una variable de predicci on tiene un c odigo fuera del
rango 0-31, el caso con este valor se elimina de todos los analisis). Para un analisis en particular, se pueden
excluir casos adicionales, debido a las condiciones siguientes:
Un caso (referido como excentrico) tiene un valor de la variable dependiente que es mayor que un
n umero especicado de desviaciones est andar de la media de la variable dependiente. Ver los par ametros
de analisis OUTDISTANCE y OUTLIERS.
Un caso tiene una variable dependiente que es mayor que un valor maximo especicado. Ver par ametro
de analisis DEPVAR.
Un caso tiene datos faltantes para la variable dependiente o la variable de ponderaci on. Ver Tratamien-
to de datos faltantes y Ponderaci on de datos mas adelante.
ponderaci on puede tener cifras enteras o decimales. Cuando el valor de la variable de ponderaci on para
un caso es cero, negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el
n umero de casos as tratados. Cuando se usan datos ponderados, las pruebas de signicaci on estadstica
deben interpretarse con precauci on.
de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Los casos con datos faltantes en
la variable dependiente siempre se excluyen. Los casos con datos faltantes en las variables de predicci on se
pueden excluir de todos los analisis con un ltro. (El uso de ltro para excluir casos con datos faltantes de
las variables predictoras en la clasicacion m ultiple, solamente se necesita si los c odigos de datos faltantes
se encuentran dentro del rango 0-31; si el valor de alg un predictor est a por fuera de este rango, un caso se
excluye autom aticamente de todos los analisis en la ejecuci on).
29.3. Resultados
Tabla de frecuencias ponderadas. (Opcional: ver el par ametro PRINT). Se imprime una matriz N x M
para cada par de predictores donde N=codigo maximo de predictor de la y N=codigo maximo de predictor
de columna. El n umero total de tablas es P(P-1)/2 donde P es el n umero de predictores.
29.3 Resultados 223
Coecientes para cada iteraci on. (Opcional: ver el par ametro de analisis PRINT). Coecientes para
cada clase para cada predictor.
Estadsticas de la variable dependiente. Para la variable dependiente (Y):
gran media, desviacion est andar y coeciente de variaci on,
suma de Y y suma de Y cuadrada,
sumas de cuadrados total, explicada y residual,
n umero de casos usados en el analisis y suma de ponderaciones.
Estadsticas de predictores para analisis de clasicacion m ultiple.
Para cada categora de cada predictor:
c odigo de categora (clase) y nombre, si existe en el diccionario,
n umero de casos con datos validos (en forma primaria, ponderada y porcentaje),
media (no ajustada y ajustada), desviacion est andar y coeciente de variacion de la variable dependi-
ente,
desviacion no ajustada de la media de la categora a partir de la gran media y coeciente de ajuste.
Para cada variable predictora:
eta y eta cuadrada (no ajustada y ajustada),
beta y beta cuadrada,
sumas de cuadrados no ajustadas y ajustadas.
Estadsticas de analisis para analisis de clasicacion m ultiple. Para todos los predictores combinados:
R cuadrada m ultiple (no ajustada y ajustada),
coeciente de ajuste para grados de libertad,
R m ultiple (ajustada),
lista de betas en orden descendente de sus valores.
Estadsticas de analisis de variancia de una entrada.
Para cada categora del predictor:
c odigo de categora (clase) y nombre, si existe en el diccionario,
n umero de casos con datos validos (en forma primaria, ponderada y porcentaje),
media, desviacion est andar y coeciente de variacion de la variable dependiente,
suma y porcentaje de valores de la variable dependiente,
suma de valores cuadrados de la variable dependiente.
Para la variable predictora:
coeciente de ajuste para grados de libertad,
sumas de cuadrados total, entre medias y dentro de grupos,
valor F (se imprimen grados de libertad).
Residuos. (Opcional: ver el par ametro PRINT). Se imprimen para cada caso, en el orden del archivo
de entrada: la variable de identicacion, el valor observado, el valor predicho, el residuo y la variable de
ponderaci on si se ha usado.
Estadsticas de resumen para los residuos. Si se solicitan residuos, el programa imprime el n umero de
casos, la suma de ponderaciones, media, variancia, asimetra y kurtosis de la variable de residuo.
29.4. Dataset(s) de residuos de salida
Para cada analisis se puede, opcionalmente, llevar los residuos a un archivo de salida, descrito por un
diccionario IDAMS. (Ver el par ametro de analisis WRITE=RESIDUALS). Se graba un registro por cada caso
que haya pasado por el ltro contenido una variable de identicacion, un valor observado, un valor calculado,
un residuo para la variable dependiente y la variable de ponderaci on si se ha usado. Las caractersticas del
dataset son las siguientes:
N umero de Ancho de N umero de Codigos
variable Nombre campo decimales MD
(variable dependiente) 2 igual a entrada * ** igual a entrada
(variable predicha) 3 Predicted value 7 *** 9999999
(residuo) 4 Residual 7 *** 9999999
(ponderaci on - si hay) 5 igual a entrada * ** igual a entrada
Si faltan el valor observado o el valor de la variable de ponderaci on, o si el caso se excluy o por la vericacion
de c odigo maximo o por criterio de dato excentico, se graba un registro residual de todas las variables con
c odigo MD1 (con excepcion de la variable de identicacion).
deben ser numericas; pueden tener valores enteros o decimales, excepto los predictores que deben tener valor
entero, entre 0 y 31 para clasicacion m ultiple y hasta 2999 para el analisis de variancia de una entrada. La
variable identicadora de caso puede ser alfabetica.
Para un analisis con MCA se requiere un gran n umero de casos; una regla practica es que el n umero total de
categoras (es decir la suma de categoras sobre todos los predictores) no debe exceder el 10 % del tama no
de la muestra).
La variable dependiente debe medirse en una escala de intervalo o ser una dicotoma, y no debe presentar
mala asimetra. Las variables predictoras en MCA deben estar categorizadas, preferiblemente no mas de
6 categoras. Aunque MCA est a dise nado para manejar predictores correlacionados, no debe haber dos
predictores tan fuertemente correlacionados que presenten una superposicion perfecta entre cualesquiera
de sus categoras. (Si hay una superposicion perfecta, se hace necesaria una recodicacion para combinar
categoras o un ltrado para retirar casos viciados).
$RUN MCA
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTyyyy diccionario de residuos de salida ) un conjunto por cada
DATAyyyy datos de residuos de salida ) archivo de residuos requerido
Ejemplo: EJECUCION DE PRUEBA PARA MCA
Ejemplo: *
INFILE=IN/xxxx
MAXCASES=n
PRINT=CDICT/DICT
hay.
4. Especicaciones de analisis. Las reglas de codicacion son las mismas que las de los par ametros.
Cada especicaci on de analisis debe comenzar en una lnea nueva.
Ejemplo: PRINT=TABLES, DEPVAR=(V35,98), ITER=100, CONV=(V4-V8)
DEPVAR=(n umero de variable, codmax)
N umero de variable y c odigo maximo para la variable dependiente.
Sin valor por defecto; siempre se debe especicar el n umero de variable.
El valor por defecto para el maximo c odigo es 9999999.
CONVARS=(lista de variables)
Variables que se van a usar como predictores. Si solo se especica una variable, entonces se ejecuta
un analisis de variancia de una entrada.
Cuales valores de datos faltantes de la variable dependiente se van a vericar. Ver el captulo El
archivo Setup de IDAMS.
Nota: nunca se verican datos faltantes para las variables de predicci on.
ITERATIONS=25/n
N umero maximo de iteraciones. Rango 1-99999.
TEST=PCTMEAN/CUTOFF/PCTRATIO/NONE
Prueba de convergencia deseada.
PCTM Prueba si el cambio en los coecientes de una iteraci on a otra, se encuentra por debajo
de la fracci on especicada de la gran media.
CUTO Prueba si el cambio en los coecientes de una iteraci on a otra, es menor que un valor
especicado.
PCTR Prueba si el cambio en los coecientes de una iteraci on a otra, es menor que una fracci on
especicada de la relacion de la desviacion est andar de la variable dependiente a su
media.
NONE El programa itera hasta exceder el maximo n umero de iteraciones especicado.
CRITERION=.005/n
Dar un valor numerico que es la tolerancia de la convergencia de la prueba escogida. Rango 0.0 a
1.0 (se debe dar el punto decimal).
OUTLIERS=INCLUDE/EXCLUDE
INCL Se incluyen en el analisis y se contar an, los casos con valores excentricos de la variable
dependiente.
EXCL Los casos con valores excentricos de la variable dependiente, se excluyen del analisis.
OUTDISTANCE=5/n
N umero de desviaciones est andar, tomadas desde la gran media, para denir cuando un valor de
la variable dependiente se considera excentrico.
WRITE=RESIDUALS
Escribir los residuos en un dataset IDAMS; aplicar el modelo MCA, solo al subconjunto de los
casos que pasan los criterios de datos faltantes, c odigo maximo y valores excentricos. Los casos a
los cuales el modelo MCA no se aplica, se incluyen en el dataset de residuos con todos sus valores
(excepto el valor de la variable de identicacion) marcados MD1.
No se pueden obtener residuos si solo se ha especicado una variable de predicci on.
OUTFILE=OUT/yyyy
Nota: si mas de un analisis solicita llevar residuos al archivo, los ddnames por defecto DICTOUT
y DATAOUT solo se pueden usar para uno.
N umero de una variable de identicacion para ser incluida en el dataset de residuos.
Por defecto: se crea una variable cuyos valores son n umeros que indican la posicion secuencial del
caso en el archivo de residuos.
PRINT=(TABLES, HISTORY, RESIDUALS)
TABL Imprimir la tabulaci on cruzada por pares de predictores.
HIST Imprimir los coecientes de todas las iteraciones. Si no se ha seleccionado la opcion
HIST y la iteraci on converge, solo se imprimen los coecientes nales; si la iteraci on
no converge, se imprimen los coecientes de las dos ultimas iteraciones.
RESI Imprimir los residuos en el mismo orden secuencial de los casos de entrada.
29.8. Restricciones
1. N umero maximo de variables de entrada, incluidas las variables de proposiciones Recode es 200.
2. El n umero maximo de variables predictoras (de control) por analisis es 50.
3. No es posible usar el n umero maximo de predictores, cada uno de ellos con el n umero maximo de
categoras en un analisis. Si un problema excede la capacidad de memoria, se imprime un mensaje de
error y el programa pasa al siguiente analisis.
4. M aximo n umero de analisis por ejecuci on es 50.
5. Las variables predictoras para el analisis de clasicacion m ultiple deben estar categorizadas, preferi-
blemente con 6 o menos categoras. Las categoras deben tener c odigos enteros en el rango 0-31. Los
casos con cualquier otro valor seran excluidos del analisis.
6. La variable predictora en el analisis de variancia de una entrada debe estar codicada dentro del rango
0-2999. Los casos con otros valores, se excluyen del analisis.
7. Si una variable predictora tiene cifras decimales, solo se usa la parte entera.
29.9. Ejemplos
Ejemplo 1. Analisis de clasicacion m ultiple con cuatro variables de control (predictores): V7, V9, V12,
V13 y la variable dependiente V100; se har an analisis separados en todo el dataset y en dos subconjuntos de
casos.
$RUN MCA
$FILES
PRINT = MCA1.LST
$SETUP
TODOS LOS ENCUESTADOS JUNTOS
DEPV=V100 CONV=(V7,V9,V12-V13)
$RUN MCA
$SETUP
INCLUDE V4=21,31-39
SOLO CIENTIFICOS
$RUN MCA
$SETUP
INCLUDE V4=41-49
SOLO TECNICOS
Ejemplo 2. Analisis de clasicacion m ultiple con la variable dependiente V201 y tres variables de predicci on
V101, V102, V107; los datos se van a ponderar con la variable V6; se producira un dataset de residuos en el
cual los casos se identicaran con la variable V2; se excluiran los casos con valores extremos de la variable
dependiente (casos excentricos que esten a mas de cuatro desviaciones est andar desde la gran media). Los
residuos para los primeros 20 casos se imprimiran con el programa LIST.
$RUN MCA
$FILES
PRINT = MCA2.LST
DICTIN = LAB.DIC archivo Diccionario de entrada
DATAIN = LAB.DAT archivo Datos de entrada
DICTOUT = LABRES.DIC archivo Diccionario de residuos
DATAOUT = LABRES.DAT archivo Datos de residuos
$SETUP
ANALISIS DE CLASIFICACION MULTIPLE - RESIDUOS VAN A UN ARCHIVO DE SALIDA
DEPV=V201 OUTL=EXCL OUTD=4 IDVA=V2 WRITE=RESI -
CONV=(V101,V102,V107) WEIGHT=V6
$RUN LIST
$SETUP
LISTADO DEL PRINCIPIO DEL ARCHIVO DE RESIDUOS
MAXCASES=20 INFILE=OUT
Ejemplo 3. Para una variable dependiente V52, se van a vericar las interacciones entre tres variables (V7,
V9, V12). V7 se codica 1,2,9, V9 se codica 1,3,5,9 y V12 se codica 0,1,9 donde los dgitos 9 signican
valores de datos faltantes. Se construye, con Recode, una sola variable de combinaci on. Esto implica la
recodicacion de cada variable a un conjunto de c odigos contiguos que comienza desde cero y luego se usa
la funci on COMBINE para producir un c odigo unico para cada combinaci on posible de c odigos de las tres
variables separadas. Se ejecuta MCA con las tres variables separadas como predictores y se lleva a cabo un
analisis de variancia de una entrada, con la variable de combinaci on como variable de control. Se excluyen
los casos con datos faltantes en los predictores. Los casos con valores mayores de 90000 en la variable
dependiente, tambien se excluyen.
29.9 Ejemplos 229
$RUN MCA
$FILES
DICTIN = CON.DIC archivo Diccionario de entrada
DATAIN = CON.DAT archivo Datos de entrada
$SETUP
EXCLUDE V7=9 OR V9=9 OR V12=9
VERIFICACION DE INTERACCIONES
BADD=SKIP
DEPV=(V52,90000) CONVARS=(V7,V9,V12)
DEPV=(V52,90000) CONVARS=R1
$RECODE
R7=V7-1
R9=BRAC(V9,1=0,3=1,5=2)
R1=COMBINE R7(2),R9(3),V12(2)
Captulo 30
Analisis multivariado de variancia
(MANOVA)
MANOVA hace analisis de variancia y covariancia univariado y multivariado, usando un modelo lineal
general. Se pueden usar hasta ocho factores (variables independientes). Si se especica mas de una variable
dependiente, se hacen analisis univariados y multivariados. El programa acepta n umeros iguales y desiguales
de casos en las celdas.
MANOVA es el unico programa de IDAMS para analisis multivariado de variancia. Se recomienda ONEWAY
para el analisis univariado de variancia. MCA maneja problemas univariados de m ultiples factores. No tiene
limitaciones con relacion a celdas vacas, acepta mas de ocho predictores y permite mas de 80 celdas. Sin
embargo, el modelo b asico de analisis de MCA es diferente del de MANOVA. Una diferencia importante es
que MCA no es sensible a los efectos de interacci on.
Modelo jerarquico de regresion. MANOVA usa aproximacion de la regresion al analisis de variancia.
De manera mas particular, el programa emplea un modelo jer arquico. Hay una consecuencia importante
para el usuario: si una ejecuci on de MANOVA involucra mas de una variable de factor y hay un n umero
desproporcionado de casos en las celdas construidas por la clasicacion cruzada de los factores, entonces
se debe considerar el orden en el cual est an especicadas las variables de factores. La desproporcion de los
n umeros de casos en las subclases confunde los efectos principales y el investigador debe escoger el orden en
el cual se deben eliminar los efectos de confusi on. Al usar MANOVA, esto se logra con el orden en el que se
especican las variables de factor: cuando se usa orden est andar, las primeras variables especicadas tienen
los efectos de las variables retiradas mas tarde, es decir, el primer efecto listado se probar a con todos los
otros efectos principales eliminados. La regla general es que cada prueba elimina los efectos listados antes
en las especicaciones de nombre de prueba e ignora los efectos listados despues. Para un analisis est andar
de dos entradas, el termino de interacci on no se afecta con el orden de las variables de factor; de forma
general, para un analisis est andar de n entradas, el termino de la n-esima interacci on y solo ese termino, no
es afectado. El problema existe para ambos analisis, unvariado y multivariado.
Opcion de contraste. Hay dos opciones disponibles para denir los contrastes (ver el par ametro de factor
CONTRAST). Los contrastes nominales se generan por defecto; son las desviaciones acostumbradas de las
medias de la y columna de la gran media y la generalizaci on de las mismas para los contrastes de interacci on.
El programa tambien puede generar contrastes de Helmert.
Aumento de la suma de cuadrados dentro de las celdas. Es posible aumentar la suma de cuadrados
dentro de las celdas (termino de error) usando los estimativos ortogonales (ver el par ametro AUGMENT).
Esto permite usar el programa para cuadrados Latinos y para reunir los terminos de interacci on con errores.
Reordenamiento y/o reuni on de estimativos ortogonales. El programa tiene un ordenamiento con-
vencional de estimativos de efectos ortogonales para uso est andar (media, C, B, A, BxC, AxC, AxB, AxBxC
en dise no con tres factores). Sin embargo los estimativos ortogonales se pueden disponer en otro orden (ver
el par ametro REORDER). M as a un, es posible reunir varios estimativos ortogonales tales como terminos de
interacci on para pruebas simult aneas o fragmentar el c umulo de estimativos ortogonales para un efecto dado
232 Analisis multivariado de variancia (MANOVA)
en varios c umulos mas peque nos para hacer pruebas por separado (ver el par ametro de nombre de prueba
DEGFR).
Seleccion de casos y variables. El ltro est andar est a disponible para escoger casos para ejecuci on. Las
variables dependientes se escogen con el par ametro DEPVARS y las covariadas con el par ametro COVARS.
Las variables de factor se especican con proposiciones especiales de factor.
Transformaci on de datos. Se pueden usar las proposiciones de Recode. N otese que solamente se aceptan
valores enteros (positivos y negativos) para las variables usadas como factor.
de datos faltantes, si los hay, se usaran para vericar datos faltantes. Se excluyen los casos con c odigos de
datos faltantes en cualquiera de las variables de entrada (dependientes, covariadas, o de factor). Esto puede
resultar en muchos casos excluidos y constituye un problema potencial que debe considerarse cuando se
planee el analisis.
30.3. Resultados
istros C, si los hay, solamente para variables usadas en la ejecuci on.
Medias de celda y enes (N). Para cada celda, se imprime N y la media para cada variable dependiente y
cada variable covariada. Las medias no se ajustan para ninguna variable covariada. Las celdas se etiquetan
consecutivamente comenzando con 1 1 (para un dise no con 2 factores) sin importar los c odigos actuales
de las variables de factor. Al indexar las celdas, los ndices del ultimo factor son los menores (de mas rapido
movimiento).
Basa de dise no. Es la matriz de dise no generada por el programa. Las ecuaciones de efectos est an en
las columnas comenzando con el efecto de la media en la columna 1. Si se ha especicado REORDER, se
imprime la matriz despues del reordenamiento.
Intercorrelaciones entre los coecientes de las ecuaciones normales.
Matriz de correlacion de errores. En un analisis multivariado de variancia, el termino de error es una
matriz variancia-covariancia. Este es el termino de error reducido a una matriz de correlaci on (antes de
ajustar para las variables covariadas, si las hay).
Componentes principales de la matriz de correlacion de errores. Las componentes est an en las
columnas. Son las componentes del termino de error del analisis (antes de ajustar para las variables covari-
adas, si las hay).
Matriz de dispersion de errores y errores estandar de estimaci on. Es el termino de error del analisis,
una matriz de variancia-covariancia. La matriz se ajusta para variables covariadas, si las hay. Cada elemento
de la diagonal de la matriz es exactamente el que aparecera en una tabla de analisis convencional de variancia
como el error interno cuadratico medio de la variable. Los grados de libertad se ajustan para aumento si
se solicita. Los errores est andar de estimaci on corresponden a las races cuadradas de los elementos de la
diagonal de la matriz.
Para an alisis con variables covariadas
Matriz de dispersion de errores ajustada a las correlaciones. Es el termino del error, una matriz de
variancia-covariancia reducida a una matriz de correlaci on, despues de ajustarla para variables covariadas.
Resumen del analisis de regresion.
Componentes principales de la matriz de correlacion de errores despues de ajustes de covari-
adas. Las componentes est an en las columnas. Son las componentes del termino de error del analisis despues
del ajuste para las variables covariadas.
Para an alisis univariado
Una tabla anova. Grados de libertad, suma de cuadrados, medias cuadraticas y cocientes F.
Para an alisis multivariado
Se imprimen los siguientes items para cada efecto. Se hacen ajustes para las variables covariadas, si las hay.
El orden de los efectos es exactamente opuesto al orden de las especicaciones de nombre de prueba.
Cociente F para el criterio de raz on de semejanza. Se usa aproximacion de Rao. Es una prueba
multivariada del signicado del efecto global para todas las variables dependientes simult aneamente.
Variancias can onicas de las componentes principales de la hipotesis. Son las races o valores propios
de la matriz de hipotesis.
Coecientes de las componentes principales de la hipotesis. Son las correlaciones entre las variables
y las componentes de la matriz de hipotesis. El n umero de componentes diferentes de cero para cualquier
efecto sera el mnimo de los grados de libertad y del n umero de variables dependientes.
Puntajes de contraste de componentes para efectos estimados. Son los puntajes de la hipotesis de
contrastes usados en el dise no. Son analogos a las medias de columna en un analisis univariado de variancia
y se pueden usar de la misma manera para ubicar variables y contrastes que producen desviaciones inusuales
de la hipotesis nula.
Pruebas acumulativas de Bartlett sobre las races. Es una prueba aproximada para las races restantes
despues de eliminar la primera, la segunda, la tercera, etc.
Cocientes F para pruebas univariadas. Son exactamente los cocientes F que se obtendran en un analisis
convencional de variancia.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables deben ser numericas.
Las variables dependientes y covariadas deben medirse en escala de intervalo o deben ser una dicotoma. Las
variables de factor pueden ser nominales, ordinales o intervalos pero deben tener valores enteros; se usan
para designar la celda apropiada del caso.
$RUN MANOVA
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de factores
(tantas como sean necesarias; al menos se debe suministrar un factor)
5. Especificaciones de nombre de prueba
(tantas como sean necesarias;
al menos se debe suministrar un nombre de prueba)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: INCLUDE V2=1-4 AND V15=2
Ejemplo: ANALISIS DE EDAD Y SALARIO CON SEXO Y PROFESION COMO FACTORES
Ejemplo: DEPVARS=(V5,V8) COVA=(V101,V102)
INFILE=IN/xxxx
MAXCASES=n
DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
COVARS=(lista de variables)
Una lista de variables para usar como covariadas.
AUGMENT=(m,n)
Para construir el termino de error, la suma interna de cuadrados se aumentar a por las columnas
m, m+1, m+2,...,n de la matriz ortogonal de estimativos.
Por defecto: la suma interna de cuadrados se usara como termino de error.
REORDER=(lista de valores)
Reordena los estimativos ortogonales de acuerdo con la lista (ver par agrafo Reordenamiento
y/o reunion de estimativos ortogonales atr as). N otese que si se solicita el reordenamiento de
estimativos, el orden de las especicaciones de nombre de prueba debe corresponder al nuevo
orden.
Ejemplo: el orden convencional de un dise no de tres factores se puede cambiar por el orden: media,
A, B, C, AxB, AxC, BxC, AxBxC usando REORDER=(1,4,3,2,7,6,5,8).
PRINT=CDICT/DICT
hay.
4. Especicaciones de factores (al menos se debe suministrar un factor). Se pueden especicar hasta
8 factores. Las reglas de codicacion son las mismas de los par ametros. Cada especicaci on de factor
debe comenzar en una nueva lnea.
Ejemplo: FACTOR=(V3,1,2)
FACTOR=(n umero de variable, lista de valores de c odigo)
Variable a usar como factor, seguida por los valores de c odigo que se deben usar para designar la
celda apropiada para el caso.
CONTRAST=NOMINAL/HELMERT
Especica el tipo de contraste a usar en los c alculos.
NOMI Contrastes nominales. Medias de efectos desviadas de la gran media, i.e. M(1)-GM,
M(2)-GM, etc.
HELM Contrastes de Helmer. Media de efecto desviada de la suma de medias desde 1 hasta
r, donde est an involucrados r niveles.
5. Especicaciones de nombre de prueba (al menos se debe suministrar un nombre de prueba).
Estas especicaciones identican las pruebas que se deben realizar. Deben estar en el orden correcto.
Ordinariamente, habr a una especicaci on para la gran media seguida de una especicaci on de nombre
para cada efecto principal y una especicaci on de nombre para cada interacci on posible. Si se reordenan
los par ametros de dise no o se reagrupan los grados de libertad (ver los par ametros REORDER y
DEGFR), las proposiciones de nombre de prueba deben hacerse de acuerdo con las modicaciones. Las
reglas de codicacion son las mismas de los par ametros. Cada especicaci on de nombre de prueba debe
comenzar en una nueva lnea.
Ejemplo: TESTNAME=gran media
TESTNAME=nombre de la prueba
Un nombre que tenga hasta 12 caracteres para la prueba que se va a realizar. Las comillas son
mandatorias si el nombre tiene caracteres no alfanumericos.
DEGFR=n
La agrupaci on natural de grados de libertad (o de ecuaciones de par ametros de hipotesis) se
presenta cuando se usa el orden convencional de pruebas estadsticas. DEGFR se usa solamente
para cambiar la agrupaci on; por ejemplo, cuando se quieren reunir varios terminos de interacci on
y probarlos simult aneamente o para separar los grados de libertad de alg un efecto en dos a mas
partes. Cuando se usa el par ametro DEGFR, aseg urese de usarlo en todos las proposiciones de
nombre de prueba, incluido un grado de libertad para la gran media.
Por defecto: se usa el agrupamiento natural de grados de libertad.
30.7. Restricciones
1. El maximo n umero de variables dependientes es 19.
2. El maximo n umero de covariadas es 20.
3. El maximo n umero de especicaciones de factor es 8.
4. El maximo n umero de valores de c odigo en una especicaci on de factor es 10.
5. El maximo n umero de celdas es 80.
6. Celdas con cero frecuencias, o solamente con un caso o con m ultiples casos identicos a veces causan
problemas; la ejecuci on puede terminar prematuramente o puede llegar hasta el nal pero produce
cocientes F y otras estadsticas invalidas.
30.8. Ejemplos
Ejemplo 1. Analisis univariado de variancia (V10 es la variables dependiente) con dos factores representados
con A con c odigos 1,2,3 y B con c odigos 21 y 31; se usaran contrastes normales en los c alculos y se har an
pruebas en el orden convencional.
$RUN MANOVA
$FILES
PRINT = MANOVA1.LST
DICTIN = CM-NEW.DIC archivo Diccionario de entrada
DATAIN = CM-NEW.DAT archivo Datos de entrada
$SETUP
ANALISIS UNIVARIADO DE VARIANCIA
DEPVARS=v10
FACTOR=(V3,1,2,3)
FACTOR=(V8,21,31)
TESTNAME=gran media
TESTNAME=B
TESTNAME=A
TESTNAME=AB
Ejemplo 2. Analisis multivariado de variancia (V11-V14 son variables dependientes) con dos factores (sexo
codicado 1,2 y edad codicada 1,2,3); se usaran contrastes nominales en los c alculos y se har an pruebas
en un orden convencional.
30.8 Ejemplos 237
$RUN MANOVA
$FILES
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA
DEPVARS=(v11-v14)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
TESTNAME=gran media
TESTNAME=edad
TESTNAME=sexo
TESTNAME=sexo & edad
Ejemplo 3. Analisis multivariado de variancia (V11-V14 son variables dependientes) con tres factores (A
codicado 1,2, B codicado 1,2,3, C codicado 1,2,3,4); se usaran contrastes nominales en los c alculos y se
har an pruebas en orden modicado (media, A, B, AxB, C, AxC, BxC, AxBxC).
$RUN MANOVA
$FILES
$SETUP
ANALISIS MULTIVARIADO DE VARIANCIA - PRUEBAS EN ORDEN MODIFICADO
DEPVARS=(v11-v14) REORDER=(1,4,3,7,2,6,5,8)
FACTOR=(V2,1,2)
FACTOR=(V5,1,2,3)
FACTOR=(V8,1,2,3,4)
TESTNAME=media
TESTNAME=A
TESTNAME=B
TESTNAME=AxB
TESTNAME=C
TESTNAME=AxC
TESTNAME=BxC
TESTNAME=AxBxC
Captulo 31
Analisis de variancia de una entrada
(ONEWAY)
ONEWAY es un programa para hacer analisis de variancia de una entrada. Se puede producir en una sola
ejecuci on, un n umero ilimitado de tablas, con parejas de variables dependientes e independientes. Cada
analisis puede hacerse con todos los casos o con un subconjunto de los mismos, tomado del archivo Datos; la
selecci on de casos para un analisis, es independiente de la selecci on para otros analisis. El termino variable
de control usado en ONEWAY es equivalente al termino variable independiente, predictor, o en la
terminologa del analisis de variancia, variable de tratamiento.
Una alternativa del programa ONEWAYE es el programa MCA cuando se ha especicado solo un predictor.
Este programa permite un c odigo maximo de 2999 para la variable de control, mientras que ONEWAY
est a limitado a un maximo de 99.
Seleccion de casos y variables. Se puede utilizar el ltro est andar para escoger un subconjunto de casos
del archivo de entrada. Este ltro afecta todos los analisis de una ejecuci on. Adicionalmente, hay dos ltros
locales para una selecci on independiente de subconjuntos de casos de datos para cada analisis. Si se usan
dos ltros locales, un caso debe satisfacerlos a los dos para ser incluido en el analisis. Las variables para
cada analisis se seleccionan con los par ametros de tablas DEPVARS y CONVARS. Se produce una tabla
por separado para cada variable de la lista DEPVARS con cada variable de la lista CONVARS.
de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Los casos con datos faltantes en la
variable dependiente, siempre se excluyen del analisis. Los casos con datos faltantes en la variable de control,
se pueden excluir opcionalmente (ver el par ametro de tabla MDHANDLING).
31.3. Resultados
Especicaciones de tabla. Se imprime una lista de especicaciones de tabla con una tabla de contenido
de los resultados.
240 Analisis de variancia de una entrada (ONEWAY)
Estadsticas descriptivas dentro de las categoras de la variable de control. Se imprimen estadsticas
intermedias en forma de tabla para cada c odigo de la variable de control, con:
n umero de casos validos (N) y suma de ponderaciones (redondeadas al entero mas cercano),
suma de ponderaciones como porcentaje de la suma total,
media, desviacion est andar, coeciente de variacion, suma y suma de cuadrados de la variable depen-
diente,
suma de la variable dependiente como un porcentaje de la suma total.
Se imprime una la de totales para la tabla, con las sumas de todas las categoras de la variable de control
(excepto categoras con cero grados de libertad, las cuales se excluyen de los totales).
Estadsticas del analisis de variancia. Las categoras de la variable de control que tengan cero grados
de libertad, no se incluyen en el c alculo de estas estadsticas. Para cada tabla, se imprimen las siguientes
estadsticas:
suma total de cuadrados de la variable dependiente,
la suma de cuadrados entre grupos (suma de cuadrados entre medias) y la suma de cuadrados dentro
de grupos,
el cociente F (solo se imprime si los datos no son ponderados).
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables analizadas deben
ser numericas; pueden tener valores decimales o enteros.
Una variable dependiente debe medirse en una escala de intervalos o debe ser una dicotoma. Una variable de
control puede ser nominal, ordinal o de intervalo pero debe tener valores en el rango 0-99. Si, para cualquier
caso, la variable de control para un analisis, tiene un valor que excede este rango, el caso se elimina del
analisis; no se imprime ning un mensaje al respecto. Si el valor de la variable de control tiene decimales, solo
se usa la parte entera (por ej. 1.1 y 1.6 se colocan ambas en el grupo 1); no se imprime ning un mensaje al
respecto.
$RUN ONEWAY
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de tablas (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: EXCLUDE V3=9
Ejemplo: DATOS DE EFECTOS DE ENTRENAMIENTO SOBRE JUGADORES DE FUTBOL
Ejemplo: *
INFILE=IN/xxxx
MAXCASES=n
242 Analisis de variancia de una entrada (ONEWAY)
PRINT=CDICT/DICT
hay.
4. Especicaciones de tablas. Las reglas de codicacion son las mismas de los par ametros. Cada
especicaci on de tabla debe comenzar en una nueva lnea.
Ejemplos: CONV=V6 DEPV=V26 WEIG=V3 F1=(V14,2,7) F2=(V13,1,1)
CONV=V5 DEPV=(V27-V29,V80)
DEPVARS=(lista de variables)
Una lista de variables a usar como variables dependientes
CONVARS=(lista de variables)
Una lista de variables a usar como variables de control.
Cuales valores de datos faltantes se van a usar para las variables accedidas en este conjunto de
tablas. Ver el captulo El archivo Setup de IDAMS.
MDHANDLING=DELETE/KEEP
DELE Eliminar casos con datos faltantes en la variable de control.
KEEP Incluir casos con datos faltantes en la variable de control.
Nota: los casos con datos faltantes en la variable dependiente, siempre se excluyen.
F1=(n umero de variable, c odigo mnimo valido, c odigo maximo valido)
F1 se reere a la primera variable de ltro que se usa para crear un subconjunto de los datos. El
n umero de variable debe ser el n umero de la variable de ltro; los casos para los cuales, el valor
de esta variable se encuentre en el rango mnimo-maximo, entran en la tabla. El valor mnimo
puede ser un entero negativo. El maximo debe ser menor que 99,999. Las cifras decimales deben
entrar en donde sea necesario.
F2=(n umero de variable, c odigo mnimo valido, c odigo maximo valido)
F2 se reere a la segunda variable de ltro. Si se especica un segundo ltro, un caso debe satisfacer
los requisitos de ambos ltros para entrar en la tabla.
31.7. Restricciones
1. El n umero maximo de variables de control es 99. El n umero maximo de variables dependientes es 99.
El n umero total de variables a las cuales se puede acceder es 204, incluidas las variables usadas en
Recode.
2. ONEWAY usa variables de control dentro del rango 0-99. Si para cualquier caso, la variable de control
de un cierto analisis, se encuentra fuera de este rango, el caso se elimina de la tabla.
3. La maxima suma de ponderaciones es alrededor de 2,000,000,000.
4. El cociente F se imprime solo para datos sin ponderaci on.
31.8 Ejemplos 243
31.8. Ejemplos
Ejemplo 1. Tres analisis de variancia de una entrada, con V201 como variable de control y V204 como
variable dependiente; primero para todo el archivo, segundo para un subconjunto de casos con valores 1-3
para la variable V5 y tercero para un subconjunto de casos con valores 4-7 para la variable V5.
$RUN ONEWAY
$FILES
PRINT = ONEW1.LST
$SETUP
ANALISIS DE VARIANCIA DE UNA ENTRADA DESCRITO SEPARADAMENTE
CONV=V201 DEPV=V204
CONV=V201 DEPV=V204 F1=(V5,1,3)
CONV=V201 DEPV=V204 F1=(V5,4,7)
Ejemplo 2. Generacion de un analisis de variancia de una entrada, para todas las combinaciones de las
variables de control V101, V102, V105 y V110, y las variables dependientes V17 a V21; los datos son
ponderados con la variable V3.
$RUN ONEWAY
$FILES
$SETUP
GENERACION MASIVA DE ANALISIS DE VARIANCIA DE UNA ENTRADA
CONV=(V101,V102,V105,V110) DEPV=(V17-V21) WEIGHT=V3
Captulo 32
Puntajes basados en el orden parcial
de casos (POSCOR)
POSCOR calcula puntajes (escala ordinal), con un procedimiento basado en la posicion jerarquica de los
elementos de un conjunto parcialmente ordenado de acuerdo con un n umero de propiedades (o caractersti-
cas). Los puntajes, calculados separadamente para cada elemento del conjunto, se llevan a un archivo de
salida descrito por un diccionario IDAMS. Este dataset se puede utilizar despues, como entrada para otros
programas.
Al utilizar el par ametro ORDER, se pueden calcular : (1) cuatro tipos de puntajes donde los c alculos se
basan en la proporcion de casos dominados por el caso examinado, (2) los otros cuatro donde los c alculos se
basan en la proporcion de casos que dominan al caso examinado. El rango de los puntajes se determina con
el par ametro SCALE. S olo se pueden esperar puntajes con sentido, cuando el n umero de casos involucrados
es mucho mas grande que el n umero de variables especicadas.
En aplicaciones con variables de importancia no uniforme, se puede denir una lista de prioridades con el
par ametro de analisis LEVEL en el ordenamiento parcial. Si las variables con prioridad mas alta determinan
sin ambig uedad la relacion entre dos casos, entonces no se consideran las variables con prioridades mas bajas.
En el caso especial en el cual solo se utiliza una variable de analisis, los valores transformados corresponden
a sus probabilidades (ver las opciones ORDER=ASEA/DEEA/ASCA/DESA).
En un analisis, se puede examinar una serie de conjuntos mutuamente excluyentes con la facilidad de sub-
conjunto. En esta oportunidad, se calculan las variables de puntaje dentro de cada subconjunto de casos.
Seleccion de casos y variables. Se puede utilizar el ltro est andar para la selecci on de casos en una
ejecuci on. Tambien existe la opcion de obtener subconjuntos de casos en cada analisis. Las variables que
se van a transferir al archivo de salida se escogen con el par ametro TRANSVARS. Las variables para cada
analisis, se eligen con las especicaciones de analisis.
Transformaci on de datos. Se pueden usar las proposiciones de Recode. N otese que el programa solo utiliza
la parte entera de las variables recodicadas, es decir, las variables recodicadas se redondean al entero mas
proximo.
Tratamiento de datos faltantes. El par ametro MDVALUES est a disponible para indicar cuales valores de
datos faltantes, si los hay, se usaran para vericar los datos faltantes. El par ametro MDHANDLING indica
si variables o casos con datos faltantes se deben excluir de un analisis.
246 Puntajes basados en el orden parcial de casos (POSCOR)
32.3. Resultados
El archivo de salida contiene los puntajes calculados junto con las variables transferidas, y opcionalmente,
las variables de analisis para cada caso usado en el analisis (es decir, todos los casos que pasan el ltro y no
excluidos con el uso de la opcion de datos faltantes. Tambien se produce un diccionario asociado IDAMS de
salida.
Las variables de salida tienen las caractersticas descritas abajo, se numeran secuencialmente a partir de 1 y
en el orden siguiente:
Variables de an alisis y de subconjunto (condicional: solo si AUTR=YES). Las variables V tienen las
mismas caractersticas que sus equivalentes de entrada. Las variables de Recode salen con WIDTH=7
y DEC=0.
Variable identicadora de casos y variables transferidas. Las variables V tienen las mismas caractersti-
cas que su equivalente de entrada. Las variables de Recode salen con WIDTH=7 y DEC=0.
Variables calculadas de puntajes.
Para ORDER=ASEA/DEEA/ASCA/DESA, una variable para cada analisis con:
nombre especicado por ANAME (por defecto: blanco)
ancho de campo especicado por FSIZE (por defecto: 5)
n umero de decimales 0
MD1 especicado por OMD1 (por defecto: 99999)
MD2 especicado por OMD2 (por defecto: 99999)
Para ORDER=ASER/DESR/ASCR/DEER, dos variables para cada analisis con nombres especi-
cados por los par ametros ANAME y DNAME respectivamente y otras caractersticas tales como las
mencionadas anteriormente.
Nota. Si un analisis se repite para varios subconjuntos de casos mutuamente excluyentes, la variable de
puntaje se calcula para los casos en cada subconjunto a su vez. Si un caso no se encuentra en uno de los
subconjuntos denidos para el analisis, entonces sus valores de la(s) variable(s) de puntaje se colocan en el
valor del c odigo MD1.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Por las variables del analisis solo se
usan n umeros enteros. Notar que los valores decimales se redondean al entero mas proximo. La variable de
identicacion de casos y las variables a ser transferidas pueden ser alfabeticas.
$RUN POSCOR
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
5. POSCOR
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
de control del programa, tems 1-3 y 6 a continuacion.
Ejemplo: INCLUDE V2=1-4 AND V15=2
Ejemplo: ESCALAMIENTO DE LAS VARIABLES RU DE ENTRADA
Ejemplo: MDHAND=CASES TRAN=V5 IDVAR=R6
INFILE=IN/xxxx
MAXCASES=n
MDHANDLING=VARS/CASES
VARS Se excluyen de la comparaci on las variables con valores de datos faltantes.
CASE Se excluyen del analisis los casos con valores de datos faltantes.
OUTFILE=OUT/yyyy
Variable a ser transferida al dataset de salida para la identicacion de casos.
Se pueden transferir variables adicionales (hasta 99) al dataset de salida. Esta lista no puede
incluir variables de analisis o variables utilizadas en las especicaciones de subconjuntos. Estas se
transeren autom aticamente con el par ametro AUTR.
AUTR=YES/NO
YES Se transeren al dataset de salida en forma autom atica, las variables de analisis y las
variables utilizadas en la especicaci on de subconjuntos.
NO No se transeren las variables de analisis ni las de subconjuntos.
FSIZE=5/n
Ancho de campo de las variables (puntajes) calculadas.
SCALE=100/n
Valor (factor de escala) que especica el rango (0 - n) de los puntajes calculados.
OMD1=99999/n
Valor del primer c odigo de datos faltantes para las variables (puntajes) calculadas.
OMD2=99999/n
Valor del segundo c odigo de datos faltantes para las variables (puntajes) calculadas.
PRINT=(CDICT/DICT, OUTDICT/OUTCDICT/NOOUTDICT)
hay.
4. Especicaciones de subconjuntos (opcional). Aqu se especican subconjuntos de casos mutua-
mente excluyentes para un analisis en particular.
Ejemplo: EDAD INCLUDE V5=15-20,21-45,46-64
nombre
izquierda.
proposicion
Denicion del subconjunto.
Comenzar con la palabra INCLUDE.
Especicar el n umero de variable (variable V o R) sobre la cual se basan los subconjuntos
(no se permiten variables alfabeticas).
Especicar valores y/o rangos de valores separados por comas. Cada valor o rango dene
un subconjunto. Las comas separan los subconjuntos. Los rangos negativos deben estar en
secuencia numerica, por ej. -4 - -2 (para -4 a -2); -2 - 5 (para -2 a +5). Los subconjuntos
deben ser mutuamente excluyentes (es decir, los mismos valores no pueden aparecer en dos
rangos). En el ejemplo anterior, se denen 3 subconjuntos basados en el valor de V5 para la
especicaci on del subconjunto EDAD.
Colocar un gui on al nal de una lnea para continuar en la lnea siguiente.
5. POSCOR. La palabra POSCOR en esta lnea, indica que a continuacion vienen especicaciones de
analisis. Debe incluirse (para separar las especicaciones de subconjuntos de las de analisis) y solo debe
aparecer una vez.
6. Especicaciones de analisis. Las reglas de codicacion son las mismas de los par ametros. Cada
especicaci on de analisis debe comenzar en una nueva lnea.
Ejemplo: ORDER=ASER ANAME=MSDCORE DNAME=DOWNSCORE -
VARS=(V3-V6) LEVELS=(1,1,2,2)
Las variable V y/o R a usar en el analisis.
ORDER=ASEA/DEEA/ASCA/DESA/ASER/DESR/ASCR/DEER
Especica el tipo de puntaje a calcular.
El puntaje se basa en:
ASEA casos mejores o iguales/dominantes
DEEA casos peores o iguales/dominados
ASCA casos denitivamente mejores/dominantes denitivamente
DESA casos denitivamente peores/dominados denitivamente
con relacion al n umero total de casos
ASER/DESR
ASER casos mejores o iguales/dominantes
DESR casos denitivamente peores/dominados denitivamente
con relacion al n umero de casos comparables
ASCR/DEER
ASCR casos denitivamente mejores/dominantes denitivamente
DEER casos peores o iguales/dominados
con relacion al n umero de casos comparables
Nota. En los dos ultimos casos, los puntajes se calculan con cualquier selecci on. La suma de ellos es
igual al valor especicado en el par ametro SCALE.
SUBSET=xxxxxxxx
Especica el nombre de la especicaci on de subconjunto a usar, si lo hay. Si el nombre con-
tiene caracteres no alfanumericos, debe encerrarse entre comillas sencillas. Se deben usar letras
may usculas para hacer encajar el nombre en la especicacion de subconjuntos el cual se convierte
autom aticamente a may usculas.
LEVELS=(1, 1,..., 1) / (N1,N2,N3,...,Nk)
k es el n umero de variables utilizadas en la lista de variables de analisis. Ni dene el orden de
prioridad de la variable i-esima de la lista de variables involucradas en el ordenamiento parcial.
Un valor mas alto implica una prioridad mas baja. Los valores de prioridad deben especicarse en
la misma secuencia de las correspondientes variables en la lista de variables de analisis. El valor
de 1 por defecto, implica que todas las variables tienen la misma prioridad.
ANAME=nombre
Un nombre del puntaje ascendente, que contenga hasta 24 caracteres. Las comillas sencillas son
obligatorias si el nombre contiene caracteres no alfanumericos.
DNAME=nombre
Un nombre del puntaje descendente, que contenga hasta 24 caracteres. Las comillas sencillas son
obligatorias si el nombre contiene caracteres no alfanumericos.
32.8. Restricciones
1. El valor de las variables de analisis debe estar en el rango -32,767 a +32,767.
2. En el par ametro LEVEL, los componentes de la lista de prioridades deben ser enteros positivos dentro
del rango 1 a 32,767.
3. N umero maximo de analisis es 10.
4. N umero maximo de variables a ser transferidas es 99.
5. Una variable se puede utilizar solamente una vez, as sea una variable identicadora, en una lista de
analisis o en una lista de transferencia. Si se necesita usar la misma variable dos veces, entonces debe
recodicarse previamente para obtener una copia de la misma variable con un n umero diferente de
variable (de resultado).
6. El n umero maximo de variables utilizadas en analisis, en las especicaciones de subconjuntos y en la
lista de transferencia es 100 (incluye variables V y R).
7. El n umero maximo de especicaciones de subconjunto es 10.
9. Aunque no hay lmite para el n umero de casos procesados, n otese que el tiempo usado para ejecuci on
crece como una funci on cuadratica del n umero de casos analizados.
32.9. Ejemplos
Ejemplo 1. Calculo de dos puntajes con las mismas variables V10, V12, V35 a V40; el primer puntaje
se calculara para todo el archivo, el segundo puntaje sera calculado separadamente para tres subconjuntos
(para valores 1, 2 y 3 de la variable V7); los casos con datos faltantes se excluyen del analisis; ambos puntajes
se basan en los casos dominados estrictamente con relacion al n umero de casos comparables; los casos se
identican con las variables V2 y V4, las cuales se transferir an al archivo de salida. N otese que Recode se
utiliza para hacer una copia de las variables ya que una restriccion del programa signica que una variable
puede usarse una vez solamente.
32.9 Ejemplos 251
$RUN POSCOR
$FILES
PRINT = POSCOR1.LST
DICTIN = PREF.DIC archivo Diccionario de entrada
DATAIN = PREF.DAT archivo Datos de entrada
DICTOUT = SCORES.DIC archivo Diccionario de salida
DATAOUT = SCORES.DAT archivo Datos de salida
$SETUP
CALCULO DE DOS PUNTAJES
MDHAND=CASES IDVAR=V2 TRANSVARS=V4
TYPE INCLUDE V7=1,2,3
POSCOR
ORDER=DESR ANAME=PUNTAJE CREC. GLOBAL DNAME=PUNTAJE DECR. GLOBAL -
VARS=(V10,V12,V35-V40)
ORDER=DESR ANAME=PUNTAJE AJUSTADO CREC. -
DNAME=PUNTAJE AJUSTADO DECR. SUBS=TYPE -
VARS=(R10,R12,R35-R40)
$RECODE
R10=V10
R12=V12
R35=V35
R36=V36
R37=V37
R38=V38
R39=V39
R40=V40
Ejemplo 2. Calculo de tres puntajes basados en casos dominantes con relacion al n umero total de casos;
las variables de analisis no se transferir an al dataset de salida; las variables con datos faltantes se excluyen
de la comparaci on; las variables para identicacion de casos V1 y V5, se transeren al dataset de salida.
$RUN POSCOR
$FILES
$SETUP
CALCULO DE TRES PUNTAJES
AUTR=NO IDVAR=V1 TRANSVARS=V5
POSCOR
ORDER=ASEA ANAME=PUNT.1 CREC VARS=(V11,V17,V55-V60)
ORDER=ASEA ANAME=PUNT.2 CREC VARS=(V108-V110,V114,V116,V118,V120)
ORDER=ASEA ANAME=PUNT.3 CREC VARS=(V22,V33,V101-V105)
Captulo 33
Correlacion de Pearson (PEARSON)
PEARSON calcula e imprime matrices de coecientes de correlaci on r de Pearson y covariancias para todos
los pares de variables en una lista (opci on de matriz cuadrada) o para cada pareja de variables formada al
tomar una variable de cada dos listas de variables (opcion de matriz rectangular).
Se puede especicar la eliminacion de datos faltantes por pares o por casos.
PEARSON se puede utilizar tambien para obtener una matriz de correlaci on, la cual puede ser posteriormente
leida por los programas REGRESSN o MDSCAL. Aunque REGRESSN puede calcular su propia matriz de
correlaci on, su opcion de manejo de datos faltantes solo puede eliminar por casos. En contraste, PEARSON
puede generar una matriz con el uso de un algoritmo de eliminacion por pares para datos faltantes.
Seleccion de casos y variables. Se puede utilizar el ltro est andar para la selecci on de un subconjunto
de casos de los datos de entrada. Las variables para las cuales se desea la correlaci on se especican con los
par ametros ROWVARS y COLVARS.
Tratamiento de datos faltantes. El par ametro MDVALUES est a disponible para indicar cuales valores de
datos faltantes, si los hay, se usaran para vericar los datos faltantes. Se calculan las estadsticas univariadas
para cada variable a partir de los casos que tengan datos validos (no faltantes) para la variable.
Datos faltantes: eliminacion por pares. Las estadsticas por pares y el coeciente de correlaci on, se
pueden calcular de los casos que tengan datos validos para ambas variables (MDHANDLING=PAIR). As,
un caso se puede utilizar en los c alculos para algunos pares de variables y no usarse para otros. Este metodo
de manejo de datos faltantes se llama algoritmo de eliminacion por pares. Nota: si hay datos faltantes, se
pueden calcular coecientes de correlaci on individuales para diferentes subconjuntos de datos. Si hay muchos
datos faltantes, se pueden presentar inconsistencias internas en la matriz de correlaci on, las cuales pueden
causar dicultades en analisis multivariados posteriores.
254 Correlaci on de Pearson (PEARSON)
Datos faltantes: eliminacion por casos. El programa puede tambien recibir la instruccion (MDHAN-
DLING=CASE) para calcular estadsticas pareadas y correlaciones a partir de los casos que tengan datos
validos en todas las variables de la lista de variables. De esta manera, un caso se usa en el c alculo para
todos los pares de variables o no se usa. Este metodo de manejar los datos faltantes se llama algoritmo de
eliminacion por casos (tambien se encuentra en el programa REGRESSN) y solo se aplica a la opcion de
matriz cuadrada.
33.3. Resultados
Opci on de matriz cuadrada
Estadsticas pareadas. (Opcional: ver el par ametro PRINT). Para cada par de variables de la lista, se
imprime la siguiente informacion:
n umero de casos validos (o suma ponderada de casos),
media y desviacion est andar de la variable X,
media y desviacion est andar de la variable Y,
prueba T para el coeciente de correlaci on,
coeciente de correlaci on.
Estadsticas univariadas. Para cada variable de la lista, se imprime la siguiente informacion:
n umero de casos validos y suma de ponderaciones,
suma de puntajes y suma de puntajes cuadrados,
media y desviacion est andar.
Coecientes de regresion para puntajes primarios. (Opcional: ver el par ametro PRINT). Para cada
par de variables x, y se imprimen los coecientes de regresion a y c y los terminos constantes b y d de las
ecuaciones de regresion x=ay+b y y=cx+d.
Matriz de correlacion. (Opcional: ver el par ametro PRINT). Se imprime el triangulo inferior izquierdo
de la matriz.
Matriz de productos cruzados. (Opcional: ver el par ametro PRINT). Se imprime el triangulo inferior
izquierdo de la matriz.
Matriz de covariancia. (Opcional: ver el par ametro PRINT). Se imprime el triangulo inferior izquierdo
de la matriz con su diagonal.
En cada una de las tablas anteriores, se imprime por p agina, un maximo de 11 columnas y 27 las.
Opci on de matriz rectangular
Tabla de frecuencias de variables. N umero de casos validos para cada par de variables.
Tabla de valores de la media para las variables de columnas. Se calculan y se imprimen las medias
para cada variable de columna en los casos que son validos, a su turno, para cada variable de la.
Tabla de desviaciones estandar para variables de columnas. Igual que para las medias.
Matriz de correlacion. (Opcional: ver el par ametro PRINT). Coecientes de correlaci on para todos los
pares de variables.
Matriz de covariancia. (Opcional: ver el par ametro PRINT). Covariancias para todos los pares de vari-
ables.
En cada una de las tablas anteriores, se imprime por p agina, un maximo de 8 columnas y 50 las.
Nota: si un par de variables no tiene casos validos, se escribe 0.0 para la media, desviacion est andar, cor-
relacion y covariancia.
33.4 Matrices de salida 255
33.4. Matrices de salida
Matriz de correlaci on
Cuando se especica el par ametro WRITE=CORR, se produce la matriz de correlaci on, en la forma est andar
de una matriz cuadrada IDAMS. El formato de las correlaciones es 8F9.6; el formato para la media y la
desviacion est andar es 5E14.7. Las columnas 73-80, se utilizan para identicar los registros.
La matriz contiene correlaciones, medias y desviaciones est andar. Las medias y las desviaciones est andar
est an sin parear. Los registros de diccionario que produce PEARSON, tienen n umeros y nombres de variable
del diccionario de entrada y/o de proposiciones de Recode. El orden de las variables lo determina el orden
de las mismas en la lista.
PEARSON puede generar correlaciones iguales a 99.999901, y medias y desviaciones est andar iguales a 0.0
cuando los valores calculados carezcan de sentido. Razones tpicas de esto pueden ser por ejemplo, que se
hayan eliminado todos los casos debido a datos faltantes o una de las variables tuvo un valor constante.
N otese que MDSCAL no acepta estos valores faltantes y REGRESSN s.
Matriz de covariancia
Cuando se especica el par ametro WRITE=COVA, se produce la matriz de covariancia, sin la diagonal, en
la forma de una matriz cuadrada est andar de IDAMS.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis deben
ser numericas; pueden tener valores enteros o decimales.
$RUN PEARSON
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
FT02 matrices de salida si se especifica el par ametro WRITE
Ejemplo: INCLUDE V2=11-15,60 OR V3=9
Ejemplo: PRIMERA CORRIDA DE PEARSON - ABRIL 27
Ejemplo: WRITE=CORR, PRINT=(CORR,COVA) ROWV=(V1,V3-V6,R47,V25)
INFILE=IN/xxxx
MAXCASES=n
MATRIX=SQUARE/RECTANGULAR
SQUA Calcular coecientes de correlaci on de Pearson para todos los pares de variables de la
lista en ROWV.
RECT Calcular los coecientes de correlaci on de Pearson para cada par de variables formado
al tomar una variable de cada una de las dos listas en ROWV y COLV.
ROWVARS=(lista de variables)
Una lista de variables V o R a correlacionar (MATRIX=SQUARE) o la lista de variables de la
(MATRIX=RECTANGULAR).
COLVARS=(lista de variables)
(Solo MATRIX=RECTANGULAR).
Una lista de variables V o R a usar como variables de columna. Se escriben 8 columnas por
p agina; si las listas de variables de columna o de la tienen menos de 8 variables, es preferible
(para facilidad de lectura del listado) tener la lista corta como la lista de variables de columna.
MDHANDLING=PAIR/CASE
Metodo para el manejo de datos faltantes.
PAIR Eliminacion por pares.
CASE Eliminacion por casos (no disponible con MATRIX=RECTANG).
WRITE=(CORR, COVA)
S olo MATRIX=SQUARE.
CORR Escribir en un archivo de salida, la matriz de correlaci on con medias y desviaciones
est andar.
COVA Escribir en un archivo de salida, la matriz de covariancia con medias y desviaciones
est andar.
PRINT=(CDICT/DICT, CORR/NOCORR, COVA, PAIR, REGR, XPRODUCTS)
hay.
CORR Imprimir la matriz de correlaci on.
COVA Imprimir la matriz de covariancia.
PAIR Imprimir estadsticas pareadas (solo MATRIX=SQUARE).
REGR Imprimir los coecientes de regresion (solo MATRIX=SQUARE).
XPRO Imprimir la matriz de productos cruzados (solo MATRIX=SQUARE).
33.8. Restricciones
Cuando se especica MATRIX=SQUARE
1. El n umero maximo de variables permitido en una ejecuci on es 200. Este lmite incluye todas las variables
de analisis y variables usadas en proposiciones Recode.
2. Los n umeros de las variables recodicadas no pueden exceder de 999 si se especica el par ametro
WRITE. (Salen como n umeros negativos en la parte descriptiva de la matriz, la cual solo tiene cuatro
columnas reservadas para el n umero de variable, por ej. R862 saldra como -862).
Cuando se especica MATRIX=RECTANGULAR
1. El n umero maximo de variables en la lista para las o columnas es 100.
2. El maximo total variables de las, columnas, variables usadas en Recode y variable de ponderaci on es
136.
33.9. Ejemplos
Ejemplo 1. Calculo de una matriz cuadrada de coecientes de correlaci on de Pearson, con eliminacion de
casos con datos faltantes por pares; la matriz se escribira en un archivo de salida y se imprimira.
$RUN PEARSON
$FILES
PRINT = PEARS1.LST
FT02 = BIRDCOR.MAT archivo Matriz de salida
DICTIN = BIRD.DIC archivo Diccionario de entrada
DATAIN = BIRD.DAT archivo Datos de entrada
$SETUP
MATRIZ DE COEFICIENTES DE CORRELACION
PRINT=(PAIR,REGR,CORR) WRITE=CORR ROWV=(V18-V21,V36,V55-V61)
Ejemplo 2. Calculo de coecientes de correlaci on de Pearson para las variables V10-V20, con las variables
V5-V6.
$RUN PEARSON
$FILES
DICTIN = BIRD.DIC archivo Diccionario de entrada
DATAIN = BIRD.DAT archivo Datos de entrada
$SETUP
COEFICIENTES DE CORRELACION
MATRIX=RECT ROWV=(V10-V20) COLV=(V5-V6)
Captulo 34
Ordenamiento de alternativas
(RANK)
RANK ofrece un ordenamiento razonable de alternativas, utilizando datos preferenciales como entrada y
tres procedimientos de categorizaci on, uno basado en la l ogica clasica (el metodo ELECTRE) y otros dos
basados en logica difusa. Los dos metodos se diferencian esencialmente en la manera de construir las matrices
relacionales. Con rangos difusos, los datos determinan completamente el resultado mientras que con el
ordenamiento por el metodo clasico, el usuario, basado en los conceptos de la logica clasica, tiene la posibilidad
de controlar el c alculo de las relaciones que est an por encima de las alternativas.
El metodo ELECTRE (logica clasica) implementado en RANK, en un primer paso, utiliza los datos
preferenciales de entrada para calcular una matriz nal que expresa la opinion total colectiva acerca de
la dominancia entre las alternativas, la estructura de relacion no corresponde necesariamente a un orde-
namiento lineal o parcial. La relacion de dominancia para cada par de alternativas se controla por las
condiciones de concordancia y discordancia establecidas por el usuario. Se pueden obtener diferentes
relaciones estructurales a partir de los mismos datos al cambiar los par ametros de analisis. En el segundo
paso, el procedimiento busca una secuencia de capas (o n ucleos) de alternativas no dominadas. El primer
n ucleo consiste en las alternativas de mas alto rango en todo el conjunto considerado. Debe notarse que en
ciertos casos puede que no existan mas n ucleos, debido a bucles dentro de la relacion. Esto puede ser verdad
a un en el nivel mas alto.
El primer metodo difuso (capas no dominadas) se desarroll o originalmente para resolver problemas
de toma de decisiones con informacion difusa. Este metodo permite encontrar una secuencia de n ucleos de
alternativas no dominados dentro de una estructura de preferencia difusa, la cual no representa necesaria-
mente un orden (total) lineal. Los n ucleos subsiguientes son aquellos grupos de alternativas que tengan el
rango mas alto dentro las alternativas que no pertenezcan a los n ucleos previos de nivel mas alto. El primer
n ucleo comprende las alternativas de rango mas alto dentro todo el conjunto considerado.
El segundo metodo difuso (rangos) trata de encontar la credibilidad de frases como la j-esima alterna-
tiva est a exactamente en la posicion p-esima dentro el orden por rangos. Los resultados son claros en el caso
de una relacion lineal (total) en los datos; de lo contrario, se debe tener cuidado al interpretar los resulta-
dos. El proceso de optimizacion, desarrollado para manejar el caso general (normalizado o no-normalizado),
permite al usuario decidir si debe normalizar o no la matriz relacional difusa antes del proceso de rangos
(ver opcion NORM). Despues de la normalizaci on se necesita un proceso cuidadoso de interpretaci on de los
resultados. Usualmente datos incompletos resultan en una matriz relacional no-normalizada, especialmente
cuando se usa DATA=RAWC y el n umero seleccionado de alternativas en respuestas individuales es mas
peque no que el n umero de alternativas posibles. Aunque una matriz no-normalizada produce resultados en
los cuales el nivel de incertidumbre es mas alto, puede suministrar un cuadro mas realista acerca de la
relacion latente que determina los datos; en verdad la normalizaci on se puede interpretar como una clase de
extrapolaci on.
260 Ordenamiento de alternativas (RANK)
Se pueden especicar dos tipos de relacion individual preferencial (estricta o debil), en caso de que
los datos que representen una selecci on de alternativas y en caso de que los datos representen alternativas
por rangos.
1. Datos que representan una seleccion de alternativas.
Preferencia estricta: se considera que cada alternativa seleccionada tiene un unico rango (difer-
ente) y a las no seleccionadas se les asigna el mismo rango mas bajo.
Preferencia debil: se considera que todas las alternativas seleccionadas tienen un mismo rango
com un, el cual es mas alto que el rango de las no seleccionadas.
2. Datos que representan una ordenaci on de alternativas por rango.
Preferencia estricta: se considera que todas las alternativas con rangos tienen diferentes
valores y las relaciones entre las alternativas del mismo rango se excluyen de los c alculos de la
relacion de preferencia global entre las alternativas.
Preferencia debil: en los c alculos se tienen en cuenta las alternativas con el mismo rango.
los datos de entrada y se usa el par ametro VARS para seleccionar las variables.
Transformaci on de datos. Se pueden usar las proposiciones de Recode. N otese que el programa solo utiliza
la parte entera de las variables recodicadas, es decir que estas variables se redondean al entero mas proximo.
Ponderaci on de datos. Los datos se pueden ponderar con valores enteros. N otese que los valores ponderados
se redondean al entero mas proximo. Cuando el valor de la variable de ponderaci on para un caso es cero,
negativo, dato faltante o no numerico, entonces el caso siempre se omite; se imprime el n umero de casos
as tratados.
Tratamiento de datos faltantes. Se puede usar el par ametro MDVALUES para indicar cuales valores de
datos faltantes se van a usar para la vericacion de los datos faltantes. Para DATA=RAWC, las variables
con datos faltantes se saltan; para DATA=RANKS, los valores faltantes se sustituyen con el rango mas bajo.
34.3. Resultados
Datos invalidos. Mensajes acerca de los datos incorrectos (rechazados).
Metodos basados en la l ogica difusa (METHOD=NOND/RANKS)
Matriz de relaciones. Se imprime por las una matriz cuadrada que representa la relacion difusa. Si las
las tienen mas de 10 elementos, se contin ua en la(s) lnea(s) siguiente(s).
Descripcion de las relaciones. Despues de imprimir el tipo de relacion, se imprimen tres medidas que
caracterizan de manera concisa la relacion, a saber: ndice de coherencia absoluta, ndice de intensidad e
ndice de dominacion absoluta.
Resultados del analisis. Los resultados se presentan de manera diferente para cada metodo.
Para METHOD=NOND los n ucleos se imprimen secuencialmente a partir del rango mas alto y para cada
uno de ellos se suministra la siguiente informacion:
su n umero secuencial con nivel de certeza,
los c odigos y los nombres de alternativas o los n umeros y nombres de variables (hasta 8 caracteres),
los valores de la funci on de pertenencia de las alternativas, indicando que tan fuertemente est an ligadas
al n ucleo; los valores de pertenencia de alternativas que pertenecen a n ucleos anteriores se sustituyen
por asteriscos,
lista de alternativas que pertenecen al n ucleo con el valor de pertenencia mas alto (alternativas con
mayor credibilidad).
Para METHOD=RANKS se imprime primero la matriz relacional normalizada si se solicito antes la nor-
malizaci on. Despues se imprimen los resultados, de dos maneras para una interepretacion mas facil.
1. Se imprimen secuencialmente todas las alternativas con la siguiente informacion para cada una:
c odigo y nombre de la alternativa o n umero y nombre de variable,
los valores de la funci on de pertenencia de la alternativa, indicando que tan fuertemente est a conec-
tada con cada rango,
la lista del rango o de los rangos de mayor credibilidad para esta alternativa.
2. Se imprimen todos los rangos secuencialmente con la siguiente informacion para cada uno:
n umero de rango,
c odigos y nombres de las alternativas o n umeros y nombres de variables,
los valores de la funci on de pertenencia de la alternativas, indicando que tan fuertemente est an
conectadas con ese rango,
la lista de la(s) alternativa(s) de mayor credibilidad para ese rango.
Metodo basado en la l ogica cl asica (METHOD=CLAS)
Resultado del analisis. Se imprimen, para cada estructura relacional de dominancia nal que resulta
de un analisis, las diferencias de rangos y las proporciones mnimo/maximo de poblacion especicadas por
el usuario, seguidas de la lista de n ucleos sucesivos no-dominados (identicados por su n umero secuencial)
con las alternativas que les pertenecen.
Nota. Las alternativas se titulan con los 8 primeros caracteres del nombre de la variable para DATA=RANKS
o con los 8 caracteres del nombre de c odigo (si hay registros C en el diccionario) para DATA=RAWC.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis deben
tener valores enteros positivos. N otese que las variables con valores decimales, se redondean al entero mas
proximo.
Las preferencias se pueden presentar de dos maneras en los datos. En la siguiente ilustraci on se muestra
como hacerlo.
Supongamos que se han recolectado datos acerca de las preferencias de los empleados sobre varios factores
relacionados con su trabajo:
Ocina individual
Salario alto
Vacaciones largas
Supervision mnima
Compatibilidad entre colegas
Las dos maneras de representar esto en un cuestionario son:
1. DATA=RAWC
En este caso, los factores se codican (1 a 5) y se solicita al encuestado se nalarlos en el orden de su
preferencia. Las variables en los datos representaran los rangos:
V6 Factor mas importante
V7 Segundo factor mas importante
.
.
V10 Factor menos importante
y los c odigos asignados a cada una de estas variables por un encuestado representaran los factores
(1=ocina individual, 2=salario alto, etc.).
No es necesario escoger todos los factores posibles, se podrian pedir por ejemplo, los tres mas impor-
tantes, especicando solo esas variables de la lista de variables: V6, V7, V8. El n umero de factores
diferentes usados se especica con el par ametro NALT.
2. DATA=RANKS
Aqu, cada factor aparece en el cuestionario como una variable:
V13 Oficina individual
V14 Salario alto
.
.
V17 Compatibilidad entre colegas
y al encuestado se le invita a asignar un rango a cada uno, en el cual 1 se da al factor mas importante,
2 al siguiente, etc. Aqu las variables representan los factores y sus valores representan los rangos. A
cada variable se le debe asignar un rango y todos los factores entran siempre al analisis. Los rangos
deben codicarse de 1 a n donde n es el n umero de variables que se consideran.
Notas
1. Si DATA=RANKS, el c odigo 0 y todos los c odigos mayores que n, en donde n es el n umero de variables
(n umero de alternativas), se tratan como datos faltantes y se les asigna el rango mas bajo.
2. Si DATA=RAWC, los primeros NALT codigos diferentes encontrados durante la lectura de los datos
(excluido 0), se usan como c odigos validos. Otros c odigos hallados posteriormente en los datos, se toman
como c odigos ilegales. El cero siempre se trata como un c odigo ilegal. Si el n umero de alternativas
escogidas por los encuestados es menor que NALT, entonces aparecen las alternativas no seleccionadas
en el listado con valores de c odigo cero y nombre de c odigo vaco.
34.5. Estructuda del setup
$RUN RANK
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
(solo para logica clasica)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: PRIMERA EJECUCION DE RANK
Ejemplo: DATA=RANKS PREF=STRICT MDVALUES=NONE VARS=(V11-V13)
INFILE=IN/xxxx
MAXCASES=n
Para DATA=RAWC, las variables con datos faltantes no se incluyen en el ordenamiento.
Para DATA=RANKS, los datos faltantes se recodican al rango mas bajo.
Una lista de variables V y/o R a usar en el procedimento de rangos.
METHOD=(CLASSICAL/NOCLASSICAL, NONDOMINATED, RANKS)
Especica el metodo a usar en el analisis.
CLAS Metodo de logica clasica (ELECTRE).
NOND Metodo difuso 1, llamado capas no dominadas.
RANK Metodo difuso 2, llamado rangos.
DATA=RAWC/RANKS
Tipo de datos.
RAWC Las variables corresponden a los rangos (la primera variable de la lista tiene el primero
rango, la segunda el segundo, etc.), y su valor es el n umero del c odigo de la alternativa
seleccionada.
RANK Las variables representan las alternativas, sus valores son los rangos de las alternativas
correspondientes.
PREF=STRICT/WEAK
Determina el tipo de relacion de preferencia a usar en el an alisis.
STRI Se usa una relacion de preferencia estricta.
WEAK Se usa una relacion de preferencia debil.
NALT=5/n
(DATA=RAWC solamente). El n umero total de alternativas para ordenar.
Nota: si DATA=RANKS, el n umero de alternativas se coloca autom aticamente como el n umero
de variables de analisis.
NORMALIZE=NO/YES
(METHOD=RANKS solamente).
NO No normalizar.
YES Se hace la normalizaci on de la matriz relacional antes de calcular el valor de la funci on
de pertenencia de las alternativas.
PRINT=CDICT/DICT
hay.
4. Especicaciones de analisis (condicional: solo en el caso de la logica clasica). Las reglas de codi-
cacion son las mismas de los par ametros. Cada especicaci on de analisis debe comenzar en una nueva
lnea.
Ejemplo: PCON=66 DDIS=4 PDIS=20
DCON=1/n
Diferencia de rangos que controla la concordancia en opiniones individuales (casos). Debe ser un
entero dentro del rango 0 a NALT-1.
PCON=51/n
Mnima proporcion de concordancia individual expresada como un porcentaje y requerida en la
opinion colectiva. Debe ser un entero dentro del rango 0 a 99. El valor por defecto signica que
por lo menos, se necesita un acuerdo del 51 % para tener una concordancia colectiva.
DDIS=2/n
Diferencia de rangos que controla la discordancia en las opiniones individuales (casos). Debe ser
un entero dentro del rango 0 a NALT-1.
PDIS=10/n
M axima proporcion de discordancia individual, expresada como un porcentaje, tolerada en la
opinion colectiva. Debe ser un entero en el rango 0 a 100. El valor por defecto signica que no se
tolera una discordancia individual mayor del 10 %.
34.7. Restricciones
1. El n umero maximo de variables permitidas en una ejecuci on es 200, incluidas las variables de Recode
y las variables de ponderaci on.
2. El n umero maximo de variables de analisis es 60.
34.8 Ejemplos 265
34.8. Ejemplos
Ejemplo 1. Determinaci on de un ordenamiento de alternativas, usando datos recolectados en forma de
rangos de alternativas; hay diez alternativas, se asume una relacion de preferencia debil y se har a una
analisis con el metodo de rangos.
$RUN RANK
$FILES
PRINT = RANK1.LST
DICTIN = PREF.DIC archivo Diccionario de entrada
DATAIN = PREF.DAT archivo Datos de entrada
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : METODO DE RANGOS
DATA=RANKS PREF=WEAK METH=(NOCL,RANKS) VARS=(V21-V30)
Ejemplo 2. Determinaci on de un ordenamiento de alternativas, con datos recolectados en forma de una
selecci on por prioridades; se escogen tres alternativas entre 20 y el orden de las variables determina la
prioridad de la selecci on; se supone preferencia estricta; se solicitan los dos metodos de analisis difuso.
$RUN RANK
$FILES
$SETUP
ORDENAMIENTO DE ALTERNATIVAS POR RANGOS : DOS METODOS DIFUSOS
NALT=20 METH=(NOCL,NOND,RANKS) VARS=(V101-V103)
Ejemplo 3. Determinaci on de un ordenamiento de alternativas, usando datos recolectados en forma de una
selecci on por prioridades; se escogen 4 alternativas entre 15 y el orden de las variables no determina la prior-
idad de la selecci on (preferencia debil); se har an cuatro analisis de logica clasica manteniendo siempre igual
a 1 las diferencias de rangos, pero aumentando la proporcion de discordancia y disminuyendo la proporcion
de concordancia.
$RUN RANK
$FILES
$SETUP
ORDENAMIENTO DE ALTERNATIVAS : LOGICA CLASICA
PREF=WEAK NALT=15 METH=CLAS VARS=(V21,V23,V25,V27)
PCON=75 DDIS=1 PDIS=5
Captulo 35
Diagramas de dispersion (SCAT)
SCAT es un programa de analisis bivariado que produce diagramas de dispersi on, estadsticas univariadas
y bivariadas. Los diagramas de dispersi on se trazan en un sistema de coordenadas rectangulares; para cada
combinaci on de valores coordenados que aparece en los datos, se muestra la frecuencia con la cual se presenta.
SCAT es util para mostrar relaciones bivariadas cuando el n umero de valores de diferentes variables es grande
y el n umero de casos que contenga uno de estos valores es peque no. Si una variable toma relativamente pocos
valores dentro de un n umero grande de casos, el programa TABLES es mas adecuado.
Formato del graco. Cada graco se dene separadamente con la especicaci on de las dos variables que
se van a usar (llamadas variables X y Y). Las escalas de los ejes se ajustan separadamente para cada graco
y as permitir el trazado de variables que dieran radicalmente en escala sin perdida de resolucion graca.
Normalmente, el programa dibuja la variable con el rango mas amplio (antes de modicar la escala) en el eje
horizontal. Sin embargo, el usuario puede solicitar que la variable X se dibuje siempre en el eje horizontal.
Si las frecuencias son inferiores a 10, estas se llevan al graco. Para frecuencias en el rango 10-65, se usan
las letras del alfabeto. Si la frecuencia de un punto es mayor de 65, se coloca un asterisco en el diagrama.
Este esquema de codicacion, es parte de los resultados para facilidad de referencia.
Estadsticas. Se imprimen para cada variable accedida, incluidos el ltro y la variable de ponderaci on, si
los hay: la media, la desviacion est andar, el valor maximo y el valor mnimo. Para cada graco el programa
tambien imprime la media, desviacion est andar, conteo de casos y rango de las dos variables, el coeciente
de correlaci on r de Pearson, la constante y el coeciente no estandarizado de regresion para predecir Y a
partir de X.
los datos de entrada. Ademas, se puede especicar un rango de variables y una variable de ltro en el graco
para restringir los casos incluidos en un graco en particular. Las variables para dibujar, se especican por
parejas con los par ametros de graco.
Transformaci on de datos. Se pueden usar las proposiciones de Recode. N otese que para las variables R
el programa utiliza el n umero de cifras decimales dado en el par ametro NDEC.
Ponderaci on de datos. Se puede especicar una variable de ponderaci on para cada graco. Las variables
V y R con decimales se multiplican por un factor de escala para obtener valores enteros. Ver la secci on
Dataset de entrada abajo.
Cuando el valor de la variable de ponderaci on para un caso es cero, negativo, dato faltante o no numerico,
entonces el caso siempre se omite; se imprime el n umero de casos as tratados.
268 Diagramas de dispersion (SCAT)
de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Las estadsticas univariadas que
aparecen al comienzo de los resultados, inmediatamente despues del diccionario, se basan en todos los casos
que tienen datos validos en cada variable considerada por separado. Para los gracos en s, el programa
elimina los casos que tengan datos faltantes en una o las dos variables en un graco dado. La eliminacion
por pares tambien afecta las estadsticas bivariadas que se imprimen en la parte superior de cada graco.
35.3. Resultados
Estadsticas univariadas. Las siguientes estadsticas se imprimen para cada variable referida, incluidas
las variables de ltro de graco y de ponderaci on: valores maximo y mnimo, media y desviacion est andar,
y n umero de casos con valores de datos validos.
Clave del esquema de codicacion de gracos. Una tabla que muestra la correspondencia entre las
frecuencias actuales y los c odigos usados en los gracos.
Gracos y estadsticas. Para cada graco requerido, se imprime un diagrama de dispersi on de 8 1/2
x 12. En la parte superior del diagrama se imprimen los valores de las estadsticas univariadas (medias,
desviaciones est andar) y bivariadas (r de Pearson, constante de regresion A y coeciente de regresion no
estandarizada B.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Todas las variables del analisis y del
ltro de graco deben ser numericas; enteras o decimales. Las variables con decimales se multiplican por
un factor de escala para obtener valores enteros. Este factor se calcula como 10
n
donde n es el n umero de
decimales del diccionario para las variables V y del par ametro NDEC para las variables R, y aparece en los
resultados para cada variable.
$RUN SCAT
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de graficos (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
Ejemplo: INCLUDE V21=6 AND V37=5
Ejemplo: ESTUDIO 600, JULIO 16, 1999, EDAD POR PESO POR SUBMUESTRA
3. Parametros (mandatorio). Para seleccionar opciones del programa. Los nuevos par ametros son pre-
cedidos por un asterisco.
Ejemplo: BADD=MD2
INFILE=IN/xxxx
MAXCASES=n
270 Diagramas de dispersion (SCAT)
* NDEC=0/n
N umero de decimales (m aximo 4) a conservar para las variables R.
PRINT=CDICT/DICT
hay.
4. Especicaciones de gracos. Un conjunto para cada graco. Las reglas de codicacion son las
mismas de los par ametros. Cada especicaci on de graco debe empezar en una lnea nueva.
Ejemplo: X=V3 Y=R17 FILTER=(V3,1,1)
X=n umero de variable
N umero de la variable X.
Y=n umero de variable
N umero de la variable Y.
FILTER=(n umero de variable, c odigo mnimo valido, c odigo maximo valido)
Filtro de graco. S olo aquellos casos en los cuales el valor de la variable de ltro es mayor o
igual al codigo mnimo y menor o igual al c odigo maximo, se incluyen en el graco. Por ejemplo,
para especicar que solo los casos con c odigos 0-40 en la variable 6 se van a incluir, se especica:
FILTER=(V6,0,40).
HORIZAXIS=MAXRANGE/X
MAXR Dibujar la variable con el rango mas alto en el eje horizontal.
X Dibujar siempre la variable X en el eje horizontal.
35.7. Restricciones
1. El n umero maximo de variables por ejecuci on es 50. Este maximo incluye todo: variables X y Y,
variables de ltro de graco, variables de ponderaci on y variables usadas en proposiciones de Recode.
2. No hay lmite al n umero de gracos pero SCAT produce solo 5 gracos por cada pasada de los datos
de entrada.
35.8 Ejemplo 271
35.8. Ejemplo
Generacion de dos gracos (ponderados con la variable V100 y sin ponderar) repetidos para tres diferentes
grupos de datos.
$RUN SCAT
$FILES
PRINT = SCAT1.LST
$SETUP
GENERACION DE DOS DIAGRAMAS
X=V21 Y=V3 FILTER=(V5,1,2)
X=V21 Y=V3 FILTER=(V5,1,2) WEIGHT=V100
Captulo 36
B usqueda de estructura (SEARCH)
SEARCH es un procedimiento de segmentacion binaria usado para desarrollar un modelo predictivo para
la(s) variable(s) dependiente(s). Busca en un conjunto de variables predictoras aquellas que mas aumenten
la habilidad del investigador para explicar la variancia o la distribuci on de una variable dependiente. La
pregunta: cual separacion dicotomica sobre la cual una variable individual de predicci on nos dar a una
maxima mejora en nuestra habilidad para predecir valores de la variable dependiente?, inmersa en un
esquema iteractivo, es la base para el algoritmo de este programa.
SEARCH divide la muestra, a traves de una serie de separaciones binarias, en series de subgrupos mutuamente
excluyentes. Los subgrupos escogen de manera que, en cada paso en el procedimiento, la separacion en los
dos nuevos subgrupos explica mas de la variancia o de la distribuci on (reduce mas el error predictivo) que
la separacion en otro par de subgrupos.
SEARCH puede hacer las siguientes funciones:
* Maximizar diferencias en medias de grupo, lneas de regresion de grupo, o distribuciones (criterio
de maxima similitud de Ji-cuadrada).
* Asignar rangos a los predictores para darles preferencia en la partici on.
* Sacricar poder explicativo por simetra.
* Comenzar despues haber generado de una estructura parcial especicada de arbol.
Generacion de un dataset de residuos. Se pueden calcular residuos y llevarlos a la salida como un
archivo Datos descrito por un diccionario IDAMS. Ver Dataset de residuos de salida para los detalles.
Seleccion de casos y variables. Se puede utilizar el ltro est andar para escoger un subconjunto de casos
de los datos de entrada. La(s) variable(s) dependiente(s) se especica(n) en el par ametro DEPVAR y las
predictoras se especican en el par ametro VARS en las proposiciones de predictor.
Tratamiento de datos faltantes. Casos con datos faltantes en una variable dependiente continua o en una
covariada se eliminan autom aticamente. Casos con datos faltantes en una variable dependiente categorica
se pueden excluir con una proposicion de ltro o al especicar c odigos validos con el par ametro DEPVAR.
Casos con datos faltantes en las variables predictoras no se excluyen autom aticamente. Sin embargo, la
proposicion de ltro y/o el par ametro CODES se pueden usar para este prop osito.
274 B usqueda de estructura (SEARCH)
36.3. Resultados
Casos excentricos. (Opcional: ver el par ametro PRINT). Los casos excentricos con los valores de la variable
de identicacion y de la variable dependiente.
Huella. (Opcional: ver el par ametro PRINT, y opciones TRACE y FULLTRACE). La huella de separaciones
para cada predictor en cada separacion, contiene: los grupos candidatos para separar, el grupo escogido para
separar, todas las separaciones elegibles para cada predictor, la mejor separacion para cada predictor y el
grupo separado.
Resumen de analisis contiene el analisis de variancia o distribuci on, el resumen de separacion, el resumen
de grupos nales.
Tablas de resumen de predictores. (Opcional: ver el par ametro PRINT, opciones TABLE, FIRST y
FINAL). Las tablas del primer grupo (PRINT=FIRST), las tablas de grupos nales (PRINT=FINAL) o las
tablas de todos los grupos (PRINT=TABLE), contiene el resumen de las mejores separaciones para cada
predictor para cada grupo. Las tablas se imprimen en orden inverso de grupos, es decir, el ultimo grupo al
comienzo.
Diagrama de arbol. (Opcional: ver el par ametro PRINT). Diagrama de arbol jerarquico. Cada nodo
(caja) del arbol contiene: n umero de grupo, n umero de casos (N), n umero de separacion, n umero de variable
predictora, media de la variable dependiente (para analisis de medias), media de la variable dependiente y
covariada y pendiente (para analisis de regresion).
36.4. Dataset de residuos de salida
Los residuos se pueden llevar opcionalmente a la salida en la forma de un archivo Datos descrito por un
diccionario IDAMS. (Ver el par ametro WRITE). Para analisis de medias y de regresion y para analisis
de Ji-cuadrada con variables dependientes m ultiples, cada registro contiene: una variable de identicacion,
la variable de grupo, variable(s) dependiente(s), una(s) variable(s) dependiente(s) predicha(s) (calculada),
residuo(s) y una ponderaci on, si la hay.
Para analisis de Ji-cuadrada con una variable dependiente categorica, contiene: una variable de identicacion,
la variable de grupo, la primera categora de la variable dependiente, la primera categora predicha (calculada)
de la variable dependiente, el residuo para la primera categora de la variable dependiente, la segunda
categora de la variable dependiente, la segunda categora predicha (calculada) de la variable dependiente,
el residuo para la segunda categora de la variable dependiente, etc. y una ponderaci on, si la hay.
Las caractersticas de las variables de salida son las siguientes:
N umero de Ancho de N umero de Codigo
variable Nombre campo decimales MD1
(variable de grupo) 2 Group variable 3 0 999
(var dependiente 1) 3 igual a entrada * ** igual a entrada
(var predicha 1) 4 igual a entrada cal 7 *** 9999999
(residuo para var 1) 5 igual a entrada res 7 *** 9999999
(var dependiente 2) 6 igual a entrada * ** igual a entrada
(var predicha 2) 7 igual a entrada cal 7 *** 9999999
(residuo para var 2) 8 igual a entrada res 7 *** 9999999
... . ... . ... ...
(ponderaci on - si hay) n igual a entrada * ** igual a entrada
Si el valor calculado o el del residuo execeden el ancho de campo asignado, se reemplaza por el c odigo MD1.
deben ser numericas; pueden tener valores decimales o enteros. La variable dependiente puede ser continua
o categorica. Las variables predictoras pueden ser ordinales o categoricas. La variable de identicacion de
caso puede ser alfabetica.
$RUN SEARCH
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
4. Especificaciones de predictores
5. Especificaciones de separaciones predefinidas (opcional)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
DICTyyyy diccionario de residuos de salida
DATAyyyy datos de residuos de salida
Ejemplo: BUSCANDO ESTRUCTURA
Ejemplo: DEPV=V5
INFILE=IN/xxxx
MAXCASES=n
ANALYSIS=MEAN/REGRESSION/CHI
MEAN Analisis de medias.
REGR Analisis de regresion.
CHI Analisis de Ji-cuadrada. Con una sola variable dependiente, se usara la lista de c odigos
por defecto 0-9 y no se har a vericacion de datos faltantes.
DEPVAR=n umero de variable/(lista de variables)
La variable o variables dependientes. N otese que se puede suministrar una lista de variables
solamente cuando se especica ANALYSIS=CHI.
CODES=(lista de c odigos)
Solamente se puede suministrar una lista de c odigos para ANALYSIS=CHI y una variable de-
pendiente. N otese que en este caso no se hace vericacion de datos faltantes para la variable
dependiente y solo se usan en el anaisis los casos con c odigos listados.
COVAR=n umero de variable
El n umero de la variable covariada. Debe suministrase para ANALYSIS=REGR.
MINCASES=25/n
N umero mnimo de casos en un grupo.
MAXPARTITIONS=25/n
N umero maximo de particiones.
SYMMETRY=0/n
La cantidad de poder explicativo que se quiere perder para obtener simetra, expresado como un
porcentaje.
EXPL=0.8/n
Incremento mnimo en el poder explicativo que se requiere para una separacion, expresado como
un porcentaje.
OUTDISTANCE=5/n
N umero de desviaciones est andar de la media del grupo al que pertenecen, que denen un caso
excentrico. N otese que se reportan los casos excentricos si se especica PRINT=OUTL, pero no
se excluyen del analisis.
Variable que sale con los residuos y/o que se imprime con cada caso clasicado como caso excentri-
co.
WRITE=RESIDUALS/CALCULATED/BOTH
Residuos y/o valores calculados que se escribiran como un dataset IDAMS.
RESI Salen solo valores de residuos.
CALC Salen solo valores calculados.
BOTH Salen valores de residuos y valores calculados.
OUTFILE=OUT/yyyy
S olo se aplica si se especica WRITE.
Un sujo de ddname de 1-4 caracteres para los archivos Diccionario y Datos de residuos de salida
PRINT=(CDICT/DICT, TRACE, FULLTRACE, TABLE, FIRST, FINAL, TREE, OUTLIERS)
hay.
TRAC Imprimir la huella de separaciones para cada predictor para cada separacion.
FULL Imprimir la huella completa de separaciones para cada predictor, incluidas las separa-
ciones elegibles pero sub-optimas.
TABL Imprimir las tablas de resumen de predictores para todos los grupos.
FIRS Imprimir las tablas de resumen de predictores para el primer grupo.
FINA Imprimir las tablas de resumen de predictores para los grupos nales.
TREE Imprimir el diagrama del arbol jerarquico.
OUTL Imprimir los casos excentricos con valores de variable identicadora y de variable de-
pendiente.
4. Especicaciones de predictores (mandatorio). Suministrar un conjunto de par ametros para cada
grupo de predictores que se pueda describir con los mismos valores de los par ametros. Las reglas de
codicacion son las mismas de los par ametros. Cada especicaci on de predictor debe comenzar en una
nueva lnea.
Ejemplo: VARS=(V8,V9) TYPE=F
Variables predictoras a las cuales se aplican los otros par ametros.
TYPE=M/F/S
La restriccion del predictor.
M Los predictores se consideran monotonicos, es decir, los c odigos de predictores se van
a mantener adyacentes durante el barrido de la partici on.
F Los c odigos de predictores se consideran libres.
S Los c odigos de predictores se selecionaran y separaran de los c odigos restantes al
formar particiones de ensayo.
CODES=(0-9)/m aximo c odigo/(lista de c odigos)
El valor de c odigo mas grande aceptable o una lista de c odigos aceptables. Los c odigos pueden
estar en el rango de 0 a 31. Los casos con c odigo fuera del rango 0 a 31 siempre se descartan.
RANK=n
Rango asignado. Si desean rangos, se asigan un rango predictor de 0 a 9. Un rango de cero indica
que se van a calcular estadsticas para los predictores, pero no se van a usar al hacer las particiones.
5. Especicaciones de separaciones predenidas (opcional). Si desean separaciones predenidas, se
suministra un conjunto de par ametros para cada separacion predenida. Las reglas de codicacion son
las mismas de los par ametros. Cada especicaci oon de separacion predenida debe comenzar en una
nueva lnea.
Ejemplo: GNUM=1 VAR=V18 CODES=(1-3)
GNUM=n
El n umero del grupo a separar. Los grupos se especican en orden ascendente, en donde la muestra
entera original es el grupo 1. Cada conjunto de par ametros forma dos nuevos grupos.
VAR=n umero de variable
Variable predictora que se usa para hacer la separacion.
CODES=(lista de c odigos)
Lista de los c odigos del predictor que denen el primer subgrupo. Todos los dem as c odigos
perteneceran al segundo subgrupo.
36.8. Restricciones
1. N umero mnimo de casos requerido es 2 * MINCASES.
2. N umero maximo de predictores es 100.
3. Valor maximo de predictor es 31.
4. N umero maximo de c odigos de variables categoricas es 400.
5. N umero maximo de separaciones perdenidas es 49.
36.9. Ejemplos
Ejemplo 1. Analisis de medias con cinco variables predictoras; se solicita un mnimo de 10 casos por grupo;
se reportan los casos excentricos con mas de 3 desviaciones est andar de la media del grupo; los casos se
identican con la variable V1.
$RUN SEARCH
$FILES
PRINT = SEARCH1.LST
$SETUP
ANALISIS DE MEDIAS - CINCO VARIABLES PREDICTORAS
DEPV=V4 MINC=10 OUTD=3 IDVAR=V1 PRINT=(TRACE,TREE,OUTL)
VARS=(V3-V5,V12)
VARS=V21 TYPE=F CODES=(1-4)
Ejemplo 2. Analisis de regresion con seis variables predictoras; se van a computar residuos y valores calcu-
lados y se van a escribir en un dataset (los casos se identican con la variable V2).
36.9 Ejemplos 279
$RUN SEARCH
$FILES
PRINT = SEARCH2.LST
DICTOUT = RESID.DIC archivo Diccionario para residuos
DATAOUT = RESID.DAT archivo Datos para residuos
$SETUP
ANALISIS DE REGRESION - SEIS VARIABLES PREDICTORAS
ANAL=REGR DEPV=V12 COVAR=V7 MINC=10 IDVAR=V2 -
WRITE=BOTH PRINT=(TRACE,TABLE,TREE)
VARS=(V3-V5,V18)
VARS=V22 TYPE=F
Ejemplo 3. Analisis de Ji-cuadrada con una variable dependiente categorica y c odigos seleccionados; se
predenen las dos primeras separaciones.
$RUN SEARCH
$FILES
$SETUP
ANALISIS DE JI: VARIABLE DEPENDIENTE CATEGORICA, SEPARACIONES PREDEFINIDAS
ANAL=CHI DEPV=V101 CODES=(1-5) MINC=5 PRINT=(FINAL,TREE)
VARS=(V3,V8) TYPE=S
GNUM=1 VAR=V8 CODES=3
GNUM=2 VAR=V3 CODES=(1,2)
Captulo 37
Tablas univariadas y bivariadas
(TABLES)
El uso principal de TABLES es obtener listados de tablas de frecuencias univariadas y bivariadas con la
opcion de mostrar porcentajes de la, columna y esquina, y de manera opcional, estadsticas univariadas y
bivariadas. Tambien se pueden obtener tablas de valores medios de una variable.
Ambos las tablas univariadas/bivariadas y estadsticas bivariadas se pueden bajar a un archivo de manera
que se utilicen desde un programa generador de informes con un formato escogido por el mismo usuario, o
puede entrar a GraphID u otros paquetes, tales como EXCEL, por despliegue graco.
Tablas univariadas. Se pueden generar frecuencias univariadas y frecuencias univariadas acumulativas
para cualquier n umero de variables de entrada y se pueden tambien expresar como porcentajes de la frecuencia
total ponderada o sin ponderar. Adicionalmente se puede obtener la media de una variable de celda.
Tablas bivariadas. Se puede generar cualquier n umero de tablas bivariadas. Adicionalmente a las frecuen-
cias ponderadas y/o sin ponderar, una tabla puede tener frecuencias expresadas como porcentajes basados
en los marginales por la y columna o en el total de la tabla y la media de una variable de una celda. Todos
estos tems se pueden incluir en una sola tabla hasta con seis tems por celda, o bien, se puede imprimir cada
una individualmente como una tabla separada.
Estadsticas univariadas. Para analisis univariado, se dispone de las siguientes estadsticas: media, moda,
mediana, variancia (sin asimetra), desviacion est andar, coeciente de variacion, asimetra y kurtosis. Existe
tambien una opcion de cuantiles (NTILE). Se puede solicitar una divisi on desde tres partes hasta diez partes.
Estadsticas bivariadas. Para el analisis bivariado, se pueden solicitar las siguientes estadsticas:
- pruebas-t de medias (asume poblaciones independientes) entre pares de las,
- Ji-cuadrada, coeciente de contingencia y V de Cramer,
- Taus de Kendall, Gama, Lambdas,
- S (numerador de las estadsticas taus y gama), su desviacion est andar y normal, y su variancia,
- ro de Spearman,
- estadsticas para medicina basada en evidencia (EBM),
- pruebas no parametricas: Wilcoxon, Mann-Whitney y Fisher.
Matrices de estadsticas. Con excepcion de las pruebas, estadsticas EBM o estadsticas que involucren a
S, se pueden imprimir o bajar a un archivo, matrices con todas las estadsticas bivariadas mencionadas. Se
pueden producir las matrices correspondientes a n ponderadas o sin ponderar.
Tablas de 3 y de 4 entradas. Estas tablas se pueden construir haciendo uso de las posibilidades de
repetici on y de divisi on en subconjuntos. La variable de repetici on se puede pensar como una variable de
control o de panel. La posibilidad de dividir en subconjuntos puede usarse para escoger mas casos para un
grupo en particular de tablas.
282 Tablas univariadas y bivariadas (TABLES)
Tablas de sumas. Se pueden producir tablas en las cuales las celdas contengan la suma de una variable de-
pendiente si se especica la variable dependiente como el factor de ponderaci on. Por ejemplo, WEIGHT=V208,
donde V208 representa el ingreso de un encuestado, y se quiere obtener el ingreso total de todos los encues-
tados en una sola celda.
Nota. Se tienen las siguientes opciones para controlar la presentacion de los resultados:
Se puede asignar un ttulo para cada conjunto de tablas.
Se pueden imprimir porcentajes y las medias en tablas separadas si se desea.
Se puede suprimir la malla de celdas.
Se pueden imprimir las las que no tengan entradas en una secci on particular de una tabla de
frecuencias grande; las tablas que tengan mas de diez columnas se imprimen por secciones y el
uso de la opcion zero rows (cero las) asegura que las diferentes secciones tengan el mismo
n umero de las (lo cual es importante si estas se van a recortar y pegar posteriormente).
los datos de entrada. Ademas, se pueden usar ltros locales y factores de repetici on (llamados especicaciones
de subconjunto) para escoger un subconjunto de casos para una tabla en particular. En tablas especicadas
individualmente, la variable o variables a utilizar con la tabla se escogen con los par ametros de especicaci on
de tabla R y C. Para conjuntos de tablas, las variables se seleccionan con los par ametros de especicaci on
de tabla ROWVARS y COLVARS.
Transformaci on de datos. Se pueden usar las proposiciones de Recode. N otese que para las variables R
el programa utiliza el n umero de cifras decimales dado en el par ametro NDEC.
Ponderaci on de datos. Se puede especicar, de manera opcional, una variable de ponderaci on para cada
conjunto de tablas. Las variables V y R con decimales se multiplican por un factor de escala para obtener
valores enteros. Ver la secci on Dataset de entrada abajo.
Cuando el valor de la variable de ponderaci on para un caso es cero, negativo, dato faltante o no numerico,
entonces el caso siempre se omite; se imprime el n umero de casos as tratados.
1. El par ametro MDVALUES est a disponible para indicar cuales valores de datos faltantes, si los hay, se
usaran para vericar los datos faltantes.
2. Las frecuencias univariadas y bivariadas se imprimen siempre para todos los c odigos en los datos sin
importar si se trata de datos faltantes o no. Para retirar completamente de las tablas los datos faltantes,
se puede especicar un ltro o un subconjunto de casos. Alternativamente, se pueden denir valores
maximos y/o mnimos de las variables de la y de columna.
3. Los casos con datos faltantes, se pueden opcionalmente incluir en los c alculos de porcentajes y de las
estadsticas bivariadas. Esto se puede hacer con el par ametro de tabla MDHANDLING.
4. Los casos con datos faltantes en la variable de celda se excluyen siempre de las tablas univariadas y
bivariadas.
5. Los casos con datos faltantes, se excluyen siempre de los c alculos de las estadsticas univariadas.
37.3. Resultados
Una tabla de contenido del listado. El contenido indica cada tabla producida y da el n umero de p agina
en el cual est a localizada. Se suministra la informacion siguiente:
37.3 Resultados 283
- n umeros de variables de la y columna (0 si no hay)
- numero de variable para el valor de la media - variable de celda (0 si no hay)
- n umero de la variable de ponderaci on (0 si no hay)
- valores mnimo y maximo de la (0 si no hay)
- valores mnimo y maximo de columna (0 si no hay)
- nombre de ltro y nombre del factor de repetici on
- porcentajes: la, columna y total (T=solicitado, F=no solicitado)
- RMD: datos faltantes para la variable de la (T=eliminar, F=no eliminar)
- CMD: datos faltantes para la variable de columna (T=eliminar, F=no eliminar)
- CHI: Ji-cuadrada (T=solicitada, F=no solicitada)
- TAU: tau a, b o c (T=solicitada, F=no solicitada)
- GAM: gama (T=solicitada, F=no solicitada)
- TEE: pruebas t (T=solicitadas, F=no solicitadas)
- EXA: prueba no parametrica de Fisher (T=solicitada, F=no solicitada)
- WIL: prueba no parametrica de Wicoxon (T=solicitada, F=no solicitada)
- MW: prueba no parametrica de Mann-Whitney (T=solicitada, F=no solicitada)
- SPM: ro de Spearman (T=solicitada, F=no solicitada)
- EBM: estadsticas para medicina basada en evidencia (T=solicitadas, F=no solicitadas).
Las tablas que se solicitan con los par ametros de tabla PRINT=MATRIX o WRITE=MATRIX no se
imprimen en el contenido y siempre se imprimen primero con n umeros de p agina y de tabla negativos.
Otras tablas se imprimen en el orden de las especicaciones de la tabla, excepto para aquellas en las cuales
solo se hayan solicitado las estadsticas univariadas; estas siempre se agrupan juntas al nal del listado.
Tablas bivariadas. Cada tabla bivariada comienza en una p agina nueva; una tabla grande puede ocupar
mas de una p agina. Las tablas se imprimen con un maximo hasta de 10 columnas y 16 las por p agina, seg un
el n umero de tems de cada celda. Las las y columnas se imprimen solo para los c odigos que aparezcan en
los datos. Los totales de las y columnas y las frecuencias acumuladas marginales y porcentajes se imprimen,
si as se ha solicitado, alrededor de los bordes de la tabla.
Una tabla grande se imprime por tiras verticales. Por ejemplo, una matriz con 40 las de c odigos y 40
columnas de codigos se imprimira normalmente en 12 p aginas tal como se muestra en el siguiente diagrama,
en el cual los n umeros en las celdas muestran el orden en el cual se imprimen las p aginas:
primeros segundos terceros cuartos
10 10 10 10 codigos
primeros 16 codigos 1 4 7 10
segundos 16 codigos 2 5 8 11
ultimos 8 codigos 3 6 9 12
Estadsticas bivariadas. (Opcional: ver el par ametro de tabla STATS)
Pruebas-t. (Opcional: ver el par ametro de tabla STATS). Si se solicitan pruebas-t, se imprimen estas y las
medias y las desviaciones est andar de la variable de columna para cada la en una p agina separada.
Matrices de estadsticas bivariadas. (Opcional: ver el par ametro de tabla PRINT). Se imprime la esquina
inferior izquierda de la matriz. Se imprimen 8 columnas y 25 las por p agina.
Matriz de las N. (Opcional: ver el par ametro de tabla PRINT). Se imprime con el mismo formato de la
matriz estadstica correspondiente.
Tablas univariadas. (Opcional: ver el par ametro de tabla CELLS). Normalmente, cada tabla univariada
se imprime al comienzo de una nueva p agina. Se imprimen las frecuencias, porcentajes y las medias de una
variable, si se han solicitado, para diez c odigos en una p agina.
Estadsticas univariadas. (Opcional: ver el par ametro de tabla USTATS).
Cuantiles. (Opcional: ver el par ametro de tabla NTILE). Se imprimen N-1 puntos, por ej. si se han solicitado
cuartiles, el par ametro NTILE toma el valor 4 y se imprimen 3 puntos de separacion.
Numeraci on de paginas. Es de la forma ttt.rr.ppp donde:
ttt = n umero de la tabla
rr = n umero de repetici on (00 si no se usa)
ppp = n umero de p agina dentro de cada tabla.
37.4. Tablas univariadas/bivariadas de salida
Se pueden obtener en un archivo, tablas univariadas y bivariadas con las estadsticas solicitadas en el
par ametro CELLS, si se especica WRITE=TABLES. Las tablas est an en el formato de matriz rectan-
gular de IDAMS (ver el captulo Los datos en IDAMS). Se produce una matriz para cada estadstica
solicitada. Si se usa un factor de repetici on, se produce una matriz para cada repetici on.
Las columnas 21-80 del registro descriptor de la matriz, contienen la siguiente description adicional de la
matriz:
21-40 Nombre de la variable de la (para tablas bivariadas).
41-60 Nombre de la variable de columna.
61-80 Descripcion de los valores en la matriz.
Los registros de identicacion de variable (#R and #C) contienen valores y nombres de c odigo para las
variables de la y de columna respectivamente.
Las estadsticas se escriben como registros de 80 caracteres de acuerdo con un formato Fortran 7F10.2. Las
columnas 73-80 contienen un identicador de la manera siguiente:
73-76 Identicacion de la estadstica: FREQ, UNFR, ROWP, COLP, TOTP o MEAN.
77-80 N umero de tabla.
N otese que los c odigos de datos faltantes no se incluyen en la matriz.
37.5. Matrices de estadsticas bivariadas de salida
Se pueden seleccionar estadsticas para bajarlas a un archivo. Por ejemplo, si se han seleccionado gamas y
taus, entonces se generara una matriz de gamas y una matriz de taus separadamente. Las matrices de salida
de estadsticas bivariadas se solicitan con las especicaciones WRITE=MATRIX o bien con los par ametros
de tabla ROWVARS o ROWVARS y COLVARS. Si se usa un factor de repetici on, se baja al archivo una
matriz por cada repetici on. Las matrices son de la forma matriz de IDAMS cuadrada o rectangular (ver el
captulo Los datos en IDAMS). Los valores en la matriz se escriben con el formato Fortran 6F11.5. Las
columnas 73-80 contienen la siguiente identicacion:
73-76 Identicacion de la estadstica: TAUA, TAUB, TAUC, GAMM, LSYM, LRD, LCD, CHI, CRMV
o RHO.
77-80 N umero de tabla.
Nota. Si se suministra solo ROWVARS, se escriben registros de medias y desviaciones est andar cticias,
2 registros por 60 variables. El segundo registro de formato (#F) en el diccionario especica un formato
60I1 para estos registros cticios. Esto se hace de manera que la matriz se ajuste al formato de una matriz
IDAMS cuadrada.
La entrada es un archivo Datos descrito por un diccionario IDAMS. Excepto variables del ltro principal,
todas otras variables referidas deben ser numericas.
En distribuciones y ponderaciones, las variables V y R con cifras decimales se multiplican por un factor de
escala para obtener valores enteros. Este factor se calcula como 10
n
donde n es el n umero de decimales del
diccionario para las variables V y del par ametro NDEC para las variables R, y aparece en los resultados
para cada variable.
Estadsticas univariadas sin distribuciones se calculan usando el n umero de decimales del diccionario para
las variables V y del par ametro NDEC para las variables R.
Los campos con caracteres no-numericos (incluidos campos en blanco) se pueden tabular con el par ametro
BADDATA con MD1 o MD2. Ver el captulo El archivo Setup de IDAMS.
$RUN TABLES
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
5. TABLES
6. Especificaciones de tablas (tantas como sean necesarias)
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Archivos:
FT02 tablas/matrices de salida
Referirse al el captulo El archivo Setup de IDAMS para una descripcion mas detallada de las proposiciones
de control del programa, 1-3 y 6 a continuacion.
Ejemplo: TABLAS DE FRECUENCIAS
3. Parametros (mandatorio). Para seleccionar opciones del programa. Los nuevos par ametros son pre-
cedidos por un asterisco.
Ejemplo: BADDATA=SKIP
INFILE=IN/xxxx
MAXCASES=n
* NDEC=0/n
N umero de decimales (m aximo 4) a conservar para las variables R.
PRINT=(CDICT/DICT, TIME)
hay.
TIME Imprimir el tiempo despues de cada tabla.
4. Especicaciones de subconjuntos (opcional). Estas proposiciones permiten escoger un subconjunto
de casos para una tabla o un conjunto de tablas.
Ejemplo: CLASS INCLUDE V8=1,2,3,-7,9
Hay dos clases de especicaci on de subconjunto: ltros locales y factores de repetici on. Cada uno tiene
una funci on diferente, pero sus formatos son muy similar. Una especicaci on se puede utilizar como
ltro local para una o mas tablas y como un factor de repetici on para otras.
nombre
izquierda.
proposicion
Denicion del subconjunto que siga la sint axis del ltro est andar de IDAMS.
Para los factores de repetici on, solo se puede especicar una variable en la expresion.
A continuacion se describe como trabajan los ltros locales y los factores de repetici on.
Filtros locales. Una especicaci on de subconjunto se identica como un ltro local para una tabla o
un conjunto de tablas, al especicar el nombre del subconjunto con el par ametro FILTER. El ltro local
funciona de la misma manera que el ltro est andar excepto que se aplica solamente a las especicaciones
de la tabla en la cual ha sido referido.
Ejemplo: EDUCATN INCLUDE V4=0-4,9 AND V5=1
(nombre subconjunto) (expresi on)
En el ejemplo anterior, si EDUCATN se dene como ltro local en las especicaciones de la tabla, la
tabla se producira con la inclusi on de solo aquellos casos con c odigos 0,1,2,3,4 o 9 para V4 y 1 para
V5.
Factores de repetici on. Una especicaci on de subconjunto se identica como un factor de repetici on
para una tabla o un conjunto de tablas, al especicar el nombre del subconjunto con el par ametro
REPE. S olo se debe dar una variable en una especicaci on de subconjunto para usarla como factor
de repetici on. Los factores de repetici on permiten la generaci on de tablas de 3 entradas, en donde la
variable utilizada en el factor de repetici on, se puede considerar como una variable de control o de
panel. Si se utiliza un factor de repetici on y un ltro, se puede obtener una tabla de 4 entradas.
Las expresiones INCLUDE, hacen que las tablas producidas incluyan los casos para cada valor o rango
de valores de la variable de control utilizada en la expresi on. Los valores o rangos se separan con comas.
As si hay n comas en la expresion, se produciran n+1 tablas.
Ejemplo: EDUCATN INCLUDE V4=0-4,9
En el ejemplo anterior, si EDUCATN se designa como un factor de repetici on, resultaran dos tablas:
una que la incluye los casos codicados 0-4 para la variable 4, y otra que incluye los casos codicados
9 para la variable 4.
EXCLUDE se puede usar para producir tablas con todos los valores excepto aquellos especicados.
Ejemplo: EDUCATN EXCLUDE V1=1,4
En el ejemplo anterior, si EDUCATN se designa como un factor de repetici on, resultaran dos tablas:
una con todos los valores excepto 1 y otra con todos los valores excepto 4.
5. TABLES. La palabra TABLES en esta lnea, se nala que siguen especicaciones de tablas. Debe
incluirse (con el objeto de separar las especicaciones de subconjuntos de las especicaciones de tablas)
y solo debe aparecer una vez.
6. Especicaciones de tablas. Las especicaciones de tablas se utilizan para describir las caractersticas
de las tablas que se van a producir. Las reglas de codicacion son las mismas de los par ametros. Cada
conjunto de especicaciones de tabla debe comenzar en una lnea nueva.
Ejemplos:
R=(V6,1,8) CELLS=FREQS (una tabla univariada)
R=(V6,1,8) C=(V9,0,4) - (una tabla bivariada con factor de repetici on,
REPE=SEX CELLS=(ROWP,FREQS) es decir tabla de 3 entradas)
ROWV=(V5-V9) CELLS=FREQS - (conjunto de tablas univariadas)
USTA=MEAN
ROWV=(V3,V5) COLV=(V21-V31) - (conjunto de tablas bivariadas)
R=(0,1,8) C=(0,1,99)
ROWVARS=(lista de variables)
Lista de variables para la cual se requieren tablas univariadas o lista de variables que se va a usar
como las en tablas bivariadas.
COLVARS=(lista de variables)
Lista de variables a usar como columnas para tablas bivariadas.
R=(var, rmin, rmax)
var N umero de variable de la o de variable univariada de una tabla individual. Para
suministrar los valores maximos y mnimos de un conjunto de tablas, coloque el n umero
de variable en ceros, por ej. R=(0,1,5); en este caso los c odigos maximos y mnimos se
aplican a todas las variables en el par ametro ROWVARS.
rmin Codigo mnimo de la(s) variable(s) de la para los c alculos estadsticos y de porcentajes.
rmax Codigo maximo de la(s) variable(s) de la para los c alculos estadsticos y de porcenta-
jes.
Si se especica rmin o rmax, entonces se deben especicar ambos. Si solo se especica el n umero
de variable, los valores maximos y mnimos no se aplican.
C=(var, cmin, cmax)
var N umero de variable de columna para una tabla bivariada individual. Para suministrar
los valores maximos y mnimos de un conjunto de tablas, coloque el n umero de variable
en ceros, por ej. C=(0,2,5); en este caso los c odigos maximos y mnimos se aplican a
todas las variables en el par ametro COLVARS.
cmin Codigo mnimo de la(s) variable(s) de columna para los c alculos estadsticos y de
porcentajes.
cmax Codigo maximo de la(s) variable(s) de columna para los c alculos estadsticos y de
porcentajes.
Si se especica cmin o cmax, entonces se deben especicar ambos. Si solo se especica el n umero
de variable, los valores maximos y mnimos no se aplican.
TITLE=ttulo de la tabla
Ttulo para imprimir en el encabezamiento de cada tabla en este conjunto.
Por defecto: no imprime ttulo.
CELLS=(ROWPCT, COLPCT, TOTPCT, FREQS/NOFREQS, UNWFREQS, MEAN)
Contenido de las celdas de tablas cuando se ha especicado PRINT=TABLES o WRITE=TABLES.
ROWP Porcentajes para tablas univariadas o porcentajes basados en totales de la para tablas
bivariadas.
COLP Porcentajes basados en totales de columnas en tablas bivariadas.
TOTP Porcentajes basados en el gran total en tablas bivariadas.
FREQ Conteos de frecuencia ponderada (el mismo sin ponderar si no se especica WEIGHT).
UNWF Conteos de frecuencia sin ponderar.
MEAN Media de la variable especicada por VARCELL.
VARCELL=n umero de variable
El n umero de la variable para la cual se va calcular la media en cada celda de la tabla.
MDHANDLING=ALL/R/C/NONE
Indica cuales valores de datos faltantes deben excluirse de los c alculos de porcentajes y estadsticas
bivariadas.
ALL Eliminar todos los valores de datos faltantes.
R Eliminar los valores de datos faltantes para las variables de la.
C Eliminar los valores de datos faltantes para las variables de columna.
NONE No eliminar valores de datos faltantes.
Nota: los casos con datos faltantes siempre se excluyen de las estadsticas univaridas.
FILTER=xxxxxxxx
El nombre de 1-8 caracteres de la especicaci on de subconjunto que se va a usar como ltro local.
Debe estar encerrado entre comillas sencillas si tiene caracteres no-alfanumericos. Si el nombre
no coincide con alguno de los nombres de las especicaciones de subconjunto, se salta la tabla.
Se deben usar letras may usculas con el objeto de hacer encajar el nombre en la especicaci on de
subconjuntos el cual se convierte autom aticamente a may usculas.
REPE=xxxxxxxx
El nombre de 1-8 caracteres de la especicaci on de subconjunto que se va a usar como factor
de repetici on. Debe estar encerrado entre comillas sencillas si tiene caracteres no-alfanumericos.
Si el nombre no coincide con alguno de los nombres de las especicaciones de subconujunto, se
salta la tabla. Las tablas se repetiran para cada grupo de casos especicado. Se deben usar letras
may usculas con el objeto de hacer encajar el nombre en la especicaci on de subconjuntos el cual
se convierte autom aticamente a may usculas.
USTATS=(MEANSD, MEDMOD)
(Solo tablas univariadas).
MEAN Imprimir media, mnimo, maximo, variancia (sin asimetra), desviacion est andar, coe-
ciente de variacion, asimetra, kurtosis, total de casos ponderados y sin ponderar.
MEDM Imprimir mediana y moda (si hay ataduras, se escoge el valor numerico mas peque no).
NTILE=n
(Solo tablas univariadas).
La n es el n umero de cuartiles que se van a calcular; debe estar en el rango 3-10.
STATS=(CHI, CV, CC, LRD, LCD, LSYM, SPMR, GAMMA, TAUA, TAUB, TAUC, EBMSTAT,
WILC, MW, FISHER, T)
Si se va imprimir o producir como salida alguna de las estadsticas bivariadas, suministrar el
par ametro STAT con cada una de las estadsticas deseadas.
Tablas bivariadas y matrices de salida
CHI Ji-cuadrada. (Si no se ha pedido MATRIX, la selecci on de CHI, CV o CC har a que se
calculen las tres).
CV V de Cramer.
CC Coeciente de contingencia.
LRD Lambda, variable de la es la variable dependiente. (Si no se ha pedido MATRIX, la
selecci on de cualquiera de las lambdas har a que se calculen las tres).
LCD Lambda, variable de columna es la variable dependiente.
LSYM Lambda, simetrica.
SPMR Estadstica Ro de Spearman.
GAMM Estadstica Gama.
TAUA Estadstica tau a. (Si no se ha pedido MATRIX, la selecci on de cualquiera de las taus
har a que se calculen las tres).
TAUB Estadstica tau b.
TAUC Estadstica tau c.
Tablas bivariadas solamente
EBMS Estadsticas para medicina basada en evidencia.
WILC Prueba de rangos con signo de Wilcoxon.
MW Prueba de Mann-Whitney.
FISH Prueba exacta de Fisher.
T Pruebas-t entre todas las combinaciones de las, hasta un lmite de 50 las.
DECPCT=2/n
N umero de decimales impresos para porcentajes, maximo cuatro.
DECSTATS=2/n
N umero de decimales impresos para las estadsticas media, mediana, taus, gama, lambdas y Ji-
cuadrada. Todas las dem as estadsticas se imprimiran con 2+n decimales (es decir, por defecto
4).
WRITE=MATRIX/TABLES
Si se va a generar un archivo de salida, se debe suministrar el par ametro WRITE y el tipo de
salida.
MATR Bajar al archivo las matrices de estadsticas seleccionadas.
Si el par ametro ROWVARS se especica, se produce una matriz cuadrada para cada
estadstica solicitada en el par ametro STATS con todos los apareamientos de las vari-
ables que aparecen en la lista.
Si se especican los par ametros ROWVARS y COLVARS, se produce una matriz rect-
angular para cada estadstica solicitada en el par ametro STATS con cada variable que
aparezca en la lista de ROWVARS, apareada con cada variable que aparezca en la lista
de COLVARS.
TABL Bajar al archivo las tablas de estadsticas solicitadas en el par ametro CELLS.
PRINT=(TABLES/NOTABLES, SEPARATE, ZEROS, CUM, GRID/NOGRID,
N, WTDN, MATRIX)
Opciones que se reeren a tablas univariadas/bivariadas solamante.
TABL Imprimir las tablas con tems especicados por CELLS.
SEPA Imprime cada tem especicado en CELLS como una tabla separada.
ZERO Mantener las las con marginales cero en el listado. (S olo aplica si la tabla tiene mas
de 10 columnas y por lo tanto ha de imprimirse por tiras).
CUM Imprimir frecuencias y porcentajes acumulados y marginales por la y columna. Si los
datos son ponderados, las cifras se calculan sobre frecuencias ponderadas solamente.
GRID Imprimir la malla alrededor de las celdas de tablas bivariadas.
NOGR Suprimir la malla alrededor de las celdas de tablas bivariadas.
Opciones que se reeren a WRITE=MATRIX solamente.
N Imprimir la matriz de las n para las matrices de estadsticas solicitadas.
WTDN Imprimir la matriz de las n ponderadas, para las matrices de estadsticas solicitadas.
MATR Imprimir las matrices de estadsticas especicadas con STATS.
37.9. Restricciones
1. El n umero maximo de variables para frecuencias univariadas es 400.
2. La combinaci on de variables y especicaciones de subconjuntos est a sujeta a la siguiente restriccion:
5NV + 107NF < 8499
donde NF es el n umero de especicaciones de subconjuntos y NV es el n umero de variables.
3. Los valores de los c odigos en tablas univariadas deben estar dentro del rango -2,147,483,648 a 2,147,483,647.
4. Los valores de los c odigos para tablas bivariadas deben estar en el rango -32,768 a 32,768. Cualesquiera
valores de c odigo fuera de este rango, se recodican inmediatamente a los valores de los puntos extremos
del rango, por ej. -40,000 se recodicar a a -32,768 y 40,000 se convertira en 32,768. De esta manera, en
las especicaciones de tablas bivariadas, 32,768 corresponde al maximo valor maximo. (Notese que
una variable de 5 dgitos con un c odigo de datos faltantes de 99999 tendra en el listado la la de dato
faltante con ttulo 32,768).
5. La frecuencia maxima acumulada, ponderada o sin ponderar para una tabla (y para cualquier celda,
la o columna) es 2,147,483,647.
6. Dimensiones maximas de la tabla.
Bivariada: 500 c odigos de la, 500 c odigos de columna, 3000 celdas con entidades diferentes
de cero.
Univariada: 3000 categoras cuando se hayan solicitado frecuencias, mediana/moda; de lo
contrario, son ilimitadas.
Nota: para una variable como ingreso, si hay mas de 3000 valores unicos de ingreso, no se
puede obtener una mediana o una moda sin antes haber agrupado la variable.
7. Los valores no enteros de las variables tipo V en distribuciones y ponderaciones se tratan como si no
existiera el punto decimal; se imprime un factor de escala para cada variable.
8. Las pruebas-t de medias entre las se llevan a cabo solamente en las primeras 50 las de una tabla.
9. Para la salida de la matriz de estadsticas bivariadas, el maximo n umero de variables por la o columna
es de 95.
10. Si se van a producir archivos de salida para frecuencias bivariadas y matrices de estadsticas, todos
van al mismo archivo fsico de salida.
11. Cuando se utilizan variables recodicadas, no se pueden titular las las y las columnas de las tablas.
37.10 Ejemplo 291
37.10. Ejemplo
En el ejemplo a continuacion, se piden las siguientes tablas:
1. Conteos de frecuencia para las variables V201-V220.
2. Estadsticas univariadas sin tablas de frecuencias para las variables V54-V62 y V64. Las medias tendran
un decimal y las dem as estadsticas 3 decimales.
3. Conteos de frecuencias ponderadas y sin ponderar y porcentajes con frecuencias acumuladas y por-
centajes para las variables V25-V30 y la versi on agrupada de la variable V7. Los casos con datos
faltantes no se excluiran de los porcentajes o de las estadsticas. Se solicitan la mediana y la moda.
4. Para las categoras de la variable individual V201, se piden conteos de frecuencias y la media de la
variable V54.
5. 8 tablas bivariadas (con variables de la V25-V28 y variables de columna V29, V30) repetidas por los
valores 1 y 2 de la variable 10 (sexo), es decir que la variable sexo se utiliza como variable de panel
(control). En cada celda habr a conteos, porcentajes por las, por columnas y por totales. Se piden las
estadsticas Ji-cuadrada y Taus.
6. Tablas de 3 entradas con la region (V3) agrupada en tres categoras como variable de panel. Las tablas
se restringen a casos de hombres solamente (V10=1). En cada celda aparecer an conteos de frecuencias
y media de la variable V54.
7. Una tabla de conteos de frecuencia ponderada individual, con exclusion de los casos en los cuales la
variable de la y/o de columna tomen el valor de 9.
8. Las matrices de las estadsticas Tau A y Gama se imprimiran y se bajaran a un archivo para todos los
pares de variables V54-V62. Tambien se imprimira una matriz de conteo de casos validos para cada
par de variables.
$RUN TABLES
$FILES
PRINT = TABLES.LST
FT02 = TREE.MAT matrices de estadsticas
DICTIN = TREE.DIC archivo Diccionario de entrada
DATAIN = TREE.DAT archivo Datos de entrada
$RECODE
R7=BRAC(V7,0-15=1,16-25=2,26-35=3,36-45=4,46-98=5,99=9)
NAME R7V7 AGRUPADA
$SETUP
EJEMPLO DE TABLAS
BADDATA=MD1
MALE INCLUDE V10=1
SEX INCLUDE V10=1,2
REGION INCLUDE V3=1-2,3-4,5
MD EXCLUDE V19=9 OR V52=9
TABLES
1. ROWV=(V201-V220) TITLE=Conteo de frecuencias
2. ROWV=(V54-V62,V64) USTATS=MEANSD PRINT=NOTABLES DECSTAT=1
3. ROWV=(V25-V30,R7) USTATS=MEDMOD CELLS=(FREQS,UNWFREQS,ROWP) -
WEIGHT=V9 PRINT=CUM MDHAND=NONE
4. R=(V201,1,3) CELLS=(FREQS,MEAN) VARCELL=V54
5. ROWV=(V25-V28) COLV=(V29-V30) -
CELLS=(FREQS,ROWP,COLP,TOTP) STATS=(CHI,TAUA) REPE=SEX
6. ROWV=(V201-V203) COLV=V206 -
CELLS=(FREQS,MEAN) VARCELL=V54 REPE=REGION FILT=MALE
7. R=V19 C=V52 WEIGHT=V9 FILT=MD
8. ROWV=(V54-V62) STATS=(TAUA,GAMMA) PRINT=(MATRIX,N) WRITE=MATRIX
Captulo 38
Tipologa y clasicacion ascendente
(TYPOL)
TYPOL crea una variable de clasicacion que resume un gran n umero de variables. Se permite que el n ucleo
inicial de grupos este constituido por el uso de una variable de clasicacion inicial, denida a priori (variable
clave), una muestra aleatoria de casos, o una muestra por pasos. Un proceso iterativo mejora los resultados
mediante la estabilizacion de los n ucleos. Los grupos nales constituyen las categoras de la variable de
clasicacion que se busca. El n umero de grupos de la tipologa se puede reducir si se utiliza un algoritmo de
clasicacion jerarquica ascendente.
Las variables activas son aquellas sobres las cuales se hace el agrupamiento y reagrupamiento de los casos.
Tambien se pueden buscar las estadsticas principales de otras variables dentro de los grupos construidos de
acuerdo con las variables activas. Tales variables (que no tienen inuencia en la construcci on de los grupos)
se llaman variables pasivas.
TYPOL acepta variables cuantitativas y cualitativas, estas ultimas se tratan como cuantitativas depues
de una dicotomizacion completa de sus respectivas categoras, lo cual resulta en la construcci on de tantas
variables dicotomizadas (1/0) como n umero de categoras haya de la variable cualitativa. Tambien es posible
estandarizar las variables activas (tanto cuantitativas como cualitativas despues de la dicotomizacion).
TYPOL opera en dos etapas:
1. Construccion de una tipologa inicial. El programa construye una tipologa de n grupos, como
se haya solicitado por el usuario, a partir de los casos los cuales se caracterizan por un n umero dado
de variables (consideradas como cuantitativas). El usuario puede escoger la manera de establecer una
conguracion inicial (ver el par ametro INITIAL), y tambien el tipo de distancia (ver el par ametro
DTYPE) utilizado por el programa para calcular la distancia entre los casos y los grupos.
2. Clasicaci on ascendente adicional (opcional). Si el usuario desea una tipologia con menos grupos,
el programa -mediante un algoritmo de clasicacion jerarquica ascendente- reduce uno a uno, el n umero
de grupos hasta llegar al n umero especicado por el usuario.
partir de los datos de entrada. Las variables se especican con par ametros.
294 Tipologa y clasicacion ascendente (TYPOL)
de datos faltantes, si los hay, se usaran para vericar los datos faltantes. Los casos con datos faltantes en las
variables cuantitativas pueden ser excluidos del analisis (ver el par ametro MDHANDLING).
38.3. Resultados
Tipologa inicial
Construccion de una tipologa inicial. (Opcional: ver el par ametro PRINT).
El reagrupamiento de grupos iniciales, seguido de una tabla de n umeros de referencias cruzadas
atribuidos a los grupos antes y despues de la construcci on de los grupos iniciales.
Tabla(s) que muestra(n) la redistribuci on de casos entre una iteraci on y la siguiente y da el
porcentaje del n umero total de casos agrupados correctamente.
Evoluci on del porcentaje de variancia explicada de una iteraci on a la otra.
Caractersticas de distancias por grupos. El n umero de casos en cada grupo inicial de la tipologa,
junto con el valor de la media y de la desviaci on est andar de las distancias.
Tablas de las distancias. (Opcional: ver el par ametro PRINT). Tablas de distancias mostrando dentro de
cada grupo, la distribuci on de casos a traves de quince intervalos continuos siendo estos intervalos:
diferentes para cada grupo (primera tabla),
identicos para todos los grupos (segunda tabla).
Caractersticas globales de distancias. El n umero total de casos, con la media y desviacion est andar
globales de las distancias.
Estadsticas de resumen. La media, desviacion est andar y el peso de la variable para las variables cuan-
titativas y para las categoras de las variables cualitativas activas.
Descripcion de la tipologa resultante. Para cada grupo de tipologa, se imprime primero su n umero
y el porcentaje de casos que le pertenecen. Despues se suministran las estadsticas, variable por variable,
en el siguiente orden: (1) variables cuantitativas activas (2) variables cuantitativas pasivas (3) variables
cualitativas activas (4) variables cualitativas pasivas.
Para cada variable cuantitativa se da su monto de variancia explicada, su valor de media global
y, dentro de cada grupo de la tipologa, su media y desviaci on est andar.
Para cada categora de la variable cualitativa, se da primero su monto de variancia explicada y el
porcentaje de casos que le coresponden; luego dentro de cada grupo de la tipologa se imprime:
verticalmente el porcentaje de casos a traves de las categoras de la variable en la primera lnea
y horizontalmente, el porcentaje de casos a traves de los grupos de la tipologa (porcentajes por
la) en la segunda lnea (opcional: ver el par ametro PRINT).
Resumen de la cantidad de variancia explicada por la tipologa. Se dan los siguientes porcentajes
de variancia explicada:
la variancia explicada por las variables mas discriminatorias, es decir, aquellas que tomadas juntas son
responsables por el 80 % de la variancia explicada,
la media de la cantidad de variancia explicada por las variables activas,
la media de la cantidad de variancia explicada por todas las variables juntas,
la media de la cantidad de variancia explicada por las variables mas discriminatorias junto con la
proporcion de estas variables.
Nota: cuando aparecen variables cualitativas en las tablas, se imprimen los primeros 12 carateres del nombre
de la variable junto con el c odigo que identica la categora. Cuando aparecen variables cuantitativas en las
tablas, se imprimen todos los 24 caracteres del nombre de la variable.
Clasicaci on jer arquica ascendente
Tabla de raices cuadradas de desplazamientos y distancias, calculadas para cada par de grupos. (Opcional:
Tabla de reagrupamiento Nr.1. Estadsticas de resumen para las variables cuantitativas activas y las
categoras de variables cualitativas activas de los grupos implicados en el reagrupamiento.
Descripcion de la nueva tipologa resultante. (Opcional: ver el par ametro LEVELS). La misma infor-
maci on anterior.
Resumen de la cantidad de variancia explicada por la nueva tipologa. La misma informacion
anterior. N otese aqu la media de la cantidad de variancia explicada por las variables mas discriminatorias
antes del reagrupamiento.
El resumen de la clasicacion jerarquica ascendente se imprime despues de cada reagrupamiento hasta el
n umero de grupos especicado por el usuario.
Tres diagramas que muestran el porcentaje de variancia explicada como una funci on del n umero de grupos
de las tipologas sucesivas, a su turno, para:
todas las variables,
las variables activas,
las variables que explican el 80 % de la variancia antes de llevar a cabo el reagrupamiento.
Perles para cada grupo de la tipologa. (Opcional: ver el par ametro PRINT). Estos perles se imprimen
y se gracan para todos los grupos de la primera tipologa resultante y despues para los grupos obtenidos
en cada reagrupamiento.
Arbol jerarquico se produce al nal.
Se puede pedir un dataset de variable de clasicacion para la primera tipologa resultante y sale en la
forma de un archivo Datos descrito por un diccionario IDAMS (ver el par ametro WRITE y el captulo
Los datos en IDAMS). Contiene la variable de identicaci on de caso, las variables transferidas, la variable
de clasicacion (GROUP NUMBER) y para cada caso, su distancia multiplicada por 1000 desde cada
categora de la variable de clasicacion, llamadas variables de distancia (n GROUP DISTANCE). Las
variables se numeran desde uno e incrementan de uno en uno en el orden siguiente: variable de identicacion
de caso, variables transferidas, variable de clasicacion y variables de distancia.
Se puede escribir opcionalmente una matriz de conguracion de salida en la forma de una matriz rectangular
de IDAMS (ver el par ametro WRITE). Ver el captulo Los datos en IDAMS para una descripcion del
formato. Esta matriz suministra, lnea por lnea, para cada variable cuantitativa y para cada categora de
variables cualitativas activas, su valor medio a traves de los grupos y su desviacion est andar total para la
tipologa inicial, es decir, antes de que los reagrupamientos tengan lugar. Los elementos de la matriz se
escriben en formato 8F9.3. Se escriben registros de diccionario.
deben ser numericas; pueden ser enteras o decimales. La variable identicadora de casos y las variables a ser
transferidas pueden ser alfabeticas.
La matriz de conguracion de entrada debe estar en la forma de una matriz rectangular IDAMS. Ver el
captulo Los datos en IDAMS para una descripcion del formato. La matriz es opcional y suministra una
conguracion inicial para usar en los c alculos. Las estadsticas incluidas deberan ser valores medios para
las variables cuantitativas y proporciones (no porcentajes) para las categoras de variables cualitativas (por
ej. .180 en vez de 18.0 %). Una matriz de conguracion producida por el programa en una ejecuci on previa
puede servir como conguracion de entrada.
$RUN TYPOL
$FILES
$RECODE (opcional)
$SETUP
2. Ttulo
3. Par ametros
$DICT (condicional)
Diccionario
$DATA (condicional)
Datos
Matriz de configuracion de entrada
Archivos:
FT02 matriz de configuracion de salida si se ha especificado WRITE=CONF
FT09 matriz de configuracion de entrada si se ha especificado INIT=CONF
(omitir si se usa $MATRIX)
DICTyyyy diccionario de salida si se especifica WRITE=DATA
DATAyyyy datos de salida si se especifica WRITE=DATA
Ejemplo: INCLUDE V1=10-40,50
Ejemplo: PRIMERA CONSTRUCCION DE VARIABLE DE CLASIFICACION
Ejemplo: MDHAND=ALL AQNTV=(V12-V18) DTYPE=EUCL -
PRINT=(GRAP,ROWP,DIST) INIG=5 FING=3
INFILE=IN/xxxx
MAXCASES=n
AQNTVARS=(lista de variables)
Una lista de variables que especica las variables cuantitativas activas.
PQNTVARS=(lista de variables)
Una lista de variables que especica las variables cuantitativas pasivas.
AQLTVARS=(lista de variables)
Una lista de variables que especica las variables cualitativas activas.
PQLTVARS=(lista de variables)
Una lista de variables que especica las variables cualitativas pasivas.
MDHANDLING=ALL/QUALITATIVE/QUANTITATIVE
ALL Se saltan los casos con datos faltantes en variables cuantitativas y se excluyen del
analisis los c odigos de datos faltantes en variables cualitativas.
QUAL Se excluyen del analisis los valores de datos faltantes en las variables cualitativas.
QUAN Se saltan los casos con datos faltantes en las variables cuantitativas.
REDUCE
Estandarizacion de variables activas, cuantitativas y cualitativas.
DTYPE=CITY/EUCLIDEAN/CHI
CITY Distancia en cuadra urbana (city block).
EUCL Distancia euclideana.
CHI Distancia de Ji-cuadrada.
Nota: con referencia a la selecci on del tipo de distancia, se recomienda usar:
la distancia en cuadra urbana cuando algunas variables activas son cualitativas y otras son
cuantitativas,
la distancia euclideana cuando las variables activas son todas cuantitativas (con estandarizacion
cuando no se hayan medido todas con la misma escala),
la distancia de Ji-cuadrada cuando las variables activas son todas cualitativas.
INIGROUP=n
N umero de grupos iniciales. Si una variable clave va a servir como base para la tipologa y si el
n umero de grupos iniciales especicado aqu es mayor que el valor maximo de la variable clave,
el programa corrige esto autom aticamente. Tambien, si hay ciertas categoras con cero casos, el
n umero de grupos iniciales sera el n umero de categorias no vacas que tengan casos.
FINGROUP=1/n
N umero de grupos nales.
INITIAL=STEPWISE/RANDOM/KEY/INCONF
La manera como la conguracion inicial es establecida.
STEP Muestra por pasos.
RAND Muestra aleatoria.
KEY El perl de los grupos iniciales es creado de acuerdo con una variable clave.
INCO Se da un perl a priori de grupos iniciales en un archivo de conguracion de entrada.
Nota: las variables incluidas en la conguracion de entrada deben corresponder exac-
tamente a las variables suministradas con los par ametros AQNTV y/o AQLTV.
STEP=5/n
Si se ha solicitado muestra de casos por pasos (INIT=STEP), n es la longitud del paso.
NCASES=n
Si se ha solicitado la muestra aleatoria de casos (INIT=RAND), n es el n umero de casos (sin
ponderar) en el archivo de entrada, o una buena estimaci on siempre que no exceda el n umero de
casos.
Sin valor por defecto; debe especicarse si INIT=RAND.
KEY=n umero de variable
Si se ha usado una variable clave para construir grupos iniciales (INIT=KEY), este es el n umero
de la variable clave.
Sin valor por defecto; debe especicarse si INIT=KEY.
ITERATIONS=5/n
N umero maximo de iteraciones para convergencia del perl de grupo.
REGROUP=DISPLACEMENT/DISTANCE
DISP El reagrupamiento se basa en el desplazamiento mnimo.
DIST El reagrupamiento se basa en la distancia mnima.
WRITE=(DATA, CONFIG)
DATA Crear un dataset IDAMS que contenga la variable identicadora de casos, las variables
transferidas, la variable de clasicacion y las variables de distancia.
CONF Bajar la matriz de conguracion a un archivo.
OUTFILE=OUT/yyyy
La variable a ser transferida al dataset de salida para identicar los casos.
Obligatorio si WRITE=DATA se ha especicado.
Variables adicionales (hasta 99) para ser transferidas al dataset de salida.
LEVELS=(n1, n2, ...)
Imprimir la descripcion de la tipologa resultante para el n umero de grupos especicado.
Por defecto: se imprime la descripcion despues de cada reagrupamiento.
PRINT=(CDICT/DICT, OUTCDICT/OUTDICT, INITIAL, TABLES, GRAPHIC, ROWPCT,
DISTANCES)
hay.
OUTC Imprimir el diccionario de salida con registros C si los hay.
INIT Imprimir la historia de la construcci on de la tipologa inicial.
TABL Imprimir dos tablas con clasicacion de distancias.
GRAP Imprimir el graco de los perles.
ROWP Imprimir porcentajes de la para categoras de variables cualitativas.
DIST Imprimir tabla de distancias y desplazamientos para cada reagrupamiento.
1. El n umero maximo de grupos iniciales es 30.
2. El n umero maximo total de variables es 500, incluidas variable de ponderaci on, variable clave, variables
a ser transferidas, variables de analisis (variables cuantitativas + n umero de categoras para variables
cualitativas) y variables usadas temporalmente en proposiciones de Recode.
4. No se pueden usar variables R como variable identicadora o como variables a ser transferidas.
38.11. Ejemplos
Ejemplo 1. Creaci on de una variable de clasicacion al reunir 5 variables cuantitativas y 4 variables cual-
itativas con uso de distancia en cuadra urbana; se establecer a una conguracion inicial mediante selecci on
aleatoria de casos; la clasicacion comienza con 6 grupos y termina con 3; el reagrupamiento se basa en la
distancia mnima; los datos faltantes se excluyen del analisis.
$RUN TYPOL
$FILES
PRINT = TYPOL1.LST
$SETUP
BUSCA NUMERO DE CATEGORIAS EN UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU -
INIG=6 FING=3 INIT=RAND NCAS=1200 -
REGR=DIST PRINT=(GRAP,ROWP,DIST)
Ejemplo 2. Generacion de una variable de clasicacion a partir del Ejemplo 1 con 4 categoras; la variable
se va escribir en un archivo; las variables V18 y V34 se usan como cuantitativas pasivas y las variables V12
y V14 como cualitativas pasivas.
$RUN TYPOL
$FILES
PRINT = TYPOL2.LST
DICTOUT = CLAS.DIC archivo Diccionario de salida
DATAOUT = CLAS.DAT archivo Datos de salida
$SETUP
GENERACION DE UNA VARIABLE DE CLASIFICACION
AQNTV=(V114,V116,V118,V120,V122) AQLTV=(V5-V7,V36) REDU -
PQNTV=(V18,V34) PQLTV=(V12,V14) -
INIG=6 FING=4 INIT=RAND NCAS=1200 -
REGR=DIST PRINT=(GRAP,ROWP) WRITE=DATA IDVAR=V1
Parte V
Analisis interactivo de datos
Captulo 39
Tablas multidimensionales y su
presentacion graca
39.1. Vision general
El componente interactivo Tablas multidimensionales de WinIDAMS le permite visualizar y personalizar
tablas multidimensionales con frecuencias, porcentajes de la, de columna y totales, estadsticas univariadas
(suma, conteo, media, maximo, mnimo, variancia, desviacion est andar) de variables adicionales y estadsticas
bivariadas. Las variables de la y/o columna se pueden colocar al mismo nivel o bien se pueden anidar hasta
siete variables en las y columnas. Se puede repetir la construcci on de una tabla para cada valor de hasta
tres variables de pagina. Tambien se pueden imprimir o exportar cada p agina de la tabla en formato libre
(con coma o car acter de tabulaci on como delimitadores) o en formato HTML.
Los datasets de IDAMS usados como entrada deben tener el mismo nombre para los archivos Diccionario y
Datos con extensiones .dic y .dat respectivamente.
S olo se puede usar un dataset por vez, es decir, si se abre un otro dataset, entonces se cierra autom aticamente
el dataset que est a en uso.
39.2. Preparacion del analisis
Seleccion de los datos. Hay un dataset disponible para construir tablas multidimensionales hasta que se
cambie al activar nuevamente el componente Tablas multidimensionales. El dialogo le permite escoger un
archivo de datos, bien sea de una lista de archivos usados recientemente (Recientes) o de cualquier carpeta
(Existentes). Por defecto se usa la carpeta Datos de la aplicacion actual. Si se asigna Archivos Datos (*.dat)
a Archivos de tipo: solo se muestran archivos Datos de IDAMS.
Seleccion de variables. Al seleccionar un dataset para analisis, se llama al cuadro de dialogo para denicion
de la tabla. Se presenta una lista de las variables disponibles y se presentan cuatro ventanas para especicar
variables con diferentes prop ositos. Use las tecnicas arrastrar y colocar para mover las variables entre y/o
dentro de las ventanas requeridas.
Variables de pagina se usan para construir p aginas separadas de la tabla para cada valor distinto de la
variable a la vez y para todos los casos juntos (pagina Total). Los casos incluidos en una p agina en
particular tienen todos el mismo valor en la variable de p agina. Las variables de p agina nunca se anidan.
El orden en el cual se especican las variables determina el orden en el cual se colocan las p aginas.
Variables de la son aquellas cuyos valores se usan para denir las de la tabla. Su orden determina la
secuencia de uso de anidamiento.
Variables de columna son aquellas cuyos valores se usan para denir columnas de la tabla. Su orden
determina la secuencia de uso de anidamiento.
304 Tablas multidimensionales y su presentaci on graca
Variables de celda son aquellas cuyos valores se usan para calcular las estadsticas univariades (por ej. la
media) en las celdas de la tabla. El orden en el cual se especican determina su orden de aparici on en
la tabla. Puede haber hasta 10 variables de celda.
Anidamiento. Si se especica mas de una variable de la y/o columna, se anidan por defecto. Para usarlas
en forma secuencial, en el mismo nivel, haga doble clic en la variable de la la o columna de la lista de
variables y marque la opcion de tratamiento en el mismo nivel. Nota: esta opcion no est a disponible para la
primera variable de una lista.
Porcentajes. Se pueden obtener porcentajes en cada celda (de la, de columna y totales) haciendo doble
clic sobre la ultima variable de la anidada en la ventana de denicion de tabla escogiendo los tipos de
porcentajes requeridos.
Estadsticas univariadas. Se pueden obtener diferentes estadsticas (suma, conteo, media, maximo, mni-
mo, variancia, desviacion est andar) para cada variable de celda haciendo doble clic sobre la variable en la
ventana de denicion de tabla y marcando la estadstica o estadsticas requeridas. Las formulas para calcu-
lar media, variancia y desviacion est andar se pueden encontrar en la secci on Estadsticas univariadas del
captulo Tablas univariadas y bivariadas. Sin embargo, deben ajustarse ya que los casos no se ponderan.
Tratamiento de datos faltantes. El tratamiento de datos faltantes por defecto se aplica a la primera
construcci on de tabla. Despues, se puede cambiar con el men u Cambiar.
La opcion Valores de datos faltantes se usa para indicar cuales valores de datos faltantes, si los hay, se
usaran para vericar datos faltantes en los valores de las variables de la y columna.
Ambos Los valores de las variables se vericar an contra los c odigos MD1 y los rangos de los c odigos
denidos por MD2.
MD1 Los valores de las variables se vericar an contra los c odigos MD1 solamente.
MD2 Los valores de las variables se vericar an contra los rangos de los c odigos denidos por MD2
solamente.
Ninguno No se usaran c odigos MD. Se consideran validos todos los valores de los datos.
Por defecto, se usan ambos c odigos MD.
La opcion Manejo de datos faltantes se usa para indicar cuales valores de datos faltantes deben excluirse
de los c alculos de porcentajes y estadsticas bivariadas.
Todos Elimine todos los valores de datos faltantes.
Fila Elimine los valores de datos faltantes para las variables de la.
39.3 Ventana de tablas multidimensionales 305
Columna Elimine los valores de datos faltantes para las variables de columna.
Ninguno No elimine valores de datos faltantes.
Por defecto, se eliminan todos los valores de datos faltantes.
Nota: los casos con datos falantes en variables de celda siempre se excluyen de los c alculos de estadsticas
univariadas. Esta exclusion se hace por celda, separadamente para cada variable. De esta manera, el n umero
de casos validos puede no ser igual a la frecuencia de la celda. La estadstica conteo muestra el n umero de
casos validos.
Cambiar la denicion de la tabla. El comando Especicaci on de men u Cambiar llama al cuadro de
dialogo con la denicion de la tabla actual. Puede cambiar variables para analisis, su anidamiento as como
pedir porcentajes y estadsticas univariadas. Hacer clic en OK reemplaza la tabla actual por una nueva.
39.3. Ventana de tablas multidimensionales
Despues de seleccionar las variables y hacer clic en OK, aparece la ventana de Tablas multidimensionales
en la ventana de documento de WinIDAMS. Por defecto, se muestran las frecuencias y las medias de todas
las variables de celda. Si se especican las variables de p agina, se muestran los nombres de c odigos de estas
variables en el tabulador en la parte inferior de la tabla. Se puede acceder a una p agina en particular con un
clic en su nombre (o su c odigo).
Cambiar la presentaci on de la pagina. Se puede cambiar separadamente la presentacion de cada p agina,
los cambios se aplican exclusivamente a la p agina activa.
Son posibles las siguientes modicaciones:
Aumentar el tama no de la fuente - use el comando Aumentar de men u Ver o el boton Aumentar de la
barra de herramientas.
Disminuir el tama no de la fuente - use el comando Reducir de men u Ver o el boton Reducir de la barra
de herramientas.
Restaurar el tama no de la fuente por defecto - use el comando 100 % de men u Ver o el boton 100 % de
la barra de herramientas.
columnas en el encabezado de columna hasta que el cursor se haya convertido en una barra vertical
Minimizar el ancho de columnas - marque la columna o columnas requeridas y use el comando Cambiar
tama no de columnas de men u Formato.
Aumentar/Disminuir el alto de la - coloque el cursor del rat on sobre la lnea que separa dos las en
muevalo arriba/abajo teniendo apretado el boton izquierdo del rat on.
Minimizar el alto de las - marque la la o las requeridas y use el comando Cambiar tama no de las
de men u Formato.
Ocultar columnas/las - reduzca el ancho/alto de la columna/la a cero. Para mostrar nuevamente
una columna/la ocultada, coloque el cursor sobre la lnea donde est a ocultada hasta que aquel se
convierta en una barra vertical/horizontal con dos echas y haga doble clic en el boton izquierdo del
rat on.
Adicionalmente, el comando Formato/Estilo permite el acceso a un n umero de posibilidades de formato de
tablas tales como: selecci on de fuentes, tama no de fuentes, colores, etc. para la celda activa o para todas las
celdas de una lnea activa.
Estadsticas bivariadas. Se calculan estadsticas bivariadas para cada tabla o cada p agina (Ji-cuadrada,
coeciente , coeciente de contingencia, V de Cramer, Taus, Gammas, Lambdas, y D de Sormer). Use el
comando Estadsticas de men u Mostrar para mostrar las estadsticas al nal de la tabla. Esta operaci on
debe repetirse separadamente para cada p agina si es necesario. Las formulas para calcular las estadsticas
bivariadas se pueden encontrar en la secci on Estadsticas bivariadas del captulo Tablas univariadas y
bivariadas.
N otese que las estadsticas se calculan solamente cuando hay una variable de la y una variable de columna.
Imprimir una pagina de tabla. Se puede imprimir todo el contenido o solamente partes deseadas de una
p agina activa de tabla con el comando Imprimir de men u Archivo. Si quiere imprimir solamente algunas
columnas y/o las, oculte primero las otras las/columnas. Se imprimen las columnas y las mostradas.
Exportar una pagina de tabla. Se puede exportar en formato libro (delimitadas con comma o car acter de
tabulaci on) o en formato HTML, todo el contenido o solamente partes deseadas de una p agina activa de tabla.
Use el comando Exportar de men u Archivo y escoja el formato deseado. Si quiere exportar solamente algunas
columnas y/o las, oculte primero las otras las/columnas. Se exportan las columnas y las mostradas.
39.4. Presentacion graca de tablas univariadas y bivariadas
Las frecuencias mostradas en una p agina de tablas univariadas o bivariadas se pueden presentar gracamente
con uno de los 24 estilos de gracos que est an a su disposicion. Se inicia la construcci on del graco con el
comando Crear de men u Graco. Este comando llama al cuadro de dialogo para escoger el estilo de graco
para la p agina activa. Adicionalmente, puede pedir el uso de transformaci on logartmica de frecuencias y dar
una leyenda para los colores y los smbolos usados en el graco.
Los gracos proyectados no se pueden manipular. Sin embargo, se pueden guardar en uno de los dos formatos,
a saber: formato JPEG de intercambio de archivos (.jpg) o formato Bitmap de Windows (.bmp) con los
comandos relevantes en el menu de Archivo. Tambien se pueden copiar en el portapapeles (el comando
Copiar de men u Edici on, el boton Copiar de la barra de herramientas o teclas Ctrl/C) y pasar a cualquier
editor de texto.
N otese aqu otra vez, que se usan para esta presentacion, solo las frecuencias de las las y columnas mostradas,
es decir, no de las las y columnas que est an ocultas.
39.5 Como hacer una tabla multidimensional 307
39.5. Como hacer una tabla multidimensional
Usaremos el dataset rucm (rucm.dic es el archivo Diccionario y rucm.dat es el archivo Datos) que es
en la carpeta Datos por defecto y el cual est a instalado con WinIDAMS.
Construiremos una tabla de tres entradas con dos variables de la anidadas (SCIENTIFIC DEGREE y
SEX), una variable de columna (CM POSITION IN UNIT) y una variable de celda (AGE) para la
cual pediremos la media, el maximo y el mnimo.
Haga clic en Interactivo/Tablas multidimensionales. Este comando abre un dialogo para escoger un
archivo Datos de IDAMS.
Haga clic en rucm.dic y Abrir. Se ve ahora un dialogo para especicar las variables que desea usar en
la tabla multidimensional.
Escoja las variables SCIENTIFIC DEGREE y SEX como VARIABLES DE FILA, CM POSI-
TION IN UNIT como VARIABLE DE COLUMNA y AGE como VARIABLE DE CELDA.
Con el rat on, arrastre y coloque las variables (oprima el boton izquierdo del rat on sobre la variable que
desea mover, mantenga oprimido el boton mientras mueva la variable y sueltela en la lista de variables
a donde quiere llevarla). Se pueden escoger y mover varias variables simult aneamente de una lista a
otra (oprima la tecla Ctrl cuando seleccione).
El orden de las variables en las listas VARIABLES DE FILA y VARIABLES DE COLUMNA especica
implcitamente el orden de anidamiento. La primera variable de la lista sera la de mas afuera. El orden
de las variables en una lista se puede modicar arrastrando y colocando las variables en la misma lista.
Despues de escoger las variables, puede cambiar las opciones por defecto, haciendo doble clic sobre la
variable. Un doble clic sobre la variable AGE en la lista VARIABLES DE CELDA abre el dialogo
siguiente:
La media aparece marcada por defecto. Marque M ax y Mn. Ahora haga clic sobre OK aqu y sobre
OK en el dialogo de denicion de tabla multidimensional.
39.6 Como cambiar una tabla multidimensional 309
39.6. Como cambiar una tabla multidimensional
Solicitar tablas separadas. Suponga que desea ver una tabla separada para hombres y mujeres.
Haga clic sobre Cambiar/Especicaci on y obtiene nuevamente el dialogo con la selecci on previa de
variables.
Coja y mueva con el rat on la variable SEX de la lista VARIABLES DE FILA a la lista VARIABLES
DE PAGINA y haga clic sobre OK.
Se observa a primera vista que es total para todos los valores juntos (hombres y mujeres). En la parte
inferior de la vista se ven tres etiquetas Total, MALE,FEMALE. Total es la etiqueta de la
vista actual.
Para ver la p agina de los hombres, haga clic en la etiqueta MALE
Para ver la p agina de las mujeres, haga clic en la etiqueta FEMALE
39.6 Como cambiar una tabla multidimensional 311
Solicitar porcentajes. As como las frecuencias se muestran por defecto, los porcentajes deben pedirse
explcitamente.
Haga clic sobre Cambiar/Especicaci on y obtiene nuevamente el dialogo de la selecci on previa de
variables.
Haga doble clic en la variable de la SCIENTIFIC DEGREE y ve un dialogo con casillas para
marcar frecuencia (marcada por defecto), % Fila, % Columna, y % Total. Marque todas las casillas de
porcentajes as:
Haga clic sobre OK para aceptar el cambio y haga clic sobre OK en el dialogo de denicion de tablas
multidimensonales. Ve la tabla multidimensional previa con todos los porcentajes.
Captulo 40
Exploracion graca de datos
GraphID es un componente de WinIDAMS para la exploraci on interactiva de los datos a traves de una
visualizacion graca. Acepta dos clases de entrada:
datasets de IDAMS en los cuales los archivos Diccionario y Datos tienen el mismo nombre con exten-
siones .dic y .dat respectivamente,
archivos Matriz de IDAMS cuya extensi on debe ser .mat.
S olo se puede usar un dataset o una matriz cada vez, es decir, la apertura de un otro archivo, cierra
autom aticamente el que se est a usando.
Seleccion de datos. Para seleccionar datos, use el comando Abrir de men u Archivo o haga clic en el boton
Abrir de la barra de herramientas. A continuacion, en el cuadro de dialogo de Abrir, escoja su archivo. La
asignacion de Archivos Datos (*.dat) o Archivos Matriz (*.mat) a Archivos de tipo: permite ltrar
los archivos mostrados.
Seleccion de identicacion de caso. Si ha escogido un dataset, se le pide especicar una identicacion de
caso la cual puede ser una variable o el n umero secuencial del caso. Se puede escoger una variable numerica
o alfabetica de una lista desplegable.
Seleccion de variables. Si ha escogido un dataset, se le pide especicar las variables que quiera analizar.
Las variables numericas se pueden escoger de la Lista de origen de posibles variables y moverlas al area de
Vars seleccionadas. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover
solo las variables resaltadas), >>, << (mover todas las variables). N otese que las variables alfabeticas no
est an disponibles aqu y la variable identicadora del caso no debe escogerse para analisis.
Tratamiento de datos faltantes. Se proponen dos posibilidades: (1) en la eliminacion por casos, se usa
un caso en analisis solamente si tiene datos validos en todas las variables escogidas; (2) en la eliminacion
por pares, se usa un caso si tiene datos validos en ambas variables de cada par de variables separadamente.
40.3. Ventana principal de GraphID para analisis de un dataset
Despues de hacer la selecci on de variables para el analisis y de un clic en OK, la ventana principal de GraphID
muestra la matriz inicial de gracos de dispersi on con tres variables y propiedades por defecto de la matriz.
Este graco se puede manipular con varias opciones y comandos en men us y/o con los conos equivalentes
de la barra de herramientas.
314 Exploracion graca de datos
40.3.1. Barra de men u y barra de herramientas
Archivo
Abrir Llama al cuadro de dialogo para escoger un nuevo dataset/matriz para anali-
sis.
Cerrar Cierra todas las ventanas del analisis actual.
Guardar como Llama al cuadro de dialogo para guardar la imagen graca de la ventana
activa en formato Bitmap (*.bmp) de Windows.
Guardar casos enmascarados Guarda para utilizaci on ulterior, el n umero secuencial de casos enmas-
carados en la sesi on actual, la numeraci on sigue la secuencia de casos en el
archivo Datos analizado.
Imprimir Llama al cuadro de dialogo para imprimir el contenido de la ventana activa.
Vista preliminar Muestra una vision previa de la impresion de la imagen graca de la ventana
activa.
Congurar impresora Llama al cuadro de dialogo para modicar las opciones de la impresion y de
la impresora.
Salir Termina la sesi on de GraphID.
El men u tambien puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de GraphID.
Edicion
El men u solo tiene un comando, Copiar, para copiar la imagen graca de la ventana activa al portapapeles.
Ver
Conguracion Llama al cuadro de dialogo para escoger smbolos, colores, variables y n umero
de columnas y las visibles en la matriz.
Escalas Muestra/oculta las escalas del graco en la ventana de aumento activa.
40.3 Ventana principal de GraphID para analisis de un dataset 315
Info Muestra una ventana con informacion relevante acerca del dataset: n umero
de casos, n umero de variables, nombre del archivo Datos, etc.
Info de celda Muestra una ventana con informacion relevante del graco activo: nombres
de variables, sus medias, desviaciones est andar, coecientes de correlaci on y
regresion.
Apariencia del pincel Llama al cuatro de dialogo para escoger el smbolo y color de los casos dentro
del rectangulo del pincel.
Fuente para escalas Llama al cuadro de dialogo para escoger la fuente de escalas de la ventana
de aumento activa.
Fuente para nombres Llama al cuadro de dialogo para escoger la fuente de los nombres de variables.
Colores basicos Llama al cuadro de dialogo para escoger colores de la ventana activa: color
de margen, color de cuadrcula y color de fondo de la celda diagonal.
Guardar colores Guarda la modicacion de colores.
Guardar fuentes Guarda la modicacion de fuentes.
Herramientas
En este men u puede hallar herramientas para manipular la matriz de gracos de dispersi on y para llamar
otros gracos suministrados por GraphID.
Pincel Activa/cancela el modo pincel.
Aumento Aumenta el graco activo o el contenido del pincel a toda la ventana.
Agrupacion Llama al cuadro de dialogo para especicar la creacion de grupos.
Cancelar agrupacion Cancela el agrupaci on.
Histogramas Llama al cuadro de dialogo para especicar gracos para mostrar en la celdas
de la diagonal y sus propiedades.
Lneas suavizadas Llama al cuadro de dialogo para especicar tipos de lneas de regresion
(lneas suavizadas) y sus propiedades.
Gracos de 3D Llama al cuadro de dialogo para seleccionar variables para usar como ejes
para la dispersi on 3D y rotacion.
Modo dirigido Activa/cancela modo dirigido.
Diagramas de caja y bigotes Llama al cuadro de dialogo para seleccionar variables y colores para
mostrar diagramas de caja y bigotes.
Titilado Hace titilar los casos proyectados.
Enmascaramiento Enmascara los casos dentro del rectangulo del pincel.
Desenmascaramiento Restaure paso por paso los casos enmascarados.
Hacer enmascaramiento guardado Enmascara los casos enmascarados y guardados en la sesi on pre-
via.
Graco agrupado Llama al cuadro de dialogo para seleccionar variables de la y de columna
de una tabla de dos dimensiones, y las variables X e Y para proyeccion de
sus gracos en las celdas de la tabla.
Ventana
El men u contiene la lista de ventanas abiertas y de comandos de Windows para organizarlos.
Ayuda
Acerca de GraphID Muestra informacion de la versi on y el copyright de GraphID y un vnculo
Iconos de la barra de herramientas

Hay 21 botones en la barra de herramientas que dan acceso directo a los mismos comandos/opciones como
en los correspondientes men us. Se escriben a continuacion tal como aparecen de derecha a izquierda.
Abrir Lneas suavizadas
Guardar Diagramas de 3D
Copiar Modo dirigido
Imprimir Diagramas de caja y bigotes
Colores b asicos Cancelar titilado
Fuente para nombres Disminuir el nivel de titilado
Fuente para ecalas Aumentar el nivel de titilado
Pincel Enmascarar los casos dentro del rectangulo del pincel
Aumento Restaure paso por paso los casos enmascarados
Agrupaci on Informaci on acerca de la versi on de GraphID
Histogramas
40.3.2. Manipulacion de la matriz de gracos de dispersi on
Conguracion de la matriz de gracos de dispersion. La matriz actual de gracos de dispersi on se
puede cambiar con el comando Conguraci on de men u Ver.
Visible: Aqu se puede denir el n umero de columnas y las para mostrar en la pantalla (no necesitan ser
iguales). Se pueden ver otras celdas desplazando la pantalla.
Variables: El cuadro de dialogo tiene dos listas de variables: Lista de origen y Vars seleccionadas. Se
pueden mover las variables de una lista a otra haciendo clic en los botones >, < (mover solo variables
resaltadas), >>, << (mover todas las variables).
Smbolos: En este cuadro de dialogo, puede seleccionar la forma y el color de los smbolos que se van a
usar para representar cada grupo de casos en los gracos. Si no se especican grupos, entonces todos
los casos caen por defecto en un solo grupo y todos se representan con el mismo signo (por defecto
es un rectangulo negro peque no). Uno puede asignar un smbolo a un grupo o bien colapsar grupos
asignando el mismo smbolo a dos o mas grupos.
La lista de grupos se suministra en el cuadro de la izquierda. Los otros dos cuadros, son cuadros de
selecci on de smbolos y colores. Para seleccionar un color o un smbolo, simplemente haga clic sobre el.
Aparece inmediatamente la imagen del smbolo en el boton al lado del nombre del grupo resaltado.
Modo dirigido. Esta opcion es util cuando el orden de los casos en algunas variables de columna tiene
sentido, por ej. cuando los valores de una variable de columna indican intervalos de tiempo. Enlazando las
im agenes de manera secuencial con lneas rectas, puede ayudar, por ejemplo, a buscar patrones cclicos.
Para cambiar a gracos dirigidos o regresar a gracos de dispersi on, pulse el boton Modo dirigido de la barra
de herramientas o use el comando Modo dirigido de men u Herramientas.
Enmascaramiento y desenmascaramiento de casos. Puede enmascarar casos proyectados en los gracos
de dispersi on. Este aspecto puede ser util, por ejemplo, para retirar del graco los casos extraviados.
Enmascarar est a disponible cuando el pincel est a activo.
Para enmascarar casos incluidos en el rectangulo del pincel, haga clic en el boton Enmascarar de la barra de
herramientas. Los casos enmascarados se ocultan en todos los gracos de dispersi on. El enmascaramiento de
casos se puede repetir varias veces.
Todos o una parte de los casos enmascarados se puede desenmascarar haciendo clic en el boton Restaurar
de la barra de herramientas.
Guardar y utilizar de nuevo casos enmascarados. Se puede guardar el n umero secuencial de casos
enmascarados en la sesi on actual en el archivo correspondiente al dataset analizado con el comando Archi-
vo/Guardar casos enmascarados. Estos casos se pueden enmascarar de nuevo en la(s) sesi on(es) siguiente(s)
con el comando Herramientas/Hacer enmascaramiento guardado.
Agrupaci on de casos. Esta opcion permite ver c omo una variable re une los casos en grupos en todos
los gracos. La variable puede ser cualitativa o cuantitativa. Ademas de seleccionar la variable para crear
grupos, el usuario controla la forma de hacerlo (por valores o por intervalos y el n umero de grupos).
El cuadro de dialogo para crear grupos se activa haciendo clic en el boton Agrupaci on de la barra de
herramientas o con el comando Agrupaci on de men u Herramientas.
Exploraci on con el pincel. El pincel es un rectangulo que se puede mover, aumentar y cuyo tama no se
puede redenir. Mientras se mueve sobre el graco de dispersi on, los casos dentro del pincel se resaltan en
el color y forma del pincel en todos los otros gracos de dispersi on.
Una de las aplicaciones es determinar si una aglomeracion de casos representa verdaderamente un c umulo en
un graco de dispersi on en el espacio multidimensional o si es simplemente una propiedad de la proyeccion.
Para este prop osito, coloque el pincel sobre una aglomeracion en un graco de dispersi on y observe c omo
estos casos se ubican en los otros gracos. Si la misma aglomeracion aparece en los otros gracos entonces
puede tratarse de un c umulo real. Desde luego, los gracos de dispersi on deben escogerse de forma que las
distancias entre casos sean del mismo orden en los diferentes gracos.
Otra aplicacion del pincel es estudiar las distribuciones condicionales. Si las 4 esquinas del pincel se dan
como x
min
, x
max
, y
min
, y
max
, entonces los casos dentro del pincel son los que satisfacen las condiciones:
x
min
< x < x
max
and y
min
< y < y
max
y los casos que satisfacen estas condiciones se pueden estudiar en los otros gracos.
Tambien puede usar Pincel para enmascarar y buscar casos.
Para entrar o cancelar el modo Pincel, haga clic en el boton Pincel de la barra de herramientas o use el
comando Pincel de men u Herramientas.
Para colocar el pincel en el area deseada, ubique el cursor en el borde, pulse el boton izquierdo del rat on,
arrastre y suelte en el otro borde.
Para mover o cambiar el tama no del pincel, coloque el cursor dentro del rectangulo del pincel o en el lado
del mismo, pulse el boton izquierdo y arrastre. Nota: para mover rapidamente el pincel a otra celda, coloque
el cursor en la celda deseada y pulse el boton izquierdo del rat on.
Aumento. Crea una nueva ventana para agrandar la celda deseada o, en modo Pincel, agrandar el pincel.
Esta nueva ventana aumentada tiene la mayora de las propiedades de una matriz de gracos de dispersi on
con una celda, por ejemplo, puede usar el pincel para identicar un nuevo conjunto de casos y luego agrandar
nuevamente.
Si la matriz madre de los gracos de dispersi on est a en modo Pincel, la modicacion del pincel se reeja
inmediatamente en la ventana agrandada; de lo contrario, la ventana agrandada reeja las modicaciones
introducidas en la celda escogida en la matriz madre.
El comando Escalas de men u Ver le permite mostrar las escalas de valores de variable para la ventana activa
agrandada.
Titilado. Esta funci on es util cuando hay variables discretas o cualitativas en los datos analizados. En este
caso, es posible que las matrices usuales de los gracos de dispersi on no suministren suciente informacion ya
que una parte o todas las proyecciones 2D y 3D presenta cuadrculas en 2D o 3D y por lo tanto es imposible
determinar visualmente cuantos casos coinciden en la misma posicion de la cuadrcula y a cuales grupos
pertenecen.
El titileo es una transformaci on aleatoria de los datos. Los valores de los datos (x) se modican adicionando
un ruido (a*U) donde U es un valor aleatorio uniformemente distribuido del intervalo (-0.5, 0.5) y a es
una factor para controlar el nivel del titilado.
Para establecer el nivel deseado de titilado, use los botones Disminuir el nivel de titilado, Aumentar el nivel
de titilado y Cancelar titilado de la barra de herramientas.
N otese que el titileo solo se puede obtener en la ventana de la matriz de gracos de dispersi on.
40.3.3. Histogramas y densidades
Se pueden mostrar histogramas, densidades normales, gracos de puntos y tres estadsticas univariadas en
las celdas diagonales de la matriz de gracos de dispersi on.
Para obtenerlos, haga clic en el boton Histogramas de la barra de herramientas o use el comando Histogramas
de men u Herramientas. En el cuadro de dialogo presentado puede seleccionar los gracos deseados, el color
y el n umero de barras de histogramas. Con la opcion Estadsticas, se suministran las siguientes estadsticas:
Asimetra (Skew), Kurtosis (Kurt) y Desviaci on est andar (Std).
40.3.4. Lneas de regresion (Lneas suavizadas)
Se pueden mostrar hasta 4 diferentes lneas de regresion en cada graco de dispersi on:
Regresi on lineal MLE - Maximum Likelihood Estimation (regresion lineal usual)
Regresi on lineal local
Media local
Mediana local
N otese que estas son lneas de regresion de Y contra X, donde las variables X y Y se proyectan respectivamente
en los ejes horizontal y vertical.
Para obtener las lneas, haga clic en el boton Lneas suavizadas o use el comando Lneas suavizadas de
men u Herramientas. Luego, en el cuadro de dialogo escoja las lneas deseadas, el color y el valor del par ametro
de suavizaci on.
El par ametro de suavizaci on es el n umero de vecinos (casos vecinos) y esta igual 7 por defecto. No puede
exceder n/2 donde n es el n umero de casos.
40.3.5. Diagramas de caja y bigotes
Este es un aspecto especialmente util si los casos se han fraccionado en grupos (ver Agrupacion de casos
mas atr as).
Use el comando Diagrama de caja y bigotes de men u Herramientas o haga clic en el boton Diagrama de caja
y bigotes para obtener un cuadro de dialogo que especica el n umero de las y columnas visibles as como
los colores para la ventana de las diagramas de caja y bigotes.
Para cada variable escogida, se muestra un rectangulo dentro del cual se encuentran de cajas, cada caja
corresponde a un grupo de casos. La base de la caja se puede obtener proporcional al n umero de casos en
el grupo y las fronteras superior e inferior muestran los cuartiles superior e inferior respectivamente. Los
extremos superior e inferior de las lneas verticales (bigotes) que emergen de la caja corresponden a los
valores maximo y mnimo de la variable en el grupo. Las lneas dentro de la caja son la media (lnea verde)
y la mediana (lnea punteada azul) de la variable en el grupo. La parte izquierda del rectangulo muestra la
escala de la variable y el margen inferior del rectangulo muestra los n umeros de grupo.
Puede cambiar los colores y las fuentes de los gracos con los botones apropiados de la barra de herramientas.
Se puede registrar estos cambios como nuevos valores por defecto para las siguientes sesiones y ventanas.
El boton Colores permite cambiar los colores de:
Cajas
Fondo
Extensiones
Lnea de mediana
Lnea de media
M argenes
Los botones Fuentes permiten cambiar las fuentes a escalas y nombres de variables.
Se puede agrandar cualquier celda de un diagrama de caja y bigotes. Escoja la celda deseada y haga clic en
el boton Aumento de la barra de herramientas.
40.3.6. Graco agrupado
Permite la proyeccion de un graco de dispersi on de dos dimensiones dentro de las celdas de una tabla de
dos dimensiones, y as un analisis en cuatro dimensiones.
Use el comando Herramientas/Gr aco agrupado para obtener una ventana de dialogo en la cual se especican
variables de la y de columna para la construcci on de la tabla, y las variables X y Y para los gracos de
dispersi on.
Tambien se pide escoger la forma de calcular el n umero de las y de columnas. Hay dos posibilidades: pueden
ser iguales al n umero de valores diferentes de variable o al n umero de intervalos especicados por el usuario.
Los intervalos calculados son del mismo tama no.
40.3.7. Diagramas de dispersion tridimensionales y su rotacion
Para obtener un diagrama de dispersi on tridimensional, haga clic en el boton Diagramas de 3D de la barra
de herramientas o use el comando Diagramas de 3D de men u Herramientas. El cuadro de dialogo le permite
escoger tres variables para proyectarlas en los ejes OX, OY y OZ. Despues de OK, se obtiene una nueva
ventana con un diagrama de dispersi on tridimensional de las variables escogidas. Si la ventana de la matriz
madre est a en modo pincel, los casos encerrados en el rectangulo del pincel tambien se resaltan en el color
y forma del pincel en este diagrama.
Puede usar los elementos de control del cuadro de dialogo en el panel izquierdo de la ventana para cambiar
la imagen graca y rotarla.
El boton en la esquina superior izquierda se puede usar para regresar el graco a la posicion inicial.
El boton en la esquina superior derecha se puede usar para colocar el centro de la nube de puntos: en el
centro de gravedad o en cero.
Los botones en el grupo Rotar se usan para mover el diagrama de dispersi on alrededor de los ejes corre-
spondientes y los del grupo Esparcir se usan para mover puntos desde y hacia el centro.
El grupo Nombres permite mostrar u ocultar nombres de variables en los ejes correspondientes.
40.4 Ventana de GraphID para analisis de una matriz 321
Finalmente, el diagrama de dispersi on 3D se puede proyectar como tres diagramas de dispersi on 2D al
solicitar la vista 2D.
40.4. Ventana de GraphID para analisis de una matriz
Una vez escogido el archivo de matrices, puede hacer clic en Abrir o hacer doble clic sobre el nombre del
archivo para mostrar un histograma 3D con una barra para cada celda de la primera matriz. La altura
de la barra representa el valor de la estadstica, con la escala construida usando su rango, es decir, h =
(s
val
s
min
)/(s
max
s
min
). Por defecto, los valores negativos se muestran en azul y los positivos en rojo.
Puede escoger colores para nombres y escalas, valores negativos y positivos, paredes, piso y fondo. Use la
misma tecnica de los diagramas de caja y bigotes.
En la parte derecha de la ventana se le presenta una lista de matrices incluida en el archivo. N otese que solo
se muestran los primeros 16 caracteres de la descripcion del contenido de la matriz. Si no hay descripcion,
GraphID muestra Untitled n. Puede traer la matriz a la pantalla haciendo clic sobre la descripcion del
contenido.
La matriz en pantalla se puede manipular con las opciones y comandos en los elementos de la barra de
men u y con los conos equivalentes de la barra de herramientas.
Archivo y Edicion
Se suministran los mismos comandos de los correspondientes men us en el analisis de datasets, excepto Cerrar.
Ver
Colores Llama al cuadro de dialogo para seleccionar los colores de la ventana activa:
nombres de la/columna y escalas, valores negativos y positivos, paredes,
piso y fondo.
Fuente para escalas Llama al cuadro de dialogo para escoger la fuente para las escalas.
Fuente para nombres Llama al cuadro de dialogo para escoger la fuente para los nombres.
Ventana y Ayuda
Est an disponibles los mismos comandos de los correspondientes men us en el analisis de datasets.

Hay botones disponibles en la barra de herramientas que suministran acceso directo a los mismos coman-
dos/opciones que en los correspondientes men us. Se listan aqu tal como aparecen de izquierda a derecha.
Abrir
Guardar
Copiar
Imprimir
Colores
Fuente para nombres
Fuente para escalas
Informaci on acerca de la versi on de GraphID.
40.4.2. Manipulacion de la matriz en pantalla
Similar a la manipulaci on de los gracos de dispersi on 3D, puede usar los elementos de control del cuadro de
dialogo en el panel izquierdo de la ventana para cambiar la imagen graca y para rotar la matriz en pantalla.
El boton superior se puede usar para devolver el graco a la posicion inicial.
El boton Colores le permite cambiar los colores de:
Barra (valores positivos)
Pared
Barra (valores negativos)
Piso
Fondo
Nombres y escala.
Las casillas del grupo Ocultar/Mostrar le permite mostrar u ocultar paredes, escala, nombres en los ejes
correspondientes y la diagonal, si aplica.
Los botones en el grupo Rotar se pueden usar para mover la matriz alrededor del eje vertical.
Los botones en los grupos Columnas y Filas se pueden usar para cambiar el tama no de columnas y las
respectivamente.
Los botones en el grupo Centrar le permiten mover el graco a la izquierda, derecha, arriba y abajo.
Captulo 41
Analisis de series de tiempo
TimeSID es un componente de WinIDAMS para analisis de series de tiempo. Usa datasets de IDAMS
como entrada cuyos archivos Diccionario y Datos deben tener el mismo nombre con extensiones .dic y .dat
respectivamente.
S olo se puede usar un dataset a la vez, es decir que al abrir un otro dataset autom aticamente se cierra el
que se est a usando.
Seleccion de datos. Para seleccionar un dataset, use el comando Abrir de men u Archivo o haga clic en el
boton Abrir de la barra de herramientas. A continuacion, en el cuadro de dialogo de Abrir, escoja su archivo.
Al asignar Archivos Datos (*.dat) a Archivos de tipo: se muestran solo archivos Datos de IDAMS.
Seleccion de series. Tambien se pide especicar las series (variables) que quiere analizar. Las variables
numericas se pueden escoger de la lista Series accesibles de posibles variables y mover al area Selec-
cionadas. Mover las variables entre las listas se puede hacer con clic en los botones >, < (mover solo las
variables resaltadas), >>, << (mover todas las variables). N otese que aqu no hay variables alfabeticas.
Tratamiento de datos faltantes. Los valores datos faltantes se excluyen de las transformaciones de
series; se excluyen tambien del c alculo de estadsticas y auto-correlaciones. En todos los otros analisis, los
valores de datos faltantes se reemplazan por el promedio general.
41.3. Ventana principal de TimeSID
Despues de seleccionar las series y de un clic en OK, la ventana principal de TimeSID muestra el graco
de la primer serie de la lista de series seleccionadas. Las series se pueden manipular y analizar con varias
opciones y comandos en men us y/o con los conos equivalentes de la barra de herramientas.
324 Analisis de series de tiempo
Archivo
Abrir Llama al cuadro de dialogo para escoger un nuevo dataset para analisis.
Cerrar Cierra todas las ventanas del analisis actual.
Guardar como Llama al cuadro de dialogo para guardar el contenido del panel activo o
de la ventana activa. Las imagenes gracas se guardan en formato Bitmap
(*.bmp) de Windows. Las tablas de datos y de estadsticas se guardan en
formato de texto.
Imprimir Llama al cuadro de dialogo para imprimir el contenido del panel activo o de
la ventana activa.
Vista preliminar Muestra una vision previa de la impresion del contenido del panel activo o
de la ventana activa.
Congurar impresora Llama al cuadro de dialogo para modicar las opciones de la impresion y de
la impresora.
Salir Termina la sesi on de TimeSID.
El men u tambien puede contener la lista de los archivos abiertos recientemente, es decir, archivos usados en
sesiones previas de TimeSID.
Edicion
El men u solo tiene un comando, Copiar, para copiar el contenido del panel activo o de la ventana activa al
portapapeles.
41.3 Ventana principal de TimeSID 325
Ver
Escala OX Muestra/oculta la escala OX para las series de tiempo.
Fuente para escalas Llama al cuadro de dialogo para escoger la fuente de escalas.
Colores basicos Llama al cuadro de dialogo para escoger colores de margen y de fondo.
Ventana
Tabla de datos Llama la ventana con la tabla de datos. Las columnas de la tabla de datos son
las series de tiempo analizadas (incluidos los resultados de transformaci on).
Ademas de Tabla de datos, el men u contiene la lista de ventanas abiertas y las opciones est andar de Windows
para organizarlas.
Ayuda
Acerca de TimeSID Muestra informacion de la versi on y el copyright de TimeSID y un vnculo
Los otros dos men us, Transformaciones y Analysis, se describen detalladamente en las secciones Transfor-
maci on de series de tiempo y Analisis de series de tiempo mas adelante.

Hay 9 botones activos en la barra de herramientas que dan acceso directo a los mismos comandos/opciones
como en los correspondientes elementos de men u. Se listan aqu tal como aparecen de derecha a izquierda.
Abrir
Copiar
Imprimir
Colores b asicos
Fuente para escalas
Histogramas, estadsticas
Correlaciones auto y cruzadas
Autoregresion
Informaci on acerca de TimeSID
41.3.2. Ventana de series de tiempo
La ventana de series de tiempo se divide en tres paneles: el de la izquierda es para cambiar las propiedades
de la ventana y para seleccionar series (variables), el de la derecha arriba es para mostrar varias series de
tiempo y el de la derecha abajo es para mostrar la serie actual.
Cambiar la apariencia de la ventana. Los dos paneles para mostrar series de tiempo est an sincronizados
y se pueden cambiar con los controles suministrados en el panel de la izquierda. Por defecto, el panel superior
derecho est a vaco y su tama no est a reducido. El panel derecho inferior muestra la serie actual dejando visibles
la barra de desplazamiento y las escalas. El tama no de cualquiero de los paneles se puede cambiar con el
rat on y la escala OX se puede ocultar/mostrar con el comando Escala OX de men u Ver. M as aun, la
presentacion de gracos se puede modicar de la manera siguiente:
Regulaci on del grado de compresi on de gr acos - use los botones bajo Compresion de OX.
Colores para fondo y m argenes - use el boton Colores.
Fuente para escalas - use el boton Fuente para escalas.
Cambiar el nombre de la serie de tiempo. Escoja la serie de tiempo requerida, haga clic en el nombre
con el boton derecho del rat on y escoja la opcion Cambiar nombre. La ventana activa presenta el nombre
para ser modicado. N otese que estas modicaciones son temporales y se guardan solamente durante la
sesi on.
Escoger la serie de tiempo para mostrarla en pantalla. En el panel izquierdo de la ventana se
suministra una lista de series de tiempo. Al hacer doble clic sobre una variable de la lista, puede escoger la
forma y el color de la lnea de proyeccion. Despues de OK, se muestra el graco correspondiente en el panel
superior de la ventana. Esta operaci on se puede repetir para diferentes variables y de esta forma, puede
obtener varios gracos mostrados simult aneamente en el panel superior de la pantalla. El panel inferior
derecho siempre muestra la serie actual.
Suprimir una serie del analisis. Escoja la serie de tiempo requerida, haga clic en el nombre con el boton
derecho del rat on y escoja la opcion Suprimir serie.
41.4 Transformaci on de series de tiempo 327
41.4. Transformacion de series de tiempo
Los datos de series de tiempo se pueden transformar calculando diferencias, suavizaci on, supresi on de ten-
dencias, transformaci on funcional, etc. El men u Transformaciones tiene comandos para crear nuevas series
de tiempo basadas en valores de series seleccionadas. N otese que las variables mostradas est an renumeradas
secuencialmente a partir de cero (0).
Promedio crea una nueva serie de tiempo como promedio de las series especicadas. Las series tomadas
para los c alculos se seleccionan en el cuadro de dialogo Selecci on de series (ver secci on Preparaci on
del analisis).
Aritmetica en parejas crea un conjunto de series de tiempo haciendo operaciones aritmeticas en parejas
de series de tiempo especicadas en el cuadro de dialogo (cada serie especicada en la primera lista de
argumentos con el segundo argumento).
Diferencias, MA, ROC crea un conjunto se series de tiempo basado en transformaciones (diferencias
secuenciales, promedios movibles (MA) no centradas, raz on de cambio (ROC)) de las series especi-
cadas en el cuadro de dialogo. En el mismo cuadro se asignan los par ametros especicados para cada
transformaci on as como el tipo de transformaci on ROC.
41.5. Analisis de series de tiempo
Los aspectos del analisis se activan con comandos en el men u Analysis.
Estadsticas crea una tabla con la media, la desviacion est andar, los valores mnimo y maximo para la serie
de tiempo seleccionada y una tabla con estadsticas para prueba de la hipotesis aleatoriedad versus
tendencia . Tambien muestra un histograma para esta serie.
Correlaciones auto y cruzadas crea una nueva ventana con un conjunto de celdas que contienen gracos
de auto-correlaciones y correlaciones cruzadas para el conjunto especicado de las series de tiempo.
Tendencia (parametrica) crea una nueva serie de tiempo como la estimaci on de un modelo parametrico
de tendencia para la serie de tiempo especicada. El modelo de tendencia y la serie se seleccionan en
un cuadro de dialogo.
Autoregresion estima los par ametros de un modelo de autoregresion de predicci on a corto plazo para la
serie de tiempo especicada.
Espectro (un analisis espectral) produce una tabla de valores del espectro (frecuencia, periodo, densidad),
graco de estimaci on del espectro, y para el espectro de tipo DFT, graco de la desviacion del espectro
acumulativo a partir del espectro acumulativo de ruido blanco. Para la estimaci on de densidades
espectrales, se puede utilizar el metodo de la transformada discreta rapida de Fourier (DFT) o el
metodo de la entropa maxima (MENT). En el procedimiento DFT se utilizan dos ventanas para
mejorar la estimaci on de estas densidades: la ventana de datos de Welch para el tiempo y suavizado
polinomial para la frecuencia.
Espectro cruzado analiza una pareja de series de tiempo estacionarias. Suministra las densidades co-
espectrales, el espectro de fase y los valores de coherencia as como sus gracos. La estimaci on de las
densidades co-espectrales se hace con la ventana de suavizado de Parzen.
Filtros de frecuencia es un procedimiento de descomposicion de una serie de tiempo en componentes
de frecuencia. Construye una serie nueva utilizando uno de los ltros siguientes: pasa-bajos, pasa-
altos, pasa-banda o parada-banda. Para un ltro pasa-bajos o pasa-altos, su banda es igual al valor
del par ametro Frecuencia. Para un ltro pasa-banda o parada-banda, las bandas de frecuencia est an
41.5 Analisis de series de tiempo 329
denidas por el intervalo (Frecuencia - ancho de la ventana, Frecuencia + ancho de la ventana). Con
una opcion Eliminar tendencia se puede suprimir la tendencia de la serie antes ltraci on (despues, el
componente de tendencia se a nade a los resultados de la ltraci on).
Referencias
Farnum, N.R., Stanton, L.W., Quantitative Forecasting Methods, PWS-KENT Publishing Company, Boston,
1989.
Kendall, M.G., Stuart, A., The Advanced Theory of Statistics, Volume 3 - Design and Analysis, and time
series, Second edition, Grin, London, 1968.
Marple Jr, S.L., Digital Spectral Analysis with Applications, Prentice-Hall, Inc., 1987.
Parte VI
Formulas estadsticas y referencias
bibliogracas
Captulo 42
Analisis de conglomerados
Notacion
x = valores de variables
h, i, j, l = subndices para objetos
f, g = subndices para variables
p = n umero de variables
c = subndice para conglomerado
k = n umero de conglomerados
N
j
= n umero de objetos en conglomerado j
N = n umero total de casos.
42.1. Estadsticas univariadas
Si la entrada es un dataset IDAMS, se calculan las siguientes estadsticas para todas las variables usadas en
el analisis:
a) Promedio.
x
f
=
i
x
if
N
b) Desviaci on absoluta media.
s
f
=
i
|x
if
x
f
|
N
42.2. Medidas estandarizadas
En la misma situaci on, el programa puede calcular medidas estandarizadas, tambien llamadas puntajes z,
dados por:
z
if
=
x
if
x
f
s
f
para cada caso i y cada variable f utilizando el valor promedio y la desviacion absoluta media de la variable
f (ver secci on 1 mas atr as).
334 Analisis de conglomerados
42.3. Matriz de disimilitudes calculada a partir de un dataset de
IDAMS
Los elementos d
ij
de una matriz de disimilitudes miden el grado de disimilitud entre los casos i y j. Los
d
ij
se calculan directamente a partir de los datos primarios o a partir de los puntajes z si se solicita la
estandarizacion de las variables. Se pueden escoger dos tipos de distancias: euclideana o en cuadra urbana
(city block).
a) Distancia euclideana.
d
ij
=
_
p
f=1
(x
if
x
jf
)
2
b) Distancia en cuadra urbana (city block).
d
ij
=
p
f=1
|x
if
x
jf
|
42.4. Matriz de disimilitudes calculada a partir de una matriz de
similitudes
Si la entrada es una matriz de similitudes con elementos s
ij
, los elementos d
ij
de la matriz de disimilitudes
se calculan as:
d
ij
= 1 s
ij
42.5. Matrix de disimilitudes calculada a partir de una matriz de
correlacion
Si la entrada es una matriz de correlaci on con elementos r
ij
, los elementos d
ij
de la matriz de disimilitudes
se calculan usando una de las dos formulas: SIGN o ABSOLUTE.
Cuando se usa la formula SIGN, las variables con una correlaci on positiva alta reciben un coeciente de
disimilitud cercano a cero mientras que las variables con una correlaci on negativa fuerte se cosideran muy
dismiles.
d
ij
= (1 r
ij
)/2
Cuando se usa la formula ABSOLUTE, se asigna una disimilitud peque na a las variables con alta correlaci on
positiva o con fuerte correlaci on negativa.
d
ij
= 1 |r
ij
|
42.6. Reparticion alrededor de medoides (PAM)
El algoritmo busca k objetos representativos (medoides) que se encuentran centrados en los conglomerados
que ellos denen. El medoide, objeto representativo del conglomerado, es aquel objeto para el cual la disimil-
itud promedio con todos los objetos en el conglomerado es mnima. En realidad, el algoritmo PAM minimiza
la suma de disimilitudes en vez de la disimilitud promedio.
La selecci on de k medoides se lleva a cabo en dos fases. En la primera, se obtiene un conglomerado inicial
con la selecci on sucesiva de objetos representativos hasta hallar k objetos. El primer objeto es aquel para
el cual la suma de las disimilitudes con todos los otros objetos es tan peque na como sea posible. (Es una
especie de Mediana multivariada de los N objetos, de all el termino medoide.) En cada paso, PAM
42.6 Repartici on alrededor de medoides (PAM) 335
selecciona el objeto que hace decrecer la funci on objetivo (suma de disimilitudes) tanto como sea posible.
En la segunda fase, se hace un intento de mejorar el conjunto de objetos representativos. Esto se hace al
considerar todos los pares de objetos (i, h) para los cuales se ha escogido el objeto i y el objeto h no se ha
escogido, vericando si la escogencia de h y desechando i reduce la funci on objetivo. En cada paso, se hace
el intercambio mas econ omico.
a) Distancia (disimilitud) promedio nal. Esta es la funci on objetivo de PAM que puede verse como
una medida de la bondad del conglomerado nal.
Distancia promedio nal =
N
i=1
d
i,m(i)
N
donde m(i) es el objeto representativo (medoide) mas cercano al objeto i.
b) Conglomerados aislados. Hay dos tipos de conglomerados aislados: conglomerados L y conglomer-
ados L
.
El conglomerado C es un conglomerado L si para cada objeto i que pertenece a C
max
jC
d
ij
< mn
hC
d
ih
El conglomerado C es un conglomerado L
si
max
i,jC
d
ij
< mn
lC,hC
d
lh
c) Di ametro de un conglomerado. Se dene el diametro del conglomerado C como la mayor disimilitud
entre objetos que pertenecen a C:
Di ametro
C
= max
i,jC
d
ij
d) Separaci on de un conglomerado. Se dene la separacion del conglomerado C como la menor dis-
imilitud entre dos objetos, uno de los cuales pertenece a C y el otro no.
Separaci on
C
= mn
lC,hC
d
lh
e) Distancia promedio a un medoide. Si j es el medoide del conglomerado C, la distancia promedio
de todos los objetos de C a j se calcula as:
Distancia promedio
j
=
iC
d
ij
N
j
f ) Distancia m axima a un medoide. Si el objeto j es el medoide del conglomerado C, la distancia
maxima de todos los objetos de C a j se calcula as:
Distancia maxima
j
= max
iC
d
ij
g) Siluetas de los conglomerados. Cada conglomerado se representa con una silueta (Rousseeuw
1987), que muestra cuales objetos caen bien dentro del conglomerado y cuales simplemente tienen una
posicion intermedia. Para cada objeto se suministra la siguiente informacion:
- n umero del conglomerado al cual pertenece (CLU),
- n umero del conglomerado vecino (NEIG),
- el valor s
i
(denotado como S(I) en el listado),
- el identicador de tres caracteres del objeto i,
- una lnea cuya longitud es proporcional a s
i
.
Para cada objeto i, el valor s
i
se calcula as:
s
i
=
b
i
a
i
max(a
i
, b
i
)
donde a
i
es la disimilitud promedio del objeto i con todos los dem as objetos del conglomerado A al
cual pertenece i y b
i
es la disimilitud promedio del objeto i con todos los objetos del conglomerado
mas cercano B (vecina del objeto i). N otese que el conglomerado vecino es como la segunda mejor
escogencia del objeto i. Cuando el conglomerado A tiene solo un objeto i, s
i
se coloca en cero (s
i
= 0).
h) Ancho promedio de la silueta de un conglomerado. Es el promedio de s
i
para todos los objetos
i de un conglomerado.
i) Ancho promedio de silueta. Es el promedio de s
i
para todos los objetos i en los datos, es decir el
ancho promedio de silueta para k conglomerados. Se puede usar para seleccionar el mejor n umero
de conglomerados a escoger el k que produzca el promedio mas grande de s
i
.
Otro coeciente, SC, llamado coeficiente de silueta, se puede calcular manualmente como el ancho
promedio maximo de silueta sobre todos los k para los cuales se pueden construir las siluetas. Este
coeciente es una medida adimensional de la cantidad de estructura de conglomeracion que se ha
encontrado con el algoritmo de clasicacion.
SC = max
k
s
k
Rousseew (1987) propuso la siguiente interpretaci on del coeciente SC:
0,71 1,00 Se encontro una estructura fuerte.
0,51 0,70 Se encontro una estructura razonable.
0,26 0,50 La estructura es debil y podra ser articial;
debe tratar metodos adicionales con estos datos.
0,25 No hay estructura substancial.
42.7. Reparticion para grandes datasets (CLARA)
Al igual que PAM, el metodo CLARA tambien se basa en la b usqueda de k objetos representativos, pero el
algoritmo CLARA esta dise nado especialmente para analizar grandes conjuntos de datos. Consecuentemente,
la entrada a CLARA ha de ser un dataset IDAMS.
Internamente, CLARA tiene dos pasos. Primero se toma una muestra del conjunto de objetos (casos), y se
divide en k conglomerados con el mismo algoritmo de PAM. A continuacion, cada objeto que no pertenezca
a la muestra se asigna al mas cercano entre los k objetos representativos. La calidad de esta conglomerado
se dene como la distancia promedio entre cada objeto y su objeto representativo. Despues se sacan cinco
muestras, se aglomeran y se escoge la que tenga la distancia promedio mas baja.
Se analiza a continuacion la aglomeracion retenida de todos los datos. La distancia promedio nal, las
distancias promedio y maximas a cada medoide se calculan de la misma manera que en PAM (para todos
los objetos y no solo para aquellos en la muestra escogida). Tambien se calculan siluetas y estadsticas
relacionadas de la misma manera que en PAM, pero solo para los objetos de la muestra escogida (ya que
toda la silueta sera muy grande para imprimir).
42.8. Conglomeracion difusa (FANNY)
La conglomeracion difusa es una generalizaci on de la repartici on, que se puede aplicar al mismo tipo de
datos que el metodo PAM pero el algoritmo es de naturaleza diferente. En vez de asignar un objeto a
un conglomerado en particular, FANNY da su grado de pertenencia (coeciente de pertenencia) a cada
conglomerado y as suministra una informacion mas detallada acerca de la estructura de los datos.
42.9 Conglomeraci on jerarquica acumulativa (AGNES) 337
a) Funci on objetivo. La tecnica de conglomeracion difusa usada en FANNY busca minimizar la funci on
objetivo
Funci on objetivo =
k
c=1
j
u
2
ic
u
2
jc
d
ij
2
j
u
2
jc
donde u
ic
y u
jc
son funciones de pertenencia que est an sujetas a las restricciones
u
ic
0 para i = 1, 2, . . . , N; c = 1, 2, . . . , k
c
u
ic
= 1 para i = 1, 2, . . . , N
El algoritmo que minimiza esta funci on objetivo es iterativo y se detiene cuando la funci on converge.
b) Conglomeraci on difusa (pertenencia). Son los valores de pertenencia (coecientes de pertenencia
u
ic
) que dan el valor mas peque no de la funci on objetivo. Indican para cada objeto i, que tan fuerte-
mente pertenece al conglomerado c. N otese que la suma de los coecientes de pertenencia es igual a 1
para cada objeto.
c) Coeciente de partici on de Dunn. Este coeciente, F
k
, mide que tan dura es una aglomeracion
difusa. Vara del mnimo de 1/k para una conglomeracion completamente difusa (donde todos los
u
ic
= 1/k) hasta 1 para una conglomeracion totalmente dura (donde todos los u
ic
= 0 o 1).
F
k
=
N
i=1
k
c=1
u
2
ic
/ N
d) Coeciente de Dunn de partici on normalizado. La versi on normalizada del coeciente de Dunn
siempre vara de 0 a 1, cualquiera que sea el valor escogido de k.
F
k
=
F
k
(1/k)
1 (1/k)
=
kF
k
1
k 1
e) Conglomeraci on dura m as cercana. Esta partici on (= conglomeracion dura) se obtiene asig-
nando cada objeto al conglomerado en el cual tenga el mas alto coeciente de pertenencia. Se calculan
siluetas y estadsticas relacionadas de la misma manera que en PAM.
42.9. Conglomeracion jerarquica acumulativa (AGNES)
Este metodo se puede aplicar al mismo tipo de datos que los metodos PAM y FANNY. Sin embargo, no es
necesario especicar el n umero de conglomerados requeridos. El algoritmo construye una jerarqua en forma
de arbol que contiene implcitamente todos los valores de k, comenzando por N conglomerados y siguiendo
con fusiones sucesivas hasta obtener un solo conglomerado con todos los objetos.
En el primer paso, se unen los dos objetos mas cercanos (es decir, con disimilitud entre objetos mas peque na)
para formar un conglomerado de dos objetos, mientras que los dem as conglomerados tienen un solo miembro.
En cada paso siguiente se fusionan los dos conglomerados mas cercanos (con disimilitud entre objetos mas
peque na).
a) Disimilitud entre dos conglomerados. En el algoritmo AGNES, se usa el metodo del promedio del
grupo de Sokal y Michener (llamado algunas veces metodo del promedio no ponderado de los grupos
pareados) para medir las disimilitudes entre conglomerados.
Sean R y Q dos conglomerados y |R| y |Q| el n umero de objetos en cada uno de ellos. La disimilitud
d(R, Q) entre los conglomerados R y Q se dene como el promedio de todas las disimilitudes d
ij
donde
i es cualquier objeto de R y j es cualquier objeto de Q.
d(R, Q) =
1
|R| |Q|
iR
jQ
d
ij
b) Ordenamiento nal de objetos y disimilitudes entre ellos. En la primera lnea, los objetos se
imprimen en el orden en que aparecer an en la representacion graca de los resultados. En la segunda
lnea se imprimen las disimilitudes entre conglomerados de union. N otese que el n umero de disimilitudes
impreso es uno menos que el n umero de objetos N porque hay N 1 fusiones.
c) Bandera de disimilitudes. Es una representacion graca de los resultados. Una bandera consiste
en tiras y estrellas. Las estrellas indican enlaces y las tiras son repeticioners de identicadores de
objetos. Una bandera se lee siempre de izquierda a derecha. Cada lnea con estrellas comienza en la
disimilitud de los conglomerados fusionados. Hay escalas jas encima y debajo de la bandera que van de
0.00 (disimilitud 0) hasta 1.00 (la disimilitud mas grande encontrada). La disimilitud mas alta actual
(correspondiente a 1.00 en la bandera) se encuentra justamente debajo de la bandera.
d) Coeciente aglomerativo. El ancho promedio de la bandera se llama coeciente aglomerativo (AC).
Describe la fuerza de la estructura de aglomeracion encontrada.
AC =
1
N
i
l
i
donde l
i
es la longitud de la lnea que contiene el identicador del objeto i.
42.10. Conglomeracion jerarquica divisiva (DIANA)
El metodo DIANA se puede usar para el mismo tipo de datos que el metodo AGNES. Aunque AGNES y
DIANA producen salidas similares, DIANA construye su jerarqua en la direcci on opuesta, comenzando con
un gran conglomerado que contiene todos los objetos. En cada paso, divide un conglomerado en dos mas
peque nos, hasta que todos los conglomerados tengan un solo elemento. Esto signica que para N objetos, la
jerarqua se construye en N 1 pasos.
En el primer paso, los datos se dividen en dos conglomerados haciendo uso de las disimilitudes. En cada
uno de los pasos siguientes, se divide el conglomerado con diametro mas grande (ver 6.c atr as) de la misma
manera. Despues de N 1 pasos divisorios, todos los objetos est an aparte.
a) Disimilitud promedio con todos los objetos. Sea A un conglomerado y |A| el n umero de objetos
en el. La disimilitud promedio entre el objeto i y todos los dem as objetos en el conglomerado A se
dene como en 6.g atr as.
d
i
=
1
|A| 1
jA,j=i
d
ij
b) Ordenamiento nal de objetos y di ametros de conglomerados. En la primera lnea, se impri-
men los objetos en el orden en que aparecer an en la representacion graca. Debajo se imprimen los
diametros de los conglomerados. Estas dos secuencias de n umeros caracterizan juntas toda la jerarqua.
El diametro mas rande indica el nivel de divisi on de todos los datos. Los objetos a la izquierda de este
valor constituyen un conglomerado y los objetos a la derecha constituyen otro. El segundo diametro
mas grande indica la segunda divisi on, etc.
c) Bandera de disimilitudes. Igual que para el metodo AGNES, es una representacion graca de los
resultados. Tambien consiste de lneas con estrellas y las tiras que repiten los identicadores de objetos.
La bandera se lee de izquierda a derecha pero las escalas jas encima y debajo ahora van de 1.00
(correspondiente al diametro de todo el archivo de datos) a 0.00 (correspondiente al diametros de las
clases con un solo elemento). Cada lnea con estrellas termina en el diametro en el que el conglomerado
se divide. El diametro actual de los datos (correspondiente a 1.00 en la bandera) se suministra debajo
de la bandera.
d) Coeciente divisorio. El ancho promedio de la bandera se llama coeciente divisorio (DC). Describe
la fuerza de aglomeracion de la estructura encontrada.
DC =
1
N
i
l
i
donde l
i
, es la longitud de la lnea que contiene el identicador del objeto i.
42.11 Conglomeraci on monotetica (MONA) 339
42.11. Conglomeracion monotetica (MONA)
El metodo MONA est a orientado a datos que consisten exclusivamente de variables binarias (dicotomas,
que toman solo dos valores, de manera que x
if
= 0 o x
if
= 1). Aunque el algoritmo es del tipo jerarquico
divisorio, no usa disimilitudes entre objetos y por lo tanto no se calcula una matriz de disimilitudes. La
divisi on en conglomerados utiliza directamente las variables.
En cada paso, una de las variables (digamos, f) se usa para dividir los datos mediante la separacion de objetos
i para los cuales x
if
= 1 de aquellos en los que x
if
= 0. En el paso siguiente, cada conglomerado obtenido
en el paso anterior se divide aun mas, usando valores (0 y 1) de una de las variables restantes (se pueden
usar variables diferentes en conglomerados diferentes). El proceso contin ua hasta que cada conglomerado
contenga un objeto o bien, las variables restantes no puedan dividirlo.
Para cada divisi on, se escoge la variable mas fuertemente asociada con las otras variables.
a) Asociaci on entre dos variables. La medida de asociaci on entre dos variables f y g se dene as:
A
fg
= |a
fg
d
fg
b
fg
c
fg
|
donde a
fg
es el n umero de objetos i con x
if
= x
ig
= 0, d
fg
es el n umero de objetos con x
if
= x
ig
= 1,
b
fg
if
= 0 y x
ig
= 1, y c
fg
if
= 1 y x
ig
= 0.
La medida A
fg
expresa si las variables f y g dan divisiones similares del conjunto de objetos y se puede
considerer como una clase de similitud entre variables.
Para seleccionar la variable mas fuertemente asociada con las otras variables, se calcula la medida total
A
f
para cada variable as:
A
f
=
g=f
A
fg
b) Orden nal de objetos. Los objetos se imprimen en el orden en que aparecen en el graco de
separacion. Los pasos de separacion y las variables usadas para la separacion se imprimen debajo de
los identicadores de objetos.
c) Gr aco de separci on (bandera). Esta representacion graca es muy similar a la bandera que
produce DIANA. La longitud de una la de estrellas ahora es proporcional al n umero del paso en
el cual se hizo la separacion. Las las de identicadores de objetos corresponden a objetos. Una la
de identicadores que contin ua a la derecha de la bandera, se nala un objeto que se convirtio en un
conglomerado con un solo elemento en el paso correspondiente. Las las de identicadores gracadas
entre dos las de estrellas indican objetos que pertenecen a un conglomerado que no se pudo separar.
42.12. Referencias
Kaufman, L., and Rousseeuw, P.J., Finding Groups in Data: An Introduction to Cluster Analysis, John
Wiley & Sons, Inc., New York, 1990.
Rousseeuw, P.J., Silhouettes: a Graphical Aid to the Interpretation and Validation of Cluster Analysis,
Journal of Computational and Applied Mathematics, 20, 1987.
Captulo 43
Analisis de conguracion
Notacion
Sea A
(n,t)
una matriz rectangular de n variables (las) y t dimensiones (columnas). Una variable o punto a
tiene t coordenadas, cada una correspondiente a una dimensi on.
a
is
= elemento de la matriz A localizado en la i
esima
la
y la s
esima
columna
i, j = subndices para variables (las)
n = n umero de variables
s, l, m = subndices para dimensiones (columnas)
t = n umero de dimensiones.
43.1. Conguration centrada
Las variables se centran en cada dimensi on restando la media de cada columna de cada elemento en la
columna.
a
is
centrada = a
is

i
a
is
n
Despues de haber efectuado los c alculos con esta formula, la media de las coordenadas de las n variables es
cero para cada dimensi on.
43.2. Conguration normalizada
La suma de cuadrados de todos los elementos de la matriz A dividida por el n umero de variables n, calcula
la media del segundo momento de las variables. Cada elemento de la matriz queda normalizada por la raz
cuadrada del este valor (ver el denominador abajo).
a
is
normalizada =
a
is
s
a
2
is
/n
Despues del esta normalizaci on, la suma de cuadrados de los elementos a
is
es igual a n.
342 Analisis de conguraci on
43.3. Solucion en ejes principales
Se rota la conguracion de forma que dimensiones sucesivas suministran la maxima variancia posible. Sea A
la conguracion a rotar y B la conguracion en la forma de ejes principales.
C alculo de la matriz B:
La matriz simetrica A
A de dimensi on (t, t) es calculada en primer lugar. Despues los vectores propios, T ,

de A
A se determinan con el metodo de diagonalizacion de Jacobi.

La matriz A est a transformada en la matriz B con elementos b
is
, tal que B = AT , B tiene n lneas y t
columnas de la misma forma que la matriz A.
43.4. Matriz de productos escalares
SP
ij
=
s
a
is
a
js
La matriz SP es una matriz cuadrada y simetrica de dimensi on (n, n) de productos escalares de variables. El
producto escalar de una variable con ella misma, es su segundo momento. Si cada variable ha sido centrada
y normalizada, (media igual a cero y desviaci on est andar igual a la unidad), la matriz SP se convierte en
una matriz de correlaciones.
43.5. Matriz de distancias entre puntos
DIST
ij
=
s
(a
is
a
js
)
2
DIST es una matriz cuadrada y simetrica de distancias euclideanas entre variables.
43.6. Conguracion rotada
La rotacion puede ser llevada a cabo de dos en dos dimensiones cada vez. Corresponde al usuario seleccionar
las dimensiones, por eg. 2 y 5 (columna 2 y columna 5) y el angulo de la rotacion en grados.
Las nuevas coordenadas se calculan como sigue:
a
il
= a
il
cos +a
im
sin
a
im
= a
il
sin +a
im
cos
El c alculo se lleva a cabo para cada valor de i, y tantas veces como haya variables.
En la matriz A, las columnas l y m, se transforman en los vectores de las nuevas coordenadas que han sido
calculadas como se indico arriba.
43.7. Conguracion transladada
La traslacion puede ser llevada a cabo en una sola dimensi on (una columna) cada vez. El usuario especica
la constante T a ser adicionada a cada elemento de la dimensi on, y la columna l a la que se aplica.
Para todas las coordenadas de l (n coordenadas ya que hay n variables):
a
il
= a
il
+T
43.8 Rotaci on varimax 343
43.8. Rotacion varimax
(a) Los elementos a
is
de A est an normalizados por la raz cuadrada de las comunalidades correspondientes
a cada variable y denimos
b
is
=
a
is
_
s
a
2
is
(b) Despues de construir B = (b
is
), uno buscar a el mejor eje de proyeccion para las variables, una vez se
haya igualado su inercia. La maximizacion de la funci on V
c
se lleva a cabo, a traves de rotaciones sucesivas,
de dos en dos dimensiones cada vez, hasta que se alcanza la convergencia.
V
c
=
s
n
i
b
4
is

_
i
b
is
_
2
n
2
La matriz resultante B con elementos b
is
, tiene el mismo n umero de las y columnas que la matriz inicial A.
43.9. Conguracion clasicada
Es la conguracion nal impresa en formato diferente. Cada dimensi on se imprime ahora como una la, con
los elementos en orden ascendente.
43.10. Referencias
Greenstadt, J., The determination of the characteristic roots of a matrix by the Jacobi method, Mathematical
Methods for Digital Computers, eds. A. Ralston and H.S. Wilf, Wiley, New York, 1960.
Herman, H.H., Modern Factor Analysis, University of Chicago Press, Chicago, 1967.
Kaiser, H.F., Computer program for varimax rotation in factor analysis, Educational and Psychological
Measurement, 3, 1959.
Captulo 44
Analisis discriminatorio
Notacion
k = subndice para el caso
i, j = subndices para variables
g = superndice para el grupo
q = subndice para el paso
p = n umero de variables
w = valor del peso
x
g
k
= vector de los elementos p correspondientes al caso k en el grupo g
y
g
q
= vector con los valores de la media de las variables seleccionadas
en el paso q para el grupo g
N
g
= n umero de casos en el grupo g
W
g
= suma total de los pesos para el grupo g
I
q
= subconjunto de ndices para las variables seleccionadas en el paso q.
Estas estadsticas, ponderadas si as se han especicado, se calculan para cada grupo y para cada variable
de analisis, usando la muestra b asica. Se calcula la tambien la media para toda la muestra b asica (media
total).
a) Media.
x
g
i
=
N
g
k=1
w
g
k
x
g
ki
W
g
Nota: la media total se calcula con la formula analoga.
b) Desviaci on est andar.
s
g
i
=
_
N
g
k=1
w
g
k
(x
g
ki
)
2
W
g
(x
g
i
)
2
346 Analisis discriminatorio
44.2. Discriminacion lineal entre 2 grupos
El procedimiento se basa en la funci on discriminatoria lineal de Fisher y la matriz de covariancia total
se usa para calcular los coecientes de esta funci on. La clasicacion de los casos se hace con los valores
de esta funci on y no con las distancias. El criterio aplicado para escoger la siguiente variable es la D
2
de
Mahalanobis (distancia de Mahalanobis entre dos grupos). Despues de cada paso, el programa produce la
funci on discriminatoria, la tabla de clasicacion y el porcentaje de casos clasicados correctamente para la
muestra b asica y para la muestra de prueba.
a) Funci on discriminatoria lineal. Denominemos la funci on discriminatoria calculada en el paso q
como
f
q
(x) =
iIq
b
qi
x
i
+ a
q
Los coecientes b
qi
de esta funci on para las variables i incluidas en el paso q corresponden a los
elementos del unico vector propio de la matriz
(y
1
q
y
2
q
)
T
1
q
y el termino constante se calcula asi:
a
q
=
1
2
(y
1
q
y
2
q
)
T
1
q
(y
1
q
+y
2
q
)
donde T
q
es la matriz de covariancia total (calculada para casos extraidos de ambos grupos) de las
variables incluidas en el paso q, con los elementos
t
ij
=
k
w
k
(x
ki
x
i
)(x
kj
x
j
)
W
1
+W
2
b) Tabla de clasicaci on para la muestra b asica.
Se asigna un caso:
al grupo 1 si f
q
(x) > 0 ,
al grupo 2 si f
q
(x) < 0 .
No se asigna un caso si f
q
(x) = 0 .
Porcentaje de casos correctamente clasificados se calcula como el cociente entre el n umero
de casos en la diagonal y el n umero total de casos en la tabla de clasicacion.
c) Tabla de clasicaci on para la muestra de prueba.
Se construye de la misma manera que la tabla para la muestra b asica (ver 2.b mas atr as).
d) Criterio de selecci on de la siguiente variable. Para este prop osito se usa la distancia de Maha-
lanobis entre los dos grupos. La variable escogida en el paso q es la que maximiza el valor de D
2
q
.
D
2
q
= (y
1
q
y
2
q
)
T
1
q
(y
1
q
y
2
q
)
e) Asignaci on y valor de la funci on discriminatoria lineal para los casos. Se calculan y se
imprimen para el ultimo paso o cuando este precede a un decrecimiento del porcentaje de casos clasi-
cados correctamente. El valor de la funci on se calcula de acuerdo con la formula descrita anteriormente
en el punto 2.a; en el c alculo se usan las variables retenidas en el paso. La asignacion de casos a los
grupos se hace seg un lo descrito el punto 2.b anteriormente.
Se usan las mismas reglas de asignacion y la misma formula para la muestra b asica, las medias de
grupos, la muestra de prueba y la muestra anonima.
44.3 Discriminaci on lineal entre mas de 2 grupos 347
44.3. Discriminacion lineal entre mas de 2 grupos
El procedimiento de discriminacion de 3 o mas grupos no solamente utiliza la matriz de covariancia total
sino tambien la matriz de covariancia entre grupos. El criterio para escoger la siguiente variable a usar
aqu es la huella del producto de estas dos matrices (generalizacion de la distancia de Mahalanobis para dos
grupos). Despues de escoger la nueva variable a entrar, se ejecuta el analisis factorial discriminatorio lineal y
el programa produce el poder discriminatorio total y el poder discriminatorio para los tres primeros factores.
Los casos se clasican de acuerdo con las distancias a los centros de los grupos. En cada paso, el programa
calcula e imprime la tabla de clasicacion y el porcentaje de casos clasicados correctamente para la muestra
b asica y para la muestra de prueba.
a) Tabla de clasicaci on para la muestra b asica. La distancia de un caso x al centro del grupo g
en el paso q se dene como la funci on lineal
v
y
g
q
(x) = (y
g
q
)
T
1
q
(y
g
q
2x)
donde T
q
, como se describio en 2.a anteriormente, es la matriz de covariancia total (calculada para los
casos extraidos de todos los grupos) para las variables incluidas en el paso q, con los elementos
t
ij
=
k
w
k
(x
ki
x
i
)(x
kj
x
j
)
W
Un caso se asigna al grupo para el cual v
y
g
q
(x) tenga el valor mas peque no (la distancia mas peque na).
Porcentaje de casos correctamente clasificados se calcula como el cociente entre el n umero
de casos en la diagonal y el n umero total de casos en la tabla de clasicacion.
b) Tabla de clasicaci on para la muestra de prueba.
Se construye de la misma manera que para la muestra b asica (ver 3.a mas atr as).
c) Criterio de selecci on de la siguiente variable. La variable escogida en el paso q es aquella que
maximiza el valor de la huella de la matriz T
1
q
B
q
, donde T
q
es la matriz de covariancia total usada
en el paso q (ver 3.a mas atr as), y B
q
es la matriz de covariancias entre grupos, con elementos
b
ij
=
g
W
g
(y
g
i
x
i
)(y
g
j
x
j
)
W
La siguiente parte del analisis (puntos 3.d - 3.h a continuacion) se lleva a cabo en una de las siguientes
tres circunstancias:
cuando el paso precede a un decrecimiento del porcentaje de casos clasicados correctamente,
cuando el porcentaje de casos clasicados correctamente es igual a 100,
cuando es el ultimo paso.
d) Asignaci on y distancias de los casos en la muestra b asica. Las distancias a cada grupo se
calculan como se describio en el punto 3.a anteriormente; las variables usadas en los c alculos son
aquellas retenidas en el paso. La asignacion de casos a los grupos se lleva a cabo como se describio en
el punto 3.a anteriormente.
e) An alisis factorial discriminatorio. Se analiza la matriz T
1
q
B
q
descrita en 3.c mas atr as. Los
dos primeros vectores propios correspondientes a los dos valores propios mas grandes de esta matriz
son los dos ejes factoriales discriminatorios. El poder discriminatorio de los factores se mide con los
correspondientes valores propios. Como el programa suministra el poder discriminatorio para los tres
primeros factores, la suma de los valores propios permite estimar el nivel de los valores propios restantes,
es decir, de aquellos que no se imprimen.
f ) Valores de factores discriminatorios para todos los casos y medias de grupos.
Para un caso, el valor del factor discriminatorio se calcula como el producto escalar del vector del
caso que contenga las variables retenidas en dicho paso con el vector propio correspondiente al factor.
348 Analisis discriminatorio
Notese que estos valores no se imprimen sino que se utilizan en una representacion graca de los casos
en el espacio de los dos primeros factores.
Para una media de grupo, se calcula el valor del factor discriminatorio de la misma manera, reem-
plazando el vector del caso por el vector de media de grupo.
g) Asignaci on y distancias de los casos en la muestra de prueba. Las distancias a cada grupo se
calculan de la misma manera y la asignacion de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra b asica (ver 3.d mas atr as).
h) Asignaci on y distancias de los casos en la muestra an onima. Las distancias a cada grupo se
calculan de la misma manera y la asignacion de casos a los grupos se hace siguiendo las mismas reglas
que para la muestra b asica (ver 3.d mas atr as).
44.4. Referencias
Romeder, J.M., Methodes et programmes danalyse discriminante, Dunod, Paris, 1973.
Captulo 45
Funciones de distribucion y de Lorenz
Notacion
p
i
= valor del i
esimo
punto de separacion
i = subndice para el punto de separacion
s = n umero de subintervalos
45.1. Formula para los puntos de separacion
El n umero de puntos de separacion es inferior en una unidad al n umero solicitado de subintervalos, por ej.
la mediana implica dos subintervalos y un punto de separaci on.
p
i
= V () + [V ( + 1) V ()]
donde V es un vector ordenado de datos, por ej. V (3) es el tercer componente en el vector,
= entero
_
i(N + 1)
s
_
=
i(N + 1)
s

y entero(x) es el mayor entero que no exceda x.
45.2. Puntos de separacion de la funcion de distribucion
Hay cuatro posibilidades:
Si un punto de separacion es identicamente igual a un valor y este no est a atado a ning un otro valor,
entonces el valor mismo es el punto de separacion.
Si un punto de separacion se presenta entre dos valores y los dos valores no son iguales, entonces el
punto de separacion se determina utilizando la interpolaci on lineal ordinaria.
Si un punto de separacion es identicamente igual a un valor y dicho valor est a atado a uno o mas
valores, entonces el procedimiento involucra el c alculo de nuevos puntos medios. Sea k el valor, m
la frecuencia con la que ocurre y d la distancia mnima entre los items en el vector V. El intervalo
k mn(d, 1)/2 se divide en m partes y los puntos medios son calculados para estos nuevos intervalos.
El punto de separacion adecuado es el punto medio.
Si un punto de separacion se presenta entre dos valores que son identicos, el procedimiento involucra
el c alculo de nuevos puntos medios e interpolaci on lineal ordinaria. Sea k el valor, m la frecuencia con
350 Funciones de distribuci on y de Lorenz
la que el ocurre y d la distancia mnima entre los items en el vector V. El intervalo k mn(d, 1)/2
se divide en m partes y los puntos medios son calculados para estos nuevos intervalos. Entonces la
interpolaci on lineal se lleva a cabo entre dos nuevos puntos medios adecuados.
45.3. Puntos de separacion de la funcion de Lorenz
Para determinar los puntos de separacion en la funci on de Lorenz, los componentes del vector ordenado de
datos se suman y en cada paso el total acumulado se divide por el total general. Los puntos de separacion
se calculan de la misma forma que se describe arriba.
45.4. Curva de Lorenz
La funci on de Lorenz trazada contra la proporcion de la poblacion ordenada, da la curva de Lorenz que
siempre est a contenida en el triangulo inferior del cuadrado unitario. El programa QUANTILE utiliza diez
subintervalos para generar la curva de Lorenz.
Note que los valores de la funci on de Lorenz son llamados Fracci on de riqueza en la impresion efectuada
por la computadora.
45.5. El coeciente de Gini
El coeciente de Gini, representa el doble del area entre la funci on de Lorenz y la diagonal trazada en el
cuadrado unitario. Toma valores entre cero y uno. Cero (0) indica igualdad perfecta - todos los valores de
los datos son iguales. La unidad (1) indica desigualdad perfecta - hay un valor diferente de cero.
El programa utiliza una aproximacion:
Coeciente de Gini = 1
1
s

2
s
s1
i=1
l
i
donde l
i
es el i
esimo
punto de separacion de la funci on de Lorenz.
Esta aproximacion es mas precisa cuando el n umero de puntos de separacion aumenta; se recomienda que al
menos diez sean utilizados.
45.6. Estadstica D de Kolmogorov-Smirnov
La prueba de Kolmogorov-Smirnov trata la similitud entre dos funciones acumulativas. Si dos distribuciones
acumulativas para dos muestras est an muy separadas en cualquier punto, esto sugiere que las muestras
provienen de poblaciones diferentes. La prueba se enfoca sobre la mayor diferencia entre las dos distribuciones.
Sean V
1
y V
2
los vectores ordenados para la primera y la segunda variable respectivamente, y X el vector de
c odigos que aparecen en cualquiera de las dos distribuciones. El programa crea las dos funciones acumulativas
F
1
(x) y F
2
(x) respectivamente. Entonces busca la diferencia absoluta mayor entre las distribuciones,
D = max(|F
1
(x) F
2
(x)|)
e imprime:
x : el primer valor para la mayor diferencia en valor absoluto
f
1
: el valor de F
1
asociado con x
f
2
: el valor de F
2
asociado con x.
Si las N para V
1
y V
2
son iguales e inferiores a 40, el programa imprime la estadstica K igual a la diferencia
en frecuencias asociada a la mayor diferencia. Una tabla de valores crticos de la estadstica K, denotada
45.7 Nota sobre los pesos 351
como K
D
, puede ser consultada para determinar la signicaci on de la diferencia observada.
Si las N para V
1
y V
2
no son iguales o superiores a 40, el programa imprime las estadsticas siguientes:
Desviaci on no ajustada = D = |f
1
f
2
|
Desviaci on ajustada = D
_
N
1
N
2
N
1
+N
2
donde N
1
y N
2
son iguales al n umero de casos en V
1
y V
2
respectivamente.
Ji-cuadrada aproximada = 4D
2
N
1
N
2
N
1
+N
2
Nota: la signicaci on de la desviacion direccional maxima puede ser encontrada cuando se compara este valor
de Ji-cuadrada a una distribuci on Ji-cuadrada con dos grados de libertad.
45.7. Nota sobre los pesos
Para los puntos de separacion de la funci on de distribuci on, los puntos de separacion de la funci on de Lorenz
y los coecientes de Gini, los datos pueden ser ponderados con un entero. Si un peso es especicado, cada
caso se cuenta implcitamente como w casos, donde w es el valor del peso para el caso correspondiente.
La prueba de Kolmogorov-Smirnov es siempre calculada para datos no ponderados.
Captulo 46
Analisis factorial
Notacion
i = subndice para el caso
j, j
= subndices para variables

= subndice para el factor
m = n umero de factores determinados/deseados
I1 = n umero de casos activos
J1 = n umero de variables activas
w = valor del peso
W = suma total de los pesos para casos activos.
Estas estadsticas se calculan para todas las variables usadas en el analisis, es decir, variables activas y
variables pasivas, si las hay. N otese que las variables se numeran nuevamente a partir de 1 (columna RNK).
S olo los casos activos entran a los calculos.
a) Media.
x
j
=
I1
i=1
w
i
x
ij
W
b) Variancia (estimada).
s
j
2
=
_
N
N 1
__ W
I1
i=1
w
i
x
2
ij

_
I1
i=1
w
i
x
ij
_
2
W
2
_
c) Desviaci on est andar (estimada).
s
j
=
_
s
j
2
d) Coeciente de variaci on (C. Var.).
C
j
=
s
j
x
j
354 Analisis factorial
e) Total (suma de x
j
).
Total
j
=
I1
i=1
w
i
x
ij
f ) Asimetra.
g1
j
=
m3
j
s
2
j
_
s
2
j
donde m3
j
=
I1
i=1
w
i
(x
ij
x
j
)
3
W
g) Kurtosis.
g2
j
=
m4
j
( s
2
j
)
2
3 donde m4
j
=
I1
i=1
w
i
(x
ij
x
j
)
4
W
h) N ponderada. N umero de casos activos si no se especica ponderaci on, o n umero ponderado de casos
activos (suma de ponderaciones).
Se imprimen los datos tanto para casos activos como para casos pasivos.
La primera columna de la tabla contiene los valores de la variable identicadora del caso (hasta 4 digitos). La
segunda columna (Coef) contiene el valor de la ponderaci on asignada a cada caso (w
i
). La tercera columna
(PI) es igual a la suma ponderada de los valores de las variables activas para cada caso (totales ponderados
de la).
P
i
=
J1
j=1
w
i
x
ij
La primera lnea contiene los primeros 4 caracteres del nombre de cada variable. La segunda lnea (PJ) es
igual a la suma ponderada de los valores de los casos activos para cada variable (totales ponderados de
columna).
P
j
=
I1
i=1
w
i
x
ij
N otese que el valor de Coef al comienzo de esta lnea es igual al n umero ponderado de casos activos y el
valor de PI es igual al total general (P) de las variables activas para los casos activos.
P =
I1
i=1
P
i
=
J1
j=1
P
j
=
I1
i=1
J1
j=1
w
i
x
ij
El resto de la tabla de entrada de datos contiene los valores (con una cifra decimal) de las variables activas
y pasivas.
46.3. Matrices n ucleo (matrices de relaciones)
Para cada tipo de analisis se calula y se imprime una matriz n ucleo. Esta es una matriz de relaciones entre
variables. N otese que para los listados los valores en la matriz est an multiplicados por un factor cuyo valor
se imprime junto al ttulo de la matriz. Este factor es cero cuando algunos valores de la matriz exceden 5
caracteres (puede ser el caso de productos escalares o de matrices de covariancia).
46.4 Huella 355
Para el analisis de correspondencias, los elementos C
jj
de la matriz n ucleo se calculan as:
C
jj
=
1
_
P
j
_
P
j
I1
i=1
(w
i
x
ij
) (w
i
x
ij
)
P
i
Para el analisis de productos escalares, los elementos SP
jj
SP
jj
=
I1
i=1
w
i
x
ij
x
ij
Para el analisis de productos escalares normados, los elementos NSP

jj
de la matriz n ucleo se
calculan as:
NSP
jj
=
I1
i=1
w
i
x
ij
x
ij
_
_
I1
i=1
w
i
x
2
ij
__
I1
i=1
w
i
x
2
ij
_
Para el analisis de covariancias, los elementos COV
jj
COV
jj
=
I1
i=1
w
i
(x
ij
x
j
) (x
ij
x
j
)
W
Para el analisis de correlaciones, los elementos COR
jj
COR
jj
=
I1
i=1
w
i
(x
ij
x
j
) (x
ij
x
j
)
_
I1
i=1
w
i
(x
ij
x
j
)
2
I1
i=1
w
i
(x
ij
x
j
)
2
46.4. Huella
La huella de la matriz n ucleo se calcula como la suma de sus elementos en la diagonal. La huella tambien
es igual al total de los valores propios (inercia total). N otese que para el analisis de correlaciones y para el
analisis de productos escalares normados la inercia total es igual al n umero de variables activas.
Huella =
J1
=1
46.5. Valores y vectores propios

Se imprimen los valores propios y los vectores propios para los factores retenidos. Tiene el mismo signicado
para cada tipo de analisis pero son de poco interes para el usuario.
Para el analisis de correspondencias, el programa imprime un valor propio y un vector propio mas que el
n umero de factores determinado/deseado. Primero se imprime el factor para el valor propio trivial (siempre
igual a 1) y luego se ignora. Los factores restantes se numeran nuevamente (a partir de 1) en las tables de
casos/variables activos/pasivos.
46.6. Tabla de valores propios
La tabla contiene todos los valores propios, simbolizados aqu por
, calculados por el programa. N otese

que en el analisis de correspondencias, el primer valor propio trivial (siempre 1) se imprime solamente en la
tabla y su valor se resta de la huella cuando se calcula el porcentaje en el punto 6.d mas adelante.
a) NO. N umero secuencial de valor propio, , en orden ascendente.
b) ITER. N umero de iteraciones usadas para calcular los vectores propios correspondientes. El valor cero
signica que el vector propio se obtuvo a la vez que el anterior (desde abajo).
c) Valor propio. Esta columna muestra una secuencia de valores propios, lambdas, cada uno correspon-
diente al factor .
d) Porcentaje. Contribucion del factor a la inercia total (en terminos porcentuales).
Huella
100
e) Cumul (porcentaje acumulativo). Contribucion de los factores 1 a a la inercia total (en terminos
porcentuales).
Cumul
=
1
+
2
+ +
f ) Histograma de valores propios. Cada valor propio se representa mediante una lnea de asteriscos en
la cual la cantidad de asteriscos es proporcional al valor propio. El primer valor propio del histograma
siempre se representa con 60 asteriscos. El histograma permite un analisis visual de la disminicion
relativa de valores propios para factores subsiguientes.
46.7. Tabla de factores de variables activas
La tabla contiene las ordenadas de las variables activas en el espacio factorial, sus cosenos al cuadrado con
cada factor y sus contribuciones a cada factor. Adicionalmente, contiene la calidad de estas variables, sus
ponderaciones y sus inercias.
a) JPR. N umero de variable para las variables activas (principales).
b) QLT. Se mide la calidad de representacion de la variable en el espacio de m factores, para todo tipo
de analisis, con la suma de cosenos cuadrados (ver 7.f mas adelante). Los valores mas cercanos a 1
indican un nivel mas alto de representacion de la variable por los factores.
QLT
j
=
m
=1
COS2
j
c) PESO. Valor de ponderaci on de la variable. Para todo tipo de analisis, se calcula como un cociente
entre el total de la variable y el total general (ver secci on 2 atr as), multiplicado por 1000.
f
j
=
P
j
P
1000
N otese que la ponderaci on (PESO) impresa en la ultima lnea de la tabla es igual a:
- el total general para el analisis de correspondencias,
- el n umero ponderado de casos para otros tipos de analisis.
d) INR. Inercia correspondiente a la variable. Indica la parte de la inercia total relacionada con la variable
en el espacio de factores.
46.7 Tabla de factores de variables activas 357
Para el analisis de correspondencias, se calcula como el cociente entre la inercia de la variable y
la inercia total, multiplicado por 1000. N otese que la inercia de la variable depende de la ponderaci on
de esta y que el valor de huella usado no incluye el valor trivial del valor propio.
INR
j
=
f
j
J11
=1
F
2
j
Huella
1000
donde F
j
es la ordenada de la variable j que corresponde al factor (ver 7.e mas adelante).
Para el analisis de productos escalares y el analisis de covariancias, la inercia de la variable
no depende de la ponderaci on de esta.
INR
j
=
J1
=1
F
2
j
Huella
1000
Para el analisis de productos escalares normados y el analisis of correlaciones, la inercia
de la variable solo depende del n umero de variables activas.
INR
j
=
1
J1
1000
N otese que la inercia (INR) impresa en la ultima lnea de la tabla es igual a 1000.
Las siguientes tres columnas se repiten para cada factor.
e) #F. La ordenada de la variable en el espacio factorial, denominado aqu con F
j
.
f ) COS2. Coseno cuadrado del angulo entre la variable y el factor. Es una medida de la distancia entre
la variable y el factor. Valores cercanos a 1 indican distancias mas cortas al factor.
Para el analisis de correspondencias, se calcula as:
COS2
j
=
F
2
j
J11
=1
F
2
j
1000
Para el analisis de productos escalares y el analisis de covariancias,
COS2
j
=
F
2
j
J1
=1
F
2
j
1000
Para el analisis de productos escalares normados y el analisis of correlaciones,
COS2
j
= F
2
j
1000
g) CPF. Contribucion de la variable al factor.
Para el analisis de correspondencias,
CPF
j
=
f
j
F
2
j
1000
Para todos los otros tipos de analisis,
CPF
j
=
F
2
j
1000
N otese que la contribucion (CPF) impresa en la ultima lnea de la tabla es igual a 1000.
46.8. Tabla de factores de variables pasivas
La tabla contiene la misma informacion descrita en el punto 7 mas atr as, pero para variables pasivas.
a) JSUP. N umero de variable para las variables pasivas (suplementarias).
b) QLT. Calidad de representacion de la variable en el espacio de m factores (ver 7.b atr as).
c) PESO. Valor de ponderaci on de la variable (ver 7.c atr as).
d) INR. Inercia correspondiente a la variable. N otese que las variables pasivas no contribuyen a la inercia
total. De esta manera, la inercia aqu indica si la variable podra jugar alg un papel en el analisis si se
utilizara como variable activa. Se calcula de la misma forma que las variables activas en los respectivos
analisis (ver 7.d atr as).
La inercia (INR) impresa en la ultima lnea de la tabla es igual a la INR total sobre todas las variables
pasivas.
e) #F. La ordenada de la variable en el espacio factorial, denominada aqu por F
j
.
f ) COS2. Coseno cuadrado del angulo entre la variable y el factor. Se calcula en la misma forma que
para las variables activas en los analisis respectivos (ver 7.f atr as).
g) CPF. Contribucion de la variable al factor. N otese que las variables pasivas no participan en la
construcci on del espacio factorial. As, la contribuci on solo indica si la variable podra tener alg un
papel en el analisis si se utilizara como variable activa. CPF se calcula de la misma manera que para
las variables activas en los analisis respectivos (ver 7.g atr as).
La contribucion (CPF) impresa en la ultima lnea de la tabla es igual al CPF total sobre todas las
variables pasivas.
46.9. Tabla de factores de casos activos
La tabla contiene las ordenadas de los casos activos en el espacio factorial, sus cosenos cuadrados con cada
factor y sus contribuciones a cada factor. Ademas, contiene la calidad de la representacion de estos casos,
sus ponderaciones y sus inercias.
a) IPR. Valor de identicador de caso para los casos activos (principales).
b) QLT. Se mide la calidad de representacion del caso en el espacio de m factores, para todos los tipos
de analisis, con la suma de cosenos cuadrados (ver 9.f mas adelante). Valores cercanos a 1 indican
un nivel mas alto de representacion del caso por los factores.
QLT
i
=
m
=1
COS2
i
c) PESO. Valor de ponderaci on del caso.
Para el analisis de correspondencias, se calcula como el cociente entre la suma (ponderada) de
variables activas para este caso y el total general (ver secci on 2 atr as), multiplicado por 1000.
f
i
=
P
i
P
1000
N otese que la ponderaci on (PESO) que se imprime en la ultima lnea de la tabla es igual al total
general.
f
i
=
w
i
P
1000
N otese que la ponderaci on (PESO) que se imprime en la ultima lnea de la tabla es igual al n umero
ponderado de casos.
46.9 Tabla de factores de casos activos 359
d) INR. Inercia correspondiente al caso. Indica la parte de le inercia total relacionada con el caso en el
espacio de factores.
Para el analisis de correspondencias, se calcula como el cociente entre la inercia del caso y la
inercia total, multiplicado por 1000. N otese que la inercia del caso depende de la ponderaci on del caso
y que el valor de huella usado aqu no incluye el valor trivial del valor propio.
INR
i
=
f
i
J11
=1
F
2
i
Huella
1000
INR
i
=
_
w
i
W Huella
J1
j=1
z
2
ij
_
1000
donde
z
ij
=
_
_
x
ij
para analisis de productos escalares
xij
_
_
I1
i=1
wi x
2
ij
_
/ W
para analisis de productos escalares normados
x
ij
x
j
para analisis de covariancias
xijxj
sj
para analisis de correlaciones
y s
j
es la desviacion est andar de la muestra para la variable j.
N otese que la inercia (INR) que se imprime en la ultima lnea de la tabla es igual a 1000.
e) #F. La ordenada del caso en el espacio factorial, denominada aqu por F
i
.
f ) COS2. Coseno cuadrado del angulo entre el caso y el factor. Es una medida de distancia entre caso
y factor. Los valores mas cercanos a 1 indican distancias mas cortas al factor.
Para el analisis de correspondencias, se calcula as:
COS2
i
=
F
2
i
J11
=1
F
2
i
1000
COS2
i
=
F
2
i
J1
=1
F
2
i
1000
g) CPF. Contribucion del caso al factor.
Para el analisis de correspondencias,
CPF
i
=
f
i
F
2
i
1000
CPF
i
=
w
i
F
2
i
W
1000
N otese que la contribucion (CPF) que se imprime en la ultima lnea de la tabla es igual a 1000.
46.10. Tabla de factores de casos pasivos
La tabla contiene la misma informacion que la descrita en el punto 9. mas atr as, pero para los casos pasivos.
a) ISUP. Valor de identicador de caso para los casos pasivos (suplementarios).
b) QLT. Calidad de representacion del caso en el espacio de m factores (ver 9.b atr as)
c) PESO. Valor de ponderaci on del caso (ver 9.c atr as).
d) INR. Inercia correspondiente al caso. N otese que los casos pasivos no contribuyen a la inercia total.
As, la inercia aqu indica si el caso podra tener alg un papel en el analisis si se usara como caso activo.
Se calcula de la misma manera que para los casos activos en los respectivos analisis (ver 9.d atr as).
La inercia (INR) que se imprime en la ultima lnea de la tabla es igual a la INR total sobre todos los
casos pasivos.
e) #F. La ordenada del caso en el espacio factorial, denominada aqu por F
i
.
f ) COS2. Coseno cuadrado del angulo entre el caso y el factor. Se calcula de la misma manera que los
casos activos en los respectivos analisis (ver 9.f atr as).
g) CPF. Contribucion del caso al factor. N otese que los casos pasivos no participan en la construcci on
del espacio factorial. As, la contribucion indica solamante si el caso podra tener alg un papel en el
analisis si se hubiera usado como caso activo. CPF se calcula de la misma manera que los casos activos
en los analisis respectivos (ver 9.g atr as).
La contribucion (CFP) impresa en la ultima lnea de la tabla es igual al CPF total de todos los casos
complementarios.
46.11. Factores rotados
S olo en analisis de correlaciones. Los factores de variables se pueden rotar cuando se haya terminado el
analisis factorial. El procedimiento Varimax que se utiliza aqu es el mismo usado en el programa CONFIG.
N otese que los factores de variables para las variables activas se pueden tratar como una conguracion de
J1 objetos en un espacio dimensional .
46.12. Referencias
Benzecri, J.-P. and F., Pratique de lanalyse de donnees, tome 1: Analyse des correspondances, expose elemen-
taire, Dunod, Paris, 1984.
Iagolnitzer, E.R., Presentation des programmes MLIFxx danalyses factorielles en composantes principales,
Informatique et sciences humaines, 26, 1975.
Captulo 47
Regresion lineal
Notacion
y = valor de la variable dependiente
x = valor de una variable independiente
i, j, l, m = subndices para variables
p = n umero de predictores
N = n umero total de casos
w = valor del peso multiplicado por
N
W
W = suma total de los pesos.
Estas estadsticas ponderadas son calculadas para todas las variables utilizadas en el analisis, es desir,
variables cticias, variables independientes y la variable dependiente.
a) Promedio.
x
i
=
k
w
k
x
ik
N
b) Desviaci on est andar (estimada).
s
i
=
_
N
k
(w
k
x
ik
)
2
k
w
k
x
ik
_
2
N(N 1)
c) Coeciente de variaci on (C.var.).
C
i
=
100 s
i
x
i
47.2. Matriz de sumas totales de cuadrados y productos cruzados
Es calculada para todas las variables utilizadas en el analisis como sigue:
t.s.s.c.p.
ij
=
k
w
k
x
ik
x
jk
362 Regresi on lineal
47.3. Matriz de sumas de cuadrados residuales y productos cruza-
dos
Esta matriz, llamada matriz de cuadrados y productos cruzados de puntajes de desviacion, es calculada para
todas las variables utilizadas en el analisis como sigue:
r.s.s.c.p.
ij
=
k
w
k
x
ik
x
jk

_
k
w
k
x
ik
__
k
w
k
x
jk
_
N
47.4. Matriz de correlacion total
Los elementos de esta matriz son calculados directamente a partir de la matriz de la suma de cuadrados
residuales y productos cruzados. Note que si esta formula se escribe en todo detalle y si se multiplican por
N numerador y denominador, se trata de la formula convencional de la r de Pearson.
r
ij
=
r.s.s.c.p.
ij
r.s.s.c.p.
ii
r.s.s.c.p.
jj
47.5. Matriz de correlacion parcial
El ij
esimo
elemento de esta matriz es la correlaci on parcial entre la variable i y la variable j, manteniendo
constantes ciertas variables especcas. Las correlaciones parciales describen el grado de interrelaci on que
puede existir entre dos variables si se controla la variaci on en una o mas variables. Tambien describen la
correlaci on entre variables independientes que seran seleccionadas en una regresion por pasos.
a) Correlaci on entre x
i
y x
j
manteniendo constante x
l
(parciales de primer orden).
r
ij l
=
r
ij
r
il
r
jl
_
1 r
2
il
_
1 r
2
jl
donde r
ij
, r
il
, r
jl
son los coecientes de orden cero (coecientes r de Pearson).
b) Correlaci on entre x
i
y x
j
manteniendo constantes x
l
y x
m
(parciales de segundo orden).
r
ij lm
=
r
ij l
r
im l
r
jm l
_
1 r
2
im l
_
1 r
2
jm l
donde r
ij l
, r
im l
, r
jm l
son las parciales de primer orden.
Nota: el programa calcula las correlaciones parciales aumentando paso a paso a partir de los coecientes
de orden cero pasando a los coecientes de primer orden, despues a los coecientes de segundo orden,
etc.
47.6. Matriz inversa
En el caso de una regresion est andar, esta es la inversa de la matriz de correlaci on de las variables inde-
pendientes y de la variable dependiente. Para una regresion por pasos, esta es la inversa de la matriz de
correlaciones de las variables independientes en la ecuaci on nal. El programa utiliza el metodo de eliminacion
de Gauss para invertir.
47.7 Estadsticas de resumen del analisis 363
47.7. Estadsticas de resumen del analisis
a) Error est andar de la estimaci on. Es la desviacion est andar de los residuos.
Error est andar de estimaci on =
k
(y
k
y
k
)
2
gl
donde
y
k
= valor proyectado de la variable dependiente para el k
esimo
caso
gl = grados de libertad del residuo (ver 7.f mas abajo).
b) Cociente F para la regresi on. Es la estadstica F para determinar la signicaci on estadstica del
modelo considerado. Los grados de libertad son p y N p 1.
F =
R
2
gl
p (1 R
2
)
donde R
2
es igual a la fracci on de la variancia explicada (ver 7.d mas abajo).
c) Coeciente de correlaci on m ultiple. Es la correlaci on entre la variable dependiente y el valor
proyectado. Indica la fortaleza de la relacion entre el criterio y la funci on lineal de los predictores y es
similar a un coeciente simple de correlaci on de Pearson excepto que siempre es positivo.
R =
R
2
R no es impresa si el termino constante ha sido forzado a tomar el valor cero.
d) Fracci on de la variancia explicada. R
2
puede ser interpretada como la proporcion de la variacion
en la variable dependiente, explicada por las variables explicativas. Llamado algunas veces el coeciente
de determinacion, es una medida de ecacia de la regresion lineal. Entre mas grande sea, la ecuaci on
ajustada explicara mejor la variacion en los datos.
R
2
= 1
k
(y
k
y
k
)
2
k
(y
k
y)
2
donde
y
k
= valor proyectado de la variable dependiente para el k
esimo
caso
y = media de la variable dependiente.
Al igual que R, R
2
no es impresa si el termino constante es forzado a tomar el valor cero.
e) Determinante de la matriz de correlaci on. Es el determinante de la matriz de correlaci on de
las variables predictoras. El valor del determinante de esta matriz, vara de cero a uno y es obtenido
mediante la suma de varios productos de sus elementos. Determinantes cuyos valores son cercanos a
cero, indican que algunas o todas las variables explicativas tienen un alto grado de correlaci on. Un
determinante igual a cero indica que se trata de una matriz singular que no tiene inverso.
f ) Grados de libertad de residuos.
Si la constante no est a forzada a tomar el valor cero,
gl = N p 1
Si la constante est a forzada a tomar el valor cero,
gl = N p
g) Termino constante.
A = y
i
B
i
x
i
donde
y = promedio de la variable dependiente (ver 1.a arriba)
x
i
= promedio de la i
esima
variable predictora (ver 1.a arriba)
B
i
= coeciente B de la i
esima
variable predictora (ver 8.a abajo).
47.8. Estadsticas de analisis para los predictores
a) B. Son los coecientes de regresion parcial no estandarizada que son los indicados (en vez de las betas)
para utilizarse en una ecuaci on de proyeccion de valores primarios. Son sensibles a la escala de medida
de la variable predictora as como a la variancia de la variable predictora.
B
i
=
i
s
y
s
i
donde
i
= ponderaci on beta para el predictor i (ver 8.c abajo)
s
y
= desviacion est andar de la variable dependiente (ver 1.b arriba)
s
i
= desviacion est andar de la variable predictora i (ver 1.b arriba).
b) Sigma B. Es el error est andar de B, una medida de abilidad del coeciente.
Sigma B
i
= (error est andar de la estimaci on)
_
c
ii
r.s.s.c.p.
ii
donde c
ii
es el i
esimo
elemento de la diagonal de la inversa de la matriz de correlaci on de los predictores
en la ecuaci on (ver secci on 6 arriba).
c) Beta. Coecientes de regresion que se llaman tambien los coecientes estandarizados de regresion
parcial o coecientes estandarizados B. Son independientes de la escala de medida. Las magnitudes
de los cuadrados de las betas indican las contribuciones relativas de las variables a la proyeccion.
i
= R
1
11
R
yi
donde
R
11
= matriz de correlaci on de los predictores en la ecuaci on
R
yi
= vector columna de correlaciones de la variable dependiente y los
predictores indicada por el predictor i.
d) Sigma Beta. Es el error est andar del coeciente beta, una medida de abilidad del coeciente.
Sigma
i
= sigma B
i
s
i
s
y
e) r cuadrada parcial. Son las correlaciones parciales, al cuadrado, entre el predictor i y la variable
dependiente, y, eliminada la inuencia de otras variables en la ecuaci on de regresion. El coeciente
de correlaci on parcial al cuadrado, es una medida de que tanto la parte de variacion en la variable
dependiente que no est a explicada por otros predictores, est a explicada por el predictor i.
r
2
yi jl...
=
R
2
y ijl...
R
2
y jl...
1 R
2
y jl...
47.9 Residuos 365
donde
R
2
y ijl...
= R cuadrada m ultiple con el predictor i
R
2
y jl...
= R cuadrada m ultiple sin el predictor i.
f ) r cuadrada marginal. Es el incremento de la variancia explicada, al a nadir el predictor i a los otros
predictores ya incluidos en la ecuaci on de regresion.
r
2
i
marginal = R
2
y ijl...
R
2
y jl...
g) Cociente t. Puede ser utilizado para probar si la hipotesis que , o B, es igual a cero; es decir si el
predictor i no tiene una inuencia lineal en la variable dependiente. Su signicancia se puede determinar
de la tabla de t con N p 1 grados de libertad.
t =
i
sigma
i
B
i
sigma B
i
h) Coeciente de covariancia. La tasa de covariancia de x

i
es el cuadrado del coeciente de correlaci on
m ultiple, R
2
, de x
i
con las otras p 1 variables independientes en la ecuaci on. Es una medida de la
intercorrelacion de x
i
con los otros predictores.
Coeciente de covariancia
i
= 1
1
c
ii
donde c
ii
es el i
esimo
elemento de la diagonal del inverso de la matriz de correlaci on de los predictores
en la ecuaci on (ver secci on 6 arriba).
47.9. Residuos
Los residuos son la diferencia entre los valores observados de la variable dependiente y los valores calculados
por la ecuaci on de regresion.
e
k
= y
k
y
k
La prueba para detectar la correlaci on serial, popularmente conocida como la estadstica d de Durbin-Watson
para autocorrelaci on de primer orden de residuos, se calcula as:
d =
N
k=2
(e
k
e
k1
)
2
N
k=1
e
2
k
47.10. Nota sobre la regresion por pasos
La regresion por pasos incluye los predictores en el modelo paso a paso, comenzando con la variable inde-
pendiente que est a mas correlacionada con y. Despues del primer paso, el algoritmo selecciona a partir de
las variables independientes restantes, aquella que disminuye al maximo la variancia restante (no explicada)
de la variable dependiente, es decir, la variable cuya correlaci on parcial con y es mas elevada. Entonces, el
programa hace una prueba parcial de F de inclusi on para ver si la variable absorbe una cantidad signicativa
de variacion relativa, a aquella que ya ha sido absorbida por las variables que ya forman parte de la regresion.
El usuario puede especicar un valor F mnimo, para incluir cualquier variable; el programa eval ua si el valor
de F calculado en un paso dado, satisface el mnimo especicado y si lo satisface, incluye la variable en la
regresion. En forma similar, el programa decide a cada paso si cada variable incluida previamente, continua
a satisfacer el mnimo (tambien proporcionado por el usuario), y si no, la excluye.
Valor parcial de F para la variable i =
(R
2
y Pi
R
2
y P
)(gl)
1 R
2
y Pi
donde
R
2
y Pi
= R cuadrada m ultiple para el conjunto (P) de predictores
ya incluidos en la regresion, con el predictor i
R
2
y P
= R cuadrada m ultiple para el conjunto (P) de predictores
ya incluidos en la regresion
gl = grados de libertad de los residuos.
En cualquier paso del procedimiento, los resultados son los mismos que habra en una regresion est andar
utilizando el conjunto particular de variables; as, el ultimo paso de una regresion por pasos muestra los
mismos coecientes de una pasada normal utilizando las variables que sobrevivieron el procedimiento de
selecci on hecho paso a paso.
47.11. Nota sobre la regresion descendente
La regresion descendente es similar a la regresion paso a paso, a excepcion que el algoritmo comienza con
la inclusi on de todas las variables independientes y despues quita o a nade nuevamente las variables, en la
forma de paso a paso.
47.12. Nota sobre la regresion con intercepto cero
Cuando se utiliza el programa REGRESSN, es posible solicitar una intercepto cero, es decir, que la variable
dependiente sea cero cuando todas las variables independientes son cero.
Si una regresion a traves del origen es especicada, todas las estadsticas a la excepcion de aquellas citadas
de 1 a 4 arriba, est an basadas sobre una media cero. El coeciente de correlaci on m ultiple y la fracci on de
variancia explicada (artculos 7.c y 7.d) no son impresas. Las estadsticas que no est an centradas con respecto
a la media pueden ser muy diferentes de lo que podran serlo, si hubieran sido centradas; as, en una solucion
por pasos, las variables pueden ser incluidas en la ecuaci on en un orden diferente del que ha sido hecho, si
una constante hubiera sido estimada.
En el programa REGRESSN una matriz con elementos
a
ij
=
k
w
k
x
ik
x
jk
k
w
k
x
2
ik
k
w
k
x
2
jk
es analizada en vez de R, la matriz de correlaci on.
Las B, los coecientes de regresion parcial no estandarizados, se obtienen mediante
B
i
=
i
k
w
k
x
2
ik
k
w
k
x
2
jk
Captulo 48
Escalamiento multidimensional
Notacion
x = elemento de la conguracion
i, j, l, m = subndices para variables
n = n umero de variables
s = subndice para dimensi on
t = n umero de dimensiones.
48.1. Orden de los calculos
Para un n umero dado de dimensiones, t, MDSCAL calcula la conguracion de mnimo esfuerzo (stress)
utilizando un proceso iterativo. El programa comienza con una conguracion inicial (suministrada por el
usuario o por programa) y contin ua modic andola hasta que converge hacia la conguracion que tenga el
mnimo esfuerzo.
48.2. Conguracion inicial
Si el usuario no proporciona una conguracion de entrada, el programa genera una conguracion arbitraria
tomando los primeros n puntos a partir de la lista a continuacion (cada expresion entre parentesis representa
un punto):
(1, 0, 0, . . . , 0),
(0, 2, 0, . . . , 0),
(0, 0, 3, . . . , 0),
.
.
.
(0, 0, 0, . . . , t),
(t + 1, 0, 0, . . . , 0),
(0, t + 2, 0, . . . , 0),
.
.
.
48.3. Centrado y normalizacion de la conguracion
Al principio de cada iteraci on, la conguracion es centrada y normalizada.
Si x
is
denota el elemento en la i
esima
lnea y s
esima
columna de la conguracion, entonces
368 Escalamiento multidimensional
x
is
centrada = x
is
x
s
x
is
normalizada =
x
is
x
s
n.f.
donde
x
s
=
i
x
is
n
es la media de la dimensi on s y
n.f. =
_
n
s
x
2
is
es el factor de normalizaci on.
Note que el total de la suma de cuadrados de los elementos de la conguracion centrada y normalizada es
igual a n, el n umero de variables.
48.4. Historia de los calculos
Al termino de cada iteraci on, las partidas de 4.a a 4.h abajo, son impresas. Esto crea un descriptivo secuencial
que, en general, es de interes solamente cuando se teme que la convergencia no sea completa. Sin embargo,
al nal del descriptivo secuencial la raz on para detenerse es impresa. Si el programa no se para porque un
mnimo ha sido alcanzado, aun as puede ser cierto, que la solucion alcanzada sea practicamente igual al
mnimo que hubiera sido alcanzado despues de unas cuantas iteraciones suplementarias - en particular, si el
esfuerzo es muy peque no, que es generalmente el caso.
a) Stress (esfuerzo). La medida de esfuerzo tiene dos funciones. Primero, es una medida de que tan
bien la conguracion calculada, semeja los datos de entrada. Segundo, es utilizada para decidir c omo
los puntos deberan ser desplazados en la nueva iteraci on. Hay dos formulas disponibles para calcular
el esfuerzo: SQDIST y SQDEV.
Esfuerzo SQDIST =
j
(d
ij

d
ij
)
2
j
d
2
ij
Esfuerzo SQDEV =
j
(d
ij

d
ij
)
2
j
(d
ij
d )
2
donde
d
ij
= distancia entre las variables i y j en la conguracion (ver 8.c abajo)
d
ij
= los n umeros que minimizan el esfuerzo, sujetos a la condicion que
las d
ij
sean del mismo orden de rango que los datos de entrada (ver 8.d mas abajo)
d = media de las d
ij
.
b) SRAT. Coeciente de esfuerzo. El usuario puede detener el procedimiento de escalamiento, especi-
cando un coeciente de esfuerzo a alcanzar. Para la primera iteraci on (iteracion 0), su valor se ja a
0.800.
SRAT =
Esfuerzo
actual
Esfuerzo
anterior
48.4 Historia de los calculos 369
c) SRATAV. Promedio de coeciente de esfuerzo. Para la primera iteraci on su valor es igual a 0.800.
SRATAV
actual
= (SRAT
actual
)
0,33334
(SRATAV
anterior
)
0,66666
d) CAGRGL. Este es el coseno del angulo entre el gradiente actual y el gradiente anterior.
CAGRGL = cos =
s
g
is
g
is
s
g
2
is
s
(g
is
)
2
donde
g = gradiente actual
g
= gradiente anterior.
El gradiente inicial est a jado de acuerdo con la constante:
Inicial g
is
=
_
1
t
e) COSAV. Coseno promedio del angulo entre los gradientes sucesivos. Este es una media ponderada.
Para la primera iteraci on, su valor se ja a cero.
COSAV
actual
= CAGRGL
actual
COSAVW + COSAV
anterior
(1,0 COSAVW)
donde COSAVW es un factor de ponderaci on controlado por el usuario.
f ) ACSAV. Promedio del valor absoluto del coseno del angulo entre gradientes sucesivos. Esta es una
media ponderada. Para la primera iteraci on, su valor es jado a cero.
ACSAV
actual
= |CAGRGL
actual
| ACSAVW + ACSAV
anterior
(1,0 ACSAVW)
donde ACSAVW es un factor de ponderaci on controlado por el usuario.
g) SFGR. Factor de escala del gradiente. Conforme los c alculos se llevan a cabo, el factor de escala de
los gradientes sucesivos disminuye. Una forma de detener el proceso de escalamiento es alcanzando un
factor de escala mnimo para el gradiente que ha sido proporcionado por el usuario.
SFGR =
1
n
s
g
2
is
donde g es igual al gradiente actual.
h) STEP. Tama no del paso. En la formula de tama no del paso, las dos determinantes principales del
tama no del paso siguiente, son el tama no del paso inmediatamente anterior y el factor de angulo. Los
tama nos de pasos utilizados no afectan la solucion nal pero afectan el n umero de iteraciones necesarias
para alcanzar una solucion.
STEP
actual
= STEP
anterior
f de angulo f de relajamiento f de buena suerte
donde
factor (f) de angulo = 4,0
COSAV
factor (f) de relajamiento =
1,4
AB
A = 1 + (mn(1, SRATAV))
5
B = 1 + ACSAV |COSAV|
factor (f) de buena suerte =
_
mn(1, SRAT)
El tama no del primer paso se calcula como sigue:
STEP = 50. Esfuerzo SFGR
48.5. Esfuerzo para la conguracion nal
Esta es una iteraci on adicional utilizando el ultimo valor de la columna del esfuerzo del descriptivo secuencial
(ver 4.a arriba). El Esfuerzo es una medida de que tan bien la conguracion iguala los datos de entrada.
La interpretaci on del esfuerzo para la conguracion nal depende de la formula utilizada en los c alculos.
Note que la utilizaci on de esfuerzo SQDEV rinde valores de esfuerzo substancialmente mayores para el
mismo grado de bondad de ajuste.
Para la modalidad clasica de utilizar MDSCAL, Kruskal y Carmone proporcionan el cuadro a continuacion,
para un rango de valores de N (digamos de 10 a 30) y un rango de dimensi on (digamos de 2 a 5):
Esfuerzo SQDIST Esfuerzo SQDEV
Pobre 20.0 % 40.0 %
Aceptable 10.0 % 20.0 %
Bueno 5.0 % 10.0 %
Excelente 2.5 % 5.0 %
Perfecto 0.0 % 0.0 %
48.6. Conguracion nal
En cada iteraci on la conguracion siguiente se forma comenzando a partir de la conguracion precedente y
desplazandose en direcci on (negativa) del gradiente de esfuerzo, de una distancia igual al tama no del paso.
Nueva conguracion = conguracion precedente +
STEP
SFGR
(gradiente)
Cada la de la matriz de conguracion nal proporciona las coordenadas de una variable de la conguracion.
La orientacion de los ejes de referencia es arbitraria y por ello uno debe buscar los ejes que hayan sido
girados o inclusive ejes oblicuos que sean interpretados de inmediato. Si una distancia Euclideana ordinaria
se utilizo, es posible girar la conguracion tal que sus ejes principales coincidan con los ejes cardinales. El
programa CONFIG puede ser utilizado para este prop osito.
48.7. Conguracion clasicada
Es la conguracion nal presentada con cada dimensi on clasicada - las coordenadas han sido nuevamente
ordenadas de peque nas a grandes.
48.8. Resumen
a) IPOINT, JPOINT. Estos son subndices de las variables, (i, j), indicando a que par de variables se
reeren las tres estadsticas a continuacion.
b) DATA. Para cada pareja de variables, es el ndice de igualdad o diferencia proporcionado por el usuario
en la matriz de datos de entrada.
c) DIST. Es la distancia entre puntos en la conguracion nal.
Para la metrica - r de Minkowski,
d
ij
=
_
s
|x
is
x
js
|
r
_
1/r
En caso que r = 2, esta se convierte en la distancia euclideana
d
ij
=
s
(x
is
x
js
)
2
48.9 Nota sobre ataduras en los datos de entrada 371
En caso que r = 1 esta se convierte en la distancia de cuadra urbana (city block)
d
ij
=
s
|x
is
x
js
|
d) DHAT. D-hats son los n umeros que minimizan el esfuerzo, sujeto a la restriccion que las d-hats tengan
el mismo rango de orden que los datos de entrada; son distancias adecuadas, estimadas a partir de
los datos de entrada.
Se obtienen a partir de:
d
ij
=
j
d
ij
y

d
ij

d
lm
si p
ij
p
lm
(similitudes)
o
p
ij
p
lm
(diferencias)
donde
d
ij
= distancia en la conguracion entre las variables i y j
d
ij
= una transformaci on monot onica de las p
ij
p
ij
= el ndice de entrada de similitud o de diferencia entre las variables i y j.
48.9. Nota sobre ataduras en los datos de entrada
Las ataduras en los datos de entrada, es decir, los valores iguales en la matriz de datos de entrada, pueden
ser tratados de dos maneras, el usuario indicara su elecci on.
El primer enfoque, DIFFER, trata las ataduras en la matriz de entrada como una relacion de orden indeter-
minado, que puede ser resuelta en forma arbitraria para disminuir la dimensi on o el esfuerzo.
El segundo enfoque, EQUAL, trata las ataduras como una implicacion de una relacion de equi-valencia, que
(hasta donde es posible) es mantenida (inclusive si el esfuerzo es aumentado).
Si hay pocas ataduras, el enfoque seleccionado no tendra mucha diferencia.
El programa permite la ponderaci on, pero no es una ponderaci on en el sentido usual de IDAMS. La pon-
deracion MDSCAL puede ser utilizada para asignar una importancia diferente a los diferentes valores de los
datos, esto es, asignar pesos a celdas de la matriz de datos de entrada. Este tipo de ponderaci on puede ser
utilizado, por ejemplo, para acomodar la variabilidad en la medida de los datos.
Si los pesos son utilizados,
Esfuerzo SQDIST =
j
w
ij
(d
ij

d
ij
)
2
j
w
ij
d
2
ij
Esfuerzo SQDEV =
j
w
ij
(d
ij

d
ij
)
2
j
w
ij
(d
ij
d )
2
donde
d =
j
w
ij
d
ij
j
w
ij
y w
ij
designa el valor en la celda ij de la matriz de pesos.
48.11. References
Kruskal, J.B., Multidimensional scaling by optimizing goodness of t to a nonmetric hypothesis, Psychome-
trica, 3, 1964.
Kruskal, J.B., Nonmetric multidimensional scaling: a numerical method, Psychometrica, 29, 1964.
Captulo 49
Analisis de clasicacion m ultiple
Notacion
w = valor del peso
i = subndice para el predictor
j = subndice para categora dentro del predictor
p = n umero de predictores
c = n umero de categoras que no est an vacas para todos los predictores
a
ij
= desviacion ajustada de la j
esima
categora del predictor i (ver 2.c mas abajo)
N
ij
= n umero de casos en la j
esima
categora del predictor i
W = suma total de los pesos
el subndice ijk indica que el caso k corresponde a la j
esima
categora del predictor i.
49.1. Estadsticas de la variable dependiente
a) Media. Media general de y.
y =
k
w
k
y
k
W
b) Desviaci on est andar de y (estimada).
s
y
=
_
_
N
N 1
__ W
k
w
k
y
2
k

_
k
w
k
y
k
_
2
W
2
_
c) Coeciente de variaci on.
C
y
=
100 s
y
y
d) Suma de y.
Suma de y =
k
w
k
y
k
374 Analisis de clasicacion m ultiple
e) Suma de y cuadrada.
Suma de y
2
=
k
w
k
y
2
k
f ) Suma de cuadrados total.
TSS =
k
w
k
(y
k
y)
2
g) Suma de cuadrados explicada.
ESS =
j
a
ij
_
k
w
ijk
y
ijk
_
h) Suma de cuadrados residual.
RSS = TSS ESS
49.2. Estadsticas de los predictores para analisis de clasicacion
m ultiple
a) Media de clase. Media de la variable dependiente para casos en la j
esima
y
ij
=
k
w
ijk
y
ijk
k
w
ijk
b) Desviaci on no ajustada de la media general.
a
ij
no ajustada = y
ij
y
c) Coeciente. Desviaci on ajustada a
ij
de la media general. Este es el coeciente de regresion para cada
categora de cada predictor.
y
k
proyectado = y +
i
a
ijk
Los valores de a
ij
son obtenidos por medio de un proceso iterativo que se detiene cuando
k
(y
k

y
k
proyectado)
2
alcanza el mnimo.
d) Media ajustada de clase. Es una estimaci on de lo que la media habra sido, si el grupo hubiera sido
exactamente igual a la poblacion total en su distribuci on sobre toda clasicacion de los predictores. Si
no hubiera correlaci on entre predictores, la media ajustada sera igual a la media de la clase.
y
ij
ajustada = y +a
ij
e) Desviaci on est andar (estimada) de la variable dependiente para la j
esima
categora del predictor
i.
s
ij
=
k
w
ijk
y
2
ijk

_
k
w
ijk
y
ijk
_
2
/
k
w
ijk
k
w
ijk

_
k
w
ijk
/ N
ij
_
49.2 Estadsticas de los predictores para analisis de clasicacion m ultiple 375
f ) Coeciente de variaci on (C.var.).
C
ij
=
100 s
ij
y
ij
g) Desviaci on de la SS (Sum of Squares) no ajustada. Es la suma de cuadrados de las desviaciones
no ajustadas para el predictor i.
U
i
=
j
_
k
w
ijk
_
_
y
ij
y
_
2
donde y
ij
es igual a la media de y para la j
esima
h) Desviaci on ajustada de la SS. Esta es la suma de cuadrados de las desviaciones ajustadas para el
predictor i.
D
i
=
j
_
k
w
ijk
_
_
a
2
ij
_
i) Eta cuadrada para el predictor i. Eta cuadrada puede interpretarse como el porcentaje de la
variancia en la variable dependiente que puede ser explicada solamente por el predictor i.
2
i
=
U
i
TSS
j) Eta para el predictor i. Indica la habilidad del predictor, utilizando las categoras dadas, para
explicar la variacion en la variable dependiente.
i
=
_
2
i
k) Eta cuadrada para el predictor i, ajustada para los grados de libertad.
2
i
ajustada = 1 A(1
2
i
)
donde A es el ajuste para los grados de libertad (ver 3.b mas abajo).
l) Eta para el predictor i, ajustada.
i
ajustada =
_
1 A(1
2
i
)
m) Beta cuadrada para el predictor i. Beta cuadrada es la suma de cuadrados atribuida al predictor,
despues de haber mantenido otros predictores constantes, relativa al total de la suma de cuadrados.
Esta expresion no est a descrita en terminos de porcentaje de la variancia explicada.
2
i
=
D
i
TSS
n) Beta para el predictor i. Beta proporciona una medida de la habilidad del predictor para explicar
la variacion en la variable dependiente despues de haber la ajustado para la inuencia de todos los
dem as predictores. Los coecientes Beta indican la importancia relativa de los predictores (entre mas
alto sea el valor, mayor sera la variacion explicada por la beta correspondiente).
i
=
_
2
i
376 Analisis de clasicacion m ultiple
49.3. Estadsticas del analisis para analisis de clasicacion m ulti-
ple
a) R cuadrada m ultiple no ajustada. Este es el coeciente de correlaci on m ultiple al cuadrado. Indica
la proporcion actual de la variancia explicada por los predictores usados en el analisis.
R
2
=
ESS
TSS
b) Ajuste por grados de libertad.
A =
N 1
N p c 1
c) R cuadrada m ultiple ajustada. Proporciona una estimaci on de la correlaci on m ultiple en la poblacion,
a partir de la cual una muestra fue extrada. Note que es una estimaci on de la correlaci on m ultiple
que sera obtenida si los mismos predictores, pero no necesariamente los mismos coecientes, fueran
utilizados para la poblacion.
R
2
ajustada = 1 A(1 R
2
)
d) R m ultiple ajustada. Este es el coeciente de correlaci on m ultiple ajustado para los grados de
libertad. Es una estimaci on de la R que sera obtenida si los mismos predictores fueran aplicados a la
poblacion.
R ajustada =
_
1 A(1 R
2
)
49.4. Estadsticas de resumen de residuos
El residuo para un caso k es r
k
= y
k
y
k
proyectado.
a) Media.
r =
k
w
k
r
k
W
b) Variancia (estimada).
s
2
r
=
_
N
N 1
__ W
k
w
k
r
2
k

_
k
w
k
r
k
_
2
W
2
_
c) Asimetra. La asimetra de una distribuci on de residuos est a medida por
g
1
=
_
N
N 2
__
m
3
s
2
r
_
s
2
r
_
donde
m
3
=
k
w
k
(r
k
r)
3
W
d) Kurtosis. La kurtosis de la distribuci on de residuos est a medida por
g
2
=
_
N
N 3
__
m
4
( s
2
r
)
2
_
3
donde
m
4
=
k
w
k
(r
k
r)
4
W
49.5 Estadsticas de categora de los predictores, para analisis de variancia de una entrada377
49.5. Estadsticas de categora de los predictores, para analisis de
variancia de una entrada
Para detalles, ver el captulo Analisis de variancia de una entrada.
49.6. Estadsticas del analisis, para analisis de variancia de una
entrada
Para detalles, ver el captulo Analisis de variancia de una entrada.
Tenga en cuenta que el factor de ajuste A usado en MCA para el analisis de variancia de una entrada se
calcula de manera diferente que en el programa ONEWAY, o sea:
A =
N 1
N c
49.7. Referencias
Andrews, F.M., Morgan, J.N., Sonquist, J.A., and Klem, L., Multiple Classication Analysis, 2nd ed., Insti-
tute for Social Research, The University of Michigan, Ann Arbor, 1973.
Captulo 50
Analisis multivariado de variancia
Notacion
y = valor de la variable dependiente o covariada
i, j = subndices para categoras de predictores
p = n umero de variables independientes
df
h
= grados de libertad para la hipotesis
df
e
= grados de libertad para el error.
50.1. Estadsticas generales
a) Medias de celda. Sea y
ijk
la representacion del valor de una variable dependiente o covariada para
el caso k en la subclase i, j de una clasicacion de dos entradas.
y
ij
=
Nij
k=1
y
ijk
N
ij
donde N
ij
es igual al n umero de casos en la clase i, j.
b) Base del dise no. La matriz de dise no se genera primero para cada factor de una matriz de dise no de
una entrada (una matriz K
f
) de acuerdo con el tipo de contraste especicado por el usuario para ese
factor. La matriz general de dise no K se obtiene a partir de las matrices de una entrada K
f
tomando
el producto de Kronecker de las matrices.
La matriz de dise no siempre se imprime con las ecuaciones de efectos en las columnas, comenzando
con la matriz de efecto de la gran media en la primera columna.
c) Intercorrelaciones entre los coecientes de las ecuaciones normales. La base del dise no se
pondera con los conteos de celda. El efecto de frecuencias desiguales es introducir correlaciones entre
las columnas de la matriz de dise no. Estas son esas correlaciones. Si las frecuencias de celda son iguales,
habr a unos (1) en la diagonal y ceros en el resto.
d) Soluci on de las ecuaciones normales. Los par ametros se estiman con mnimos cuadrados en la
forma
LX = (K
DK)
1
K
DY
donde
L = la matriz de contraste que tiene como la i los contrastes independientes
en los par ametros a ser estimados y probados
380 Analisis multivariado de variancia
X = par ametros a ser estimados
K = la matriz de dise no
D = una matriz diagonal con el n umero de casos en cada celda
Y = una matriz de medias de celda con columnas correspondientes a las variables.
Cuando se trata de un dise no ortogonal y de constrastes ortogonales, los contrastes tienen estimativos
independientes. Para frecuencias desiguales de celda, sin embargo, la K apropiado para dise nos ortog-
onales ya no es ortogonal. Se requiere transformar K a la ortogonalidad en la metrica D. Esto se hace
poniendo
T = SK
D
1/2
con TT
= T
T = I = SK
DKS
asi
K
D
1/2
= S
1
T
y
(K
DK)
1
= S
S
y sustituyendo en la primera ecuaci on de arriba,
(S
)
1
LX = SK
DY
Esta ultima ecuaci on dene un conjunto nuevo de par ametros que son funciones lineales de los con-
trastes, con la matriz SK
reemplazando K
. Estos par ametros son ortogonales.

S es la matriz producida con la ortogonalizaci on de Gram-Schmidt de K en la metrica D y reduce las
las de esta a longitud unitaria. S, y as (S
)
1
, es triangular.
e) Partici on de matrices. En un analisis univariado de variancia, cada caso tiene una variable indepen-
diente y; en analisis multivariado de variancia, cada caso tiene un vector y de variables dependientes.
El analogo multivariado de y
2
es el producto de matrices y
y y el analogo multivariado de una suma

de cuadrados es una suma de productos de matrices.
En un analisis multivariado, hay una matriz que corresponde a cada suma de cuadrados de un dise no
univariado. Las pruebas multivariadas dependen de particiones de la suma total de productos de
matrices, as como las pruebas univariadas dependen de particiones de la suma total de cuadrados. Las
formulas para la suma total de productos, la suma de productos entre subclases y la suma de productos
dentro (intra) de subclases son
S
t
= Y
Y
S
b
= Y.
DY.
S
w
= Y
Y Y.
DY.
donde
Y = la matriz N p de datos primeros (N casos, p variables dependientes)
Y. = la matriz n p de medias de celda (n celdas, p variables dependientes)
D = una matriz diagonal con el n umero de casos en cada celda.
La suma de productos entre subclases se particiona a un mas de acuerdo con los efectos sobre el modelo.
f ) Matriz de correlaci on de errores. En un analisis multivariado de variancia, el termino del error
es una matriz variancia-covariancia. Este es ese termino de error reducido a una matriz de correlaci on.
La matriz de correlaci on se calcula usando S
w
, la suma de productos internos o error interno.
R
e
= s
1
e
S
w
s
1
e
50.2 Calculos para una prueba en un analisis multivariado 381
donde
S
w
= la suma de productos dentro de subclases
s
2
e
= las entradas diagonales de S
w
.
R
e
es la matriz de coecientes de correlaci on entre las variadas que estiman los valores de poblacion.
Si el usuario ha especicado que la suma de cuadrados dentro de subclases se aument o para formar el
termino de error, el aumento tiene lugar antes de reducir la matriz a correlaciones.
g) Componentes principales de la matriz de correlaci on de errores. Este es un analisis est andar
de componentes principales de la matriz R
e
. Indica la estructura de factores de variables, encontrada
en la poblacion bajo estudio. Los valores propios (o races) se imprimen debajo de las componentes.
h) Matriz de dispersi on de errores. Es el termino de error, una matriz variancia-covariancia para el
analisis. La matriz se ajusta para covariadas, si las hay. Cada elemento de la diagonal de la matriz es
exactamente el que aparecera en una tabla de analisis convencional de variancia como el error interno
cuadratico medio de la variable.
M
e
=
S
w
df
e
donde
S
w
= la suma de productos dentro de subclases
df
e
= los grados de libertad del error, ajustados para aumento si eso se solicito.
Si no hay aumento, los grados de libertad del error son iguales al n umero de casos menos el n umero
de celdas en el dise no.
i) Errores est andar de estimaci on. Corresponden a las races cuadradas de los elementos de la
diagonal de la matriz M
e
.
50.2. Calculos para una prueba en un analisis multivariado
Se repiten los c alculos para cada prueba solicitada por el usuario. No se imprimen los resultados de los
c alculos internos descritos mas adelante bajo los puntos a) hasta d).
a) Matriz de suma de cuadrados debida a la hip otesis. La suma de cuadrados entre subclases
se divide de acuerdo con los varios efectos del modelo. Para probar una hipotesis dada, el programa
determina los estimativos ortogonales a probar y calcula la suma de cuadrados debidos a la hipotesis
(S
h
).
b) S
w
e S
h
reducidas a cuadrados medios y escaladas al espacio de correlaci on. La matriz de
cuadrados medios para la hipotesis, M
h
, se calcula analogamente a los cuadrados medios para el error.
M
h
=
S
h
df
h
donde
S
h
= la matriz de suma de cuadrados debida a la hipotesis (ver atr as).
Los grados de libertad para la hip otesis dependen de la prueba solitada; para una prueba de efecto
principal A, donde el factor A tiene a niveles, los grados de libertad para la hipotesis deberan ser
a 1.
M
h
es una matriz de los productos medios de las entre-subclases asociada con el efecto principal o la
hipotesis de interacci on.
Ambas M
e
y M
h
est an escaladas al espacio de correlaci on:
R
e
=
1
e
M
e

1
e
C
h
=
1
e
M
h

1
e
donde
R
e
= la matriz de coecientes de correlaci on entre las variables
que estiman valores de poblacion
C
h
= una matriz, la cual, aunque no es de correlaci on, presenta las variancias
y covariancias para las variables como han sido afectadas por el tratamiento
M
e
= cuadrados medios para el error
M
h
= cuadrados medios para la hipotesis
e
= una matriz diagonal que contiene los errores est andar de estimaci on.
La matriz R
e
se calcula dos veces, una vez como se describio en la secci on Matriz de correlaci on de
errores y otra como se describio aqu. Si no se han especicado covariadas, los resultados son identicos
y no se imprime la matriz R
e
. Si se han especicado una o mas covariadas, la segunda matriz R
e
incorpora ajustes para covariadas.
c) Soluci on de la ecuaci on de determinante. El metodo usual de c alculo del criterio de la raz on de
similitud de Wilk es de la ecuaci on de determinante
|M
h
M
e
| = 0
La ecuaci on anterior se ha pre- e post-multiplicado por la matriz diagonal
1
e
|
1
e
M
h
1
e
R
e
| = 0
Sea
R
e
= FF
donde
F = la matriz de coecientes de componentes principales que satisface
F
F = , la matriz diagonal de valores propios de R

e
.
La segunda ecuaci on de detrimento se pre-multiplica por F
1
y se post-multiplica por su transpuesta
para dar
|(
e
F)
1
M
h
((
e
F)
1
)
F
1
(FF
)(F
1
)
| = 0
o
|(
e
F)
1
M
h
((
e
F)
1
)
I| = 0
La ultima ecuaci on se resuelve para los valores .
d) Criterio de raz on de similitud.
=
s
q=1
_
1 +
df
h
df
e
q
_
1
donde
q
= valores que no son cero en la ultima ecuaci on de la secci on previa.
50.2 Calculos para una prueba en un analisis multivariado 383
e) Cociente F para el crieterio de raz on de similitud. El programa usa la aproximacion F a los
puntos de porcentaje de la distribuci on nula de .
F =
1
1/k
1/k

k(2df
e
+df
h
p 1) p(df
h
) + 2
2p(df
h
)
donde
k =
p
2
(df
h
)
2
4
p
2
+ (df
h
)
2
5
Esta es una prueba multivariada de signicancia del efecto para todas las variables dependientes si-
multaneamente.
f ) Grados de libertad para el cociente F.
p(df
h
)
y
k(2df
e
+df
h
p 1) p(df
h
) + 2
2
Si p = 1 o 2 y df
h
= 1 o 2, k se pone a 1 en casos cuando p(df
h
) = 2.
g) Variancias can onicas de las componentes principales de la hip otesis. Estas son las lambdas
calculadas como se describio en la secci on Solucion de la ecuaci on de determinante atr as. Se ordenan
por magnitud descendente. El n umero de lambdas diferentes de cero para una ecuaci on dada es igual
a df
h
(el n umero de grados de libertad asociado con M
h
), o p, el n umero de variables dependientes, el
que sea menor.
h) Coecientes de las componentes principales de la hip otesis. La resolucion de la ecuaci on
|(
e
F)
1
M
h
((
e
F)
1
)
I| = 0
produce T, para lo cual
F
1
1
e
M
h

1
e
(F
1
)
= T T
Se puede escribir como

T
F
1
1
e
X
h
X
h

1
e
(F
1
)
T =
La ecuaci on anterior se considera como
T
F
1
1
e
X
h
= S
h
donde
S
h
(S
h
)
=
y escrita en la forma habitual de la ecuaci on de factor, X = FS, es
1
e
X
h
= FTS
h
El programa imprime los coecientes FT de las componentes principales de la hipotesis.
i) Puntaje de las componentes de contraste para efectos estimados. Las las de S
h
son los
conjuntos de puntajes de factor atribuibles a las hipotesis que tienen como variancias maximas las
i
.
j) Pruebas acumulativas de Bartlett en las races. Las pruebas se pueden usar para determinar
la dimensionalidad de la conguracion. Las lambdas o las races se ordenan ascendentemente seg un
la magnitud. En las pruebas de Bartlett, se prueban primero todas las races. Despues todas menos
la primera, despues todas menos las dos primeras, y as sucesivamente. La prueba de Ji cuadrada
suministra una prueba de signicancia de la variancia para las races n k despues de aceptar las
primeras k races.
Primero se escalan las lambdas
i
normada =
df
h
df
e
i
y luego se calcula Ji cuadrada
2
k+1
=
_
df
e
+df
h

df
h
+p + 1
2
_
_
s
i=k+1
ln(
i
normada + 1)
_
donde
k = n umero de races aceptadas (k = 0, 1, ..., s 1)
s = n umero de races.
El n umero de grados de libertad es
DF = (p k)(g k 1)
donde g es igual al n umero de niveles de la hipotesis.
k) Cocientes F para pruebas univariadas. Son los elementos de la diagonal de
1
e
M
h
1
e
. El
cociente F para la variable y es exactamente el cociente F que se obtendra para el efecto dado si se
hubiera hecho un analisis univariado con la variable y como la unica variable dependiente.
50.3. Analisis univariado
Si se ha especicado una sola variable dependiente, tambien se hacen los c alculos como se han descrito atr as.
Sin embargo, se toma ventaje de la simplicaci onn, es decir, la componente principal de la matriz de
correlaci on de errores se hace igual a uno y no se hace ning un c alculo.
El resultado de un analisis univariado de variancia es una tabla convencional de ANOVA con peque nas
diferencias. Tiene una la para la gran media pero no tiene una la para el total. Generalmente, la gran
media no es interpretable. Para obtener la suma total de cuadrados, suma todas las sumas de cuadrados
excepto la suma de la gran media.
50.4. Analisis de covariancia
Par la mayor parte, las formulas descritas no tienen en cuenta las covariadas. Si se han especicado una o
mas covariadas, es la suma de productos de las matrices, S
e
e S
h
que se han ajustado. Si hay q covariadas,
el programa comienza llev andolas con p variables dependientes. Hay una matriz (p q) (p q) de suma de
productos del error, S
e
, y una matriz (pq) (pq) S
h
para cada hipotesis. Se calcula la matriz total S
t
. S
e
y S
h
se parten en secciones correspondientes a las variables dependientes y covariadas. Se obtienen matrices
totales y de errores reducidas (p p) y luego se obtiene, por resta, una matriz reducida para hip otesis.
Se calculan las matrices de correlaci on de errores y sus componentes principales despues del ajuste a S
e
para
covariadas.
Captulo 51
Analisis de variancia de una entrada
Notacion
w = valor del peso
i = subndice para la categora en la variable de control
N
i
= n umero de casos en la categora i
W
i
= suma de los pesos para la categora i
W = suma total de los pesos
c = n umero de categoras de c odigo de la variable de control
con grados de libertad que no son cero.
51.1. Estadsticas descriptivas para cada categora de la variable
de control
a) Media.
y
i
=
k
w
ik
y
ik
W
i
b) Desviaci on est andar (estimada).
s
i
=
_
_
N
i
N
i
1
__ W
i
k
w
ik
y
2
ik

_
k
w
ik
y
ik
_
2
W
2
i
_
c) Coeciente de variaci on (C.var.).
C
i
=
100 s
i
y
i
d) Suma de y.
Suma y
i
=
k
w
ik
y
ik
386 Analisis de variancia de una entrada
e) Porcentaje.
Porcentaje
i
=
Suma y
i
i
Suma y
i
f ) Suma de y cuadrada.
Suma y
2
i
=
k
w
ik
y
2
ik
g) Total. El rengl on de totales da las estadsticas a) a e) arriba calculadas para todos los casos, excepto
aquellas categoras codicadas con cero grados de libertad.
h) Grados de libertad para la categora i.
gl
i
= W
i
(N
i
1) / N
i
Categoras con cero grados de libertad no est an incluidas en los c alculos de las estadsticas de resumen.
51.2. Estadsticas del analisis de variancia
a) Suma de cuadrados total.
TSS =
k
w
ik
y
2
ik

_
k
w
ik
y
ik
_
2
W
b) Suma de cuadrados entre medias. Esta es llamada a veces la suma de cuadrados entre grupos.
BSS =
i
_
_
k
w
ik
y
ik
_
2
k
w
ik
_

_
k
w
ik
y
ik
_
2
W
c) Suma de cuadrados dentro de grupos.
WSS = TSS BSS
d) Eta cuadrada (Etasq). Esta medida puede ser interpretada como el porcentaje de variancia en
la variable dependiente que puede ser explicada por la variable de control. Vara de cero a uno.
2
=
BSS
TSS
e) Eta. Es una medida de intensidad de la asociaci on entre la variable dependiente y la variable de control.
Vara de cero a uno.
=
_
BSS
TSS
f ) Eta cuadrada ajustada. Eta cuadrada ajustada para los grados de libertad.
2
ajustada = 1 A(1
2
)
con el factor de ajuste
A =
W 1
W c
51.2 Estadsticas del analisis de variancia 387
g) Eta ajustada.
ajustada =
_
2
ajustada
h) Valor de F. El cociente F puede ser referido a la distribuci on F con c1 y Nc grados de libertad. Un
cociente F signicativo quiere decir que existen diferencias entre las medias, o probablemente efectos
entre los grupos.
F =
BSS/(c 1)
WSS/(N c)
El cociente F no se calcula si una variable de peso fue especicada.
Captulo 52
Puntajes basados en el orden parcial
de casos
52.1. Terminologa especial y deniciones
Sea un conjunto de elementos denotado por V = {a, b, c, . . . , } y una relacion binaria denida en V denotada
por R.
a) Relaci on binaria. Una relacion binaria R en V es tal que para cualesquiera dos elementos a, b V
aRb
Para una relacion R en V existe una relacion conversa R
+
en V tal que
bR
+
a
b) Relaci on reexiva y antirreexiva. Una relacion R es reexiva cuando
aRa para todo a V
y R es antirreexiva cuando
no(aRa) para todo a V
c) Relaci on simetrica y antisimetrica. Una relacion R es simetrica cuando R = R
+
, esto es cuando
aRb bRa para todo a, b V
y R es antisimetrica cuando no es simetrica para todo a = b.
d) Relaci on transitiva. Una relacion R es transitiva cuando
aRb bRc = aRc para todos a, b, c V
e) Relaci on de equivalencia. Una relacion R denida en un conjunto de elementos V es una relacion
de equivalencia cuando es:
reexiva,
simetrica, y
transitiva.
Note que la relacion com unmente utilizada de igualdad, (=), denida en el conjunto de los n umeros
reales es una relacion de equivalencia.
390 Puntajes basados en el orden parcial de casos
f ) Relaci on de orden parcial estricto. Una relacion R es un orden parcial estricto cuando satisface
las condiciones:
aRb y bRa no pueden ser satisfechas simult aneamente, y
R es transitiva.
Una relacion de orden parcial estricto sera notada de ahora en adelante por .
g) Conjunto parcialmente ordenado. Un conjunto V es un conjunto parcialmente ordenado si una
relacion de orden parcial estricta es denida en el. Las propiedades fundamentales de un conjunto
parcialmente ordenado son:
a b b c = a c para todos a, b, c V
a b y b a no pueden ser satisfechas simult aneamente.
h) Conjunto ordenado. Un conjunto V es un conjunto ordenado si hay dos relaciones y
denidas en el y que satisfacen los axiomas de orden:
para dos elementos cualquiera a, b V, una y solo una de las relaciones a b, a b, b a es
satisfecha,
es una relacion de equivalencia, y
es una relacion transitiva.
En otras palabras, un conjunto ordenado es un conjunto parcialmente ordenado ademas de la relacion
de equivalencia denida en el, y donde las condiciones ni a b ni b a y a b son equivalentes.
i) Subconjunto de elementos que dominan a un elemento a.
G(a) =
_
g | g V; a g
_
j) Subconjunto de elementos dominados por un elemento a.
L(a) =
_
l | l V; l a
_
k) Subconjunto de elementos comparables.
C(a) = G(a) L(a)
Note que G(a) L(a) = .
l) Dominaci on estricta. Un elemento b domina estrictamente un elemento a si
a b y no(b a)
Tambien se puede decir que b es estrictamente mejor que a, o que a es estrictamente peor que b.
52.2. Calculo de puntajes
Sea la lista de variables para ser utilizadas en el analisis notada por
{x
1
, x
2
, . . . , x
i
, . . . , x
v
}
y una lista de prioridades asociada a ella por
{p
1
, p
2
, . . . , p
i
, . . . , p
v
}.
Una relaci on de orden parcial construida en la base de esta colecci on de variables,
a b para cualquiera de los casos a y b
es equivalente a la condicion
x
1
(a) x
1
(b), x
2
(a) x
2
(b), . . . , x
v
(a) x
v
(b)
52.3 Referencias 391
donde x
i
(a) y x
i
(b) indican el valor de la i
esima
variable para los casos a y b respectivamente.
Cuando se comparan dos casos, las variables cuya prioridad es la mas elevada (valor de LEVEL mas bajo)
se consideran primero. Si estas determinan la relacion de forma inequvoca el procedimiento de comparaci on
termina. En caso de igualdad, la comparaci on contin ua utilizando variables del nivel de prioridad siguiente.
Este procedimiento se repite hasta que la relacion se determina en uno de los niveles de prioridad, o hasta
el nal de la lista de variables.
Para cada caso a del conjunto analizado, el programa calcula:
N(a) = n umero de casos que dominan estrictamente al caso a
N(a) = n umero de casos equivalentes al caso a
N(a) = n umero de casos estrictamente dominados por el caso a
y despues uno (o dos) de los puntajes a continuacion:
s
1
(a) = S
N(a)
N(a) +N(a) +N(a)
r
1
(a) = S s
1
(a)
s
2
(a) = S
N(a) +N(a)
N(a) +N(a) +N(a)
r
2
(a) = S s
2
(a)
s
3
(a) = S
N(a)
N
r
3
(a) = S
N(a) +N(a)
N
s
4
(a) = S
N(a) +N(a)
N
r
4
(a) = S
N(a)
N
donde
N = n umero de casos en el conjunto analizado
S = valor del factor de escala (ver el par ametro SCALE).
El par ametro ORDER selecciona los puntaje(s) como sigue:
ASEA : r
3
(a)
DEEA : s
4
(a)
ASCA : r
4
(a)
DESA : s
3
(a)
ASER : s
1
(a), r
1
(a)
DESR : s
1
(a), r
1
(a)
ASCR : s
2
(a), r
2
(a)
DEER : s
2
(a), r
2
(a).
52.3. Referencias
Debreu, G., Representation of a preference ordering by a numerical function, Decision Process, eds. R.M.
Thrall, C.A. Coombs and R.L. Davis, New York, 1954.
Hunya, P., A Ranking Procedure Based on Partially Ordered Sets, Internal paper, JATE, Szeged, 1976.
Captulo 53
Correlacion de Pearson
Notacion
x, y = valores de variables
w = valor del peso
N = n umero de casos validos en x y y
53.1. Estadsticas pareadas
Est an calculadas para las variables, tomadas por parejas (x, y) en el subconjunto de casos que tengan datos
validos en x y y.
a) Suma ponderada ajustada. El n umero de casos, ponderados, con datos validos en x y y.
b) Media de x.
x =
k
w
k
x
k
W
Nota: la formula para la media de y es semejante.
c) Desviaci on est andar de x (estimada).
s
x
=
_
_
N
N 1
__ W
k
w
k
x
2
k

_
k
w
k
x
k
_
2
W
2
_
Nota: la formula para la desviaci on est andar de y es semejante.
d) Coeciente de correlaci on. Momento producto r de Pearson.
r
xy
=
W
k
w
k
x
k
y
k

_
k
w
k
x
k
__
k
w
k
y
k
_
_
_
W
k
w
k
x
2
k

_
k
w
k
x
k
_
2
__
W
k
w
k
y
2
k

_
k
w
k
y
k
_
2
_
e) Prueba t. Esta estadstica se utiliza para probar la hipotesis que el coeciente de correlaci on de la
poblacion es cero.
t =
r
N 2
1 r
2
394 Correlaci on de Pearson
53.2. Medias y desviaciones estandar no pareadas
Est an calculadas variable por variable para todas las variables includas en el analisis, utilizando las formulas
dadas en 1.a, 1.b y 1.c respectivamente, la diferencia en los resultados se debe en particular a la diferencia
de casos validos.
a) Suma ponderada ajustada. El n umero de casos, ponderado, con datos validos para x.
b) Media de x. Media de la variable x para todos los casos que tengan datos validos para x.
c) Desviaci on est andar de x (estimada). La desviacion est andar de la variable x para todos los casos
que tengan datos validos para x.
53.3. Ecuacion de regresion para puntajes primarios
Calculada para todos los casos validos para la pareja (x, y).
a) Coeciente de regresi on. Es el coeciente no estandarizado de la regresion de y (variable dependi-
ente) sobre x (variable independiente).
B
yx
= r
xy
_
s
y
s
x
_
b) Termino constante.
A = y B
yx
x; ecuaci on de regresion: y = B
yx
x +A
53.4. Matriz de correlacion
Los elementos de esta matriz est an calculados con base en la formula dada en 1.d arriba. Tenga en cuenta
que las desviaciones est andar que salen en la matriz de correlaci on, se calculan de acuerdo con la formula
dada en 1.c atr as (desviaciones est andar estimadas).
53.5. Matriz de productos cruzados
Es una matriz cuadrada con los elementos siguientes:
CP
xy
=
k
w
k
x
k
y
k
53.6. Matriz de covariancia
Es la matriz que contiene los elementos a continuacion:
COV
xy
= r
xy
s
x
s
y
donde
s
x
=
_
W
k
w
k
x
2
k

_
k
w
k
x
k
_
2
W
2
y s
y
se calcula de acuerdo con la formula analoga.
N otese que la matriz de covariancia que produce PEARSON en un archivo no tiene elementos de la diagonal.
Para permitir su c alculo, las desviaciones est andar que produce esta matriz se calculan de acuerdo con la
formula anterior (desviaciones est andar no estimadas).
Captulo 54
Ordenamiento de alternativas
Notacion
i, j, l = subndices para alternativas
m = n umero de alternativas
k = ndice para el caso
n = n umero de casos
w = valor del peso.
54.1. Manejo de los datos de entrada
Sea un conjunto de alternativas, A = {a
1
, a
2
, . . . , a
i
, . . . , a
m
} y el conjunto de fuentes de informacion
(llamados de ahora en adelante evaluaciones) notado por E = {e
1
, e
2
, . . . , e
k
, . . . , e
n
}.
En la practica, los datos que proporcionan la informacion primaria sobre las relaciones preferenciales, pueden
presentarse de varias formas. El programa acepta, sin embargo, dos tipos b asicos de datos: datos que repre-
sentan una selecci on de alternativas y datos que representan una ordenaci on de alternativas. Todo otro tipo
de datos deberan ser transformados por el usuario antes de la ejecuci on del programa RANK.
a) Datos que representan una selecci on de alternativas. En este caso las evaluaciones representan
la selecci on de las alternativas preferidas y opcionalmente su orden de preferencia. En otras palabras,
todas las evaluaciones e
k
seleccionan un subconjunto A
k
de A y opcionalmente ordenan sus elementos.
Por esta raz on, A
k
es un subconjunto de alternativas (ordenado, o desordenado), y las A
k
constituyen
el dato individual primario:
A
k
=
_
a
ki1
, a
ki2
, . . . , a
kip
k
_
donde
p = n umero maximo de alternativas que podan ser seleccionadas en una evaluacion
p
k
= n umero de alternativas actualmente seleccionadas en la evaluacion e
k
y p
k
p < m .
b) Datos que representan una ordenaci on de alternativas por rangos. Las evaluaciones repre-
sentan la ordenaci on de alternativas en todo el conjunto A as como la atribuci on a cada una de ellas
de su n umero de rango. Formalmente, todas las evaluaciones e
k
dan un n umero de rango
k
(a
i
) =
ki
para todas las alternativas. En este caso, los datos est an proporcionados en la forma siguiente:
P
k
= {
k
(a
1
),
k
(a
2
), . . . ,
k
(a
m
)}
396 Ordenamiento de alternativas
Note que una alternativa a
ki1
es estrictamente preferida a o domina estrictamente a otra alternativa
a
ki2
de acuerdo con los datos que provienen de la evaluacion e
k
, si la primera tiene un rango superior
a la segunda. Igualmente, una alternativa a
ki1
es preferida a o domina otra alternativa a
ki2
de
acuerdo con los datos que provienen de la evaluacion e
k
, si el rango de a
ki1
es al menos tan elevado
como el rango de a
ki2
. El valor 1 es considerado como el rango mas elevado.
Solamente los datos descritos en el p arrafo b) est an dados en una forma que no requieren procesamiento
adicional. Los datos que guran en p arrafo a) son transformados a la forma de los del p arrafo b). Esta
transformaci on hace una diferencia entre una preferencia estricta y una preferencia debil.
Cuando se trata de datos representando una selecci on de alternativas completamente ordenadas (preferencia
estricta), la regla de transformaci on, es la siguiente:
para a
i
A
k

k
(a
i1
) = 1,
k
(a
i2
) = 2, . . . ,
k
(a
ip
k
) = p
k
para a
i
A
k

k
(a
i
) =
p
k
+ 1 +m
2
Cuando se trata de datos que representan una selecci on desordenada de alternativas (preferencia debil), se
supone que todas las alternativas seleccionadas se encuentran al mismo nivel de preferencia. De acuerdo con
esta suposicion, la regla de transformaci on es:
para a
i
A
k

k
(a
i
) =
p
k
+ 1
2
para a
i
A
k

k
(a
i
) =
p
k
+ 1 +m
2
Como resultado de las trasformaciones denidas arriba, los datos de preferencia, (o prioridad en la selecci on)
toman para los pasos subsiguientes del analisis, la forma:
P
(n,m)
=
_
11

12

1i

1m
21

22

2i

2m
.
.
.
.
.
.
.
.
.
.
.
.
k1

k2

ki

km
.
.
.
.
.
.
.
.
.
.
.
.
n1

n2

ni

nm
_
_
54.2. Metodo basado en la logica clasica
En este metodo, la matriz P se utiliza como si sus elementos fueran los datos iniciales del analisis. En lo que
se reere al car acter estricto o debil de la relacion de preferencia, debe notarse que la relacion de preferencia
juega un papel solamente en los pasos que nos llevan a la matriz P. En los pasos subsiguientes del analisis, el
procedimiento est a controlado por otros par ametros, tales como la diferencia de rangos para la concordancia
y la diferencia de rangos para la discordancia (ver abajo).
El procedimiento de ordenamiento basado en la logica clasica, consiste de dos pasos mayores, a saber: a)
construcci on de relaciones, y b) identicacion de n ucleos.
a) Construcci on de relaciones. En este paso, dos relaciones de trabajo (la relacion de concordancia
y la relacion de discordancia) se construyen en primer lugar. Despues, son utilizadas para construir
una relacion nal de dominacion.
i) Las relaciones de concordancia y de discordancia se construyen a partir de la matriz
P
(n,m)
, y las reglas aplicadas en este proceso son esencialmente iguales para ambas relaciones.
Relaci on de concordancia. Se utilizan dos par ametros para crear una relacion que reeje la
concordancia de la opinion colectiva que a
i
es preferida a a
j
:
d
c
= la diferencia de rangos para la concordancia (0 d
c
m1)
p
c
= la proporcion mnima de concordancia (0 p
c
< 1).
54.2 Metodo basado en la l ogica clasica 397
La diferencia de rangos para concordancia, permite al usuario inuir en la evaluacion de datos
cuando construye las matrices de preferencias individuales
RC
k
(d
c
) =
_
rc
k
ij
(d
c
)
_
donde i, j = 1, 2, . . . , m.
Los elementos de RC
k
(d
c
), miden la dominacion de a
i
sobre a
j
de acuerdo con la evaluacion k, y
son denidos como sigue:
rc
k
ij
(d
c
) =
_
1 si
kj

ki
d
c
0 de otra forma.
La suma de estas matrices mide la dominacion promedio de a
i
sobre a
j
y toma la forma de una
relacion difusa descrita por la matriz
RC(d
c
) =
_
rc
ij
(d
c
)
_
donde
rc
ij
(d
c
) =
k
w
k
rc
k
ij
(d
c
)
k
w
k
Note que mayores valores de d
c
nos llevan a reglas de construcci on mas rigurosas, ya que d
1
c
< d
2
c
implica
rc
k
ij
(d
1
c
) rc
k
ij
(d
2
c
) y rc
ij
(d
1
c
) rc
ij
(d
2
c
)
Una proporcion mnima de concordancia hace posible la transformaci on de una relacion difusa
RC(d
c
) en una relacion no-difusa, llamada relacion de concordancia, descrita por la matriz
RC(d
c
, p
c
) =
_
rc
ij
(d
c
, p
c
)
_
los elementos de la cual est an denidos como sigue:
rc
ij
(d
c
, p
c
) =
_
1 si rc
ij
(d
c
) p
c
0 de otra forma.
La condicion rc
ij
(d
c
, p
c
) = 1 signica que la opinion colectiva est a de acuerdo con la expresion
a
i
es preferida a a
j
al nivel (d
c
, p
c
).
Nuevamente, es claro que al incrementar el valor de p
c
uno obtiene condiciones mas estrictas de
concordancia.
Relaci on de discordancia. La construcci on de la relacion de discordancia sigue el mismo
camino que el que fue explicado para la concordancia. Los dos par ametros que controlan su
construcci on son:
d
d
= la diferencia de rangos para la discordancia (0 d
d
m1)
p
d
= la proporcion maxima de discordancia (0 p
d
1).
Las relaciones individuales de discordancia se determinan primero en las matrices
RD
k
(d
d
) =
_
rd
k
ij
(d
d
)
_
donde i, j = 1, 2, . . . , m.
Los elementos de RD
k
(d
d
), que miden la dominacion de a
j
sobre a
i
de acuerdo a la evaluacion k,
se denen como sigue:
rd
k
ij
(d
d
) =
_
1 si
ki

kj
d
d
0 de otra forma.
La suma de estas matrices mide la dominacion promedio de a
j
sobre a
i
y tiene la forma de una
relacion difusa descrita por la matriz
RD(d
d
) =
_
rd
ij
(d
d
)
_
donde
rd
ij
(d
d
) =
k
w
k
rd
k
ij
(d
d
)
k
w
k
En lo que se reere a la concordancia, el segundo par ametro (proporcion maxima de discordancia),
permite al usuario transformar la relacion difusa RD(d
d
) en una relacion no-difusa, llamada la
relacion de discordancia, y que est a descrita por la matriz
RD(d
d
, p
d
) =
_
rd
ij
(d
d
, p
d
)
_
los elementos de la cual est an denidos como sigue:
rd
ij
(d
d
, p
d
) =
_
1 si rd
ij
(d
d
) > p
d
0 de otra forma.
La condicion rd
ij
(d
d
, p
d
) = 1 signica que la opinion colectiva est a en discordancia con la asercion
a
i
es preferido a a
j
, es decir, que apoya a la expresion opuesta a
j
es preferida a a
i
, al nivel
(d
d
, p
d
). Esto puede ser interpretado como un veto colectivo contra la asercion a
i
es preferida
a a
j
.
Note que mayores valores para d
d
y p
d
nos llevan a reglas de construcci on menos rigurosas y por
tanto a condiciones mas debiles de discordancia.
ii) La relaci on de dominaci on est a compuesta de relaciones de concordancia y de discordancia.
La idea b asica es que la expresion a
i
es preferido a a
j
puede ser aceptada si la opinion colectiva
est a en concordancia con ella, es decir, rc
ij
(d
c
, p
c
) = 1, y
no est a en discordancia con ella, es decir, rd
ij
(d
d
, p
d
) = 0;
de otra forma esta expresion tiene que ser rechazada. Entonces, la relacion de dominacion, siendo
una funci on de cuatro par ametros, est a descrita por la matriz R de mm dimensiones
R =
_
r
ij
(d
c
, p
c
, d
d
, p
d
)
_
donde los elementos son obtenidos de acuerdo con la expresi on
r
ij
(d
c
, p
c
, d
d
, p
d
) = mn
_
rc
ij
(d
c
, p
c
), 1 rd
ij
(d
d
, p
d
)
r
ij
es una funci on monot onicamente decreciente en los dos primeros par ametros, y creciente
monot onicamente en los dos ultimos. Esto implica que:
incrementando las d
c
, p
c
y/o disminuyendo d
d
, p
d
, uno puede disminuir le n umero de conex-
iones en la relacion de dominacion, y
cambiando los par ametros en direcci on opuesta uno puede crear mas conexiones.
b) Identicaci on de n ucleos. Los n ucleos son subconjuntos de A (conjunto de alternativas) cuyos
elementos son alternativas no-dominadas. Una alternativa a
j
es no-dominada, s, y solo si
r
ij
= 0 para todo i = 1, 2, . . . , m.
i) De acuerdo con este criterio, el n ucleo del conjunto A(el n ucleo de mas alto nivel) es el subconjunto
C(A) =
_
a
j
| a
j
A; r
ij
= 0, i = 1, 2, . . . , m
_
Si C(A) = entonces todas las alternativas est an dominadas.
Si C(A) = A entonces todas las alternativas no est an dominadas.
ii) Para encontrar el n ucleo siguiente, los elementos del n ucleo precedente son eliminados primero
de la relacion de dominacion. Esto quiere decir que las las y las columnas correspondientes son
eliminadas de la matriz relacional. La b usqueda de un nuevo n ucleo se repite entonces en la
estructura reducida.
La aplicacion sucesiva de i) e ii) crea una serie de n ucleos A
c
1
, A
c
2
, . . . , A
c
q
. Estos n ucleos represen-
tan capas sucesivas de alternativas con rangos decrecientos en la estructura preferencial, mientras
que las alternativas pertenecientes al mismo n ucleo se supone que tienen el mismo rango.
54.3. Metodos basados en la logica difusa: la relacion de entrada
En el metodo de ordenamiento basado en la logica difusa, la matriz P
(n,m)
se utiliza para construir: a)
relaciones preferenciales individuales, y b) relaciones de entrada (llamadas tambien relaciones difusas)
sobre el conjunto de alternativas A. En este contexto, el car acter estricto y debil de la relacion de preferencia
juega un papel importante.
54.3 Metodos basados en la l ogica difusa: la relacion de entrada 399
a) Construcci on de relaciones preferenciales individuales. Para cada evaluacion e
k
una relacion de
preferencia individual, que est a dada implcitamente en P, es transformada en una matriz de dimensi on
mm:
R
k
=
_
r
k
ij
_
donde i, j = 1, 2, . . . , m
en la cual
r
k
ij
=
_
1 si la expresion a
i
es preferido a a
j
en la evaluacion e
k
es cierta;
0 si la expresion es falsa.
Dependiendo del tipo de preferencia utilizado, la expresi on a
i
es preferido a a
j
en la evaluacion e
k
es equivalente a la desigualdad
ki
<
kj
(preferencia estricta), o
ki

kj
(preferencia debil).
b) Construcci on de la relaci on de entrada (relaci on difusa). La suma de las matrices de pref-
erencia individual genera la matriz que representa una relacion difusa en el conjunto de alternativas
A:
R =
_
r
ij
_
donde
r
ij
=
k
w
k
r
k
ij
k
w
k
Cada elemento r
ij
de R puede ser interpretado como la credibilidad de aserciones a
i
es preferida a
a
j
en un sentido global, y sin referirse a una evaluacion. As, la siguiente interpretaci on general es
posible:
r
ij
= 1 a
i
es preferida a a
j
en todas las evaluaciones,
r
ij
= 0 a
i
es preferida a a
j
en ninguna de las evaluaciones,
0 < r
ij
< 1 a
i
es preferida a a
j
en una cierta porcion de las evaluaciones.
c) Caractersticas de la relaci on de entrada.
i) Difusion
no difuso : si r
ij
= 0 o r
ij
= 1 para todo i, j = 1, 2, . . . , m;
difuso : de otra forma.
ii) Simetra
simetrico : si r
ij
= r
ji
para todo i, j = 1, 2, . . . , m;
antisimetrico : si r
ij
= 0 implica que r
ji
= 0 para toda i = j;
asimetrico : de otra forma.
iii) Reflexividad
reexiva : si r
ii
= 1 para todo i = 1, 2, . . . , m;
antirreexiva : si r
ii
= 0 para todo i = 1, 2, . . . , m;
irreexiva : de otra forma.
iv) Tricotomia
tricotomo : si r
ij
+r
ji
= 1 para todo i, j = 1, 2, . . . , m e i = j;
(normalizado)
atric otomo : de otra forma.
(no normalizado)
v)

Indice de coherencia. Su valor, C, depende del orden de las las y columnas en R, es decir,
en el orden de las alternativas en A, y 1 C 1.
C =
i<j
(r
ij
r
ji
)
i<j
(r
ij
+r
ji
)
El ndice de coherencia absoluta es una modicacion de C, independiente del orden. Su
valor, C
a
, es una frontera superior para C y 0 C
a
1.
C
a
=
i<j
|r
ij
r
ji
|
i<j
(r
ij
+r
ji
)
Los ndices C y C
a
son indicadores de la unanimidad en los datos de preferencia. La coherencia
completa se indica cuando C = 1, mientras que C
a
= 0 indica una incoherencia total. El valor 1
para el ndice C puede ser interpretado como un orden de alternativas opuesto al orden denido
por la relacion difusa.
vi)

Indice de intensidad. El ndice I puede ser interpretado como un nivel de credibilidad promedio
de las expresiones a
i
es preferida a a
j
o a
j
es preferida a a
i
. En general, toma valores en
1 I 2, mientras que en el caso de una preferencia estricta, toma valores en 0 I 1. En
caso que I = 1, esto implica una relacion normalizada (ver 3.c abajo) y signica que en todos los
datos de preferencia una de las expresiones arriba es valida para todas las parejas de alternativas.
I =
i<j
(r
ij
+r
ji
)
m(m1)/2
vii)

Indice de dominaci on. Es tambien un ndice que depende del orden, y toma valores en 1
D 1.
D =
i<j
(r
ij
r
ji
)
m(m1)/2
Indice de dominaci on absoluta, en forma similar al ndice de coherencia, se dene como un

ndice de dominacion independiente del orden. Su valor, D
a
, es una frontera superior para D y
toma valores en 0 D
a
1.
D
a
=
i<j
|r
ij
r
ji
|
m(m1)/2
Los ndices D y D
a
indican la diferencia promedio entre la credibilidad de las expresiones a
i
es
preferida a a
j
y de sus expresiones opuestas a
j
es preferida a a
i
.
Note que C, I, D y C
a
, I, D
a
no son independientes entre ellos, a saber:
C I = D y C
a
I = D
a
d) Matriz normalizada. Una matriz normalizada se obtiene a partir de la matriz R utilizando la
transformaci on siguiente:
r
ij
=
_
r
ij
r
ij
+r
ji
si i = j y r
ij
+r
ji
= 0
r
ij
de otra forma.
54.4. Metodo difuso-1: capas no dominadas
El metodo de ordenamiento basado en la logica difusa supone una relacion de preferencia difusa con una
funci on de pertenencia : A A [0, 1] en un conjunto dado A de alternativas. Esta funci on de perte-
nencia est a representada por la matriz R (ver la secci on 3 arriba). Los valores r
ij
= (a
i
, a
j
) deben de ser
54.4 Metodo difuso-1: capas no dominadas 401
interpretados como los grados en los cuales las preferencias expresadas por las aserciones a
i
es preferida a
a
j
son ciertas.
Otra suposicion es que:
en el caso de una preferencia debil, es reexiva, es decir,
(a
i
, a
i
) = r
ii
= 1 para toda a
i
A
en el caso de preferencia estricta, es antirreexiva, es decir,
(a
i
, a
i
) = r
ii
= 0 para toda a
i
A
El procedimiento del metodo difuso-1 busca un conjunto de alternativas no dominadas (notadas
como las alternativas ND), considerando dicho conjunto como el n ucleo de alternativas de mas alto nivel.
La raz on es que las alternativas ND son: o equivalentes entre ellas, o no son comparables entre ellas sobre la
base de la relacion de preferencia considerada, y no est an dominadas en el sentido estricto por otras.
Para determinar un conjunto ND de alternativas difusas, dos relaciones difusas correspondientes a la relacion
de preferencia R son denidas: una relacion difusa de casi-equivalencia y una relacion difusa de preferencia
estricta. Formalmente, est an denidas como sigue:
relacion difusa de casi-equivalencia R
e
:
R
e
= R R
1
relacion difusa de preferencia estricta R
s
:
R
s
= R\ R
e
= R\ (R R
1
) = R\ R
1
donde R
1
es la relacion opuesta de la relacion R.
Todava mas, las funciones de pertenencia siguientes est an denidas para R
e
y R
s
respectivamente:
e
(a
i
, a
j
) = mn(r
ij
, r
ji
)
s
(a
i
, a
j
) =
_
r
ij
r
ji
cuando r
ij
> r
ji
0 de otra forma.
Para una alternativa ja a
j
A, la funci on
s
(a
j
, a
i
) describe un conjunto difuso de alternativas que
est an estrictamente dominadas por a
j
. El complemento de este conjunto difuso, descrito por la funci on de
pertenencia 1
s
(a
j
, a
i
), es para una a
j
ja, el conjunto difuso de todas las alternativas que no est an
estrictamente dominadas por a
j
. Entonces, la interseccion de todos los complementos de conjuntos difusos
(sobre todas las a
j
A) representa el conjunto difuso de aquellas alternativas a
i
A que no est an dominadas
estrictamente por cualquiera de las alternativas del conjunto A. Este conjunto se llama el conjunto difuso
ND
de alternativas ND en el conjunto A. As, de acuerdo con la denicion de interseccion
ND
(a
i
) = mn
ajA
(1
s
(a
j
, a
i
)) = 1 max
ajA
s
(a
j
, a
i
)
El valor
ND
(a
i
) representa el grado hasta el cual la alternativa a
i
no est a estrictamente dominada por
cualquiera de las alternativas del conjunto A.
El n ucleo de nivel m as elevado de alternativas contiene aquellas alternativas a
i
que tienen el grado
mas elevado de no-dominacion o, en otras palabras, que dan un valor a
ND
(a
i
) que es igual al valor:
M
ND
= max
aiA
ND
(a
i
)
El valor de M
ND
es llamado nivel de certeza correspondiente al n ucleo denido por:
C(A) =
_
a
i
| a
i
A;
ND
(a
i
) = M
ND
_
Los n ucleos siguientes se construyen mediante una aplicacion sucesiva del procedimiento descrito arriba. Los
elementos del n ucleo inmediatamente anterior, son excluidos de la relacion difusa, es decir, las las y las
columnas correspondientes son excluidas de la matriz de relacion difusa. Entonces, los c alculos se repiten en
la nueva estructura reducida.
54.5. Metodo difuso-2: rangos
La relacion de entrada a este metodo es la misma que para el metodo difuso-1, a saber: la matriz R que tiene
que ser reexiva o antirreexiva. Sin embargo la pregunta a la que tenemos que responder, es completamente
diferente.
El procedimiento del metodo difuso-2 busca los niveles de credibilidad, notados c
jp
, de las aserciones
a
j
est a exactamente en el p
esimo
lugar en la secuencia ordenada de alternativas en A, denotada T
jp
. Los
valores de las c
jp
forman una matriz M de dimensiones mm que representan una funci on de pertenencia
difusa, en la cual las las corresponden a las alternativas y las columnas a las posibles posiciones en la
secuencia 1, 2, . . . , m.
Para poder hacer posibles los c alculos de las c
jp
, estas deben estar desglosadas en niveles de credibilidad
ya conocidos r
ij
y por tanto las aserciones T
jp
deben estar desglosadas en expresiones elementales con
niveles de credibilidad conocidos r
ij
. Para esto, a nadiremos notaciones suplementarias. Note que para que
una alternativa a
j
se encuentre exactamente en el p
esimo
lugar signica que es preferida a mp alternativas
y que est a precedida por las p 1 alternativas restantes. Cuando el subconjunto de alternativas despues de
a
j
ha sido jado, entonces
A
j
mp
= el subconjunto de aquellas alternativas sobre las cuales a
j
es preferida,
A
j
p1
= el subconjunto de alternativas que son preferidas a a
j
,
A
j
= el subconjunto A\ {a
j
}.
Obviamente,
A
j
p1
A
j
mp
= A
j
A
j
p1
A
j
mp
=
y la expresion T
jp
es equivalente a una secuencia de aserciones a
j
es preferida a todos los elementos de
A
j
mp
, y todos los elementos de A
j
p1
son preferidos a a
j
, conectados por el operador disyuntivo de logica.
Todava mas, la asercion a
j
es preferida a todos los elementos de A
j
mp
es una conjunci on de las expresiones
ya conocidas a
j
es preferida a a
l
con un nivel de credibilidad igual a r
jl
, para todos los elementos a
l
de
A
j
mp
.
Igualmente, la expresion todos los elementos de A
j
p1
son preferidos a a
j
es una conjunci on de las aserciones
ya conocidas a
i
es preferida a a
j
con un nivel de credibilidad igual a r
ij
, para todos los elementos a
l
de
A
j
mp
.
Si empleamos los operadores difusos correspondientes, los elementos de la matriz M pueden ser obtenidos
como sigue:
c
jp
= max
A
j
mp
A
j
_
mn
_
mn
a
l
A
j
mp
r
jl
, mn
aiA
j
p1
r
ij
_
_
El c alculo de los valores c
jp
se hace utilizando un procedimiento de optimizacion que genera una serie de
subconjuntos A
j
mp
(manteniendo j y p jos) incrementando monot onicamente en forma estricta los valores
de la funci on que tiene que ser maximizada en pasos sucesivos.
El programa proporciona dos formas de interpretar la matriz M.
Conjuntos difusos de rangos por alternativas.
Para cada alternativa a
j
, los valores de una funci on de pertenencia difusa muestran la credibilidad de tener
esta alternativa en el p
esimo
lugar (p = 1, 2, . . . , m). Tambien, los rangos (lugares) mas plausibles para cada
alternativa son listados.
Subconjuntos difusos de alternativas por rangos.
Para cada rango (lugar) p, los valores de una funci on difusa de pertenencia muestran la credibilidad de las
alternativas a
j
(j = 1, 2, . . . , m) de estar en ese lugar. Tambien las alternativas mas plausibles, candidatas
para ese puesto, son listadas.
54.6. Referencias
Dussaix, A.-M., Deux methodes de determination de priorites ou de choix, Partie 1: Fondements mathema-
tiques, Document UNESCO/NS/ROU/624, UNESCO, Paris, 1984.
Jacquet-Lagrèze, E., Analyse dopinions valuees et graphes de preference, Mathematiques et sciences hu-
maines, 33, 1971.
Jacquet-Lagrèze, E., Lagregation des opinions individuelles, Informatique et sciences humaines, 4, 1969.
Kaufmann, A., Introduction ` a la theorie des sous-ensembles ous, Masson, Paris, 1975.
Orlovski, S.A., Decision-making with a fuzzy preference relation, Fuzzy Sets and Systems, Vol. 1, No 3, 1978.
Captulo 55
Diagramas de dispersion
Notacion
x = valor de la variable que se va a trazar horizontalmente
y = valor de la variable que se va a trazar verticalmente
w = valor del peso
k = subndice del caso
Estas estadsticas que no son ponderadas se calculan para todas las variables indicadas en la pasada.
a) Media.
x =
k
x
k
N
s
x
=
k
x
2
k
N
x
2
55.2. Estadsticas univariadas por parejas
Se calculan para el conjunto de casos que tienen datos validos en x y y. Son estadsticas ponderadas si se
especica una variable de peso.
a) Media.
x =
k
w
k
x
k
W
Nota: la formula de la media de y es analoga.
406 Diagramas de dispersion
s
x
=
k
w
k
x
2
k
W
x
2
Nota: la formula de la desviaci on est andar de y es analoga.
c) N. El n umero de casos, ponderado, con datos validos en x y y.
55.3. Estadsticas bivariadas
Est an calculadas en el conjunto de casos con datos validos en x y y.
a) Momento producto r de Pearson.
r
xy
=
W
k
w
k
x
k
y
k

_
k
w
k
x
k
__
k
w
k
y
k
_
_
_
W
k
w
k
x
2
k

_
k
w
k
x
k
_
2
__
W
k
w
k
y
2
k

_
k
w
k
y
k
_
2
_
b) Estadsticas de regresi on: constante A y coeciente B.
A =
k
w
k
y
k

k
w
k
x
k
B
W
donde B es el coeciente de regresion no estandarizado.
B =
W
k
w
k
x
k
y
k

_
k
w
k
x
k
__
k
w
k
y
k
_
W
k
w
k
x
2
k

_
k
w
k
x
k
_
2
La constante A y el coeciente B se utilizan en la ecuaci on de regresion y = Bx +A para proyectar y
a partir de x.
Captulo 56
B usqueda de estructura
Notacion
x = frecuencia (ponderada) de la variable categorica dependiente
o valores (ponderados) de variables dependientes dic otomas
z = valor de la covariada
w = valor del peso
j = subndice para c odigo de categoras de la variable dependiente
o subndice para variables dic otomas dependientes
m = n umero de c odigos de la variable dependiente
o n umero de variables dic otomas dependientes
g = subndice de grupo; g = 1 indica toda la muestra
i = subndice de grupos nales
t = n umero de grupos nales
N
g
= n umero de casos en el grupo g
W
g
= suma de pesos en el grupo g
N
i
= n umero de casos en el grupo nal i
W
i
= suma de pesos en el grupo nal i
W = suma total de pesos.
56.1. Analisis de medias
Este metodo se puede usar cuando se analiza una variable dependiente (por intervalos o dic otoma) y varios
predictores. Busca crear grupos que permitan la mejor predicci on de los valores de la variable dependiente
a partir del promedio de grupo. En otras palabras, los grupos creados deben suministrar las diferencias mas
grandes entre medias de grupos. El criterio de divisi on (variacion explicada) se basa en las medias de grupos.
a) Estadsticas de huella. Son las estadsticas calculadas sobre toda la muestra (para g = 1) y sobre
divisiones tentativas de grupos padres as como tambien para cada grupo que resulte de la mejor
divisi on.
i) Suma (wt). N umero de casos (N
g
) si no se ha especicado la variable de ponderaci on o n umero
de casos ponderado (W
g
) en el grupo g.
408 B usqueda de estructura
ii) Med y. Valor medio de la variable dependiente y en el grupo g.
y
g
=
Ng
k=1
w
k
y
gk
W
g
iii) Var y. Variancia de la variable dependiente y en el grupo g.
2
yg
=
Ng
k=1
w
k
(y
gk
y
g
)
2
W
g

Wg
Ng
iv) Variaci on. Suma de cuadrados de la variable dependiente (como en el an alisis de variancia de
una entrada) en el grupo g.
V
g
=
Ng
k=1
w
k
(y
gk
y
g
)
2
v) Var expl. La variacion explicada se mide con la diferencia entre la variacion en el grupo padre
y la suma de la variacion en los dos grupos hijos. Suministra, para cada predictor, la cantidad de
variacion explicada por la mejor divisi on de este predictor, es decir, el valor mas alto obtenido
sobre todas las posibles divisiones de este predictor.
Sean g
1
y g
2
dos subgrupos (grupos hijos) obtenidos en una divisi on del grupo padre g, y V
g1
y
V
g2
sus variaciones respectivas. La variacion explicada por esa divisi on del grupo g se calcula as:
V E
g
= V
g
(V
g1
+ V
g2
)
Entonces, este valor se maximiza sobre todas las divisiones posibles del predictor.
vi) Variaci on explicada. Es el porcentaje de la variacion total explicada por los grupos nales.
Porcentaje = 100
V E
V T
donde V E y V T son, respectivamente, la variacion explicada por los grupos nales y la variacion
total (ver 1.b adelante).
b) An alisis de una entrada de grupos nales. Son estadsticas de analisis de variancia de una entrada
calculadas para los grupos nales.
i) Variaci on explicada y GL. Es la cantidad de variacion explicada por los grupos nales y los
grados de libertad correspondientes.
V E = V T V N = V T
t
i=1
V
i
GL = t 1
ii) Variaci on total y GL. Variacion total calculada para toda la muestra, es decir, para el grupo
1 y los correspondientes grados de libertad.
V T = V
1
GL = W 1
iii) Error and GL. Es la cantidad de variancia no explicada y los correspondientes grados de libertad.
V N =
t
i=1
V
i
GL = W t
c) Tabla de resumen de separaci on. La tabla suministra valor medio de grupo, variancia y variacion
de la variable dependiente en cada divisi on as como tambien la variacion explicada por esa divisi on
(ver 1.a atr as).
56.2 Analisis de regresion 409
d) Tabla de resumen de grupos nales. Esta tabla suministra valor medio, variancia y variacion de
la variable dependiente para los grupos nales (ver 1.a atr as).
e) Porcentaje de variaci on explicada. El porcentaje de la variacion total explicada por la mejor
divisi on de cada grupo, se calcula as:
Porcentaje
g
= 100
V E
g
V T
N otese que este valor es igual a cero para los grupos nales (indicados con un asterisco).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
e
k
= y
k
y
k
Como valor predicho, se asigna a un caso el valor medio de la variable dependiente para el grupo al
cual pertenece, es decir
y
ik
= y
i
56.2. Analisis de regresion
Este metodo se puede usar cuando se analiza una variable dependiente (por intervalos o dic otoma) con una
covariada y varios predictores. Busca crear grupos que permitan la mejor predicci on de valores de la variable
dependiente a partir de la ecuaci on de regresion del grupo y el valor covariado. En otras palabras, los grupos
creados deben suministrar las diferencias mas grandes en las lneas de regresion de grupo. El criterio de
divisi on (variacion explicada) se basa en la regresion de la variable dependiente sobre la covariada.
divisiones tentativas de grupos padres as como tambien para cada grupo que resulte de la mejor
divisi on.
g
de casos ponderados (W
g
) en el grupo g.
ii) Med y,z. Valor medio de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.ii
atr as).
iii) Var y,z. Variancia de la variable dependiente y y de la covariada z en el grupo g (ver 1.a.iii
atr as).
iv) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g.
b
g
=
Ng
k=1
w
k
(y
gk
y
g
)(z
gk
z
g
)
Ng
k=1
w
k
(z
gk
z
g
)
2
v) Variaci on. Es el error o la suma residual de cuadrados al estimar la variable y por su regresion
sobre la covariada en el grupo g, es decir, una medida de la desviacion alrededor de la lnea de
regresion.
V
g
=
Ng
k=1
w
k
(y
gk
y
g
)
2
b
g

Ng
k=1
w
k
(y
gk
y
g
)(z
gk
z
g
)
donde b
g
es la pendiente de la lnea de regresion en el grupo g.
vi) Var expl. Variacion explicada (VE). Ver 1.a.v atr as para informacion general y 2.a.v atr as para
detalles acerca de la V (variacion) usada en el analisis de regresion.
vii) Variaci on explicada. Es el porcentaje de la variacion total explicada por los grupos nales.
Ver 1.a.vi atr as y 2.b adelante.
410 B usqueda de estructura
b) An alisis de una entrada de grupos nales. Son estadsticas resumen para los grupos nales. Ver
1.b. atr as para informacion general y 2.a.v y 2.a.vi atr as para detalles sobre las medidas de V y V E
usadas en el analisis de regresion.
c) Tabla de resumen de separaci on. La tabla suministra el valor medio de grupo, variancia y variacion
de la variable dependiente en cada divisi on as como tambien la variacion explicada por esa divisi on.
Tambien suministra el valor medio y variancia de la covariada. Ver 2.a atr as para formulas. Se calculan
las siguientes estadsticas de regresion para cada divisi on:
i) Pendiente. Es la pendiente de la variable dependiente y sobre la covariada z en el grupo g (ver
2.a.iv atr as).
ii) Intercepto. Es el termino constante en la ecuaci on de regresion.
a
g
= y
g
b
g
z
g
donde b
g
es la pendiente en el grupo g.
iii) Corr. Coeciente r de la correlaci on de Pearson entre la variable dependiente y y la covariada z
en el grupo g.
r
g
=
Ng
k=1
w
k
(y
gk
y
g
) (z
gk
z
g
)
_
2
yg

2
zg
d) Tabla de resumen de grupos nales. Esta tabla suministra la misma informacion (a excepcion de
la variacion explicada) que la Tabla de resumen de separacion, pero para los grupos nales.
divisi on para cada grupo (ver 1.e y 2.a.vi atr as).
f ) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
e
k
= y
k
y
k
Los valores predichos se calculan as:
y
ik
= a
i
+b
i
z
ik
donde a
i
y b
i
son coecientes de regresion para el grupo nal i.
56.3. Analisis de Ji-cuadrada
Este metodo se puede usar cuando se analiza una variable dependiente (nominal u ordinal) o un conjunto de
variables dependientes dic otomas con varios predictores. Busca crear grupos que permitan la mejor predicci on
de la categora de la variable dependiente a partir de su distribuci on de grupo. En otras palabras, los grupos
creados deben suministrar las diferencias mas grandes en las distribuciones de la variable dependiente. El
criterio de divisi on (variacion explicada) se calcula sobre la base de la distribuci on de frecuencias de la
variable dependiente. N otese que las variables dependientes dic otomas m ultiples se tratan como categoras
de una variable categorica.
divisiones tentativas de grupos padres as como tambien para cada grupo resultante de la mejor divisi on.
g
ponderado de casos (W
g
) en el grupo g.
ii) Variaci on. Es la entropa del grupo g, es decir, una medida del desorden en la distribuci on de
la variable dependiente.
V
g
= 2
m
j=1
x
jg
ln
x
jg
x
g
donde
x
jg
=
Ng
k=1
x
jgk
x
g
=
m
j=1
x
jg
y x
jgk
es la frecuencia (codicada 0 o 1) del c odigo j (o valor de la variable j) del caso k en
grupo g.
iii) Var expl. Variacion explicada (VE). Ver 1.a.v atr as para informacion general y 3.a.ii atr as para
detalles sobre la V (variacion) usada en el analisis de Ji-cuadrada.
iv) Variaci on explicada. Es el porcentaje de la variacion total explicada por los grupos nales.
Ver 1.a.vi atr as y 3.b adelante.
b) An alisis de una entrada de grupos nales. Son estadsticas resumen para los grupos nales. Ver
1.b atr as para informacion general y 3.a.ii y 3.a.iii atr as para detalles sobre las medidas V y la V E
usadas en el analisis de Ji-cuadrada.
c) Tabla de resumen de separaci on. Esta tabla suministra la variacion de la variable dependiente en
cada divisi on as como tambien la variacion explicada por esa divisi on. Ver 3.a.ii y 3.a.iii atr as para
las formulas.
d) Tabla de resumen de grupos nales. Esta tabla suministra la variacion de la variable dependiente
para los grupos nales.
divisi on para cada grupo (ver 1.e atr as y 3.a.iii atr as).
f ) Distribuci on de porcentajes. Una tabla bivariada que muestra la distribuci on de porcentajes de la
variable dependiente para todos los grupos (P
jg
).
g) Residuos. Los residuos son las diferencias entre el valor observado y el valor predicho de la variable
dependiente.
Para el analisis con una variable categ orica dependiente, los residuos se calculan para cada
categora de la variable. As, el n umero de residuos es igual al n umero de categoras.
e
jk
= x
jk
x
jik
Los valores observados, x
jk
, se crean como una serie de variables cticias, codicadas 0 o 1.
Como valor predicho para la categora j, se le asigna al caso un valor proporcional al n umero de casos
que est an en esta categora para el grupo al cual pertenece el caso, es decir:
x
jik
= P
ji
/100
Para el analisis con varias variables dependientes dic otomas, los residuos se calculan para cada
variable. As, el n umero de residuos es igual al n umero de variables dependientes.
e
jk
= x
jk
x
jik
Los valores observados se caculan as:
x
jk
=
x
jk
m
j=1
x
jk
Como valor predicho para la variable j, se le asigna al caso un valor proporcional al n umero de casos
que tengan valor 1 para esta variable en el grupo al cual pertenece el caso, es decir:
x
jik
= P
ji
/100
56.4. Referencias
Morgan, J.N., Messenger, R.C., THAID A Sequential Analysis Program for the Analysis of Nominal Scale
Dependent Variables, Institute for Social Research, The University of Michigan, Ann Arbor, 1973.
Sonquist, J.A., Baker, E.L., Morgan, J.N., Searching for Structure, Revised ed., Institute for Social Research,
The University of Michigan, Ann Arbor, 1974.
Captulo 57
Tablas univariadas y bivariadas
Notacion
x = valor de la variable de la en tablas bivariadas
o valor de la variable en tablas univariadas
y = valor de la variable de columna en tablas bivariadas
w = valor del peso
i = subndice de la la en tablas bivariadas
j = subndice de la columna en tablas bivariadas
r = n umero de las en tablas bivariadas
c = n umero de columnas en tablas bivariadas
f
i
= frecuencia marginal de la la i en una tabla bivariada
f
j
= frecuencia marginal en la columna j de una tabla bivariada
a) Wtnum. N umero de la variable de ponderaci on, o cero si el peso no est a especicado.
b) Wtsum. N umero de casos si la variable de ponderaci on no est a especicada, o n umero ponderado de
casos (suma de los pesos).
c) Moda. La primera categora que contiene la frecuencia maxima.
d) Mediana. La mediana est a calculada como un cuantil n-tile con dos subintervalos solicitados. Ver
el captulo Funciones de distribuci on y de Lorenz para detalles.
e) Media.
x =
k
w
k
x
k
k
w
k
f ) Variancia. Es un estimador insesgado de la variancia de la poblacion.
s
2
x
=
_
N
N 1
_
k
w
k
(x
k
x)
2
k
w
k
414 Tablas univariadas y bivariadas
g) Desviaci on est andar. Note que s
x
no es en s mismo un estimador insesgado de la desviacion est andar
de la poblacion.
s
x
=
_
s
2
x
h) Coeciente de variaci on (C.var.).
C
x
=
100 s
x
x
i) Asimetra. La asimetra de la distribuci on de x est a medida por
g
1
=
_
N
N 2
__
m
3
s
2
x
_
s
2
x
_
donde m
3
=
k
w
k
(x
k
x)
3
k
w
k
Esta cifra es una medida de asimetra. Distribuciones que son asimetricas hacia la derecha, es decir, la
cola se encuentra del lado derecho, tienen una medida de asimetra positiva; distribuciones que tienen
una asimetra cargada hacia la izquierda, tienen una medida de asimetra negativa; una distribuci on
normal tiene asimetra igual a cero.
j) Kurtosis. La kurtosis de la distribuci on de x est a medida por
g
2
=
_
N
N 3
__
m
4
( s
2
x
)
2
_
3 donde m
4
=
k
w
k
(x
k
x)
4
k
w
k
La kurtosis mide el grado de picudez de una distribuci on. Una distribuci on normal tiene kurtosis igual a
cero. Una curva de punta aguda tiene una kurtosis positiva; las distribuciones de puntas menos agudas
que las de una distribuci on normal tienen una kurtosis negativa.
k) Cuantiles (n-tiles). Los puntos de separacion de los n-tiles, se calculan de la misma forma que en el
programa QUANTILE.
57.2. Estadsticas bivariadas
a) Ji-cuadrada. Ji-cuadrada es adecuada para probar la signicaci on de las diferencias de las distribu-
ciones entre grupos independientes.
2
=
j
(f
ij
E
ij
)
2
E
ij
donde
f
ij
= frecuencia observada en la celda ij
E
ij
= frecuencia estimada (calculada) en la celda ij;
es el producto de la frecuencia de la la i multiplicada
por la frecuencia en la columna j, dividida por el total N.
Para tablas de dos por dos, la
2
se calcula de acuerdo con la formula siguiente:
2
=
N(|ad bc| N/2)
2
(a +b)(c +d)(a +c)(b +d)
donde a, b, c, d representan las frecuencias en las cuatro celdas.
57.2 Estadsticas bivariadas 415
b) V de Cramer. La V de Cramer describe la fuerza de asociaci on en una muestra. Su valor se sit ua
entre cero, que reeja una independencia completa, y la unidad, indicando una dependencia total en
las cualidades.
V =

2
N(L 1)
donde L = mn(r, c) .
c) Coeciente de contingencia. Al igual que la V de Cramer, el coeciente de contingencia se utiliza
para describir la fuerza de asociaci on en una muestra. Su lmite superior es una funci on del n umero de
categoras. El ndice no puede alcanzar la unidad.
CC =
2
+N
d) Grados de libertad.
gl = (r 1)(c 1)
e) N ajustada. Es la N utilizada en los c alculos estadsticos, es decir, el n umero de casos con c odigos
validos. Ser a ponderada si una variable de peso ha sido especicada.
f ) S. S es igual al n umero de acuerdos en el orden, menos el n umero de desacuerdos en el orden. Para
una celda dada en una tabla, todos los casos en las celdas a la derecha y abajo est an en acuerdo, todos
los casos a la izquierda y abajo est an en desacuerdo. S es el numerador de la estadsticas tau y gama.
S =
r1
i=1
c
j=1
f
ij
_
_
r
h=i+1
c
l=j+1
f
hl

r
m=i+1
j1
n=1
f
mn
_
_
donde f
ij
, f
hl
y f
mn
son las frecuencias observadas en las celdas ij, hl y mn respectivamente.
g) Variancia de S. Es la variancia de S cuando hay ataduras. (Una atadura se presenta en los datos si
mas de un caso aparece en una la o en una columna dadas).
2
s
=
N(N 1)(2N + 5)
j
f
j
(f
j
1)(2f
j
+ 5)
i
f
i
(f
i
1)(2f
i
+ 5)
18
+
+
_
j
f
j
(f
j
1)(f
j
2)
__
i
f
i
(f
i
1)(f
i
2)
_
9N(N 1)(N 2)
+
+
_
j
f
j
(f
j
1)
__
i
f
i
(f
i
1)
_
2N(N 1)
h) Desviaci on est andar de S.
s
=
_
2
s
i) Desviaci on normal de S. Proporciona una prueba de signicaci on de muestra grande para valores de
tau o gama con ataduras. El n umero menos uno en el numerador es una correccion para continuidad (si
S es negativa, el n umero uno es a nadido). El n umero puede ser comparado a una tabla de distribuci on
normal. La prueba est a condicionada por la distribuci on de ataduras.
Z =
S 1
s
j) Tau a. Tau a supone que no hay ataduras entre los datos, o que las ataduras, si las hay, representan
un error de medida que se reeja claramente a traves de una disminuci on de intensidad de la relacion
misma. Tau a tiene un rango que va de menos uno a mas uno.
a
=
S
N(N 1)
2
k) Tau b. Tau b es similar a tau-a, a excepcion que las ataduras est an permitidas, es decir, puede haber
mas de un caso en una la o columna dadas en la tabla bivariada. Tau b puede alcanzar la unidad
solamente cuando el n umero de las es igual al n umero de columnas.
b
=
S
_
N(N 1)
2
T
1
_ _
N(N 1)
2
T
2
_
donde
T
1
=
_
i
f
i
(f
i
1)
_
/ 2
T
2
=
_
j
f
j
(f
j
1)
_
/ 2
l) Tau c. Tau c es similar a Tau b exceptuando que si el n umero de las no es igual al n umero de
columnas, tau b no puede alcanzar los valores mas o menos la unidad, mientras que tau c puede
alcanzarlos.
c
=
S
1/2 N
2
[(L 1)/L]
donde L = mn(r, c).
m) Gama. La de Goodman-Kruskal es otra medida de asociaci on ampliamente usada que est a relaciona-
da estrechamente con la de Kendall. Puede variar de menos uno a mas uno y puede ser calculada
aun cuando ataduras ocurren en los datos.
=
S
S
+
+ S
donde
S = S
+
S
S
+
= n umero total de parejas en orden similar
S
= n umero total de parejas en orden diferente.

n) Ro de Spearman. Es el momento producto de correlaci on ordinaria de Pearson calculado sobre
los rangos. Vara de menos uno a mas uno. La ro de Spearman calculada por el programa TABLES
incorpora una correccion para ataduras.
El factor de correccion, T, para un solo grupo de casos atados es:
T =
t
3
t
12
donde t es igual al n umero de casos atados en un rango dado, es decir, el n umero de casos en una la
dada o en una columna dada.
La ro de Spearman se calcula
s
=
x
2
+
y
2
d
2
2
_
x
2

y
2
donde
x
2
=
N
3
N
12

T
x
y
2
=
N
3
N
12

T
y
d
2
=
k
(X
k
Y
k
)
2
T
x
= suma de las T para todas las las con mas de un caso
T
y
= suma de las T para todas las columnas con mas de un caso
X
k
= rango del caso k en la variable la
Y
k
= rango del caso k en la variable columna.
Note que cuando mas de un caso ocurre en una la (o columna) dada, el valor de las X
k
(o las Y
k
) para
casos atados, es el promedio de los rangos que hubieran sido asignados si no hubiera habido ataduras.
Por ejemplo, si hay 15 casos en la primera la de una tabla, entonces a esos 15 casos se les habra
asignado un rango, es decir, valor de X de 8.
n) Lambda simetrica. Es una medida simetrica del poder de predicci on; es adecuada cuando ni las las
ni las columnas est an especialmente designadas como las fuentes a partir de las cuales debe proyectarse
o ser conocidos en primer lugar. Lambda tiene un rango de cero a uno.
sym
=
i
max
j
f
ij
+
j
max
i
f
ij
max
j
f
j
max
i
f
i
2N max
j
f
j
max
i
f
i
donde
f
ij
= frecuencia observada en la celda ij
max
j
f
ij
= frecuencia maxima en la la i
max
i
f
ij
= frecuencia maxima en la columna j
max
j
f
j
= frecuencia marginal maxima entre las j columnas
max
i
f
i
= frecuencia marginal maxima entre las i las.
o) Lambda A, variable dependiente en la. Esta lambda es adecuada cuando la variable de la es
la variable dependiente. Es una medida de reduccion proporcional en la probabilidad de error, cuando
se proyecta la variable la, especicado por una categora de columna. La lambda dependiente de la
tiene un rango de cero a uno.
rd
=
j
max
i
f
ij
max
i
f
i
N max
i
f
i
Vea mas arriba la denicion de los terminos de esta formula.
p) Lambda B, variable dependiente en columna. Esta lambda es adecuada cuando la variable de la
columna es la variable dependiente. Toma valores en el intervalo cero a uno.
cd
=
i
max
j
f
ij
max
j
f
j
N max
j
f
j
Vea mas arriba la denicion de los terminos de esta formula.
q) Estadsticas para medicina basada en evidencia (EBM). Se calculan para las tablas 2 x 2
donde la primera la contiene las frecuencias de evento (a) y no-evento (b) para los casos en el grupo
experimental y la secunda la contiene las frecuencias de evento (c) y no-evento (d) para los casos en
el grupo control.
Son calculadas las estadsticas siguientes:
Tasa de eventos en el grupo experimental
TEE = a/(a +b)
Tasa de eventos en el grupo control
TEC = c/(c +d)
Reducci on absoluta del riesgo (Diferencia de riesgo)
RAR = |TEC TEE|
Reducci on relativa del riesgo
RRR = RAR/TEC
N umero necesario a tratar
NNT = 1/RAR
Riesgo relativo (relaci on de riesgo)
RR = TEE/TEC
y su intervalo de conanza al 95 %
IC
RR
= exp
_
ln(RRestimado) 1,96
T
_
donde la variancia estimada de ln(RRestimado) es
T =
b/a
a +b
+
d/c
c +d
Razon de posibilidades (odds ratio)
RP = ad/bc
y su intervalo de conanza al 95 %
IC
RP
= exp
_
ln(RP estimado) 1,96
V
_
donde la variancia estimada de ln(RP estimado) es
V =
1
a
+
1
b
+
1
c
+
1
d
r) Prueba exacta de Fisher. La prueba exacta de probabilidad de Fisher es una tecnica no-parametrica
muy util para analizar datos discretos (que sean nominales o ordinales) a partir de dos muestras
independientes. Es utilizada cuando todos los casos de dos muestras aleatorias independientes caen en
una o en otra de dos categoras mutuamente exclusivas. La prueba determina si los dos grupos dieren
en la proporcion en la cual se separan las dos clasicaciones.
La probabilidad de un resultado observado se calcula como sigue:
p =
(a +b)! (c +d)! (a +c)! (b +d)!
N! a! b! c! d!
donde a, b, c, d representan la frecuencia en las cuatro celdas.
El programa TABLES calcula ambas probabilidades exactas relativas a una o dos colas, que son
llamadas probabilidad de ocurrencia igual o extrema a la que fue observada y probabilidad de
ocurrencia extrema a la que fue observada en cualquier direcci on respectivamente.
s) Prueba de Mann-Whitney. La prueba U de Mann-Whitney puede ser utilizada para probar si dos
grupos independientes han sido seleccionados a partir de la misma poblacion. Es la mejor alternativa
a la prueba parametrica t cuando la medida es inferior al escalamiento por intervalos. En el programa
TABLES se requiere que la variable por la sea la variable de agrupamiento dicotomica.
Sean
n
1
= n umero de casos en el grupo mas peque no de casos en los dos grupos
n
2
= n umero de casos en el segundo grupo
R
1
= suma de ordenaciones asignada al grupo con n umero de casos n
1
R
2
= suma de ordenaciones asignada al grupo con n umero de casos n
2
.
Entonces
U
1
= n
1
n
2
+
n
1
(n
1
+ 1)
2
R
1
U
2
= n
1
n
2
+
n
2
(n
2
+ 1)
2
R
2
y
U = mn(U
1
, U
2
)
Si hay mas de 10 casos en cada grupo, el programa TABLES proporciona la aproximacion Z (aproxi-
maci on normal de U) calculada como sigue:
Z =
U n
1
n
2
/2
_
n
1
n
2
(n
1
+n
2
+ 1)
12
t) Prueba de rangos con signo de Wilcoxon. La prueba estadstica de Wilcoxon sirve para probar
la relacion entre dos muestras y utiliza ambas informaciones, sobre la direcci on y la magnitud relativa
de la diferencia entre parejas de variables.
La suma de rangos positivos, T
+
, se obtiene como sigue:
Las diferencias con signo d
k
= x
k
y
k
se calculan para todos los casos.
Las diferencias d
k
son ordenadas con respecto al rango e independientemente de su signo. Los
casos en los cuales d
k
toma el valor cero son descartados. A las d
k
que est an atadas, se les asigna
el promedio de los rangos atados.
A cada rango se le anexa el signo (+ o ) de la d que representan.
N
es el n umero de d
k
cuyo valor no es cero.
T
+
es la suma de las d
k
con signo positivo.
Si N
> 15, el programa calcula la aproximacion Z (aproximacion normal de T

+
) como sigue:
Z =
T
+
T
+
T
+
donde
T
+ =
N
(N
+ 1)
4
2
T
+ =
N
(N
+ 1) (2N
+ 1)
24

1
2
g
t=1
n
t
(n
t
1) (n
t
2)
y
g = n umero de grupos de diferentes rangos atados
n
t
= n umero de rangos atados en el grupo t.
Note que la aproximacion Z tambien est a ajustada para los rangos atados. El uso de esta, sin embargo,
no produce cambio alguno en la variancia cuando no hay ataduras.
u) Prueba-t. El cociente t es adecuado para probar la diferencia entre dos medias independientes, es
decir, dos muestras independientes. La variancia est a calculada en com un.
t =
y
i
y
h
_
n
i
s
2
i
+n
h
s
2
h
n
i
+n
h
2
__
n
i
+n
h
n
i
n
h
_
donde
y
i
= media de la variable de columna para casos en la la i
y
h
= media de la variable de columna para casos en la la h
s
2
i
= variancia de la muestra para la variable de columna para casos en la la i
s
2
h
= variancia de la muestra para la variable de columna para casos en la la h.
Si se requieren las pruebas t, las desviaciones est andar de la muestra son calculadas para los casos en
cada la como sigue:
s
i
=
y
2
n
i
y
2
i
Si se solicitan las estadsticas bivariadas y una variable de ponderaci on es especicada, se imprime una
indicaci on al respecto y las estadsticas se calculan utilizando los valores ponderados:
x
k
= w
k
x
k
x
2
k
= w
k
x
2
k
y
k
= w
k
y
k
y
2
k
= w
k
y
2
k
N =
k
w
k
f
ij
= la frecuencia ponderada en la celda ij.
Captulo 58
Tipologa y clasicacion ascendente
Notacion
v = subndice para la variable
g, i, j = subndices para grupos
a = n umero de variables activas (cuantitativas y cualitativas dicotomizadas)
p = n umero de variables pasivas (cuantitativas y cualitativas dicotomizadas)
t = n umero inicial de grupos
N
i
= n umero de casos en el grupo i ponderado si el peso del caso est a especicado)
N
j
= n umero de casos en el grupo j (ponderado si el peso del caso est a especicado)
= valor del peso de la variable
w = valor del peso del caso
W = suma total de los pesos del caso.
58.1. Tipos de variables utilizadas
El programa acepta variables cuantitativas y cualitativas (categ oricas), estas ultimas seran tratadas
como cuantitativas despues de haber sido dicotomizadas en sus categoras respectivas, es decir, despues
de la construcci on de tantas variables dicotomicas (cero/uno) igual al n umero de categoras. Las variables
utilizadas por el programa pueden ser activas o pasivas. Las variables activas son aquellas sobre las cuales
la tipologa es construida. Las variables pasivas no participan en la construcci on de la tipologa, pero el
programa imprime para estas las estadsticas principales dentro de los grupos de la tipologa.
Un conjunto de variables activas se denota aqu, como X
a
, y un conjunto de variables pasivas como X
p
.
58.2. Perl de caso
El perl del caso k es un vector P
k
tal que
P
k
= (x
k1
, x
k2
, . . . , x
kv
, . . . , x
ka
) = (x
kv
)
donde todas las x
v
X
a
.
Si se requiere que las variables activas sean estandarizadas, el perl de caso k se convierte en
P
k
=
_
x
kv
s
v
_
donde s
v
es la desviacion est andar de la variable x
v
(ver 7.b mas abajo).
422 Tipologa y clasicacion ascendente
58.3. Perl de grupo
El perl del grupo i, conocido tambien como el barycentro de grupo, es un vector P
i
tal que
P
i
= (x
i1
, x
i2
, . . . , x
iv
, . . . , x
ia
) = (x
iv
)
y en caso de datos estandarizados se convierte en,
P
i
=
_
x
iv
s
v
_
donde el numerador es la media de la variable x
v
de los casos que corresponden al grupo i y el denominador
es la desviacion est andar de esta variable.
58.4. Distancias utilizadas
Hay tres tipos b asicos de distancias utilizadas en este programa, que son la distancia en cuadra urbana
(city block), la distancia euclideana y la distancia Ji-cuadrada de Benzecri. Estas pueden ser utilizadas
para calcular las distancias entre dos casos, entre un caso y un grupo de casos y entre dos grupos de casos. A
continuacion, estas distancias est an denidas como distancias entre dos grupos (entre perles de dos grupos),
pero las otras distancias pueden ser obtenidas adaptando las formulas respectivas.
a) Distancia en cuadra urbana (city block).
d
ij
= d(P
i
, P
j
) =
a
v=1
v
|x
iv
x
jv
|
a
v=1
v
b) Distancia euclideana.
d
ij
= d(P
i
, P
j
) =
_
a
v=1
v
(x
iv
x
jv
)
2
a
v=1
v
c) Distancia Ji-cuadrada.
d
ij
= d(P
i
, P
j
) =
_
a
v=1
1
p
v
_
p
iv
p
i
p
jv
p
j
_
2
donde
p
v
=
t
g=1
x
gv
, p
i
=
a
v=1
x
iv
, p
j
=
a
v=1
x
jv
p
iv
=
x
iv
t
g=1
a
v=1
x
gv
, p
jv
=
x
jv
t
g=1
a
v=1
x
gv
Todava mas, el programa proporciona la posibilidad de utilizar distancias ponderadas, llamadas
desplazamiento (displacement), que son denidas como sigue:
D
ij
= D(P
i
, P
j
) =
2N
i
N
j
N
i
+N
j
d
ij
Note que el desplazamiento entre el perl de dos casos es igual a su distancia ya que N
i
= N
j
= 1.
58.5 Construccion de una tipologa inicial 423
58.5. Construccion de una tipologa inicial
a) Selecci on de la conguraci on inicial. Antes de comenzar el proceso de agregacion de los casos, el
programa selecciona la conguracion inicial, es decir, t perles iniciales de grupo, en una de las formas
siguientes:
los perles de casos de t casos escogidos al azar (con n umeros aleatorios) constituyen la cong-
uraci on de partida; para obtener la conguracion inicial, los casos restantes se distribuyen en t
grupos como se describe mas adelante;
los perles de casos de t casos escogidos por pasos constituyen la conguracion de partida; para
obtener la conguracion inicial, los casos restantes se distribuyen en t grupos como se describe
mas adelante;
la conguracion inicial es un conjunto de perles calculados para los casos distribuidos a lo largo
de las categoras de una variable clave;
la conguracion inicial es un conjunto de perles de grupo proporcionados a priori por el usuario.
Cuando la construcci on comienza a partir de t perles, el programa considera este conjunto de t
vectores, como un conjunto de t casos de partida y distribuye los casos restantes de acuerdo a la
distancia de cada uno de los casos de partida.
Notemos el conjunto de los t casos de partida por
P
partida
=
_
P
k1
, P
k2
, . . . , P
kt
_
y la distancia entre grupos y/o casos i y j por D(P
i
, P
j
).
Note que D(P
i
, P
j
) puede ser cualquier distancia denida en secci on 4 mas arriba.
Para cada caso i P
partida
el programa calcula
= mn
1jt
_
D(P
i
, P
kj
)
_
= mn
_
D(P
k1
, P
k2
), D(P
k1
, P
k3
), . . . , D(P
kt1
, P
kt
)
_
Hay dos posibilidades:
: el caso i queda asignado al grupo mas cercano P
kj
y el perl de este grupo es calculado
nuevamente
P
kj
=
_
P
kj
+P
i
_
/2
> : el caso i construye un nuevo grupo que es a nadido al conjunto P
partida
, y los dos perles
mas cercanos P
kj
y P
k
j
se suman formando un nuevo grupo con el nuevo perl

P
kj
=
_
P
kj
+P
k
j
_
/2
Al nal de este procedimiento, la conguracion inicial es un conjunto de t perles
P
inicial
=
_
P
1
, P
2
, . . . , P
j
, . . . , P
t
_
donde P
j
es el perl medio de todos los casos correspondientes al grupo j.
En esta etapa, el programa no toma en cuenta la ponderaci on de los casos, si esta existe.
b) Estabilizaci on de la conguraci on inicial. La conguracion inicial es estabilizada por medio de
un proceso iterativo. En cada iteraci on, el programa redistribuye los casos entre los grupos iniciales
tomando en cuenta sus distancias de cada perl de grupo.
Aqu tambien hay dos posibilidades:
cuando el caso i P
j
y
D(P
i
, P
j
) = mn
1gt
_
D(P
i
, P
g
)
_
entonces el caso es mantenido en el grupo P
j
;
cuando el caso i P
j
pero
D(P
i
, P
j
) = mn
1gt
_
D(P
i
, P
g
)
_
entonces el caso i es transferido del grupo P
j
al grupo P
j
, y los perles de esos dos grupos son
calculados nuevamente como sigue:
P
j
= (N
j
P
j
P
i
) /(N
j
1)
P
j
= (N
j
P
j
+P
i
) /(N
j
+ 1)
Despues de haber efectuado esta operaci on, el grupo P
j
contiene N
j
1 casos y el grupo P
j
contiene
N
j
+ 1 casos.
Note que si los casos est an ponderados, entonces:
N
j
= N
j
w
i
N
j
= N
j
+w
i
P
i
= w
i
P
i
en donde w
i
es igual al peso del caso i; N
j
y N
j
son el n umero de casos ponderados en los grupos P
j
and P
j
respectivamente.
La estabilidad de los grupos est a medida por el porcentaje de casos que quedan en el mismo grupo
entre dos iteraciones sucesivas.
El procedimiento se repite hasta que los grupos se estabilizan o hasta que el n umero de iteraciones
indicada por el usuario son efectuadas.
58.6. Caractersticas de distancias por grupos
a) N. N umero de casos en cada grupo de la tipologa inicial.
b) Media. Distancia media para cada grupo, es decir, el promedio de las distancias del perl de grupo
sobre todos los casos que partenecen a este grupo.
c) D.E. Desviaci on est andar de la distancia para cada grupo.
d) Clasicaci on de distancias. Distribucion de casos en terminos de frecuencia y porcentaje, a traves
de 15 intervalos continuos que son diferentes para cada grupo.
e) Conteo total. N umero total de casos que participan en la construcci on de la tipologa inicial.
f ) Media. Distancia media total.
g) D.E. Desviaci on est andar total de la distancia.
h) Clasicaci on de distancias (lmites iguales para cada grupo). Igual que 6.d arriba, a la ex-
cepcion que los 15 intervalos tienen el mismo espectro en todos los grupos.
58.7. Estadsticas de resumen
Son calculadas para las variables cuantitativas y para las variables cualitativas activas.
a) Media. Media de las x
v
cuantitativas, tales que x
v
(X
a
X
p
). Para las categoras de variables
cualitativas, es una proporcion de casos en esa categora.
x
v
=
k
w
k
x
kv
W
58.8 Descripcion de la tipologa resultante 425
b) D.E. Desviaci on est andar.
s
v
=
_
W
k
w
k
x
2
kv

_
k
w
k
x
kv
_
2
W
2
c) Peso. El valor de la ponderaci on calculada para cada variable es como sigue:
v
=
_
_
0 para variables cuantitativas pasivas
1 para variables cuantitativas activas
(c+1)/3
c
para categoras de una variable cualitativa activa, donde
c es igual al n umero de categoras con datos para esta variable
1 para categoras de una variable cualitativa activa
si se usa la distancia Ji-cuadrada.
58.8. Descripcion de la tipologa resultante
Al nal de la construcci on de la tipologa inicial, y tambien al nal de cada paso de la clasicacion ascendente,
todas las variables, es decir, activas y pasivas son evaluadas por una cantidad de variancia explicada. Es una
medida de poder discriminante de cada variable cuantitativa y de cada una de las categoras de las variables
cualitativas. Le sigue una descripcion individual de todos los grupos de la tipologa.
a) Proporci on de casos. Porcentaje multiplicado por 1000 de los casos que corresponden a cada grupo
de la tipologa.
b) Variancia explicada.
VE(x
v
) =
tg
i=1
N
i
(x
iv
x
v
)
2
k
w
k
(x
kv
x
v
)
2
1000
donde
t
g
= n umero de grupos en la tipologa
x
iv
= media de la variable v en el grupo i
x
v
= media global de la variable v.
c) Media global.
Para variables cuantitativas, los valores medios como descrito en 7.a arriba.
Para cada categora de las variables cualitativas, porcentaje de casos en esta categora.
d) Estadsticas para cada grupo de la tipologa.
Para variables cuantitativas:
primera lnea: valores medios tal como est an descritos en 7.a arriba;
segunda lnea: desviaciones est andar como est an descritas en 7.b arriba.
Para cada categora de las variables cualitativas:
primera lnea: porcentaje de casos de columna;
segunda lnea: porcentaje de casos de la.
58.9. Resumen de la cantidad de variancia explicada por la tipologa
En forma similar a la descripcion de la tipologa resultante, una tabla de resumen se imprime al nal de la
construcci on de la tipologa inicial y al nal de cada paso de la clasicacion ascendente.
a) Variables que explican el 80 % de la variancia. Presenta las variables con mayor poder dis-
criminante - que, tomadas todas juntas - son responsables de la explicaci on de al menos el 80 % de la
variancia, junto con la cantidad de variancia explicada por cada una de ellas individualmente (ver 8.b
arriba).
b) Variancia explicada media por las variables activas.
VE
activas
=
a
v=1
v
VE(x
v
)
a
v=1
v
c) Variancia explicada media por todas las variables.
VE
todas
=
a+p
v=1
v
VE(x
v
)
a+p
v=1
v
d) Variancia explicada media por las variables que explican el 80 % de la variancia total.
Despues de cada agrupamiento, el programa busca las variables que explican al menos el 80 % de la vari-
ancia total e imprime la variancia media explicada por esas variables antes y despues del agrupamiento
as como el porcentaje de dichas variables.
58.10. Clasicacion jerarquica ascendente
Despues de haber creado la tipologa inicial, el programa efect ua una serie de agrupamientos, reduciendo uno
por uno el n umero inicial de grupos hasta el n umero especicado por el usuario. A cada agrupamiento, el
programa selecciona los dos grupos mas cercanos, es decir, dos grupos con la menor distancia o desplazamiento
(ver secci on 4 arriba), y calcula el perl para este nuevo grupo.
a) Grupo i + j. Perl del nuevo grupo, impreso hasta para 15 variables activas en orden descendiente
de su desviacion (ver 10.d mas abajo). Note que si hay menos de 15 variables activas, o menos de
15 variables con casos validos en grupos agregados, el programa completa la lista utilizando variables
pasivas.
b) Grupo i. Perl del grupo i, impreso para las mismas variables que est an indicadas arriba.
c) Grupo j. Perl del grupo j, impreso para las mismas variables que est an indicadas arriba.
d) Desv. Valor absoluto de la diferencia entre perles de los grupos i y j, impreso para las mismas
variables que est an indicadas arriba.
Desv(x
v
) = |x
iv
x
jv
|
e) Desviaci on ponderada. Desviaci on ponderada por el peso de la variable y por la desviacion est andar,
impresa para las mismas variables que est an indicadas arriba.
DesvP(x
v
) = Desv(x
v
)

v
s
v
58.11. Referencias
Aimetti, J.P., SYSTIT: Programme de classication automatique, GSIE-CFRO, Paris, 1978.
Diday, E., Optimisation en classication automatique, RAIRO, Vol. 3, 1972.
Hall & Ball, A clustering technique for summerizing multivariate data, Behavioral Sciences, Vol. 12, No 2,
1967.
Apendice
Mensajes de error de los programas
de IDAMS
Vision general
Se ha echo un esfuerzo para que los mensajes de error se expliquen por s mismos. Este Apendice esencialmente
describe el esquema de codicacion utilizado para los mensajes de error.
Errores y advertencias
Los errores (E) siempre causan la terminaci on de la ejecuci on de programas de IDAMS; las advertencias
(W) alertan al usuario acerca de posibles anormalidades en los datos y/o proposiciones de control as como
tambien, de una interpretaci on equivocada de los resultados. Los mensajes de error y de advertencia tienen
el formato siguiente:
***E* aaannn texto del mensaje de error
***W* aaannn texto del mensaje de advertencia
donde
nnn es un n umero de tres dgitos, que empieza en 001 para las advertencias y en 101 para los errores;
aaa indica de donde proviene el mensaje, seg un las reglas siguientes:
Mensajes de los programas: la primera letra del nombre del programa seguida de las dos conso-
nantes siguientes del nombre del programa.
Mensajes de las subrutinas:
SYN errores de sintaxis general;
RCD errores y advertencias de sintaxis de Recode;
DTM errores en datos y diccionario y advertencias acerca de los archivos de datos y diccionario;
SYS errores y advertencias del Monitor;
FLM errores y advertencias sobre el manejo de archivos.
430 Mensajes de error de los programas de IDAMS
Mensajes de error de ejecucion que provienen de Fortran
Cuando se presentan errores durante la ejecuci on de un programa, Visual Fortran RTL arroja mensajes de
diagnostico. Estos mensajes tienen el siguiente formato:
forrtl: severidad (numero): texto
forrtl identica la fuente como Visual Fortran RTL.
severidad los niveles de severidad son: severo (debe corigirse), error (debera corigirse), advertencia
(debera investigarse), o info (s olo informacion).
numero es el n umero del mensaje, tambien el valor IOSTAT para proposiciones I/O (Entrada/Salida).
texto explica la causa del error.
Los mensajes de ejecuci on se explican por si mismo y por esta raz on, no se listan aqu.
Indice alfabetico
agrupaci on de datos, 59, 97
analisis
basado en ordenamiento parcial de puntajes, 245,
389
de clasicacion, 173, 293, 333, 421
de conguracion, 179, 341
de correspondencias, 197, 353
de preferencias, 259, 395
de proximidades, 215, 367
de regresion, 205, 221, 361, 373
de segmentacion binaria, 273, 407
de series de tiempo, 4, 323, 328
de variancia, 221, 239, 373, 385
discriminatorio, 185, 345
en componentes principales, 197, 353
factorial, 197, 353
analisis de variancia
multivariado, 231
analisis multivariado de variancia, 231
archivos
clasicacion, 157
Datos, 5, 79
de datos, 12
de diccionario, 14
de matrices, 5, 16
del sistema, 80
permanentes, 80
del usuario, 79
Diccionario, 5, 79
especicaci on de, 23
intercalaci on, 157
jerarquicos, 12
Matriz, 79
nombre, 79
rectangulares, creacion de, 57
Resultados, 79
Setup, 79
usados en WinIDAMS, 79
asimetra, 354, 414
blancos
identicacion, 112
recodicacion por BUILD, 103
c odigos
incorrectos/invalidos, especicaci on, 109
nombre de, 16
vericacion, 89, 109
carpetas
en WinIDAMS, 80
por defecto, 80
casos
activos, 358
duplicados
eliminacion con SUBSET, 163
tratamiento con MERGE, 151
eliminacion, 129, 161, 165
excenticos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
faltantes, tratamiento con MERGE, 150
jacion de n umero a procesar, 30
identicacion con MERCHECK, 121
listado, 129, 145, 165
ordenamiento parcial, 245
pasivos, 360
selecci on de, 25
centrado de conguraciones, 179, 341
clasicacion de alternativas, 259, 395
basada en la logica clasica, 259, 396
basada en la logica difusa, 259, 400, 402
clasicacion de archivos, 157
clasicacion de casos
basada en la logica difusa, 174, 336
basada en repartici on, 173, 174, 334, 336
jerarquica, 173, 174, 293, 337339, 421
clasicacion de objetos
basada en la logica difusa, 174, 336
basada en repartici on, 173, 174, 334, 336
jerarquica, 173, 174, 337, 338
clasicacion jerarquica
ascendente, 174, 177, 293, 337, 421
basada en variables dicotomicas, 174, 177, 339
de casos, 293, 421
descendente, 174, 177, 338
por aglomeracion, 174, 177, 337
por divisi on, 174, 177, 338
cociente F, 223, 240, 387
coeciente de Gini, 191, 350
coecientes
B, 207, 254, 267, 364, 394, 406
beta, 207, 223, 364, 375
de contingencia, 281, 415
de correlaci on
m ultiple, 207, 223, 363, 376
parcial, 207, 362
r de Pearson, 206, 253, 362, 393
de regresion, 207, 254, 267, 364, 394, 406
de variacion, 361, 373, 375, 385, 414
eta, 223, 240, 375, 386
comandos de IDAMS
432

INDICE ALFAB
ETICO
$CHECK, 21
$COMMENT, 22
$DATA, 22
$DICT, 22
$FILES, 22
$MATRIX, 22
$PRINT, 22
$RECODE, 22
$RUN, 23
$SETUP, 23
comentario en el setup, 22
conguracion
analisis, 179, 341
centrado, 179, 341
matriz de conguracion, 179, 215, 295, 296, 341,
367
en entrada de CONFIG, 180
en entrada de MDSCALE, 218
en entrada de TYPOL, 296
en salida de CONFIG, 180
en salida de MDSCALE, 217
en salida de TYPOL, 295
normalizaci on, 180, 341
proyeccion, 182
rotacion varimax, 180, 343
transformaci on, 180, 342
correccion
de datos, 57, 59, 88, 129
de identicador de casos, 129
Cramer (V de), 281, 306, 415
curva de Lorenz, 191, 350
D de Sormer, 306
dataset, denicion en IDAMS, 11
datasets
construcci on, 103
copia, 161
importacion, 89
intercalaci on, 59, 149
de diferente nivel, 59, 149
de mismo nivel, 59, 149
preparacion, 58
subdivisi on, 60, 161
datos
actualizacion, 129
agrupaci on, 59, 97
almacenamiento, 11
archivos de, 5, 79
conversi on a modo binario, 13
correccion, 57, 59, 88, 129
en el setup, 22
en IDAMS, 5
entrada, 88
exportacion, 90, 135
formato DIF, 136
formato libre, 90, 136
formato, 11
importacion, 20, 89, 135
formato DIF, 137
formato libre, 89, 137
listado, 60, 145
no numericos, edici on, 103
numericos
edici on, 103
tratamiento de campos no numericos, 13
reagrupamiento (ver agrupaci on), 97
recodicacion, 31, 59
salvar datos recodicados, 165
transformaci on, 59, 165
para recodicacion, 31
seguro con TRANS, 59
validaci on, 57, 58
vericacion
de consistencia, 57, 59, 115
de intercalaci on, 57, 58
de orden de clasicacion, 121, 161, 163
de valores, 57, 58, 109
datos faltantes
asignacion de c odigos por Recode, 51
c odigos de, 13
declaracion en el setup, 30
denicion, 13
eliminacion por casos
en PEARSON, 254
en REGRESSN, 206
eliminacion por pares
en PEARSON, 253
especicaci on en el diccionario, 15
tratamiento con Recode, 34
datos preferenciales
selecci on de alternativas, 261
tipos de, 260
ddname, 23
modicacion, 30
nombre por defecto, 30
densidades, 318
desviacion est andar, 304, 345, 353, 361, 373, 374, 385,
393, 394, 405, 406, 414, 425
determinacion de prioridades, 259, 395
diagramas
agrupados, 320
de caja y bigotes, 319
de dispersi on, 198, 202, 267, 316
tridimensional, 320
diccionario
archivos de, 5, 79
construcci on, 86, 103
correci on, 86
descripcion, 14
en el setup, 22
listado con LIST, 145
registros
de c odigos y nombres de categoras, 15
de tipo C, 15
de tipo T, 15
descriptor de diccionario, 14
descriptores de variables, 15
vericacion, 86
distancia
INDICE ALFAB
ETICO 433
cuadra urbana, 176, 219, 297, 334, 371, 422
de Mahalanobis, 185, 346
euclideana, 176, 219, 297, 334, 370, 422
Ji-cuadrada, 297, 422
Durbin-Watson (estadstica de), 207, 365
ELECTRE (metodo de clasicacion de alternativas),
259, 396
eliminacion
de casos
con CORRECT, 129
con SUBSET, 161
con TRANS, 165
de casos duplicados con SUBSET, 163
de variables
con SUBSET, 161
con TRANS, 165
esfuerzo en analisis de proximidades, 216, 368
estadsticas, c alculo de
bivariadas por TABLES, 281
de residuos por MCA, 223
para medicina basada en evidencia, 281
univariadas, 318
interactivo, 304
por AGGREG, 97, 98
por FACTOR, 198
por TABLES, 281
exploraci on graca interactiva, 4, 313
exportacion
de datos, 90, 135
de matrices, 135
de tablas multidimensionales, 306
facilidades de analisis
analisis de componentes principales, 3, 197, 353
analisis de conguracion, 3, 179, 341
analisis de conglomerados, 3, 173, 333
analisis de correspondencias, 3, 197, 353
analisis de regresion, 3, 221, 373
analisis de variancia, 3, 221, 373
analisis de variancia de una entrada, 3, 239, 385
analisis discriminatorio, 3, 185, 345
analisis factorial, 3, 197, 353
b usqueda de estructura, 4, 273, 407
clasicacion jerarquica ascendente, 4, 293, 421
correlaci on de Pearson, 4, 253, 393
diagramas de dispersi on, 4, 267, 405
escalamiento multidimensional, 3, 215, 367
exploraci on graca interactiva de datos, 4, 313
funciones de distribuci on y de Lorenz, 3, 191, 349
interactivo de series de tiempo, 4, 323
nubes de puntos, 4, 267, 405
ordenamiento de alternativas, 4, 259, 395
puntajes basados en el orden parcial de casos, 3,
245, 389
regresion lineal, 3, 205, 361
segmentacion binaria, 4, 273, 407
tablas multidimensionales interactivas, 4, 303
tablas univariadas y bivariadas, 4, 281, 413
tipologia iterativa, 4, 293, 421
factor de repetici on en TABLES, 287
ltro, 25
colocacion, 25
local, 25
en ONEWAY, 242
en QUANTILE, 194
en SCAT, 270
en TABLES, 286
principal, 25
reglas de codicacion, 25
variables a usar, 26
variables alfabeticas., 26
variables numericas, 26
variables R, 26
Fisher
prueba exacta de, 281, 418
prueba F de, 207, 223, 240, 363, 387
frecuencias
bivariadas, 281, 305
univariadas, 281, 305
univariadas acumulativas, 281
funci on
de distribuci on, 191, 349
de Lorenz, 191, 350
discriminatoria lineal, 185, 346
funciones de Recode
aritmeticas, 37
logicas, 45
gamma (estadstica), 281, 306, 416
Gini (coeciente de), 191, 350
histogramas, 318
IDAMS
caractersticas est andar, 5
comandos, 21
dataset, 11, 103
construcci on, 103
exportacion, 90
importacion, 89
datos
exportacion, 135
importacion, 135
diccionario, construcci on, 103
especicaci on de archivos, 23
GraphID, 4, 313
matrices, 16
exportacion, 135
importacion, 135
mensajes de error, 429
programas de, 2, 3
proposiciones de control, 25, 61
proposiciones de recodicacion, 31, 61
setup, 21, 61
tablas multidimensionales, 4, 303
TimeSID, 4, 323
identicador de caso
correccion, 129
en LIST, 146
434

INDICE ALFAB
ETICO
en MERGE (variables de emparejamiento), 154
importacion
de datos, 20, 89, 135
de matrices, 135
impresion de resultados, 93
imprimir
tablas, 306
interacciones
construcci on de una variable de combinaci on, 222
denicion, 221
deteccion y tratamiento, 221
intercalaci on
de archivos, 157
de datasets, 59, 60, 149
de diferente nivel, 149
de mismo nivel, 149
Ji-cuadrada (prueba), 281, 306, 414
Kaiser (criterio de), 201
Kendall (taus de), 281, 306, 416
Kolmogorov-Smirnov (prueba de), 191, 350
kurtosis, 354, 414
logica difusa
clasicacion de alternativas, 259, 400, 402
clasicacion de objetos, 174, 336
lambda (estadsticas), 281, 306, 417
lista de variables, reglas de codicacion, 31
listado
de casos
con CORRECT, 129
con LIST, 145
con TRANS, 165
de datos con LIST, 60, 145
de diccionarios con LIST, 145
Lorenz
curva de, 191, 350
funci on de, 191, 350
Mahalanobis (distancia de), 185, 346
Man-Whitney (prueba de), 281, 419
manejo de datos
agrupaci on de datos, 2, 97
clasicacion e intercalaci on de archivos, 2, 157
construcci on de un dataset IDAMS, 2, 103
correccion de datos, 2, 129
importacion o exportacion de datos, 2, 135
intercalaci on de datasets, 2, 149
listado de datos, 2, 145
subdivisi on de datasets, 2, 161
transformaci on de datos, 2, 165
vericacion de c odigos, 2, 109
vericacion de consistencia, 2, 115
vericacion de intercalaci on de datos, 2
vericacion de intercalaci on de registros, 121
matriz
archivos de, 5, 16, 79
cuadrada, 17
descriptor, 17
formato, 17
de conguracion, 179, 215, 295, 296, 341, 367
en entrada de CONFIG, 180
en entrada de TYPOL, 296
en salida de MDSCALE, 217
en salida de TYPOL, 295
de correlaci on, 206, 254, 362, 394
en entrada de CLUSFIND, 175
en entrada de REGRESSN, 208
en salida de PEARSON, 255
en salida de REGRESSN, 207
de correlaci on parcial, 207, 362
de correlaciones, 355
de correspondencias, 355
de covariancia, 254, 394
en salida de PEARSON, 255
de covariancias, 355
de distancias, 180, 342
de estadsticas, 281
de estadsticas bivariadas
en salida de TABLES, 284
de medidas de similitud/disimilitud, 173, 215,
334
en entrada de CLUSFIND, 175
de productos cruzados, 207, 254, 361, 394
de productos escalares, 180, 342, 355
de relaciones, 197, 198, 260, 354, 399
en el setup, 22
exportacion, 135
formato libre, 137
importacion, 20, 135
formato libre, 137
inversa, 207, 362
programas que leen, 17, 18
programas que producen, 17, 18
proyeccion, 321
rectangular, 18
descriptor, 19
formato, 19
media, 304, 345, 353, 373, 374, 379, 385, 393, 394,
405, 413, 424
mensajes de error, 429
nombre
de c odigos, 16
de variables, 15
normalizaci on
de conguraciones, 180, 341
de la matriz de relaciones, 264, 400
nubes de puntos, 198, 202, 267, 316
palabras clave
est andar, 27
tipos de, 28
par ametros
INDICE ALFAB
ETICO 435
colocacion, 27
comunes, 30
BADDATA, 30
INFILE, 30
MAXCASES, 30
MDVALUES, 30
OUTFILE, 30
VARS, 31
WEIGHT, 30
formatos de especicaci on, 27
presentacion en el Manual, 27
valores por defecto, 28
Pearson (coeciente r de), 206, 253, 362, 393
pesos, 30
ponderaci on de datos, 30
porcentajes
basados en el gran total, 281, 304
basados en totales de columna, 281, 304
basados en totales de la, 281, 304
predictores, 221, 239, 273
preferencia
debil, 260
estricta, 260
programas
de analisis de datos, 3
de manejo de datos, 2
ejemplo de setup, 60
promedio, 333, 361
proposiciones de control
ltro, 25
parmetros, 27
ttulo, 27
proposiciones de Recode, 31
asignacion, 46
condicionales, 50
control, 48
denicion/asignacion, 50
vericacion, 35, 165
proposiciones, ejemplo de setup, 60
proyeccion
de casos, 198, 267, 316
de variables, 198
prueba
de Durbin-Watson, 207, 365
de Kolmogorov-Smirnov, 191, 350
de Man-Whitney, 281, 419
de Wilcoxon, 281, 419
exacta de Fisher, 281, 418
F de Fisher, 223, 240, 387
Ji-cuadrada, 281, 306, 414
t de Student, 281, 420
puntajes
calculados por FACTOR, 198
calculados por POSCOR, 246
quantiles, 193, 283, 349, 414
reagrupamiento de datos con AGGREG, 97
Recode
constantes (tipos de), 35
expresiones, 36
aritmeticas, 36
logicas, 36
forma de proposiciones, 33
funciones aritmeticas, 37
funciones logicas, 45
iniciacion de valores de variables, 34
lenguaje, elementos de, 35
operadores
aritmeticos, 35
logicos, 36
relacionales, 36
operandos b asicos, 35
proposiciones, 46, 48
restricciones, 54
tratamiento de datos faltantes, 34
variables V y R, 35
Recode, funciones aritmeticas
ABS, 37
BRAC, 37
COMBINE, 38
COUNT, 39
LOG, 39
MAX, 40
MD1, MD2, 40
MEAN, 40
MIN, 40
NMISS, 41
NVALID, 41
RAND, 41
RECODE, 41
SELECT, 42
SQRT, 43
STD, 43
SUM, 43
TABLE, 43
TRUNC, 44
VAR, 45
Recode, funciones logicas
EOF, 45
INLIST, 45
MDATA, 46
Recode, proposiciones
BRANCH, 48
CARRY, 51
CONTINUE, 48
DUMMY, 47
ENDFILE, 48
ERROR, 49
GO TO, 49
IF, 50
MDCODES, 51
NAME, 51
REJECT, 49
RELEASE, 49
RETURN, 49
436

INDICE ALFAB
ETICO
SELECT, 47
recodicacion
de blancos con BUILD, 103
de datos, 31, 59
salvar variables recodicadas, 165
registros
duplicados, identicacion y correccion, 122
eliminados, tratamiento, 122
faltantes, deteccion y reemplazo, 122
identicacion en MERCHECK, 121
invalidos, identicacion y correccion, 122
regresion, 205, 361
con variables categoricas, 205, 221
con variables cticias, 205, 221
lneas de, 318
lineal m ultiple, 205, 361
por pasos, 205, 365
por pasos descendente, 205, 366
repartici on
alrededor de medoides, 174, 177, 334, 336
basada en la logica difusa, 174, 177, 336
residuos, 206, 221, 273, 376, 409411
en salida de MCA, 224
en salida de SEARCH, 274
ro de Spearman, 281, 416
rotacion varimax
de factores, 198, 360
salvar
datos recodicados, 165
variables recodicadas, 165
segmentacion binaria, 273, 407
selecci on
de casos, 25
de variables, 31
series de tiempo
analisis, 323, 328
autoregresion, 328
correlaciones, 328
espectro, 328
espectro cruzado, 328
estadsticas, 328
ltros de frecuencia, 329
proyeccion, 326
transformaci on, 327
setup
archivos de, 5, 79, 91
comentarios, 22
ejecuci on, 92
preparacion, 91
Sormer (D de), 306
Spearman (ro de), 281, 416
Student (prueba t de), 207, 281, 365, 420
subdivisi on de datasets, 60, 161
sumas de cuadrados, 207, 223, 240, 361, 374, 386
ttulo
colocacion, 27
tablas
bivariadas, 281, 305, 413
de 3 y 4 entradas, 281
de contingencia, 281, 413
de estadsticas en salida de TABLES, 284
de factores, 198, 356
de frecuencias bivariadas, 281
de frecuencias univariadas, 281
de frecuencias univariadas acumulativas, 281
multidimensionales, 305
univariadas, 281, 305, 413
tau (estadsticas), 281, 306, 416
tipologa iterativa, 293, 421
transformaci on
de datos, 59, 165
para recodicacion, 31
seguro con TRANS, 59
de series de tiempo, 327
V de Cramer, 281, 306, 415
validaci on de datos, 57, 58
valores excentricos
tratamiento por MCA, 226
tratamiento por SEARCH, 277
valores no numericos, tratamiento, 30
valores propios, 355, 356
valores residuales, 206, 221, 273, 376, 409411
en salida de MCA, 224
en salida de SEARCH, 274
variable
de clasicacion producida por TYPOL, 295
de combinaci on, 222
de grupo, 187
de muestra, 187
variables
activas, 197, 293, 356, 421
agrupadas, 97
alfabeticas, 13
categoricas
en MCA, 221
en REGRESSN, 205, 211
nombres de c odigos, 16
con decimales, 12
construidas por POSCOR, 246
cualitativas, nombres de c odigos, 16
de control, 97, 221, 239
eliminacion, 161, 165
cticias
en MCA, 221
en REGRESSN, 205, 211
lista de, 31
colocacion, 31
localizacion en los registros, 15
nombre de, 15
asignacion por Recode, 51
numericas, 12
INDICE ALFAB
ETICO 437
correccion, 129
edici on, 14, 103
tratamiento de campos no numericos, 13
tratamiento por BUILD, reglas de, 103
pasivas, 197, 293, 358, 421
referencia a, 12
salvar variables recodicadas, 165
selecci on de, 31
suplementarias, 197
variancia, analisis de, 221, 239, 373, 385
varimax
rotacion de conguraciones, 180, 343
rotacion de factores, 198, 360
vectores propios, 355
vericacion
de c odigos con ayuda de registros C, 89, 109
de consistencia, 57, 59, 115
de intercalaci on de datos, 57, 58
de proposiciones Recode, 35, 91, 165
de valores de datos, 57, 58, 109
del orden de clasicacion de datos, 121, 161, 163
Wilcoxon (prueba de), 281, 419
WinIDAMS
archivos, 79
carpetas, 80
personalizacion del ambiente, 83

Manual Winidams

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Manual Winidams

Caricato da

Copyright:

Formati disponibili

IDAMS

INDICE GENERAL XIII

INDICE GENERAL XVII

Indice alfabetico. 431

ANDAR FW + DEC ND + DEC *

Iconos de la barra de herramientas

Iconos de la barra de herramientas

Iconos de la barra de herramientas

A de dimensi on (t, t) es calculada en primer lugar. Despues los vectores propios, T ,

A se determinan con el metodo de diagonalizacion de Jacobi.

= subndices para variables

Para el analisis de productos escalares normados, los elementos NSP

46.5. Valores y vectores propios

, calculados por el programa. N otese

h) Coeciente de covariancia. La tasa de covariancia de x

. Estos par ametros son ortogonales.

y y el analogo multivariado de una suma

F = , la matriz diagonal de valores propios de R

Se puede escribir como

Indice de dominaci on absoluta, en forma similar al ndice de coherencia, se dene como un

= n umero total de parejas en orden diferente.

> 15, el programa calcula la aproximacion Z (aproximacion normal de T

se suman formando un nuevo grupo con el nuevo perl

Potrebbero piacerti anche