Estadistica

Mtodos estadsticos
exploratorios y confirmatorios
para anlisis de datos. Un
enfoque biomtrico
UNIVERSIDAD NACIONAL
AUTNOMA DE MXICO
FACULTAD DE ESTUDIOS
SUPERIORES
ZARAGOZA
Mtodos estadsticos exploratorios y
confirmatorios para anlisis de datos. Un
enfoque biomtrico
Prohibida la reproduccin total o parcial de esta obra, por cualquier medio, sin
autorizacin escrita del editor
DERECHOS RESERVADOS (COPYRIGHT) 2013 respecto a la primera edicin
ISBN: 978-607-02-3590-0
IMPRESO EN MXICO PRINTED IN MEXICO
Esta obra se termin de imprimir en septiembre de 2013
Se tiraron 400 ejemplares

Mtodos estadsticos exploratorios y
confirmatorios para anlisis de datos.
Un enfoque biomtrico
Isaas Hazarmabeth Salgado Ugarte
FACULTAD DE ESTUDIOS SUPERIORES

ZARAGOZA
UNIVERSIDAD NACIONAL AUTNOMA DE

MXICO
Esta obra se realiz con apoyo de la UNAM a travs de la DGAPA, PAPIME

PE205407 y la FES Zaragoza
PRLOGO
El libro es un excelente texto que trata temas poco usuales en textos comunes de
estadstica. Sin embargo son temas que dan origen a procedimientos estadsticos
de exploracin de conjuntos de datos que permiten evaluar caractersticas de los
mismos que son difciles de observar a simple vista, y que son tiles en el
proceso mismo de la descripcin del conjunto de datos, as como en su uso
posterior para la inferencia estadstica. Tambin trata algunos procedimientos
ms tradicionales para la inferencia, pero agregando el enfoque robusto o
resistente. Es decir que algunos pocos datos atpicos no influyan demasiado en la
evaluacin global. Esto es importante dado que pueden haber ocurrido errores en
esos datos atpicos o bien que puedan representar incidencias muy poco
frecuentes de factores que influyen en las mediciones y no reflejan al mayor
nmero de casos que ocurren en la muestra; incluso pueden hacer que la
muestra no sea representativa de la poblacin que se estudia. Se obtiene as un
conjunto de tcnicas que pretenden captar las caractersticas esenciales o
relevantes de la muestra y en consecuencia de la poblacin de donde se
obtuvieron. Esta es la orientacin principal y muy valiosa de este libro.
En mtodos descriptivos se presentan con detalle los Diagramas de Tallo y
Hoja, como una excelente alternativa a los tradicionales histogramas. Ligado a
esto se trata una descripcin numrica resistente o robusta que es no tradicional,
del nivel y la dispersin de los datos. Se presentan buenas aplicaciones e
interpretacin de los diagramas de cajas. Hay un tratamiento excelente para el
anlisis de la distribucin de las observaciones por medio de los estimadores de
densidad por kernel.
El tratamiento de las llamadas transformaciones o re-expresin de variables es
muy ilustrativo, contemplado, bajo la idea de robustez o resistencia a los diversos
supuestos de mtodos tradicionales.
Se incluye un excelente tratamiento del ajuste de lneas resistentes, como
regresin robusta. Se extiende el tratamiento a curvas suavizadas, lo que le da
una gran generalidad para la bsqueda de relaciones funcionales entre variables.
Tambin se presentan las tablas codificadas. El tema de pulimiento de medianas,
se puede considerar un anlisis robusto o resistente de datos con doble
clasificacin.
En dos captulos se trata el anlisis simultneo de varias variables o anlisis
multivariado, aun que esto requiere el manejo de algunos conceptos del algebra
matricial, su presentacin es muy fluida y fcilmente interpretable.
Se concluye el libro con sendas introducciones de dos poderosos paquetes para el
anlisis estadstico, Stata y MINITAB.
Definitivamente este libro es una valiosa contribucin al anlisis estadstico de
informacin, con ejemplos del rea biomtrica, pero aplicable tambin a todas las
reas de actividad e investigacin existentes.
Dr. Ignacio Mndez Ramrez, IIMAS, UNAM, diciembre de 2010

PREFACIO
En el ao de 1992 se public mi primera contribucin a la difusin para la

aplicacin de mtodos estadsticos exploratorios a los datos provenientes de la
investigacin biolgica. Desde ese tiempo y con el desarrollo de procedimientos
adicionales a los abarcados en la obra original se hizo necesaria la integracin de
un volumen actualizado. Esto, adems del eventual agotamiento de la primera
edicin, fue el motivo principal para la escritura de la presente obra en la que se
presentan los mtodos exploratorios principales a los que se han adicionado
procedimientos que no fueron contemplados en la obra original, como lo son los
estimadores de densidad por kernel. Asimismo, se han agregado dos captulos:
uno acerca de procedimientos confirmatorios bsicos y otro que hace una
introduccin a la Estadstica Multivariada.
La presente obra est organizada en 14 captulos y dos apndices que

abarcan mtodos para una, dos y ms de dos variables cuantitativas y
cualitativas as como instrucciones para uso de programas de cmputo,
comerciales y propios. En los primeros captulos se abarcan los Diagramas de
Tallo y Hoja, mtodo hbrido entre un histograma y un cuadro de frecuencias, los
Resmenes Resistentes de Nivel y Dispersin como alternativa a los cuadros
estadsticos tradicionales (media y desviacin estndar) los cuales destacan la
existencia de casos extraordinarios y minimizan su influencia cuando ocurren.
La versin grfica de valores derivados de los anteriores resmenes definen a los
Diagramas de Caja y Bigotes, los cuales son muy tiles para la visualizacin de
propiedades tales como nivel, distribucin (aunque de manera muy bsica) y
dispersin. Con ellos es posible identificar valores extraordinarios as como
asimetras y heteroscedasticidad entre varios conjuntos de nmeros,
caractersticas importantes en la especificacin adecuada de los procedimientos
confirmatorios a utilizar para la inferencia estadstica. Se incluye por primera vez
la presentacin de mtodos para analizar la distribucin de los datos por medio
de estimadores de densidad por kernel, los cuales representan una notable
mejora respecto a los tradicionales histogramas. La parte univariada concluye
con el captulo sobre el cambio de escala (transformacin o re-expresin) en la
que se expresan los valores numricos. Este cambio mejora el comportamiento
numrico promoviendo simetra en la distribucin u homogeneizando la
variabilidad de los grupos de datos cuantitativos.
La segunda parte se refiere al proceso de dos variables cuantitativas ya sea
mediante un mtodo de ajuste lineal resistente basado en medianas y cuando se
tienen datos numricos registrados a lo largo de un continuo espacial o temporal,
la suavizacin no lineal resistente, procedimiento de disminucin de ruido
basado tambin en medianas.
Los datos provenientes de la combinacin de una variable cuantitativa con
dos cualitativas pueden ser procesados mediante los mtodos presentados en los
dos siguientes captulos por medio de la codificacin de tablas y el pulido de
mediana, este ltimo, un equivalente resistente al anlisis de varianza de dos
vas de clasificacin.
El anlisis de ms de dos variables cuantitativas nos lleva a mtodos
multivariados, de los cuales, un ejemplo exploratorio se incluye en el uso de los
Diagramas de Escalera o las matrices de grficos bivariados de dispersin.
Los dos captulos siguientes contienen informacin sobre dos temas que no
fueron incluidos en la edicin que sirvi de base para la presente obra:
primeramente se incluyen los clsicos procedimientos y conceptos esenciales
para la definicin de la inferencia estadstica tales como los intervalos de
confianza y las pruebas de hiptesis, acerca de uno y dos parmetros. Adems se
incluye la introduccin a la comparacin de ms de dos grupos por medio del
anlisis de varianza en diseo completamente aleatorio tanto de un factor como
de dos factores (fijos) con interaccin. Algo que quisiera destacar es el ejemplo de
pruebas a posteriori para un anlisis de varianza de dos factores, pruebas que, a
pesar de su sencillez, por lo general no se presentan en las obras bsicas de
estadstica. En segundo lugar se ha incluido una introduccin a los mtodos
multivariados con los casos ms sencillos de la extensin de los mtodos
univariados a los multivariables para uno y dos parmetros (vector de medias)
incluyendo una prueba para verificar la homoscedasticidad en el mbito de
mltiples variables.
Como en la versin anterior se han incluido dos captulos con la manera
bsica para el manejo de dos paquetes comerciales computarizados de anlisis
estadstico: Stata y MINITAB.
Finalmente se anexan dos apndices: el primero con algunos de los
comandos de Stata empleados para realizar las grficas y tablas de varios
captulos de esta obra y el segundo con un tutorial bsico para el software
original escrito como parte de esta obra, el AED2010.
Deseo que la presente obra sea una contribucin que promueva el uso
correcto de los mtodos estadsticos para el entendimiento de los fenmenos
biolgicos y me responsabilizo por imprecisiones que pudiera contener. Mucho
agradecer se me notifique para su correccin en posteriores versiones.
Isaas Hazarmabeth Salgado Ugarte, FES Zaragoza, UNAM, diciembre de 2010

CONTENIDO
Pag.
Introduccin................................................................................. 001
Captulo 1 Diagramas de Tallo y Hoja.......................................... 007
1.1 El desplegado bsico.......................................................... 008
1.2 Nmero de lneas................................................................ 011
1.3 Algunas variaciones............................................................ 012
1.4 Resistencia......................................................................... 017
1.5 Consideraciones adicionales............................................... 017
Captulo 2 Resumenes numricos de nivel y dispersin............... 019
2.1 Ordenacin, jerarquizacin, nivel y localizacin.................. 019
2.2 Valores de letras adicionales............................................... 021
2.3 Otras medidas resistentes de nivel...................................... 022
2.4 Medidas resistentes de dispersin....................................... 024
Captulo 3 Diagramas de caja...................................................... 029
3.1 Diagramas de caja para un lote de datos............................ 030
3.2 Comparacin de lotes de datos........................................... 034
3.3 El grfico de dispersin-nivel y la transformacin............... 037
3.4 Limitaciones de los diagramas de caja................................ 042
Captulo 4 Distribucin de lotes de nmeros............................... 047
4.1 Diagramas univariados de dispersin y de puntos.............. 048
4.2 Histogramas....................................................................... 049
4.3 Nmero o amplitud de intervalos........................................ 050
4.4 Estimadores de densidad por kernel................................... 052
4.5 Reglas prcticas para determinar amplitud de banda.......... 054
4.6 Ejemplos............................................................................ 056
Canguros............................................................................ 056
Duracin de erupciones de gyser Old Faithful.................. 057
Longitud de bagres.............................................................. 059
4.7 Estimadores de densidad por kernel con amplitud de
banda variable..................................................................... 061
4.8 Diagramas de violn............................................................ 062
Captulo 5 Re-expresin de los datos........................................... 065
5.1 Transformacin potencial................................................... 066
5.2 Razones para transformar.................................................. 068
Re-expresin para facilitar la interpretacin.......................... 068
5.3 Transformacin para promover simetra............................. 069
5.4 Re-expresin para otras estructuras en los datos................ 074
Re-expresin para estabilizar la dispersin............................ 075
Re-expresin para promover linearidad.................................. 075
Re-expresin para simplificar la estructura........................... 082
5.5 Transformaciones emparejadas.......................................... 082
5.6 Comentarios adicionales..................................................... 085
Captulo 6 Lnea resistente.......................................................... 087
6.1 Pendiente e intercepto........................................................ 087
6.2 Puntos resumen................................................................. 088
6.3 Estimacin de la pendiente y el intercepto.......................... 090
6.4 Residuos............................................................................ 091
6.5 Pulido del ajuste (iteracin)................................................. 092
6.6 Ejemplo: Radio del otolito contra longitud total................... 093
6.7 Casos extraordinarios (Outliers).......................................... 097
6.8 Lnea resistente, regresin por mnimos cuadrados
y regresin robusta................................................................... 099
6.9 Comentarios adicionales..................................................... 101
Captulo 7 Suavizacin no lineal resistente.................................. 103
7.1 Introduccin....................................................................... 103
Mtodos tradicionales de suavizacin.................................... 104
Medianas corredizas.............................................................. 105
7.2 Definiciones bsicas........................................................... 107
7.3 Ejemplo 1: Nmero de manchas solares.............................. 108
7.4 Suavizadores elementales................................................... 109
7.5 Definiciones adicionales y notacin..................................... 112
7.6 Suavizacin de valores terminales....................................... 114
7.7 Suavizadores compuestos................................................... 115
7.8 Ejemplo 2: Capturas de peces en el tiempo......................... 123
7.9 Diagnstico de la no-estacionaridad.................................... 126
Captulo 8 Tablas codificadas....................................................... 131
8.1 Desplegado de tablas.......................................................... 133
8.2 Recomendaciones para el uso de tablas codificadas............ 134
8.3 Tablas codificadas y diagramas de cajas............................. 137
8.4 Detalles y alternativas........................................................ 138
Captulo 9 Pulido de mediana...................................................... 141
9.1 Tablas de dos vas con tres variables.................................. 141
9.2 Modelo aditivo para tablas de dos vas
(tres variables)...................................................................... 143
9.3 Pulido de mediana......................................... ..................... 144
9.4 Residuos y aditividad.......................................................... 148
Captulo 10 Un mtodo exploratorio multidimensional................. 157
Captulo 11 Algunos procedimientos confirmatorios.................... 165
11.1 Intervalos de confianza y pruebas de hiptesis.................... 166
11.2 Tipos de error estadstico.................................................... 169
11.3 Estimacin y pruebas acerca de una media poblacional..... 170
11.4 Estimacin y comparacin de dos
parmetros (varianzas y medias)............................................... 172
11.5 Anlisis de varianza de un factor
(diseo completamente al azar)................................................... 180
11.6 Anlisis de varianza de dos factores con interaccin........... 184
Captulo 12 Breve introduccin a los mtodos multivariados .... 191
12.1 Extensiones multivariadas de estadstica elemental.......... 194
12.2 Ejemplo: contenido de Si, Al, Fe y Mg en rocas
Lunares............................................................................... 196
12.3 Comparacin multivariada de dos muestras..................... 198
12.4 Comparacin de dos matrices de covarianza..................... 201
Captulo 13 Introduccin a Stata................................................. 207
13.1 Entrada a Stata................................................................ 207
13.2 Introduccin y edicin de datos........................................ 208
13.3 Estadstica descriptiva univariada.................................... 212
13.4 Anlisis grfico de datos................................................... 214
13.5 Procedimientos exploratorios complementarios
en Stata.............................................................................. 221
Captulo 14 Introduccin al MINITAB.......................................... 225
14.1 Introduccin, edicin y desplegado de datos..................... 227
14.2 Informacin adicional sobre MINITAB............................... 230
14.3 Graficacin de datos......................................................... 234
14.4 Otros comandos bsicos importantes................................ 237
14.5 Comandos para el anlisis exploratorio de datos............... 239
a) Diagramas de puntos......................................................... 239
b) Diagramas de tallo y hoja.................................................. 241
c) Estadgrafos bsicos.......................................................... 242
d) Resmenes de letras.......................................................... 243
e) Diagramas de caja............................................................. 244
f) Lnea resistente.................................................................. 247
g) Suavizacin no lineal resistente......................................... 248
h) Tablas codificadas............................................................. 249
i) Pulido de mediana.............................................................. 250
Bibliografa................................................................................. 253
Apndices
A1.- Comandos Stata................................................................ 261
A2.- GuA para el programa AED2010 .................................... 291
Introduccin
En las investigaciones biolgicas (como en las de otras disciplinas) se obtiene una
gran cantidad de informacin. Por ejemplo, dentro de los aspectos importantes
para una correcta evaluacin y administracin de los recursos pesqueros, se
encuentra el estudio de las poblaciones de peces. En los trabajos de investigacin
que se llevan a cabo para tal fin se produce un gran nmero de datos cualitativos
y cuantitativos. La Figura I.1 reproduce la pgina de una libreta con anotaciones
sobre dimensiones corporales y otras caractersticas biolgicas de una especie de
pez. Es comn que resulten folios y folios con tales datos. La pregunta que surge
cuando se revisa el cuaderno de notas es:
CUL ES EL MENSAJE DE TODOS ESTOS NMEROS Y LETRAS?
El desarrollo reciente de una serie de mtodos incluidos en la disciplina

estadstica denominada Anlisis Exploratorio de Datos (AED) ha permitido
abordar con un enfoque diferente la informacin producto de la investigacin
cientfica que hace posible el contestar a la pregunta anterior. Estos mtodos, en
principio se deben al esfuerzo de John W. Tukey, quien en su obra "Exploratory
Data Analysis" y en otras numerosas contribuciones ha expuesto una filosofa
prctica de anlisis que minimiza suposiciones a priori y permite que los datos
mismos sirvan de gua en la eleccin de los modelos apropiados. Su labor ha sido
continuada y desarrollada por discpulos y colaboradores cuyas obras definen
actualmente a esta innovadora rama de la Estadstica (Hartwig y Dearing, 1979;
Velleman y Hoaglin, 1981; Hoaglin et al., 1983 y 1985; Chambers, et al., 1983;
Curts, 1986; Curts et al.,1987; Siegel, 1988; Marsh, 1988). Una contribucin
ms reciente es la obra de Quinn y Keough (2002) quienes dedican un captulo
completo a la exploracin grfica de los datos en el cual destacan la deteccin de
errores en la captura, la deteccin de patrones, el reconocimiento del
cumplimiento o no de las suposiciones de mtodos estadsticos confirmatorios
(principalmente gaussianidad y homoscedasticidad) y el reconocimiento de
valores extraordinarios. El AED proporciona al analista de datos una serie de
tcnicas flexibles para explorar los valores numricos y centrar la atencin en
sus caractersticas prominentes por medio de novedosos resmenes numricos y
grficos antes de compararlos con algn modelo probabilstico.
Una vez que se dispone de los datos, la exploracin de los mismos debe ser
la primera etapa en su proceso; los mtodos del AED permiten reconocer su
estructura. Existe un buen nmero de formas interesantes de arreglar y analizar
a los datos para producir desplegados grficos en los cuales es posible observar
las tendencias y los valores inesperados. Otra forma de explorar la informacin
es a travs del examen de resmenes numricos, lo cual es necesario cuando se
requiere estudiar una gran cantidad de valores y es difcil revisar en detalle a
cada uno (Siegel, 1988). Un buen analista siempre examina con detalle a los
Introduccin 2
datos antes de reportar resmenes estadsticos y conclusiones derivadas de

pruebas de hiptesis.
De acuerdo a Siegel (1988) puede afirmarse que el objetivo del AED es la

separacin e identificacin de todos los componentes interesantes e importantes
de los datos de la parte aleatoria, que se origina, por ejemplo, de los errores de
medicin.
Los mtodos estadsticos tradicionales (confirmatorios) a menudo requieren

del cumplimiento de suposiciones rigurosas para su aplicacin. Sin embargo, la
experiencia al trabajar con los datos reales y estudios adicionales muestran que
las observaciones pocas veces se ajustan a tales supuestos. El comportamiento
de los mtodos clsicos es inadecuado en estas circunstancias, por lo que los
procedimientos resistentes y robustos de reciente desarrollo amplan la
efectividad del anlisis estadstico (Hoaglin, et al., 1983).
Los mtodos robustos y resistentes son aplicables en una amplia gama de

situaciones. A diferencia de los mtodos no-paramtricos (de distribucin libre)
que tratan a todas las distribuciones por igual, los procedimientos robustos y
resistentes discriminan entre aquellas que son ms o menos plausibles. Por esto,
un ciclo del empleo alternante de tcnicas exploratorias y confirmatorias, ya sea
en cuerpos pequeos sucesivos de datos o en uno slo, es muy recomendable
(Hoaglin, et al., 1983).
En el anlisis exploratorio de datos aparecen cuatro temas: Resistencia,

Residuos, Re-expresin y Revelacin (Hoaglin, et al., 1983). Debido a sus iniciales,
estos cuatro temas son las cuatro Rs del AED y representan los enfoques propios
que distinguen al Anlisis Exploratorio de Datos (AED) del Anlisis Confirmatorio
de Datos (ACD) y de la estadstica inferencial tradicional (Deleon y Anagnoson,
1991).
La Resistencia, se refiere a la insensibilidad hacia comportamientos

anmalos localizados de los datos. En la recopilacin y procesamiento de la
informacin es posible la ocurrencia de equivocaciones, an cuando se efecta
un manejo cuidadoso. Por esto es necesario saber que uno o dos errores en un
conjunto de cientos de observaciones no afectarn significativamente las
conclusiones que de ellos se infieran (Siegel, 1988). Los mtodos resistentes
producen resultados que cambian muy poco cuando una parte pequea de los
datos es reemplazada por nmeros nuevos que pueden ser muy diferentes de los
originales. Un valor extrao que destaca porque es muy distinto de los dems se
conoce como caso extraordinario. Es posible que una equivocacin resulte en un
caso extraordinario, sin embargo, no todos los casos extraordinarios son
equivocaciones. Estos pueden pertenecer a valores pertenecientes a una
categora aparte y por esto no se comportan como el resto de los datos (Siegel,
1988).
Introduccin 3
Figura I.1. Hoja de trabajo con los mediciones biomtricas y biolgicas del
pez suzuki (Lateolabrax japonicus) de la captura comercial efectuada en
la Baha de Tokio.
Introduccin 4
Los mtodos resistentes hacen ms fcil la identificacin de los casos

extraordinarios, los cuales merecen un tratamiento por separado. Tales mtodos
centran su atencin sobre el cuerpo principal de los datos y ponen muy poca en
valores marcadamente diferentes a los dems. La mediana es un estadstico
resistente mientras que la media muestral no lo es (Hoaglin, et al., 1983; Siegel,
1988). La resistencia es una de las mayores ventajas de las tcnicas de AED en
comparacin con el ACD (Deleon y Anagnoson, 1991). Los casos extraordinarios
producen distorsiones significativas en los mtodos confirmatorios tradicionales.
Los Residuos son los valores resultado de la substraccin de un modelo

ajustado a los datos de acuerdo a la ecuacin esquemtica:
residuos = datos ajuste
En el mbito exploratorio ningn anlisis de un conjunto de datos est

completo sin haber examinado cuidadosamente a los residuos. Debido a que los
procedimientos resistentes separan claramente el comportamiento de la mayora
del comportamiento poco usual, los residuos resistentes contienen, adems de
las fluctuaciones aleatorias, cualquier desviacin drstica de un patrn
consistente. Los estimadores resistentes por tanto hacen fcil la deteccin de
valores extraos y la evaluacin correcta de su magnitud. En contraste, los
residuos producidos por estimadores no-resistentes enmascaran a los casos
extraordinarios (Deleon y Anagnoson, 1991). Residuos con valores
extraordinarios conducen a la verificacin de los detalles de la toma y manejo de
de las observaciones. Como en la prctica tradicional, los residuos analizados y
desplegados apropiadamente pueden advertir aspectos sistemticos
importantes del comportamiento de los datos que requieren una especial
atencin tales como curvatura, no-aditividad y variabilidad inconstante (Hoaglin,
et al., 1983).
La Re-expresin se refiere a la transformacin de las variables a una escala

diferente de medicin (logartmica, raz cuadrada, etc.) que simplifica el anlisis
de los datos. Durante la exploracin de los datos se puede descubrir si la escala
original es satisfactoria o no. En este caso, la re-expresin promueve la
manifestacin de caractersticas deseables en los datos, tales como simetra,
variabilidad constante, linearidad en la relacin o aditividad de efectos,
dependiendo de la estructura de los datos.
Algunos investigadores pueden sentirse incmodos al abandonar la escala

de medicin original. Despus de todo, no compramos filetes de pescado con
logaritmos de pesos, sino con pesos verdaderos. Sin embargo esta renuencia no
resiste al examen. En numerosas ocasiones la escala re-expresada tiene sentido
prctico. De esta forma el recproco de gramos de ganancia de peso por da
representa la cantidad necesaria de das para incrementar el peso en un gramo.
An cuando la transformacin no tenga un sentido intuitivo es a menudo
Introduccin 5
necesaria desde un punto de vista estadstico si se desea modelar la estructura

que existe en los datos (Deleon y Anagnoson, 1991).
Otros piensan incluso que "transformacin" es una bonita palabra utilizada

como sinnimo de "engao". Aqu conviene citar la siguiente afirmacin de Siegel
(1988): la re-expresin es una herramienta sin sentido intrnseco de "bondad" o
"maldad", sin embargo como cualquier herramienta puede ser utilizada para bien
o para mal. Ciertamente no es tico engaar, por lo que las transformaciones no
deben utilizarse para este fin.
Es verdad que los fsicos algunas veces tienen una slida base terica para
decidir trabajar con voltios o voltios cuadrados. Sin embargo, cuando no existe
esta base terica que oriente sobre la eleccin, la escala original de medicin no
tiene preferencia. Por lo tanto la respuesta del hgado de un animal a un
tratamiento puede no estar ms naturalmente reflejado en p (el peso), que en el
logaritmo de p o en la raz cuadrada de p, al menos mientras se avanza en la
comprensin cuantitativa de los fenmenos asociados (Hoaglin et al., 1983).
La Revelacin permite la observacin directa del comportamiento de los

datos, del ajuste, de las medidas de diagnstico y de los residuos por medio de
diagramas o desplegados grficos haciendo posible el reconocimiento de
caractersticas inesperadas y regularidades conocidas o esperadas. El empleo de
desplegados visuales, que incluyen numerosas tcnicas grficas nuevas es una
de las mayores contribuciones del anlisis exploratorio (Hoaglin et al., 1983) que
ha inspirado el desarrollo de paquetes grficos computarizados para el anlisis
estadstico de datos (Deleon y Anagnoson, 1991).
Por otro lado las tcnicas resistentes y robustas involucran la iteracin en

mayor grado que los procedimientos tradicionales. Por lo tanto en lugar del
clculo de la solucin en un slo paso, a menudo se considera un valor inicial
que se va puliendo sucesivamente, acercndonos paulatinamente a la respuesta
final. Esta iteracin puede considerarse como parte del precio de la resistencia o
robustez; los mtodos que proporcionan un ajuste o estimacin sin iteracin
pueden no ser resistentes ni robustos. Afortunadamente los procedimientos
iterativos por lo general son sencillos y rara vez requieren de numerosos pasos
(Hoaglin, et al. 1983) y aunque la iteracin involucre numerosos pasos, la
disponibilidad de computadores personales y paquetes comerciales que incluyen
los procedimientos exploratorios permiten superar la barrera que representa la
realizacin de clculos repetitivos y con esto aumentar la eficiencia del anlisis al
concentrar la atencin en los resultados.
Captulo 1. Diagramas de tallo y hoja
El conjunto de datos ms simple esta dado por un slo grupo de nmeros, el cual
se caracteriza como una lista de valores medidos en las mismas unidades (Siegel,
1988). La sola observacin de estos nmeros no basta para reconocer sus
caractersticas fundamentales, entre las que podemos citar:
- El nivel
- La dispersin
- La distribucin de los valores
- Los casos extraordinarios
El nivel expresa donde se concentran las observaciones dentro del intervalo

de la escala numrica en que los datos existen. La dispersin se refiere a
semejanza de los valores entre s o respecto a un valor de referencia (como la
media). Indica el grado de variacin en los valores de los datos. Como su nombre
lo indica, la distribucin se refiere al modo de reparto de los valores en el
intervalo donde ocurren. El diagrama de tallo y hoja permite organizar grfica y
numricamente a los valores para conseguir una inspeccin visual detallada de
su distribucin (Emerson y Hoaglin, 1983a; Marsh, 1988); la forma de dicha
distribucin puede ser aplanada (platicrtica) o aguzada (leptocrtica), con
huecos o varias concentraciones (multimodal), simtrica o sesgada (positiva o
negativamente). Los casos extraordinarios hacen referencia a las observaciones
que son notablemente diferentes de la mayora. El diagrama de tallo y hoja
permite distinguir observaciones muy diferentes del resto de los datos (es decir,
los casos extraordinarios). El desplegado de tallo y hoja representa una tcnica
exploratoria sencilla pero verstil que ha probado ser til en la comparacin de
lotes de datos y en el examen de residuos.
Siegel (1988), considera al diagrama de tallo y hoja como una variante del
histograma. Sin embargo, el utilizar los dgitos de los datos en vez de considerar
un intervalo de valores que los abarque puede ser ms ventajoso al permitir
recuperar de manera precisa cada dato individual. Mediante este diagrama
resulta fcil ordenar a los valores y encontrar resmenes numricos basados en
el lote ordenado como la mediana y los cuartos. Adems, debido a la sencillez de
su construccin, es posible realizarlo "a mano" con papel y lpiz. Una ventaja
adicional al poder visualizar a los valores dentro de cada intervalo es la
identificacin de patrones: se puede reconocer, por ejemplo, que el investigador
anot las observaciones como mltiplos de algn nmero.
1.1 El desplegado bsico
El diagrama de tallo y hoja (Tukey, 1970, 1972), representa una tcnica flexible y
efectiva al comienzo del examen de un lote o muestra de datos. Su nombre deriva
del hecho de que se fundamenta en la particin de los dgitos en dos
componentes: tallos y hojas. El desplegado se construye colocando una hoja para
cada valor de los datos en el nivel apropiado de los tallos de esta planta
esquemtica (Marsh, 1988). Los dgitos ms significativos de los valores de los
datos hacen la mayor parte del trabajo en el ordenamiento del lote y su
desplegado.
Para explicar el diagrama y la manera de su construccin se empezar con

un ejemplo. En la Tabla 1.1 se incluyen algunos datos de la anchura mandibular
(mm) del canguro Macropus fuliginosus reportados en Andrews y Herzberg (1985).
Se considerarn los datos de amplitud mandibular de las hembras. Los datos
corresponden a diversas medidas craneales que se tomaron con el fin de
identificar la especie de tres canguros de los 19 capturados en la Isla Canguro
que sobrevivieron el largo viaje en un barco de investigacin francs y llegaron a
Francia en 1803.
El primer paso para la construccin de este diagrama es la eleccin de un

par conveniente de dgitos adyacentes a partir de los cuales se dividen los valores
considerando el intervalo total, es decir determinar los tallos y las hojas. Para
realizar una eleccin adecuada pueden ensayarse varias divisiones. Para las
hembras, considerando el valor menor de 108 y el mayor de 174 se podra partir
a los nmeros entre las centenas y las decenas. Sin embargo, si se realiza lo
anterior tan slo se obtendra un tallo (1) en los cuales tendran que acomodarse
todas las hojas, por lo que el diagrama resultante estara demasiado "apretado".
Es posible entonces, probar dividir entre decenas y unidades para obtener tallos
que en este caso van de 10 hasta 17, lo cual representa un total de 8 tallos en los
cuales se distribuirn los valores de las hojas. Esta eleccin parece ms
conveniente por lo que se procede a la particin de cada valor entre las decenas y
unidades. Para el valor ms alto se tendr:
valor del dato particin tallo y hoja
174 17 | 4 17 y 4
De esta forma las centenas y decenas sern los dgitos gua ("tallos") y las
unidades representarn las "hojas". Los tallos se separan de las hojas por medio
de una lnea a todo lo largo del intervalo de valores (en nuestro ejemplo los tallos
van de 10 a 17) y cada valor de las hojas (unidades) se escribe en el rengln del
tallo (centenas y decenas) que corresponda (Tabla 1.2).
8
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Tabla 1.1. Datos de

anchura mandibular (mm)
de Macropus fuliginosus.
Nmero Hembras Machos
1 130 133
2 133 147
3 131 151
4 132 146
5 130 160
6 135 144
7 127 151
8 108 156
9 129 146
10 139 154
11 143 166
12 174 147
13 140 159
14 141 149
15 148 159
16 134 157
17 142 166
18 150 159
19 157 167
20 150 158
21 148 169
22 141 158
23 158 161
24 153 154
25 153 156
El diagrama terminado incluye una indicacin de la escala utilizada as

como una columna de profundidades a la izquierda de los tallos. La profundidad
de un dato es un concepto asociado a la ordenacin de los mismos. Los valores
originales se ordenan en forma creciente y a estos se les puede asignar un valor
de orden (rango). Este valor de orden puede ir de menor a mayor o de mayor a
menor. As el dato que hemos utilizado de 174 mm (el mayor de la lista) tiene dos
valores de orden: 25 (el ltimo en orden creciente) y 1 (el primero en orden
decreciente). La profundidad se define como el valor del menor de dichos valores
de orden (creciente y decreciente). Por lo tanto la profundidad del dato 174 es 1.
El nmero de profundidad escrito a la izquierda de cada tallo representa la
profundidad mxima asociada con los valores de esa lnea (Emerson y Hoaglin,
1983a).
9
Tabla 1.2 Diagrama de tallo y hoja para los datos de anchura mandibular (mm)
del canguro Macropus fuliginosus (hembras)
N = 25 Unidad de hoja = 1.0

10|8 representa 108
Profundidad
1 10|8
1 11|
3 12|79
11 13|00123459
(7) 14|0112388
7 15|003378
1 16|
1 17|4
La "lnea central" incluye a la mediana y el valor entre parntesis que se

escribe en la columna de las profundidades es el nmero de datos (hojas)
incluidos en ese tallo. Cuando el tamao del lote es par y la mediana se
encuentra entre lneas no hay necesidad de incluir este valor.
Si los valores originales de los datos no han sido ordenados, el diagrama

inicial no tendr sus hojas en orden creciente. Como una opcin, en el
desplegado final se pueden entonces ordenar las hojas. Esto sucede
automticamente cuando el desplegado es producido por una computadora
(Velleman y Hoaglin, 1981).
En su apariencia global el desplegado semeja un histograma con una

amplitud de intervalo de 10 mm; las hojas agregan detalles numricos, y en este
caso preservan toda la informacin de los datos.
En diagrama de la Tabla 1.2 se aprecia que la mayor parte de las anchuras

mandibulares en la muestra tienen entre 130 y 140 mm de longitud; una
distribucin aproximadamente simtrica con una sola moda de longitudes
(distribucin unimodal). Los valores extremos (altos y bajos) estn separados del
resto por lneas sin representantes lo que sugiere la existencia de posibles casos
extraordinarios.
10
1.2 Nmero de lneas
El nmero de lneas en un DTH es equivalente al nmero de intervalos en un

histograma. Si se eligen unos pocos tallos, el resultado es demasiado simple. Si
se eligen muchos, el resultado es muy variable. Una eleccin efectiva del nmero
de lneas en un diagrama de tallo y hoja requiere la consideracin del nmero de
datos en el lote y del intervalo que cubren. Para estimar el nmero mximo de
lneas se considerar la siguiente expresin:
L = [10 * log10 n] (1.1)
donde n es el nmero de datos y los parntesis cuadrados indican el valor entero

de su contenido. Esta regla proporciona valores de L que producen desplegados
efectivos dentro del intervalo 20 < n < 300. Velleman (1976) recomienda para
valores de n < 50 la expresin siguiente:
L = n1/2 (1.2)
Por lo general no es muy cmodo obtener el diagrama de tallo y hoja de lotes de

datos con ms de 300 valores, sin embargo, la regla de la expresin (1.1) sigue
dando valores razonables en estos casos, y tiene por tanto un mejor balance
(Geiger, 1991).
Al usar el valor de L como el lmite aproximado del nmero de lneas en el

diagrama, se debe determinar el intervalo de valores que corresponden a cada
lnea. La manera ms simple de hacer esto hace uso de una potencia de 10 como
la amplitud del intervalo. Para esto se divide R (el recorrido del lote) entre L y se
redondea el cociente hasta la potencia de 10 ms cercana. Aplicando lo anterior
para el ejemplo analizado arriba tenemos que n = 25 y R = 174 - 108 = 66.
Substituyendo en (1.1):
L = [10 * log10 25] = 13.97 14;
este resultado sugiere un ancho de intervalo de 66/14 = 4.71 5. El nmero de

14 tallos es cerca del doble del nmero elegido arriba (8). Si se ampla el nmero
de lneas se obtendra un poco ms de detalle en la reparticin de valores. La
forma de realizar esto se ver en la siguiente seccin.
11
1.3 Algunas variaciones
El nmero de tallos puede incrementarse para proporcionar ms detalle o

reducirse para reducir variaciones aleatorias. Para el caso anterior, podemos
duplicar el nmero de tallos si cada lnea que recibe hojas de 0 a 9 se divide en
dos. La primera incluyendo a las hojas de 0 a 4, sealada con un * (asterisco) y la
segunda de 5 a 9, indicada por un (punto).
del canguro Macropus fuliginosus (hembras), variacin asterisco punto.

10 |8 representa 108
Profundidad
1 10 |8
1 11* |
1 11 |
1 12* |
3 12 |79
9 13* |001234
11 13 |59
(5) 14* |01123
9 14 |88
7 15* |0033
3 15 |78
1 16* |
1 16 |
1 17* |4
Este desplegado (Tabla 1.3) utiliza 14 lneas con una amplitud de intervalo de 5,
valor que es la mitad de la primera potencia de 10.
No es la nica manera de aumentar el nmero de tallos. Pudiera utilizarse

la notacin *tfs para obtener diagramas que incluyen 5 lneas por tallo:
12
del canguro Macropus fuliginosus (hembras), variacin de 5 lneas por tallo
N = 25 Unidad de hojas = 1.0

10 |8 representa 108
Profundidad
1 10 |8
1 11* |
1 11t |
1 11f |
1 11s |
1 11 |
1 12* |
1 12t |
1 12f |
2 12s |7
3 12 |9
6 13* |001
8 13t |23
10 13f |45
10 13s |
11 13 |9
(3) 14* |011
11 14t |23
9 14f |
9 14s |
9 14 |88
7 15* |00
5 15t |33
3 15f |
3 15s |7
2 15 |8
1 16* |
1 16t |
1 16f |
1 16s |
1 16 |
1 17* |
1 17t |
1 17f |4
13
con las hojas 0 y 1 en la lnea *, 2 y 3 en la lnea t (de las iniciales de estos

nmeros en ingls, "two" y "three"), 4 y 5 en la lnea f ("four" y "five"), 6 y 7 en la
lnea s ("six" y "seven") y finalmente 8 y 9 en la lnea . En esta variante la
amplitud del intervalo es la quinta parte de 10 o 2 veces la potencia de 10 a la
potencia de cero (Chambers, et al., 1983). Cabe destacar que el aumentar el
nmero de lneas hace evidentes los efectos de la aleatoriedad de las
observaciones (Siegel, 1988). Resulta obvio que este nmero de lneas (34) es
muy grande ya que el nmero de datos es menor (25). En este caso podemos
afirmar que estamos destacando las variaciones aleatorias ms que la
distribucin de los datos (Tabla 1.4).
La mxima expansin del diagrama de tallo y hoja (en el sistema decimal)

sera el utilizar una lnea por cada dgito de las hojas (del 0 al 9).
Se han desarrollado otras variaciones para la comparacin simultnea de

dos o ms lotes de datos como los diagramas de tallo y hoja "en espejo" ("back to
back" en ingls), que permiten la comparacin de dos grupos (Curts, 1986), o los
diagramas en paralelo para la comparacin de dos o ms lotes (Emerson y Wong,
1985).
Tabla 1.4 Diagramas de tallo y hoja en espejo por sexos para los datos de
anchura mandibular del canguro Macropus fuliginosus

10|8 representa 108
Profundidad Machos Hembras Profundidad

0 |10| 8 1
0 |11| 1
0 |12| 79 3
1 3 |13| 00123459 11
7 988774 |14| 0112388 (7)
(12) 999887664411 |15| 003378 7
6 976610 |16| 1
0 |17| 4 1
En las tablas 1.4 y 1.5 se aplican estas variantes a los datos de anchura
mandibular de canguros. Se comparan los valores de machos y hembras. Puede
notarse que el nivel (lugar de concentracin) de los valores de los machos es
14
mayor que el de las hembras (en general los machos tienen mandbulas ms
anchas que las hembras), si bien, existi en la muestra una hembra con ancho
mandibular muy grande (174) como para ser el valor mayor de todos los
individuos.
Desde hace muchos aos, en las lneas de metro y ferrocarril de Japn, el

horario de salida de los trenes para cada direccin (hacia el centro desde el
centro) ha utilizado equivalentes del diagrama de tallo y hoja en espejo. En ellos,
el tallo central representa la hora y las hojas son los minutos. En la Figura 1.1 se
incluye un ejemplo. Este cuadro indica la hora de salida de trenes en la estacin
Nezu de la lnea Chiyoda de Tokio hacia el centro y hasta terminal Yoyogiuehara-
Honatsugi y desde el centro hasta terminal Ayase-Abiko-Toride. Puede apreciarse
claramente la naturaleza bimodal del nmero de salidas de trenes con modas
principales en horas pico de la maana (de 7 a 9 horas) y otras menos
pronunciadas a las horas de regreso en la tarde (de 16 a 20 horas).
Figura 1.1 Horario de salida de los trenes hacia el centro (izquierda) y desde el
centro (derecha) de la estacin Nezu (cerca de la Universidad de Tokio) lnea
Chiyoda.
15
Tabla 1.5 Diagramas de tallo y hoja en paralelo por sexos para los datos de
anchura mandibular del canguro Macropus fuliginosus

10|8 representa 108
Machos Hembras
0 10| 1 10|8
0 11| 1 11|
0 12| 3 12|79
1 13|3 11 13|00123459
7 14|466779 (7) 14|0112388
(12) 15|114466788999 7 15|003378
6 16|016679 1 16|
0 17| 1 17|4
El diagrama de tallo y hoja puede escribirse en forma horizontal. As, para

los datos de longitud craneal se tendra la siguiente versin horizontal:
9
5 8
4 8 8
3 3 7
2 2 3
1 1 3
0 1 0
8 7 0 0 0 4
10 11 12 13 14 15 16 17
De acuerdo a Siegel (1988), la ventaja de esta variante es que los valores se

disponen como en el tradicional histograma, mientras que la versin original
requiere de alguna rotacin, ya sea de la hoja de papel o bien en la mente (una
especie de gimnasia geomtrica) para lograr la semejanza.
16
1.4 Resistencia
Los procedimientos exploratorios involucran la resistencia. Los valores

extraordinarios se localizan al inicio final de la secuencia ordenada de los datos.
Por tanto, parece razonable no basarse en estas observaciones de un grupo de
nmeros para establecer la escala (valor de los tallos y el nmero de lneas) del
diagrama de tallo y hoja. Esta escala deber estar definida por la mayora de los
datos, ignorando a los valores extraordinarios. Existen reglas definidas para
distinguir a los "casos aberrantes" que se definirn en el captulo sobre
resmenes numricos de nivel y dispersin. En el diagrama de tallo y hoja estos
valores atpicos se listan en lneas rotuladas como "bajo" y "alto" aparte del
conjunto de tallos. Los dgitos se escriben sin particin y separados por comas
(Emerson y Hoaglin, 1983a).
1.5 Consideraciones adicionales
Entre algunas recomendaciones para el empleo de los diagramas de tallo y hoja

puede mencionarse que frecuentemente es necesario cambiar las unidades de
medida multiplicando por alguna potencia de 10 y el truncar los datos (esto es
ignorar algunos dgitos hacia la derecha) para tener valores adecuados. Algunas
veces resulta til transformar los datos, por ejemplo aplicando logaritmos.
Adems las reglas para la construccin del diagrama pueden modificarse si se
encuentra que alguna variacin produce un mejor desplegado para cierto lote
particular de datos. De esta forma, cada hoja puede contener dos dgitos
separados por una coma en lugar de uno (por lo tanto una fila cuyos valores son
5|21,36,97 representa los valores 521, 536 y 597.
El diagrama de tallo y hoja es particularmente til cuando es importante

considerar tanto los valores numricos como la informacin grfica acerca de la
distribucin de los datos, por ejemplo en reportes y artculos en los cuales los
datos se presentan y analizan (Chambers, et al., 1983).
En el estudio de datos biolgicos los diagramas de tallo y hoja pueden

utilizarse para el anlisis preliminar de cualquier tipo de medida biomtrica. Se
han recomendado para la anotacin de los valores de longitud de las muestras
provenientes de la captura comercial de especies pesqueras por ser un mtodo
que permite el conservar cada dato individual con un nmero menor de dgitos y
porque hace posible un anlisis inicial de los datos (Hoenig, et al., 1987).
17
En algunos casos este diagrama puede tener un mejor desempeo que el

tradicional histograma en el anlisis de la frecuencia de tallas. Una aplicacin a
la comparacin de las dimensiones de otolitos se encuentra en Salgado-Ugarte
(1990 y 1991).
18
Captulo 2. Resmenes resistentes de
nivel y dispersin
Los resmenes estadsticos clsicos para un lote de datos constituido por n
observaciones incluyen una medida de nivel y otra de dispersin. Estos valores
son la media aritmtica (o promedio) y la varianza respectivamente. La media y la
varianza no son las nicas medidas de nivel y dispersin. En ocasiones (por
ejemplo cuando existen casos extraordinarios), en la fase exploratoria de los
datos resulta conveniente el considerar otros resmenes numricos que se basen
en el conteo y orden de las observaciones. Estos resmenes, entre otras ventajas,
son resistentes a diferencia de la media y varianza, las cuales son afectadas por
un slo valor extraordinario.
Los "resmenes de letras" estn basados en valores provenientes del lote de

datos una vez que se han ordenado. Estos valores son rotulados con letras como
la M (para la mediana) y la F (del ingls "Fourths" para los "cuartos", el nombre
resistente de los cuartiles). Los valores asociados a estas letras pueden utilizarse
para definir medidas de localizacin resistentes y la dispersin del lote. Tambin
son tiles en la bsqueda de casos extraordinarios. Asimismo, representan de
manera econmica a un lote de datos de tal forma que la mayor parte de las
observaciones puede ser recuperada aproximadamente (Hoaglin, 1983).
2.1 Ordenacin, jerarquizacin, nivel y localizacin
El primer paso en la construccin de un resumen de letras es la ordenacin

ascendente del lote de datos y la asignacin de un valor de orden para cada
observacin. A esta asignacin de rangos se le conoce como jerarquizacin. Es
importante aclarar aqu que la palabra en espaol rango equivale a la palabra
inglesa rank y se usar en este sentido y no como sinnimo de intervalo que
corresponde a la palabra inglesa range. Los rangos (posicin jerrquica en la
secuencia ordenada) se pueden asignar empezando por los valores menores y
terminando en los mayores viceversa. Con estos valores de orden se determina
la profundidad la cual es el rango menor de los dos que posee cada observacin.
Utilizando esta nocin de profundidad es posible extraer varios valores resumen
exploratorios de nivel (localizacin) de un conjunto de nmeros. El ms familiar
de estos resmenes es la mediana, la cual proporciona el centro de la muestra en
trminos de conteo. Si el nmero de datos (n) es impar la mediana es el valor con
la profundidad mxima; si n es par la mediana es el promedio de los dos valores
centrales (con los valores de profundidad ms altos).
Captulo 2. Resmenes resistentes de nivel y dispersin
Para calcular la profundidad de la mediana se utiliza la siguiente expresin:
Prof. de la mediana = (n + 1)/2 (2.1)
Como ejemplo se utilizarn los datos tomados de Salgado-Ugarte (1995)

que representan la longitud patrn en mm (medida desde la punta de la boca
hasta la extremo posterior del lbulo carnoso del cuerpo) de 11 especmenes de
Lateolabrax japonicus (pez conocido comnmente como suzuki) provenientes de
la captura comercial de la Baha de Tokio (septiembre de 1993):
500, 440, 560, 435, 490, 540, 490, 460, 480, 475 y 485
Las observaciones ordenadas son:
R.A. 1 2 3 4 5 6 7 8 9 10 11
R.D. 11 10 9 8 7 6 5 4 3 2 1
Prof.: 1 2 3 4 5 6 5 4 3 2 1
435, 440, 460, 475, 480, 485, 490, 490, 500, 540, 560
(R.A. = Rango ascendente; R.D. = Rango descendente; Prof. = Profundidad)
Puesto que n = 11, entonces la profundidad de la mediana es igual a: (11 + 1)/2 =

6. El sexto valor en la secuencia ordenada es la mediana (485).
La profundidad permite la determinacin de otros valores resumen de

localizacin (nivel) como son los datos que marcan una cierta fraccin (1/4 o 3/4
entre otras posibles) de datos anteriores o posteriores. En el campo exploratorio
un par de estos valores resumen son los cuartos, cuya profundidad se define de
la siguiente manera:
Prof. de los cuartos = ([prof. de la mediana] + 1)/2 (2.2)
donde los parntesis cuadrados corchetes [] indican la operacin de encontrar

el valor entero de su contenido. Para el lote de longitudes la profundidad de los
cuartos (un valor para cada una de las mitades delimitadas por la mediana) es ([6]
+ 1)/2 = 3.5; el nmero fraccionario indica que el valor de cada cuarto debe
obtenerse por medio del promedio de los datos ordenados con la profundidad 3 y
4. En este caso el cuarto inferior (FL) es igual a (460 + 475)/2 = 467.5 y el cuarto
superior (FU) viene a ser (490 + 500)/2 = 495. Los cuartos indican que 1/4 de los
datos es menor a 467.5 o mayor a 495, y que 1/2 de todas las observaciones se
encuentra entre estos valores (mitad central de los datos).
Los valores con profundidad igual a 1 representan los extremos y son los
valores con el valor menor y mayor del lote de datos. En el ejemplo considerado
los extremos son 435 y 560.
20
Con la mediana, los cuartos y extremos es posible construir el resumen de

letras de cinco nmeros (la forma ms simple) de la siguiente manera:
n = 11
Prof. Longitud total
______________________
Mediana (M) 6 | 485 |
Cuartos (F) 3.5 | 467.5 495 |
Extremos 1 | 435 560 |
De esta forma, para las 11 longitudes, podemos decir que tpicamente los
peces en la muestra miden 485 mm y que aunque pueden medir desde 435 hasta
560 mm de longitud patrn, la mitad de los peces tuvieron una longitud
comprendida entre 467.5 y 495.
2.2 Valores de letras adicionales
En lotes muy grandes a menudo vale la pena resumir con ms detalle y

determinar valores de localizacin adicionales. El resumen de cinco nmeros
puede ampliarse fcilmente para contener dos valores resumen adicionales: los
octavos, determinados por:
prof. de los octavos = ([prof. de los cuartos] + 1)/2 (2.3)
y con esta operacin se tiene un resumen de 7 nmeros. S el nmero de datos

es lo suficientemente grande es posible ir de los octavos a los dieciseisavos y de
stos a los treintaidosavos etc. calculando la profundidad correspondiente de
acuerdo con la expresin generalizada:
([prof. previa] + 1)/2 (2.4)
continuando hasta que la nueva profundidad alcance el valor de 1 (o sea al llegar

a los extremos).
Por ser conveniente para su notacin y desplegado se utilizan etiquetas de

una sola letra para los valores resumen extrados del lote. Se utiliza (como ya se
ha sealado) a la M para la mediana y la F para los cuartos (del ingls "Fourth",
que significa cuarto). Los extremos no tienen otra etiqueta que el valor de
profundidad igual a 1. Se usa la E para los octavos (del ingls "Eighth") y para los
21
dems valores se utiliza el orden alfabtico inverso desde, D, C, B, A y se

contina con la Z, Y, X, W, etc.
Una secuencia de letras hasta la W lucira de la manera abajo indicada:
Mediana M
Cuartos (Fourths) F
Octavos (Eights) E
1/16 D
1/32 C
1/64 B
1/128 A
1/256 Z
1/512 Y
1/1024 X
1/2048 W
Como un procedimiento estndar de uso general, el resumen de cinco

nmeros proporciona la cantidad adecuada de detalle. Para conocer ms acerca
de la forma de la distribucin de lotes grandes de datos es necesario la
determinacin de valores de letras adicionales especialmente hacia los extremos
del lote (Hoaglin, 1983). El paquete estadstico Stata contiene una rutina muy
completa para la construccin de resmenes resistentes de nivel y dispersin
(StataCorp, 2003, 2009). Una versin un poco ms sencilla la proporciona
Minitab (Minitab Inc. 1996).
2.3 Otras medidas resistentes de nivel
Se ha mencionado que los resmenes de letras presentan medidas resistentes de

localizacin. Para casi todos los propsitos exploratorios se puede utilizar a la
mediana para resumir al nivel (centro o valor tpico de un lote). Otro valor
resumen de nivel que utiliza ms estadsticos de orden pero solo requiere
aritmtica sencilla es la trimedia, la cual se define por la siguiente expresin
(Hoaglin, 1983):
trimedia = 1/4(cuarto inferior) + 1/2(mediana) + 1/4(cuarto superior)
Si se toman por ejemplo los valores considerados de longitud total de peces

se tiene:
trimedia = 1/4(467.5) + 1/2(485) +1/4(495) = 483.125
22
valor que resulta un poco menor que la media (486.82) y la mediana (485).
A pesar de que la media no es resistente, tiene otras propiedades que la

hacen importante como medida resumen de un grupo de nmeros. La media
aritmtica es un estimador suficiente, es decir, est determinada por todos y
cada uno de los valores de los datos. Si la informacin se obtuvo despus de un
difcil y costoso mtodo de muestreo, resulta deseable que cada valor intervenga
en la definicin del nivel. La mediana, por otro lado, no es tan sensible como la
media debido a que su valor est determinado por la posicin de los datos
ordenados y no por los valores individuales. Por esto es resistente a los casos
extraordinarios.
Es natural que los estadsticos se muestren insatisfechos con una

situacin en la cual slo hay dos alternativas: sacrificar la resistencia en aras de
la suficiencia (escoger a la media) o el obtener resistencia pero perder
informacin individual (elegir a la mediana). Por esta razn se han desarrollado
mtodos alternos que son un compromiso entre estos dos extremos. Un ejemplo
de un resumen tal es la media recortada, la cual elimina observaciones (como
recortar puntas de ramas de rbol) situadas en ambos extremos de la
distribucin (donde los casos extraordinarios suelen encontrarse) y
posteriormente promediar los datos restantes. Si no existe una cantidad grande
de casos atpicos, esta operacin los eliminar y la media resultante no ser
alterada por ellos. Este promedio entonces es sensible a casi todas las
observaciones. Si no existen casos extraordinarios, la operacin de recorte
afectar de manera semejante a los dos extremos de la distribucin, por lo que la
media recortada no diferir significativamente de la media ordinaria (Siegel,
1988).
Una eleccin adecuada respecto al nmero de datos que se eliminan en

ambos extremos es la de aplicar una media recortada del 10 %, la cual ignora
aproximadamente un 10 % de los datos en cada extremo de la secuencia
ordenada de datos. Por lo tanto, en total, se remueve un 20 % de los datos y se
calcula la media aritmtica con el 80 % restante (Siegel, 1988).
Al calcular la media recortada del 10 % con los datos utilizados como

ejemplo tenemos que n = 11, por lo que el 10% es igual a 1.1, nmero que no se
redondea sino se trunca a 1. Por tanto el valor menor (435) y el mayor (560) se
ignoran, calculando el promedio de los 9 restantes:
(440 + 460 + 475 + 480 + 485 + 490 + 490 + 500 + 540)/9 = 484.44
La media recortada por tanto es menor que la media ordinaria (486.82) y la

mediana (485) pero un poco mayor que la trimedia (483.13), lo cual manifiesta
que el dato mayor recortado (valor alejado en 40 unidades del ms cercano) tiene
influencia sobre la media ordinaria hacindola ms grande.
23
2.4 Medidas resistentes de dispersin
Para resumir la dispersin se busca un valor que nos indique que tan
concentrados estn los datos. Una medida resistente simple es la dispersin de
los cuartos, que se define como:
dispersin de los cuartos = (cuarto superior) - (cuarto inferior)
F-dispersin = dF = FU - FL
la cual representa la amplitud de la mitad central del lote. Por supuesto, el

intervalo, amplitud o recorrido, o sea la diferencia entre los extremos, tambin
refleja la dispersin de los datos, sin embargo, est influenciado fuertemente por
los casos extraordinarios, por lo que no es resistente. La dispersin de los
cuartos es una forma del recorrido intercuartlico debido a que los cuartiles
vienen a ser casi lo mismo que los cuartos.
Con los valores del ejemplo de longitudes de peces, se tiene lo siguiente:
dF = 495 467.5 = 27.5
Para identificar a los casos extraordinarios, es imprescindible una medida

que sea insensible a ellos. La dispersin de los cuartos representa una medida tal,
mientras que el recorrido y la desviacin estndar no lo son. De manera ms
general, se necesita una medida de dispersin que enfatice el comportamiento de
la porcin central de los datos y no el de los extremos. Esto es lo que la
dispersin de cuartos realiza. Sin embargo, no es fcil identificar estos casos
extraordinarios con los tamaos de muestra que se presentan ms
frecuentemente. Para obtener buenas identificaciones es necesario un tamao de
muestra mnimo de 500. Lo mejor que podemos hacer con muestras de tamao
pequeo o moderado es separar algunos valores para un examen ms cuidadoso.
Los valores que se encuentran fuera de los lmites establecidos son posibles
casos extraordinarios (Velleman y Hoaglin, 1981; Hoaglin, 1983).
Para establecer los lmites para distinguir a estos posibles casos

extraordinarios se utilizar una aproximacin basada en la dispersin de los
cuartos. Estos valores de referencia estn determinados por mltiplos de la F-
dispersin. De esta forma se tienen las cotas internas (especificadas por 1.5 * dF),
y las externas (definidas por 3 * dF) que se miden a partir de los cuartos (superior
e inferior). Esto es, las observaciones ms all de FU + 1.5 dF y de FL - 1.5 dF se
24
consideran como casos extraordinarios moderados; aquellas situadas mas all de

FU + 3 dF y de FL - 3 dF son casos extraordinarios acentuados. Ambos tipos de
valores requieren de un escrutinio adicional. S se sustituyen los valores
correspondientes de longitud patrn se tienen los siguientes valores de referencia:
cota interna superior = 495 + 1.5(27.5) = 536.25

cota interna inferior = 467.5 - 1.5(27.5) = 426.25
(todos los valores dentro del intervalo definido por los cuartos y hasta las cotas
internas constituyen los valores adyacentes) y
cota externa superior = 495 + 3(27.5) = 577.5

cota externa inferior = 467.5 - 3(27.5) = 385.
Aunque claramente no existen casos extraordinarios acentuados (severos), los

valores extremos superiores (los dos ltimos de la lista ordenada, es decir 540 y
560) representan posibles casos extraordinarios moderados por ser mayores que
el valor de la cota interna superior (536.25) y por tanto merecen un anlisis
adicional.
Por otro lado, s se requiere considerar la dispersin en trminos de la

desviacin estndar o de la varianza, es posible obtener una medida resistente
anloga a partir de la F-dispersin. Para esto se determina que desviacin
estndar deber tener una distribucin gaussiana para dar como resultado la
misma F-dispersin que el lote considerado. Los cuartos de una distribucin
Gaussiana estndar (con = 0 y = 1) son - 0.6745 y + 0.6745, as que su
F-dispersin es:
dF = FU - FL
dF = ( + 0.6745) - ( - 0.6745)
debido a que = 0 se tiene que:
dF = 0.6745 + 0.6745
finalmente:
dF = 1.349
por lo que el equivalente resistente de deber ser:
= dF/1.349
donde dF es la dispersin de los cuartos o F-dispersin.
25
Este cociente, aunque equivalente a la desviacin estndar es diferente y se

le conoce como F-pseudosigma ( pseudosigma de cuartos), y su cuadrado
(anlogo a 2) es la F-pseudovarianza. Es posible calcular estos equivalentes de
varianza y desviacin estndar para cada par de valores de letras, por lo que se
pudiera tener la E-pseudosigma (pseudosigma de octavos), la D-pseudosigma
(pseudosigma de dieciseisavos) etc.
Cuando los datos siguen una distribucin Gaussiana (normal), el valor de

F-pseudosigma proporciona una estimacin de y su valor ser cercano al de s
(desviacin estndar de la muestra). Si las dos estimaciones difieren
considerablemente deber preferirse el uso de F-pseudosigma y buscar las
observaciones que incrementan el valor de la desviacin estndar (Hoaglin, 1983;
Iglewicz, 1983).
Para los valores de longitud patrn del suzuki se tiene:
F-pseudosigma = F-dispersin/1.349 = 27.5/1.349 = 23.52
A modo de comparacin la desviacin estndar es 37.63. Debido

fundamentalmente a los casos extraordinarios evidenciados por la cota interna
superior, el valor de F-pseudosigma es considerablemente menor que el de s, por
lo que estos resultados recomiendan un examen ms cuidadoso de dichos valores
y el uso de las estimaciones resistentes para la representacin adecuada de este
lote de datos.
Para ver ms claramente el efecto de los casos extraordinarios supongamos

que el valor ms alto fuera 600. Los valores de la mediana y de F-pseudosigma
permanecen inalterados, sin embargo, los de la media (346.94) y el de la
desviacin estndar (102.42) son considerablemente mayores que los originales
por lo que en este caso se recomendara el uso de los valores resistentes y el
examen cuidadoso de los datos para encontrar el valor que origin esta diferencia.
Una aplicacin de estas medidas resistentes la sugiere Salgado-Ugarte

(1990 y 1991) para la representacin de los tamaos de los radios y anillos de los
otolitos del pez plano Kareius bicoloratus de la Baha de Tokio.
En la tabla 2.1 se incluye la comparacin entre medias y desviaciones

estndar con medianas y pseudosigmas de distintas medidas de longitud de
otolitos de hembras y machos de esta especie. En los radios de las hembras,
excepto en un caso, as como en algunos casos de los radios del primer anillo, los
valores de la desviacin estndar fueron mayores que los de F-pseudosigma.
26
A pesar de que las medias y medianas no son muy diferentes, en estas

circunstancias es preferible elegir las medidas resistentes como representantes
de los tamaos y buscar la causa del incremento del valor de la desviacin
estndar.
Tabla 2.1 Comparacin entre media aritmtica y desviacin estndar con

mediana y pseudosigma para medidas de otolitos del pez plano Kareius
bicoloratus de la Baha de Tokio
Medida Media Desviacin Mediana Pseudosigma N
aritmtica estndar de cuartos
a) Radio del otolito
Machos
RAOI 2.38 0.26 2.37 0.30 100
RPOI 2.25 0.21 2.22 0.18 100
RAOD 3.01 0.29 2.96 0.31 101
RPOD 1.59 0.17 1.62 0.17 101
b) Hembras
RAOI 2.90 0.42 2.99 0.42 85
RPOI 2.73 0.43 2.79 0.41 86
RAOD 3.63 0.52 3.67 0.50 86
RPOD 1.94 0.31 1.95 0.25 86
b) Radio del primer anillo
Machos
RAOI1 1.92 0.22 1.90 0.23 96
RPOI1 1.72 0.15 1.73 0.16 95
RAOD1 2.37 0.21 2.37 0.22 95
RPOD1 1.31 0.14 1.32 0.12 85
Hembras
RAOI1 1.89 0.21 1.88 0.22 86
RPOI1 1.72 0.22 1.70 0.14 85
RAOD1 2.33 0.26 2.31 0.22 86
RPOD1 1.32 0.21 1.28 0.14 82
c) Radio del segundo anillo
Machos
RAOI2 2.36 0.22 2.28 0.15 3
RPOI2 2.21 0.18 2.32 0.11 3
RAOD2 3.09 0.24 3.13 0.17 3
RPOD2
Hembras
RAOI2 3.10 0.33 3.24 0.21 5
RPOI2 3.04 0.33 3.13 0.37 6
RAOD2 3.98 0.50 3.97 0.74 6
RPOD2 1.98 0.36 1.98 0.43 4
27
Lo anterior es particularmente importante ya que con estos datos se

efectan relaciones entre tamaos de otolitos y del pez (retroclculo). Si existen
valores no representativos (medias afectadas por casos extraordinarios, dichas
relaciones no sern correctas.
Como comentario final puede agregarse que la mediana, adems de ser

resistente y debido a que se basa en los rangos de las observaciones, puede
calcularse an en el caso de que no se tengan todas las observaciones. Para
ejemplificar lo anterior Fowler et al. (1998) presentan un estudio sobre
comportamiento migratorio de aves en el cual se transportaron 15 pichones a
1,200 km de su palomar en Inglaterra a un lugar en Francia donde se liberaron
juntos. En el palomar se adapt un artefacto que registraba automticamente la
hora de retorno al entrar cada pichn al mismo. Al da siguiente, todos los 15
pichones haban regresado. Desafortunadamente, el mecanismo se trab despus
de la llegada del dcimo pichn. Los tiempos de retorno que fue posible registrar
para diez pichones se presentan en la tabla 2.2
Tabla 2.2. Tiempo de retorno de pichones a su palomar (tal como fueron

registrados por el dispositivo antes de averiarse)
1.-16 h 45 min 6.- 19 h 25 min
2.-17 h 30 min 7.- 21 h 10 min
3.-18 h 05 min 8.- 21 h 55 min
4.-18 h 15 min 9.- 22 h 10 min
5.-19 h 20 min 10.-23 h 25 min
Con esta informacin incompleta no es posible calcular la media aritmtica.

Sin embargo, como sabemos que los 5 valores faltantes son todos mayores a las
23 h con 25 min, si es posible calcular la mediana. Al aplicar el concepto de
profundidad tenemos que la de la mediana es (15 + 1)/2 = 8, es decir, la
observacin que ocupa la octava posicin en la secuencia ordenada es el tiempo
de retorno que separa a la mitad inferior de la mitad superior. Por lo tanto, para
este ejemplo, podemos estimar al nivel con un valor mediano de 21 h 55 min.
28
Captulo 3. Diagramas de caja y bigotes
Se afirma que los diagramas de caja (tambin conocidos como diagramas de caja
y bigotes) constituyen la herramienta grfica analtica ms til para el estudio de
lotes de nmeros (Deleon y Anagnoson, 1991). Los diagramas de caja estn
basados en el resumen de cinco nmeros descrito en el captulo anterior y en la
dispersin de los cuartos del lote de datos. Estos desplegados muestran
caractersticas tales como:
- Nivel y localizacin
- Dispersin
- Forma de la distribucin (asimetra, longitud de las colas de distribucin)
- Valores extraordinarios
Por lo tanto los diagramas de caja proporcionan una impresin visual de

varios aspectos importantes de la distribucin emprica de un lote de datos.
Estos desplegados compactos son especialmente tiles en la comparacin

de varios grupos de nmeros. Al dibujar diagramas de caja para cada lote y si se
arreglan en paralelo es posible compararlos respecto a su nivel y localizacin, a
su dispersin, as como tambin a su sesgo y a la densidad de sus colas de
distribucin. En ocasiones esta comparacin permite encontrar que los datos de
diferentes grupos no encajan bien en la misma escala. Es posible que los lotes
situados lejos del origen puedan tener una dispersin mucho mayor que aquellos
situados cerca. Por esto, si los lotes se grafican en una escala comn, los detalles
de estos ltimos sern difciles de observar.
Una transformacin apropiada puede aliviar esta dificultad haciendo que la

variabilidad de los lotes sea comparable. Para reconocer este problema y obtener
una indicacin de la transformacin adecuada se utiliza un grfico de dispersin-
nivel el cual sugiere la transformacin potencial que tiende a igualar la
dispersin a travs de los diferentes niveles o localizaciones de los lotes (Emerson
y Strenio, 1983).
29
3.1 Diagramas de caja para un lote de datos
Para entender cmo se construye un diagrama de caja se utilizarn las medidas

de la longitud nasal en crneos del canguro Macropus fuliginosus (Andrews y
Herzberg, 1985) listados en la Tabla 3.1.
Tabla 3.1. Longitud nasal

(mm) en crneos del canguro
Macropus fuliginosus
Nmero Machos Hembras

1 573 503
2 566 549
3 525 494
4 551 522
5 698 497
6 638 554
7 658 532
8 630 434
9 628 578
10 638 574
11 624 571
12 590 571
13 628 570
14 656 602
15 719 571
16 687 553
17 700 568
18 746 636
19 715 603
20 685 699
21 734 552
22 708 667
23 691 653
24 699 625
25 737 646
En la construccin del diagrama de caja de un slo lote se utilizarn los

datos de las hembras.
30
El diagrama de tallo y hoja para estos datos se presenta a continuacin:
Tabla 3.2 Diagrama de tallo y hoja para longitud nasal (mm) en crneos de
hembras de Macropus fuliginosus
N = 25 Unidad de hoja = 1
4t |34 representa 434
Profundidad
1 4t | 34
1 4f |
1 4s |
3 4 | 94,97
4 5* | 03
6 5t | 22,32
10 5f | 49,52,53,54
(7) 5s | 68,70,71,71,71,74,78
8 5 |
8 6* | 02,03
6 6t | 25,36
4 6f | 46,53
2 6s | 67
1 6 | 99
Puede apreciarse que los datos se concentran aproximadamente a la mitad

del diagrama y hacia los extremos se hacen escasos. Otros detalles que pueden
notarse son que el primer dato est separado del resto por una serie de tallos
vacos adems de un tallo sin hojas en la porcin central del diagrama (Cuadro
3.2).
Para la construccin del diagrama de caja y bigotes primeramente se

determina el resumen de 5 nmeros (Tabla 3.3), la dispersin de cuartos y las
cotas internas y externas (inferior y superior) para identificar los casos
extraordinarios:
Por lo tanto la dispersin de los cuartos es igual a 603 549 = 54.
Las cotas internas son:
cota interna inferior = 549 - 1.5 * 54 = 468

cota interna superior = 603 + 1.5 * 54 = 684
cota externa inferior = 549 - 3 * 54 = 387

cota externa superior = 603 + 3 * 54 = 765
31
Tabla 3.3 Resumen de cinco nmeros para longitud nasal en crneos de

n = 25
Prof. Longitud nasal
______________________
Mediana (M) 13 | 571 |
Cuartos (F) 7 | 549 603 |
Extremos 1 | 434 699 |
Valores inferiores o mayores a estos lmites se consideran como posibles

casos extraordinarios (moderados y severos) por lo que los valores 434 y 699 se
pueden considerar como casos extraordinarios moderados.
Para construir el diagrama de caja se dibuja, en un eje con la escala

adecuada, un rectngulo (la caja) cuya longitud en el eje estar determinada por
los cuartos inferior y superior; la mediana se indica como una lnea que atraviesa
la caja. Posteriormente se dibuja una lnea que parte del centro de cada extremo
(inferior y superior) de la caja hasta cada uno de los valores adyacentes (el valor
del dato que sea menor o igual a las cotas inferior y superior). Esta lnea viene a
semejar un "bigote" de la caja, y en este punto cabe anotar que el nombre que
Tukey dio originalmente a este desplegado fue el de "diagrama de caja y bigotes"
("Box and whiskers display"). Los valores extraordinarios se indican como
asteriscos, cruces o puntos separados en el lugar correspondiente de la escala,
distinguiendo los casos extraordinarios severos (situados ms all de las cotas
externas) mediante smbolos diferentes a los usados para indicar los casos
extraordinarios moderados. Los diagramas pueden dibujarse horizontal o
verticalmente segn convenga.
De esta forma la localizacin queda marcada por la lnea que atraviesa a la

caja (mediana) y la longitud de la caja muestra la dispersin (de los cuartos).
Mediante la posicin relativa de la mediana respecto a los cuartos inferior y
superior y la longitud de los bigotes es posible observar la simetra o sesgo de la
distribucin; los bigotes que se extienden desde la caja y los puntos
extraordinarios revelan la longitud de las colas de distribucin.
Al observar el diagrama obtenido con los datos considerados (Figura 3.1)

puede notarse una distribucin aproximadamente simtrica (la mediana se
encuentra a la mitad de la caja y los bigotes tienen aproximadamente la misma
longitud). Pueden notarse adems que los valores mayor y menor constituyen
casos extraordinarios moderados.
32
700
650
600
550
500
450
Figura 3.1 Diagrama de caja y bigotes para longitud nasal (mm) en crneos de
Debido a que la construccin del diagrama de caja se fundamenta en

medidas resistentes (mediana y dispersin de los cuartos), este desplegado
tambin es resistente. Las colas del diagrama de caja estn determinadas por los
datos dentro de las cotas por lo que no son afectados por cambios en los valores
de algn caso extraordinario y son influenciados modestamente por alteraciones
de valores originalmente contenidos dentro de los lmites del intervalo que
definen. Debido a que las cotas se determinan a partir de los cuartos pueden
resistir alteraciones en hasta en una cuarta parte de los datos.
Aunque un grfico anlogo puede hacerse utilizando la media y la

desviacin estndar el diagrama resultante carece de resistencia y es afectado
por la existencia de un slo caso extraordinario (Emerson y Strenio, 1983).
33
3.2 Comparacin de lotes de datos
Un desplegado de diagramas de caja paralelos puede facilitar la comparacin de

varios lotes de datos. De este desplegado podemos distinguir semejanzas y
diferencias entre los lotes respecto a las caractersticas discutidas (nivel y
localizacin, dispersin, sesgo, longitud de colas y casos extraordinarios).
800
700
Longitud nasal (mm)
600
500
400
Machos Hembras
Figura 3.2 Longitud nasal por sexo de Macropus fuliginosus
Como ejemplo se har la comparacin de la longitud nasal de machos y

hembras de canguros (Tabla 3.1). Los diagramas de caja se muestran en la
Figura 3.2 pudindose observar que los machos tienen una localizacin (nivel)
mayor al de las hembras y un ligero sesgo negativo; las hembras presentan dos
casos extraordinarios moderados.
En este punto surge una pregunta importante: ser significativa la

diferencia en la localizacin de las distribuciones (localizacin estimada por las
medianas) o ser el resultado de variaciones aleatorias de los datos? Cuando esta
interrogante es importante (como lo es en la comparacin de los radios de los
otolitos) los diagramas de caja pueden dibujarse con "muescas" laterales que
facilitan nuestra evaluacin de las localizaciones. Las "muescas" se colocan
34
simtricamente alrededor de la mediana y se definen de acuerdo a la siguiente

expresin (Chambers, et al., 1983):
d
Mediana 1.58 F
n
Los lotes cuyos intervalos indicados por las muescas no se traslapan son
significativamente diferentes con un nivel de significancia aproximado del 5 %
(este es un nivel individual del 5 %, esto es, no se hace ajuste respecto al nmero
de comparaciones realizadas). El factor 1.58 combina contribuciones
provenientes de tres fuentes distintas: F-pseudosigma, la variabilidad de la
mediana de la muestra y el factor utilizado en el establecimiento de los lmites de
confianza de acuerdo a la siguiente expresin:
d F 1.7 d
1.58 F
1.349 2 n n
830
Longitud nasal (mm)
730
630
530
430
Machos Hembras
Figura 3.3 Diagramas de caja con muescas para longitud nasal de machos y
hembras en canguros Macropus fuliginosus
35
Las muescas en los diagramas de caja son guas muy tiles en la

comparacin del nivel de medianas an cuando los requerimientos para la
realizacin de pruebas de hiptesis no se cumplen estrictamente (lo cual ocurre
generalmente con los datos reales). Los diagramas de caja con muesca para los
datos analizados (Figura 3.3) no muestran sobrelapamiento por lo que se sugiere
una diferencia significativa en la longitud nasal del crneo de machos y hembras.
Esto indica un dimorfismo sexual en el que la nariz de los machos es mayor que
la de las hembras en esta especie de canguros.
240
Amplitud de la cresta (mm)
200
160
120
80
40
0
1 2 1 2 1 2
M. giganteus M. melanopus M. fuliginosus
Figura 3.4 Diagramas de caja mltiples con muesca para la amplitud de la cresta
craneal por sexo (1 = machos; 2 = hembras) y por especie de canguros.
En los casos donde existen tres o ms diagramas de caja es posible utilizar

las muescas para realizar comparaciones entre cada par de conjunto de datos.
En la Figura 3.4 se incluye una comparacin mltiple de machos y hembras de
tres especies de canguros del gnero Macropus (M. giganteus, M. melanopus y M.
fuliginosus) Puede notarse que en las primeras dos especies aunque las hembras
son ligeramente mayores que los machos existe un sobrelapamiento de las
muescas, por lo que las diferencias en nivel no seran significativas. Para la
tercera especie, puede apreciarse claramente un dimorfismo sexual en donde la
amplitud de la cresta de las hembras es significativamente mayor que la de los
machos. Por otra parte existe una tendencia al aumento de anchura que puede
evaluarse cuantitativamente por el sobrelapamiento de muescas: M. giganteus no
36
diferente de M. melanopus y ambas diferentes de M. fuliginosus en machos; M.

fuliginosus ms ancha y diferente de las otras dos especies en las hembras.
3.3 El grfico dispersin-nivel y la transformacin
Cuando una comparacin de lotes muestra una relacin sistemtica entre la

dispersin y el nivel es necesario encontrar una re-expresin o transformacin de
los datos originales que reduzca o elimine esta dependencia. Si tal
transformacin se encuentra, los datos re-expresados se podrn explorar
visualmente o ser posible aplicar las tcnicas comunes de comparacin de lotes.
Como ejemplo, el anlisis de varianza con una va de clasificacin se realiza
simple y efectivamente cuando existe la misma varianza entre grupos (Emerson y
Strenio, 1983).
En la re-expresin de datos resulta conveniente utilizar la transformacin

potencial con potencia (o exponente) p definida como aquella que reemplaza x por
xp . Para p = 0 se utiliza log x en lugar de x0 (por razones obvias).
Para encontrar la transformacin potencial adecuada (si es posible

encontrar alguna para los datos considerados) se construye el grfico de
dispersin-nivel.
Como su nombre lo indica, en este diagrama se grafica una medida de la

dispersin contra una medida del nivel. Si existe una relacin sencilla, el ajuste
de los puntos a un modelo simple permite eliminar la relacin entre la dispersin
y el nivel.
Si suponemos que la dispersin de los cuartos (dF) es proporcional a una

potencia de la mediana (medida del nivel) podemos escribir (Emerson y Strenio,
1983):
dF = c M b (1)
Este es un modelo potencial que puede simplificarse a uno lineal usando

logaritmos:
log dF = log c + b log M,
si se define a k = log c, entonces:
log dF = k + b log M (2)
Por lo tanto los logaritmos de la F-dispersin y el logaritmo de las medianas se

relacionan linealmente. El grfico de dispersin - nivel surge de esta expresin.
37
Para ilustrar su aplicacin se considerarn los datos de poblacin de las 10

ciudades ms pobladas de los 11 pases ms poblados del continente americano,
segn cifras de 1991 (Apndice 1).
20,000
15,000
Poblacin (X1000)
10,000
5,000
0
Ecu Chi Cuba Can Arg Per Mx Ven Col E.U.A. Bra
Figura 3.5 Diagramas de caja para poblacin de las 10 ciudades ms pobladas de

11 pases del continente americano (circa 1991).
En la Figura 3.5 aparecen los diagramas de caja en paralelo para cada

regin. Las regiones se han ordenado de acuerdo al valor de las medianas por
pas. En este grfico resulta difcil apreciar los detalles de distribucin de pases
como Ecuador, Chile, Cuba, Canad, Argentina y Per (aquellos con menor
poblacin), adems de que ocurre una tendencia al aumento de la dispersin
(longitud de las cajas) al incrementarse el valor de la mediana.
En la Tabla 3.4 se presentan los valores logartmicos (base 10) de las

medianas y F-dispersiones de la poblacin de las 10 ciudades ms pobladas de
cada pas. En la Figura 3.6 se han graficado estos valores. Los puntos en este
grfico de dispersin-nivel muestran una tendencia al incremento de los
logaritmos de la dispersin de cuartos al aumentar el logaritmo de la Mediana;
adems, en primera instancia esta relacin parece lineal.
38
Tabla 3.4. Logaritmos de valores medianos y dispersin de

cuartos para la poblacin de las 10 ciudades ms pobladas de 11
pases de Amrica
Pas Mediana F-disp. Log10(Med) Log10(F-disp)
Brasil 1575060 1780520 6.20 6.25
E.U.A. 1372000 1926180 6.14 6.28
Colombia 537500 1240450 5.73 6.09
Venezuela 391541 685424 5.59 5.84
Mxico 381500 1398000 5.58 6.15
Per 346000 312100 5.54 5.49
Argentina 288860 341903 5.46 5.53
Canad 275769 463403 5.44 5.67
Cuba 190491 159174 5.28 5.20
Chile 188533 145814 5.28 5.16
Ecuador 141159 143635 5.15 5.16
De acuerdo a lo arriba especificado es necesario determinar el valor de la

pendiente (b) de esta relacin aproximadamente lineal y de acuerdo a ecuacin
(2). La transformacin z = x 1 - b de los datos proporciona valores re-expresados z
cuyas dispersiones no dependen, al menos aproximadamente, del nivel.
6.2 6
Log10 de la F-dispersin
5.6 5.8
5.4
5.2
5.2 5.4 5.6 5.8 6 6.2

Log10 de la Mediana
Figura 3.6 Grfico de Dispersin-Nivel para datos de poblacin de las 10

ciudades ms pobladas de 11 pases del continente americano
39
Se recomienda utilizar un mtodo de ajuste lineal resistente, tal como el

mtodo de los tres grupos de Tukey debido a la posibilidad de existencia de casos
extraordinarios. Sin embargo, si la tendencia es aproximadamente lineal y sin
valores desviados de manera notable puede utilizarse el tradicional mtodo de los
mnimos cuadrados. Para este caso, el ajuste proporciona un valor de 1.17, es
decir casi 1. Por tanto parece razonable escoger el valor de pendiente de 1 y de
esta forma p = 1 - 1 = 0, valor que indica a la transformacin logartmica.
Resulta conveniente en este punto hacer algunas consideraciones respecto

a la eleccin de la transformacin. Idealmente una transformacin no solo iguala
las dispersiones, sino que tiene una explicacin consistente. Por ejemplo, en
demografa un modelo ampliamente utilizado supone que las poblaciones tienden
a crecer exponencialmente. Si esto es as, el logaritmo de la poblacin crecer
aproximadamente de manera lineal. La transformacin lineal es de interpretacin
ms sencilla, se pueden detectar desviaciones fcilmente y es posible interpolar
valores, por lo que en este caso los logaritmos representan una transformacin
conveniente para el anlisis poblacional (lo que parece aplicarse al ejemplo de la
poblacin de ciudades de los pases considerados).
Si no existe una base consistente para la adopcin de una transformacin

particular, deber tenerse una idea muy clara de lo que la re-expresin implica si
se escoge una potencia que sea un mltiplo entero de 1/2 (definitivamente la
transformacin por raz cbica, p = 1/3, algunas veces tiene un significado
fsico).
En la Tabla 3.5 se incluyen algunas de las transformaciones potenciales

ms frecuentemente utilizadas, junto con las pendientes que las indican. Este
conjunto de re-expresiones son los miembros principales de la "Escala de
Potencias" de Tukey:
El anlisis de los datos ahora en escala logartmica (Figura 3.7) permite

observar que dicha transformacin ha uniformizado las dispersiones (las cajas
tienen longitudes similares y las desigualdades restantes no parecen estar
relacionadas con el nivel). Esta nueva escala ha eliminado varios casos
extraordinarios. Los nuevos diagramas de caja son de observacin ms fcil y las
cajas por pas muestran casi los mismos detalles.
40
Tabla 3.5 Escala de Potencias de Tukey

Transformacin Potencia Pendiente del grfico
Dispersin-Nivel
Cbica 3 -2
Cuadrada 2 -1
Ninguna 1 0
Raz cuadrada 0.5 0.5
Logaritmo 0 1
Recproco de raz cuadrada -0.5 1.5
Recproco -1 2
8
7
Log10 de poblacin
6
5
4
Ecu Chi Cuba Can Arg Per Mx Ven Col E.U.A. Bra
Figura 3.7 Diagramas de caja para valores logartmicos (base 10) de poblacin de
las 10 ciudades ms pobladas de pases del continente americano.
41
Existen varias razones para la transformacin de los datos. Entre estas se

incluyen principalmente las siguientes:
- Interpretar a los datos de una manera natural
- Promover la simetra en un lote
- Estabilizar la dispersin de varios lotes
- Promover una relacin lineal entre dos variables
- Simplificar la estructura de una tabla de dos o ms vas de tal forma que

pueda utilizarse un modelo aditivo simple para entender las
caractersticas de los datos.
Para una discusin detallada de cada caso consultar Emerson y Stoto (1983) In:
Hoaglin et al., (1983). Detalles adicionales de este grfico se incluyen en Salgado-
Ugarte (1992).
3.4 Limitaciones de los Diagramas de Caja
A pesar de su utilidad como herramientas para visualizar caractersticas

importantes de la distribucin de los datos, los diagramas de caja tienen
limitaciones. Para poner en claro esta afirmacin consideremos los datos
hipotticos incluidos en la Tabla 3.6 modificados de Deleon y Anagnoson (1991).
Los diagramas de la Figura 3.8 para cada una de las variables son
idnticos. Sin embargo, al obtener los diagramas de tallo y hoja (Tabla 3.7) es
posible observar que las tres variables tienen distribuciones diferentes: X posee
una distribucin rectangular (uniforme), Y manifiesta una clara tendencia
bimodal y Z muestra una distribucin concentrada en el centro (quizs con
mayor nmero de observaciones pudiera tender a ser gaussiana).
Por otra parte los diagramas de caja no representan adecuadamente lotes

de datos con mltiples concentraciones y huecos (multimodales). La Figura 3.9
ilustra este problema: a primera vista puede interpretarse la existencia de un lote
de datos con una pequea longitud de colas y una ligera asimetra positiva.
42
Tabla 3.6. Datos que muestran

las limitaciones de los Diagramas
de Caja (modificados de Deleon y
Anagnoson, 1991)
X Y Z
0.0 0.0 0.0
0.5 2.5 0.5
1.0 2.5 1.0
1.5 2.5 1.5
2.2 2.5 2.0
2.5 2.5 2.5
3.1 2.5 3.0
3.5 2.5 3.5
4.0 2.5 4.0
4.5 2.5 4.5
5.0 5.0 5.0
5.5 7.5 5.0
6.5 7.5 5.0
6.9 7.5 6.0
7.2 7.5 6.5
7.5 7.5 7.5
8.5 7.5 7.8
9.0 7.5 8.0
9.5 7.5 8.5
10.0 7.5 9.0
10.0 10.0 10.0
Sin embargo, el diagrama de tallo y hoja para estos datos (Tabla 3.8) hace
patente su distribucin bimodal. Este tipo de distribuciones hace complicado
medir su nivel. Por ejemplo, la media del conjunto anterior de nmeros es 4.77,
valor que ocurre precisamente en donde se encuentra el hueco que separa los
dos subgrupos de datos. La mediana (2.8) tampoco es una estimacin adecuada.
43
10
8
Valor de variable
4 2
0 6
X Y Z
Figura 3.8 Diagramas de caja para datos hipotticos X, Y, Z.
Tabla 3.7 Diagramas de tallo y hoja en paralelo para datos modificados de Deleon
y Anagnoson (1991)

0 |0 representa 0.0
Prof. Variable X Prof. Variable Y Prof Variable Z

2 0 | 05 1 0 | 0 2 0 | 05
4 1 | 05 1 1 | 4 1 | 05
6 2 | 25 10 2 | 555555555 6 2 | 05
8 3 | 15 10 3 | 8 3 | 05
10 4 | 05 10 4 | 10 4 | 05
(2) 5 | 05 (1) 5 |0 (3) 5 | 000
9 6 | 59 10 6 | 8 6 | 05
7 7 | 25 10 7 |555555555 6 7 | 58
5 8 | 5 1 8 | 4 8 | 05
4 9 | 05 1 9 | 2 9 | 0
2 10 | 00 1 10 |0 1 10 | 0
44
10
8
6
4
2
0
Figura 3.9 Diagrama de caja y bigotes para datos bimodales
De hecho, no existe un slo valor alrededor del cual los valores se

concentran, sino dos. En este caso, el diagrama de tallo y hoja es ms instructivo
que el diagrama de caja. Cabe mencionar que se han propuesto variaciones ms
elaboradas. Por ejemplo Hyndman (1996) describe un diagrama que muestra
regiones de alta densidad y permite distinguir claramente la bimodalidad (Quinn
y Keough, 2002).
Los anteriores ejemplos enfatizan la importancia de utilizar varias

herramientas exploratorias para asegurar el no pasar por alto alguna de las
caractersticas importantes de los datos (Hartwig y Dearing, 1979; Deleon y
Anagnoson, 1991; Salgado-Ugarte, 1992).
45
Tabla 3.8 Diagrama de tallo y hoja para datos bimodales (Hartwig y Dearing,
1979)

0 |1 representa 0.1
Profundidad
31 0 | 1222222233334444555567778888899
41 1 | 0122233446
(7) 2 | 2223679
46 3 |
46 4 |
46 5 | 5
45 6 | 16
43 7 | 046
40 8 | 01114555677889
26 9 | 00011122223334566677788899
46
Captulo 4. Distribucin de lotes de

nmeros
La distribucin, referente a la forma en cmo se reparten los nmeros en el

intervalo donde existen, de un lote de nmeros puede investigarse de varias
formas. En una escala de aumento de complejidad podemos incluir a los
diagramas univariados de dispersin, los diagramas de puntos, los diagramas de
tallo y hoja, los diagramas de caja y a los histogramas y sus variantes mejoradas.
La representacin grfica de la frecuencia de datos agrupados (histograma
polgono de frecuencia) permite entender la distribucin de una manera muy
sencilla. En estos diagramas podemos reconocer caractersticas de reparticin
tales como simetra, sesgo (positivo o negativo) y multimodalidad.
En esta seccin se presentarn los procedimientos no incluidos en las

anteriores haciendo nfasis en los histogramas suavizados, una variante
mejorada de estos desplegados que evita algunos de los inconvenientes de los
mtodos tradicionales.
2
1
0
100 120 140 160 180

Anchura mandibular (mm)
Figura 4.1 Diagrama univariado de dispersin para la anchura mandibular en

crneos de hembras de Macropus fuliginosus
47
Diagramas univariados de dispersin y de puntos
La representacin grfica ms sencilla de un lote de nmeros es el

diagrama univariado de dispersin el cual no es ms que representar mediante
algn smbolo, a cada uno de los datos sobre un eje graduado con la escala de
medicin de las observaciones (Figura 4.1). Este diagrama permite reconocer de
manera muy general el lugar ( lugares) en la escala donde los nmeros se
concentran (nivel), que tan alejados estn entre s (dispersin), cmo estn
repartidos (distribucin) y si existen datos marcadamente alejados de los dems
(casos extraordinarios). El inconveniente principal es que no se pueden
diferenciar valores muy prximos o repetidos, por lo que un punto individual en
el grfico pudiera estar representando varios valores.
La solucin a este problema es el diagrama de puntos, el cual en lugar de

sobreponer los valores los acumula uno a uno (Figura 4.2). En este desplegado
podemos apreciar cada uno de los 25 datos y saber adems que hay valores
repetidos dos y tres veces. Cabe sealar que en la versin presentada aqu (del
programa estadstico Stata, versin 8.0), la escala numrica se dispone
verticalmente y la frecuencia es horizontal.
180
160
hembras
140
120
100
1 2 3 4
Frecuencia
Figura 4.2 Diagrama de puntos para la anchura mandibular en crneos de

48
Histogramas
El histograma es la versin grfica de un cuadro de frecuencias. Existen

evidencias de que Galileo Galilei utilizaba estos cuadros para resumir los
resultados numricos de sus experimentos (Hald, 1990; Scott, 1992). En la
literatura estadstica el trmino apareci con Pearson en 1894 (Beniger y Robin,
1978; Tarter y Kronmal, 1976). Desde esa poca, este mtodo estadstico ha sido
ampliamente utilizado. El histograma es un simplificador de datos que utiliza
intervalos dentro de su Recorrido (valor mximo valor mnimo) y el nmero de
observaciones (frecuencia) que contienen. Un histograma queda caracterizado por
dos valores: el origen y el nmero (o amplitud) de intervalos. A continuacin se
presentan dos histogramas con el mismo origen (105) pero con diferente nmero
de intervalos:
a} b}
10
5
8
4
6
3
Frecuencia
Frecuencia
4
2
2
1
0
100 120 140 160 180 100 120 140 160 180
Anchura mandibular (mm) Anchura mandibular (mm)
Figura 4.3 Histogramas para la anchura mandibular en crneos de hembras de

Macropus fuliginosus; origen = 105; a} cinco intervalos; b} 15 intervalos
Para los mismos datos, el histograma de la izquierda presenta lo que

pudiera ser una distribucin gaussiana (normal), mientras que el de la derecha
da una impresin ms ruidosa (varios mximos de frecuencia, es decir, varias
modas).
49
El siguiente par de histogramas utiliza un mismo nmero de intervalos

(diez) pero origen diferente de 100 y 105, respectivamente (Figura 4.4)
a} b}
8
8
6
6
Frecuencia
Frecuencia
4
4
2
2
0
100 120 140 160 180 100 120 140 160 180
Figura 4.4 Histogramas para la anchura mandibular en crneos de hembras de

Macropus fuliginosus; diez intervalos y origen = a} 100 y b} 105
Se puede apreciar para los mismos datos que el de la izquierda tiene una
sola moda principal, mientras que el derecho posee dos modas.
De los cuatro histogramas presentados anteriormente Cul es el que

representa adecuadamente la distribucin de estos nmeros?
Nmero o amplitud de intervalos
Para contestar esta interrogante es necesario tomar en cuenta sugerencias

provenientes de la teora estadstica (Salgado-Ugarte, 2002). Considerando la idea
general de obtener el histograma ms parecido a una distribucin terica
gaussiana se han propuesto varias estrategias. Una de las primeras es la de
Sturges (1926) que sugiere que el nmero ptimo de intervalos para un
histogramas de datos con distribucin binomial (y por extensin gaussiana) est
dado por:
k = 1 + log 2 n (1)
50
donde k es el nmero de intervalos y n el nmero de observaciones. Para los

datos de anchura mandibular esta expresin resulta en:
k = 1 + log10(25) / log10(2) = 1 + 1.39794/0.30103 = 1 + 4.6439 = 5.6439
Estas medidas craneales se esperan tengan una distribucin gaussiana ya

que provienen de hembras adultas de una especie y por tanto el nmero de
intervalos obtenidos (redondeado a 6) puede ser adecuado).
Bajo la misma idea general de obtener el histograma ms cercano a una

distribucin terica, Scott (1979) propuso una expresin para la amplitud ptima
de intervalo de histogramas para datos gaussianos:
/
3.5 (2)
donde h es la amplitud de banda estimada y es una estimacin de la

desviacin estndar de los datos. Para las medidas de anchura mandibular, cuya
desviacin estndar es de 13.2177, esta expresin produce:
3.5*13.2177*25^(-1/3) = 15.8213
Intervalos con anchura de 15 (se prefiere truncar la cifra) producen un

histograma que representa adecuadamente a estos datos.
a} b}
10
10
8
8
6
6
Frecuencia
Frecuencia
4
4
2
2
0
100 120 140 160 180 100 120 140 160 180
51
Figura 4.5 Histogramas (origen = 105) para la anchura mandibular en crneos de

hembras de Macropus fuliginosus; con nmero ptimo de intervalos de Sturges (6)
a} y amplitud de intervalo ptima de Scott (15) b}.
Las expresiones presentadas anteriormente funcionan bien si los datos

provienen de una distribucin gaussiana (normal). En el caso de distribuciones
sesgadas o multimodales, los valores resultantes no son los ptimos y ser
necesario ajustarlos, ya sea aumentando el nmero de intervalos o disminuyendo
la amplitud de intervalo. Mayores detalles se incluyen en Salgado-Ugarte (2002).
Estimadores de densidad por kernel
No hay duda de que el histograma es un procedimiento estadstico de gran

utilidad. Sin embargo, con un punto de vista ms enfocado en un anlisis
detallado de la distribucin de datos, presentan cuatro problemas (Tarter y
Kronmal, 1976: Silverman, 1986; Fox, 1990):
- dependen del origen
- dependen del nmero (o amplitud) de intervalos
- son discontinuos (cuadrados)
- utilizan intervalos de amplitud fija
Estos problemas han motivado el desarrollo de nuevos procedimientos. Para

atacar la dependencia del origen se sugiere centrar la estimacin de la frecuencia
en la posicin de cada dato, en lugar de hacerlo en la marca de clase del intervalo
(Chambers, et al. 1983); adicionalmente, en lugar de utilizar cuadrados para
representar a cada nmero, se sugiere el empleo de curvas que maximizan el
valor en el centro y disminuyen gradualmente hacia los extremos (estilo
gaussiano). Estas dos estrategias conducen hacia los estimadores de densidad
por kernel (Rosenblatt, 1956). La densidad es otra escala de la frecuencia y el
kernel se refiere a la curva que se utiliza para representar a cada dato. La
expresin que define a estos estimadores es:
(3)
En donde f ( x) es la estimacin de la densidad (frecuencia), n es el nmero de

datos, h es la amplitud de banda (intervalo) y K() es el kernel o sea la funcin
que define el peso de cada dato en la estimacin de frecuencia (forma de la curva
para cada observacin). El cuadro 4.1 muestra las funciones ponderales ms
52
comunes. Con excepcin del kernel uniforme, todas estas funciones varan
gradualmente con una altura mxima en el centro y valores mnimos hacia los
extremos (figuras 4.6 y 4.7). Notar que el sostn de las funciones es de -1 a 1 con
excepcin del kernel uniforme que se calcula desde - a +, aunque en la
prctica los algoritmos se limiten a un intervalo menor (como de -4 a 4).
Cuadro 4.1 Expresiones kernel ms

comunes
Kernel K(z)
Uniforme I(|z| 1)
Triangular (1 - |z|) I(|z| 1)
Epanechnikov (1 - z2) I(|z| 1)
Curtico (15/16)(1 - z2)2 I(|z|
1)
Triponderado 2 3
(35/32)(1 - z ) I(|z|
1)
Coseno (/4)cos((/2)z) I(|z|
1)
Gaussiano (1/2)exp((-1/2)z2
a} b}
1
1
.5
.5
0
-1 -.5 0 .5 1 -1 -.5 0 .5 1
Uniforme Triangular Curtico Triponderado

Epanechnikov Coseno
Figura 4.6 Funciones ponderales (kerneles) comunes
53
La eleccin de la funcin ponderal para estimar la distribucin de

frecuencia depende de razones prcticas, anteriormente de la disponibilidad de
algoritmos para el clculo ya que la eficiencia terica de cada una de ellas es muy
semejante. Actualmente es posible utilizar cualquiera de las funciones incluidas
en el Cuadro 4.1. Utilizando estas funciones es posible adems, convertir una
estimacin con un kernel en otra con funcin ponderal diferente mediante
factores de conversin adecuados. Detalles de esto se encuentran en Salgado-
Ugarte (2002).
.4
.3
.2
.1
0
-4 -2 0 2 4
Figura 4.7 Funcin ponderal (kernel) gaussiano.
Con estos estimadores ya no es necesario pensar en el origen y el resultado

es una curva suave que trata de recuperar la naturaleza continua de la variable
original. El problema de la amplitud de banda (intervalo) persiste y as como en el
caso de los histogramas, se han propuesto expresiones para determinarla.
Reglas prcticas para determinar amplitud de banda
Utilizando una distribucin normal (gaussiana) como referencia, Silverman

lleg a una expresin para amplitud ptima de banda:
54
/
1.06 (4)
En donde h se refiere a la banda ptima, A es una estimacin adaptativa de la

dispersin (el valor menor de la desviacin estndar la Pseudosigma) y n es el
nmero de datos.
Por otra parte, Terrell y Scott (1985) propusieron las amplitudes

sobresuavizadas, las cuales representan un lmite superior para el ancho de
intervalo de histogramas y polgonos de frecuencia as como de banda para
estimadores de densidad por kernel. Amplitudes iguales o mayores a los dados
por sus expresiones llevan a representaciones de la distribucin con
simplificacin exagerada (sobresuavizada). La utilidad de las distribuciones
conservadoras con el valor mnimo sobresuavizado dan un respaldo estadstico
para la estructura resultante sean unimodales, sesgadas o multimodales.
Para un kernel gaussiano, la amplitud de banda sobresuavizada es (Terrell,

1990; Scott, 1992):
/
1.144 (5)
En donde h es la amplitud de banda sobresuavizada, es la estimacin de la

OS
desviacin estndar y n es el nmero de datos.
Con los estimadores de densidad por kernel, la estrategia para analizar la

distribucin de un lote de nmeros es:
1) Aplicar la amplitud de banda sobresuavizada y observar la estructura

resultante.
2) Aplicar la amplitud de banda ptima.
3) Si en 1) se obtuvo una curva semejante a la gaussiana, se termina con el paso
2). Si en el paso 1) se obtuvo una estructura complicada (colas gruesas, sesgo,
multimodalidad) se debe disminuir la amplitud.
Qu tanto se debe decrecer el ancho de banda puede hacerse con reglas

como la de Sheather-Jones (1991) o con procedimientos ms sofisticados de
cmputo intensivo como la validacin cruzada (por mnimos cuadrados o sesgada)
o la prueba bootstrap de Silverman para multimodalidad (Hrdle, 1991; Scott,
1992; Salgado-Ugarte, 2002; Salgado-Ugarte y Prez-Hernndez, 2003).
Una recomendacin emprica para datos multimodales que se ha visto

funciona bien es el utilizar la mitad del valor de amplitud ptima como referencia
preliminar para representar la distribucin.
55
Ejemplos
Para los datos de anchura mandibular de hembras de Macropus fuliginosus,

las amplitudes sobresuavizada y ptima son:
Amplitud sobresuavizada = hOS = 1.144(13.2177)25(-1/5) = 7.9431
Ampitud ptima de Silverman = 0.09(13.2177) 25(-1/5) = 6.2490
Los EDKs correspondientes se presentan en las figuras 4.8 y 4.9. Como era
de esperar, el estimador sobresuavizado es muy parecido a una campana de
Gauss salvo por alguna indicacin de colas gruesas. El EDK ptimo hace patente
la existencia de valores en los extremos (menor y mayor) algo separados de la
tendencia gaussiana de los dems. Para conclusiones ms slidas sobre la
distribucin sera necesario aumentar el tamao de la muestra. Con 25 datos, el
resultado es bastante gaussiano como para respaldar la aplicacin de mtodos
estadsticos confirmatorios tradicionales.
.03
.02
Densidad
.01
0
100 120 140 160 180

Figura 4.8 Estimador de densidad por kernel gaussiano con amplitud de banda
sobresuavizada (7.94) para anchura mandibular de hembras del canguro
Macropus fuliginosus.
56
.03
.02
Densidad
.01
0
100 120 140 160 180

ptima (6) para anchura mandibular de hembras del canguro Macropus
fuliginosus.
Duracin de erupciones del gyser Old Faithful
Como ejemplos adicionales se presentan los datos reportados por Weisberg

(1985) acerca de la duracin de perodos eruptivos del giser Old Faithful del
parque nacional de Yellowstone en Estados Unidos de Amrica. Los EDKs
(sobresuavizado y ptimo) se presentan en las figuras 4.10a y 4.10b. Resulta
claro que la distribucin de la duracin de erupciones es bimodal, con una moda
menor a los 1.87 minutos y otra mayor con duracin de un poco ms de 4
minutos.
57
a} b}
.5
.5
.4
.4
.3
.3
Densidad
Densidad
.2
.2
.1
.1
0
0
0 2 4 6 8 0 2 4 6 8
Duracin de erupcin (min) Duracin de erupcin (min)
Figura 4.10 Estimadores de densidad por kernel gaussiano con amplitud de

banda sobresuavizada (0.467) a} y ptima (0.36) para la duracin de erupciones
del giser Old Faithful en Yellowstone, E.U.A.
Cuadro 4.2 Duracin en minutos de 107 erupciones sucesivas del

giser Old Faithful del parque nacional de Yellowstone, E.U.A.
(modificados de Weisberg, 1985)
4.37 3.92 3.83 3.77 4.33 4.00 4.33
3.87 3.68 1.88 3.75 2.93 1.80 1.83
4.00 3.10 4.60 2.50 4.58 4.42 4.53
4.03 4.03 1.80 4.50 1.90 1.90 2.03
3.50 1.77 4.73 4.10 3.58 4.63 4.18
4.08 4.08 1.77 3.70 3.73 2.93 4.43
2.25 1.75 4.57 3.80 3.73 3.50 4.07
4.70 3.20 1.85 3.43 1.82 1.97 4.13
1.73 1.85 3.52 4.00 4.63 4.28 3.95
4.93 4.62 4.00 2.27 3.50 1.83 4.10
1.73 1.97 3.70 4.40 4.00 4.13 2.72
4.62 4.50 3.72 4.05 3.67 1.83 4.58
3.43 3.92 4.25 4.25 1.67 4.65 1.90
4.25 4.35 3.58 3.33 4.60 4.20 4.50
1.68 2.33 3.80 2.00 1.67 3.93 1.95
4.83 4.12
58
Longitud de bagres
Un ejemplo multimodal se presenta con los datos reportados en Salgado-

Ugarte et al. (2000) de longitud patrn de hembras e indeterminados del bagre
Cathorops melanopus (n = 641). Los EDKs sobresuavizado y ptimo se incluyen
en la figura 4.11. Resulta muy clara la existencia de varios mximos de
frecuencia, con tres modas por lo menos. Esta distribucin multimodal indica
que el valor ptimo es demasiado grande para representarla adecuadamente.
a} b}
.02
.02
.015
.015
Densidad
Densidad
.01
.01
.005
.005
0
0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350
Longitud patrn (mm) Longitud patrn (mm)
Figura 4.11 Estimadores de densidad por kernel gaussiano con amplitud de

banda sobresuavizada (15.57) a} y ptima (11.7) para la longitud patrn de
hembras e indeterminados del bagre Cathorops melanopus
Siguiendo la recomendacin emprica de arriba, la amplitud de banda

ptima se divide en dos (11.72 / 2 6) y el estimador de densidad resultante se
incluye en la figura 4.12. Es evidente que los datos contienen cuatro modas (76.8,
139.2, 175.2 y 216) de longitud patrn que sugieren grupos de peces con
aproximadamente la misma edad (cohortes) que pueden utilizarse para estimar el
crecimiento de la especie.
La prueba de Silverman condujo a conclusiones semejantes (Cuadro 4.3).

Esta prueba indica que los datos son compatibles con la hiptesis estadstica de
cuatro modas. Considerando los valores crticos de amplitud de banda (ltimos
59
valores compatibles con un nmero dado de modas), se tiene que cuatro modas
se presentan de 9.63 a 3.88. Si se considera un valor intermedio (9.63 + 3.88)/2
= 6.75, la prueba de Silverman recomienda una banda un poco mayor que la
obtenida mediante la recomendacin emprica. Una explicacin detallada de la
aplicacin de esta prueba se presenta en Salgado-Ugarte (2002).
Cuadro 4.3 Resultados de la prueba de Silverman de multimodalidad

para datos de longitud patrn de bagres (n = 641)
Nmero de modas Banda crtica Probabilidad
1 23.36 0.0000
2 19.43 0.0000
3 9.64 0.1750
4 3.88 0.7330
5 3.23 0.7750
6 3.09 0.6000
Nota: Los valores de probabilidad se obtuvieron de B = 120 muestras
repetidas con reemplazamiento (bootstrap) de tamao 641. Los valores en
negritas indican el nmero de modas estadsticamente significativo
.025
.02
.015
Densidad
.01 .005
0
0 50 100 150 200 250 300

Longitud patrn (mm)
de 6 (mitad del valor ptimo) para la longitud patrn de hembras e
indeterminados del bagre Cathorops melanopus
60
Estimadores de densidad por kernel con amplitud de banda variable
Uno de los problemas del histograma que no es solucionado por los

estimadores anteriores es que tambin utilizan un ancho de banda (intervalo fijo).
Lo ideal sera que la banda fuera angosta en donde hay muchos datos (para
proporcionar detalle) y se hiciera amplia cuando hay pocos (para eliminar ruido).
Con los EDKs es posible programar un estimador que logre lo anterior. Un
ejemplo de tal algoritmo es el basado en la propuesta de Fox (1990) incluido en
Salgado-Ugarte, et al. (1993) posteriormente mejorado en Salgado-Ugarte y Prez-
Hernndez (2003). Los pasos requeridos son:
1) Calcular una estimacin preliminar de densidad utilizando un EDK de

amplitud fija de banda fK ( x)
2) En cada observacin Xi, calcular un factor local de banda, wi, inversamente
~ 1/ 2
fg
proporcional a la densidad estimada: w

f K ( X i )
1/ n
~ n
donde f g fK ( X i ) es la media geomtrica de f ( X i ) , y por tanto, los pesos wi
i 1
tienen un producto y media geomtrica igual a uno;
3) Utilizar los pesos para calcular el estimador de densidad por kernel de
1 n 1 x Xi
amplitud de banda variable: fA ( x) K
nh i 1 wi wi h
4) Iterar los pasos 2 y 3, utilizando fA en lugar de fK . En la prctica, la iteracin
produce poco cambio en la estimacin de densidad (Fox, 1990).
Debido a que este programa requiere el clculo de pesos locales para cada
observacin individual con base en una estimacin preliminar de densidad, el
tiempo requerido para finalizar el clculo es proporcional al nmero de
observaciones. Si se tiene un lote con muchos nmeros se requiere paciencia.
De acuerdo a Simonoff (1995) estos estimadores estn muy cerca de ser el

mejor mtodo para estudiar en detalle la distribucin de frecuencia de variables
continuas. Detalles y programas para calcular estos importantes estimadores se
incluyen en Salgado-Ugarte et al. (1993), Salgado-Ugarte (2002) y Salgado-Ugarte
y Prez-Hernndez (2003).
La figura 4.13 presenta el estimador con kernel gaussiano y amplitud de

banda variable (G = 6) para los datos de longitud de bagres. El resultado sigue
siendo tetramodal (77.85, 139.35, 171.33 y 215.61) pero puede notarse que la
separacin entre primera y segunda moda es ms acentuada y que la tercera se
ha suavizado un poco por contener pocas observaciones.
61
.025
.02
.015
Densidad
.01 .005
0
0 100 200 300

Longitud patrn (mm)
variable, con media geomtrica de 6 (mitad del valor ptimo) para la longitud
patrn de hembras e indeterminados del bagre Cathorops melanopus
Diagramas de violn
Por ltimo, se presenta una combinacin interesante de dos desplegados

exploratorios de gran utilidad para comparar lotes de nmeros. El diagrama de
violn fue sugerido por Hintze y Nelson (1998) y consiste en el empleo conjunto de
diagramas de caja y estimadores de densidad por kernel.
El diagrama de violn para los datos de anchura mandibular de canguros

(Figura 4.14) permite comparar los valores de machos y hembras. Los EDKs
estn centrados y dispuestos alrededor del diagrama de caja y en el eje vertical
estn rotulados la mediana y los valores mximo y mnimo. En este ejemplo es
claro el dimorfismo sexual en esta medida craneal, siendo los machos mayores
que las hembras, las cuales manifiestan una mayor dispersin en relacin a los
machos.
62
174
169
156
141
133
108
-.043394 sexo: 1 .043394 -.046985 sexo: 2 .046985
Figura 4.14 Diagramas de violn para anchura mandibular de machos (sexo: 1) y

hembras (sexo: 2) del canguro Macropus fuliginosus. De manera predeterminada
se utilizan anchos de banda ptimos.
63
Captulo 5. Re-expresin de los datos
Los elementos de nuestro inters se miden en escalas convencionales,

frecuentemente utilizadas. En el sistema decimal, las dimensiones lineales se
miden en metros, centmetros, milmetros; dimensiones superficiales o de
volumen utilizan metros cuadrados cbicos. Se puede decir que utilizamos
el sistema decimal debido al nmero de dedos que tenemos los humanos en
las extremidades superiores, pero bien podran utilizarse (y tal es el hecho con
las computadoras) sistemas con bases diferentes al diez: binario, hexadecimal,
etc. Las escalas utilizadas a menudo son elegidas por la disponibilidad de los
instrumentos disponibles y son unas de otras diferentes que pudieran
considerarse (Queen y Keough, 2002).
La re-expresin se refiere a la transformacin de las variables hacia una

escala de medicin diferente (Deleon y Anagnoson, 1991). En algunos lotes de
datos es posible observar que las observaciones presentan:
- Una fuerte asimetra (sesgo)
- Numerosos casos extraordinarios en un extremo
- Lotes con diferentes niveles tienen dispersiones muy distintas.
- Residuos grandes y sistemticos al ajustar un modelo simple a los

datos.
Estas caractersticas pueden ser problemticas para el entendimiento y

procesamiento de los datos. La transformacin puede aliviar estos problemas
en los valores (Emerson y Stoto, 1983). De esta forma los grupos de nmeros
se pueden hacer mas simtricos, su forma puede ser mas parecida a la
gaussiana, los casos extraordinarios debidos a la fuerte asimetra puede dejar
de serlo (y otros previamente ocultos pueden manifestarse), la dispersin de
varios lotes puede hacerse ms homognea y ser posible ajustar modelos
simples (lineales aditivos) a los datos (Marsh, 1988; Fowler, et al. 1998).
Dicha transformacin implica cambiar la forma de distribucin de los

datos, comprimiendo la escala en algunas partes del intervalo representado y
amplindola en otras. Lo anterior no puede lograrse sumando o restando un
nmero constante a cada valor en los datos, lo que cambia el nivel y
localizacin, pero no la forma de la distribucin. Tampoco se transforman los
datos multiplicando o dividindolos por un valor constante; esta operacin
implica un cambio en la escala (los valores se duplican, triplican, se vuelven la
65
dcima parte, etc.) pero la forma de la distribucin no sufre alteracin,

aunque la dispersin de las observaciones se cambia de acuerdo al mltiplo
utilizado (Siegel, 1988).
Si la adicin/substraccin o la multiplicacin/divisin no permiten la

re-expresin de los datos, entonces podemos pensar que una forma de lograr
lo anterior es modificar sus exponentes, es decir debemos cambiar la potencia
a la que estn elevados los valores.
5.1 Transformacin Potencial
Emerson y Stoto (1983) definen a la transformacin del lote con valores x1,
x2, ... , xn , como una funcin T que reemplaza cada valor de x1 por un valor
nuevo T(x1) de tal forma que los valores transformados son T(x1),..., T(xn). Como
se vio en la parte referente al grfico dispersin-nivel, resulta conveniente
utilizar una familia importante de transformaciones denominada
transformaciones potenciales, las cuales como su nombre lo indica, implican
una modificacin de la potencia a la que estn elevados los datos originales.
Existe un nmero infinito de potencias posibles a la cual pueden elevarse las
observaciones, sin embargo, en la prctica se utilizan aquellas incluidas en la
Escala de Potencias de Tukey, la cual contiene exponentes enteros o
constituidos por fracciones simples (Tukey, 1977; Emerson y Stoto, 1983;
Marsh, 1988). La definicin de transformacin arriba citada es muy amplia y
puede incluir desde la substitucin de todos las observaciones por un valor
constante, la categorizacin de los valores, o la aplicacin de funciones
matemticas complicadas adems de las sugeridas por la escala de potencias.
Sin embargo, en este captulo se considerarn los ltimos dos tipos, los cuales
han manifestado tener las siguientes caractersticas:
1) Preservan el orden de los datos (aunque se modifica el espaciado

entre los valores.
2) No alteran los resmenes de letras de los lotes de datos, debido a que

los valores de las letras estn basados en el orden de las observaciones (la
profundidad de los valores sigue siendo la misma).
3) Estas funciones de transformacin son continuas.
4) Estas funciones tambin son suaves en cuanto a que tienen

derivaciones de todos los rdenes (las funciones por tanto no tienen esquinas
agudas).
5) Estas funciones son simples, por lo que la re-expresin de los datos

puede lograrse fcilmente.
66
La escala de potencias de Tukey contiene las re-expresiones ms

sencillas y ampliamente utilizadas, por lo que conviene definirlas
formalmente:
Las transformaciones potenciales tienen la forma:
0
(5.1)
log 0
donde a, b, c, d y p son nmeros reales. Se requiere que a > 0 para p > 0 y a <
0 para p < 0 si se quieren cumplir con las condiciones 1 a 5 arriba listadas.
Los valores a, b, c y d son determinados por conveniencia, mientras que el de
p se escoge para ayudar en el anlisis de los datos (Emerson y Stoto, 1983).
Los valores de las constantes a, b, c y d pueden determinarse de

acuerdo al contexto de trabajo. Existen tres situaciones que son comunes:
a) Cuando se desea re-expresar los datos de la manera ms sencilla,

obtenindose la siguiente variacin de las expresiones contenidas en la
definicin 4.1:
0
log 0 (5.2)
0
b) Cuando se quiere comparar transformaciones entre s y examinar sus

propiedades matemticas y geomtricas, utilizando para ello las expresiones:

0
(5.3)
ln 0
donde ln x no es mas que el logaritmo natural (neperiano o de base e) de x.
c) Cuando se quiere re-expresar un lote de datos de tal forma que el

conjunto de valores transformados se asemeje a los originales en cuanto a
nivel, localizacin y dispersin. Para esto se escogen las constantes de las
ecuaciones dadas en (5.1) por un proceso denominado emparejamiento.
La eleccin de las constantes de 5.1 se hace por conveniencia y para

facilitar la interpretacin y no por necesidad o para cambiar la esencia del
comportamiento.
67
5.2 Razones para transformar
Existen varios motivos para re-expresar los datos originales. Entre ellos
pueden citarse (Emerson y Stoto, 1983; Marsh, 1988):
- Facilitar la interpretacin en una forma natural
- Promover simetra en un lote de datos
- Hacer ms gaussiana a la distribucin
- Remover casos extraordinarios en distribuciones fuertemente

asimtricas (y hacer evidentes otros previamente ocultos)
- Promover la estabilidad (homogeneidad) en la dispersin de varios

lotes
- Promover linealidad en la relacin de dos variables
- Simplificar la estructura en una tabla de dos o ms vas de

clasificacin de forma que pueda ajustarse un modelo aditivo simple
Re-expresin para facilitar la interpretacin
Algunas veces, el cambio de la escala de medicin es natural debido a que

proporciona una forma alterna de reportar la informacin. Por ejemplo, debido
a que la escala centgrada (Celsius) de temperatura se basa en un fenmeno
natural ampliamente conocido (divide en cien partes o grados la distancia
recorrida por el mercurio del termmetro entre la congelacin y evaporacin
del agua) resulta mas conveniente que la escala utilizada en los pases
anglosajones (Fahrenheit). La transformacin de grados Fahrenheit (F) a
Celsius (C) involucra una funcin lineal:
5
32
9
En otras ocasiones, el analizar un conjunto de datos en una escala
nueva puede mejorar su comprensin, an cuando la escala re-expresada
parezca menos natural que la original. Por ejemplo, considerar una poblacin
de peces en un reservorio reciente con las condiciones propicias para el
desarrollo de los peces que permita un crecimiento proporcional al nmero de
peces existente en cualquier momento; en tales circunstancias el tamao
poblacional es una funcin exponencial del tiempo. Si esto ocurre, los valores
logartmicos de la poblacin, al graficarse contra el tiempo, describirn un
68
patrn aproximadamente lineal. Aunque resulta difcil entender el significado

de los logaritmos de la poblacin, resulta sencillo interpretar una tendencia
rectilnea, resultando sencillo observar cuando el crecimiento es proporcional
al tamao poblacional y determinar desviaciones notorias del patrn,
indagando sus causas.
5.3 Transformacin para Promover Simetra
La simetra en un lote de nmeros es una propiedad deseable; las

estimaciones del nivel se comportan mejor y resultan mejor entendibles
cuando provienen de una distribucin simtrica. Para verificar la existencia de
simetra se utiliza una serie de valores centrales provenientes de los
resmenes de letras. Cada resumen central se determina por el promedio de
los pares correspondientes de valores de letras. De esta manera podemos
hablar del centro de cuartos, centro de octavos; se utiliza tambin el centro
de intervalo para referirse al centro de extremos.
Estos resmenes centrales (para todas las letras posibles del conjunto
de datos) debern ser iguales a la mediana en una distribucin simtrica; si
existe sesgo hacia la derecha, los valores centrales aumentarn gradualmente
al avanzar hacia los valores extremos; si el sesgo es hacia la izquierda se
notar un patrn decreciente en los valores centrales. Al utilizar a los
resmenes centrales se obtiene resistencia que revelar en algunos casos que
la aparente asimetra es debida a la presencia de unos cuantos valores
extraordinarios que afectarn slo a los resmenes centrales de los extremos
de la secuencia de datos (Emerson y Stoto, 1983).
Para observar lo anterior se utilizarn los datos del peso total de los
bagres (Arius melanopus) de la laguna de Tampamachoco, Ver., capturados de
1980 a 1981 (Salgado-Ugarte, 1985). Se analiz una muestra de 2439
individuos cuyo resumen de letras se proporciona en la Tabla 5.1.
Puede comprobarse que los valores centrales son el promedio de los

resmenes inferior y superior correspondientes. Por ejemplo el centro de
cuartos (rotulados por la letra F) es igual a:
1
6.80 92.4 49.600
2
Al sustituir los valores correspondientes se calcula el total de los valores
centrales. En esta Tabla (5.1), es claro apreciar que existe una tendencia al
incremento de los valores centrales al acercarse a los extremos de la
distribucin (al disminuir la profundidad): el centro de W es aproximadamente
69
cuatro veces la mediana. Esta tendencia muestra indiscutiblemente que la

distribucin de los valores est sesgada a la derecha.
Para encontrar la re-expresin que produzca valores con una

distribucin simtrica se utiliza una tcnica grfica analtica anloga al grfico
dispersin-nivel (discutido en el captulo referente a los diagramas de caja
mltiples) denominado grafico de transformacin para la simetra.
Tabla 5.1 Resumen de letras para una muestra de pesos de bagres (Arius
melanopus) de la laguna de Tampamachoco, Ver. (Peso total en gramos)
N = 2439
Profundidad Inferior Central Superior
M 1220.0 30.500
F 610.5 6.80 49.600 92.40
E 305.5 5.00 66.375 127.75
D 153.0 3.80 75.600 147.40
C 77.0 3.00 84.400 165.80
B 39.0 2.50 91.850 181.20
A 20.0 2.10 100.050 198.00
Z 10.5 1.80 108.500 215.20
Y 5.5 1.55 113.300 225.05
X 3.0 1.40 117.200 233.00
W 2.0 1.30 120.250 239.20
1.0 1.20 120.550 239.90
Este procedimiento est basado en las siguientes expresiones:

(5.4)

en donde M es la mediana; xU y xL son los valores de letras superior (U del

ingls "upper") e inferior (L del ingls "lower"). El resultado de la ecuacin 4.4
se coloca en el eje horizontal. Asimismo la expresin:

(5.5)
se colocar en el eje vertical. S el patrn de los puntos es aproximadamente

lineal, la diferencia de uno menos la pendiente indicar la potencia de la
transformacin para la simetra.
70
Como suele suceder con otros grficos de diagnstico, esta potencia es

la primera aproximacin en la determinacin de una re-expresin adecuada
de los datos. Es comn que se obtenga mejora en la simetra, pero quizs
pueda aplicarse otra transformacin que conduzca hacia un mejor
comportamiento. La expresin que define formalmente a la transformacin es:
(5.6)
Para potencias positivas, la constante k se hace igual a 1, y para las

negativas, k ser -1. Si la potencia es cero, entonces se aplica la
transformacin logartmica. Podemos hacer notar que la expresin 5.5 mide la
distancia entre la mediana y el valor central correspondiente para cada letra
del resumen. De esta forma, si la distribucin es perfectamente simtrica,
entonces 5.5 dar como resultado ceros.
Las estimaciones de la potencia dadas en la columna (5) de la Tabla 5.2

se han obtenido resolviendo para cada letra la siguiente expresin:
p = 1 - (columna 3)/(columna 4) (5.7)
Los puntos de la Tabla 5.2 (columna 4 columna 3) se han graficado en

la Figura 5.1. Los diez puntos muestran un alejamiento sistemtico de la
linealidad. Los puntos correspondientes a los valores de letras internos
indican una asimetra mayor que los puntos para las letras de los extremos
(considerando los exponentes de re-expresin).
Tabla 5.2 Clculos del grfico de transformacin para simetra en los pesos de
bagres
(1) (2) (3) (4) (5)
Valor Estimacin
de letra 2 4 de
potencia
F 6.800 92.400 19.10 36.01 0.469601
E 5.000 127.750 35.88 82.85 0.566993
D 3.800 147.400 45.10 117.86 0.617331
C 3.000 165.800 53.90 156.25 0.655037
B 2.500 181.200 61.35 192.58 0.681427
A 2.100 198.000 68.55 236.58 0.706019
Z 1.800 215.200 78.00 286.38 0.727630
Y 1.550 225.050 82.80 317.11 0.738894
X 1.400 233.000 86.70 343.06 0.747272
W 1.300 239.200 89.75 364.00 0.753435
Nota: la mediana M es 30.5; las columnas con datos numricos se han
redondeado a las cifras indicadas
71
Puede notarse que la estimacin de la potencia de re-expresin vara

para cada letra del resumen. Para obtener una estimacin que no est
afectada por unos cuantos puntos que se alejen del comportamiento de la
mayora podemos elegir la mediana de las potencias de la Tabla 5.2 (Columna
5). Por lo tanto la potencia de la transformacin ser:
(0.681427 + 0.706019)/2 = 0.693923
La lnea recta de la Figura 5.1 tiene pendiente que es el complemento

del anterior valor mediano de la potencia (1 0.693923 = 0.306077). Esto es
equivalente al valor mediano de las pendientes de las rectas de cada uno de
los puntos con el origen (Emerson y Stoto, 1983).
Para conservar la simplicidad en el clculo e interpretacin de la

transformacin, en la prctica no se utiliza una potencia cuyo valor sea
exactamente el valor obtenido de los pasos anteriores. En lugar de esto la
potencia resultante se redondea al nmero entero o fraccionario ms cercano.
Para los datos del ejemplo, se considera la potencia de 1/2 (0.5), que
representa la re-expresin por raz cuadrada; s el resultado no resulta lo
suficientemente simtrico entonces se puede probar el siguiente exponente en
la escala de potencias.
En la Tabla 5.3 se han incluido los valores de letras correspondientes a

la transformacin por raz cuadrada y logartmica. Por medio de este cuadro
es posible comparar la asimetra de los valores resultantes a travs del
examen de los valores centrales, buscando la existencia de tendencias.
Tabla 5.3 Resmenes de letras con valores centrales para los datos de peso
total de bagres re-expresados en escala de raz cuadrada y logaritmos
Escala de raz cuadrada Escala Logartmica
N = 2439
Letra Prof.
M 1220.0 5.523 1.484
F 610.5 2.608 7.043 9.612 0.833 1.695 1.966
E 305.5 2.236 8.147 11.303 0.699 1.822 2.106
D 153.0 1.949 8.695 12.141 0.580 1.879 2.168
C 77.0 1.732 9.187 12.876 0.477 1.926 2.220
B 39.0 1.581 9.584 13.461 0.398 1.963 2.258
A 20.0 1.449 10.002 14.071 0.322 2.000 2.297
Z 10.5 1.342 10.416 14.670 0.255 2.035 2.333
Y 5.5 1.245 10.644 15.002 0.190 2.054 2.352
X 3.0 1.183 10.826 15.264 0.146 2.069 2.367
W 2.0 1.140 10.966 15.466 0.114 2.080 2.379
1.0 1.095 10.980 15.489 0.079 2.081 2.380
72
100
80
Columna 3
60
40
20
0
0 100 200 300 400

Columna 4
Figura 5.1 Grfico de transformacin para simetra para los datos del peso
total de bagres (la pendiente de la recta es aprox. 0.3 con origen en cero).
Tabla 5.4 Resumen de letras con valores centrales para los datos de peso
total de bagres re-expresados en escala del inverso negativo de la raz
cuadrada
Inverso negativo de raz cuadrada
N = 2439
Letra Profundidad
M 1220.0 -0.181
F 610.5 -0.383 -0.142 -0.104
E 305.5 -0.447 -0.123 -0.088
D 153.0 -0.513 -0.115 -0.082
C 77.0 -0.577 -0.109 -0.078
B 39.0 -0.632 -0.104 -0.074
A 20.0 -0.690 -0.100 -0.071
Z 10.5 -0.745 -0.096 -0.068
Y 5.5 -0.803 -0.094 -0.067
X 3.0 -0.845 -0.092 -0.066
W 2.0 -0.877 -0.091 -0.065
1.0 -0.913 -0.091 -0.065
73
Como se anot previamente, los datos originales tienen resmenes

centrales con una tendencia consistente al incremento con la disminucin de
la profundidad. Los valores de raz cuadrada, siguen mostrando la misma
tendencia aunque en menor grado. Dicha tendencia se observa an en la re-
expresin logartmica, por lo que podramos pensar en la transformacin que
le sigue en la escala de potencias, es decir el inverso negativo de la raz
cuadrada. El resumen de letras para esta nueva escala se muestra en la Tabla
5.4. En dicha tabla puede notarse que ahora existe una tendencia a la
disminucin en los valores centrales al disminuir la profundidad (lo que indica
un sesgo hacia valores menores, tendencia opuesta a la presentada por los
datos originales).
Lo anterior sugiere que dicha transformacin es demasiado severa en la

re-expresin de los datos. Adems, si comparamos el grado de crecimiento
disminucin utilizando la razn entre el valor central mayor/valor central
menor obtenemos los siguientes resultados:
Escala
Raz cuadrada: 10.980/5.23 = 2.099
Logartmica: 2.081/1.484 = 1.402
Inverso negativo de la raz cuadrada: -0.181/-0.091 = 1.989
Una tendencia semejante se obtiene si en lugar de considerar a la

mediana y a los extremos, se calcula el cociente entre medianas y los valores
de la letra B, es decir a la parte central de los datos (realizando siempre el
cociente del valor mayor/valor menor de cada par).
Por tanto, de las tres transformaciones la que muestra el menor cambio

es la escala logartmica, por lo que para fines exploratorios parece ser
conveniente utilizar a dicha escala para promover la simetra en los datos.
Una forma de hacer ms simple la eleccin de la escala es utilizar las
transformaciones emparejadas.
5.4 Re-expresin Para Otras Estructuras en los Datos
La transformacin de los datos es til cuando se trabaja con datos que poseen
estructuras diferentes. Entre estas cabe citar cuando se analizan varios lotes
con diferentes niveles, pares de variables relacionadas (datos x-y) y tablas con
dos vas de clasificacin (de dos factores).
74
Re-expresin para estabilizar la dispersin
Al realizar comparaciones de lotes de datos es comn que se encuentren a

diferentes niveles. Es posible tambin que (si se trabaja con cantidades o
conteos) se presente una relacin sistemtica entre la dispersin y el nivel: al
aumentar el nivel se incrementa la dispersin. Esto pudo observarse en la
parte referente a los diagramas de caja mltiples, con el ejemplo del nmero
de habitantes de las 10 ciudades ms pobladas de once pases del continente
americano (Captulo 3). Como se explic en dicho captulo, la transformacin
de los datos reduce o elimina la dependencia de la dispersin respecto al nivel,
lo que trae como consecuencia que los datos:
- Podrn compararse y explorarse visualmente de manera ms sencilla
- Sern ms apropiados para la aplicacin de procedimientos

confirmatorios (el anlisis de varianza de una va de clasificacin supone una
varianza constante entre los grupos.
- Se volvern ms simtricos y con menos casos extraordinarios

(Emerson y Hoaglin, 1983).
En el ejemplo de las capturas pudieron apreciarse en mayor o menor

detalle estos efectos favorables para el anlisis de la informacin. Asimismo,
se revis un procedimiento grfico-analtico para la determinacin de la
transformacin adecuada (el grfico dispersin- nivel) que promueve la
estabilizacin de la dispersin.
Re-expresin para promover linealidad
Los datos se presentan como mediciones de dos o ms variables, las cuales

pueden estar relacionadas. Cuando la tendencia entre las variables es lineal,
resulta sencillo interpretar su relacin, las desviaciones del ajuste se detectan
fcilmente y es posible interpolar y extrapolar (dentro de lmites razonables)
valores. Sin embargo, en ocasiones, el grfico de dispersin de variables x-y
muestra un patrn curvilneo. La re-expresin de una o ambas variables
puede hacer lineal la relacin originalmente curva.
El procedimiento que se revisar a continuacin consiste en la

determinacin y comparacin de pendientes de fracciones de los pares x-y,
para la eleccin de la transformacin adecuada. Este mtodo est relacionado
directamente con la lnea resistente, procedimiento que se explica en el
Captulo 6. Por tanto, slo se explicarn los pasos necesarios para probar la
linealidad de la relacin y la forma de elegir una re-expresin.
75
Para ilustrar lo anterior se utilizar un ejemplo de biometra de peces.

Una forma preliminar de evaluar el crecimiento de los organismos es analizar
la relacin entre su peso y la longitud. Esta relacin permite conocer si dicho
crecimiento es isomtrico (las partes del cuerpo crecen siempre en la misma
proporcin) o alomtrico (que implica un crecimiento variable de las partes).
Los datos se han tomado del ya citado trabajo sobre el bagre estuarino
Arius melanopus de la laguna de Tampamachoco en Veracruz (Salgado-Ugarte,
1985) considerando a las hembras y juveniles de un muestreo mensual (Tabla
5.5). Dicha tabla contiene los valores de Longitud Patrn (medida en mm
desde la punta del hocico hasta el extremo del lbulo carnoso de la cola) y el
Peso Total (en gr). Dichos puntos se presentan en la Figura 5.2, en la cual se
aprecia una tendencia curvilnea en la relacin.
Tabla 5.5 Datos de longitud patrn y peso total de bagres para promocin de
linealidad (muestra de mayo).
No. Sexo Longitud Peso No. Sexo Longitud Peso
patrn total patrn total
(mm) (gr) (mm) (gr)
1 2 145 43.1 25 2 175 68.4
2 2 127 24.8 26 2 167 76.1
3 2 158 55.8 27 2 117 23.6
4 2 193 107.4 28 2 186 86.8
5 2 153 46.9 29 2 105 18.2
6 2 166 70.7 30 2 112 20.1
7 2 98 13.5 31 2 135 39.5
8 2 220 161.1 32 2 239 196.4
9 2 167 83.2 33 3 105 17.6
10 2 240 181.5 34 3 104 13.8
11 2 174 105.7 35 3 100 14.2
12 2 214 147.4 36 3 111 17.9
13 2 147 41.8 37 3 107 16.7
14 2 187 101.0 38 3 103 12.5
15 2 227 183.7 39 3 155 46.9
16 2 240 167.6 40 3 118 20.3
17 2 204 130.6 41 3 98 12.4
18 2 185 106.1 42 3 119 23.3
19 2 222 137.4 43 3 101 14.1
20 2 236 141.6 44 3 108 16.2
21 2 210 137.8 45 3 108 17.0
22 2 227 148.7 46 3 124 25.1
23 2 106 18.4 47 3 123 25.5
24 2 100 15.1
Nota: La clave para el sexo vale 2 para hembras y 3 para individuos
inmaduros.
76
Para verificar la existencia de una tendencia lineal en los datos se

determinan las pendientes de mitad (o para brevedad pendientes-mitad).
Como primer paso los pares se ordenan de acuerdo a x y posteriormente el
total se divide en tres partes aproximadamente iguales y simtricas en cuanto
al nmero de datos. Si al dividir el nmero de datos sobra un punto este se
coloca en la mitad central; si sobran dos, se disponen en las tercias izquierda
y derecha. Valores iguales de x se colocan en la misma tercia. Posteriormente
se determinan las medianas de x y y para cada tercia, independientemente de
su apareamiento. Estos puntos representan los puntos resumen y con ellos se
realizan dos estimaciones de pendiente mediante la expresin analtica de
pares de puntos: una correspondiente a la mitad izquierda (valores menores
de x) y la otra para la mitad derecha (valores mayores). Debido a que dichas
pendientes expresan la variacin de cada mitad de los pares es que se
conocen como pendientes-mitad (p-m). Enseguida se calcula el cociente de
estas pendientes de cada mitad: p-m derecha / p-m izquierda. Si dicha razn
no es igual a uno indica una variacin no-lineal, y por tanto, es necesario
buscar una transformacin que linearice la tendencia. Si el cociente es mayor
a 1 se requiere re-expresar la variable y hacia potencias menores en la escala
de Tukey, , re-expresar a x utilizando potencias mayores. Aunque es posible
modificar el exponente de y, el de x o de ambas variables, debido a que x es la
variable explicativa de la relacin, se recomienda primero transformar a y. Si
la razn de pendientes-mitad es menor a 1, entonces se requerir re-expresar
la potencia de y hacia potencias mayores, o la de x hacia exponentes menores
de la escala. Como en la mayor parte de los procedimientos exploratorios, este
proceso es iterativo: se re-expresan las variables, se verifica el cociente de
pendientes-mitad y se ajusta la transformacin hasta obtener un patrn lineal
aceptable.
Para la relacin longitud-peso de los bagres, los resultados de la

aplicacin de este mtodo se presentan en la Tabla 5.6. En primer lugar se
presentan los valores originales (columnas 1 y 2 de la Tabla 5.6a) y los
transformados (columnas 3 a 6 de dicha tabla). La razn de pendientes-mitad
para los datos originales es de 2.175 (Tabla 5.6b), por lo que, de acuerdo a lo
arriba citado, se hace necesaria una transformacin hacia potencias menores
de la escala. Primeramente se prueba la raz cuadrada a los datos de y
(columna 3), lo que produce una razn de 1.256, que si bien, es menor a la
anterior, parece susceptible de mejorar. Por tanto, se aplican logaritmos a los
valores de peso total (columna 4), y de esta forma se obtiene una razn igual a
0.732, valor que hace pensar que dicha transformacin ha invertido la
tendencia hacindola curva en sentido opuesto. En este paso, y habiendo
aplicado a y las potencias posibles de la escala, se prueba entonces
transformar a x, modificando su exponente hacia valores menores.
77
200
150
Peso total (gr)
100 50
0
100 150 200 250

Longitud patrn (mm)
Figura 5.2 Relacin longitud-peso para bagres
Primeramente se prueba la raz cuadrada de la longitud patrn

(columna 5), que resulta en un cociente de pendientes-mitad igual a 0.879,
que indica una reversin en la curvatura hacia la linealidad. Tomando como
base este resultado se aplica entonces la transformacin logartmica de las
longitudes (columna 6), lo que conduce a la mejor linearizacin de la
tendencia (razn de pendientes-mitad = 1.055).
De esta manera, podemos aplicar la re-expresin logartmica a los

valores de longitud patrn y peso total para obtener una tendencia lineal
adecuada (Figura 5.3). Esto es compatible con el conocimiento de que la
relacin longitud-peso en los peces suele apegarse a una expresin
matemtica potencial de la forma (Lagler, 1978):
en donde y es el peso; x la longitud; a y b son constantes empricas. La

transformacin logartmica lineariza la anterior expresin:
log log log
78
Si se substituye log y por y', log a por a' y log x por x', se tiene entonces
la expresin de una relacin lineal:
en donde, b representa el exponente de la expresin potencial, la pendiente

de la ecuacin rectilnea. Este valor es de importancia porque permite, por un
lado, tener conocimiento del grado de isometra del crecimiento de los
individuos: si b = 3 entonces se tiene un crecimiento isomtrico; si b 3
entonces los peces manifiestan un crecimiento alomtrico. Asimismo,
utilizando el valor de la pendiente de las variables re-expresadas es posible
comparar el crecimiento entre subpoblaciones por medio de pruebas
confirmatorias de regresin (comparacin de pendientes).
Tabla 5.6a Valores re-expresados para linealizacin de los valores de

Longitud patrn Peso total de bagres
(1) (2) (3) (4) (5) (6)
LP PT Raz PT Log PT Raz LP Log LP
98 12.4 3.5 1.093 9.899 1.991
98 12.5 3.5 1.096 9.899 1.991
100 13.5 3.7 1.130 10.000 2.000
100 13.8 3.7 1.139 10.000 2.000
101 14.1 3.8 1.149 10.050 2.004
103 14.2 3.8 1.152 10.149 2.013
104 15.1 3.9 1.178 10.198 2.017
105 16.2 4.0 1.209 10.247 2.021
105 16.7 4.1 1.222 10.247 2.021
106 17.0 4.1 1.230 10.296 2.025
107 17.6 4.2 1.245 10.344 2.029
108 17.9 4.2 1.252 10.392 2.033
108 18.2 4.3 1.260 10.392 2.033
111 18.4 4.3 1.264 10.536 2.045
112 20.1 4.5 1.303 10.583 2.049
117 23.6 4.9 1.372 10.817 2.068
118 20.3 4.5 1.307 10.863 2.072
119 23.3 4.8 1.367 10.909 2.076
123 24.8 5.0 1.394 11.091 2.090
124 25.1 5.0 1.399 11.136 2.093
127 25.5 5.0 1.406 11.269 2.104
135 39.5 6.3 1.596 11.619 2.130
145 41.8 6.5 1.621 12.042 2.161
147 43.1 6.6 1.634 12.124 2.167
79
Tabla 5.6a Valores re-expresados para linealizacin de los valores de

Longitud patrn Peso total de bagres (Continuacin)
(1) (2) (3) (4) (5) (6)
LP PT Raz PT Log PT Raz LP Log LP
153 46.9 6.8 1.671 12.369 2.185
155 46.9 6.8 1.671 12.450 2.190
158 55.8 7.5 1.746 12.570 2.199
166 70.7 8.4 1.849 12.884 2.220
167 76.1 8.7 1.881 12.923 2.223
167 83.2 9.1 1.920 12.923 2.223
174 105.7 10.3 2.024 13.19 2.241
175 68.4 8.3 1.835 13.229 2.243
185 86.8 9.3 1.938 13.601 2.267
186 101.0 10.0 2.004 13.638 2.270
187 106.1 10.3 2.025 13.675 2.272
193 107.4 10.4 2.031 13.892 2.286
204 130.6 11.4 2.115 14.283 2.310
210 137.4 11.7 2.137 14.491 2.322
214 137.8 11.7 2.139 14.629 2.330
220 141.6 11.9 2.151 14.832 2.342
222 147.4 12.1 2.168 14.900 2.346
227 148.7 12.2 2.172 15.067 2.356
227 161.1 12.7 2.207 15.067 2.356
236 167.6 12.9 2.224 15.362 2.373
239 181.5 13.5 2.258 15.460 2.378
240 183.7 13.6 2.264 15.492 2.380
240 196.4 14.0 2.293 15.492 2.380
Podemos agregar que es posible notar que la dispersin de los puntos

alrededor de la tendencia lineal se ha hecho ms uniforme, lo que parece no
ocurrir en el grfico de los datos en las escalas originales (Figura 5.2).
80
2.5
Logaritmo del Peso total
1.5 1 2
2 2.1 2.2 2.3 2.4

Logaritmo de Longitud patrn
Figura 5.3 Relacin longitud-peso re-expresada
Tabla 5.6b Puntos resumen, valores de pendientes-mitad (p-m) y razn de p-

m para la regresin LP - PT de bagres
Valores originales Puntos resumen
Raz de PT Log de PT Raz de LP Log de LP
105 16.45 4.056 1.216 10.246 2.021
147 43.10 6.565 1.634 12.124 2.167
217 139.70 11.819 2.145 14.730 2.336
Pendientes mitad
Relacin LP-PT LP-RazPT LP-LogPT RazLP- LogLP-
mitad LogPT LogPT
Izquierda 0.6345 0.0597 0.009961 0.2228 2.863
Derecha 1.3800 0.0750 0.007295 0.1959 3.019
Razn de pendientes-mitad
Relacin LP-PT LP-RazPT LP-LogPT RazLP- LogLP-
LogPT LogPT
2.175 1.256 0.732 0.8793 1.054
81
Re-expresin para Simplificar la Estructura
La transformacin de los valores de un grupo de nmeros puede simplificar la

estructura de los datos. De hecho, la linearizacin de la relacin x-y es un
ejemplo de simplificacin en la estructura. Otro tipo de estructura ocurre
cuando la informacin se presenta en forma tabular y con dos criterios de
clasificacin. Dicha estructura en las tablas de dos factores puede
simplificarse aplicando re-expresin de los valores originales. En este tipo de
datos, la variacin de los valores en la tabla pueden ser entendidos en
trminos sencillos ajustando un modelo aditivo. Sin embargo, en ocasiones,
los nmeros en la tabla no se ajustan a este tipo de modelos; la
transformacin de los datos puede promover la aditividad cuando esto ocurre.
En el captulo referente al Pulido de Mediana se presentan procedimientos
para detectar la desviacin de la aditividad, determinar la potencia de re-
expresin y el ajuste de un modelo aditivo a este tipo de datos.
5.5 Transformaciones emparejadas
Los valores re-expresados por medio de las potencias de Tukey pueden a su

vez transformarse linealmente sin que se complique su interpretacin
(Emerson y Stoto, 1983). Si se trabaja con T(x), entonces una transformacin
lineal de la forma:
z a bT x (5.8)
se entiende sin dificultades.
Una gran parte de las tcnicas para el anlisis exploratorio de datos son
"transparentes" a los cambios lineales en la escala. Como vimos en la parte
introductoria, para alterar significativamente la escala de medicin se requiere
una modificacin de los exponentes de los datos. De esta manera si se aplica
la expresin 5.8, el resultado cambia de un valor r al valor: a + br; br no
cambia (sigue siendo r). Si por ejemplo, los pesos y longitudes de peces se han
reportado en libras y pulgadas, no habr de dudarse en cambiarlos a gramos
y centmetros. Lo anterior es vlido para las estimaciones de nivel, localizacin,
y pendientes, as como para el mtodo del pulido de mediana (Captulo 10).
Por lo tanto, si se aplica alguno de estos mtodos a datos re-expresados, es
posible realizar una transformacin lineal adicional.
Los beneficios de esta transformacin adicional son varios:

Primeramente se pretende que los valores re-expresados se asemejen, en su
mayora, a los datos originales (slo los valores extremos cambian
substancialmente). Debido a que la escala original suele ser mas familiar, es
82
posible que la transformacin emparejada resulte ms conveniente que

cambiar nuestra forma de pensar (en otra escala de medicin). En segundo
lugar, el emparejamiento enfatiza los efectos debidos a la transformacin. En
tercer lugar, con las transformaciones emparejadas se facilita la comparacin
de diferentes re-expresiones (Emerson y Stoto, 1983).
Para realizar una transformacin emparejada es necesario determinar el

valor de los coeficientes de la expresin lineal (5.8). A continuacin se
presentan las ecuaciones para calcular estos coeficientes (para una discusin
detallada de su derivacin consultar a Emerson y Stoto, 1983):
b (5.9)
T
y
(5.10)
en donde x es un valor de nivel (tendencia central), como por ejemplo la

mediana del lote de nmeros. La expresin que define a T'(x0) depende del
valor de la potencia de re-expresin. Para p 0 (es decir T(x) = xp ), se tiene:
(5.11)
y por tanto

(5.12)
si p = 0, o sea, la transformacin logartmica, entonces se aplican:
(5.13)
y de esta forma:
(5.14)
finalmente

(5.15)
83
Aplicando lo anterior al ejemplo de los pesos de la muestra de bagres,

tendramos para la transformacin logartmica que x0 = 30.5 o sea, el valor de
la mediana (se pueden utilizar otros estimadores de nivel). Para la re-
expresin logartmica y substituyendo en 5.14 se tiene:
1 0.4343

de donde calculamos b
1 30.5
70.2
0.4343
posteriormente, aplicando 5.10
30.5 70.2 30.5 73.7
y de esta forma se tiene la siguiente transformacin lineal:
70.2 73.7
Para evitar el uso de nmeros fraccionarios podemos utilizar la versin

simplificada:
70 70
Los resultados de la expresin anterior se muestran en la Tabla 5.7 en

la cual adems se presentan los valores emparejados para varias
transformaciones. Puede observarse que ahora todos los valores son mas
parecidos a los originales y que aunque no se elimina completamente la
tendencia al incremento en los valores centrales con la re-expresin
logartmica, esta parece ser la mejor alternativa (como se haba sealado
anteriormente). Por otro lado los valores transformados por el inverso de la
raz cuadrada muestran que dicha transformacin es demasiado severa,
invirtiendo la tendencia en los valores centrales.
Se puede notar tambin que aunque los valores centrales varan poco,
cada transformacin comprime los valores superiores y ampla a los inferiores
de tal forma que se obtienen nmeros negativos.
84
4.6 Comentarios adicionales
En el anlisis de los datos se ha visto que la transformacin para mejorar la

distribucin o comportamiento de las observaciones en cierto aspecto muy
probablemente tambin producir mejoras en otros. De esta forma, por
ejemplo, los datos constituidos por conteos o cantidades por lo general
mostrarn un incremento de la dispersin al crecer el nivel. Al transformar
para estabilizar la dispersin se comprimir necesariamente la escala para los
valores mayores respecto a los menores. La transformacin para promover
simetra producir efectos similares. Por tanto la re-expresin de los datos con
estos fines tambin disminuir su sesgo y estabilizar su dispersin.
Cuadro 5.7 Resumen de letras con valores centrales para los datos de
peso total de bagres re-expresados mediante transformaciones
emparejadas
Datos originales Logaritmo
M 30.500 33.901
F 6.800 49.600 92.400 -11.724 48.684 67.597
E 5.000 66.375 127.750 -21.072 57.540 77.445
D 3.800 75.600 147.400 -29.415 61.497 81.795
C 3.000 84.400 165.800 -36.602 64.844 85.371
B 2.500 91.850 181.200 -42.144 67.416 88.071
A 2.100 100.050 198.000 -47.445 70.015 90.767
Z 1.800 108.500 215.200 -52.131 72.480 93.299
Y 1.550 113.300 225.050 -56.677 73.796 94.660
X 1.400 117.200 233.000 -59.771 74.825 95.715
W 1.300 120.250 239.200 -62.024 75.606 96.513
1.200 120.550 239.900 -64.457 75.682 96.602
Raz cuadrada Inverso de raz cuadrada

M 30.749 149.754
F -1.316 47.470 75.737 216.549 136.857 124.330
E -5.403 59.618 94.329 237.580 130.505 119.197
D -8.557 65.643 103.549 259.286 127.954 117.181
C -10.947 71.056 111.640 280.526 125.921 115.628
B -12.607 75.422 118.072 298.710 124.433 114.515
A -14.059 80.027 124.784 317.727 122.992 113.452
Z -15.242 84.580 131.367 335.967 121.681 112.495
Y -16.305 87.087 135.018 355.062 121.003 111.998
X -16.985 89.085 137.908 368.901 120.482 111.619
W -17.458 90.624 140.127 379.429 120.093 111.337
-17.950 90.775 140.376 391.247 120.056 111.306
85
Por otra parte, la transformacin, aunque aplicada correctamente trae

beneficios, desplaza las observaciones en su escala hacia intervalos numricos
que pueden ser menos familiares. Esto ocasiona que se pierda algo del
entendimiento intuitivo y de la interpretacin directa de los valores. Es ms
fcil pensar en trminos de pesos, centmetros o litros que en logaritmos de
pesos, raz cuadrada de centmetros o uno sobre litros. Por tanto debe de
tomarse en cuenta siempre si los beneficios que la re-expresin proporciona
valen la pena. Para esto existen ciertas recomendaciones:
- Al analizar cantidades o conteos, la transformacin ser til cuando la

amplitud del conjunto de nmeros es relativamente grande. A este respecto se
puede utilizar la razn del valor mayor entre el menor:
dato mayor/dato menor
Si el cociente es menor de dos, entonces no se justifica re-expresar las

observaciones. Para los datos de peso total de bagres el cociente es igual a
200, por lo que la transformacin es justificable.
- En datos bivariados o tablas de dos vas los residuos son la gua para
aplicar o no transformacin potencial; cuando son muy grandes o muestran
un comportamiento sistemtico la re-expresin ser efectiva en la
simplificacin y explicacin de la estructura de los datos.
- Como se ha visto con anterioridad, si los grficos de dispersin nivel y

el de simetra muestran un comportamiento lineal y tienen una pendiente
diferente de cero ser posible transformar los datos, pero, si dicha pendiente
es esencialmente igual a cero, entonces la transformacin no se aplicar. Si la
tendencia de los puntos es curvilnea, la re-expresin potencial no solucionar
los problemas asociados de comportamiento siendo recomendable la
aplicacin de una transformacin ms compleja.
- Finalmente, es factible aplicar diferentes transformaciones potenciales

y observar sus efectos. Es posible de esta forma encontrar que alguna re-
expresin se comporta mejor que los datos originales.
86
Captulo 6. Lnea Resistente

En el estudio de datos biolgicos (como en otras numerosas disciplinas
cientficas) es frecuente que el patrn a descubrir y analizar sea la
dependencia de un valor de una variable y sobre el valor de otra variable x. En
trminos de la descripcin ms simple posible esta dependencia se representa
como una lnea recta, que puede representarse por la ecuacin:
Para esclarecer dicho comportamiento lineal slo es necesario

determinar los valores de a y b. Una vez que se tienen a y b, cada par de
nmeros (x,y) que satisface la relacin y = a + bx estar sobre una lnea recta
cuando se grafique. Para resumir cualquier dato particular x-y, se necesitan
valores numricos de a y b que hagan pasar cerca de los datos una lnea recta.
En este apartado se muestra una forma de encontrar tales valores (Velleman y
Hoaglin, 1981).
6.1 Pendiente e Intercepto
Como es bien sabido, la pendiente de una lnea, b, representa la inclinacin

de esa lnea; de manera ms precisa, expresa el cambio en y asociado con el
incremento en una unidad de x. El intercepto, a, es la altura (nivel) de la lnea
cuando x es igual a cero esto es, el valor de y cuando la lnea cruza el eje
de las y's.
La pendiente y el intercepto de cualquier lnea recta pueden encontrarse

a partir de dos puntos cualesquiera sobre dicha lnea. Por ejemplo, de la
Figura 6.1 es posible escoger un punto a la izquierda con un valor bajo de x
rotulado (xI , yI ) y un punto a la derecha con un valor de x ms alto
(xD , yD ). La pendiente, b, esta definida como el cambio en y dividido por la
variacin correspondiente en x. Al escribir este cociente de manera precisa
considerando los puntos anteriores se tiene:

(6.1)

Una forma comn para describir a la pendiente es citarla como "el cambio en
y por la variacin en x ". La declaracin "las ventas han crecido en 5,500,000
pesos por ao" especifica una pendiente (Velleman y Hoaglin, 1981).
87
Interceptoa=valordeycuandox=0

(xI,yI)
Cambiodey
(xD,yD)
Figura 6.1 Determinacin grfica de la pendiente e intercepto de una recta.

Los subndices indican Izquierda y Derecha respectivamente (modificada de
Velleman y Hoaglin, 1981)
Cuando se conoce b, es posible encontrar el intercepto utilizando alguno

de los puntos conocidos y especificando que la lnea debe pasar por dicho
punto. De esta manera y = a + bx , cuando se conoce el valor de b,
despejando a se tiene:
De manera semejante se puede obtener:
La Figura 6.1 muestra la geometra asociada a estos clculos.
6.2 Puntos Resumen
Es comn que los datos reales no se alineen de manera perfecta. Al observar

un grfico de los puntos ser posible notar que aunque una buena parte de
los puntos estn cerca del comportamiento lineal, muy pocos coincidirn
88
exactamente. Por lo tanto se podrn dibujar varias lneas razonables que

pasen por los datos. De este modo para dibujar a la lnea y encontrar su
ecuacin no basta con escoger dos puntos cualesquiera de los datos y esperar
obtener una lnea adecuada. Para esto ser necesario encontrar puntos que
resuman adecuadamente a los valores para que la lnea que definan se ajuste
a la tendencia de los datos.
Para estimar la pendiente, es preciso seleccionar un valor tpico de x

cerca de cada porcin terminal del intervalo de x, sin embargo, no demasiado
cerca del inicio o final para evitar la inclusin de posibles casos
extraordinarios. Una forma de realizar lo anterior consiste en la divisin (de
acuerdo a la sugerencia de Tukey) de los datos en tres porciones: puntos a la
izquierda con valores menores de x, puntos centrales de x y puntos a la
derecha con los valores mayores (algunos analistas prefieren el empleo de
cuatro porciones, Open University, 1983).
Para dividir los datos se ordenan los valores respecto a x. Si no hay

valores de x repetidos el nmero de datos en cada tercia se obtiene dividiendo
entre tres. El nmero de datos debe ser aproximadamente igual; si el total de
datos no es divisible exactamente entre tres deber buscarse que las tercias
exteriores estn balanceadas, es decir, que contengan el mismo nmero de
datos. La siguiente tabla ilustra las tres posibilidades que emergen de las
reglas anteriores (Emerson y Hoaglin, 1983b):
Grupo n = 3k n = 3k + 1 n = 3k = 2
=============================================================
Izquierdo k k k+1
Central k k+1 k
Derecho k k k+1
=============================================================
Si existen valores repetidos de x, estos se colocarn en la misma tercia.

La Figura 6.2 ilustra la particin de datos hipotticos.
En cada porcin, primero se tratan los valores de x como un lote

(ignorando los de y) y se determina su mediana. Posteriormente se consideran
los valores correspondientes de y como un conjunto de nmeros y tambin se
calcula su mediana. De esta forma se obtiene un par de medianas (x, y) en
cada una de las tres porciones. Los puntos especificados por estos tres pares
de medianas no necesitan ser puntos de los datos originales, pero es posible
que lo sean sobre todo si la tendencia lineal es marcada.
Las medianas de cada tercia de los datos resumen el comportamiento

de cada lote en cada regin, por lo que se denominan puntos resumen. Si se
89
nombran las tercias como izquierda (I), central (C), y derecha (D) de acuerdo al
orden (de menor a mayor) de los valores de x, los tres puntos resumen se
denotarn por
(xI , yI )
(xC , yC )
(xD , yD )
15
10
5
0
0 10 20 30
Figura 6.2 Versin grfica de la determinacin de los tres grupos con la

indicacin de los puntos resumen, Izquierdo, Central y Derecho (modificada
de Velleman y Hoaglin, 1981)
La Figura 6.2 muestra los tres puntos resumen para un conjunto de

valores de x e y. Al utilizar como medidas de resumen a las medianas se
obtiene resistencia a los casos extraordinarios en x y que pudieran
presentarse por lo que la lnea que se obtenga ser tambin resistente
6.3 Estimacin de la Pendiente y el Intercepto
Con los puntos resumen es factible calcular los valores del intercepto (a) y la
pendiente (b). Esta ltima se determina mediante la expresin (6.1)
90
sustituyendo los valores correspondientes de x e y de la forma que se indica

a continuacin:
Para el intercepto se utiliza la estimacin de b y los valores centrales:
Sin embargo, es mejor calcular el valor correspondiente de a para cada uno de

los puntos resumen y promediar las estimaciones:
y de lo anterior
1
3
1
3
6.4 Residuos
Un aspecto de fundamental importancia en el anlisis de datos y que se

involucra en todos los procedimientos exploratorios es el clculo y examen de
los residuos. Los valores residuales provienen de la ecuacin general del
modelo estadstico, tambin conocida como ecuacin DAR:
Datos = Ajuste + Residuos
que contiene una parte explicada (Ajuste) y otra que no se comporta de

acuerdo al modelo. Los modelos difieren en estructura y propsito, pero todos
ellos intentan seguir de cerca a los datos. Despejando a los residuos llegamos
a la expresin los define:
Residuos = Datos - Ajuste.
En este caso la lnea resistente es el modelo o ajuste y los residuos (r) se

calculan para cada dato (xi , yi ):
91
Los residuos pueden interpretarse de dos maneras: los pesimistas ven

en ellos a la falla del ajuste para describir adecuadamente a los datos,
refirindose a ellos como "errores" (aunque un ajuste perfecto sera causa de
sospechas). Por otro lado, los optimistas distinguen en ellos detalles del
comportamiento de los datos que los puntos por s mismos no manifiestan
claramente (Velleman y Hoaglin, 1981). Los dos enfoques son correctos. En
general, los analistas e investigadores buscan modelos que produzcan
residuos con las siguientes propiedades ideales, listadas en orden de
importancia (Marsh, 1988):
- Una distribucin suave, simtrica y gaussiana

- Un nivel igual a cero
- Una magnitud pequea
- Un comportamiento aleatorio
Si los residuos son sistemticamente grandes pueden indicar que el

modelo es inadecuado. Si muestran algn patrn en su comportamiento (por
lo menos que el centro de su distribucin no sea el cero) sugieren que el
modelo puede refinarse e incorporar dicho elemento en el ajuste. Si
aparentemente tienen una distribucin suave, simtrica y gaussiana ser
posible calcular mrgenes de error para el modelo.
Una buena parte de los mtodos estadsticos tradicionales

confirmatorios ajustan el modelo a cada una de las observaciones. Si alguna
de estas observaciones es un caso extraordinario este valor producir un
efecto inadecuado en el ajuste. Como es familiar, los procedimientos
exploratorios tratan de evitar esta distorsin.
Como se seal anteriormente el utilizar a las medianas en el ajuste de

lneas proporciona resistencia a tales datos extraordinarios, y es por esto que
la tcnica de ajuste de lneas expuesta en el presente captulo se denomina
lnea resistente (Tukey, 1977; Velleman y Hoaglin, 1981).
6.5 Pulido del Ajuste (Iteracin)
Como se mencion en la Introduccin la resistencia a los casos

extraordinarios tiene un costo. Los valores iniciales del intercepto, a, y la
pendiente, b, a menudo no son los ms apropiados. Para verificar lo anterior
se calculan los residuos, y se tratan como si fueran valores de y:
, , .
Posteriormente, se determinan como antes, los puntos resumen y se

calcula la pendiente (b') entre los puntos extremos (izquierdo y derecho). Si su
valor es cero (o muy cercano), los valores estimados son adecuados. Pero si la
92
pendiente residual tiene otra magnitud entonces ser necesario ajustar a la

pendiente original. Dicho ajuste consiste en sumar la pendiente residual (b') a
la pendiente original (b). Este procedimiento iterativo se repite hasta que la
pendiente residual se haga cero.
Por lo general las estimaciones de pendiente producen pendientes

residuales con signos opuestos que convergen hacia el cero. Cuando las
estimaciones de pendiente producen residuos con pendiente positiva y
negativa de manera alternada se puede utilizar la siguiente expresin para
abreviar las iteraciones (Velleman y Hoaglin, 1981):
En esta expresin b1 y b1 son las dos estimaciones de la pendiente, y b'1

y b'1 son las pendientes de los residuos cuando se prueban b1 y b2 . El ejemplo
de la siguiente seccin ilustra este proceso y muestra como, si es necesario,
pueden efectuarse ms correcciones.
Tabla 6.1 Datos de radios de otolitos y longitud total para hembras de

Kareius bicoloratus (mes de septiembre, 1989)
Radio Posterior Otolito Izquierdo Longitud total (mm)
RPOI (mm)
2.41 230
2.54 236
2.64 297
2.84 248
2.86 260
3.04 282
3.05 254
3.14 284
3.26 300
6.6 Ejemplo: Radio del otolito contra longitud total
En el estudio del crecimiento de los peces es importante la determinacin de

la relacin entre el radio de los otolitos y la longitud corporal. Una vez
conocida esta relacin y con los radios de los anillos es posible conocer la talla
de los peces a cada edad. Los datos que servirn como ejemplo fueron
medidos en otolitos de Kareius bicoloratus de la muestra del mes de
septiembre (Salgado-Ugarte, 1990); representan el radio posterior del otolito
izquierdo y la longitud total (Tabla 6.1) y se grafican en la Figura 6.3.
93
En este ejemplo, n = 9 y n/3 = 3, por lo que se obtienen tercias

homogneas de tamao 3. Al ordenar los puntos (x, y) del valor de x ms bajo
al ms alto y separar las tercias, se obtienen las primeras dos columnas de la
Tabla 6.2. Inmediatamente se encuentran los componentes x e y de los puntos
resumen:
Tercia Mediana de x Mediana de y

I 2.54 236
C 2.86 260
D 3.14 284
(Al encontrar los valores resumen, conviene anotar que el valor valores que
determinan la mediana de x y aquellos que determinan la mediana de y no
necesitan provenir de los mismos puntos en los datos).
El valor inicial de b es:
284 236
80
3.14 2.54
y el valor de a es:
1
3
= 1/3 [(780) - 80 (8.54)] = 32.2667.
De aqu que la lnea ajustada inicial sea:
32.2667 80 ,
donde y = longitud total (lontot) y x = radio posterior del otolito izquierdo

(RPOI). Ahora, en cada punto se resta el valor ajustado determinado a partir
de esta lnea del valor observado de y de acuerdo a yi - (a + bxi). La
substraccin da como resultado la columna llamada Primer residuo en la
Tabla 6.2 y completa la primera iteracin en el proceso del ajuste de una lnea
resistente a este conjunto de datos.
94
310 290
Longitud total (mm)
270 250
230
2.4 2.6 2.8 3 3.2 3.4

Radio Posterior del Otolito Izquierdo (mm)
Figura 6.3 Relacin radio del otolito longitud total del cuerpo
Ahora es posible calcular la pendiente de estos residuos. Se encuentra

la mediana de los primeros residuos en cada porcin y, de ah, los puntos
resumen de correccin,
(2.54, 4.933)
(2.86, -1.07)
(3.14, 0.533)
y la pendiente de los residuos,
. .
7.3333.
. .
La segunda estimacin de la pendiente es entonces
b2 = 80 - 7.3333 = 72.6667.
Los residuos de la lnea con esta pendiente y el intercepto original son

los "segundos residuos". Su pendiente, b'2, se determina de la misma manera.
Su valor es 1.5889. Tambin podemos ajustar el intercepto, pero es mas fcil
esperar hasta tener una estimacin satisfactoria de la pendiente.
95
Se tienen hasta aqu dos estimaciones de la pendiente, 80 y 72.6667,

las cuales produjeron pendientes residuales con signos opuestos: -7.3333 y
1.5889. Esto es todo lo que se necesita para aplicar la segunda frmula de
correccin. Una nueva estimacin se calcula de la siguiente manera:
b3 = 72.6667 - 1.5889[(72.6667 - 80)/(1.5889 - ( -7.3333))] =73.9726.
Enseguida se calculan los residuos de la lnea con la pendiente b3 y

encontramos su pendiente. En este ejemplo, b'3 es igual a cero, por lo que
termina el proceso iterativo. La Tabla 6.3 resume estos pasos.
Tabla 6.2 Algunas etapas de la determinacin de la lnea resistente de los

datos de radios y longitudes de la Tabla 6.1
(x) (y) Primer Tercer Residuo final
RPOI Longitud total residuo residuo
2.41 230 4.9333 19.4594 1.0959
2.54 236 0.5333 15.8429 -2.5205
2.64 297 53.5333 69.4457 51.0822
2.84 248 -11.4666 5.6511 -12.7123

2.86 260 -1.0667 16.1717 -2.1918
3.04 282 6.5333 24.8566 6.4932
3.05 254 -22.2666 -3.8831 -22.2465

3.14 284 0.5333 19.4594 1.0959
3.26 300 6.9333 26.5826 8.2192
Ahora es factible calcular el intercepto utilizando los puntos resumen de

los terceros residuos:
a4 = 1/3(19.4594 + 16.1717 + 19.4594) = 18.3635.
Por lo tanto, el ajuste final es
y = (32.2667 + 73.9726 x) + 18.3635 y = 50.6302 + 73.9726 x.
Esta lnea indica que la longitud total del pez se relaciona con el
aumento en los radios del otolito a razn de unas 74 unidades de longitud por
cada milmetro de radio posterior. El intercepto de la lnea final puede
interpretarse como el tamao del pez al originarse el otolito (afirmacin que
amerita verificacin).
Cuando se trabaja a mano (con papel y lpiz), por lo general se realizan

dos o tres estimaciones de pendiente. Si se utiliza una computadora, unos
96
cuantos pasos ms proporcionarn la estimacin de pendiente con pendiente

residual igual a cero.
Tabla 6.3 Iteracin de la Lnea Resistente hasta la "convergencia" para los

datos de radios y longitud de la Tabla 6.1
Pendiente 1: 80.0000
Lnea ajustada: y = 50.63013 + 73.9726 x
Existen ciertas indicaciones que hacen ms fciles los clculos: Para

usar la segunda frmula de correccin se necesitan dos pendientes, una muy
alta y otra demasiado baja. Si la pendiente de los segundos residuos no de
signo opuesto a la de los primeros, se deben probar correcciones mayores a la
primera pendiente hasta que los segundos residuos se inclinen de manera
contraria.
Cuando se tienen dos estimaciones de pendiente y se resuelve para la

siguiente estimacin con la frmula:
/ ,
no importa cual pendiente se utilice como b1 o b2 . Sin embargo, comnmente

es mejor escoger como b2 a la estimacin de pendiente con la pendiente
residual menor.
Es posible abreviar los clculos de dos maneras. Primero, no es

necesario encontrar los residuos de la tercia-central hasta que se establezca
una pendiente final. Segundo, es posible reemplazar b' por la diferencia entre
las medianas derecha e izquierda de los residuos. Un poco de lgebra muestra
que el divisor (xD xI) en los clculos de pendiente cancela la frmula para
bnueva, as que se puede evitar dividir por l.
Siempre se examinan los residuos desplegndolos en un diagrama de

tallo y hoja as como graficndolos contra x. La Figura 6.4 muestra lo anterior
para este ejemplo, y la Tabla 6.2 lista los residuos finales para su
comparacin con pasos anteriores. La caracterstica ms notable en el grfico
de residuos es el punto alto a la izquierda. Este punto desviado ya era
evidente en la Figura 6.3, y los residuos indican ahora que no ha afectado a la
lnea resistente. La Figura 6.5 representa la recta resistente obtenida
mediante este procedimiento. Puede observarse que se ajusta bien a la
mayora de los datos, pasando lejos del punto extraordinario.
97
60
40
Residuos finales
20
0
-20
2.4 2.6 2.8 3 3.2 3.4

Figura 6.4 Grfico de residuos finales
6.7 Casos extraordinarios (Outliers)
Cuando se analiza un conjunto de nmeros, los procedimientos exploratorios

permiten la identificacin de casos extraordinarios. El procedimiento de los
tres grupos (lnea resistente) excluye a la mayora de los datos atpicos, que
pueden presentarse en x, en y o en ambas variables. Como en los mtodos
anteriores, los datos con residuos extraordinarios son los de mayor inters ya
que no se comportan como los dems y por lo tanto, merecen un examen
adicional.
Es posible tambin que los residuos de casos extraordinarios de x de y

sean pequeos. Esto ocurre cuando a pesar de que son atpicos en el intervalo
de x de y, como puntos se localizan cerca de la tendencia lineal. Estos
puntos (casos influenciales) requieren tambin de un tratamiento especial.
Los puntos con residuos extraordinarios sugieren equivocaciones. Si se

revisan y se descubre que fueron medidos y anotados correctamente se puede
pensar en la omisin de los mismos. Sin embargo, el enfoque correcto quizs
sea el de buscar informacin adicional que ayude a explicar su discordancia.
A menudo esta informacin proporciona un conocimiento profundo de gran
valor acerca del fenmeno en estudio (Velleman y Hoaglin, 1981).
98
En el ejemplo utilizado, el valor representa un dato correctamente

medido, es decir representa un pez que por alguna razn no esclarecida
(podra pensarse en factores genticos y/ alimenticios) present un valor
relativamente elevado de longitud total para el radio de su otolito.
6.8 Lnea Resistente, Regresin por Mnimos Cuadrados y Regresin

Robusta
La lnea resistente es una de varias maneras para ajustar un modelo lineal a

datos x-y. El mtodo ms comn es el de regresin por mnimos cuadrados.
Por supuesto, estos dos mtodos generalmente no proporcionan las mismas
estimaciones de pendiente e intercepto, aunque, si no existen casos
extraordinarios, sern semejantes.
Cuando los datos contienen casos atpicos, cuando la distribucin de

los residuos (de cualquier lnea ajustada) posee colas grandes, es muy
probable que la lnea resistente difiera marcadamente de la lnea de mnimos
cuadrados. La razn principal de esta diferencia es que la regresin por
mnimos cuadrados no es resistente a los efectos de los casos aberrantes.
310 290
Longitud total (mm)
250 270230
2.4 2.6 2.8 3 3.2 3.4

Observados Recta resistente
Figura 6.5 Recta resistente
Cuando la distribucin de los residuos es casi gaussiana y los datos

satisfacen algunas otras restricciones, la regresin por mnimos cuadrados
99
permite hacer inferencias estadsticas acerca de la lnea. La lnea resistente

an no est acompaada por ningn procedimiento de inferencia. Sin
embargo, si los datos no cumplen con las condiciones para la regresin, es
peligroso obtener inferencias de una lnea de mnimos cuadrados. En tales
casos, la tcnica de la lnea resistente proporciona una mejor descripcin de
los datos (Velleman y Hoaglin, 1981).
La mayor parte de los paquetes computarizados incluyen programas

para la regresin por mnimos cuadrados. Cuando se analizan datos con uno
de tales paquetes, a menudo es conveniente ajustar tanto una lnea resistente
como una regresin por mnimos cuadrados y comparar las lneas resultantes.
Si son semejantes, puede preferirse la de mnimos cuadrados porque permite
el clculo de inferencias estadsticas. Si difieren, los residuos de la lnea
resistente pueden revelar la causa.
Cuando se trabaja con lpiz y papel, y si los pares de valores no son

muchos, se puede utilizar la lnea resistente ya que sus clculos son sencillos.
Cuando se utiliza una computadora, es conveniente ajustar primero una lnea
resistente. Esto nos permite: 1) verificar que la relacin x-y es lineal (por
medio de las pendientes-mitad), 2) encontrar una re-expresin que linealice la
relacin si es necesario y 3) verificar por medio de los residuos la existencia de
casos aberrantes. Una vez que nos hemos asegurado que los datos se
comportan bien en estos aspectos podemos ajustar una lnea de regresin por
mnimos cuadrados.
Una solucin alternativa ante la existencia de casos extraordinarios es

la regresin robusta. Existen varios procedimientos para estimar la recta
robusta, basados en la ponderacin de los puntos de acuerdo a sus residuos
(medidos de acuerdo a una estimacin inicial y ajustados iterativamente).
Algunos paquetes estadsticos incluyen rutinas de regresin robusta (Number
Cruncher Statistical System, Stat-packets y Stata por ejemplo).
Para visualizar las diferencias en la Figura 6.6 se incluyen la recta

resistente (RRES), la recta de mnimos cuadrados (RMC) y la recta robusta
(RROB) de acuerdo al procedimiento incluido en Stata (StataCorp, 2009).
Puede notarse que la RMC es afectada por el caso extraordinario (la pendiente
es menor y el intercepto mayor). Por otra parte, las rectas RRES y RROB son
muy parecidas aunque no exactamente iguales. Cabe sealar que para la
determinacin de la recta robusta fueron necesarios 11 iteraciones, en
comparacin con los tres de la recta resistente. Estas dos ltimas rectas no
son afectadas por el caso extraordinario, por lo que se ajustan mejor a la
tendencia rectilnea del resto de los puntos.
100
300
280
260
240
220
2.4 2.6 2.8 3 3.2 3.4

rpoi
Observados Lnea resistente

Recta mnimos cuadrados Recta robusta
Figura 6.6 Comparacin de rectas
6.9 Comentarios adicionales
Debido a que la expresin de la relacin longitud-radio se utiliza en el

retroclculo de la talla a cada edad, es muy importante que la ecuacin sea
representativa de la tendencia de los puntos. Esto es, que no se desve por la
presencia de unos pocos valores alejados del comportamiento lineal de los
dems. Debido a esto, cuando existen casos extraordinarios en los pares de
puntos, es recomendable la utilizacin del procedimiento resistente y tener
estimaciones que no han sido afectadas por unos cuantos casos aberrantes.
Al emplear el procedimiento resistente se tiene la seguridad de que los valores
estimados de pendiente e intercepto se adecan a la tendencia de la mayora
de los puntos, y si los residuos no indican un patrn definido, conduce a
retroclculos mas precisos.
El procedimiento de los tres grupos aqu detallado se ha includo en el

paquete estadstico MINITAB. Programas en BASIC y FORTRAN se encuentran
en el libro de Velleman y Hoaglin (1981). Otra manera de realizarse es por
medio del uso de alguna hoja de clculo (por ejemplo LOTUS 1-2-3 Excel).
Lo anterior, en adicin a que por lo general el nmero de iteraciones es
reducido, hace accesible la aplicacin de este procedimiento.
101
Captulo 7 Suavizacin no lineal

resistente
7.1 Introduccin
Como se ha revisado a lo largo de los captulos previos el objetivo principal de

gran parte de las tcnicas de anlisis de datos, y prcticamente de todos los
procedimientos del anlisis exploratorio de datos es la bsqueda de patrones.
A menudo el patrn subyacente es obscurecido por "ruido" en los valores
considerados.
En el anlisis estadstico la eleccin de una representacin paramtrica

simple se ha convertido en un requerimiento tcito. En los mtodos
tradicionales confirmatorios se hace necesario el conocimiento previo o la
suposicin de la distribucin de los errores (residuos). El anlisis exploratorio
de datos en lugar de lo anteriormente citado pretende descubrir patrones sin
hacer suposiciones acerca de la estructura de los datos, utilizando tcnicas
con propiedades que cambian gradualmente a lo largo de un intervalo amplio
de distribuciones ruidosas (Velleman, 1982).
Los patrones citados no se limitan al comportamiento lineal. En la

actividad cientfica se obtienen datos cuyo orden secuencial es importante.
Muchas veces es de esperar que el patrn de estas secuencias sea suave, es
decir, que cada punto sea semejante o est definido por los valores adyacentes.
No obstante que las series de tiempo son el ejemplo comn, es posible
considerar otras variables en la definicin del ordenamiento. Como ejemplos
pueden citarse los valores de temperatura o precipitacin pluvial registrados
diariamente en una estacin meteorolgica, la temperatura corporal diaria de
ganado productor de leche, los valores de resistividad del terreno a lo largo de
una perforacin geolgica o la abundancia relativa de animales respecto a su
tamao o peso (Figura 7.1).
Las secuencias de datos son una forma especial de pares ordenados (x,
y) en los cuales los valores de x son importantes por el orden que especifican
(sea respecto al tiempo, espacio, edad, tamao, etc.). Por tanto es posible
referirse a un dato como "anterior a" o "previo a" otro valor an cuando la
ordenacin no sea temporal. De acuerdo con lo anterior se puede utilizar el
subndice "t" para definir el orden de y.
Cualquier suavizador de datos descompone la secuencia original en dos

partes: una secuencia "estructurada", suave, de variacin gradual y una
secuencia "ruidosa", rugosa, muy variable. Es as que se puede utilizar la
103
siguiente variante de la expresin general del modelo estadstico (ecuacin

DAR):
Datos = suaves + rugosos (7.1)
Es posible que la secuencia suavizada refleje patrones a gran escala que

pueden entenderse en trminos sencillos. Estas secuencias de valores suaves
no estn restringidas por suposiciones paramtricas establecidas a priori, sino
que a menudo manifiestan patrones generales de importancia terica (por
ejemplo las variaciones estacionales).
a) Los ngeles, California, E.U.A. b) Vaca productora de leche

100 285 470 655 840 1025
100
Temperatura no.pulsos/min
Precipitacin pluvial (mm)
40 60 80
1878 1906 1934 1962 1990 0 20 40 60 80

Tiempo (aos) Das transcurridos
c) Seccin estratigrfica d) Manchas solares

150
20 30 40 50
Log de Resistividad
Media mensual
50 100
10
0 35 70 105 140 175 0 50 100 150 200

Profundidad (m) Tiempo (meses)
Figura 7.1 Ejemplos de datos de secuencias
El anlisis de los valores rugosos es igualmente importante (ya que

estos valores representan los residuos de la suavizacin) y permiten descubrir
patrones adicionales a la estacionalidad. Los valores locales extraordinarios y
los cambios en la variabilidad pueden ser de importancia terica o prctica y
merecen atencin especial (Velleman, 1982).
Mtodos tradicionales de suavizacin
Tradicionalmente para la suavizacin de secuencias se han utilizado a los

promedios mviles, los cuales reemplazan los datos originales y por un
104
promedio ponderado de y con un nmero predeterminado de valores

precedentes y subsecuentes. Una eleccin cuidadosa de los pesos en los
promedios permite separar efectivamente patrones de baja frecuencia del
ruido de alta frecuencia.
Sin embargo, no obstante que tales suavizadores son de fcil anlisis

matemtico, manifiestan algunas inconveniencias cuando:
- Algunos patrones estn constituidos por patrones de baja y alta

frecuencia.
- No pueden seguirse cambios repentinos (saltos) caractersticos o parte

de la estructura de la secuencia.
Un problema ms serio, ilustrado en la Figura 7.2, es que una

observacin aislada extrema, dato pronunciado caso extraordinario (Figura
7.2a), contamina no slo al valor suavizado en ese punto sino que tambin a
cada valor suavizado en cuyo promedio participa (ver Figuras 7.2b y 7.2c).
Debe recordarse que la media es una medida no resistente a diferencia de la
mediana; la suavizacin por medianas ignora al caso extraordinario (Figura
7.2d). Lo anterior provoca que unos cuantos valores extraordinarios
obscurezcan seriamente el patrn subyacente de una secuencia.
Otros inconvenientes son el desfasamiento de picos y valles de la

secuencia original (Figura 7.3) y el aumento de valores considerados para el
clculo de los promedios que provoca que la curva suavizada se parezca cada
vez menos a la secuencia original (Davis, 1973).
Medianas corredizas
Tukey (1971) propuso la utilizacin de medianas mviles para obtener

resistencia a los datos aberrantes. En su obra posterior (Tukey, 1977) explica
varios mtodos de suavizacin basada en el uso de medianas y da ejemplos de
su aplicacin.
Sin embargo, estos procedimientos (an los ms sencillos) son de difcil

trato matemtico. Los trabajos de Mallows (1980) y Velleman (1980) han
proporcionado lineamientos importantes para su entendimiento y aplicacin.
Asimismo, actualmente se cuenta con listados de programas de computadora
que permiten el clculo de algunos de estos suavizadores (Velleman y Hoaglin,
1981); algunos paquetes estadsticos estndar contienen varias de estas
subrutinas (Minitab, Stata, Systat, Statgraphics, etc.).
105
a) Datos de mortalidad b) Media mvil de 3
8 10.1 12.2
8 10.1 12.2
Mortalidad suavizada
Tasa de mortalidad
5.9
3.8 5.9
3.8
1910 1914 1918 1922 1910 1914 1918 1922

Tiempo (aos) Tiempo (aos)
c) Residuos de media mvil b) Medianas corredizas de 3
8 10.1 12.2
-2.3-1.2-.1 1 2.13.24.35.46.5
Mortalidad suavizada
Residuos
3.8 5.9
1910 1914 1918 1922 1910 1914 1918 1922
Tiempo (aos) Tiempo (aos)
Figura 7.2 Falta de resistencia de medias mviles

7
6
5
4
3
2
1
1 2 3 4 5 6 7 8 9 10 11 12
Valores originales Medias mviles de 3
Figura 7.3 Suavizacin por medias mviles de 3 mostrando desfasamiento de

picos y valles
106
Recientemente Velleman (1982) define algunos de estos suavizadores

(llamados "suavizadores no lineales resistentes") que destacan por su buen
comportamiento y aplica algunas tcnicas exploratorias adicionales en la
deteccin de la no-estacionaridad (ver apartado 7.9) y el tratamiento de
secuencias estructuradas.
Estos suavizadores se han aplicado al anlisis de numerosas secuencias

de datos. Algunos ejemplos son: la construccin de regresin resistente
(Beaton y Tukey, 1974); ajuste estacional (Cleveland, Dunn y Terpening, 1979)
y el procesamiento de imgenes (Justusson, 1978).
El presente resumen est basado fundamentalmente en los trabajos de

Tukey, (1977), Velleman (1980) Velleman y Hoaglin (1981), Velleman (1982) y
Goodall (1990) para explicar los principios de los suavizadores no lineales
resistentes mediante su aplicacin a datos reales y se dan algunas pautas
para la eleccin de los suavizadores ms convenientes para develar la
estructura de los datos. Otras contribuciones recientes que explican
suavizadores elementales se encuentran en Siegel (1988), Marsh (1988) y
Hamilton (1990).
En el Apndice 1 se incluye una descripcin y el listado de los

programas de suavizacin no lineal resistente que difcilmente se encuentran
en los paquetes estadsticos comerciales que fueron adaptados por el autor
(incluyendo al suavizador 4253EH,doble recomendado por su buen
desempeo en tareas generales de suavizacin). En el Apndice 2 se dan las
instrucciones para el uso de estos programas.
7.2 Definiciones bsicas
Se suele representar a la secuencia original de datos como:
{ yt }
En donde el subndice t indica observaciones con algn tipo de ordenamiento

(temporal, espacial o de otra clase) y con espaciamiento (no estrictamente)
uniforme.
El suavizador de datos, Sm, descompone aditivamente a la secuencia de

datos { yt } en dos partes:
{ zt } o secuencia suavizada y
{ rt } o secuencia rugosa
107
Los suavizadores operan sobre un segmento corto de la secuencia y se

"mueven" "corren" a lo largo de la misma. El nmero de datos considerados
en el segmento constituye la "amplitud" del suavizador y por lo general el
tratamiento es idntico para los puntos alrededor del centro de amplitud
(todos los datos considerados tienen el mismo peso)
7.3 Ejemplo 1: Nmero de manchas solares
Para entender el procedimiento de la suavizacin no lineal resistente se

utilizarn los datos del nmero de manchas solares registrado en Zrich por
la Unin Astronmica Internacional (Waldmeir, M. 1961 in Andrews y
Herzberg, 1985).
El nmero de manchas solares presenta regularidades anuales y un

ciclo de 11 aos. Este comportamiento cclico puede ser difcil de distinguir en
los datos mensuales de la Figura 7.4 (crculos unidos con lneas).
100
Nmero de manchas
60 40
20 80
108 128 148 168 188

Tiempo (meses)
Observados Suavizados
Figura 7.4 Nmero de manchas solares por mes de diciembre de 1757 a

agosto de 1764.
108
En la misma Figura se presentan los datos anteriores suavizados por el

procedimiento 4253EH,doble mediante una lnea continua ms gruesa.
Pueden distinguirse con claridad variaciones peridicas que pueden
interpretarse con mayor facilidad.
El efecto del suavizador es realmente impresionante por lo que resulta

imprescindible conocer su modo de operacin, para lo cual en las siguientes
secciones se explicar dicho funcionamiento tomando a 31 datos de la
secuencia de nmero de manchas solares en el intervalo arriba mencionado
iniciando en febrero de 1762 (Tabla 7.1).
7.4 Suavizadores elementales
El suavizador no lineal ms simple es la mediana corrediza de amplitud 3, en

la cual cada valor de y es reemplazado por la mediana de dicho valor, el
precedente y el que le sigue. Por tanto si en el terceto existe un dato
notablemente diferente ste ser substituido por alguno de los otros dos
(aqul cuyo valor sea el intermedio).
Los valores inicial y final de la secuencia no pueden suavizarse por este

procedimiento ya que no estn entre otros dos valores. Una solucin
preliminar a este inconveniente es la copia sin alteracin de tales valores
autotipificacin (Velleman, 1980; 1982; Velleman y Hoaglin, 1981).
Las medianas corredizas de grupos de tres son incapaces de suavizar

dos casos aberrantes. Por lo tanto para suprimir en la secuencia suavizada a
estos valores se utiliza un mayor nmero de datos (amplitud mayor), por
ejemplo medianas corredizas de grupos de 5 datos. De nuevo, los valores
terminales de la secuencia no pueden suavizarse. No obstante, es posible
truncar la amplitud de la mediana mvil obteniendo el segundo valor
suavizado mediante una mediana corrediza de 3 valores, procedimiento
nombrado como regla de disminucin de amplitud (step-down rule) por
Goodall (1990) y (por el momento) autotipificando el primer valor (Salgado-
Ugarte y Curts-Garca, 1992; 1993). Las siguientes expresiones ilustran lo
anterior:
z3 = med(y1 , y2 , y3 , y4 , y5 )
z2 = med(y1 , y2 , y3 )
z1 = y1
(y de manera similar para los valores penltimo y ltimo de la secuencia).
109
Tabla 7.1 Suavizacin del nmero mensual de manchas solares por medianas
corredizas de tres y cinco
ndice de tiempo No. de manchas Suavizado por Suavizado por
medianas medianas
corredizas de 3 corredizas de 5
158 73 73 73
159 46 60 60
160 60 46 60
161 40 60 46
162 77 40 60
163 34 68 68
164 68 68 68
165 68 68 68
166 69 69 69
167 78 77 69
168 77 77 69
169 56 56 56
170 32 34 34
171 34 33 33
172 33 33 33
173 33 33 34
174 36 36 33
175 54 36 36
176 26 54 46
177 68 46 54
178 46 61 61
179 61 61 61
180 61 61 60
181 60 60 60
182 60 60 60
183 40 40 44
184 34 40 40
185 44 34 34
186 30 30 30
187 30 30 30
188 30 30 30
110
a) Medianas corredizas de amplitud 3
80
60
40
Valores suavizados
20
b) Medianas corredizas de amplitud 5

80
60
40
20
160 170 180 190

Tiempo (no. de mes)
Figura 7.6 Suavizadores de amplitud impar
La conveniencia de estos suavizadores es su fcil clculo, sin embargo,

su desempeo no es del todo "bueno". Por ejemplo, las medianas corredizas de
5, aunque resultan en valores ms suaves (respecto a las de 3), se parecen
menos a los datos originales (Tabla 7.1; Figuras 7.6a y 7.6b).
Las medianas mviles de amplitud par son mas "gentiles" en la

suavizacin (Tabla 7.2, Figura 7.7). Si se localiza en el centro de la amplitud
(es decir en el espacio entre dos valores originales de t), esto es:
Datos ... y5 y6 y7 y8 ...

M.C.4. . .. y4.5 y5.5 y6.5 y7.5 y8.5 ...
en donde M.C.4 indica medianas corredizas de amplitud 4.
Por lo tanto para recuperar la fase es necesario suavizar de nuevo con

medianas corredizas de amplitud par, usualmente 2. Lo anterior
algebraicamente puede representarse de la siguiente manera:
z = 1/2 (med {yt - 2, yt - 1, yt , yt + 1} + med {yt - 1, yt, yt + 1, yt + 2})
111
Debido a que los valores primero y final slo aparecen en una de las dos
expresiones, estos tienen la mitad del peso que los dems.
a) Medianas corredizas de 4
70
60
50
Valores suavizados
40
30
b) Medianas corredizas de 4 y 2
70
60
50
40
30
160 170 180 190

Tiempo (no. de mes)
Figura 7.7 Suavizadores de amplitud par
7.5 Definiciones adicionales y Notacin
Mientras mayor sea la amplitud, mayor ser la resistencia del suavizador a los
casos extraordinarios. Esto se aclara si se considera que, por ejemplo, las
medianas corredizas de amplitud 2 son sensibles a cualquier dato
extraordinario. Las amplitudes 3 y 4 resisten datos pronunciados aislados (no
consecutivos). Las medianas corredizas de 3 sern afectadas por pares de
casos extraordinarios en los grupos de 3. Las medianas mviles de amplitud 4
reducirn aproximadamente a la mitad el efecto de 2 valores pronunciados.
Las medianas corredizas de amplitud 5 no sern afectadas por dos casos
extraordinarios en los grupos de 5.
Se ha desarrollado (Tukey, 1977) una notacin abreviada para referirse

a estos suavizadores. El smbolo para una mediana corrediza es el dgito
correspondiente a su amplitud. As pues, en lugar de emplear la descripcin
"medianas corredizas de amplitud dos" se utiliza simplemente el nmero 2.
La notacin 53 significa la aplicacin de una mediana corrediza de amplitud
cinco seguida por una de amplitud de tres.
112
Tabla 7.2 Suavizacin del nmero mensual de manchas solares por 4 y luego
por 2
ndice de tiempo No. de manchas Suavizado por 4 Suavizado por 42
158 73 73.0 73.00
159 46 59.5 56.25
160 60 53.0 53.00
161 40 53.0 51.50
162 77 50.0 52.00
163 34 54.0 61.00
164 68 68.0 68.00
165 68 68.0 68.25
166 69 68.5 70.75
167 78 73.0 73.00
168 77 73.0 69.75
169 56 66.5 55.75
170 32 45.0 39.25
171 34 33.5 33.25
172 33 33.0 33.25
173 33 33.5 34.00
174 36 34.5 34.50
175 54 34.5 39.75
176 26 45.0 47.50
177 68 50.0 51.75
178 46 53.5 57.25
179 61 61.0 60.75
180 61 60.5 60.50
181 60 60.5 60.25
182 60 60.0 55.00
183 40 50.0 46.00
184 34 42.0 39.50
185 44 37.0 34.50
186 30 32.0 31.00
187 30 30.0 30.00
188 30 30.0 30.00
30.0
En el siglo pasado, un meteorlogo austriaco, Julius von Hann,

utilizaba para suavizar sus datos de temperaturas, presiones y otras variables
atmosfricas un promedio mvil ponderado de amplitud tres y pesos de 1/4,
1/2 y 1/4 (Tukey, 1977; Hamilton, 1990). Tukey (1977) sugiri su empleo en
113
combinacin con otros suavizadores notando que dicho promedio ponderado

es equivalente a la suavizacin por 2 efectuada dos veces y lo bautiz como
"Hanning" (H en notacin abreviada).
Debido a que los promedios mviles son sensibles a los datos

pronunciados es conveniente utilizarlos despus de la aplicacin de
suavizadores basados en medianas corredizas. A pesar de su falta de
resistencia, este promedio ponderado produce secuencias muy suaves
(Velleman y Hoaglin, 1981) sin alterar en forma excesiva a los valores
originales (Hamilton, 1990).
7.6 Suavizacin de valores terminales
Hasta este punto los valores al inicio y al final de la secuencia, debido a que
no pueden suavizarse, se han copiado sin alteracin. Sin embargo, este
proceder no es muy adecuado si el objetivo es la suavizacin de la secuencia
completa. Para esto, Tukey (1977) propone el empleo de la mediana de tres
valores:
a) Aqul resultado de la extrapolacin lineal dos valores ms all de los

suavizados, es decir, para el dato inicial:
2 /
3 2
donde z es el valor extrapolado dos intervalos de t ms all de z . De manera

semejante para el valor final se tiene:
3 2
b) El valor suavizado ms prximo (z2 y zn - 1), y
c) El dato original (y1 yn).
Esta "regla de los valores terminales" de la secuencia (anotada como E

por la palabra inglesa "Endpoint" o valor terminal) algebraicamente viene a ser
(Figura 6.8):
, , )
, , )
114
Para indicar la aplicacin de esta regla Velleman y Hoaglin (1981) y

Marsh (1988) sugieren el empleo de E despus del dgito del suavizador
precedente. Esta sugerencia se ha seguido en implementaciones posteriores
(Salgado-Ugarte y Curts-Garca, 1992; 1993; Gould, 1992; StataCorp, 2009).
9 10
8
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8 9 10
t
Datos originales Valores suavizados

Extrapolado a t = 0 Lnea de extrapolacin
Suavizado a t = 1
Figura 7.8 Regla de los valores terminales
7.7 Suavizadores Compuestos
Los suavizadores elementales representan la primera etapa del anlisis de

secuencias. Es posible mejorar la descripcin de los datos. Una forma de
hacerlo es la aplicacin de un suavizador a una secuencia previamente
suavizada, procedimiento que Tukey (1977) denomin "re-suavizacin". Es as
como se construyen los "suavizadores compuestos".
Uno de los ms sencillos es la suavizacin por 3 hasta que no se

produzcan cambios en la secuencia resultante, mtodo que se llama 3R (Tabla
7.3). Un inconveniente de este suavizador es su tendencia a producir
"mesetas" y "valles" planos (Figura 7.9).
115
Tabla 7.3 Suavizacin del nmero mensual de manchas solares por el

suavizador compuesto 3R
ndice de No. de Suavizado Suavizado Suavizado Suavizado
tiempo manchas por 3 por 3 por 3 por 3R
158 73 73 73 73 73
159 46 60 60 60 60
160 60 46 60 60 60
161 40 60 46 60 60
162 77 40 60 60 60
163 34 68 68 68 68
164 68 68 68 68 68
165 68 68 68 68 68
166 69 69 69 69 69
167 78 77 77 77 77
168 77 77 77 77 77
169 56 56 56 56 56
170 32 34 34 34 34
171 34 33 33 33 33
172 33 33 33 33 33
173 33 33 33 33 33
174 36 36 36 36 36
175 54 36 36 36 36
176 26 54 46 46 46
177 68 46 54 54 54
178 46 61 61 61 61
179 61 61 61 61 61
180 61 61 61 61 61
181 60 60 60 60 60
182 60 60 60 60 60
183 40 40 40 40 40
184 34 40 40 40 40
185 44 34 34 34 34
186 30 30 30 30 30
187 30 30 30 30 30
188 30 30 30 30 30
Adems de la re-suavizacin es posible efectuar un ajuste adicional

empleando los valores rugosos (residuos de la suavizacin), que permite la
incorporacin a la secuencia suavizada de patrones de variacin contenidos
en las rugosidades. Para ello se suavizan los valores rugosos y la secuencia
116
resultante se suma a los valores suavizados. Lo anterior puede expresarse de

la siguiente manera:
Dato suave + rugoso
y
rugoso rugoso suavizado + rugoso (de rugoso)
entonces
dato suave + rugoso suavizado + rugoso de rugoso
dato suave final + rugoso final

donde
suave final - suave + rugoso suavizado
y
rugoso final - rugoso de rugoso
Por analoga con la re-suavizacin, a esta operacin se le denomina en

ingls "re-roughing" (en ingls "rough" significa rugoso).
De esta forma es posible aplicar primero el suavizador 53, calcular los

valores rugosos y suavizarlos. Por lo general se utiliza el mismo suavizador (en
este caso 53) para la secuencia rugosa y el resultado se suma a los valores
suaves iniciales (Tabla 7.4 y Figura 7.10). Cuando se realiza lo anterior se
emplea el trmino "doble", por lo que en este ejemplo se ilustra el suavizador
53,doble.
80
70
Valores suavizados
50 40
30 60
160 170 180 190

Tiempo (no. de mes)
Figura 7.9 Suavizador 3R

117
80
70
Valores suavizados
50 40
30 60
160 170 180 190

Tiempo (no. de mes)
Figura 7.10 Suavizador 53,doble
Los suavizadores compuestos combinan varios suavizadores

elementales resuavizando y ajustando rugosidades (re-roughing). La estrategia
general es eliminar a los datos pronunciados en los primeros pasos (mediante
el uso de medianas corredizas) y al final emplear promedios mviles
ponderados.
Se han propuesto varias combinaciones de unidades elementales de

suavizacin para la construccin de suavizadores compuestos. Tukey (1971)
propuso al suavizador 53H,doble.
Velleman (1975, 1980) fue quien analiz por primera vez el

comportamiento de algunos suavizadores no lineales resistentes
comparndolos entre s y con un filtro (suavizador) lineal (basado en
promedios mviles). Entre los parmetros que este autor consider estn: el
llamado "rebote de Gibbs", la resistencia a los casos pronunciados, el
transporte de una frecuencia a otra y su robustez. Entre los resultados que
reporta pueden citarse que los suavizadores simples y compuestos basados en
medianas corredizas de amplitud impar (como 5, 53H y 53H,doble)
manifiestan un considerable valor de rebote y los mayores transportes a otras
frecuencias (caractersticas no deseables en un "buen" suavizador). Los
suavizadores 3R y 3RSSH (la S se refiere a la inicial de la palabra inglesa
"Split" e indica la operacin de "particin" de la secuencia en proceso de
118
suavizacin en los sitios con mesetas o valles planos segn el procedimiento

explicado en Tukey, 1977 y Goodall, 1990), presentan un rebote menor pero
igual transporte.
Tabla 7.4 Suavizacin del nmero mensual de manchas solares por el

suavizador 53,doble
ndice de No. de Rugoso1
tiempo manchas 5 53 5 53 53,doble
158 73 73 73 0 0 0 73
159 46 60 60 -14 0 0 60
160 60 60 60 0 0 0 60
161 40 46 60 -20 -14 0 60
162 77 60 60 17 0 0 60
163 34 68 68 -34 0 0 68
164 68 68 68 0 0 0 68
165 68 68 68 0 0 0 68
166 69 69 69 0 0 0 69
167 78 69 69 9 0 0 69
168 77 69 69 8 0 0 69
169 56 56 56 0 1 0 56
170 32 34 34 -2 0 0 34
171 34 33 33 1 0 0 33
172 33 33 33 0 0 0 33
173 33 34 33 0 1 0 33
174 36 33 34 2 0 1 35
175 54 36 36 18 2 2 38
176 26 46 46 -20 2 2 48
177 68 54 54 14 0 0 54
178 46 61 61 -15 0 0 61
179 61 61 61 0 0 0 61
180 61 60 60 1 0 0 60
181 60 60 60 0 0 0 60
182 60 60 60 0 0 0 60
183 40 44 44 -4 0 0 44
184 34 40 40 -6 0 0 40
185 44 34 34 10 0 0 34
186 30 30 30 0 0 0 30
187 30 30 30 0 0 0 30
188 30 30 30 0 0 0 30
119
La resuavizacin por H de los suavizadores compuestos arriba citados

mejora su desempeo. Por otro lado, los suavizadores compuestos
constituidos por suavizadores de amplitud par y los de amplitud combinada
(por ejemplo 42, 4253H,doble y 43R5R2H,doble) poseen un menor transporte
y rebote.
En este punto cabe recordar que los suavizadores lineales dispersan un

valor aberrante a lo largo de su amplitud, mientras que todos los suavizadores
no lineales son resistentes a un caso pronunciado y varios eliminan a dos de
estos casos contenidos dentro de su amplitud. Adems los suavizadores
compuestos basados en suavizadores simples de amplitud par, por su
desempeo consistente bajo la presencia de valores ruidosos se consideran
como ms robustos.
Los experimentos realizados, consideraciones tericas y experiencia en

aplicaciones permiten al autor arriba citado recomendar, en orden de
preferencia a los siguientes suavizadores compuestos:
a) 4253H,doble
b) 43R5R2H,doble
c) 3RSSH
d) 53H,doble
(Velleman no seala el ajuste de valores terminales).
El primero tiene el menor rebote de Gibbs, menor transporte a otras

frecuencias y produce secuencias ligeramente ms suaves que los otros. Los
dos ltimos son de fcil clculo, altamente resistentes y se ajustan bastante
bien a las variaciones de alta frecuencia.
En las tablas 7.5a y 7.5b se ilustra en detalle la determinacin de los

valores suavizados por 4253EH,doble: inicia con una mediana corrediza de
amplitud 4, recentrada por medio de una mediana mvil de 2. Al resultado se
aplica 5, 3, la regla de los valores terminales y finalmente el "Hanning" (esta
serie de pasos representa la etapa de re-suavizacin). Posteriormente se
calculan las rugosidades y se suavizan utilizando el mismo suavizador
compuesto (4253EH,doble), sumando el resultado a los valores suaves
producto de la resuavizacin (esta serie de procedimientos representa la
operacin doble). Los valores suavizados finales se representan en la Figura
7.11 en la cual se incluyen tambin los meses del ao. Puede notarse de
manera clara que existieron nmeros mnimos de manchas en los meses
clidos (abril a junio) y mximos en los meses invernales (octubre a enero) de
los aos 1763 y 1764.
120
Tabla 7.5a Suavizacin del nmero mensual de manchas solares por el

suavizador compuesto 4253EH,doble (primera parte)
(1) (2) (3) (4) (5) (6) (7)
No. de
manchas 4 2 5 3(E) H rugoso1
73 73.00 73.00 73.00 62.75 62.7500 10.2500
46 59.50 56.25 56.25 56.25 57.0625 -11.0625
60 53.00 53.00 53.00 53.00 53.8125 6.1875
40 53.00 51.50 53.00 53.00 53.0000 -13.0000
77 50.00 52.00 53.00 53.00 55.0000 22.0000
34 54.00 61.00 61.00 61.00 60.7500 -26.7500
68 68.00 68.00 68.00 68.00 66.3125 1.6875
68 68.00 68.25 68.25 68.25 68.5625 -0.5625
69 68.50 70.75 69.75 69.75 69.3750 -0.3750
78 73.00 73.00 69.75 69.75 69.7500 8.2500
77 73.00 69.75 69.75 69.75 66.2500 10.7500
56 66.50 55.75 55.75 55.75 55.1250 0.8750
32 45.00 39.25 39.25 39.25 42.0625 -10.0625
34 33.50 33.25 34.00 34.00 35.3125 -1.3125
33 33.00 33.25 34.00 34.00 34.0000 -1.0000
33 33.50 34.00 34.00 34.00 34.1250 -1.1250
36 34.50 34.50 34.50 34.50 35.6875 0.3125
54 34.50 39.75 39.75 39.75 40.3750 13.6250
26 45.00 47.50 47.50 47.50 46.6250 -20.6250
68 50.00 51.75 51.75 51.75 52.0625 15.9375
46 53.50 57.25 57.25 57.25 56.6250 -10.6250
61 61.00 60.75 60.25 60.25 59.5000 1.5000
61 60.50 60.50 60.25 60.25 60.2500 0.7500
60 60.50 60.25 60.25 60.25 58.9375 1.0625
60 60.00 55.00 55.00 55.00 54.0625 5.9375
40 50.00 46.00 46.00 46.00 46.6250 -6.6250
34 42.00 39.50 39.50 39.50 39.8750 -5.8750
44 37.00 34.50 34.50 34.50 34.8750 9.1250
30 32.00 31.00 31.00 31.00 31.6250 -1.6250
30 30.00 30.00 30.00 30.00 30.2500 -0.2500
30 30.00 30.00 30.00 30.00 30.0000 0.0000
30
121
Tabla 7.5b Suavizacin del nmero mensual de manchas solares por el

suavizador compuesto 4253EH,doble (segunda parte)
(8) (9) (10) (11) (12) (13)
Suavizador
4 2 5 3(E) H 4253EH,doble
10.2500 10.2500 10.2500 0.6094 0.6094 63.3594
-0.4063 -1.4219 -1.4219 -1.4219 -1.1680 55.8945
-2.4375 -2.4375 -2.4375 -2.4375 -2.2109 51.6016
-2.4375 -2.9219 -2.5469 -2.5469 -2.5195 50.4805
-3.4063 -4.5313 -2.5469 -2.5469 -2.5469 52.4531
-5.6563 -2.5469 -2.5469 -2.5469 -1.8984 58.8516
0.5625 0.0469 0.0469 0.0469 -0.5898 65.7227
-0.4688 0.0938 0.0938 0.0938 0.6328 69.1953
0.6563 2.2969 2.2969 2.2969 1.7461 71.1211
3.9375 4.2500 2.2969 2.2969 2.2969 72.0469
4.5625 4.5625 2.2969 2.2969 2.2656 68.5156
4.5625 2.1719 2.1719 2.1719 1.4883 56.6133
-0.2188 -0.6875 -0.6875 -0.6875 0.0234 42.0859
-1.1563 -1.1875 -0.7031 -0.7031 -0.6992 34.6133
-1.2188 -1.1406 -0.7031 -0.7031 -0.7031 33.2969
-1.0625 -0.7031 -0.7031 -0.7031 -0.6211 33.5039
-0.3438 -0.3750 -0.3750 -0.3750 -0.4570 35.2305
-0.4063 3.2813 -0.3750 -0.3750 -0.3750 40.0000
6.9688 4.2344 -0.3750 -0.3750 -0.0273 46.5977
1.5000 -1.5313 1.0156 1.0156 0.6680 52.7305
-4.5625 -1.7188 1.0156 1.0156 1.0156 57.6406
1.1250 1.0156 1.0156 1.0156 1.0156 60.5156
0.9063 1.0938 1.0156 1.0156 1.0156 61.2656
1.2813 1.0938 1.0156 1.0156 0.5742 59.5117
0.9063 -0.7500 -0.7500 -0.7500 -0.4180 53.6445
-2.4063 -1.1875 -1.1875 -1.1875 -1.0781 45.5469
0.0313 -1.8594 -1.1875 -1.1875 -1.1875 38.6875
-3.7500 -2.3438 -1.1875 -1.1875 -1.0234 33.8516
-0.9375 -0.5313 -0.5313 -0.5313 -0.5938 31.0313
-0.1250 -0.1250 -0.1250 -0.1250 -0.1953 30.0547
-0.1250 0.0000 0.0000 0.0000 0.0000 30.0000
0
122
80
11
10
70 9 12
8
Valores suavizados
2
11 12
60
7 1
10
3 1
2
6 9
4
50
8
3
2
40
7
4
3 6
4 5 5
6
30
7 8
160 170 180 190

Tiempo (no. de mes)
Figura 7.11 Suavizador 4253EH,doble. Los nmeros al lado de los puntos son
los meses del ao (de febrero de 1762 a agosto de 1764)
7.8 Ejemplo 2: Capturas de peces en el tiempo
La suavizacin tambin puede emplearse para el anlisis de las capturas de

peces en el tiempo. En ocasiones la cantidad de peces capturados ao con ao
permite el reconocimiento de patrones regulares cclicos que pueden ser
reflejo de la dinmica poblacional de la especie en relacin con los factores
ambientales. Esta aplicacin se ejemplifica con los datos de captura de atunes
en la costa de Marruecos entre los aos 1927 y 1954 reportados por Lozano-
Cabo (1983) y representados en la Figura 7.12. En esta figura debido a las
fluctuaciones no es posible identificar los patrones regulares peridicos. Por
esto Lozano-Cabo (1983) propone el empleo de la "regularizacin" de la curva
utilizando un promedio mvil. En este conjunto de datos puede encontrarse
un ao sin captura. El promedio mvil no permite la interpolacin del valor
faltante. Sin embargo, los suvizadores no lineales resistentes, debido a sus
caractersticas son un medio idneo para la interpolacin de valores faltantes.
Al substituir dicho valor con un cero, y al aplicar 4253EH,doble se tienen los
resultados de la Tabla 7.6, representados grficamente en la Figura 7.13. En
dicha curva aparece con gran claridad el patrn peridico de las capturas que
caracteriza a esta especie.
123
Tabla 7.6 Captura de atn en Marruecos durante el periodo de 1927 a 1954

Ao Captura (nmero de peces) Captura suavizada (4253EH,doble)
1927 7297 7564.219
1928 7218 7764.156
1929 8959 7878.406
1930 9533 7883.762
1931 6368 7837.348
1932 4755 7814.141
1933 12236 7835.266
1934 6287 7877.516
1935 12769 7898.641
1936 3214 7688.078
1937 11036 7266.953
1938 0* 7113.453
1939 3407 8067.695
1940 14636 10079.430
1941 15353 11468.420
1942 9363 11705.430
1943 16589 11499.610
1944 6459 11200.250
1945 12354 11404.160
1946 9590 13228.000
1947 22480 15993.560
1948 17493 17392.660
1949 17675 17448.320
1950 21604 16792.660
1951 14132 15206.620
1952 11140 13398.150
1953 13369 11629.200
1954 9428 9428.000
* Valor faltante
124
8000 12000 16000 20000 24000

Nmero de peces
4000
0
1925 1931 1937 1943 1949 1955

Tiempo (aos)
Figura 7.12 Captura de atunes en Marruecos (1927 a 1954)

8000 12000 16000 20000 24000
Nmero de peces suavizado
4000
0
1925 1931 1937 1943 1949 1955

Tiempo (aos)
Figura 7.13 Captura suavizada por 4253EH,doble

125
7.9 Diagnstico de la No-estacionaridad
En una secuencia de datos a veces ocurre que la variabilidad de cada punto

respecto al ajuste no es la misma. Lo anterior se presenta de manera comn
cuando los datos mayores muestran una variabilidad elevada respecto a los
menores.
Cuando se tiene lo anterior se dice que la varianza no es estacionaria y

se puede comparar con la heteroscedasticidad en la regresin (Velleman,
1982). En la Figura 7.14 se muestra una secuencia no-estacionaria (tomada
de Wallonick, 1987) en la que puede observarse un incremento en la
dimensin de las oscilaciones al incrementarse el intervalo del nmero de
individuos (la variabilidad en intervalos de baja magnitud es menor que
aquella a magnitudes altas).
Para descubrir formalmente si la varianza no es estacionaria se utiliza el

ya mencionado grfico de dispersin contra nivel, en donde la dispersin se
refiere a las desviaciones respecto a los valores suavizados (rugosidades) y el
nivel viene dado por el ajuste, o sea, los valores suavizados.
Recordando el fundamento del grfico de la dispersin contra el nivel se

tiene:
dispersin = c N b
donde N = nivel (medida de localizacin); c y b son constantes.
Por lo tanto:
log (dispersin) = b log (nivel) + log (c)
si k = log (c) = constante, entonces:
log (dispersin) = b log (nivel) + k
Cuando b es igual a cero, entonces el logaritmo de la dispersin es igual

a un valor constante y se tiene que la variabilidad es homognea. Si el valor
de la pendiente (b) es diferente de cero existe una relacin entre la dispersin
y el nivel. Cuando esto ocurre es posible estabilizar la variabilidad por la re-
expresin (transformacin) de los datos mediante alguna de las potencias
incluidas en la "escala de potencias de Tukey" (Tukey, 1977).
126
625 520
No. de pasajeros areos
310 415
205
100
1 12 23 34 45 56 67 78 89 100 111 122 133 144

No. de meses consecutivos
Figura 7.14 Secuencia no estacionaria
Una manera de indicar esta escala es la siguiente:
0
log 0
0
En donde y es la variable, T indica la transformacin y p es la potencia de la

re-expresin (Emerson y Stoto, 1983), la cual est relacionada con la
pendiente b del grfico dispersin-nivel en la forma:
p=1-b
En una secuencia de datos, cualquier suavizador se comporta en cada

punto como un estimador del nivel y el valor absoluto de las rugosidades
representa una medida de la dispersin. Por lo tanto, para diagnosticar la no
estacionaridad se grafica el logaritmo del valor absoluto de las rugosidades
log (dispersin) contra el logaritmo de los valores suavizados log (nivel). Si
en la secuencia rugosa existen valores iguales a cero, Velleman (1982)
recomienda la adicin de un valor constante a todos los valores absolutos de
las rugosidades, por ejemplo 1/6.
127
En el caso de que exista una relacin lineal con pendiente igual a b,

entonces se sugiere una re-expresin por medio de la potencia p = 1 - b para
hacer estacionaria la varianza de la secuencia. Debido a la resistencia de los
suavizadores es de esperar que en las rugosidades existan casos
extraordinarios. Esto implica que para encontrar la pendiente del grfico
dispersin-nivel es recomendable utilizar un mtodo de ajuste lineal resistente
o algn otro procedimiento que reduzca la influencia de casos extraordinarios.
El grfico de diagnstico de no-estacionaridad logaritmo de valores

absolutos de rugosos (dispersin) y el logaritmo de valores suaves (nivel) se
presenta en la Figura 7.15 el cual indica una relacin de incremento de la
dispersin con el nivel. La lnea resistente ajustada a estos datos (con Minitab)
proporcion una pendiente aproximadamente igual a 1.4, por lo que se
recomienda una potencia de 1 - 1.4 = -0.4, es decir una transformacin
intermedia entre el recproco negativo de la raz cuarta y la raz cuadrada.
2
Log del absoluto de rugosos (dispersin)
-.5 0 .5-1 1 1.5
2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8

Log de valores suavizados (nivel)
Figura 7.15 Grfico de dispersin nivel
Se prob la primera opcin y los valores re-expresados se grafican en la

Figura 7.16. Puede notarse una notable mejora en el comportamiento
oscilatorio en el cual las variaciones a todos los intervalos de magnitud de la
variable transformada son equivalentes de manera aproximada. Este
comportamiento indica que la secuencia se ha vuelto estacionaria y
definitivamente su manipulacin matemtica analtica (por los mtodos
128
exploratorios y/ tradicionales) es mucho ms sencilla que la presentada por

los datos originales.
-.2 -.22
Inverso negativo de raz cuarta
-.28 -.26 -.3
-.32-.24
1 12 23 34 45 56 67 78 89 100 111 122 133 144

No. de meses consecutivos
Figura 7.16 Grfico de valores re-expresados
7.10 Comentario final
La suavizacin es un procedimiento muy til y con varias aplicaciones. Las

funciones de suavizacin pueden servir para (Queen y Keough, 2006):
- Describir grficamente una relacin entre dos variables cuantitativas

sin tener que establecer a priori un modelo especfico.
- Diagnosticar si un modelo lineal es apropiado en cuyo caso contrario
sugerir un modelo no lineal.
- Modelar y predecir el comportamiento numrico en modelos aditivos
generalizados
129
Captulo 8. Tablas codificadas

En los captulos anteriores se han revisado datos univariados y bivariados. En
el captulo 6 se present un procedimiento alternativo para el ajuste de un
patrn lineal a dos variables cuantitativas. Posteriormente se presentaron
diferentes procedimientos para encontrar tendencias en datos ordenados
temporal o espacialmente. En ocasiones los valores numricos pueden
disponerse de acuerdo a diferentes criterios de clasificacin. De esta manera
es posible buscar patrones de acuerdo a los grupos definidos por dichas
variables, las cuales por lo general son de naturaleza cualitativa (nominales u
ordinales). Cuando tal es el caso, los datos representan el nmero (frecuencia)
de veces que se presenta cada una de las categoras o clases de cada variable.
Estas ocurrencias pueden expresarse en forma relativa en tablas de
proporciones o porcentajes. Si se especifica el nmero de ocurrencias de cada
categora para una sola variable se tiene una tabla de frecuencia univariada
(en donde se toma en cuenta un slo "factor", "criterio" "va" de
"clasificacin"). Las variables (cada una con clases propias) pueden ser dos o
ms. En el caso de considerar dos variables se puede hablar de una tabla de
frecuencia bivariada (o tabla de "dos factores", "dos criterios" de "dos vas de
clasificacin"). Dentro de stas ltimas existe otro tipo de tabla en las cual se
representan los valores de una tercer variable (cuantitativa y distinta) en
relacin a las que definen a los dos grupos (criterios de clasificacin). Estas
son diferentes a las tablas que contienen frecuencias absolutas o relativas
(Marsh, 1988) y su tratamiento estadstico se lleva a cabo por medio de
procedimientos apropiados y distintos a los de la bondad ("maldad" segn
Hamilton, 1990) de ajuste. Tanto las tablas de frecuencias como las de tres
variables permiten explorar y encontrar su relacin.
En el presente captulo se revisar un procedimiento exploratorio que

facilita la deteccin de tendencias patrones contenidos en tablas de dos vas.
En estas tablas cada uno de los valores est relacionado simultneamente a
dos factores. Por ejemplo, la Tabla 8.1 muestra los porcentajes de diferentes
tipos de cidos grasos en cuatro especies de peces (dos dulceacucolas y dos
marinos) reportados por Ackman en 1967 (citados por Bentez, 1989).
El aceite de pescado contiene una gran variedad de cidos grasos en

comparacin con otros aceites y grasas. Este aceite est compuesto por
fracciones importantes de cidos grasos altamente poli-insaturados de cadena
larga de carbono (20 o 22 tomos de carbono) a diferencia de la mayora de
aceites vegetales que contienen cantidades mnimas. En acuicultura es
necesario conocer los requerimientos de lpidos en las diferentes especies
cultivadas, y para ello se utilizan los datos obtenidos del anlisis de la
composicin de cidos grasos contenidos en el aceite extrado de los peces.
Entre los factores que afectan la composicin de cidos grasos en los peces
131
pueden citarse a la salinidad, temperatura y la dieta. El caso extremo ocurre

cuando se comparan peces de agua dulce con los de mar (Bentez, 1989).
Tabla 8.1 Distribucin de cidos grasos en lpidos de varios peces

Tipo de cido Especie de pez
graso Dulceacucolas Marinos
sp. 1 sp. 2 sp. 3 sp.4
(1) (2) (3) (4)
(1) I 38.1 36.7 25.7 23.5
(2) II 37.3 27.0 27.1 27.6
(3) III 7.7 12.2 21.8 13.0
(4) IV 2.3 6.4 18.9 25.5
Grupo I.- cidos grasos con cadenas de 14 y 16 carbonos (cortas).
Grupo II.- cidos grados con cadena de 18 carbonos (corta).
Grupo III.- cidos grasos con cadena de 20 carbonos (larga).
Grupo IV.- cidos grasos con cadena de 22 carbonos (larga).
Especie 1.- Sheepshead (Archosargus probatocephalus)
Especie 2.- Alewife (Alosa pseudoharengus)
Especie 3.- Bacalao del Atlntico (Gadus morhua)
Especie 4.- Salmn Chinook (Oncorhynchus tshawytscha)
Para explorar la influencia de la salinidad sobre la composicin de

cidos grasos, las especies (de agua dulce y marina) se han dispuesto en las
columnas y los diferentes grupos de cidos grasos en las filas. Cada uno de
los valores numricos contenidos puede identificarse por medio de la columna
(especie de pez) y rengln (tipo de cido graso) al que pertenece. Pueden
utilizarse subndices que correspondan al nmero de columna. De esta forma
el bacalao (pez marino situado en la columna tres) contiene un 27.1 % de
cidos grasos de 18 carbonos (fila tres). Por tanto, al buscar tendencias o
patrones en este tipo de tablas se deben considerar los factores de
agrupamiento (columnas y filas) as como los valores numricos que les
corresponden. Si las columnas presentan un orden natural se puede buscar
alguna tendencia a lo largo del mismo. En la Tabla 8.1 las filas presentan un
orden natural (el nmero de tomos de carbono se incrementa hacia abajo) a
diferencia de las columnas (se pueden colocar las especies en cualquier orden,
aunque para fines interpretativos es conveniente colocar juntas a las especies
marinas y dulceacucolas). Consecuentemente, resulta apropiado buscar
tendencias globales a lo largo de las filas y columnas (los cidos grasos de
cadena corta son ms abundantes en peces de agua dulce que en los marinos;
los cidos grasos de cadena larga constituyen una buena parte de los lpidos
de peces marinos pero tan slo una pequea fraccin en los dulceacucolas),
tendencias por columnas o renglones (para la especie uno la tendencia
dulceacucola es particularmente marcada).
132
Como en cada uno de los mtodos exploratorios, se busca la existencia

de casos extraordinarios. En la Tabla 8.1 el valor correspondiente a los cidos
grasos de cadena larga (fila 4) de la especie 1 (columna 1) es particularmente
bajo respecto a los dems.
8.1 Desplegado de Tablas
Como se ha comentado anteriormente, el examen de una gran cantidad de

valores numricos puede resultar difcil y tediosa. En las tablas esto puede ser
un factor importante que interviene en su interpretacin. A veces es posible
discernir las tendencias, pero con filas y columnas numerosas la situacin se
complica. Para facilitar el reconocimiento de patrones Velleman y Hoaglin
(1981) sugieren el uso de un cdigo que simplifica el comportamiento
numrico y conserva el arreglo tabular, tcnica exploratoria que denominan
tablas codificadas.
El comportamiento de los valores se resume por una serie de smbolos

de un slo carcter que se coloca en lugar del dato original. Dicho cdigo se
basa en las medidas resistentes de nivel, localizacin y dispersin que definen
a los diagramas de caja (captulos 2 y 3). Los criterios utilizados se especifican
de la siguiente manera:
a) Valores dentro del 50% central, es decir entre el cuarto superior y el

inferior (representados por un punto, )
b) Valores situados arriba o abajo de los cuartos pero dentro de las

cotas internas (representados por los signos + y - respectivamente).
c) Valores fuera de las cotas internas pero sin igualarse a las cotas
externas (codificados por los signos #, equivalente a un signo + "doble", o un
signo =, interpretado como un signo - "doble").
d) Valores mas all de las cotas externas (codificados por las letras P de
la palabra inglesa Plus, M de Menos).
La categora c) caracteriza a los casos extraordinarios moderados,

mientras que en la d) se incluyen a los casos extraordinarios marcados o
severos. La Tabla 8.2 muestra la codificacin de la Tabla 8.1. Pueden notarse
ahora los patrones de manera ms clara y ver que la tendencia a la
disminucin de abundancia de cidos grasos de cadena larga en peces
dulceacucolas se marca mejor que la tendencia al aumento de los mismos
cidos grasos en peces marinos. Asimismo, es claro que no existen casos
extraordinarios.
133
Tabla 8.1 Distribucin de cidos grasos en lpidos de varios peces

sp. 1 sp. 2 sp. 3 sp.4
(1) (2) (3) (4)
(1) I + +
(2) II + +
(3) III - -
(4) IV - -
8.2 Recomendaciones para el Uso de Tablas Codificadas
Mientras las tablas tengan un tamao moderado pueden realizarse a mano

por medio del clculo de los cuartos y las cotas internas y externas. Estos
valores pueden obtenerse de un resumen de letras. Para las tablas con
numerosas filas y columnas es recomendable el uso de las computadoras.
La codificacin de tablas grandes trae consigo varias ventajas: en primer

lugar representa una forma efectiva de condensacin ya que en lugar de los
cinco seis espacios utilizados para escribir a los nmeros se emplea slo
uno ( dos si los smbolos se separan por un espacio en blanco). En segundo
trmino, si las filas y columnas estn ordenadas y espaciadas uniformemente,
las tablas codificadas sirven como un bosquejo de un grfico de contorno. Hay
que sealar que los cdigos se han escogido de tal forma que los smbolos ms
obscuros (en una impresin en blanco y negro) representan valores alejados
de la tendencia central, lo que facilita la interpretacin (Velleman y Hoaglin,
1981).
Las tablas con rplicas de valores en cada categora de clasificacin

pueden analizarse de manera ms sencilla por medio de su codificacin y del
empleo de computadoras. La Tabla 8.3 contiene el consumo de oxgeno de dos
especies de lapas bajo tres concentraciones diferentes de agua marina. Para
cada especie se hicieron mediciones en ocho individuos (Sokal y Rohlf, 1981).
En este caso existen ocho posibilidades para representar los valores

contenidos en cada combinacin de especie-tratamiento. Dos tablas
codificadas son de utilidad para analizar estos datos. La primera utiliza el
valor ms bajo de cada grupo y la segunda usa el valor ms alto. En ambas
tablas se determinan los cuartos y cotas considerando el nmero total de
datos (8 * 2 * 3 = 48) aunque slo se codifican 6 nmeros. La Tabla 8.4
muestra el resultado de estas dos codificaciones. La tabla de valores mximos
134
muestra la predominancia de valores mayores a los cuartos; las dos tablas no

indican la existencia de casos extraordinarios.
Tabla 8.3 Consumo de oxgeno bajo tres concentraciones de agua

marina en dos especies de lapas
Concentracin de agua Especies
marina (porcentaje) Acmaea scabra (1) Acmaea digitalis (2)
50 9.74 14.50
50 11.80 12.30
50 18.80 13.40
50 11.10 17.70
50 9.74 6.38
50 14.60 10.20
50 11.10 9.63
50 10.50 14.50
75 6.37 11.80
75 7.18 9.90
75 7.18 5.75
75 10.40 5.44
75 5.20 9.99
75 8.39 6.49
75 5.20 4.47
75 13.20 4.95
100 8.93 5.49
100 9.66 5.80
100 13.60 10.40
100 16.10 11.60
100 6.78 10.00
100 14.00 3.86
100 7.16 6.14
100 8.26 6.14
Un tercer uso se da en combinacin con el procedimiento que se

presenta en el captulo siguiente, el pulido de mediana. Al codificar y
representar en una tabla los residuos del ajuste y examinarlos en bsqueda
de patrones o tendencias. Como en otros mtodos exploratorios la existencia
de comportamientos sistemticos en los residuos da idea de lo adecuado del
ajuste y da pautas para la modificacin de los datos originales y la
consideracin de escalas alternativas (re-expresin). Para el anlisis de los
residuos se utilizan los valores absolutos mayores (el valor ms alto
independientemente de su signo). Asimismo, y debido a la resistencia del
pulido de mediana este anlisis de residuos por la tabla codificada permite la
deteccin de casos extraordinarios.
135
Tabla 8.4 Codificacin de los valores de la Tabla 8.3

Concentracin Especies
de agua Valor mnimo Valor mximo
marina (1) (2) (3) (4)
(porcentaje)
50 + +
75 - - +
100 - + +
Para el anlisis de datos tabulares es muy til el empleo de

computadoras. Por esto resulta conveniente aclarar la forma como se
introducen los valores numricos. Por lo general, los diversos programas
requieren que los valores que constituyen a las tablas se agrupen por medio
de valores auxiliares que indican a las diferentes categoras. Para una tabla de
dos vas se requieren tres arreglos: uno que contenga los valores de la variable,
otro que indique a las filas y otro tercero con la indicacin de las columnas.
De esta manera, la tabla siguiente (tomada de Velleman y Hoaglin, 1981):
10 20
30 40
se introducira en un programa de cmputo como:
Dato Fila Columna

10 1 1
20 1 2
30 2 1
40 2 2
En este arreglo la columna "Dato" contiene los valores numricos a

considerar; la columna "Fila" contiene el nmero de la fila y la columna
"Columna" contiene el nmero correspondiente de columna. Como Velleman y
Hoaglin (1981) puntualizan, esta forma de especificar a los datos de las tablas
quizs ocupe un espacio mayor, sin embargo, posee ciertas ventajas. Por
ejemplo, si en la tabla existen valores faltantes es fcil su acomodo, ya que la
combinacin de fila y columna correspondiente nunca se introduce. Los
valores mltiples quedan definidos por la repeticin de los nmeros de fila y
columna.
136
8.3 Tablas Codificadas y Diagramas de Caja
Los diagramas de caja y las tablas codificadas poseen el mismo fundamento al

derivarse de los resmenes de letras. Ambos despliegan tendencias globales y
permiten la identificacin de casos extraordinarios. Como se ha sealado, las
tablas codificadas son un medio que permite encontrar patrones
bidimensionales. Cuando se requiere analizar las tendencias por filas o
columnas en forma independiente, los diagramas de caja resultan ms
convenientes (Velleman y Hoaglin, 1981).
La Tabla 8.5 muestra la captura total (toneladas en peso vivo) por

regiones de Mxico durante el perodo de 1975 a 1987 (Anuario Estadstico de
Pesca 1987). La versin codificada se presenta en la Tabla 8.6.
Tabla 8.5 Captura total de peces por regiones de Mxico durante el

periodo de 1975 a 1987 (toneladas de peso vivo)
1975 1976 1977 1978 1979 1980 1981
(1) (2) (3) (4) (5) (6) (7)
I 378777 465185 504109 566827 734316 954568 1109311
II 34944 33981 33062 66288 72438 75440 146163
III 121103 128217 135453 179143 189707 222330 290377
IV 205 305 428 1194 1837 4641 7687
V 756 899 818 5059 4627 5169 11927
1982 1983 1984 1985 1986 1987
(8) (9) (10) (11) (12) (13)
I 933052 681170 664972 836661 926127 995409
II 127675 79384 102102 88735 113568 122610
III 282835 293293 342243 300349 283388 303161
IV 6788 6805 7239 7637 8418 11019
V 5955 14895 18036 22506 25499 32642
Las claves de las regiones se especifican en el Cuadro 3.2
La tabla codificada muestra algunas tendencias claras: la regin I

destaca por sus elevados valores de captura, entre los que se incluyen un
buen nmero de casos extraordinarios moderados. En los ltimos aos la
regin III alcanza tambin valores altos. La regin II se caracteriza por una
captura que ha permanecido estable en el perodo considerado. Por otra parte
puede observarse que en general, a travs de los aos, la captura se ha
incrementado en todas las regiones. No obstante, dicho incremento parece ser
variable en casi todas las regiones.
137
Tabla 8.6 Codificacin de los datos de la Tabla 8.5

75 76 77 78 79 80 81 82 83 84 85 86 87
I + + + + # # # # + + # # #
II
III + + +
IV - - - - - - - - -
V - - - - - - -
Para observar con mejor detalle las tendencias anuales es necesario

considerar a los valores anuales en conjunto. La forma de realizar esto es por
medio de diagramas de caja de la captura por ao. En la Figura 8.1 puede
apreciarse que el incremento en la capturas se di de manera general hasta
1981; durante 1982 y 1983 se registr una baja en los valores tpicos de
captura, para incrementarse de nuevo en los aos siguientes. La tendencia
citada se observa en las medianas, en los cuartos superiores, y an en los
casos extraordinarios. Por medio de los diagramas de caja se pueden apreciar
estas variaciones anuales con un mejor detalle. La marcada asimetra de las
cajas nos sugiere la re-expresin de los datos por medio de alguna de las
potencias de la escala de Tukey.
La forma en la cual se introducen las tablas en la computadora facilita

la utilizacin de los diagramas de caja, ya que los nmeros de agrupamiento
de filas y columnas se especifican desde el principio. Para realizar los
diagramas de caja en paralelo tan slo basta indicar que valores de grupo
(filas o columnas) son los que se utilizan. Un examen ms detallado podra
realizarse mediante la suavizacin de la captura de cada regin. Una forma
adicional de analizar este tipo de tablas se da en el captulo siguiente.
8.4 Detalles y Alternativas
Podra pensarse que el empleo de computadores con tarjetas de grficos y

monitores de color mejore significativamente la interpretacin de las tablas
codificadas. Con estos dispositivos es posible representar a cada smbolo con
un color diferente que permita destacarlo de los dems. Sin embargo, varios
estudios (Miller, 1956) indican que existe una limitacin en la percepcin
humana para interpretar cdigos. Siete parece ser un nmero confortable de
interpretacin (Velleman y Hoaglin, 1981).
Los dispositivos de salida actuales permiten que el orden y espaciado

uniforme de filas y columnas se represente adecuadamente. Una fuente de
esta separacin puede identificarse por los efectos de fila y columna
138
determinados por el pulido de mediana de la tabla (Velleman y Hoaglin, 1981),

tema que se presenta en el captulo siguiente.
200000 400000 600000 800000 1.0e+06 1.2e+06

Captura en peso vivo (toneladas)
0
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987
Figura 7.1 Diagramas de caja y bigotes para captura anual en Mxico
139
Captulo 9. Pulido de Mediana

Como se mencion anteriormente, en este captulo se presentar un mtodo
para analizar tablas de dos vas, en las cuales, como se indic al describir las
tablas codificadas, los factores poseen varios niveles independientes
(categoras) y cada combinacin de filas y columnas contiene el valor de una
tercera variable (llamada de respuesta). As, por ejemplo, la temperatura del
agua de una presa lago puede variar respecto a la profundidad y el tiempo o
bien la tasa de supervivencia de una especie de pez depende de la edad de los
peces y el ao considerado. El anlisis tradicional de este tipo de tablas se
realiza mediante el uso de medias, por lo que, en ocasiones, cuando existen
casos extraordinarios, estas medidas de centralizacin no representan
adecuadamente a los datos. Para fines exploratorios resulta conveniente el
tener procedimientos que no sean influenciados por unos cuantos valores
muy diferentes a los dems. En vez de la media se puede utilizar a la mediana
para resumir dependencias aditivas de la variable de respuesta respecto a los
factores de acuerdo a la llamada ecuacin DAR (Datos = Ajuste + Residuos). El
ajuste de medianas a una tabla de dos vas con tres variables es otro de los
procedimientos exploratorios que requiere iteracin para llegar al resultado
final. Los residuos de tal ajuste permiten identificar casos extraordinarios y
desviaciones de la estructura aditiva (si presentan un comportamiento
sistemtico).
9.1 Tablas de Dos-Vas con Tres Variables
Una tabla de dos-vas con tres variables es un conjunto de datos en el cual las
observaciones se escriben:
yij i = 1,...,I ;j = 1,...,J ;................(1)
en un arreglo rectangular, como el mostrado en la Tabla 9.1 que reproduce a

la tabla 8.1 del captulo anterior. Esta estructura de datos involucra tres
variables: un factor de fila, el cual tiene I niveles o categoras; un factor de
columna, el cual posee J niveles; y una variable de respuesta y, de la cual
tenemos I * J observaciones, una para cada combinacin de fila y columna. La
interseccin de una fila y una columna se denomina celda. Las tablas pueden
tener un valor nico por celda o varios valores en cada celda. Como se ha
descrito anteriormente las variables que definen los factores son de naturaleza
cualititiva (categricas nominales u ordinales), mientras que la variable de
respuesta es cuantitativa (continua o discreta) (Emerson y Hoaglin, 1983c).
Superficialmente este tipo de tablas es semejante a las tablas bivariadas de
141
clasificacin cruzada que contienen frecuencias, sin embargo, estos dos tipos
de tablas son diferentes y deben tratarse por mtodos propios (Marsh, 1988).
En el ejemplo de la Tabla 9.1 el tipo de cido graso representa el factor

de fila con cuatro niveles (I = 4), y la especie del pez viene a ser el factor de
columna tambin con cuatro niveles (J = 4). La cantidad de cidos grasos es
la variable de respuesta, yij . La variable de fila representa conjuntos de cidos
grasos agrupados de acuerdo al nmero de tomos de carbono mientras que
la variable "especie" claramente es una variable nominal.
Tabla 9.1 Distribucin de cidos grasos en lpidos de varios peces (datos

descritos en la Tabla 8.1)
sp. 1 sp. 2 sp. 3 sp.4
(1) (2) (3) (4)
(1) I 38.1 36.7 25.7 23.5
(2) II 37.3 27.0 27.1 27.6
(3) III 7.7 12.2 21.8 13.0
(4) IV 2.3 6.4 18.9 25.5
Grupo I.- cidos grasos con cadenas de 14 y 16 carbonos.
Grupo II.- cidos grasos con cadena de 18 carbonos.
Grupo III.- cidos grasos con cadena de 20 carbonos.
Grupo IV.- cidos grasos con cadena de 22 carbonos.
Especie 1.- "Sheepshead" (Archosargus probatocephalus)
Especie 2.- "Alewife" (Alosa pseudoharengus).
Especie 3.- Bacalao del Atlntico (Gadus morhua)
Especie 4.- Salmn chinook (Oncorhynchus tshawytscha)
Es posible tratar de describir el efecto de las filas y de las columnas en

los valores numricos examinando los valores numricos de la tabla, o bien,
mediante el anlisis de los smbolos de una tabla codificada. No obstante,
existen procedimientos estadsticos apropiados para descubrir estos efectos.
Todos ellos descomponen los valores en varias partes relacionadas de
diferentes maneras, de las cuales, la relacin ms sencilla es aditiva.
142
9.2 Modelo Aditivo para Tablas de Dos Vas (tres variables)
En un modelo aditivo para este tipo de tablas se considera un elemento tpico

global que se denomina "valor comn" al cual se suman valores debidos a las
filas y a las columnas; finalmente existe un elemento que contiene fracciones
inexplicadas por los valores anteriores (residuos). Este ajuste puede
representarse por medio de la ecuacin DAR:
Datos = Valor comn + efecto filai + efecto columnaj + residuoij
de forma abreviada:
Datos = m + ai + bj + eij .....................(2)
En donde el
Ajuste = Valor comn + efecto filai + efecto columnaj.
En la nomenclatura estadstica tradicional estos valores se representan de la

siguiente manera:
yij = + i + j + eij .....................................(3)
En este modelo, es el valor comn, i es el efecto de fila y j representa los

efectos de cada columna; eij representa el "error residual", es decir, las
desviaciones (tericamente aleatorias) del modelo aditivo.
Existen varios procedimientos para encontrar los elementos aditivos

especificados en las expresiones anteriores. Algunos involucran el uso de
medias para encontrar el trmino comn. A continuacin se explicar un
mtodo iterativo resistente basado en el uso de medianas. De esta forma,
observaciones aisladas en algunas celdas no afectarn la estimacin del valor
comn, los efectos de fila, los de columna y como consecuencia, esto se
reflejar en los residuos (Emerson y Hoaglin, 1983c).
143
9.3 Pulido de Mediana
El pulido de la mediana permite estimar los elementos del modelo aditivo a

travs de un proceso iterativo. A continuacin se presentan los pasos a seguir
(de acuerdo a Marsh, 1988). En primer lugar se determinan las medianas de
cada fila. De esta forma y al aplicar a los datos de la tabla 9.1 se obtienen 4
medianas. En seguida estas medianas ajustadas se restan entonces a cada
uno de los valores de cada fila. La tabla inferior representa los pasos
anteriores y los dispone de acuerdo a la ecuacin DAR:
Datos = Ajuste + Residuos

38.1 36.7 25.7 23.5 31.20 +6.90 +5.50 -5.50 -7.70
37.3 27.0 27.1 27.6 27.35 +9.95 -0.35 -0.20 +0.25
7.7 12.2 21.8 13.0 12.60 -4.90 -0.40 +9.20 +0.40
2.3 6.4 18.9 25.5 12.65 -10.00 -6.25 +6.25 +12.85
La tabla de residuos muestra la variacin asociada con las especies; se puede

apreciar que los peces de agua dulce tienden a tener mayor cantidad de
cidos grasos de bajo nmero de carbono y que los marinos contienen mayor
proporcin de los de alto nmero.
El siguiente paso es calcular las medianas de las columnas del ajuste y

de los residuos y restarlas de dichos valores para obtener nuevos residuos. De
esta manera se obtiene la tabla de la pgina siguiente, la cual en adicin a las
partes de la tabla anterior contiene las medianas de cada columna y sus
correspondientes residuos. A la hora de obtener los residuos hay que tener
cuidado con los signos (Marsh, 1988).
En este punto es conveniente hacer una interpretacin preliminar de los

resultados despus del primer ciclo iterativo: se ha obtenido el ajuste global
igual a 20; los efectos de fila (con una tendencia a la disminucin al aumentar
el nmero de carbonos); los efectos de columna (que muestran un patrn poco
definido de valores bajos para los peces dulceacucolas y relativamente altos
para los marinos) y una tabla de residuos.
Primer Ciclo
+38.1 +36.7 +25.7 +23.5 +31.20 +6.90 +5.50 -5.50 -7.70
+37.3 +27.0 +27.1 +27.6 +27.35 +9.95 -0.35 -0.20 +0.25
+7.7 +12.2 +21.8 +13.0 +12.60 -4.90 -0.40 +9.20 +0.40
+2.3 +6.4 +18.9 +25.5 +12.65 -10.00 -6.25 +6.25 +12.85
+20.00 +1.00 -0.375 +3.00 +0.325
+11.20 +5.90 +5.875 -8.50 -8.025
+7.35 +8.95 +0.025 -3.20 -0.075
-7.40 -5.90 -0.025 +6.20 +0.075
-7.35 -11.00 -5.875 +3.25 +12.525
144
El primer ciclo no es sino la primera etapa del ajuste. Como en el caso

de la recta resistente estos valores preliminares requieren de un ajuste
adicional. Este proceso se denomina "pulido", de donde el mtodo toma su
nombre y consiste en ajustar los valores de las medianas residuales para
estimar los efectos de fila y columna. Esta operacin es el segundo ciclo y se
procede a partir de la tabla de residuos que resulta del primero.
Segundo Ciclo
+6.9750 +6.9500 -7.4250 -6.9500 -1.0750 +5.90 +5.875 -8.50 -8.0250
+8.9750 +0.0500 -3.2250 -0.0500 -0.0250 +8.95 +0.025 -3.25 -0.0750
-5.9250 -0.0500 +6.1750 +0.0500 +0.0250 -5.90 -0.020 +6.20 +0.0750
-10.0375 -4.5625 +4.5625 +13.8375 -1.3125 -11.35 -5.870 +3.25 +12.525
+0.5250 0.0000 0.6687 0.0000 -0.5500
+6.4500 +6.9500 -8.0930 -6.9500 -0.5250
+8.4500 +0.0500 -3.8930 -0.0500 +0.5250
-6.4500 -0.0500 +5.5062 +0.0500 +0.5750
-10.5625 -4.5625 +3.8937 +13.8375 -0.7625
En la tabla anterior se han incluido los resultados de esta operacin

que se realiza de izquierda a derecha para distinguirla de la anterior.
Primeramente se determinan las medianas de fila, se restan de cada uno de
los valores de la tabla residual y el resultado se escribe a la izquierda.
Posteriormente se determinan las medianas de las columnas de la tabla nueva
de residuos y de la columna de medianas. Como parte final y para completar
este segundo ciclo se resta estas medianas a los valores de la tabla y columna
de la cual provienen.
El pulido de la mediana puede generar un gran nmero de residuos

iguales a cero especialmente cuando el nmero de filas y/o columnas es
impar. Los valores que aparecen en la fila y columna de medianas as como el
valor comn, representan valores de ajuste para los anteriormente
determinados. En principio, podramos repetir esta sustraccin de medianas
hasta que todas las filas y columnas tuvieran medianas igual a cero. Esto
significa que, habiendo empezado con las filas y luego pulido las columnas, es
necesario verificar las filas y pulir de nuevo cualquiera que tuviera una
mediana diferente de cero (Emerson y Hoaglin, 1983c).
La Figura 9.1 explica grficamente las operaciones realizadas hasta este

punto.
145

Primer Ciclo
1 2 3
MF1 (1 2)
5 4
(MC2) (MC3)
7 6
(2 5) (3 4)
Segundo Ciclo
9 8 6
(6 8) (MF6) (Otra vez)
10 11
(MC9) (MC8)
12 13
(9 10) (8 11)
Resultado
Ajuste global Efectos de columna

5 + 11 4 + 10
Efectos de fila Residuos

7 + 13 12
MF = Medianas de fila
MC = Medianas de columna
Figura 9.1 Versin esquemtica del pulido de mediana (Adaptada de Marsh,
1988)
Como lo indica la figura 9.1, el resultado final se obtiene mediante la

suma del ajuste y los efectos obtenidos en el segundo ciclo a los del primero.
Los residuos finales son los calculados al final del segundo ciclo.
146
Se sugiere que el pulido se repita tantas veces como sea necesario para
que los efectos de fila y columna se encuentren cerca de cero (aproximados a
0.5 de cero). Por lo general, rara vez se requiere un nmero mayor de dos
iteraciones. Este procedimiento es otro ejemplo de la utilidad de las
computadoras para efectuar las operaciones de mtodos exploratorios
iterativos (los otros son la recta resistente y la suavizacin no lineal resistente).
Tabla 9.2 Pulido de mediana de los datos de la Tabla 9.1 (despus de dos
ciclos)
Tipo de Especie de pez
cido Dulceacucolas Marinos
graso sp1 sp 2 sp 3 sp 4
(1) (2) (3) (4)
19.45 1.525 -0.375 3.66875 0.325
(1) I 10.675 +6.4500 +6.9500 -8.09370 -6.9500
(2) II 7.875 +8.4500 +0.0500 -3.89470 -0.0500
(3) III -6.825 -6.4500 -0.0500 +5.50625 +0.0500
(4) IV -8.1125 -10.5625 -4.5625 +3.89375 +13.8375
El resultado final despus de los dos ciclos se muestra en la Tabla 9.2.

Se pueden apreciar algunos cambios respecto a los efectos y ajuste del primer
ciclo. Ahora bien qu significan los valores de esta tabla? El trmino comn
es un valor de referencia que permite la cuantificacin y variacin de los
efectos; este valor no tiene importancia por si mismo. Por otro lado, los valores
de los efectos poseen un inters mayor.
Los efectos correspondientes al tipo de cidos grasos exponen una

tendencia clara a la disminucin: el intervalo va de -8.11 hasta 10.67. Resulta
evidente que en los peces, la cantidad de cidos grasos de cadena corta
predominan sobre los de cadena larga. Respecto a los efectos de la especie de
pez, puede observarse que existe un patrn menos claro: bajos efectos en los
peces de agua dulce y mayores en los marinos, lo que indica que la cantidad
de cidos grasos en los peces de mar tiende a ser mayor que en los
dulceacucolas. El valor de los efectos de columna sugiere un orden diferente
que podra utilizarse para escribir la tabla; en un principio y dado el carcter
nominal de la variable especie, no existi un orden definido para la
disposicin de las columnas. Al comparar los valores de los efectos resulta
claro que el tipo de cido graso es de mayor importancia que las especies de
peces en la cantidad de cidos grasos.
Para examinar las desviaciones de cada valor respecto al ajuste (es decir,
los residuos) se utilizar una tabla codificada (Tabla 9.3). En esta puede
147
notarse una caracterstica interesante no manifiesta por los efectos: los

residuos de las especies dulceacucolas (sobre todo la primera de la tabla)
reflejan la tendencia de los efectos de fila; las especies marinas, por otro lado,
manifiestan una tendencia contraria: poca cantidad de cidos grasos de
cadena corta y proporciones importantes de cidos grasos de cadena larga
(sobre todo en la especie 4). Se puede notar tambin que no existen casos
extraordinarios que merezcan un examen adicional.
Como se mencion en el captulo anterior, el comportamiento de los

valores en la tabla pueden captarse examinando los valores de la misma. Sin
embargo, el ajuste del modelo aditivo permite un anlisis cuantitativo de las
variaciones de acuerdo a los niveles de las variables de clasificacin.
Tabla 9.3 Codificacin de los residuos del pulido de mediana de la

distribucin de cidos grasos en lpidos de varios peces
Tipo de Especie de pez
cido Dulceacucolas Marinos
graso sp. 1 sp. 2 sp. 3 sp. 4
(1) (2) (3) (4)
(1) I + + - -
(2) II +
(3) III -
(4) IV - +
Existe otra tendencia en la distribucin de los residuos que merece un

apartado propio para su discusin.
9.4 Residuos y aditividad
Como es usual, el patrn de los residuos es indicador de lo adecuado del

modelo empleado. Al utilizar medianas en lugar de medias se garantiza que
valores extraordinarios no afecten al modelo aditivo. Si los residuos muestran
un patrn definido, la aditividad de los elementos del modelo aditivo es
cuestionable. Para entender la aditividad se considerar el siguiente ejemplo:
La tabla 9.4a) contiene valores de una variable clasificada de acuerdo a

otras dos, cada una con dos niveles. En esta parte de la tabla, cuando el
factor A cambia del nivel 1 al 2 mientras el factor B permanece en su nivel 1
(es decir, los cambios en la primera columna), la respuesta se incrementa en 2.
De manera semejante, cuando el factor B cambia del nivel 1 al 2 y el factor A
permanece fijo en el nivel 1 (cambio en la primera fila), la respuesta se
incrementa por 3. Cuando los dos niveles cambian de 1 a 2, la variable de
respuesta aumenta en 5, lo cual es la suma de los dos incrementos por nivel y
148
por separado. Esto se debe a que el cambio en la respuesta cuando el nivel de

cualquier factor vara de 1 a 2 es el mismo para cada nivel del otro factor. En
este caso los cambios en los niveles de los dos factores afectan la variable de
respuesta por separado, o, en una forma aditiva (Devore y Peck, 1986).
Tabla 9.4 Datos para explicar aditividad (adaptada de Devore y

Peck, 1986)
a) b)
Factor Factor B Factor Factor B
A 1 2 A 1 2
3 3
1 24 27 1 24 27
2 5 2 2 8 5
2 26 29 2 26 32
3 6
____________________________________________________________________________
Por otra parte, los cambios en la respuesta de la primera fila y en la primera

columna de la tabla 9.4b) son 3 y 2 respectivamente, tal y como en la parte a).
Sin embargo, el cambio en la respuesta cuando los niveles de ambos factores
cambian simultneamente de 1 a 2 es 8, valor mucho mayor que el sugerido
por los efectos individuales de los cambios por separado. En este caso existe
interaccin entre los dos factores de tal forma que el efecto de cambios
simultneos no puede determinarse de los efectos individuales de los cambios
por separado. Esto se debe a que el cambio al ir de la primera a la segunda
columna es diferente para las dos filas, y el cambio al ir de la primera a la
segunda fila es diferente para las dos columnas. De esta forma el cambio en la
variable de respuesta cuando el nivel de un factor cambia depende del nivel
del otro factor. Por lo tanto, la relacin de los elementos no es aditiva (Devore
y Peck, 1986).
Tabla 9.5 Percentiles de la distribucin de chi-cuadrada (Adaptados de

Emerson y Hoaglin, 1983c)
Grados de Nivel de significancia
libertad 0.9 0.95 0.975 0.99 0.995
3 6.25 7.81 9.35 11.34 12.84
6 10.64 12.59 14.45 16.81 18.55
9 14.68 16.92 19.02 21.67 23.59
12 18.55 21.03 23.34 26.22 28.30
15 22.31 25.00 27.49 30.58 32.80
18 25.99 28.87 31.53 34.81 37.16
149
Un ejemplo terico har mas claro este comportamiento. La tabla de

porcentajes de la distribucin de chi-cuadrada es muy conocida. Se sabe que
al disminuir la probabilidad de las colas (nivel de significancia), el porcentaje
del rea bajo la curva de la distribucin aumenta. Para un nivel de
significancia fijo, un incremento en el nmero de grados de libertad produce
un aumento en el porcentaje del rea bajo la curva. La tabla de chi-cuadrada
es un ejemplo de una tabla de dos vas con tres variables (Tabla 9.5)
Si estos datos se analizan mediante el pulido de mediana se obtiene la

Tabla 9.6:
Tabla 9.6 Pulido de mediana para los datos de la Tabla 9.5

Grados Nivel de significancia ()
de libertad 0.90 0.95 0.975 0.99 0.995
21.18 -4.57 -2.21 0.00 2.77 4.77
3 -11.83 +1.47 +0.67 0.00 -0.78 -1.28
6 -6.73 +0.76 +0.35 0.00 -0.41 -0.67
9 -2.16 +0.23 +0.11 0.00 -0.12 -0.20
12 2.16 -0.22 -0.10 0.00 +0.11 +0.19
15 6.31 -0.61 -0.28 0.00 +0.32 +0.54
18 10.35 -0.97 -0.45 0.00 +0.51 +0.86
Las tendencias generales resultan claras en los efectos de fila y columna.

Adems, los residuos presentan una distribucin peculiar. Las esquinas
opuestas de la tabla muestran residuos del mismo signo. La esquina superior
izquierda y la inferior derecha concentran residuos positivos, mientras que la
inferior izquierda y la superior derecha acumulan residuos negativos.
La tabla codificada intensifica este comportamiento (Tabla 9.7)
Tabla 9.7 Tabla codificada de residuos del pulido de mediana (Tabla 9.6)
Grados de Nivel de significancia ()
libertad 0.9 0.95 0.975 0.99 0.995
3 # + - =
6 + + - -
9
12
15 - +
18 - - + +
150
As como la distribucin curvilnea de los residuos respecto al ajuste de

una lnea recta marcan la necesidad de re-expresar las unidades de las
variables, en el caso de las tablas de dos vas con tres variables la desviacin
sistemtica de los residuos respecto al ajuste indican la necesidad de una
transformacin. El comportamiento sistemtico que indica la no-aditividad es
precisamente el que se muestra en las tablas anteriores y que Velleman y
Hoaglin (1981) denominan de "silla de montar" por el "doblez" opuesto de las
esquinas de la tabla.
Para encontrar la transformacin que simplifica el comportamiento y

hace lineal la relacin de los componentes de la tabla se emplea un grfico de
diagnstico. El procedimiento es semejante al descrito para la comparacin de
lotes de datos (grfico dispersin-nivel del captulo 3), para la promocin de
simetra del captulo 4, y para la deteccin de no-estacionaridad en
secuencias de datos (captulo 7).
El procedimiento considera los valores obtenidos del pulido de mediana:

al trmino comn (m), a los efectos de filas (ai), a los efectos de columna (bj) y
a los residuos del ajuste (eij). Para cada valor de la celda se define un valor de
comparacin de acuerdo a la siguiente expresin:
.....................(4)
El grfico de diagnstico consiste en graficar los pares (vcij, eij ), uno para cada
celda. En otras palabras se grafican los residuos contra los valores de
comparacin. Si los puntos de dicho diagrama no presentan ningn patrn
variacin sistemtica, puede concluirse que los datos no se apartan de forma
consistente del modelo aditivo (Velleman y Hoaglin, 1981; Emerson y Hoaglin,
1983c).
Como en los grficos de captulos anteriores, la pendiente de este

grfico es la gua en la eleccin de la transformacin que promueve la
aditividad en los datos de la tabla de acuerdo a la expresin p = 1 - b en donde
"b" es la pendiente del grfico y "p" es la potencia de acuerdo a la escala de
Tukey (captulos 3 y 4). Existe la posibilidad de adicionar el trmino b vcij
para promover la aditividad (consultar a Emerson y Hoaglin, 1983c y Emerson
y Wong, 1985), sin embargo, slo se considerar la transformacin potencial.
Para el ejemplo analizado el grfico de diagnstico se presenta en la

Figura 9.2 que confirma la no-aditividad de los datos en la tabla. El ajuste de
una lnea resistente (procedimiento recomendado debido a la posible
existencia de casos extraordinarios) proporciona una pendiente igual a 0.44.
Este valor de pendiente conduce a la transformacin de los datos por raz
cuadrada.
151
Al aplicar esta sugerencia se calcul la raz cuadrada de los datos y se

efectu el pulido de mediana. Los resultados se muestran en la Tabla 9.8. Los
residuos en la nueva escala son menores, sin embargo, an muestran cierto
patrn "asillado". No obstante, debido a la pequea magnitud de los residuos
puede concluirse que la aditividad en la tabla es mejor en la escala de raz
cuadrada respecto a los datos originales (Emerson y Hoaglin, 1983). Este
ajuste permite la determinacin de los valores de probabilidad de la
distribucin de chi-cuadrada conociendo el nivel de significancia y los grados
de libertad (sin necesidad de una tabla) (consultar el trabajo de Hoaglin, 1977
en el cual se especifican las frmulas para tal fin).
Un ejemplo menos terico de no-aditividad en los valores de una tabla

de dos vas con tres variables se presenta en la Tabla 9.9, donde se incluyen
la produccin asitica de crustceos cultivados en perodos de cinco aos (de
1975 a 1985) y el estimado para el ao 2000 en varios pases del continente
asitico (Piedad-Pascual, 1989).
Tabla 9.8 Pulido de mediana para la raz cuadrada de la Tabla 9.5

Grados de Nivel de significancia ()
libertad 0.9 0.95 0.975 0.99 0.995
4.59 -0.53 -0.25 0.00 0.30 0.50
3 -1.53 -0.03 -0.02 0.00 +0.01 +0.02
6 -0.79 -0.01 +0.00 0.00 +0.00 +0.01
9 -0.23 +0.00 +0.00 0.00 +0.00 +0.00
12 0.24 +0.01 -0.01 0.00 -0.01 -0.01
15 0.65 +0.01 -0.01 0.00 -0.01 -0.01
18 1.03 +0.01 +0.00 0.00 -0.02 -0.02
152
1.5
.5
Residuos
-.5
-1.5
-2.6 -1.3 0 1.3 2.6

Valor de comparacin
Figura 9.2 Grfico de diagnstico de no aditividad
Tabla 9.9 Produccin de crustceos cultivados en Asia y produccin

estimada para el ao 2000 en miles de toneladas (Tomados de Piedad-
Pascual, 1989)
Ao
Pas 1975 1980 1985 2000
Corea del Sur 0.1 0.1 0.1 5.0
Malasia 0.1 0.1 0.2 8.0
Singapur 0.0 0.0 0.3 2.0
Burma 0.2 0.3 0.7 5.0
Japn 0.9 1.6 2.1 3.0
Bangladesh 1.6 2.7 7.6 60.0
Vietnam 3.0 5.4 13.0 30.0
India 4.0 7.0 17.0 50.0
Tailandia 3.3 8.1 18.5 110.0
Filipinas 1.1 1.4 29.9 100.0
Taiwan 0.3 3.8 31.0 85.0
China 0.5 1.2 42.7 200.0
Indonesia 10.0 24.0 38.0 120.0
153
El pulido de mediana se presenta en la Tabla 9.10. Existe una

tendencia marcada al incremento de la produccin con el tiempo; los valores
estimados para el ao 2000 resaltan por su elevada magnitud. Los pases han
sido ordenados de acuerdo al efecto de su produccin; el efecto para Indonesia
destaca con mucho como el pas con mayor produccin de crustceos
cultivados. Al examinar los valores numricos de los residuos es posible
distinguir valores elevados para los ltimos pases de la lista en el ao 2000,
ya sea por una extrapolacin muy optimista o bien por el mayor lapso de
tiempo implicado (15 aos); destaca sobre todo el residuo correspondiente a
China para ese ao. Adems, se bosqueja lo que parece un patrn de silla de
montar. La tabla codificada correspondiente se incluye en la tabla 9.11 y en
ella puede notarse el patrn asillado de los residuos que sugiere no-aditividad
en los datos.
La Figura 9.3 incluye el grfico de diagnstico de no-aditividad que

muestra un comportamiento sistemtico. La pendiente de la recta resistente
es igual a 0.97, valor que sugiere (p = 1 - b) la re-expresin logartmica en la
escala de Tukey. El pulido de mediana de los datos logartmicos se muestra
tan slo para comprobar que la versin re-expresada se ajusta mejor al
modelo aditivo mediante la versin codificada de los residuos (Tabla 9.12).
Esta tabla no muestra un comportamiento sistemtico marcado como el de los
residuos provenientes del pulido de los datos originales.
150
100
Residuos
500
-50
-50 0 50 100
Valor de comparacin
Figura 9.3 Grfico de diagnstico de no-aditividad
154
Tabla 9.10 Pulido de mediana para los datos de produccin de crustceos

cultivados en Asia
Ao
Pas 1975 1980 1985 2000
8.90 -5.9 -4.1 4.1 38.9
Corea del Sur -9.10 +6.20 +4.40 -3.80 -33.70
Malasia -9.05 +6.15 +4.35 -3.75 -30.75
Singapur -9.05 +6.05 +4.25 -3.65 -36.75
Burma -8.70 +5.90 +4.20 -3.60 -34.10
Japn -7.35 +5.25 +4.15 -3.55 -37.45
Bangladesh -2.05 +0.65 -0.05 -3.35 +14.25
Vietnam 0.00 0.00 +0.60 0.00 -17.80
India 2.20 -1.20 0.00 +1.80 0.00
Tailandia 4.10 -3.80 -0.80 +1.40 +58.10
Filipinas 7.50 -9.40 -10.90 +9.40 +44.70
Taiwan 8.20 -10.90 -9.20 +9.80 +29.00
China 13.60 -16.10 -17.20 +16.10 +138.60
Indonesia 21.80 -14.80 -2.60 +3.20 +50.40
Tabla 9.11 Codificacin de los residuos del pulido de mediana de la Tabla

9.9
Ao
Pas 1975 1980 1985 2000
Corea del Sur + =
Malasia + =
Singapur + =
Burma + =
Japn =
Bangladesh +
Vietnam -
India
Tailandia P
Filipinas - - + +
Taiwan - - + #
China - - + P
Indonesia - P
155
Tabla 9.12 Codificacin de los residuos del pulido de mediana para los
datos re-expresados (logaritmos) de la Tabla 9.9
Ao
Pas 1975 1980 1985 2000
Corea del Sur + =
Malasia - +
Singapur +
Burma +
Japn + + - =
Bangladesh +
Vietnam -
India -
Tailandia -
Filipinas - - + +
Taiwan = +
China = = # #
Indonesia + -
156
Captulo 10. Un mtodo exploratorio

multidimensional
Los procedimientos exploratorios no se limitan al anlisis de una o dos
variables; algunas tcnicas permiten el estudio de un nmero mayor. Entre
los mtodos para analizar datos con tres o ms variables podemos citar al
diagrama de escalera, al grfico simblico de dispersin, (symbolic scatter
plot) y al desplegado por ventanas (casement display) descritos por Chambers
et al. (1983). En este captulo tan slo se presenta uno de estos
procedimientos, el cual se describe y explica a continuacin.
El diagrama de escalera es un bosquejo bidimensional de un nmero n

de variables. Este diagrama utiliza grficos bidimensionales para cada par
posible de variables consideradas. El arreglo en forma de "escalera" est
condicionado a que cualquier par de grficas adyacentes compartan un eje
comn (Chambers et al., 1983; Curts et al., 1987). Se puede afirmar que el
diagrama de escalera, cuyo nombre se deriva de su aspecto (Curts et al.,
1987), es la versin grfica de la mitad inferior de una matriz de correlacin y
por tanto viene a ser la diagonal inferior de una matriz de grficos de
dispersin. Este desplegado visual posee la ventaja de revelar patrones o
tendencias de los puntos (por ejemplo, la presencia de casos extraordinarios o
curvatura) que no son evidentes en los tradicionales ndices de correlacin
(Hamilton, 1990).
En principio, el diagrama de escalera puede realizarse con cualquier

nmero de variables; sin embargo, cuando se tienen ms de 7, los grficos
pueden ser tan pequeos que pierden su utilidad. Una solucin a este
inconveniente es generar los grficos por partes y despus pegar las hojas
individuales en la pared, el pizarrn la pantalla (Chambers, et al., 1983).
La utilizacin del Diagrama de Escalera junto con la matriz de

correlacin hace posible tener una vista global de la relacin de los datos de
las variables consideradas. Salgado-Ugarte (1990) utiliza este procedimiento
exploratorio-confirmatorio para estudiar en conjunto una serie de medidas de
longitud corporal y el tamao de los otolitos del pez plano Kareius bicoloratus
conocido en japons como "Ishigarei" (Tabla 10.1 y Figuras 10.1 y 10.2).
157
150 200 250 1.5 2 2.5 3 1 1.5 2

250
LT 200
250 150
200 LE
150
3
RAOI 2.5
2
3 1.5
2.5
RPOI
2
1.5 4
RAOD 3
2 2
1.5 RPOD
1
150 200 250 1.5 2 2.5 3 2 3 4
Figura 10.1 Matriz de grficos de dispersin para los machos del pez plano
ishigerei
El examen de los valores numricos de la Tabla 10.1 permite distinguir

la existencia de correlaciones positivas con valores cercanos a uno. Se
distingue la correlacin existente entre medidas de longitud (total y estndar)
y de algunas dimensiones de los otolitos con la longitud de los peces. Se
puede notar tambin que los valores de correlacin de las hembras son
mayores que los valores de los machos. Sin embargo, a pesar de la
informacin revelada por los nmeros de la Tabla, no es posible saber si existe
un patrn lineal en los valores de las variables; tampoco es posible discernir la
presencia de casos extraordinarios, casos influenciales (puntos dentro de la
tendencia lineal pero lejos del grupo de datos) o la ocurrencia de cmulos de
puntos a lo largo de la tendencia rectilnea.
158
100 200 300 2 3 4 1 2 3

400
300
LT
200
100
300
200 LE
100 4
RAOI 3
2
4
3 RPOI
2
5
4
RAOD
3
3 2
2 RPOD
1
100 200 300 400 2 3 4 2 3 4 5
Figura 10.2 Matriz de grficos de dispersin para las hembras del pez plano
ihsigarei
Estas caractersticas pueden distinguirse con facilidad en el diagrama

de escalera. Estos grficos pueden dibujarse en dos formas: la primera es el
equivalente grfico de la matriz completa de correlacin, desplegado que se
conoce como "matriz de grficos de dispersin" (Figuras 10.1 y 10.2). La
segunda se deriva de la redundancia de las diagonales inferior y superior de la
matriz de correlacin: se representa tan slo la diagonal inferior, y el aspecto
de esta grfica da lugar a su nombre en espaol "diagrama de escalera"
(Figuras 10.3 y 10.4). Como es de esperar las relaciones grficas lineales ms
claramente definidas se corresponden con los valores mayores de correlacin.
As, por ejemplo, tanto en machos como en hembras las medidas corporales
(longitud total y longitud estndar) varan conjuntamente en forma muy
cercana. Si bien la definicin es menor entre las medidas restantes, resulta
claro que en general existe una relacin lineal entre ellas.
159
Tabla 10.1 Matriz de correlacin para medidas de longitud corporal y

radios de otolitos del pez plano ishigarei
a) MACHOS LT LE RAOI RPOI RAOD RPOD
LT 0.9962 0.7843 0.7871 0.8139 0.6562
LE 0.9962 0.7722 0.7874 0.8094 0.6558
RAOI 0.7843 0.7722 0.5676 0.8075 0.6118
RPOI 0.7871 0.7874 0.5676 0.7856 0.6275
RAOD 0.8139 0.8094 0.8075 0.7856 0.4105
RPOD 0.6562 0.6558 0.6118 0.6275 0.4105
b)HEMBRAS LT LE RAOI RPOI RAOD RPOD
LT 0.9977 0.8980 0.9250 0.9210 0.8515
LE 0.9977 0.9010 0.9263 0.9262 0.8502
RAOI 0.8980 0.9010 0.8713 0.9358 0.8559
RPOI 0.9250 0.9263 0.8713 0.9199 0.8914
RAOD 0.9210 0.9262 0.9358 0.9199 0.7907
RPOD 0.8515 0.8502 0.8559 0.8914 0.7907
Nota: En todos los casos la significancia fue menor de 0.001
LT = Longitud total RPOI = Radio RAOD = Radio anterior del
LE = Longitud estndar posterior del otolito otolito derecho
RAOI = Radio anterior del izquierdo RPOD = Radio posterior del
otolito izquierdo otolito derecho
LT
224
LE
130
3
RAOI
2
3
RPOI
2
4
RAOD
2.5
2
RPOD
1
150 250 150 210 2 3 2 3 2.5 4
Figura 10.3 Diagrama de escalera para medidas de los machos del pez plano
ishigarei
160
LT
300
LE
130
3.5
RAOI
2
4
RPOI
2
5
RAOD
2.5
2.5
RPOD
1
150 340150 290 2 3.5 2 3.5 3 5
Figura 10.4 Diagrama de escalera para medidas de hembras del pez plano
ishigarei
No existe evidencia de curvatura o presencia de casos extraordinarios

aunque la dispersin alrededor del patrn lineal es variable y por lo general
mayor en machos. Los valores numricos de la matriz permiten la eleccin de
aquellos pares con la mayor correlacin para su utilizacin en el retroclculo
de la talla a cada edad con la seguridad de que efectivamente existe una
relacin lineal (sin curvatura) no afectada por casos extraordinarios entre las
variables elegidas.
Tabla 10.2 Matriz de correlacin para datos de longitud y peso

corporal del suzuki
LT LE PT
LT 0.9992 0.9211
LE 0.9992 0.9267
PT 0.9211 0.9267
Nota: En todos los casos la significancia fue menor a 0.001
LT = Longitud total; LE = Longitud estndar; PT = Peso total
161
Por otra parte, la Tabla 10.2 contiene la correlacin de las medidas de

longitud y peso de individuos del pez "suzuki" (Lateolabrax japonicus)
reportados por Salgado-Ugarte(1995). Se puede apreciar en dicha tabla que en
verdad existe una variacin conjunta muy cercana entre las variables
consideradas: longitud total (LT), longitud estndar (LE) y peso total (PT). Si se
analizaran estos valores exclusivamente se podra llegar a pensar que los
datos se corresponden en la escala original. Sin embargo, al estudiar el
diagrama de escalera de estos datos (Figura 10.5) se puede notar la clara
tendencia curvilnea entre las medidas de longitud y peso. En el captulo 5 se
analiz la relacin potencial peso-longitud en peces y la forma para linearizar
dicha relacin. Los logaritmos de las variables de longitud y peso siguen una
relacin lineal. La tabla 10.3 y la Figura 10.6 contienen la matriz de
correlacin y el diagrama de escalera (respectivamente) para los datos re-
expresados (logaritmos base 10).
Tabla 10.2 Matriz de correlacin para datos transformados (logaritmo

base 10) de longitud y peso corporal del suzuki
LogLT LogLE LogPT
LogLT 0.9996 0.9969
LogLE 0.9996 0.9966
LogPT 0.9969 0.9966
Nota: En todos los casos la significancia fue menor a 0.001
LogLT = Logaritmo de Longitud total;
LogLE = Logaritmo de Longitud estndar;
LogPT = Logaritmo del Peso total
La correlacin de las medidas de longitud no cambi de manera apreciable,

sin embargo, la variacin conjunta de las medidas de longitud y peso se
increment notablemente como puede observarse en la matriz de grficos de
dispersin. La utilidad de este tipo de grficos resulta evidente en el anlisis
de la correlacin de variables.
Una aplicacin potencial de este tipo de grficos se encuentra en otros

procedimientos del anlisis multivariado. Para la identificacin de cmulos
puede utilizarse como fundamento la matriz de correlacin. Como se observ
en el ejemplo anterior, los valores numricos pueden indicar una variacin
conjunta muy cercana. Sin embargo, por medio de la matriz de grficos de
dispersin puede juzgarse si dicha relacin sigue una tendencia lineal o no (el
procedimiento de la correlacin requiere de la linealidad en la relacin).
162
LT
800
600
LE
400
200
5000
PT
0
0 500 1000 200 400 600 800
Figura 10.5 Diagrama de escalera para datos de longitud y peso corporal del
suzuki
El diagrama de escalera y la matriz de grficos de dispersin forman

parte de una serie de mtodos grficos para el anlisis multivariado
(multidimensional). Puede consultarse a Chambers et al. (1983) para mayor
informacin sobre otros procedimientos tales como los desplegados por
ventanas, los diagramas de estrella, el grfico de contorno simblico o los
dendrogramas de Kleiner-Hartigan.
163
Log10(LT)
2.5 Log10(LE)
2
4
3
Log10(PT)
2
1
2 2.5 32 2.5 3
Figura 10.6 Diagrama de escalera para logaritmos base 10 de las medidas de

longitud y peso del suzuki"
164
Captulo 11. Algunos procedimientos

confirmatorios
Una vez que se han investigado las caractersticas de los datos (nivel,
dispersin, distribucin y casos extraordinarios) es posible elegir el mtodo
estadstico apropiado para comparar valores y comprobar (o refutar)
hiptesis estadsticas.
Dependiendo del tipo de datos y sus caractersticas as como de la

finalidad y preguntas del estudio se comparan valores resumen y se
establecen afirmaciones acerca de la poblacin de inters. Es as como se
llega al campo de la Estadstica Inferencial, la cual, tomando como base el
comportamiento regular de los fenmenos aleatorios, permite hacer
inferencias acerca del total de elementos de estudio (poblacin) con base
en una parte (muestra). Una descripcin ms detallada puede consultarse
en otras obras (Marques dos Santos, 2004).
En este apartado se presentar un recorrido muy breve por los

estimadores y pruebas estadsticas ms usuales.
Conceptos importantes en este apartado son:
- poblacin: conjunto de la totalidad de elementos de inters
- muestra: fraccin de elementos tomados de la poblacin; para que las

reglas de los fenmenos aleatorios se cumplan, esta fraccin debe de
obtenerse por mtodos selectivos en donde intervenga el azar.
- parmetro: valor que representa alguna propiedad (nivel, dispersin,

distribucin o casos extraordinarios en caso de valores numricos) de los
elementos de la poblacin.
- estimador ( estadstico): valor que representa alguna propiedad de los

elementos en la muestra.
- distribucin muestral: distribucin de probabilidad para todos los valores

posibles que puede tomar un estimador.
165
La estadstica inferencial tiene dos tareas principales:
a) Estimacin: puntual y por intervalo

b) Pruebas de hiptesis.
11.1 Intervalos de confianza y pruebas de hiptesis
En las estimaciones por intervalo se hace uso de las distribuciones

maestrales. De esta forma, la frmula general del intervalo de confianza es:
P ( k k ) 1 (11.1)
En donde es el estimador del parmetro, k es una constante que

depende de la distribucin muestral del estimador y establece un mltiplo
de que es el error estndar del estimador y 1 es el nivel de confianza.
Las pruebas estadsticas establecen dos tipos de hiptesis: nula, que

se representa convencionalmente como H0 y alternativa representada como
Ha. A su vez, las pruebas son bilaterales ( de dos colas) y unilaterales (de
una cola).
Figura 11.1 Esquema de una prueba bilateral (de dos colas). Las regiones
de no rechazo y rechazo quedan delimitadas por los valores crticos (vc).
166
Para rechazar o no una hiptesis nula se contrasta un valor
calculado a partir de la muestra y el valor de referencia para la
comparacin llamado estadgrafo de prueba. Este valor queda dentro de
una de las regiones sealadas en las Figuras 11.1 a 11.3 e indica la
decisin a tomar.
El procedimiento general para calcular el estadgrafo de prueba es

comparar el estimador con el valor supuesto en las hiptesis (por
diferencia o cociente) en relacin de su error estndar. El valor obtenido se
contrasta con los valores crticos e indica de esta forma si se rechaza o no
la hiptesis nula. Los paquetes estadsticos computarizados calculan
directamente la probabilidad de cola derecha del valor calculado y lo
reportan como un valor de P. Si P < que , se rechaza H0; si P > que , no
se rechaza H0.
Las principales pruebas de hiptesis pueden memorizarse con tan

solo recordar tres signos: =, > y <. Debe recordarse que la posicin de los
signos en el planteamiento de las hiptesis no se altera. El signo igual
caracteriza las pruebas de hiptesis bilaterales en las cuales se establecen
las siguientes hiptesis:
H0: = 0
Ha: 0
El esquema correspondiente a esta prueba se muestra en la Figura

11.1. En la curva que describe la distribucin de probabilidad del
estimador se distinguen dos tipos de regiones: de no rechazo de H0 y de
rechazo de H0. Estas regiones quedan determinadas por los valores crticos
que subdividen la probabilidad en la confianza (1 ) y la significancia ().
Los valores crticos se obtienen por lo general de tablas publicadas en la
literatura estadstica, aunque actualmente las hojas electrnicas y
paquetes estadsticos computarizados permiten calcularlas directamente.
Un intervalo de confianza es equivalente a una prueba bilateral, llevando a
aceptar las hiptesis nulas que consideren a los valores que contiene y
rechazando aquellas que planteen valores fuera del intervalo.
Las pruebas unilaterales se subdividen en las de cola izquierda y las

de cola derecha. Las hiptesis correspondientes son respectivamente:
H0: 0 H0: 0
Ha: < 0 Ha: > 0
Los esquemas para estas pruebas se presentan en las figuras 11.2 y

11.3. Resulta evidente la existencia de una sola regin de rechazo
167
contraparte de la regin de no rechazo. Se puede recordar tambin que la
regin de rechazo en todos los casos queda bajo las colas de la distribucin
especificadas por los valores crticos. Estos valores crticos a su vez se
establecen al elegir la confianza (1 ) de la prueba o el nivel de
significancia ().
Figura 11.2 Esquema de una prueba unilateral de cola izquierda. Las

regiones de no rechazo y rechazo quedan delimitadas por el valor crtico
(vc).
Cuadro 11.1 Tipos de error en Estadstica Inferencial (modificado de

Marques Dos Santos, 2004)
Decisin
Evento No Rechazar H0 Rechazar H0
H0 Verdadera No error Error de Tipo I
Confianza = 1 - P(ETI) =
H0 Falsa Error de Tipo II No error
P(ETII) = Potencia = 1 -
168
11.2 Tipos de error estadstico
Una explicacin adicional para el nivel de significancia lo

proporciona la definicin de los tipos de error en la Estadstica Inferencial.
Esta definicin se ejemplifica en el Cuadro 11.1. Cuando se establece una
hiptesis y se lleva a cabo, los valores de la muestra llevan a una decisin
(rechazar o no rechazar). El nivel de significancia indica la magnitud que
se le da a la probabilidad de rechazar una hiptesis nula cuando es
verdadera, esto es el Error de Tipo I (ETI). Pudiera pensarse que lo ideal
sera que fuera lo ms pequeo posible. Sin embargo, existe una relacin
inversa con el Error de Tipo II (ETII) que cuantifica la probabilidad de no
rechazar una hiptesis nula falsa. Es decir, lo mejor que se puede hacer es
llegar a un compromiso, con una lo suficientemente pequea pero que
no implique un ETII demasiado grande.
Valores adecuados para son 0.10 0.05, 0.01 e inclusive 0.005.

Como valor general se utiliza una significancia del 5% ( = 0.05).
Figura 5.3 Esquema de una prueba unilateral de cola derecha. Las

regiones de no rechazo y rechazo quedan delimitadas por el valor crtico
(vc).
169
A continuacin se presentan ejemplos de estimaciones por intervalo
y pruebas de hiptesis para los casos principales en el anlisis de lotes de
nmeros.
11.3 Estimacin y pruebas acerca de una media poblacional
Volviendo al caso de los canguros, un investigador ha medido para

una especie desconocida de canguro un valor, que considera
representativo, de 751 mm para la longitud nasal de individuos machos.
Podr ser la media de las longitudes nasales de machos presentados en
la tabla 3.1 igual a este valor?
La pregunta de inters se refiere al valor medio y contiene una

palabra clave que se ha escrito en negritas. Esta palabra lleva al
planteamiento de una prueba bilateral para la media poblacional ():
H0: = 751
Ha: 751
Como se desconoce la varianza poblacional la frmula para el

estadgrafo de prueba es:
x 0
t (11.2)
s
n
Sustituyendo valores ( x = 656.96; s = 61.5437; n = 25):
656.96 751
t 7.64
61.5437
25
El valor de tablas (considerando = 0.05) es t1 - /2, n 1= t1 - 0.05/2, 25 1

= t0.975, 24= 2.0639; como la t calculada (- 7.64) es mucho menor que el
valor crtico inferior (-2.0639) se rechaza claramente la hiptesis nula y se
tiene que la media de longitud nasal de Macropus fuliginosus no puede ser
la misma que la especie desconocida.
El intervalo de confianza de 95 % para la media poblacional de M.

fuliginosus (ecuacin 11.3) nos conduce a la misma conclusin en esta
prueba bilateral:
170
s s
P ( x t1 / 2, n 1 x t1 / 2, n 1 ) 1 (11.3)
n n
61.5437 61.5437
P (656.96 2.0639 656.96 2.0639 ) 0.95
25 25
P ( 631 .556 682 .364 ) 0 .95
Claramente, el valor 751 queda fuera del intervalo por lo que la

hiptesis nula que establece igualdad con este valor se rechaza.
Figura 11.4 Esquema de prueba bilateral (de dos colas) para los datos de
longitud nasal de M. fuliginosus y especie desconocida. El valor de t
calculada (- 7.64) queda claramente en regin de rechazo
Un intervalo de confianza jams podr utilizarse para responder a

una pregunta de naturaleza unilateral. Para probar que M. fuliginosus
tiene en promedio longitud nasal menor que la desconocida es necesario
llevar a cabo la prueba unilateral correspondiente:
171
H0: 751
Ha: < 751
El valor calculado de t es el mismo, pero el esquema de la prueba y

el valor crtico (-1.7109) son ahora diferentes (Figura 11.5). Nuevamente, el
valor calculado se encuentra claramente en la regin de rechazo de la
hiptesis nula, por lo que se tiene evidencia con una confianza del 95% de
que la media de longitud nasal de M. fuliginosus es menor que 751.
Figura 11.5 Esquema de una prueba unilateral de cola izquierda. Las

regiones de no rechazo y rechazo de la hiptesis nula (Ho) quedan
delimitadas por el valor crtico de t = - 1.7109.
11.4 Estimacin y comparacin de dos parmetros (varianzas y

medias)
Resulta interesante comparar la longitud nasal de machos y

hembras de esta especie. Los datos se incluyen en la Tabla 3.1 y se
muestran en el diagrama de cajas de la Figura 3.2. Una comparacin
exploratoria preliminar se ha presentado tambin en la Figura 3.3, con los
diagramas de caja con muesca. En esta ltima figura se puede asegurar
172
que los machos tienen longitudes mayores ya que los intervalos definidos
por las muescas no se sobrelapan con los de las hembras.
Si se quiere probar que los machos en promedio tienen longitudes

nasales mayores que las hembras se utilizara un mtodo confirmatorio de
la Estadstica Inferencial implicara llevar a cabo una prueba para
diferencia de medias con muestras independientes. Esta prueba requiere
saber si las varianzas de cada grupo son iguales o diferentes. Por tanto,
como primer paso se lleva a cabo una prueba para probar si la varianza de
los machos es igual a la varianza de las hembras. Esta prueba estadstica
implica el uso de la distribucin F de Fisher y utiliza la comparacin por
cociente, es decir si dos nmeros son iguales y se dividen, entonces el
resultado es la unidad.
Las hiptesis quedan:
12
H0: 2 1
2 2
2
1 2
12
Ha: 1 2 2 1
2 2
Se tomarn los valores requeridos del Cuadro 11.2:
Tabla 11.2 Resumen estadstico para longitud nasal M. fuliginosus

Sexo Tamao de Media Desviacin Varianza
muestra estndar
Machos 25 656.96 61.5437 3787.6233
Hembras 25 572.96 60.2858 3634.3733
El estadgrafo de prueba es:
s12
F (11.4)
s 22 R0
En donde R0 es el valor supuesto para el cociente de varianzas que aparece

en las hiptesis. Sustituyendo los valores de los canguros y considerando a
los machos como poblacin 1 y a las hembras como la poblacin 2,
llegamos al siguiente resultado:
3787.6233
Fc 1.0422
3634.3733(1)
173
El valor de tablas es F1-/2, glnum, glden = F0.975, 24, 24 = 2.269,
considerando una significancia () de 0.05, glnum (grados de libertad del
numerador) = n1 1 = glden (grados de libertad del denominador) = n2 1
= 25 -1 = 24 (en esta caso ya que n1 = n2 = 25 = 25).
La distribucin F como la 2 es asimtrica por lo que se deben

calcular los valores crticos inferior y superior. Para el caso de la
distribucin F el valor inferior puede calcularse a partir de la siguiente
relacin:
1
F / 2, gl .num, gl .den (11.5)
F1 / 2, gl .den, gl .num
Sustituyendo con los datos de canguros:
1 1
F0.025, 24, 24 0.4407
F0.975, 24, 24 2.269
El valor calculado para F (estadgrafo de prueba) queda dentro de la

regin de no rechazo de la hiptesis nula, por lo que puede afirmarse que
las varianzas de machos y hembras (aunque desconocidas) son iguales con
una confianza del 95% (Figura 11.6).
174
Figura 11.6 Esquema de una prueba bilateral de dos colas con la
distribucin F de Fisher. Las regiones de rechazo de Ho quedan
delimitadas por los valores crticos F.025,24,24 = 0.4407 y F.975,24,24 = 2.269.
La F calculada queda en la regin de no rechazo de Ho.
Despus de este paso preliminar procedemos ahora con la prueba

respecto de las medias. Recordar que estamos interesados en respaldar la
afirmacin de que los machos tienen nariz ms larga que las hembras.
Para esto se plantean las siguientes hiptesis (ntese la palabra clave en
negritas de la pregunta):
H0: 1 2 1 - 2 0
Ha: 1 > 2 1 - 2 > 0
Conviene notar que es una prueba unilateral y que la comparacin

de medias es por diferencia, por lo que el valor que indica igualdad es el
cero, el cual aparece en las hiptesis. El estadgrafo de prueba para el caso
de varianzas desconocidas pero iguales es:
175
x1 x 2 0
t (11.6)
1 1
sp
n1 n2
En donde:
(n1 1) s12 (n2 1) s 22
s 2p (11.7)
n1 n 2 2
Aplicando a los datos de longitud nasal:
(25 1) 3787.6233 (25 1) 3634.3733 90902.96 87224.96 178127.92

s 2p 3710.9983
25 25 2 48 48
Por lo que sp es igual a 3710.9983 = 60.92 y entonces:
656.96 572.96 0
tc 4.8752
1 1
60.92
25 25
Este valor calculado se compara con el valor de tablas: t 1-, 25 + 25 2 =

t0.95,48 = l.6772. Como la tc (4.8752) es mayor que la t de tablas se rechaza
la hiptesis nula y entonces los machos en promedio son mayores en
longitud nasal que las hembras. El esquema correspondiente se presenta
en la Figura 11.7 en el cual se aprecia claramente que el valor calculado
(4.8752) queda claramente en la regin de rechazo.
176
Figura 11.7 Esquema de la prueba unilateral de cola derecha. Las regiones
de no rechazo y rechazo de la hiptesis nula (Ho) quedan delimitadas por
el valor crtico de t = 1.6772.
Cuando las varianzas de los dos grupos son diferentes, el

procedimiento adecuado implica frmulas diferentes a las anteriores.
Como ejemplo de este caso se analizan los datos de anchura mandibular
de machos y hembras de M. fuliginosus (Tabla 1.1). Los diagramas de caja
en paralelo (Figura 5.8) sugieren una variabilidad diferente entre sexos: la
longitud de las cajas (la dispersin de cuartos) es diferente para machos
(menor) y hembras (mayor). La prueba de razn de varianzas confirma la
anterior impresin grfica. En esta ocasin se presentan los resultados
obtenidos con el paquete estadstico Stata (StataCorp, 2009) en la Tabla
11.3. El programa Stata presenta los resultados de las tres pruebas
posibles (cola izquierda, bilateral y cola derecha) respectivamente adems
de un resumen estadstico completo por grupos con tamaos de muestra,
medias, error y desviacin estndar as como intervalos de confianza para
las medias. La prueba que interesa en este momento es la bilateral (H0:
igualdad de varianzas, sealada en negritas). Como el valor de P (0.0292)
es inferior al nivel de significancia establecido (en este caso se toma =
0.05), entonces la hiptesis nula se rechaza y se tiene que las varianzas
por grupos (machos y hembras son estadsticamente diferentes). Al
relacionar con el procedimiento clsico de comparacin de valores
177
calculados con los obtenidos de las tablas, se tiene que el valor de F
calculada (0.4006) es inferior al valor de las tablas (F.025,24,24 = 0.4407) por
lo que queda en la regin de rechazo de H0 (ver Figura 11.6).
180 160
120 140
100
Machos Hembras
Figura 11.8 Diagramas de caja en paralelo para los datos de anchura

mandibular por sexo de Macropus fuliginosus
Tabla 11.3 Resultados de la prueba de razn de varianzas del programa

estadstico Stata para anchura mandibular de Macropus fuliginosus
Grupo Obs. Media Error Desviacin [Intervalo de
estndar estndar Confianza del 95%]
Machos 25 154.92 1.6732 8.3662 151.4667 158.3734
Hembras 25 141.04 2.6435 13.2175 135.5840 146.4960
Combinados 50 147.98 1.8384 13.0000 144.2854 151.6746
Grados de libertad: 24, 24
Ho: Machos = Hembras
Ha: Machos < Hembras Ha: Machos Hembras Ha: Machos > Hembras
F = 0.4006 F = 0.4006 F = 0.4006
Valor de P = 0.0146 Valor de P = 0.0292 Valor de P = 0.9854
178
La comparacin de medias de dos grupos con varianzas desiguales
hace necesario el clculo ajustado de los grados de libertad para llevar a
cabo la prueba. Puede utilizarse la expresin de Satterthwaite (1946):
2
s12 s 22

gl n1 n 2 (11.8)
2 2
s12 s 22

n1 n 2
n1 1 n 2 1
o la de Welch (1947):
2
s12 s 22

gl n1 n 2 2 (11.9).
2 2
s12 s 22

n1 n 2
n1 1 n 2 1
El estadgrafo de prueba es:
x1 x 2 0
t (11.10)
s12 s 22

n1 n 2
con grados de libertad estimados de (11.8) (11.9).
Los resultados obtenidos con el programa Stata se resumen en la

Tabla 11.4. La interpretacin inmediata es que las medias de machos y
hembras son diferentes y adems que los machos tienen mandbulas ms
anchas que las hembras.
Queda como ejercicio para el lector el obtener los resultados

numricos presentados en el cuadro 11.4 mediante las expresiones (11.8),
(11.9) y (11.10).
179
Tabla 11.4 Resultados de la prueba de diferencia de medias del programa
estadstico Stata para anchura mandibular de Macropus fuliginosus
Grupo Obs. Media Error Desviacin [Intervalo de Confianza
estndar estndar del 95%]
Machos 25 154.92 1.6732 8.3662 151.4667 158.3734
Hembras 25 141.04 2.6435 13.2175 135.5840 146.4960
Combinados 50 147.98 1.8384 13.0000 144.2854 151.6746
Diferencia 13.88 3.1286 7.5597 20.2003
gl de Satterthwaite = 40.5707; gl de Welch = 41.9516
Ho: Machos - Hembras = 0
Ha: Machos - Hembras < 0 Ha: Machos - Hembras 0 Ha: Machos - Hembras > 0
t = 4.4365 t = 4.4365 t = 4.4365
Valor de P = 1.0000 Valor de P = 0.0001 Valor de P = 0.0000
11.5 Anlisis de varianza de un factor (diseo completamente al azar)
Las medidas craneales de canguros fueron tomadas en individuos de

tres especies actualmente reconocidas. Con estos datos es posible llevar a
cabo comparaciones entre las mismas. Para la anchura de la cresta de
hembras los datos se presentan en la Tabla 11.5 y la grfica de diagramas
de caja en la Figura 11.9.
200
Anchura de la cresta (mm)
50 1000 150
M. giganteus M. melanops M. fuliginosus
Figura 11.9 Diagramas de caja en paralelo para los datos de anchura de la

cresta de crneos de hembras de Macropus spp.
180
Tabla 11.5 Anchura de cresta craneal de canguros hembras del
gnero Macropus
M. giganteus M. melanops M. fuliginosus
203 216 199
164 125 153
148 170 169
147 209 167
131 129 155
125 159 181
129 157 214
125 88 198
101 129 153
121 148 170
104 138 154
135 140 167
103 176 170
112 112 118
80 101 138
82 87 137
123 112 160
70 127 172
114 70 139
193 135 200
74 120 122
95 140 178
28 86 78
122 65 145
100 73 188
Tamao de
muestra 25 25 25 75.00
Sumas 2929 3212 4025 10166.00
Medias 117.16 128.48 161.00 135.55
Los diagramas de caja permiten notar fcilmente que las hembras de

M. fuliginosus tienen una cresta ms ancha (mayor nivel) que M. melanops,
el cual a su vez es mayor que la de M. giganteus. Para respaldar esta
impresin con una significancia estadstica el procedimiento apropiado es
el Anlisis de Varianza. Este mtodo de anlisis permite la comparacin
tres ms valores medios. El anlisis de varianza es un tema relacionado
con el diseo de experimentos.
En este material se presentar primeramente el caso ms sencillo
que es el ANDEVA de un factor en un diseo completamente al azar. La
181
informacin para llevar a cabo la prueba requiere de clculos de diferentes
varianzas colocadas en un cuadro convencional. Para simplificar la
presentacin de frmulas e utilizar la notacin de puntos de acuerdo al
arreglo de datos de la Tabla 11.6. La Tabla 11.7 presenta la disposicin
convencional de la informacin para interpretar el ANDEVA.
Tabla 11.6 Arreglo general de datos para el ANDEVA en el diseo

completamente al azar
1 2 3 ... K
X11 X12 X13 ... X1K
X21 X22 X23 ... X2K
X31 X32 X33 ... X3K
. . . ... .
. . . ... .
. . . ... .
X n1 1 X n2 2 X n3 3 ... X nk K Gran
total
Tamao n1 N2 n3 ... nK N
Sumas X 1 X 2 X 3 ... X K X
Medias X 1 X 2 X 3 ... X K X
Tabla 11.7 Disposicin de informacin para el ANDEVA del diseo

completamente al azar
Fuente g.l. Suma de Cuadrados Cuadrados F F tablas
Medios calculada
Trata- K1 K
X 2
X 2
SC CM Trat F1 , K 1, N K
mientos SCTrat . CM Trat Trat F c
j 1 n N K 1 CM Error
Error NK SCError SCTotal SCTrat SC Error
CM Error
N K
Total N-1 K nj
X 2
SCTotal X ij2
j 1 i 1 N
La aplicacin de este procedimiento a los datos de anchura de cresta

craneal de las hembras de tres especies de canguro se incluye en la Tabla
11.8. El valor de Fcalculada es claramente mayor que la F de tablas, por lo
que se rechaza la hiptesis nula de igualdad de medias. El valor de P para
la Fcalculada se interpreta de la misma forma (rechazo de Ho). Por lo menos
un par de medias es diferente. Sin ningn clculo adicional puede
afirmarse que el grupo con la media ms alta (M. fuliginosus) es diferente
182
de aqul con la ms pequea (M. giganteus). Para indagar en mayor detalle
este resultado se indica una estimacin a posteriori. Existen varias
pruebas, siendo de las ms conocidas la distancia mnima significativa, la
distancia significativa honesta de Tukey y el criterio de Bonferroni que es
de los ms sencillos y generales. Los resultados de ste ltimo se incluyen
en la Tabla 11.9 y el arreglo consiste en la diferencia de media de fila
menos la de columna y abajo el valor de P (ajustado por comparaciones
mltiples) para la prueba de igualdad de las medias involucradas. En
dicha Tabla se aprecia claramente que M. fuliginosus es estadsticamente
diferente de M. giganteus y M. melanopus (valores de P menores que de
0.05), mientras que stas ltimas no son diferentes entre s (valor de P =
0.809).
Tabla 11.8 ANDEVA para la anchura de cresta craneal de canguros del gnero
Macropus
Fuente g.l. Suma de Cuadrados Cuadrados F calculada F tablas
Medios
Esp. 31 SC Esp. CM Trat 12948.4933 F0.95, 2, 72
F c
=2 1293.55
3
2929 2 3212 2 4025 2 10166 2 25896.9867

j 1 25 75 3 1 3.1239
12948.4933 10.0100
1403864.4 -1377967.4133
25896.9867
P= 0.0001
Error 753 SC Error 119032.5867 25896.9867 CM Error
= 72 93135.6 93135.6000
75 3
1293.55
Total 751 10166 2
= 74 SCTotal 203 2 ... 188 2
75
1497000 -1377967.4133
119032.5867
Tabla 11.9 Comparaciones mltiples de Bonferroni para anchura

craneal de hembras de canguros del gnero Macropus
M. giganteus M. melanopus
M. melanopus 11.32
0.809
M. fuliginosus 43.84 32.52
0.000 0.006
183
11.6 Anlisis de varianza de dos factores con interaccin
Si se quisiera investigar la diferencia entre las especies de canguro pero

adems si en promedio los sexos difieren y si hay un efecto de interaccin
entre la especie y el sexo, entonces es necesario el anlisis de varianza de
dos factores (en diseo completamente al azar) con interaccin. En este
diseo se contrastan tres pares de hiptesis: las medias aritmticas del
factor columna son iguales; las medias aritmticas del factor fila son
iguales y que no hay efecto de interaccin, contra las alternativas de que al
menos una media sea diferente y de que si exista un efecto por interaccin.
El arreglo de datos se presenta en la Tabla 11.10 y las frmulas para

los clculos requeridos en la Tabla 11.11.
Tabla 11.10 Arreglo general de datos para el ANDEVA de dos factores

con interaccin
Factor B (Columnas)
Factor A B1 B2 B3 ... BJ m = X i X i
(Filas) J*K
A1 X111 X121 X131 ... X1J1 m X 1 X 1
X112 X122 X132 . . . X1J2
. . .
X11k X12k X23k . . . X1Jk
A2 X211 X221 X231 . . . X2J1 m X 2 X 2
X212 X222 X232 . . . X2J2
. . .
X21k X22k X33k . . . X2Jk
A3 X311 X321 X331 . . . X3J1 m X 3 X 3
X312 X322 X332 .. . X3J2
.. .
X31k X32k X33k .. . X3Jk

AI XI11 XI21 XI31 .. . XIJ1 m X I X I
XI12 XI22 XI32 ... XIJ2
...
XI1k XI2k XI3k ... XIJk
Tamao n = I*K n n ... n N = IJK = nJ = mI
de
muestra
Sumas X 1 X 2 X 3 ... X J X
Medias X 1 X 2 X 3 ... X J X
184
Tabla 11.11 Disposicin de informacin para el ANDEVA de dos
factores con interaccin
Fuente g.l. Suma de Cuadrados Cuadrados Medios
Factor fila I 1 I
X 2
X 2
SC filas
SC filas ( A) i CM filas
j 1 m N gl filas
Factor J1 J X 2j X 2 SC columnas
Columna SC columnas ( B ) CM columnas
j 1 n N gl columnas
Interaccin (I-1)(J-1) SCint SCsubt SC filas SCcol SC columnas
CM int
gl int
Subtotal IJ 1 J I X ij2
X 2
SC subtotal
j 1 i 1 K N
Error N IJ SCerror SCtotal SCsubtotal SC error
CM error
gl error
Total N1 J I K
X 2
SC total X ijk2
j 1 i 1 k 1 N
Como ejemplo de la aplicacin de este mtodo se utilizan los datos

de amplitud nasal medida en crneos presentados en la Tabla 11.13 la
cual contiene veinte observaciones para machos y hembras de tres
especies de canguros adultos modificados de Andrews y Herzberg (1985).
Los clculos necesarios para el anlisis se muestran en la Tabla 11.14 y el
cuadro del anlisis de varianza se presenta en la Tabla 11.15. Cabe
sealar que en el anlisis de varianza de dos factores en el diseo
completamente al azar es necesario distinguir entre factores fijos y
aleatorios. Se considera que los factores fijos contienen todos los niveles
posibles mientras que los aleatorios incluyen niveles seleccionados al azar
de la totalidad existente. Es posible tener combinaciones de factores fijos y
aleatorios. Esto es importante porque determina los contrastes de varianza
a realizar para verificar las hiptesis. La relacin de contrastes de
cuadrados medios en cada caso se presenta en la Tabla 11.12. Para
nuestro ejemplo se considerarn a los factores especie y sexo como fijos
por lo que los estadgrafos de contraste (valores de F calculados) se
obtendrn dividiendo entre la varianza debida al error.
La Tabla 11.15 muestra los resultados del anlisis. Estos valores

pueden comprobarse de los clculos incluidos en la Tabla 11.14 lo que
sirve como gua para su aplicacin a cualquier otro conjunto de datos.
185
Tabla 11.12 Relacin de contrastes de acuerdo a la consideracin de
factores fijos aleatorios
Factores fijos Factores aleatorios Factores mixtos filas
factor fijo y columnas
factor aleatorio
CM filas CM filas CM filas
F filas F filas F filas
CM error CM int CM int
CM columnas CM columnas CM columnas
Fcolumnas Fcolumnas Fcolumnas
CM error CM int CM error
CM int CM int CM int
Fint Fint Fint
CM error CM error CM error
Tabla 11.13 Datos de amplitud nasal para tres especies de canguros del
gnero Macropus (modificados de Andrews y Herzberg, 1985)
Especie
Macropus Macropus fuliginosus Macropus fuliginosus
Sexo giganteus melanopus fuliginosus
Machos 241 263 236 237 231 226
222 220 204 217 218 206
233 271 216 211 200 250
207 284 225 238 202 232
247 279 220 221 247 253
189 272 219 281 208 263
226 268 201 292 234 262
240 278 213 251 216 275
215 238 228 231 237 246
231 255 234 275 240 255
Hembras 175 249 141 196 171 205

200 223 203 236 197 199
226 245 203 261 196 214
238 255 151 240 190 219
229 238 222 217 167 222
247 251 189 242 195 191
205 242 186 254 232 221
210 258 235 207 167 230
221 253 242 238 217 213
225 241 239 238 212 212
186
Tabla 11.14 Resumen de clculos para el ANDEVA de dos factores con interaccin
Factor B (Especie)
Factor A Macropus fuliginosus Macropus fuliginosus

(Sexo) Macropus giganteus melanopus fuliginosus
Machos a1 a2 a3 m X i X i ( X 2 ) i
K = 20 K = 20 K = 20 60
xbar = 243.95 xbar = 232.5 xbar = 235.05 237.167
varx = 712.155263 varx = 621.842105 varx = 473.523684
sx = 26.6862373 sx = 24.9367621 sx = 21.7605994
sumax = 4879 sumax = 4650 sumax = 4701 14230
(sumax)2 =
23804641 (sumax)2=2162250 (sumax)2= 22099401
sumax2 = 1203763 sumax2 =1092940 sumax2 =1113967 341067
Hembras a4 a5 a6 m X i X i
K = 20 K = 20 K = 20 60
xbar = 231.55 xbar = 217 xbar = 203.5 217.35
varx = 458.997368 varx = 1051.05263 varx = 378.052632
sx = 21.4242239 sx = 32.4199419 sx = 19.4435756
sumax = 4631 sumax = 4340 sumax = 4070 13041
(sumax)2=
21446161 (sumax)2 = 18835600 (sumax)2=16564900
sumax2 = 1081029 sumax2 = 961750 sumax2 =835428 2878207
n 40 40 40 N= 120
X J 9510 8990 8771
X = 27271
227.2583
X J 237.75 224.75 219.275 X 3
2
( X ) J 2284792 205469 1949395 ( X 2 ) 6288877
187
Tabla 11.15 ANDEVA para la amplitud nasal en crneos de canguros del
gnero Macropus (entre parntesis se presenta el valor de F de tablas)
Fuente de
variacin gl SC CM F
19.12696
6209343.017 - 6197562.01 = (3.9243)
sexo 1 11781.00833 11781.0083 P < 0.001
5.84801
6204766.025 - 6197562.01 = (3.0758)
especie 2 7204.016667 3602.00833 P = 0.004
1.71537
21098.14167 - 18985.025 = (3.0758)
Interaccin 2 2113.116667 1056.55833 P = 0.184
6218660.15 - 6197562.01 =
Subtotal 5 21098.14167
91314.99167 - 21098.1417 =
Error 114 70216.85 615.93728
6288877 - 6197562.01 =
Total 119 91314.99167
Puede concluirse de lo obtenido que existe diferencia entre sexos (Fc

= 19.13, P < 0.001), lo que sugiere un dimorfismo sexual as como entre
los promedios para cada especie (Fc = 5.85, P = 0.004). Asimismo se
constata que no hay efecto de interaccin (Fc = 1.71, P = 0.184). Lo
anterior puede apreciarse en el grfico de medias de la Figura 11.10; se
observa que en general los machos tienen amplitudes nasales mayores que
las hembras, que la especie 1 (Macropus giganteus) es la ms grande y que
las hembras de la especie 3 (Macropus f. fuliginosus) es la ms pequea. La
conexin de los valores medios no se cruza entre sexos lo que ilustra de
manera grfica que no existe efecto de interaccin (las tendencias tienden
a ser paralelas).
Como en el caso del ANDEVA de un factor el anlisis realizado da
una conclusin general en las comparaciones, sin embargo no indica que
medias en particular son diferentes. Para esto es necesario llevar a cabo
una comparacin mltiple a posteriori. En lo que sigue se utilizar el
mtodo de la diferencia significativa honesta (DSH) de Tukey para
esclarecer que medias son estadsticamente diferentes y por tanto las
responsables del rechazo de las hiptesis nulas por sexo y especie.
Seguiremos el procedimiento presentado en Fowler et al. (1998) y que es
equivalente al aplicado en el caso de un factor. En primer lugar se
construye una matriz de comparaciones de todas las medias por diferencia
absoluta de medias de fila menos las de columnas (las 6 medias estn en
la Tabla 11.14). Por ejemplo, para la primera celda de la Tabla 11.16 se
188
tiene abs(243.95 232.5) = 11.45. Estas diferencias se comparan con la
distancia dada por la siguiente expresin:
CM error
DSH q ,a ,
K
Donde q , a , se obtiene de la tabla (disponible en libros de estadstica)

para un valor de significancia () con a nmero de muestras y grados de
libertad del error. Para nuestro ejemplo, la significancia es de 0.05, el
nmero de muestras es 6 (3 especies por dos sexos), los grados de libertad
del error son 114 y el tamao de muestra de cada grupo (K) es de 20
(Tabla 11.14).
240
Amplitud nasal (mm)
220210
200 230
Mg Mfm Mff
Especie
Machos Hembras
Figura 11.10 Grfico de medias para la amplitud nasal de crneos en

machos y hembras de tres especies de canguros del gnero Macropus (Mg =
M. giganteus; Mfm = M. fuliginosus melanopus; Mff = M. fuliginosus
fuliginosus)
Interpolando linealmente entre los valores presentados en la Tabla

T8 de Marques dos Santos (2004) (pgina 564) o de la tabla del Apndice
11 de Fowler et al. (1998) (pgina 248) se obtiene un valor de q 0.05, 6,114 =
4.106 con lo que se tiene:
189
CM error 615.9373
DSH q 0.05, 6,114 4.106 22.7862
K 20
Todas las diferencias de la Tabla 11.16 mayores a esta distancia se

han sombreado. Puede notarse as que las hembras con las menores
amplitudes nasales (Macropus fuliginosus melanopus y M. f. fuliginosus)
fueron diferentes de los machos de la misma especie (la primera) y de
machos y hembras de la misma y de otras especies (la segunda) excepto de
las hembras de M. f. melanopus.
Tabla 11.16 Matriz de comparacin de medias para

amplitud nasal de machos y hembras de tres especies de
canguros del gnero Macropus (diferencias absolutas de
medias de fila columna)
Muestra 2 (Mfmm) 3(Mffm) 4 (Mgh) 5 (Mfmh) 6 (Mffh)
1 (Mgm) 11.45 8.9 12.4 26.95 40.45
2 (Mfmm) 2.55 0.95 15.5 29
3 (Mffm) 3.5 18.05 31.55
4 (Mgh) 14.55 28.05
5(Mfmh) 13.5
1 Mgm (Macropus giganteus machos)
2 Mfmm (Macropus fuliginosus melanopus machos)
3 Mffm (Macropus fuliginosus fuliginosus machos)
4 Mgh (Macropus giganteus hembras)
5 Mfmh (Macropus fuliginosus melanopus hembras)
6 Mffh (Macropus fuliginosus fuliginosus hembras)
190
Captulo 12. Breve introduccin a los
mtodos multivariados
Los objetos de inters en el mundo real rara vez quedan caracterizados por
la medicin de una sola caracterstica. En la naturaleza los elementos de
inters son el resultado de la manifestacin simultnea de muchos
procesos, cuyos resultados, en el mejor de los casos, pueden medirse. Es
por eso que en Biologa y en otras reas de conocimiento y actividad
humanas se ha hecho necesario el contar con mtodos cuantitativos
capaces de considerar al mismo tiempo, varias caractersticas para llegar a
definir de manera lo ms integral posible a un objeto de estudio.
Los mtodos revisados hasta este captulo se han enfocado al

anlisis de una sola variable cuantitativa y grupos de esa variable
(diagramas de tallo y hoja; diagramas de caja y bigotes), dos variables
cuantitativas (lnea resistente; suavizacin no lineal resistente), una
cualitativa y otra cuantitativa (tablas codificadas y pulido de mediana) de
manera grfica y por pares, dos variables cuantitativas (diagrama de
escalera). Asimismo se han considerado la comparacin de variables
cuantitativas en dos o ms grupos (pruebas de t de Student y anlisis de
varianza). En este captulo se har una introduccin muy breve de algunos
de los mtodos multivariados ms importantes.
La estadstica multivariada contiene una coleccin de

procedimientos muy poderosos que permiten al investigador el manejo de
un mayor nmero de variables del que pudiera asimilar. Este poder
necesariamente tiene un costo: estos mtodos son complicados tanto en la
teora que los sustenta como en los clculos requeridos. Sin embargo,
dado que los fenmenos biolgicos son complicados y en general, difciles
de comprender considerando aspectos aislados de los mismos, ofrecen un
potencial muy importante para su estudio (en parte Davis, 1983).
Para llevar a cabo los complicados clculos requeridos por los

mtodos multivariados es necesario el uso del lgebra matricial. Esta rama
algebraica permite llevar a cabo clculos complejos mediante la aplicacin
de reglas definidas, aunque para ciertas operaciones se requiere de
procedimientos muy complejos, los cuales en la actualidad, se ejecutan
con la ayuda de computadoras. La disponibilidad de estos instrumentos y
de programas de clculo de uso sencillo y generalizado han hecho posible
191
que la aplicacin de la estadstica multivariada sea cada vez ms comn

en todos los mbitos (incluyendo a la Biologa).
En esta obra no es intencin cubrir el tema del lgebra matricial.

Las referencias adecuadas para su comprensin son abundantes, y aqu
solo mencionaremos a Ayres (2000) y a Marques dos Santos (1993). Otras
obras con captulos o anexos dedicados a ese fin se encuentran en
Morrison (1984), Davis (1983) Gotelli y Ellison (2004).
Siguiendo a Fowler, et al. (1998) y Davis (1983) los mtodos

multivariados a revisar se encargan de los siguientes aspectos:
- Comparacin de grupos multivariados de datos.
- Derivacin de reglas de clasificacin para discriminar entre grupos

conocidos de las unidades de muestreo (discriminacin).
- Identificacin de conglomerados de unidades de muestreo

semejantes dentro de una muestra (clasificacin).
- Reducir la complejidad de una muestra en la cual se han hecho

muchas mediciones en cada unidad de muestreo mediante la
identificacin de las combinaciones de variables que mejor resumen
la informacin de la muestra.
Pero antes de entrar a revisar estos puntos se presentar un ejemplo

del uso del lgebra matricial para el anlisis de datos multivariados.
Tabla 12.1 Datos hipotticos de 7 entidades y 3 caractersticas medidas

(Adaptados de Pimentel, 1979)
No. Variable 1 Variable 2 Variable 3
1 4 2 2
2 3 1 2
3 0 1 2
4 5 0 3
5 6 1 2
6 5 3 3
7 5 6 0
De cada variable es posible calcular su media y desviacin estndar

(columna por columna). Mediante el lgebra matricial es posible llevar a
cabo los clculos de manera simultnea con las tres variables:
192
Se define a la matriz X y una matriz auxiliar (A1) con el fin de

obtener (aprovechando las reglas de multiplicacin de matrices) una matriz
con las sumas de las columnas (Su):
4 2 2
3 1 2
0 1 2
5 0 3 1 1 1 1 1 1 1
6 1 2
5 3 3
5 6 0
4 2 2
3 1 2
0 1 2
1 1 1 1 1 1 1 5 0 3 28 14 14
6 1 2
5 3 3
5 6 0
Los valores medios se obtienen dividiendo la matriz Su entre el nmero de

observaciones (filas = 7) para obtener la matriz de medias
4 2 2
7
Para el clculo de la varianza es necesario restar a cada dato en la matriz

X la media correspondiente. Como el lgebra matricial requiere para la
suma (resta) que el orden de las matrices sea el mismo, se hace uso de
otra matriz auxiliar de unos para repetir las medias tantas veces como
observaciones haya (7) y posteriormente restar la matriz de medias a la
matriz de datos originales para obtener una matriz de diferencias (D):
1 1 4 2 2
1 1 4 2 2
1 1 4 2 2
1; 1 4 2 2 4 2 2
1 1 4 2 2
1 1 4 2 2
1 1 4 2 2
193
4 2 2 4 2 2 0 0 0
3 1 2 4 2 2 1 1 0
0 1 2 4 2 2 4 1 0
5 0 3 4 2 2 1 2 1
6 1 2 4 2 2 2 1 0
5 3 3 4 2 2 1 1 1
5 6 0 4 2 2 1 4 2
La varianza requiere que esas desviaciones se eleven al cuadrado. Una

forma de hacerlo con matrices es multiplicar la traspuesta de las
diferencias (D) por la original (D), cantidad conocida como matriz de
productos cruzados:
0 0 0
1 1 0
0 1 4 1 2 1 1 4 1 0 24 6 0
0 1 1 2 1 1 4 1 2 1 6 24 9
0 0 0 1 0 1 2 2 1 0 0 9 6
1 1 1
1 4 2
Si se divide esta ltima matriz entre los grados de libertad (nmero de

observaciones menos uno) se obtiene la matriz de varianza covarianza (S):
1 24 6 0 4 1 0
6 24 9 1 4 1.5
7 1 7 1
0 9 6 0 1.5 1
Las desviaciones estndar de cada variable se obtienen al sacar raz

cuadrada de la diagonal de la matriz (con valores 2, 2 y 1 respectivamente).
12.1 Extensiones multivariadas de estadstica elemental
La comparacin de un conjunto de nmeros respecto a un valor (medio)

considerado como referencia se lleva a cabo mediante el estadgrafo de
prueba t de Student:
194
La generalizacin multivariada implica el uso de un vector de medias

muestrales de cada variable menos sus valores de referencia, as como la
matriz de varianza covarianza:

12.1
Con el fin de obtener un valor nico como resultado (escalar) es

necesario introducir una matriz auxiliar:
Despus de manipulacin algebraica para el cumplimiento de que el

divisor de la expresin sea igual a la unidad y elevando al cuadrado para
eliminar las races, se llega a la siguiente expresin:
12.2
El estadgrafo de prueba resultante se le ha bautizado como la T

cuadrada de Hotelling en honor del estadstico que la propuso por primera
vez (Hotelling, 1931).
No es necesario contar con tablas de T2 ya que se utiliza la siguiente

relacin con la distribucin F de Fisher:
12.3
1
en donde n es el nmero de muestras y m es el nmero de variables. Esta

relacin permite utilizar las tablas disponibles de la distribucin F con m y
n - m grados de libertad (Davis, 1983; Morrison (1984).
Tabla 12.2 Contenido de Si, Al, Fe y Mg (%) en rocas de la luna

No. Si Al Fe Mg
1 19.4 5.9 14.7 5.0
2 21.5 4.0 15.7 3.7
3 19.2 4.0 15.4 4.3
4 18.4 5.4 15.2 3.4
5 20.6 6.2 13.2 5.5
6 19.8 5.7 14.8 2.8
7 18.7 6.0 13.8 4.6
195
12.2 Ejemplo: contenido de Si, Al, Fe y Mg en rocas lunares
Como ejemplo se utilizarn los datos reportados por Davis (1983)

acerca del contenido de Silicio, Aluminio, Fierro y Magnesio de rocas
lunares (Tabla 12.2)
Aplicando el procedimiento delineado anteriormente se tiene:
19.4 5.9 14.7 5.0

21.5 4.0 15.7 3.7
19.2 4.0 15.4 4.3
18.4 5.4 15.2 3.4 1 1 1 1 1 1 1
20.6 6.2 13.2 5.5
19.8 5.7 14.8 2.8
18.7 6.0 13.8 4.6
19.4 5.9 14.7 5.0

21.5 4.0 15.7 3.7
19.2 4.0 15.4 4.3
1 1 1 1 1 1 1 18.4 5.4 15.2 3.4
20.6 6.2 13.2 5.5
19.8 5.7 14.8 2.8
18.7 6.0 13.8 4.6
137.6 37.2 102.8 29.3
19.657143 5.3142857 14.685714 4.1857143

7
1 1
1 1
1 1
1; 1 19.657143 5.3142857 14.684714 4.1857143
1 1
1 1
1 1
196
19.657143 5.3142857 214.684714 4.1857143

19.657143 5.3142857 14.684714 4.1857143
19.657143 5.3142857 14.684714 4.1857143
19.657143 5.3142857 14.684714 4.1857143
419.657143 5.3142857 14.684714 4.1857143
419.657143 5.3142857 14.684714 4.1857143
19.657143 5.3142857 14.684714 4.1857143
0.25714329 0.58571441 0.01428563 0.81428569

1.8428571 1.3142857 1.0142856 0.48571427
0.45714215 1.3142857 0.71428544 0.11428588
1.2571433 0.08571441 0.51428563 0.78571422
0.94285747 0.88571412 1.4857144 1.3142857
1.14285633 0.38571412 0.11428601 1.3857144
0.95714215 0.68571431 0.88571399 0.41428559
7.0771424 1.8457153 0.35571308 0.4757162

1.8457153 5.2085711 4.0985705 1.8114282

0.35571308 4.0985705 4.8085706 3.2814287
0.4757162 1.8114282 3.2814287 5.3485713
1.1795237 0.30761922 0.05928551 0.07928603

0.30761922 0.86809518 0.68309508 0.3019047

7 1 0.05928551 0.68309508 0.80142843 0.54690478
0.07928603 0.3019047 0.54690478 0.89142855
Se desea probar si las medias del porcentaje de Si, Al, Fe y Mg de las

rocas lunares no son diferentes de los promedios de rocas baslticas
terrestres. Para llevar a cabo la prueba se colocan los valores medios como
vectores columna:
19.657143 22.1
5.3142857 7.4

14.685714 10.1
4.1857143 4
19.657143 22.1 2.4428571

5.3142857 7.4 2.0857143

14.685714 10.1 4.5857142
4.1857143 4 0.18571431
197
Si la inversa de la matriz de varianza covarianza es:
1.0614786 0.99488493 0.81727015 0.07005395

0.99488493 5.2095781 5.3366768 1.4212888

0.81727015 5.3366768 7.6600557 2.819469
0.07005395 1.4212888 2.819469 2.3639953
y se sustituye en la ecuacin 12.2 (adecuando un poco la notacin, es

decir usando a S para representar a la matriz de varianza covarianza)
obtenemos el valor de T2:
7 584.78231
Considerando que n = 7 y m = 4, entonces el valor equivalente de F

(aplicando la ecuacin 12.3) es:
7 4
584.78231 73.097789
4 7 1
Los grados de libertad son m = 4 y n m = 7 4 = 3 y por tanto el

valor de tablas (con significancia de 0.01) es F0.99,4,3 = 28.71. Como la F
calculada es mucho mayor que la F de tablas, no se acepta H0 y por tanto
se concluye que el promedio de contenido porcentual de Si, Al, Fe y Mg en
las rocas lunares no es igual a los valores referencia de los basaltos de la
Tierra.
El ejemplo anterior (comparacin de las medias de una muestra con

valores poblacionales medios de referencia) se ilustra la relacin cercana
entre la estadstica convencional y la multivariada a veces obscurecida por
la transicin del lgebra tradicional a la de matrices. Aunque se tiene la
idea contraria, la estadstica tradicional es un caso especial de mtodos
ms generales comprendidos en el anlisis multivariado (Davis, 1983).
12.3 Comparacin multivariada de dos muestras
A continuacin se introduce la comparacin de dos muestras

multivariadas. Las hiptesis de la prueba son:
H0 = [1] = [2]
Ha = [1] [2]
Asumiendo que no hay diferencia entre las matrices de varianza-

covarianza respectivas, es necesario calcular una matriz conjunta:
198
1
12.4
2
Haciendo la diferencia entre los vectores de medias de la muestra 1 y

la muestra 2 la expresin para el estadgrafo T2 es:
12.5
La transformacin a F se calcula por:
1
12.6
2
Con m y (n1 + n2 m 1) grados de libertad.
Para ilustrar este caso se comparar el contenido de Si, Al, Fe y Mg

de las 7 muestras de rocas lunares con el contenido de 7 muestras de
rocas baslticas del Pacfico (Tabla 12.3).
Tabla 12.3 Contenido de Si, Al, Fe y Mg (%) en basaltos del ocano Pacfico
No. Si Al Fe Mg
1 22.5 9.6 6.6 3.4
2 22.1 8.4 7.8 3.6
3 25.9 8.7 4.8 4.0
4 23.5 8.1 5.0 5.2
5 21.7 10.0 8.2 4.9
6 21.9 8.2 9.3 4.9
7 23.7 7.2 9.5 3.3
Haciendo los clculos correspondientes se llega a la matriz de

varianza covarianza para basaltos terrestres (S2):
1.1795237 0.30761922 0.05928551 0.07928603

0.30761922 0.86809518 0.68309508 0.3019047

0.05928551 0.68309508 0.80142843 0.54690478
0.07928603 0.3019047 0.54690478 0.89142855
Y con ella y la matriz correspondiente de las rocas lunares se calcula la

matriz de varianza-covarianza conjunta (Sp)
199
1.6811902 0.37380962 0.83154745 0.08083325

0.37380962 0.88238102 0.55154771 0.21428575

0.83154745 0.55154771 2.2280951 0.39749997
0.08083325 0.21428575 0.39749997 0.76476189
Y su inversa:
1.1214262 0.83567247 0.66657481 0.23084216

0.83567247 1.9992066 0.7964433 0.05788098

0.66657481 0.7964433 0.9561595 0.34427491
0.23084216 0.05788098 0.34427491 1.5271578
Los vectores columna de medias y su diferencia son
19.657143 23.042857
5.3142857 8.6

14.685714 7.3142858
4.1857143 4.1857143
19.657143 23.042857 3.3857144

5.3142857 8.6 3.2857143

14.685714 7.3142858 7.3714284
4.1857143 4.1857143 3.406e 08
Entonces el valor de T2 es:
7 7
115.97023
7 7
Con su valor equivalente de F:
7 7 4 1
115.97023 21.744417
7 7 2 4
En las tablas se tiene que F0.95,4,9 = 3.633; como la F calculada es

mucho mayor se rechaza Ho y se tiene que los vectores de medias no
pueden ser iguales con una confianza del 95 %.
Detalles para llevar a cabo todas las operaciones matriciales se

presentan en el Apndice 1.
200
12.4. Comparacin de dos matrices de covarianza
La prueba presentada asume igualdad en las matrices de varianza-

covarianza. Para comprobar si las matrices de varianza-covarianza no son
diferentes, se puede llevar a cabo la siguiente prueba:
La hiptesis nula postula la igualdad de las matrices de varianza-

covarianza y la alternativa que al menos un par es diferente.
Para calcular la matriz de varianza-covarianza conjunta para un nmero

de k grupos se utiliza:
1
12.7

Si se tienen dos grupos (k = 2) la expresin 12.7 es equivalente a la

12.4 utilizada arriba. Con la matriz de varianza-covarianza conjunta se
puede calcular el estadstico de prueba M:
1 ln| | 12.8
La prueba se vasa en la diferencia entre el logaritmo de los

determinantes de la matriz de varianza-covarianza y el promedio de los
logaritmos de los determinantes de las matrices varianza-covarianza de las
muestras. De nuevo, no son necesarias tablas de M ya que se pueden
utilizar las siguientes expresiones para convertirla a 2:
2 3 1 1 1
1 12.9
6 1 1 1
12.10
201
Con grados de libertad igual a = (1/2)(k 1)m(m + 1). Si todas las

muestras tienen el mismo nmero de observaciones, n, 12.10 puede
simplificarse a:
2 3 1 1
1 12.11
6 1 1
Esta aproximacin a ji-cuadrada es adecuada siempre y cuando k y

m no sean mayores de 5 y las matrices de varianza-covarianza se deriven
de al menos 20 observaciones (Davis, 1983).
Tabla 12.4a Medidas anatmicas del crneo del canguro Macropus f.

fuliginosus (machos) Tomados de Andrews y Herzberg (1985)
No. de Amplitud Profundidad Amplitud Amplitud de
ejemplar nasal escamosal post orbital la cresta
1 278 280 262 151
2 237 203 254 172
3 216 196 230 110
4 247 192 290 189
5 226 194 235 114
6 232 198 217 104
7 233 221 210 60
8 255 224 213 78
9 218 173 249 172
10 262 243 236 129
11 200 176 253 138
12 246 237 258 149
13 259 229 222 125
14 240 177 243 118
15 206 155 242 160
16 231 169 261 151
17 239 215 239 126
18 263 204 240 111
19 275 239 207 80
20 234 193 240 144
21 253 193 242 119
22 250 205 265 115
23 208 185 243 134
24 255 230 233 106
25 202 176 260 140
202
Tabla 12.4b Medidas anatmicas del crneo del canguro Macropus f.

fuliginosus (hembras). Tomados de Andrews y Herzberg (1985)
No. de Amplitud Profundidad Amplitud Amplitud de
ejemplar nasal escamosal post orbital la cresta
1 213 180 230 139
2 222 190 217 178
3 250 201 236 145
4 232 176 274 214
5 219 188 235 118
6 190 138 247 167
7 218 197 190 78
8 244 198 253 188
9 221 166 231 160
10 191 156 217 137
11 167 152 226 155
12 197 172 214 153
13 214 162 248 170
14 205 203 225 122
15 195 160 220 181
16 196 154 230 169
17 230 183 234 172
18 167 131 217 198
19 205 171 246 154
20 171 152 240 199
21 222 282 228 138
22 217 167 234 153
23 212 190 256 200
24 212 172 241 170
25 199 182 235 167
Como ejemplo de esta prueba se utilizan los datos de medidas

craneales de 25 machos y 25 hembras del canguro Macropus f. fuliginosus
utilizados como referencia para la identificacin de tres especmenes
histricos llevados a Francia en 1803 (Andrews y Herzberg, 1985). De las
18 variables incluidas para este ejemplo se consideraron cuatro: amplitud
nasal, profundidad escamosal, amplitud post orbital y amplitud de la
cresta.
Se calcula el estadgrafo M (ecuacin 12.8):
25 25 2 ln 2.261 10 24ln 1.491 10 24ln 2.463 10
7.9388936
203
Como se tienen dos grupos (k = 2) se utiliza la versin simplificada

para el factor de conversin (ecuacin 12.11)
2 4 3 4 1 2 1
1 0.97013889
6 4 1 2 25 1
El valor correspondiente de 2 se calcula con la expresin 12.10:
7.9388986 0.97013889 7.7018294
Con (1/2)(2 1)4(4 + 1) = 10 grados de libertad. El valor de tablas

con = 0.05 es 18.307, por lo que se puede considerar, con una confianza
del 95 % que las matrices de varianza-covarianza son semejantes.
Tabla 12.5 Vectores de medias y Matrices de varianza-covarianza para

medidas craneales de canguros por sexo
Medias de machos
238.60 204.28 241.76 127.80
Medias de hembras
208.36 176.92 232.96 161.00
S1, determinante = 1.491 10 10
479.91667 495.86667 -67.97500 -177.25000

495.86667 814.71000 -136.13833 -277.44167
-67.97500 -136.13833 372.10667 479.11667
-177.25000 -277.44167 479.11667 929.66667
S2, determinante = 2.463 1010
456.240000 371.32167 100.72333 -86.791667
371.321670 846.91000 -18.42000 -309.875000
100.723330 -18.42000 276.62333 310.458330
-86.791667 -309.87500 310.45833 887.416670
Sp, determinante = 2.261 1010
468.078330 433.594170 16.374167 -132.02083
433.594170 830.810000 -77.279167 -293.65833
16.374167 -77.279167 324.365000 394.78750
-132.020830 -293.658330 394.787500 908.54167
Inversa de la matriz varianza-covarianza conjunta
0.00441628 -0.00225098 -0.00138977 0.00051807
-0.00225098 0.00253753 0.00025057 0.00038421
-0.00138977 0.00025057 0.00713182 -0.00321994
0.00051807 0.00038421 -0.00321994 0.00269929
Habiendo comprobado la igualdad de las matrices varianza-

covarianza se procede a la prueba multivariada de medias (expresin 12.5):
204
25 25
65.812719
25 25
que transformado a F da (ecuacin 12.6):
25 25 4 1
65.812719 15.424856
25 25 2 4
El valor de tablas con m = 4 (glnum) y 25 +25 4 1 = 45 (glden) es

F.95,4,45 = 2.579, por lo que no es posible aceptar que los vectores de
medias entre machos y hembras sean iguales. Esto sugiere un dimorfismo
sexual en esta especie de canguros.
205
Captulo 13. Introduccin a Stata
Stata es un programa de anlisis estadstico completo. Sus capacidades

van de la estadstica descriptiva hasta mtodos de anlisis ms avanzados.
Desde su aparicin, entre los componentes de mayor inters del programa
se encuentran las rutinas de graficacin (casi todas las grficas del
presente libro se efectuaron con Stata). Las ltimas versiones del Stata
proporcionan grficas de alta calidad y definicin en adicin a los
procedimientos y avances ms recientes para el anlisis grfico de la
informacin. La siguiente explicacin trata de ser una gua para el uso de
las funciones bsicas de este programa y est basada principalmente en la
obra de Hamilton (1990b) y en las guas de Referencia de la versin 11
(StataCorp, 2009). Conviene aclarar que Stata reconoce la diferencia entre
letras maysculas y minsculas por lo que debe respetarse la forma en la
que se indica el tecleo de las rdenes.
13.1 Entrada a Stata
a) Para utilizar el programa basta con seleccionar con el ratn

Iniciar-Todos los programas-Stata XX (donde XX es por la versin
instalada); o bien oprimir el botn izquierdo del ratn sobre el acceso
directo a Stata. Despus de algunos instantes aparecen las ventanas de la
versin de interfase grfica para usuario (Windows): la principal es donde
se despliega la informacin de texto (Resultados); a la izquierda estn las
ventanas de Review y Variables las cuales despliegan las rdenes
(comandos) que se dan y las variables cargadas a la memoria
respectivamente. En la parte inferior aparece la ventana Command, en la
que se escriben las rdenes para Stata. En la ventana de resultados
aparece el indicador de entrada de comandos, que en Stata es un punto
".", el cual seala al usuario que el programa est listo para recibir
rdenes.
b) La informacin inicial al entrar al programa da informacin sobre

la cantidad de memoria asignada a los datos y le nmero mximo de
variables que se puede manejar. En el caso de la versin SE 11 se tienen
50 Mb para datos y el mximo de variables es de 5000 (una capacidad
considerable). Conviene conocer otras especificaciones iniciales del
programa; para esto se teclea "query", para conocer los parmetros bsicos
de operacin de Stata, tales como las caractersticas de la pantalla
utilizada (modo grfico, tamao de pantalla y caracteres, etc.), el directorio
de los archivos de ayuda, entre otros.
207
13.2 Introduccin y edicin de datos
Una manera simple de introducir datos en una interfase grfica para el

usuario (Windows) consiste en seleccionar, copiar y pegar. Es decir, los
datos se seleccionan en otro programa, por lo general una hoja de clculo,
se selecciona el intervalo de celdas con la informacin que se desea
trasladar a Stata, se copia (CTL-C o bien Click auxiliar Copiar o el
mtodo favorito en el ambiente grfico) se cambia a Stata, se abre el
Editor de Datos sea con el comando edit o bien dando click en el botn
de editor, y pegar (CTL-V click con botn derecho y click en pegar).
Otra forma es utilizando los mens de cada. Siguiendo la convencin de
Getting Started with Stata for Windows (StataCorp, 2009) para el uso de
apuntar y seleccionar (click) se tiene la siguiente secuencia general: Men
> Item de men > Item de submen > etc. Para la lectura de datos del
tipo de Stata (guardados con el comando save con la extensin .dta) se
tiene:
1.- Seleccionar File > Open

2.- En el cuadro de dilogo, buscar la Carpeta con datos
3.- Click el archivo deseado.
Si los datos no son del tipo Stata se usar para tipo ASCII (texto) sin
formato:
1.- Seleccionar File > Import

2.- Seleccionar Unformatted ASCII data
3.- Click en el archivo deseado y proporcionar el nombre de las variables
incluidas. Este paso requiere conocer las variables contenidas en el
archivo de texto.
Es posible importar datos ASCII en otros arreglos, as como los

creados por hoja de clculo tipo Excel seleccionando la opcin
correspondiente.
A continuacin, otras formas para introduccin de datos.
a) Introduccin de datos. Existen varias maneras de introducir la

informacin para su procesamiento. La primera es utilizar el comando:
input cuando el nmero de datos no es muy grande. Basta con teclear
input y enseguida el nombre de las variables a introducir separadas por
un espacio. Por ejemplo, si se desean introducir tres variables (longitud,
peso y altura) se deber teclear: input longitud peso altura. Una vez hecho
2lo anterior aparecen en pantalla los nombres de las variables y el nmero
1 que solicita el primer conjunto de datos. A continuacin hay que teclear
208
los valores separados por espacios y ENTER, pasando al rengln 2. Al

finalizar con la introduccin de datos basta con teclear "end" para regresar
al indicador. El programa utiliza el smbolo "." para indicar un valor
faltante (missing value), por lo que en lugar de dejar un espacio se debe
teclear un punto con el fin de sealar estos valores. Para revisar los
valores introducidos se puede utilizar el comando "list" (listar). Si en el
listado aparecen errores se pueden corregir mediante el comando "replace".
b) Reemplazo de datos (replace). Si durante la entrada de datos

ocurren equivocaciones es posible corregirlas mediante el comando
"replace" en combinacin con el nombre de la variable, el valor correcto y
el rengln en el cual se encuentra el error. Por ejemplo, si en el segundo
rengln se introdujo un valor incorrecto (233, en lugar de 23) de la variable
altura se debe teclear:
replace altura=23 in 2
c) Salvado de datos (save). Antes de salir del programa conviene

grabar en el disco de datos la informacin introducida, para lo cual se
necesita teclear el comando "save" y el nombre del archivo (Stata
automticamente agrega la extensin ".dta"). El archivo se guardar en la
carpeta de trabajo. Para saber cual es esta carpeta es conveniente el uso
del comando pwd. Si se quiere cambiar, se especifica la direccin
completa. As, si queremos grabar en la carpeta misdatos del disco duro
c los datos de longitud, peso y altura en un archivo que se llame
"datopez" se teclear:
save c:\misdatos\datopez.dta
(la extensin puede omitirse; no se recomienda el uso de otra extensin, ya

que estos archivos slo pueden ser ledos por Stata). Si el archivo ya existe
no podr realizarse la operacin. Si el archivo se grab anteriormente y al
usarlo modificamos algunos valores para salvar la informacin se teclear
al final "replace" (reemplazar). Si se quiere cambiar de carpeta de trabajo
basta con teclear la nueva direccin despus del comando cd:
cd c:\misdatos
Posteriormente basta con escribir:
save datopez.dta
d) Ordenamiento (sort). Para la adecuada funcin de algunos

comandos es necesario ordenar a los datos de acuerdo a alguna variable.
Para ello se utiliza el comando "sort" (ordenar) y posteriormente el nombre
209
de la variable. Por ejemplo, si se desea ordenar los datos de peces por el

peso se teclea:
sort peso
e) Importacin de datos en ASCII (infile). Para manejar una cantidad

considerable de datos conviene introducirlos y grabarlos en disco por
medio de un procesador de palabras (Wordpad, MS Word, etc.), de una
hoja electrnica de datos (como Excel o 1-2-3 de Lotus) o de un gestor
electrnico de bases de datos (Data Base III +) y grabarlos en un archivo
tipo ASCII antes de utilizar Stata. Para leer este tipo de archivos por medio
del Stata adems de la forma presentada al inicio de este apartado, hay
que teclear despus del comando "infile" el nombre de las variables, la
indicacin de uso del archivo y el nombre del archivo con la informacin.
Por tanto, si existe el archivo en ASCII "datopez.prn" en la carpeta
misdatos del drive c: se teclea lo siguiente:
infile longitud peso altura using c:\misdatos\datopez.prn
Al finalizar la lectura de los datos aparece un mensaje del nmero de

observaciones ledas. Para verificar los datos conviene utilizar "list" (listar)
o "summarize" (resumir). Con los datos en la memoria, se usa el comando
save para guardar la informacin en un archivo tipo Stata. Una vez
realizado lo anterior podemos utilizar el archivo por medio del comando
"use". Al arrancar Stata puede manejar como un valor pre-establecido para
el nmero de variables y de datos que depende de la memoria fsica del
sistema. Un ejemplo en el uso del Stata 11 SE puede ser de 5000 variables
y ms de 5 millones de observaciones. Si el nmero de observaciones a
trabajar es mayor hay que utilizar el comando "set maxobs no." (establecer
el nmero mximo de observaciones), por ejemplo, si tenemos un poco
menos de 10 millones de datos resulta razonable teclear:
set maxobs 100000
El aumento en el nmero mximo de observaciones trae como

consecuencia una disminucin proporcional en el nmero de variables que
el programa puede manejar.
f) Seleccin de datos. Con el Stata es posible seleccionar de varias

maneras subgrupos de datos. Se puede indicar al programa que se quiere
utilizar un dato de un rengln en particular y para ello se utiliza el selector
"in"; por ejemplo:
list peso in 6
210
producir el desplegado de la variable peso del sexto rengln. Tambin es

posible desplegar intervalos de renglones:
list peso in 1/20
desplegar en pantalla los primeros 20 valores. Asimismo, es posible

seleccionar cualquier valor que cumpla con una cierta condicin de
bsqueda. De esta forma si queremos considerar los valores del peso para
las alturas mayores de 10 teclearemos:
list peso if altura > 10
Las operaciones que se pueden manejar con el selector if son:
> mayor que

< menor que
>= mayor igual
<= menor igual
!= diferente (tambin ~=)
== igual
Ntese que el signo "==" es diferente del operador algebraico "=". Conviene
utilizar este comando en combinacin con "sort", para observar los valores
ordenados.
El prefijo "by" puede utilizarse tambin para analizar subgrupos de

datos. De esta forma, si existe la variable "sexo" en el archivo "datopez"
anteriormente utilizado, podemos procesar los datos por cada sexo. Por
tanto si deseamos la lista de valores de longitud por sexo, es necesario
primero ordenar por sexo:
sort sexo
y despus teclear:
by sexo: list longitud
La variable utilizada con by debe ser una variable de clasificacin

(categrica).
g) Resumen de estadsticos (summarize). Para obtener un resumen

bsico de los datos contenidos en los archivos se emplea el comando
summarize (resumir). De esta manera si se desea tener un resumen de los
valores contenidos en las variables del archivo datopez tecleamos:
summarize
211
que proporciona un listado con el nombre de las variables, el nmero de

observaciones, la media, desviacin estndar y los valores mnimo y
mximo.
h) Creacin de variables nuevas (generate). Stata puede utilizar

operadores algebraicos y funciones matemticas para generar nuevas
variables a partir de los valores existentes. De esta forma se puede crear
una variable nueva que contenga, por ejemplo, la diferencia de dos
variables tecleando el comando "generate" (generar), el nombre de la nueva
variable, el signo = y la operacin que la define, en este caso una resta:
generate diferen=longitud-altura
Si se requieren los valores logartmicos de la longitud y el peso se deber

teclear:
generate logpeso=log(peso)
generate loglon=log(longitud)
la funcin log(x) proporciona logaritmos neperianos, por lo que para

obtenerlos en base 10 hay que dividir entre el logaritmo natural de 10 o
utilizar la funcin 1og10().
13.3 Estadstica descriptiva univariada
Como se describi anteriormente, Stata proporciona estadsticos

descriptivos bsicos por medio del comando "summarize" (nmero de
observaciones, media, desviacin estndar, mnimo y mximo). Se pueden
obtener ms estadsticos agregando la opcin "detail" (detalle); las opciones
se teclean despus de una coma. Este comando opcional agrega al
desplegado percentiles (1, 5, 10, 25, 50, 75, 90, 95 y 99), la varianza, el
sesgo y la curtosis. Estos ltimos ndices pueden reemplazarse por
comparaciones menos formales pero ms resistentes o robustas. En
primer lugar la comparacin de media y mediana proporciona un medio
para analizar la asimetra (sesgo), ya que se conocen las siguientes
relaciones:
media>mediana (sesgo positivo)

media=mediana (simtrica)
media<mediana (sesgo negativo)
212
La curtosis se refiere al grado de achatamiento o agudeza relativa de

una distribucin en relacin a la distribucin normal. Un indicador de la
curtosis ms robusto es comparar la desviacin estndar con la F-
pseudosigma (el recorrido intercuartlico o dispersin de los cuartos,
dividido entre 1.349; captulo 2), que es el equivalente resistente de la
desviacin estndar:
d.s. > F.P. (dist. puntiaguda)

d.s. F.P. (dist. aprox. gaussiana)
d.s. < F.P. (dist. achatada)
La distribucin de variables categricas se pueden examinar ms

fcilmente por medio del comando "tabulate" (tabular). As volviendo al
ejemplo de los datos de los peces, si queremos analizar la distribucin de
la variable sexo basta teclear:
tabulate sexo
para obtener una tabla del nmero y porcentajes de machos y hembras.
La opcin "plot" (graficar) proporciona un grfico de barras en modo

texto para los valores de frecuencia de cada categora.
Este comando proporciona una tabla de dos vas si se especifica el

nombre de dos variables. Si se tuviera la variable categrica clase (de edad)
en el archivo datopez podramos analizar la frecuencia por sexos y clases
de edad tecleando:
tabulate sexo clase
Existen cinco opciones importantes para la tabulacin cruzada:
column porcentajes de columnas

row porcentajes de renglones
cell porcentajes totales
nofreq la frecuencia de las celdas no se muestra
chi2 prueba de independencia de chi-cuadrada
Conviene aplicar las recomendaciones de Marsh (1988; captulos 7 y

8) para la especificacin de porcentajes de filas y columnas.
213
13.4 Anlisis grfico de datos
Stata dibuja grficas mediante varios comandos. El primero es graph:
Comando Descripcin
graph twoway grficos de dispersin, de lnea
graph matrix matrices de grficos de dispersin
graph bar grficos de barras
graph dot diagrama de puntos
graph box diagrama de caja y bigotes
graph pie grfico circular
Otros comandos grficos importantes son:
Comando Descripcin
histogram Histogramas
symplot grficos de simetra
quantile grficos de cuantiles
qnorm grficos de cuantiles normales
pnorm grficos de probabilidad normal,
estandarizados
qchi grficos de cuantiles de ji-cuadrada
pchi Grficos de probabilidad de ji-
cuadrada
qqplot grficos cuantil-cuantil
gladder grficos de escala de potencias

qladder cuantiles de escala de potencias
spikeplot spikeplots and rootograms

dotplot medias o medianas por grupo
sunflower grficos de flor para distribucin de
densidad
Adems de los anteriores Stata puede producir grficos

especializados para suavizacin no paramtrica (densidad uni y bivariada,
polinomial), diagnstico de regresin (leverage plots, grficos de estimados
contra residuos, entre otros), series de tiempo (correlogramas,
periodogramas, grficos de autocorrelacin y correlacin cruzada), modelos
autorregresivos de vector, datos longitudinales o en panel, anlisis de
supervivencia, anlisis de riesgo, multivariado, control de calidad, entre los
principales.
En general este comando puede emplearse en combinacin con los

selectores "in", "if" y en la mayora con "by". Cada estilo tambin ofrece una
214
variedad de opciones ms especializadas que permiten un control adicional

sobre lo que se grafica y la manera como lucir.
a) Histogramas. Para obtener un histograma de los valores de una

variable basta con teclear el comando "histogram" y el nombre de la
variable. Al utilizar la informacin de datopez para obtener un histograma
de la talla de los peces se tecleara:
histogram longitud
En breves momentos aparece en la pantalla el histograma con el nmero

pre-establecido de clases de acuerdo a la regla k = min{sqrt(N),
10*ln(N)/ln(10)} en donde k es el nmero de clases. Esta regla surge de las
sugerencias de (Hoaglin, 1983; Geiger, 1991 y Velleman, 1976) quienes
recomendaban usar 10*log10N para ms de 20 datos, o n1/2 con menos
observaciones. Este valor puede cambiarse por medio de la opcin "bin()",
colocando dentro del parntesis el nmero de clases que se crea
conveniente o aqul resultado de alguna otra expresin ideada para
determinar la cantidad de intervalos (Sturges, Scott, etc.).
Al histograma se le puede sobreponer una curva normal agregando a

la orden la opcin "normal". En el tipo nuevo de grficas la curva normal
tiene la media y desviacin estndar de los datos. Con los comandos
anteriores adems, es posible controlar a la curva normal incluyendo entre
parntesis la mediana y la F-pseudosigma para tener una curva normal
resistente (graph7 longitud, bin(5) normal(18,0.75)).
Es posible construir grficos mltiples por medio del comando "by".

Para esto hay que ordenar por la variable de agrupamiento y agregar la
opcin by al final de la orden. Si se desea la grfica del total de datos se
deber agregar la opcin "total". Utilizando el ejemplo del archivo datopez,
podramos observar el comportamiento de la frecuencia de tallas a travs
de histogramas con 10 clases, una curva normal sobrepuesta, por sexo y
total tecleando:
histogram longitud, bin(10) normal by(sexo, total)
Esta orden proporciona cuatro histogramas (machos, hembras,

indeterminados y el total).
b) Diagramas de caja y bigotes. Como se ha comentado en esta obra,

en el ao de 1977 apareci la versin formal de la obra de J. Tukey
denominada "Exploratory Data Analysis". En ella el Dr. Tukey describe un
diagrama basado en estadgrafos resistentes que permite la visualizacin
de la distribucin de los datos que l llam "diagramas de caja y bigote"
(ver captulo 3). En estos diagramas la medida de tendencia central es la
215
mediana, la dispersin queda indicada por el recorrido intercuartlico

(descritos en el captulo 2 y 3 como "dispersin de los cuartos"), los bigotes
indican todos aquellos valores que no son casos extraordinarios (hasta los
valores adyacentes). Los casos extraordinarios (outliers) se indican con
smbolos separados ms all de los "bigotes". Para obtener estos
diagramas se teclea el comando graph box y el nombre de la(s) variable(s)
que se desea analizar. En breve aparece el diagrama de caja simple. Si se
quisiera analizar la variable altura del archivo datopez se tecleara:
graph box altura
Este tipo de diagramas permite la comparacin grfica de la

distribucin de varios lotes de datos agrupados por alguna variable. Para
lograr esto se utiliza la opcin over(), colocando en el parntesis el nombre
de la variable de agrupamiento (tambin es posible considerar en el mismo
grfico la opcin "total"). En esta forma si se desea observar la distribucin
de la altura por sexos en un solo grfico basta teclear (despus de ordenar
por sexo):
graph box altura, over(sexo)
En ocasiones es conveniente colocar una lnea horizontal que sirva

de referencia. Para lograr esto se utiliza la opcin "yline(y)", colocando en el
parntesis el valor de y correspondiente.
Si se desean grficos independientes para cada grupo se puede

utilizar la opcin by(). Igualmente se puede agregar total.
c) Es posible utilizar otra forma para observar varias distribuciones

por medio de los grficos de tipo anterior. Para ello se especifica la
construccin de un grfico de dispersin unidimensional (oneway
scatterplots) modificados de Chambers (1983) en combinacin con
diagramas de caja. Aplicando al ejemplo anterior la orden sera:
graph7 altura, oneway box by(sexo)
Observar que para utilizar el tipo de grficos anteriores de Stata se utiliza

graph7 ( en breve gr7). Esta combinacin contiene el desplegado visual
de estadsticos resumen como la mediana y los cuartiles as como el
grfico de dispersin unidimensional que muestra la posicin de cada
dato. De esta forma ambos grficos se complementan.
d) Grficos de dispersin bidimensionales. Los grficos

bidimensionales son el tipo ms verstil dentro de los diagramas de
anlisis. En las grficas nuevas de Stata el comando "scatter" seguido por
el nombre de dos variables construye un grfico de dispersin
216
bidimensional (y primero, x en segundo lugar). Por ejemplo, si se desea

graficar el peso contra la longitud del archivo datopez:
scatter peso longitud
Las grficas anteriores de Stata tienen unas variaciones muy potentes

para el desplegado de datos bidimensionales, si bien su presentacin es
ms sencilla. Por ejemplo, es posible combinar un grfico bidimensional de
dispersin con diagramas univariados de dispersin y con diagramas de
caja y bigotes para cada conjunto de valores (x,y):
graph7 peso longitud, oneway twoway box
Pueden utilizarse diversos smbolos para representar a cada punto.

La opcin que permite lo anterior es "symbol()" en la cual dentro de los
parntesis se colocan claves de acuerdo a la siguiente tabla:
Estilo de smbolo Sinnimo (si existe) Descripcin

Crculo O Relleno
Diamante D Relleno
Tringulo T Relleno
Cuadrado S Relleno
Smbolo ms +
Equis (X) X
Crculo pequeo o Relleno
Diamante pequeo d Relleno
Cuadrado pequeo s Relleno
Tringulo pequeo t Relleno
Equis pequea x
Circulo vaco Oh Vaco
Diamante vaco Dh Vaco
Tringulo vaco Th Vaco
Cuadrado vaco Sh Vaco
Crculo pequeo vaco oh Vaco
Diamante pequeo vaco dh Vaco
Tringulo pequeo vaco th Vaco
Cuadrado pequeo vaco sh Vaco
Punto p Punto pequeo
Ninguno i Smbolo invisible
217
Con la opcin mlabel es posible especificar etiquetas para los puntos. Por
ejemplo el nmero de observacin:
gen orden = _n
scatter peso longitud, mlabel(orden)
bien, otra variable con informacin adicional:
scatter peso longitud, mlabel(especie)
Los puntos en un grfico pueden unirse de varias formas, a travs

de la opcin connect(). Dentro del parntesis se pueden colocar alguna
de las siguientes claves:
Estilo de conexin Sinnimo Descripcin

Ninguno i Sin conexin
Directo l Conecta con lneas rectas
Ascendente L Directo, pero slo si x[j+1] > x[j]
Escaln a J Horizontal, luego vertical
Escaln b stepstair Vertical, luego horizontal
e) Grficos de dispersin en modo de texto. Es posible tambin

producir grficos bidimensionales utilizando smbolos tipogrficos
ordinarios en lugar de grficos de alta resolucin. Tales grficas pueden
editarse por medio de un procesador de palabras e incorporarse fcilmente
en un reporte escrito. Por ejemplo, para graficar el peso contra la longitud
se tecleara:
plot peso longitud
f) Matriz de grficos de dispersin. La matriz de grficos de

dispersin es un arreglo en el cual se muestran grficos bidimensionales
para cada combinacin posible de las variables consideradas (ver captulo
10). Para obtener este grfico se introduce el comando "graph matrix"
seguido de la lista de variables a considerar. La organizacin de la matriz
de grficos de dispersin es como la de una matriz de correlacin. Las
matrices de correlacin son ampliamente utilizadas, sin embargo no
muestran indicio alguno de la existencia de tendencias curvilneas o casos
extraordinarios en los datos. Tanto en la matriz de correlacin como en la
de grficos de dispersin, la diagonal superior es redundante de la inferior,
por lo que se puede elegir considerar tan slo la mitad inferior con la
opcin "half", al final de la orden.
218
Estas matrices grficas se vuelven difciles de observar al incluir un

nmero grande de variables. No obstante, Stata puede dibujar una matriz
de 30 por 30 variables.
g) Stata puede dibujar grficos de barras, por medio del comando

"graph bar (estadstico) vary, over(catvar)", en donde estadstico se refiere
al valor deseado (media, mediana, suma, cuenta, etc.) y dentro de los
parntesis de la opcin over se incluye alguna variable categrica.
h) Los grficos de pastel (o de sectores) se indican mediante la

combinacin "graph pie lista de variables". Tambin es posible utilizar la
opcin "by()".
i) Un mtodo para mostrar informacin multivariada en dos

dimensiones es el grfico de estrella. Cada caso es representado por una
figura pequea, con lneas radiales de longitud proporcional al valor
relativo de cada variable (hasta 16). La sintaxis de la orden es: "graph7
lista de variables, star". Con estos grficos no se puede utilizar la opcin
"by".
j) A todas las grficas pueden agregarse etiquetas (rtulos). Para las

grficas bidimensionales de dispersin (scatter), existen dos etiquetas
izquierdas: "l1" y "l2"; cuatro etiquetas superiores: "t1", "t2", subtitle y
title; dos etiquetas derechas: "r1" y "r2"; y cinco etiquetas inferiores:
"b1", "b2", legend, note y caption. En las etiquetas izquierdas y
derechas aqullas con el nmero 2 son las que se encuentran ms
alejadas de los ejes de la grfica, en las superiores es title y en las
inferiores note y caption las cuales adems estn situadas en el ngulo
inferior izquierdo y no al centro como las dems. As, por ejemplo, en el
caso de la grfica de dispersin bidimensional para el peso y longitud de
peces se podra especificar el nombre de los ejes y y x, as como el ttulo de
dicha grfica tecleando lo siguiente:
scatter peso longitud, l1("Peso total (gr)") b2("Longitud patrn

(mm)") ti(Grfica 1 Relacin Longitud-Peso)
en pocos instantes aparecera la grfica con el ttulo
Grfica 1 Relacin Longitud-Peso
y con ejes Peso total (mm) a la izquierda y Longitud patrn (mm) bajo el
eje de las x's.
k) Stata permite grabar las grficas en un archivo para su uso

posterior o para su impresin. Por ejemplo, la grfica de peso longitud
219
considerada anteriormente puede salvarse agregando la opcin

"saving(nomarchi) al comando graph (nomarchi se refiere al nombre del
archivo):
scatter peso longitud, saving(figura1)
La extensin .gph se agrega automticamente a la imagen grabada si no

se especifica otra diferente (lo cual no se recomienda).
Las posibilidades grficas (y analticas) de Stata solamente se han

bosquejado en el presente resumen. Para mayor informacin consultar a
Hamilton (1990b) y a los manuale de referencia del programa (Computing
Resource Center, 1990; StataCorp, 2009).
l) Se tienen varios mtodos para imprimir una grfica de Stata. Si la

grfica est en pantalla, se da sobre ella un click derecho y se elige print.
Si la grfica se guard en disco en el directorio de trabajo y con el nombre
de figura1, se usa:
graph use figura1

graph print
Si la grfica est almacenada en la memoria (supongamos que con el

nombre de figura1) pero no est desplegada entonces se teclea:
graph display figura1

graph print
En todos los casos el comando graph print abre un cuadro de dilogo con
las impresoras del sistema permitiendo elegir la deseada. Las grficas
pueden exportarse a otros formatos (postscript, postscript encapsulado,
Windows metafile normal y mejorado (enhanced), pdf, png (Portable
Network Graphic), TIFF, entre otros (con el comando graph export).
m) Adems de su impresin, se pueden hacer varias cosas con las

grficas grabadas. Pueden leerse y desplegarse en pantalla nuevamente
mediante el comando "graph use". Por ejemplo, para observar la grfica de
peso longitud:
graph use figura1
Las grficas salvadas pueden combinarse en grficas nuevas mediante el

comando graph combine, por ejemplo:
graph combine figura1 figura2 figura3 figura4, saving(figura5)
220
Dando click derecho sobre la grfica puede elegirse copy y pasarse

a otro programa (de grficos, de texto, etc.) y quedar incluida en un reporte
o para alguna edicin especializada posterior.
De esta forma se puede combinar cualquier nmero de grficas,

capacidad que proporciona una gran versatilidad en la graficacin de
datos. (Para una descripcin completa de las opciones y comandos del
Stata consultar el Manual de Referencia (Computing Resource Center,
1989 y 1990a); la gua del Usuario o el manual de grficas (Statacorp
(2009); a Hamilton, 1990b, al Boletn Tcnico de Stata (Stata Technical
Bulletin, publicacin peridica bimensual) o al Stata Journal (revista
indexada especializada versin actual del anterior boletn).
13.5 Procedimientos exploratorios complementarios en Stata
En adicin a los mtodos mencionados arriba, Stata contiene una serie

adicional de procedimientos exploratorios:
a) Diagramas de Tallo y Hoja. Stata puede realizar diagramas de tallo

y hoja mediante el comando "stem" (Computing Resource Center, 1991;
StataCorp, 2009). Para realizar este diagrama con los datos de longitud se
teclea:
stem longitud
Este comando puede emplearse con "if" e "in". Posee la opcin "short" que
evita el desplegado de tallos sin hojas.
b) Re-expresin de datos para promover gaussianidad (normalidad).

Stata proporciona dos comandos que proporcionan indicaciones sobre la
transformacin de los datos. La orden "ladder" (escala) produce una tabla
con nueve transformaciones potenciales de la escala de Tukey
(especificadas por nombre y frmula), el valor de Chi-cuadrada calculada y
la probabilidad de su ocurrencia (de acuerdo a una prueba de "bondad de
ajuste", Gould, 1991). Para verificar la distribucin de la longitud de peces
de un slo grupo de edad (un componente gaussiano) y crear una nueva
variable con los valores re-expresados se deber teclear:
ladder longitud if clase==1, generate(longitran)
Este comando puede usarse tambin con el selector "in".
El comando "gladder" produce un arreglo de nueve histogramas (uno

para cada re-expresin de la escala de potencias de Tukey). Aplicado a los
datos de longitud se deber teclear:
221
gladder longitud if clase==1
y se obtendrn nueve histogramas con curvas ajustadas. Si no se

especifica la opcin "bin()", el nmero de intervalos es el recomendado por
las expresiones explicadas en el captulo 1 y por Geiger (1991). Con este
comando se pueden utilizar las opciones para grficas y el selector "in"
(Gould y Hilbe, 1991).
Por otra parte, existe tambin un programa (transfor.do) que permite

la aplicacin de siete transformaciones potenciales a un conjunto de datos
y que produce una tabla con estadsticos bsicos (media, mediana, sesgo,
curtosis, desviacin estndar, F-pseudosigma, y dos intervalos de
confianza), una serie de histogramas (con curva gaussiana sobrepuesta)
para cada transformacin y grficos de dispersin univariados con
diagramas de caja sobrepuestos (Findley, 1991). Aplicado a los pesos de
los peces teclearamos:
run transfor peso
Con esta informacin se puede elegir la re-expresin que hace simtrica y

gaussiana a la distribucin de los valores.
c) Pulido de Mediana (Tukey's Two-Way Analysis). Para ajustar con

Stata un modelo aditivo a una tabla de dos vas con tres variables, se
utiliza el comando "t2way5" modificado de la propuesta original
(Computing Resource Center, 1990) por Cox (1998), el cual produce como
resultados una tabla con el trmino comn y los efectos de fila y columna
as como una grfica que muestra el tamao y signo de los residuos. Por
ejemplo, para analizar el peso de los peces de acuerdo al sexo (variable de
fila), la clase de edad (variable de columna) y obtener la grfica de residuos
(especie de tabla codificada simplificada) se tecleara:
t2way5 sexo clase, summ(peso) graph
d) Estimacin de densidad por kernel. Adems de los programas y

comandos introducidos en el Captulo 4 basados en Salgado-Ugarte
(2002), Stata contiene un comando para calcular histogramas suavizados:
kdensity. Para obtener el estimador de densidad de la variable longitud
se escribe:
kdensity longitud, gauss
Cabe aclarar que el programa, en forma pre-establecida calcula y

utiliza la banda ptima de Silverman (Silverman, 1986; Salgado-Ugarte,
2002) para kernel gaussiano, por lo que es necesario agregar la opcin
gauss en el comando. Este comando tiene varias opciones tiles, entre
222
las que se menciona at, opcin que permite utilizar los valores deseados
para hacer los clculos guardados en una variable haciendo posible la
utilizacin de los mismos puntos de clculo para toda una serie datos, por
ejemplo los datos de longitud de cada mes a lo largo de los aos.
223
Captulo 14. Introduccin a MINITAB

MINITAB es un sistema de anlisis de datos de propsito general para la
organizacin, anlisis y reporte estadstico de datos. Este paquete proporciona
al usuario un amplio repertorio de funciones matemticas bsicas y
estadsticas de alto nivel pero de fcil uso. En las ltimas versiones adems de
poseer una estructura directa de comandos cuenta con una interfase grfica
muy conveniente con las opciones ms comunes. Los comandos del Minitab
son intuitivamente fciles de usar y recordar debido a que imitan la manera
en que pensamos para realizar anlisis estadstico (Ryan et al., 1985). Para
entrar a Minitab se sigue la siguiente secuencia de opciones: Inicio
Programas Minitab Solutions Minitab 15 Statistical Software English.
En cuanto a rutinas exploratorias, MINITAB es el programa que, por

estar basado en los algoritmos contenidos en la obra de Velleman y Hoaglin
(1981), contiene las principales rutinas del Anlisis Exploratorio de Datos.
El siguiente resumen est basado en el "Manual del MINITAB" (Ryan et

al., 1985) en la "Gua del Usuario de MINITAB" (MINITAB, 1989), en el Minitab
Reference Manual Release 11 (Minitab Inc. 1996) y en Meet Minitab (Minitab
Inc., 2007).
Adems de la interfase grfica para el usuario, Minitab est constituido

por una hoja electrnica que permite el almacenamiento de datos y el empleo
de unos 150 comandos. El uso de las ventanas en Minitab para los
procedimientos revisados en la presente obra se presentar en el apartado
correspondiente. A continuacin se presenta un resumen sobre el uso de los
comandos. Al abrir el programa, aparecen las ventanas Session (Sesin) y
Data (Datos). Para activar el uso de comandos es necesario seguir la siguiente
secuencia de opciones en la barra de mens: Editor Enable Commands.
Esta eleccin permitir escribir y recuperar los comandos en la ventana de
Sesin.
En la hoja electrnica de Minitab se pueden almacenar columnas de

datos y valores constantes nicos. Las columnas se denotan con la letra C y
un nmero, esto es, C1, C2, C3,... las cuales pueden tener nombres. Las
constantes almacenadas se indican mediante la letra K y un nmero (K1, K2,
K3,...). El rea total de la hoja de trabajo y el nmero de columnas
almacenadas y constantes disponibles depende de la capacidad de memoria
de la computadora empleada. El total que se tiene es desplegado al utilizar
Minitab.
Cuando se desea emplear a Minitab para analizar datos basta con

teclear los comandos las opciones de los mens que sean apropiados.
225
Existen comandos y opciones para leer, editar e imprimir datos; para hacer
grficos e histogramas; para realizar operaciones aritmticas,
transformaciones y para efectuar anlisis estadsticos variados como pruebas
de t, regresin y anlisis de varianza.
Para utilizar los comandos en Minitab es necesario seguir ciertas reglas:
1.- Cada comando empieza con un nombre, tal como READ (LEER) o
HISTOGRAM (HISTOGRAMA). La mayor parte de los comandos son
seguidos por argumentos. Un argumento es ya sea un nmero de
columna (como C10), un nombre de columna (por ejemplo 'ALTURA'),
una constante (tal como 75.34), una constante almacenada (K15), el
nombre de un archivo.
2.- Slo las primeras cuatro letras del nombre del comando y de los
argumentos, los cuales deben estar dispuestos en el orden adecuado,
son utilizados por el Minitab. Si se desea puede agregarse texto
adicional con fines explicativos. Sin embargo, se recomienda slo
utilizar letras y comandos para este texto extra. Nunca utilizar nmeros
o smbolos (como ; : - * & o +) puesto que son utilizados de manera
espacial por Minitab. Siguiendo estas reglas, el comando READ
FOLLOWING DATA INTO COLUMNS C1 AND C2 puede escribirse:
READ DATA INTO C1 AND C2
simplemente:
READ C1 C2
3.- Se puede abreviar una lista de columnas consecutivas utilizando un guin.

Por ejemplo, puede utilizarse:
READ C2-C5
en lugar de
READ C2, C3, C4, C5
4.- Las columnas y las constantes almacenadas pueden utilizarse

repetidamente cualquier nmero de veces. Si almacena datos nuevos en
una columna o constante almacenada, el contenido previo se borrar
automticamente.
226
5.- Si se teclea un nmero, no deben incluirse comas. Por tanto debe

escribirse 1041 y no 1,041.
6.- Cada comando debe empezar en una lnea nueva. No es necesario iniciar
en el primer espacio. Si el comando completo no cabe en una sola lnea,
finalice la primera lnea con el smbolo & (ampersand) y contine en la
siguiente lnea. Por ejemplo:
PRINT C2, C4-C20, C25, C26, C30, C33 &

C35-C40, C42, C50
14.1 Introduccin, edicin y desplegado de datos
En Minitab 15 para Windows la forma de introducir, editar y desplegar los

datos es simple y directa. Para abrir un archivo de datos basta con seguir: File
Open Worksheet nombre del archivo. De manera preestablecida se leen
los archivos grabados por Minitab (con extensines *.mtw *.mpj), pero es
importante aclarar que adems es posible importar archivos provenientes de
un nmero muy amplio de formatos (identificados por su extensin): Minitab
portable (*.mpj), Excel (*.xls; *.xlsx), Spreadsheet XML (*.xml), Quattro Pro
(*.wb1; *.wq1), 1-2-3 (*.wk?), dBase (*.dbf), Text (*.txt), Text (*.csv) y Data
(*.dat). No obstante, a continuacin se especifican comandos para llevar a
cabo estas tareas.
a) Los comandos READ (LEER) y SET (ESTABLECER) permiten introducir

datos en Minitab. La diferencia es que READ se utiliza para incluir los datos
fila por fila, mientras que SET incluye los valores de una columna.
Ejemplo del uso de READ:
READ C2 C3 C5
1 3 980
3 0 1430
2 4 2190
END
Despus de lo anterior los datos quedan incluidos en las columnas 2 3 y

5.
Ejemplo del uso de SET
SET into C1
270 236 210 142 280
272 160 220 226 242 186 266
END
227
Con esto, los valores quedan incluidos en la columna C1.
Al introducir los datos es conveniente verificar cada lnea antes de

oprimir la tecla ENTER (INTRO). De esta forma si se descubre un error se
puede retroceder y corregirlo. Cuando se ha terminado la introduccin de los
datos se recomienda imprimirlos en pantalla con el comando PRINT.
b) Constantes almacenadas. Cualquier operacin que resulte en una

respuesta de un slo nmero puede colocar dicho valor en una constante de
almacenamiento. Esta constante puede utilizarse en lugar de un nmero en
cualquier comando. SUM (SUMA) es un comando que tiene como resultado un
slo valor. Si C1 contiene los nmeros 5, 3, 6 y 2, entonces SUM C1 calcula 5
+ 3 + 6 + 2 = 16. Puesto que la respuesta es un slo valor, se puede almacenar
en una constante. Por ejemplo:
SET C1
5,3,6,2
END
SUM C1, PUT IN K1
LET K2 = 4
LET K3 = K1 + K2 - 8
PRINT K1-K3
c) Clculos aritmticos.- El comando LET (ESTABLECER) hace fcil el

clculo de expresiones complicadas. Sin embargo, en la mayor parte del
anlisis de datos se utilizarn tan slo formas simples de este comando. A
continuacin se incluye una breve explicacin:
LET utiliza los siguientes smbolos:
+ para sumar
- para restar
* para multiplicar
/ para dividir
** para elevar a una potencia
Ejemplo:
LET K1 = 3
LET K2 = 5*13
LET K3 = K1+K2+4
SET C1
4652
END
228
LET C2 = 2*C1
LET C3 = K1*C1
LET C4 = C2+1
LET C5 = C3+C4
LET C6 = C1**2
Despus de estos comandos, K1 = 3, K2 = 65 y K3 = 72. La siguiente

tabla muestra los contenidos de C1 a C6:
C1 C2 C3 C4 C5 C6
4 8 12 9 21 16
6 12 18 13 31 36
5 10 15 11 26 25
2 4 6 5 11 4
Los parntesis pueden utilizarse para agrupar operaciones.
d) Correccin de datos. Existen tres comandos tiles para corregir

nmeros que se han introducido en la hoja de trabajo: LET (ESTABLECER),
DELETE (BORRAR) e INSERT (INSERTAR). Por ejemplo, si el tercer valor de la
columna C1 se ha teclado incorrectamente, puede cambiarse utilizando LET y
el valor correcto:
LET C1(3) = 1.3
Si se olvid colocar un valor intermedio en la columna se utiliza INSERT.

De esta forma si se omitieron los valores (2.1 y 130) de C1 y C2 en la sexta fila
se utiliza:
INSERT (ENTRE LAS FILAS) 5 6 (DE) C1 C2

2.1 130
END
e) Nombre de columnas. Cualquier columna puede nombrarse. El

nombre tiene dos propsitos:
1.- La columna puede referirse por su nombre. A menudo es ms fcil

recordar el nombre de una variable que el nmero de la columna que
ocupa.
229
2.- Todos los resultados estarn rotulados con el nombre. Muchos usuarios
encuentran que el nombrar columnas toma un poco de tiempo extra pero
ste se ve compensado por una salida de fcil lectura.
Ejemplo:
NAME C1 snow C2 rain C3 temp
f) Trmino de la sesin. Para finalizar basta teclear STOP (PARAR), con lo

que se regresa al indicador del sistema operativo. Con las opciones de men,
la secuencia para salir es: File Exit, indicando si se desea no guardar el
proyecto antes de salir.
14.2 Informacin adicional sobre Minitab
a) Ayuda en Minitab. Si no se recuerda cmo utilizar un comando se puede

preguntar al programa. Por ejemplo, para saber acerca del comando SET,
basta teclear:
HELP SET
Minitab responder con una breve explicacin de dicho comando. En general,

para obtener ayuda sobre un comando hay que teclear HELP seguido del
nombre del comando. Para obtener ayuda acerca del comando de ayuda
(HELP), se tiene que teclear:
HELP HELP
La secuencia con el men de ayuda es: Help Help para posteriormente

elegir de las opciones del cuadro de dilogo: las pestaas (Contenido; ndice;
Buscar) o de las opciones desplegadas a la derecha sobre temas y cada uno de
los mens.
b) Salvado de hojas de datos. Las hojas de datos salvadas son una

manera muy conveniente de almacenar datos en un archivo de computadora
para utilizarlas con Minitab. Para salvar un conjunto de datos se utiliza el
comando SAVE (salvar). Este comando coloca todos los datos, incluyendo
constantes y nombres de columnas en un archivo. Es necesario aclarar el
drive que contiene el disco de trabajo. Para salvar los datos en un archivo
llamado "EJEMPLO" en el disco de la unidad de disco A se teclea:
SAVE A:EJEMPLO
230
Hay que resaltar que tanto la unidad de disco como el nombre del archivo se
escriben entre comillas. Si la unidad con la va correspondiente no se
especifican, Minitab las graba en la carpeta activa.
Posteriormente, ya sea en la misma sesin de trabajo o en otra, se

puede hacer uso de los datos mediante el comando RETRIEVE (RECUPERAR).
De esta forma para utilizar la informacin guardada en el archivo "EJEMPLO"
contenida en A:
RETRIEVE A:EJEMPLO
Es necesario incluir la especificacin de la unidad que contiene al disco con el

archivo. La extensin de estos archivos es MTW.
Estos comandos sirven nicamente para salvar y recuperar informacin

en el formato de Minitab; estos datos no pueden manejarse con otros
programas.
c) Manejo de la hoja de trabajo. Ocasionalmente es posible no recordar

el contenido de una hoja de datos. En estas circunstancias es til el comando
INFO (INFORMACION). Este comando despliega una lista de todas las
columnas utilizadas, el nmero de valores de cada una, su nombre (si se han
nombrado) y una lista de todas las constantes almacenadas.
Se pueden eliminar columnas y constantes que no se necesitan.

Algunas veces se puede hacer esto para liberar memoria. En otras ocasiones
se puede desear borrarlas para evitar un exceso de datos. Para esto se utiliza
el comando ERASE (BORRAR). Se puede borrar cualquier combinacin de
columnas y constantes almacenadas, por ejemplo:
ERASE C2 C5-C9 K1-K7 C20
d) Subcomandos. Algunos comandos de Minitab contienen

subcomandos. Estos permiten un control adicional sobre el modo de trabajo
del comando. Por ejemplo, el comando HISTOGRAM (HISTOGRAMA) escoger
automticamente una escala para desplegarlo, pero si se desea una diferente
puede especificarse usando el subcomando CUTPOINT (PUNTO DE CORTE) e
iniciando una secuencia de valores, por ejemplo:
HISTOGRAM C1;
CUTPOINT 0:10/1.
Con estos subcomandos se especifica una escala con incrementos de una

unidad a partir del cero y hasta el 10. Para utilizar un subcomando, al final
del comando principal se escribe un punto y coma. Este signo indica que a
continuacin se escribir un subcomando. Cada lnea de subcomandos debe
231
finalizar con un punto y coma mientras existan subcomandos por especificar.

La lnea del subcomando final debe terminar con un punto. Minitab espera
hasta que leer el punto para empezar con los clculos.
e) Cdigo de dato faltante. Es posible que en el conjunto de datos falten

una o ms observaciones. Cuando se introducen estos datos con los
comandos READ, SET o INSERT, es necesario teclear el asterisco (*) en lugar
de un valor faltante. Por ejemplo,
READ C1 C2
28 5.6
24 5.2
25 *
24 5.1
END
Todos los comandos de Minitab consideran al asterisco (*) cuando realizan un

anlisis.
Algunas veces se introducen datos en la hoja de trabajo y se descubre

que un valor es incorrecto sin ser posible conocer el valor verdadero. Se puede
entonces cambiar este valor a *, utilizando una caracterstica especial del
comando LET. Por ejemplo, si el valor incorrecto es el quinto nmero de C18,
se usar
LET C18(5) = '*'
El asterisco debe incluirse entre apstrofes al utilizarse con el comando LET.
f) Archivos ASCII. Como se mencion anteriormente, el comando SAVE

(SALVAR) permite el grabado de datos en disco. Sin embargo, esos archivos
slo pueden utilizarse con Minitab. Para crear archivos en cdigo ASCII que
puedan leerse y editarse con otros programas se utiliza el comando WRITE
(ESCRIBIR). Tambin puede utilizarse para imprimir columnas en la pantalla
o en papel. La salida es muy compacta. No existe encabezado con el nombre
de las columnas ni nmero de fila a la izquierda. Las columnas siempre se
despliegan verticalmente.
Un archivo creado mediante WRITE (ESCRIBIR) puede ser transferido a

tipos diferentes de computadora y ser ledo por otros programas. La extensin
de los nombres de archivo es DAT. En la seccin 14.1 se describen las
opciones a seguir en el men de cada File.
g) Interfase con Lotus 1-2-3. Es posible transferir datos entre Minitab y

Lotus 1-2-3. En las versiones recientes, para recuperar datos salvados en una
hoja de trabajo de Lotus se utiliza el comando WOpen (WAbrir) junto con los
232
subcomandos FType y Lotus. La extensin del archivo queda especificada en

la instalacin de Minitab. Por ejemplo:
WOPEN A:EJEMPLO;
FTYPE;
LOTUS.
leer los datos contenidos en la hoja llamada "EJEMPLO.WK?" creada y

almacenada por el 1-2-3 versin 2 en la unidad A.
La conversin de Lotus a Minitab pre-establecida utiliza las siguientes

reglas en la transferencia:
1) Se crea una columna de Minitab por cada columna de Lotus que contiene
un valor.
2) Se conserva la orientacin de filas y columnas.
3) Slo se convierten datos numricos. Datos Alfa, errores de Funciones @ y

entradas NA @ se convierten a valores faltantes.
4) Las columnas de Minitab se nombran con los nombres de columna

correspondientes en Lotus, es decir, A, B, C, etc.
Para salvar datos introducidos en Minitab en el formato del 1-2-3 de

Lotus para trabajarlos con este programa se utiliza el comando de Minitab
WSAVE (SALVAR) junto con varios subcomandos: FType; LOTUS; y en su caso
Missing; Numeric; Text; Replace. La extensin se agregar automticamente
de acuerdo a la versin instalada. Por ejemplo:
WSAVE 'A;SALIDA';
FType;
LOTUS;
Missing;
Numeric * *
Text ;
Replace.
escribir los datos introducidos en Minitab en un archivo con formato del 1-2-
3 de Lotus llamado "SALIDA" en el disco de la unidad A.
233
14.3 Graficacin de Datos
Un procedimiento fundamental para el anlisis de datos es la creacin de

grficos que permitan observar el comportamiento de los valores numricos.
Muy a menudo interesa conocer la relacin entre dos o ms variables. Los
grficos permiten investigar simultneamente el comportamiento de las
variables de inters. Minitab puede desplegar grficas en modo de texto y
grficas de alta definicin. De forma pre-establecida, Minitab funciona en
modo de alta resolucin. Si se desea trabajar con grficos en modo de texto es
necesario escribir el comando GSTD. En este modo, los datos se representan
como asteriscos; si dos ms pares de datos tienen las mismas coordenadas,
como smbolo se usa un dgito que los cuenta; si se tienen ms de nueve
puntos repetidos se utiliza un smbolo de +. Para volver al modo de alta
resolucin se teclea el comando GPRO. A continuacin se da una breve
explicacin para graficar en modo grfico de alta resolucin.
a) Grficos de dispersin (PLOT). Si dos variables son de tipo continuo (o

de intervalo) u ordinales, el grfico ms til en su anlisis es el familiar
diagrama de dispersin. El comando para realizar este diagrama es PLOT
(GRAFICAR). Se especifica primero la columna de las ordenadas (valores de y)
y posteriormente la de las abcisas (valores de x). En las grficas de alta
definicin de la versin actual de Minitab, cada punto se representa mediante
crculos llenos de color (rojo).
Subcomandos para PLOT
FOOTNOTE = texto PIE DE PAGINA = texto
El subcomando TITLE (TITULO) agrega ttulos y FOOTNOTE (PIE DE

PGINA) agrega un pie de pgina al grfico. El texto debe encerrarse entre
comillas. Puede utilizarse cualquier carcter, incluyendo espacios y smbolos
especiales.
Se pueden listar hasta dos subcomandos SUBTITLE (SUBTTULO) para

producir dos lneas con subttulos. Estos se disponen centrados sobre el
grfico. Si se desea justificar el texto a la izquierda deben agregarse los
espacios necesarios a la derecha. Pueden listarse hasta dos subcomandos
FOOTNOTE (PIE DE PGINA). Estos se disponen justificados a la izquierda
bajo el grfico. Si se desean centrados, deben agregarse los espacios
necesarios a la derecha.
234
Minitab utiliza un crculo relleno para representar a los puntos. Para

graficar utilizando otro smbolo es necesario especificarlo con los
subcomandos SYMBOL y TYPE K, en donde K es el cdigo del smbolo
deseado. La lista completa de smbolos se obtiene con la ayuda Help plot,
despus seleccionando SYMBOL, TYPE y posteriormente standard symbol
type list. Por ejemplo para graficar con signos de mas (+) utilizar:
PLOT C1*C2;
SYMBOL ;
TYPE 2.
Grficos de texto
En primer lugar se debe cambiar a modo estndar de grficos con el comando

gstd.
- Grficos de dispersin mltiples (MPLOT). Para graficar varios pares

de variables en el mismo eje se utiliza el comando MPLOT (MGRAFICAR), con
la siguiente sintaxis:
MPLOT C C C C
El primer par de columnas se grafica con el smbolo A, el segundo con la B, y

as sucesivamente. Si varios pares de valores caen en el mismo punto, se
imprime un contador. Se pueden graficar hasta nueve pares de columnas con
este comando y utilizar los subcomandos de PLOT. Por ejemplo:
MPLOT C1 C2 C3 C4
Es posible usar los comandos WIDTH (ANCHURA) y HEIGHT (ALTURA)

para controlar el tamao de los grficos mltiples producidos por MPLOT.
- Graficacin de datos de secuencia (TSPLOT). Minitab provee algunos

comandos para la graficacin de datos cuyo orden secuencial es importante.
Las series de tiempo son el ejemplo ms comn de este tipo de datos, si bien
cualquier otra variable puede definir el orden de la secuencia. El comando
para realizar este grfico es TSPLOT (TIME SERIES PLOT, es decir GRAFICA
DE SERIES DE TIEMPO) y se emplea con la siguiente sintaxis:
TSPLOT [perodo = K] C
Las series de tiempo a menudo tienen asociado un perodo. Por ejemplo,

si las observaciones se colectaron mensualmente, entonces el perodo es 12; si
se colectaron cada hora a lo largo del da, entonces el perodo es 24. Si se
especifica el perodo en el rengln del comando se utilizan smbolos especiales
235
en el grfico. El perodo puede ser un entero positivo hasta 36. En general la

primera observacin se representa con un 1, la segunda con un 2, etc. Si el
perodo es mayor a 10 se emplean las letras del alfabeto (A para 11, B para
12,..., Z para 36). Si el grfico de la serie de tiempo es demasiado amplio para
encajar en una sola pgina, se imprime por partes (la anchura de este grfico
es controlada por OW, y no por el comando WIDTH). La altura del grfico
producido por TSPLOT es controlada por HEIGHT (ALTURA).
Subcomandos para TSPLOT
INCREMENT = K (INCREMENTO = K)
START = K [fin = K] (INICIO = K [fin = K])
Estos subcomandos especifican la escala para el eje de las y's, y

realizan lo mismo que los subcomandos YINCREMENT y YSTART del comando
PLOT.
ORIGIN = K (ORIGEN = K)
Este subcomando especifica el valor de tiempo asociado con la primera

observacin. Por ejemplo, suponer que se tienen datos anuales empezando en
1925 y se usa ORIGIN = 1925 (ORIGEN = 1925). Entonces la primera
observacin se rotula como 1925 en el eje del tiempo, la segunda 1926, etc.
ORIGIN (ORIGEN) tambin afecta los smbolos de graficacin utilizados

con datos peridicos. Por ejemplo si los datos son observaciones mensuales
que empiezan en mayo, entonces
TSPLOT 12 C1;
ORIGIN = 5.
graficar a la primera observacin con un "5" para mayo, la segunda con un

"6" para junio, etc.
TSTART = K [fin = K] (TINICIO = K [fin = K])
Este subcomando permite graficar una parte de la secuencia. Por

ejemplo, si se utiliza TSTART = 15 (TINICIO = 15), el primer punto graficado es
la 15ava observacin. Las observaciones 1 a 14 son omitidas del grfico.
Si se emplea ORIGIN (ORIGEN) junto con TSTART (TINICIO), entonces

TSTART (TINICIO) se refiere a los valores de tiempo especificados por ORIGIN
(ORIGEN). Por ejemplo, suponer que C1 contiene datos anuales de 1921 a
1980. Entonces para graficar las observaciones de 1930 a 1950, utilizar:
236
TSPLOT C1;
ORIGIN 1921;
TSTART 1930 1950.
- Graficacin de series de tiempo mltiples (MTSPLOT). Para graficar

varias series de tiempo a la vez en el mismo eje, se utiliza el comando
MTSPLOT (MULTIPLE TIME SERIES PLOT, es decir GRAFICO DE SERIES DE
TIEMPO MULTIPLES). La primera serie se grafica con los smbolos utilizados
por TSPLOT (TSGRAFICO). Las series adicionales se representan con smbolos
especiales, indicados en la leyenda del grfico. Si ms de una serie se grafica
en el mismo espacio se imprime un signo de "+".
Como en el caso de TSPLOT, la anchura y la altura de MTSPLOT

(MTSGRAFICO) puede controlarse con los comandos OW y HEIGHT (ALTURA)
respectivamente.
Subcomandos para MTSPLOT
Los subcomandos INCREMENT (INCREMENTO), START (INICIO) Y

TSTART (TSINICIO) son los mismos que para TSPLOT (TSGRAFICO).
ORIGIN K (ORIGEN K)
ORIGIN K para C...C ,..., origen K para C...C
En la primera forma, K es el origen para todas las series. La segunda

manera permite especificar orgenes diferentes para cada serie. A las series no
mencionadas se le da un origen de 1. Suponer que C1 contiene datos de 1950
a 1980 y C2 almacena informacin de 1973 a 1984. Para graficarlas en el
mismo eje se utiliza
MTSPLOT C1 C2;
ORIGIN 1950 C1, 1973 C2.
14.4 Otros comandos bsicos importantes
Los comandos WIDTH (ANCHURA) y HEIGHT (ALTURA) permiten especificar el

tamao de los grficos con la siguiente sintaxis:
WIDTH es K espacios (ANCHURA es K espacios)

HEIGHT es K espacios (ALTURA es K espacios).
237
WIDTH especifica el nmero de espacios dentro del grfico. El grfico

total ser ms ancho debido al margen izquierdo y a la etiqueta del eje de las
y's. El valor pre-establecido de K es 57. Se permiten valores de 10 a 150. Las
escalas tienden a ser mejores si K se da en la forma 4i + 1, donde i es un
entero.
El comando WIDTH (ANCHURA) controla a los siguientes comandos

grficos BOXPLOT, PLOT, MPLOT, LPLOT, TPLOT, y GRID (y por tanto
CONTOUR). WIDTH no se aplica a TSPLOT o MTSPLOT (la anchura de estos
es controlada por OW).
El comando HEIGHT controla el nmero de lneas dentro del grfico. El

grfico completo ser ms alto, debido al eje de las x's, las etiquetas de los
ejes, los ttulos, pies de pgina y leyendas. El valor pre-establecido de K es 17,
el cual encaja adecuadamente en una pantalla estndar (24 lneas) CRT. Se
permiten valores de 5 a 400; las escalas tienden a ser mejores si K es impar.
HEIGHT controla la altura de PLOT, MPLOT, LPLOT, TPLOT, TSPLOT,

MTSPLOT, GRID, CONTOUR, pero no tiene efecto sobre DOTPLOT o BOX-
PLOT.
WIDTH y HEIGHT no afectan el tamao de los grficos de alta

resolucin; estos se establecen por el comando GOPTIONS.
Al teclear el comando OUTFILE = 'filename' (ARCHIVO DE SALIDA =

'nombrear') la sesin de Minitab (todo lo que se ve en la pantalla) se
almacenar en el archivo cuyo nombre se especifica. Esta orden permanece
activada hasta teclear NOOUTFILE (NO ARCHIVO DE SALIDA). A partir de
entonces, la salida slo se enva a la pantalla. Si se introduce de nuevo
OUTFILE, con el mismo nombre de archivo, la salida se agrega al final del
mismo. El archivo se escribe en cdigos ASCII, pudiendo ser impreso y editado
por cualquier editor o procesador de palabras. Minitab agrega la extensin LIS
al nombre del archivo.
Los subcomandos de OUTFILE son: OW = K (abreviacin de OUTFILE

WIDTH, ANCHO DEL ARCHIVO DE SALIDA = K) que establece la anchura del
archivo. Se permiten valores de 30 a 132 para K; valores de 70 a 80 son tiles
para incluir la salida en reportes. OH = K (abreviacin de OUTFILE HEIGHT,
ALTURA DEL ARCHIVO DE SALIDA = K), establece la altura de pgina del
archivo. Si se han obtenido un nmero K de lneas de salida desde la ltima
pgina, o si el siguiente bloque lgico de salida produce ms del nmero K de
lneas desde la ltima pgina, entonces se inicia una nueva. OH = 0 permite
desactivar la paginacin automtica. NOTERM (abreviacin de NO TERMINAL
en ingls y espaol) permite enviar la salida tan slo al archivo. La nica
salida que va a la terminal son los mensajes de error.
238
14.5 Comandos para el anlisis exploratorio de datos
Los mtodos del Anlisis Exploratorio de Datos son utilizados para la

prospeccin preliminar de los datos antes de usar los mtodos tradicionales o
para examinar los residuos de un modelo. Son particularmente tiles en la
identificacin de observaciones extraordinarias, y para hacer notorias
violaciones de suposiciones tradicionales (tales como no linealidad o varianza
heterognea). Los comandos del AED de Minitab (todos los incluidos a
continuacin excepto los diagramas de puntos) utilizan los programas del
libro "The ABC's of EDA" de P.F. Velleman y D.C. Hoaglin (1981). Para una
explicacin completa de estos comandos y de cmo usarlos consultar esta
obra. Para informacin sobre los diagramas de puntos consultar Chambers, et
al. (1983), Ryan, et al. (1985) y Hamilton (1990b). El siguiente resumen est
basado fundamentalmente en el captulo 14 del "Manual de Referencia de
MINITAB" (Minitab, 1989), en el "Manual de Minitab" (Ryan, et al., 1985) y en
el MINITAB Reference Manual Release 11 (Minitab Inc., 1996).
a) Diagramas de Puntos
Una forma simple de indagar la distribucin de los datos es graficar los datos
a lo largo de una lnea o eje graduado de acuerdo a la escala e intervalo de
medicin. El diagrama en su versin ms sencilla se conoce como grfico de
dispersin unidimensional. La principal virtud de este diagrama es que
muestra la informacin de manera compacta. Para lograr una mayor
definicin se utilizan como smbolos angostos como puntos o lneas para
representar a los datos (en lugar de asteriscos o signos de adicin). Sin
embargo mediante este grfica no es posible distinguir los valores con
exactamente el mismo valor. Para resolver este problema se pueden acumular
verticalmente los datos con el mismo valor en la escala del eje (Chambers, et
al., 1983). A este tipo de grficos se le conoce como "Diagramas de puntos"
en Minitab y se realiza mediante el comando "DOTPLOT" (DIAGRAMA DE
PUNTOS). A diferencia de un histograma, que agrupa los datos en unos
cuantos intervalos, un diagrama de puntos despliega los datos en intervalos lo
ms angostos posible. De manera ideal, disponiendo de gran resolucin los
valores no se agrupan en lo absoluto. Los histogramas tienden a ser ms
tiles en el anlisis de conjuntos grandes de datos, mientras que los
diagramas de punto trabajan mejor con lotes pequeos. Los diagramas de
puntos son tiles en la comparacin de dos o ms lotes de datos.
Sintaxis:
239
En el modo de grficas estndar se tiene lo siguiente:
DOTPLOT C,...,C
Realiza un diagrama de puntos para cada columna. Las observaciones
situados en el lmite de intervalos se colocan en el inferior (valores pequeos).
El comando WIDTH (AMPLITUD) controla la anchura de los Diagramas de
Puntos. Se puede especificar la escala con los subcomandos
INCREMENT (INCREMENTO) y START (INICIO).

INCREMENT = K
Especifica la distancia entre las marcas que sealan los intervalos (signos +)
en el eje graduado. Puesto que existen 10 espacios entre estas marcas, la
amplitud de cada espacio ser de K/10.
START en K [fin en K]
Especifica la posicin de la primera y opcionalmente la ltima marca en el eje.

Cualquiera de los valores no incluido dentro del intervalo especificado se
omite del desplegado.
Ejemplo:
DOTPLOT C1
. : .: : : .
. : . ::::.. .: ::..::::.:: : ::. : :. : ..
+---------+---------+---------+---------+---------+-------snow
20 40 60 80 100 120
En el modo de grficas de alta definicin:
GPRO
DOTPLOT C1
240
Dotplot of snow
28 42 56 70 84 98 112 126
snow
b) Diagramas de Tallo y Hoja
Un diagrama de tallo y hoja es semejante al tradicional histograma. En

Minitab este diagrama utiliza los valores de los datos para crear el desplegado,
mientras que sus histogramas hacen uso de asteriscos. El diagrama de tallo y
hoja es una tcnica relativamente nueva que fue introducida por el estadstico
John Tukey a fines de los sesentas. Esta diseado primordialmente para
datos de intervalo (variables continuas), aunque puede utilizarse con
cualquier conjunto de nmeros.
Los diagramas de tallo y hoja de Minitab contienen una columna de

profundidades, indicacin de la escala y hojas ordenadas. El nmero de lneas
por tallo es siempre 1, 2 o 5 dependiendo del intervalo de los datos y del
nmero de valores presente. Cuando los nmeros contienen ms de dos
dgitos, el comando STEM-AND-LEAF (TALLO Y HOJA) no considera a los
dgitos que no se ajustan. Por ejemplo, el nmero 927 puede dividirse en un
tallo = 9, una hoja = 2 y eliminarse al 7.
Los puntos decimales no se usan en los diagramas de tallo y hoja. Por

tanto, los nmeros 260, 26, 2.6 y 0.26 podran dividirse en un tallo = 2 y hoja
= 6. El encabezado LEAF UNIT (UNIDAD DE HOJA) especifica donde est
241
colocado el punto decimal: para el nmero 260, la unidad de hoja = 10; para
26, LEAF UNIT = 1; para 2.6 LEAF UNIT = .1; y para 0.26, LEAF UNIT = .01.
El comando STEM-AND-LEAF (TALLO Y HOJA) tiene un subcomando,

INCREMENT (INCREMENTO), el cual permite controlar la escala del
desplegado.
Sintaxis:
STEM-AND-LEAF OF C,...,C
Imprime un diagrama de tallo y hoja para cada columna.
TRIM (RECORTAR) descarta los casos extraordinarios, es decir aquellos

situados ms all de los valores lmite internos (ver comando BOXPLOT,
DIAGRAMA DE CAJA) y los muestra en lneas especiales rotuladas como LO
de LOW, BAJO y HI de HIGH, ALTO.
INCREMENT = K especifica la distancia de un tallo a otro. El incremento debe

ser 1, 2 o 5 con quizs algunos ceros significativos. Por tanto, ejemplos de
incrementos posibles son 1, 2, 5, 10, 20, 50, 100, 200,
500, .1, .2, .5, .01, .02, .05.
BY C produce un desplegado separado para cada valor de C. Todos los

diagramas para una columna se colocan en la misma escala. La columna C
debe contener enteros de -10,000 a +10,000 o el cdigo * para valores
faltantes.
c) Estadgrafos Bsicos
A menudo se quiere resumir una caracterstica importante de un conjunto de

datos por medio de un slo nmero. Por ejemplo, es posible querer utilizar a
la media para indicar el centro o nivel tpico de los datos. Se puede emplear al
recorrido, es decir el valor mayor menos el menor, para indicar que tan
dispersos estn los datos.
Para esto es til el comando DESCRIBE (DESCRIBIR), el cual imprime

los siguientes estadgrafos:
N, el nmero de observaciones.
NMISS da el nmero de valores registrados como "faltantes".
MEAN (MEDIA), o sea la media aritmtica, la medida ms comn del centro de
un conjunto de datos.
242
MEDIAN (MEDIANA), el valor situado a la mitad de la secuencia de valores

ordenados de los datos. La mediana es otro valor utilizado para indicar donde
se encuentra el centro de los datos.
TRMEAN (TRIMMED MEAN, o sea MEDIA RECORTADA), que proporciona una
media recortada 5 %. Para determinarla, los datos se ordenan y
posteriormente se descartan el 5 % de los valores menores y el 5 % de los
valores mayores, promediando el restante 90 %.
STDED (STANDARD DEVIATION, es decir DESVIACION TIPICA), la medida de
dispersin ms comn.
SEMEAN (STANDARD ERROR OF THE MEAN, ERROR ESTANDAR
DE LA MEDIA), que proporciona el error estndar de la media,
STDEV/RAIZ
CUADRADA DE N.
MIN el valor mnimo.
MAX el valor mximo.
Q1, el primer cuartil (cuartil inferior).
Q3, el tercer cuartil (cuartil superior).
La mediana es el segundo cuartil, Q2. Los tres nmeros Q1, Q2 y Q3

dividen a los datos en cuatro partes esencialmente iguales.
Sintaxis:
DESCRIBE C,...,C
Imprime los siguientes estadsticos para cada columna.
N Nmero de valores en la columna.

NMISS Nmero de valores faltantes. Se omite si no existen.
MEAN Media aritmtica.
MEDIAN Mediana
TRMEAN Media recortada.
STDEV Desviacin tpica.
SEMEAN Error estndar de la media.
MAX Valor mximo.
MIN Valor mnimo.
Q3 Tercer cuartil.
Q1 Primer cuartil.
d) Resmenes de Letras
Para fines exploratorios en ocasiones es conveniente el uso de resmenes

basados en la ordenacin y conteo de los datos. Entre otros mritos tales
resmenes pueden ser resistentes. La media y la varianza de la muestra no se
243
comportan de esta manera y un slo valor extraordinario tiene efectos

adversos considerables en ambos estadsticos.
Minitab realiza este tipo de resmenes, con la posibilidad de almacenar

los valores de las letras, los valores centrales y los valores de dispersin.
Los resmenes de letras utilizan valores definidos por su "profundidad".

Utilizando n para indicar el nmero de observaciones y [x] para el entero ms
grande menor o igual que x, se tienen las siguientes expresiones:
profundidad de la mediana p(M) = (n + 1)/2

profundidad de los cuartos p(H) = ([p(M)] + 1)/2
profundidad de los octavos p(E) = ([p(H)] + 1)/2
profundidad de los 1/16vos p(D) = ([p(E)] + 1)/2
Las profundidades restantes se encuentran continuando con este patrn. Se

rotulan como C, B, A, Z, Y, X,... .
Para encontrar los valores de las letras, primero se ordenan los datos.
El cuarto inferior (simbolizado por H del ingls Hinge = doblez y que
representa a los valores situados a la mitad de cada una de las partes
definidas por la mediana, es decir a los "Cuartos" o "F", del ingls "Fourths" en
notacin ms reciente) es la observacin que se encuentra a una distancia p(H)
de la observacin mnima; el cuarto superior es la observacin a una distancia
p(H) de la observacin mxima. De manera semejante, los octavos inferior y
superior son las observaciones con una profundidad p(E). El valor central
para una profundidad dada es el promedio de los valores de letras superior e
inferior a esa profundidad. La dispersin se define como valor superior - valor
inferior.
Cuando se almacenan los valores del resumen de letras, la columna

contendr todos los nmeros listados bajo la columna LOWER (INFERIOR)
(desde abajo hasta arriba), la mediana y los nmeros listados bajo el
encabezado UPPER (SUPERIOR) (desde arriba y hasta abajo).
Sintaxis
LVALS C [pone las letras en C [centrales en C [dispersiones en C]]]
e) Diagramas de Caja
Los diagramas de caja despliegan las caractersticas principales de un lote de

datos y permiten comparaciones simples de varios lotes. En Minitab, los
diagramas de caja en su versin de baja resolucin se construyen empleando
244
smbolos tipogrficos. La mediana se marca con un signo "+". La "I" a la

izquierda es el cuarto inferior (HL del ingls Hinge y Lower, inferior), y la "I" a
la derecha es el Cuarto superior (HU del ingls Hinge y Upper, superior).
Notar que HL esencialmente equivale al primer cuartil y HU al tercero. Por lo
tanto la "caja" representa la mitad central de los datos. Esta es la
nomenclatura utilizada por Tukey (1977) y Velleman y Hoaglin (1981). En
obras ms recientes (Hoaglin et al., 1983 y 1985) se emplea la descrita en esta
obra.
La extensin de los datos y la localizacin de observaciones

extraordinarias se indican con smbolos especiales. Para aclarar esto se
incluyen las siguientes definiciones:
cotas interiores: HL - 1.5 (HU HL ) y HU + 1.5 (HU HL )
cotas exteriores: HL - 3 (HU HL ) y HU + 3 (HU HL )
valores adyacentes: las dos observaciones ms extremas que se encuentran

dentro de las cotas interiores.
"Bigotes" de lneas punteadas van de las I's de los cuartos hasta los valores
adyacentes. Los valores localizados entre las cotas interiores y exteriores son
casos extraordinarios y se representan con una 0.
Notas:
1) Minitab emplea un sistema de prioridad para determinar que

smbolos se muestran. Si la mediana y una "muesca" se localizan en el mismo
espacio, la muesca no se muestra. De manera semejante, si la mediana y un
cuarto quedan en el mismo lugar, el cuarto no se muestra.
2) Los cuartos se definen por el comando LVAL.
3) Se pueden disponer diagramas de caja de diferentes variables en la
misma escala. Para esto se utiliza el comando STACK (APILAR) con el
subcomando SUBSCRIPTS (SUBINDICES) para apilar las variables una
encima de otra. Posteriormente utilizar BOXPLOT (DIAGRAMA DE CAJA)
junto con BY (POR).
Subcomandos para los Diagramas de Caja
INCREMENT = K
START = K [fin = K]
245
Estos subcomandos especifican la escala del eje. INCREMENT

(INCREMENTO) es la distancia entre las marcas (signos +) en el eje. START
(INICIO) especifica la situacin de la primera y opcionalmente la ltima marca
en el eje. Cualquier punto situado fuera de estos valores se descarta del
grfico.
BY C (POR C)
Se imprime un diagrama de caja para cada nivel de C, todos en una escala
comn. Los niveles deben ser enteros entre - 10,000 y + 10,000 o valores
faltantes. Se permiten hasta 100 niveles distintos.
LINES = K (LINEAS = K)
Normalmente se utilizan tres lneas para mostrar cada diagrama de caja. Se
puede condensar este diagrama haciendo que K sea igual a 1.
NOTCH [K%] (intervalo de confianza de signo) (MUESCA [K%])

Despliega un intervalo de confianza de signo para la mediana de cada
diagrama de caja. Los lmites se indican con parntesis (muescas). La
confianza pre-establecida es del 90 %. Se utiliza un mtodo de interpolacin
no lineal para calcular el intervalo de confianza. Dos niveles cuyos intervalos
no se traslapan son diferentes significativamente a un nivel aproximado del
5 %. Esto es, un nivel individual del 5 %; no se permiten comparaciones
mltiples.
LEVELS K...K (NIVELES K...K)

LEVELS (NIVELES) es utilizado con BY (POR). Especifica que niveles sern
utilizados y en qu orden. Se puede utilizar para re-arreglar a los grupos,
obtener diagramas de caja para slo algunos grupos incluir diagramas de
caja para grupos que no estn en la muestra (vacos).
Sintaxis:
BOXPLOT C
INCREMENT = K
START = K
BY C
LINES = K
NOTCH [K%] (intervalo de confianza de signo)
LEVELS K...K
Minitab contiene diagramas de caja de alta resolucin. Para utilizarlos

es necesario estar en el modo de alta resolucin dando el comando GPRO. El
comando para obtenerlos es el mismo BOXPLOT (GDIAGRAMA DE CAJA),
pero con los subcomandos propios de los grficos de alta resolucin. Por
ejemplo, para dibujar un diagrama de caja y bigotes con muesca se
teclea:
246
BOXPLOT C1;
IQRBOX;
CIBOX.
Sintaxis:
BOXPLOT CC Despliega un diagrama por cada C
BOXPLOT (CC)*C Despliega una grfica separada por cada C a la

izquierda con una caja por cada categora de la C a la derecha.
f) Lnea Resistente
Minitab contiene el procedimiento "de los tres grupos" de Tukey, que ajusta
una lnea recta resistente a los casos extraordinarios. Se requieren por lo
menos seis (preferentemente nueve o ms) observaciones para su
funcionamiento.
Primeramente los datos se parten en tres grupos; datos con valores

bajos, centrales y altos de x. La lnea resistente es aqulla que iguala la
mediana de los residuos del grupo izquierdo (valores bajos de x) con la
mediana residual del grupo derecho (valores altos de x).
El comando RLINE (RLINEA, o sea LINEA RESISTENTE) realiza un

mtodo iterativo para encontrar esta solucin. Por lo general son necesarias
menos de 10 iteraciones (el nmero pre-establecido) para alcanzar la solucin,
pero para algunos datos puede que no ocurra convergencia. Lo anterior es
especialmente probable si los datos contienen valores extraordinarios de x. Si
se utiliza el comando BRIEF 4, se imprime la pendiente para cada iteracin.
Subcomandos para RLINE
MAXITERATIONS = K
Especifica el nmero mximo de iteraciones. El pre-establecido es 10.
Notar que RLINE se detendr antes de las K iteraciones si el valor de la
pendiente no vara significativamente.
Sintaxis:
RLINE y en C, x en C [poner residuos C [ajuste en C [intercepto en C]]]

MAXITERATIONS = K (MAXITERACIONES = K)
247
g) Suavizacin no Lineal Resistente
El comando RSMOOTH (abreviacin de SUAVIZADOR RESISTENTE) de

Minitab permite el empleo de dos procedimientos de suavizacin no lineal
resistente: el pre-establecido es el suavizador compuesto 4253EH,doble; el
subcomando proporciona el suavizador compuesto 3RSSH,doble. Es posible
tener valores faltantes (*'s) al principio al final de la secuencia, pero no a la
mitad. Se requieren al menos siete observaciones. Los valores rugosos se
determinan por la diferencia de cada valor observado menos el valor suave
correspondiente: rugoso = dato - suave.
Estos suavizadores se construyen mediante la aplicacin sucesiva de

suavizadores simples, tales como medianas corredizas y el "hanning". Las
medianas corredizas reemplazan cada observacin por la mediana de las
observaciones inmediatamente antes y despus de ella. RSMOOTH (RSUAVE)
emplea medianas de 2,4, 3 y 5 observaciones consecutivas. El "hanning"
reemplaza los valores por un promedio ponderado de amplitud 3 con pesos
igual a 1/4, 1/2 y 1/4. Se utiliza un procedimiento especial para suavizar los
valores terminales (inicial y final) de la secuencia.
El suavizador pre-establecido, llamado 4253EH,doble consiste en la

aplicacin sucesiva de medianas corredizas de amplitud 4, 2, 3 y 5, seguida
por el ajuste de los valores terminales y posteriormente el hanning.
Posteriormente se determinan los residuos (o valores rugosos) y se suavizan
de la misma forma. Los residuos suavizados se adicionan a los valores
suavizados previos para producir los valores suavizados finales.
Subcomandos para RSMOOTH
SMOOTH 3RSSH, doble

Este mtodo est compuesto por tres suavizadores: 3R, seguido de SS y H. El
suavizador 3R se refiere a la aplicacin repetida de medianas corredizas de
longitud 3 hasta que no ocurran cambios en la secuencia suavizada. Las S's
se refieren al trmino en ingls "Split" que significa "partir" y que definen un
procedimiento especial para remover porciones "planas" que aparecen a
menudo por la aplicacin de 3R. La H representa al Hanning.
Sintaxis:
RSMOOTH C, poner rugosos en C, suaves en C

SMOOTH 3RSSH, doble
248
h) Tablas Codificadas
El comando CTABLE (CTABLA, de TABLA CODIFICADA), imprime una tabla

de dos vas en forma codificada. Este procedimiento a menudo se utiliza para
examinar los residuos de MPOLISH (MPULIDO) TWOWAY (DOSVIAS,
anlisis de varianza).
Los niveles deben ser enteros consecutivos empezando con 1. Por lo

general, CTABLE no acepta columnas con valores faltantes. Para remover
stos se pueden utilizar los comandos COPY (COPIAR) DELETE (BORRAR).
En una tabla codificada cada celda contiene un cdigo de un caracter.

Si existe slo una observacin por celda, el cdigo est basado en los datos. Si
las celdas contienen ms de una observacin, se escoge la caracterstica a
codificar: el valor mximo en cada celda (por medio del subcomando
MAXIMUM), el valor mnimo (subcomando MINIMUM) o el valor extremo (pre-
establecido). El valor extremo en una celda es el valor ms grande del valor
absoluto del valor mximo y el valor absoluto del valor mnimo.
En la parte referente al comando BOXPLOT (DIAGRAMA DE CAJA) se

definen los trminos utilizados a continuacin. Los nmeros entre los dos
cuartos se codifican con un punto ".", los nmeros ms all de los cuartos
pero dentro de las cotas interiores se codifican con signos de menos "-" ms
"+", los nmeros entre las cotas interiores y exteriores se codifican con
asteriscos "*" el smbolo de nmero "#", y los nmeros situados ms all de
las cotas exteriores se simbolizan con "M" y "P".
Sintaxis
CTABLE C, utilizando niveles de fila en C y niveles de columna en C

MAXIMUM se codifica el valor mximo de cada celda
MINIMUM se codifica el valor mnimo de cada celda
249
i) Pulido de Mediana
El comando MPOLISH (MPULIDO, de PULIDO DE MEDIANA) utiliza el pulido

de mediana para ajustar un modelo aditivo a un arreglo de dos vas. Este
procedimiento es semejante al anlisis de varianza excepto que utiliza
medianas en lugar de medias.
La tabla puede no ser balanceada y tener celdas vacas. No produce

ninguna salida. Se requiere utilizar el comando TABLE para desplegar los
datos, residuos o valores ajustados. Los niveles de fila y columna deben ser
enteros consecutivos empezando en 1. El comando MPOLISH no acepta
columnas con valores faltantes. Utilizar COPY (COPIAR) DELETE (BORRAR)
para remover cualquier asterisco "*".
MPOLISH utiliza un algoritmo iterativo. En el primer paso encuentra la

mediana de cada fila de la tabla, la substrae de los nmeros en las filas
correspondientes y las utiliza como valores preliminares para los efectos de
fila. Esto proporciona una columna de medianas de fila y una tabla nueva en
la cual las medianas de fila se han restado. En la segunda iteracin, se
determina la mediana de cada columna en esta tabla nueva, se substrae de
los nmeros en las columnas y se utiliza como valor preliminar para los
efectos de columna. Adicionalmente encuentra la mediana de los efectos de
fila, los substrae de cada efecto de fila y los utiliza como valor comn
preliminar.
El procedimiento regresa a las filas. Esta vez cuando encuentra las

medianas de fila, tambin determina la mediana de los efectos de columna
preliminares, los resta de los efectos de fila y los adiciona al valor comn. Este
procedimiento contina, trabajando en filas y columnas alternadamente. El
total de iteraciones pre-establecido es de cuatro. Despus de la ltima
iteracin, la fila de efectos de columna es corregida por ella misma: al valor de
cada efecto de columna se le resta la mediana de esa fila y se adiciona al valor
comn.
Los nmeros que quedan en la tabla son los residuos. Los mrgenes de
la tabla contienen al valor comn y los efectos de fila y columna. El valor
ajustado para la fila i, columna j es igual al valor comn + (efecto de fila i) +
(efecto de columna j). Como en el anlisis de varianza, dato = ajuste + residuo.
Subcomandos para MPOLISH
COLUMNS primero
La primera iteracin empieza con la mediana de filas de manera pre-
establecida. Este subcomando permite empezar con las medianas de columna.
250
El empezar con filas o columnas no conduce necesariamente al mismo ajuste

final, an cuando se realicen un gran nmero de iteraciones.
ITERATIONS = K (ITERACIONES = K)
Permite especificar el nmero de iteraciones. El nmero pre-establecido es de
4.
EFFECTS poner comn en K, de fila en C, de columna en C
Almacena los efectos y el valor comn.
COMPARISONS ponerlos en C
El valor de comparacin para una observacin de la fila i y la columna j es:
Los valores de comparacin son auxiliares en la eleccin de una

transformacin apropiada de los datos. Para ello se grafica cada residuo con
su valor de comparacin. Se ajusta una lnea recta (utilizando el comando
RLINE (RLINEA, LINEA RESISTENTE) a estos pares de datos y se observa el
valor de la pendiente. Si se considera que p (de potencia) = 1 - (pendiente),
entonces si p = 1 (es decir que la lnea ajustada a los residuos con valores de
comparacin es horizontal con pendiente igual a cero), ninguna
transformacin mejorar el modelo. Si p = 1/2, los valores de raz cuadrada de
los datos se ajustarn mejor al modelo aditivo (y por tanto se analizarn mejor
por el pulido de mediana). Si p = 0, el logaritmo de los valores mejorar la
aditividad. Si p se encuentra entre 0 y 1, entonces los valores elevados a la
potencia p sern ms aditivos. Este mtodo est basado en el procedimiento
de Tukey para no aditividad con un grado de libertad.
Sintaxis:
MPOLISH C, filas en C, columnas en C [poner residuos en C [ajustes en C]

COLUMNS columnas primero
ITERATIONS = K
EFFECTS poner comn en K, de fila en C, de columna en C
COMPARISONS ponerlos en C
Como se mencion anteriormente para visualizar el resultado de este

procedimiento es necesario utilizar el comando TABLE (TABLA). La sintaxis de
este comando es:
TABLE los datos clasificados por C...C

Las columnas requeridas deben contener los subndices para fila y columna
respectivamente. Para este comando existen varios subcomandos, pero el
necesario para emplearlo en el pulido de mediana es DATA (DATOS) cuya
sintaxis es:
DATA para C...C
251
que imprime una lista para todos los datos en cada celda. En este caso se
puede utilizar para visualizar los residuos, los valores ajustados. Tambin
pueden observarse todos los resultados mediante la orden PRINT, aunque no
en forma tabular, sino por columna.
252
Bibliografa
Andrews, D.F. y A.M. Herzberg, 1985. Data. A Collection of Problems from Many
Fields for the Student and Research Worker. Springer-Verlag, Nueva York.
442 p.
Ayres, F. Jr. 1969. Matrices. Teora y 340 Problemas Resueltos. Serie Schaum,
McGraw-Hill. Mxico. 219 p.
Baras, E.M., 1987. Lotus 1-2-3. Gua del Usuario. 2a. ed. McGraw-Hill de Mxico,
S.A. de C.V. Mxico, 378 p.
Beaton, A.E. y J.W. Tukey, 1974. The Fitting of Power Series, Meaning
Polinomials, Illustrated on Band-Spectroscopic Data, Technometrics, 16:
147-185.
Beniger, J.R. y D.L. Robyn, 1978. Quantitative Graphics in Statistics: A Brief

History. The America Statistician, 32(1): 1-11.
Bhattacharya, C.G. 1967. A Simple Method of Resolution of a Distribution into

Gaussian Components. Biometrics 23: 115-135.
Cassie, R.M., 1954. Some Uses of Probability Paper for the Graphical Analysis of
Polymodal Frequency Distributions. Aust. J. Mar. Freshw. Res. 5: 513-522.
Chambers, J.M., W.S. Cleveland, B. Kleiner y P.A. Tukey, 1983. Graphical

Methods for Data Analysis, Wadsworth & Brooks/Cole Pub. Company,
Pacific Grove, p. 1-46; 26-29; 129-190.
Computing Resource Center, 1990b. Tukey's Two-Way Analysis. The Stata News
6 (4): 1-2.
Computing Resource Center, 1991. Stem-and-Leaf Plots. The Stata News 7 (1): 3.
Curts, J.B., 1986. El Diagrama de Tallo y Hoja. Biologa, 15 (1-4): 7-12.
Curts, J.B., L. Alcntara y X. Chiappa, 1987. Introduccin al Anlisis

Exploratorio de Datos Multidimensionales. Ciencias, No. 11: 30-35.
Davis, J.C., 1973. Statistics and Data Analysis in Geology, John Wiley & Sons,
Nueva York, 550 p.
Deleon, R.E. y J.T. Anagnoson, 1991. Stata and the Four R's of EDA. Stata
Technical Bulletin 1: 13-17.
253
Devore, J. y R. Peck, 1986. Statistics. The Exploration and Analysis of Data. West
Publishing Co. St. Paul, 594-599.
Emerson, J.D. y D.C. Hoaglin, 1983a. Stem-and-leaf displays. In: Hoaglin, D.C.,
F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data
Analysis, John Wiley & Sons, Nueva York, p. 7-32.
Emerson, J.D. y D.C. Hoaglin, 1983b. Resistant Lines for y versus x. In: Hoaglin,
D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory
Data Analysis, John Wiley & Sons, Nueva York, p. 129-165.
Emerson, J.D. y D.C. Hoaglin, 1983c. Analysis of Two-Way Tables by Medians. In:
Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and
Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 166-210.
Emerson, J.D. y M.A. Stoto, 1983. Transforming Data. In: Hoaglin, D.C., F.
Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data
Analysis, John Wiley & Sons, Nueva York, p. 97-128.
Emerson, J.D. y J. Strenio, 1983. Boxplots and Batch Comparison. In: Hoaglin,
Emerson, J.D. y G.Y. Wong, 1985. Resistant nonadditive fits for two-way tables.
In: Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Exploring Data Tables,
Trends and Shapes, John Wiley & Sons, Nueva York, p. 67-124.
Findley, T., 1991. Variable Transformation and Evaluation. Stata Technical

Bulletin 2: 15.
Fox, J. 1990. Describing univariate distributions. In: Modern Methods of Data

Analysis, eds. J. Fox y J.S. Long, 58-125. Newbury Park, CA: Sage
publications.
Fowler, J., L. Cohen y P. Jarvis, 1998. Practical Statistics for Field Biology. 2a ed.
John Wiley & Sons. West Sussex, RU. 259 p.
Gayanilo, F.C.Jr.; Sparre, P.; Pauly, D. 2005. FAO-ICLARM Stock Assessment

Tools II (FiSAT II). Revised version. User's guide. FAO Computerized
Information Series (Fisheries). No. 8, Revised version. Rome, FAO. 2005. 168
p. (Includes a CD-ROM with the software)
Geiger, P., 1991. Enhancing Visual Display Using Stem and Leaf. Stata Technical
Bulletin 1: 8-9.
254
Goodall, C. 1990. A survey of smoothing techniques. In: Modern Methods of Data
Analysis, eds. J. Fox y J.S. Long, 58-125. Newbury Park, CA: Sage
publications.
Gotelli, N.J. y A.M. Ellison, 2004. A Primer of Ecological Statistics. Sunderland,

EUA: 510 p.
Gottfried, B.S., 1986. Programacin en Pascal. McGraw-Hill, Mxico, p. 185-229.
Gould, W., 1991. Skewness and Kurtosis Tests of Normality. Stata Technical
Bulletin 1: 20-21.
Gould, W. y J. Hilbe, 1991. Ladder-of-Powers Variable Transformation. Stata

Technical Bulletin 2: 14-15.
Hald, A., 1990. A History of Probability and Statistics and Their Application
Before 1750. John Wiley, Nueva York.
Hamilton, L.C., 1990a. Modern Data Analysis. A First Course in Applied Statistics.
Brooks/Cole Pub. Co. Pacific Grove, 684 p.
Hamilton, L.C. 1990b. Statistics with Stata . Brooks/Cole Pub. Company, Pacific
Grove: 55-57.
Hrdle, W. 1991. Smoothing Techniques. With Implementations in S. Springer-

Verlag. Nueva York
Hartwig, F. y B.E. Dearing, 1979. Exploratory Data Analysis, Sage, Beverly Hills,
p. 9-31.
Hintze, J. L. y R. D. Nelson (1998). "Violin plots: a box plot-density trace

synergism. The American Statistician, 52(2):181-4.
Hoaglin, D.C., 1977. Direct Approximations for Chi-Squared Percentage Points.

Journal of the American Statistical Association, 72: 508-515.
Hoaglin, D.C., 1983. Letter Values: a Set of Selected Order Statistics. In: Hoaglin,
Hoaglin, D.C., F. Mosteller y J.W. Tukey, 1983. Understanding Robust and

Exploratory Data Analysis, John Wiley & Sons, Inc. Nueva York.
Hoaglin, D.C., F. Mosteller y J.W. Tukey, 1985. Exploring Data Tables, Trends
and Shapes, John Wiley & Sons, Inc. Nueva York.
255
Hoenig, J.M., J. Csirke, M.J. Sanders, A. Abella, M.G. Andreoli, D. Levi, S
Ragonese, M. Al-Shoushani y M.M. El-Musa, 1987. Data adquisition for
length-based stock assessment: report of writing group I, p. 343-352. In: D.
Pauly y G.R. Morgan (eds.) Length-based methods in fisheries research.
ICLARM Conference Proceedings 13, 468 p. International Center for Living
Aquatic Resources Management, Manila, Filipinas y Kuwait Institute for
Scientific Research, Safat, Kuwait.
Hotelling, H. 1931. The generalization of Students ratio. Annals of Mathematical

Statistics, 2: 360-378.
Iglewicz, B., 1983. Robust Scale Estimators and Confidence Intervals for
Locations. In: Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding
Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p.
404-431.
Lagler, K.F., 1978. Freshwater Fishery Biology. Wm. C. Co. Pub., Iowa, p. 159-
166.
Lozano-Cabo, F., 1983. Oceanografa, Biologa Marina y Pesca. Tomo I, Paraninfo,

Madrid, p. 434-436.
Marques Dos Santos, M.J. 1993. Introduccin a las Matrices con Aplicaciones.
Facultad de Estudios Superiores Zaragoza, Mxico, D.F., Mxico: 26 p.
Marques Dos Santos, M.J. 2001. Estadstica Bsica. Un Enfoque no Paramtrico.

F.E.S. Zaragoza, U.N.A.M. Mxico, 171 p.
Marques Dos Santos, M.J. 2004. Probabilidad y Estadstica para Ciencias

Qumico Biolgicas. F.E.S. Zaragoza, U.N.A.M. Mxico, 626 p.
Marques Dos Santos, M.J., T. Guerra Dvila y A. Barajas Chavarra, 2000.

Coleccin de Problemas y Ejercicios de Bioestadstica. F.E.S. Zaragoza,
U.N.A.M. Mxico, 130 p.
Marsh, C., 1988. Exploring Data. An Introduction to Data Analysis for Social
Scientists. Polity Press, Cambridge, Reino Unido, 385 p.
Microsoft Corporation, 1998. Visual Basic Versin 6.0. Manual del Programador.
Microsoft Corporation, EUA.
Miller, G.A., 1956. The Magical Number Seven, Plus or Minus Two: Some Limits
on Our Capacity for Processing Information. Psychological Review 63: 81-97.
Minitab, 1991. MINITAB Reference Manual. Release 8. Quickset Inc. Rosemont,

PA.
256
Minitab, 1995. MINITAB Reference Manual. Release 10. Minitab, Inc. State
College.
Minitab Inc. 1996. Letter Values. Minitab Reference Manual, Release 11. Minitab
Inc. State College: 8-2 8-3.
Morrison, D.F. 1984. Multivariate Statistical Methods. 2a. ed. McGraw-Hill

International Book Company, Singapur: 415 p.
Open University, 1983. Statistics in Society. Curso MDST 242, 16 volmenes,

Milton Keynes: Open University Press: p. xix; 188.
Quinn, G.P. y M.J. Keough, 2002. Experimental Design and Data Analysis for
Biologists. Cambridge University Press, Cambridge, R.U. 537 p.
Rosenblatt, M. 1956. Remarks on some nonparametric estimates of a density

function. Ann. Math. Statist. 27: 832-837.
Ryan, B.F., B.L. Joiner y T.A. Ryan, Jr., 1985. Minitab Handbook. 2a. ed. PWS
Publishers, Boston. 386 p.
Salgado-Ugarte, I.H., 1985. Algunos Aspectos Biolgicos del Bagre Arius

melanopus Gnther (Osteichthyes: Ariidae) en el Sistema Lagunar de
Tampamachoco, Veracruz. Tesis de licenciatura, E.N.E.P. Zaragoza, U.N.A.M.
Mxico, 108 p. 21 figuras, 20 tablas y un cuadro.
Salgado-Ugarte, I.H., 1990. Exploratory Analysis of the Asymmetric Otoliths of

Stone Flounder Kareius bicoloratus in Tokio Bay. Reporte final sobre el
entrenamiento tcnico desarrollado en el Departamento de Pesqueras,
Facultad de Agricultura de la Universidad de Tokio, Tokio, Japn, 23 p. 15
tablas, 15 figuras.
Salgado-Ugarte, I.H., 1991. Exploratory Analysis of Some Measures of the

Asymmetric Otoliths of Stone Flounder Kareius bicoloratus (Pisces:
Pleuronectidae) in Tokyo Bay. Anales del Instituto de Ciencias del Mar y
Limnologa U.N.A.M. 18(2): 261-278.
Salgado-Ugarte, I.H., 1992. El Anlisis Exploratorio de Datos Biolgicos.

Fundamentos y Aplicaciones. Marc Ediciones y E.N.E.P. Zaragoza U.N.A.M.
Mxico. 243 p.
Salgado-Ugarte, I.H., 1995. Nonparametric Methods for Fisheries Data Anlisis

and their Application in Conjunction with other Statistical Techniques to
Study Biological Data of the Japanese Sea Bass Lateolabrax japonicus in
Tokyo Bay. Tesis de doctorado. Tokio, Japn. 389 p.
257
Salgado-Ugarte, I.H., 2002. Suavizacin No Paramtrica para Anlisis de Datos.
F.E.S. Zaragoza U.N.A.M. 139 p.
Salgado-Ugarte, I.H. y M.A. Prez-Hernndez, 2003. Exploring the use of variable

bandwidth kernel density estimators. The Stata Journal, 3(2): 133-147.
Satterthwaite, F.E., 1946. An approximate distribution of estimates of variante

components. Biometrics Bulletin 2: 110-114.
Scott, D.W. 1992. Multivariate Density Estimation: Theory, Practice, and

Visualization. John Wiley & Sons, Nueva York.
Siegel, A.F., 1988. Statistics and Data Analysis. An Introduction. John Wiley &
Sons, Singapur, 518 p.
Simonoff, J.S. 1996. Smoothing Methods in Statistics. Springer, Nueva York.
Sokal, R.R. y F.J. Rohlf, 1981. Biometry. The Principles and Practice of Statistics
in Biological Research. 2nd. ed. W.H. Freeman and Company, Nueva York,
859 p.
StataCorp, 2003. Stata Statistical Software; Release 8.0. College Station, E.U.A.
Stata Corporation.
StataCorp, 2009. Stata: Release 11. Statistical Software. College Station, E.U.A.
StataCorp LP.
Statistical Graphics Corporation, 1986. STATGRAPHICS Reference Guide. Version

2.1. STSC Inc. E.U.A., 13-1 a 13-19.
Stine, R.A., 1980. An Exploratory Data Analysis Package. The American

Statistician, 34(3): 187-188.
Sturges, H.A. 1926. The choice of a class interval. Journal of the American
Statistical Association, 21: 65-66.
Tarter, M.E. y R.A. Kronmal 1976. An introduction to the implementation and

theory of nonparametric density estimation. The American Statistician, 30:
105-112.
Terrell, G.R., 1990. The maximal smoothing principle in density estimation.

Journal of the American Statistical Association, 85(410): 470-477.
Terrell, G.R. and D.W. Scott, 1985. Oversmoothed nonparametric density

estimates. Journal of the American Statistical Association, 80(389): 209-214.
258
Tukey, J.W., 1970. Exploratory Data Analysis (edicin preliminar limitada), Vol. 1,
Addison-Wesley, Reading.
Tukey, J.W. 1971. Exploratory Data Analysis (edicin preliminar limitada),

University Microfilms, Ann Arbor.
Tukey, J.W., 1972. Some Graphic and Semigraphic Displays. In: Bancroft, T.A.
(Ed.) Statististical Papers in Honor of George W. Snedecor. Iowa State
University Press, Ames.
Tukey, J.W. 1977. Exploratory Data Analysis. Addison-Wesley, Reading.
Velleman P.F., 1976. Interactive computing for exploratory data analysis I:

display algorithms. 1975 Proceedings of the Statistical Computing Section.
Washington DC: American Statistical Association.
Velleman P.F. y D.C. Hoaglin, 1981. Applications, Basics, and Computing of

Exploratory Data Analysis, Duxbury Press, p. 41-63.
Wallonick, D.S., 1987. The EXPLORATORY ANALYSIS Program. Stat-Packets

Statistical Analysis Package for Lotus Worksheets. Version 1.0, Minneapolis,
39 p.
Weisberg, S., 1985. Applied Linear Regression. John Wiley, Nueva York, tabla 9.1,
p. 213.
Welch, B.L., 1947. The generalization of Students problem when several different
population variances are involved. Biometrika 34: 28-35.
259
Apndice 1. Comandos de Stata
En este apndice se incluyen los comandos del programa Stata para
obtener algunos de los resultados numricos y grficos de los captulos
especificados. Basta con teclear las rdenes dentro del programa para
obtener los resultados deseados. Es requisito tener instalados los archivos
con los datos y programas necesarios. Los mismos estn disponibles en la
pgina de Internet de Stata (http:/www.stata.com) en el apartado
correspondiente al Stata Technical Bulletin y en The Stata Journal. Los
programas (archivos con extensin ado) y los datos (archivos con
extensin dta) deben instalarse apropiadamente. Estos archivos estn
tambin en el CD acompaante de la presente obra.
Se utiliza una fuente de ancho fijo y tamao reducido para preservar

la alineacin tal y como aparece en la ventana de resultados de Stata.
Comandos para el Captulo 2 (Resmenes resistentes de nivel y

dispersin)
. use ishidatg
. clear
. *(4 variables, 202 observations pasted into data editor)
. rename var1 mes
. rename var2 sexo
. rename var3 radioto
. rename var4 medida
. sum
Variable | Obs Mean Std. Dev. Min Max

-------------+--------------------------------------------------------
mes | 202 3.80198 1.934344 1 7
sexo | 202 1 0 1 1
radioto | 202 2.30495 .7519251 1.18 3.9
medida | 202 1.5 .5012422 1 2
. sum radioto if medida==2 & sexo==1

-------------+--------------------------------------------------------
radioto | 101 1.594851 .1703327 1.18 1.97

-------------+--------------------------------------------------------
261
radioto | 0

-------------+--------------------------------------------------------
radioto | 101 1.594851 .1703327 1.18 1.97

-------------+--------------------------------------------------------
radioto | 101 3.01505 .2980893 2.21 3.9
. save eda2otom
file eda2otom.dta saved
. clear
. sum raoi2 if sexo==1

-------------+--------------------------------------------------------
raoi2 | 3 2.363333 .2173322 2.2 2.61
. sum if sexo==1

-------------+--------------------------------------------------------
mes | 0
sexo | 3 1 0 1 1
raoi2 | 3 2.363333 .2173322 2.2 2.61
rpoi2 | 3 2.213333 .184752 2 2.32
raod2 | 3 3.09 .2424871 2.83 3.31
-------------+--------------------------------------------------------
rpod2 | 1 1.41 . 1.41 1.41
. sum if sexo==2

-------------+--------------------------------------------------------
mes | 0
sexo | 6 2 0 2 2
raoi2 | 5 3.096 .3321596 2.58 3.43
rpoi2 | 6 3.04 .3285118 2.57 3.44
raod2 | 6 3.976667 .5024209 3.38 4.53
-------------+--------------------------------------------------------
rpod2 | 4 1.9825 .3560313 1.59 2.37
. save ishiotoanillo2
file ishiotoanillo2.dta saved
. lv raoi2 if sexo==1
# 3 raoi2
---------------------------------
M 2 | 2.28 | spread pseudosigma
F 1.5 | 2.24 2.3425 2.445 | .2049999 .2660122
1 | 2.2 2.405 2.61 | .4099998 .2488341
| |
| | # below # above
inner fence | 1.9325 2.7525 | 0 0
outer fence | 1.625 3.06 | 0 0
. di .2049/1.349
.15189029
262
. di .205/1.349
.15196442
. di 2.445-2.24
.205
. lv rpoi2 if sexo==1
# 3 rpoi2
---------------------------------
F 1.5 | 2.16 2.24 2.32 | .16 .2076193
1 | 2 2.16 2.32 | .3199999 .194212
| |
| | # below # above
inner fence | 1.92 2.56 | 0 0
outer fence | 1.68 2.8 | 0 0
. di (2.32-2.16)/1.349
.11860638
. lv raod2 if sexo==1
# 3 raod2
---------------------------------
F 1.5 | 2.98 3.1 3.22 | .24 .3114291
1 | 2.83 3.07 3.31 | .48 .2913181
| |
| | # below # above
inner fence | 2.62 3.58 | 0 0
outer fence | 2.26 3.94 | 0 0
. di (3.22-2.98)/1.349
.17790956
. lv raoi2 if sexo==2
# 5 raoi2
---------------------------------
F 2 | 2.97 3.115 3.26 | .29 .2966591
E 1.5 | 2.775 3.06 3.345 | .5700001 .3670686
1 | 2.58 3.005 3.43 | .8500001 .3756394
| |
| | # below # above
inner fence | 2.535 3.695 | 0 0
outer fence | 2.1 4.13 | 0 0
. di (3.26-2.97)/1.349
.21497405
. lv rpoi2 if sexo==2
# 6 rpoi2
---------------------------------
M 3.5 | 3.135 | spread pseudosigma
F 2 | 2.73 2.98 3.23 | .5 .3945458
E 1.5 | 2.65 2.9925 3.335 | .6850001 .3807947
1 | 2.57 3.005 3.44 | .8700001 .352761
| |
| | # below # above
inner fence | 1.98 3.98 | 0 0
outer fence | 1.23 4.73 | 0 0
263
. di (3.23-2.73)/1.349
.37064492
. lv raod2 if sexo==2
# 6 raod2
---------------------------------
F 2 | 3.5 4.005 4.51 | 1.01 .7969827
E 1.5 | 3.44 3.98 4.52 | 1.08 .6003771
1 | 3.38 3.955 4.53 | 1.15 .4662933
| |
| | # below # above
inner fence | 1.985 6.025001 | 0 0
outer fence | .4699993 7.540001 | 0 0
. di (4.51-3.5)/1.349
.74870274
. lv rpod2 if sexo==2
# 4 rpod2
---------------------------------
F 1.5 | 1.69 1.9825 2.275 | .585 .4755006
1 | 1.59 1.98 2.37 | .7799999 .3894509
| |
| | # below # above
inner fence | .8125 3.1525 | 0 0
outer fence | -.0649999 4.03 | 0 0
. di (2.275-1.69)/1.349
.43365456
Comandos para el Captulo 3 (Diagramas de caja y bigotes)

use ameripob2
. tab abrep
abrep | Freq. Percent Cum.

------------+-----------------------------------
ARG | 10 4.39 4.39
BEL | 5 2.19 6.58
BOL | 9 3.95 10.53
BRA | 10 4.39 14.91
CAN | 10 4.39 19.30
CHL | 10 4.39 23.68
COL | 10 4.39 28.07
CR | 7 3.07 31.14
CUB | 10 4.39 35.53
ECU | 10 4.39 39.91
EU | 10 4.39 44.30
GUA | 10 4.39 48.68
HAI | 4 1.75 50.44
HON | 10 4.39 54.82
MEX | 10 4.39 59.21
NIC | 10 4.39 63.60
PAN | 10 4.39 67.98
PAR | 10 4.39 72.37
PER | 10 4.39 76.75
PR | 10 4.39 81.14
RD | 10 4.39 85.53
SAL | 10 4.39 89.91
SUR | 3 1.32 91.23
264
URU | 10 4.39 95.61

VEN | 10 4.39 100.00
------------+-----------------------------------
Total | 228 100.00
. graph box pobaju if mdorasc>14, over(abrep, sort(mdorasc))
. graph box log10p if mdorasc>14, over(abrep, sort(mdorasc))
Comandos para el Captulo 6 (Lnea resistente)
. scatter ye ye1 equis, c(l) ms(p Oh) ylab(0(2)10)
. regress ye equis
Source | SS df MS Number of obs = 2

-------------+------------------------------ F( 1, 0) = .
Model | 18 1 18 Prob > F = .
Residual | 0 0 . R-squared = 1.0000
-------------+------------------------------ Adj R-squared = .
Total | 18 1 18 Root MSE = 0
------------------------------------------------------------------------------
ye | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
equis | -.6 . . . . .
_cons | 6 . . . . .
------------------------------------------------------------------------------
. l
+------------------+
| ye equis ye1 |
|------------------|
1. | 6 0 . |
2. | 0 10 . |
3. | . 1 5.5 |
4. | . 8 2 |
+------------------+
. di -.6*1+6
5.4
. replace ye1 = 5.4 in 3

(1 real change made)
. l
+------------------+
| ye equis ye1 |
|------------------|
1. | 6 0 . |
2. | 0 10 . |
3. | . 1 5.4 |
4. | . 8 2 |
+------------------+
. di -.6*8+6
1.2

. generate var5 = 10 in 1
265
(3 missing values generated)
. replace var5 = 0 in 2
. rename var5 ye2
. scatter ye ye1 ye2 equis, c(l) ms(p Oh i) ylab(none) xlab(none) legend(off) xtitle(" ")
. rename var6 ye3
. replace ye3 = . in 4
(1 real change made, 1 to missing)
. rename var7 ye4
. scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) ms(p Oh i) ylab(none) xlab(none)
legend(off) xtitle(" ")

. set obs 5
obs was 4, now 5

. replace ye1 = . in 5
(1 real change made, 1 to missing)
. replace equis = 1 in 5



. scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) ms(p Oh i i i) ylab(none) xlab(none)
legend(off) xtitle(" ")
. save figura6p1
file figura6p1.dta saved
. scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) lc(dknavy dknavy dknavy dknavy dknavy) ms(p
Oh i i i) ylab(none) xlab(none) legend(off) xtitle(x) ytitle(y)
. lv equis if porcion==1
266
# 11 equis
---------------------------------
F 3.5 | 4.15 6.075 8 | 3.85 3.292907
E 2 | 1 5.35 9.7 | 8.7 4.146287
D 1.5 | .75 5.275 9.8 | 9.05 3.577162
1 | .5 5.2 9.9 | 9.4 3.039552
| |
| | # below # above
inner fence | -1.625 13.775 | 0 0
outer fence | -7.4 19.55 | 0 0
. lv ye if porcion==1
# 11 ye
---------------------------------
F 3.5 | 7.85 10.975 14.1 | 6.25 5.345628
E 2 | 7.2 11.2 15.2 | 8 3.812678
D 1.5 | 6.65 10.95 15.25 | 8.6 3.399292
1 | 6.1 10.7 15.3 | 9.2 2.974881
| |
| | # below # above
inner fence | -1.524999 23.475 | 0 0
outer fence | -10.9 32.85 | 0 0
# 11 equis
---------------------------------
F 3.5 | 12.9 15.675 18.45 | 5.55 4.746918
E 2 | 11.3 15.45 19.6 | 8.3 3.955653
D 1.5 | 10.7 15.2 19.7 | 9 3.557399
1 | 10.1 14.95 19.8 | 9.699999 3.136559
| |
| | # below # above
inner fence | 4.575001 26.775 | 0 0
outer fence | -3.749999 35.1 | 0 0
# 11 ye
---------------------------------
F 3.5 | 7.45 8.375 9.3 | 1.85 1.582306
E 2 | 6.2 8.15 10.1 | 3.900001 1.858681
D 1.5 | 6.05 9.075 12.1 | 6.05 2.391363
1 | 5.9 10 14.1 | 8.2 2.651524
| |
| | # below # above
inner fence | 4.674999 12.075 | 0 1
outer fence | 1.899999 14.85 | 0 0
# 11 equis
---------------------------------
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292
1 | 20.5 25.15 29.8 | 9.299999 3.007216
| |
| | # below # above
inner fence | 15.6 34.8 | 0 0
outer fence | 8.400002 42 | 0 0
267
# 11 ye
---------------------------------
F 3.5 | 3.35 6.6 9.85 | 6.5 5.559454
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -6.400001 19.6 | 0 0
outer fence | -16.15 29.35 | 0 0
. rename var4 mequisi
. rename var5 myei
. rename var6 mequisc
. rename var7 myec
. rename var8 mequisd
. rename var9 myed
. clear
. save figura6p2
. scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small)
legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed
mequisd, ms(Oh o) msize(vlarge small)
. replace ye = 7.1 in 27
# 11 equis
---------------------------------
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292
1 | 20.5 25.15 29.8 | 9.299999 3.007216
| |
| | # below # above
inner fence | 15.6 34.8 | 0 0
outer fence | 8.400002 42 | 0 0
# 11 ye
---------------------------------
F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
268
| | # below # above
inner fence | -4.975 17.225 | 0 0
outer fence | -13.3 25.55 | 0 0
. replace myed = 6.3 in 28

# 11 ye
---------------------------------
F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -4.975 17.225 | 0 0
outer fence | -13.3 25.55 | 0 0

. replace mequisd = 2 in 28
. replace mequisd = 25.3 in 28

. replace equis = 25 in 28
# 11 ye
---------------------------------
F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -4.975 17.225 | 0 0
outer fence | -13.3 25.55 | 0 0
# 11 equis
---------------------------------
M 6 | 25 | spread pseudosigma
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
269
D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292

1 | 20.5 25.15 29.8 | 9.299999 3.007216
| |
| | # below # above
inner fence | 15.6 34.8 | 0 0
outer fence | 8.400002 42 | 0 0
. replace mequisd = 25 in 28
# 11 equis
---------------------------------
M 6 | 25 | spread pseudosigma
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292
1 | 20.5 25.15 29.8 | 9.299999 3.007216
| |
| | # below # above
inner fence | 15.6 34.8 | 0 0
outer fence | 8.400002 42 | 0 0
# 11 ye
---------------------------------
F 3.5 | 3.6 6.25 8.9 | 5.3 4.533093
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -4.35 16.85 | 0 0
outer fence | -12.3 24.8 | 0 0

. scatter ye equis, xline(10 20, lcolor(dknavy)) || scatter myei myei mequisi, ms(Oh o)
mcolor(dknavy dknavy) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o)
mcolor(dknavy dknavy) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o)
mcolor(dknavy dknavy) msize(vlarge small)
270
# 11 ye
---------------------------------
F 3.5 | 3.6 5.325 7.05 | 3.45 2.950787
E 2 | 2.1 5.15 8.2 | 6.1 2.907167
D 1.5 | 2 5.225 8.45 | 6.45 2.549469
1 | 1.9 5.3 8.7 | 6.8 2.198825
| |
| | # below # above
inner fence | -1.575 12.225 | 0 0
outer fence | -6.749999 17.4 | 0 0
. scatter ye equis, xline(10 20, lcolor(dknavy)) ms(x) mcolor(dknavy) msize(vlarge) ||

scatter myei myei mequisi, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) legend(off) ||
scatter myec myec mequisc, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small) || scatter
myed myed mequisd, ms(Oh o) mcolor(dknavy dknavy) msize(vlarge small)
. save figura5p2
. save cuadro6p1
file cuadro6p1.dta saved
. scatter lontot rpoi, ylab(230(20)310) xlab(2.4(.2)3.4) ms(Oh) ytitle("Longitud total

(mm)") xtitle("Radio Posterior del Otolito Izquierdo (mm)")
. scatter resif rpoi, ms(Oh) yline(0, lc(dknavy)) lc(dknavy) ytitle(Residuos finales)

xtitle("Radio Posterior del Otolito Izquierdo (mm)") xlab(2.4(.2)3.4)
. gen lresi=50.63013 + 73.9726*rpoi
. scatter lontot rpoi, ylab(230(20)310) xlab(2.4(.2)3.4) ms(Oh) ytitle("Longitud total

(mm)") xtitle("Radio Posterior del Otolito Izquierdo (mm)") || scatter lresi rpoi , c(l)
legend(lab(1 "Observados") lab(2 "Recta resistente")) lcolor(dknavy) ms(T) mcolor(dknavy)
. regress lontot rpoi

-------------+------------------------------ F( 1, 7) = 5.03
Model | 2255.29348 1 2255.29348 Prob > F = 0.0599
Residual | 3140.70652 7 448.672359 R-squared = 0.4180
-------------+------------------------------ Adj R-squared = 0.3348
Total | 5396 8 674.5 Root MSE = 21.182
------------------------------------------------------------------------------
lontot | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
rpoi | 58.43738 26.06477 2.24 0.060 -3.196002 120.0708
_cons | 98.27605 74.99419 1.31 0.231 -79.05704 275.6091
------------------------------------------------------------------------------
. predict olse
(option xb assumed; fitted values)
. rreg lontot rpoi
Huber iteration 1: maximum difference in weights = .51264652

271
Biweight iteration 8: maximum difference in weights = .21599237

Robust regression Number of obs = 9

F( 1, 7) = 27.55
Prob > F = 0.0012
------------------------------------------------------------------------------
lontot | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
rpoi | 79.2454 15.09772 5.25 0.001 43.54497 114.9458
_cons | 33.84804 43.43954 0.78 0.461 -68.87015 136.5662
------------------------------------------------------------------------------
. predict robrege
(option xb assumed; fitted values)
. scatter lontot lresi olse robrege rpoi, c(i l l l)
. label variable olse "Recta mnimos cuadrados"
. label variable robrege "Recta robusta"
. label variable lresi "Lnea resistente"
. label variable robrege "Recta robusta"
. scatter lontot lresi olse robrege rpoi, c(i l l l)
. label variable lontot "Observados"
. label variable lontot "Observados"
. scatter lontot lresi olse robrege rpoi, c(i l l l) ms(Oh Th + Sh) lcolor(dknavy dknavy
dknavy dknavy) mcolor(dknavy dknavy dknavy dknavy) xlab(2.4(.2)3.4)
. save datoscapi6
file datoscapi6.dta saved
Comandos para el Captulo 7 (Suavizacin no lineal resistente)
. use resistidavis
. scatter resi prof, c(l) s(Oh) xlab(0(35)175) xtitle("Profundidad (m)") ytitle("Log de

Resistividad") title("c) Seccin estratigrfica") saving(fig3, replace)
(file fig3.gph saved)
. use tempcom
. scatter temp dia, ms(Oh) c(l) ytitle("Temperatura no.pulsos/min") xtitle(Das

transcurridos) title("b) Vaca productora de leche") saving(fig2, replace)
. use rainfallacal
(LA's Rainfall, 1878-1989)
. scatter ppmm year, ms(Oh) c(l) xlab(1878(28)1990) ylab(100(185)1025) xtitle("Tiempo

(aos)") ytitle("Precipitacin pluvial (mm)") title("a) Los ngeles, California, E.U.A.")
saving(fig1, replace)
. use mansolda
272
. scatter noman index in 1/200, ms(Oh) c(l) xtitle("Tiempo (meses)") ytitle(Media mensual)
title("d) Manchas solares") saving(fig4, replace)
. save tasamortaeu
file tasamortaeu.dta saved
. scatter tasa anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(3.8(2.1)12.2) ytitle(Tasa de

mortalidad) xtitle("Tiempo (aos)") msize(large) title("a) Datos de mortalidad")
saving(fig6p2a)
(file fig6p2a.gph saved)
. scatter rm3 anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(3.8(2.1)12.2) ytitle(Mortalidad

suavizada) xtitle("Tiempo (aos)") msize(large) title("b) Media mvil de 3") saving(fig6p2b)
(file fig6p2b.gph saved)
. scatter resirm3 anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(-2.3(1.1)7) ytitle(Residuos)

xtitle("Tiempo (aos)") msize(large) title("c) Residuos de media mvil") yline(0)
saving(fig6p2c)
(file fig6p2c.gph saved)
. scatter mc3 anio, ms(Oh) c(l) xlab(1910(4)1922) ylab(3.8(2.1)12.2) ytitle(Mortalidad

suavizada) xtitle("Tiempo (aos)") msize(large) title("b) Medianas corredizas de 3")
saving(fig6p2d)
(file fig6p2d.gph saved)
. graph combine fig6p2a.gph fig6p2b.gph fig6p2c.gph fig6p2d.gph
. save tasamortal
file tasamortal.dta saved
. use tasamortaeu
. use tasamortal
. outfile using tasamortal.txt
. clear
. scatter original mm3 index, ms(Oh Th) c(l l) xlab(1(1)12) ylab(1(1)7) lw(medthick
medthick) legend(lab(1 "Valores originales") lab(2 "Medias mviles de 3"))
. save desfazapicovalle
file desfazapicovalle.dta saved
. outfile using desfazapicovalle.txt
. use mansolda2
. sum

-------------+--------------------------------------------------------
no | 2820 118 67.85007 1 235
anio | 2820 1866 67.85007 1749 1983
cmes | 2820 6.5 3.452665 1 12
noman | 2820 51.26596 43.44897 0 253.8
index | 2820 1410.5 814.2082 1 2820
-------------+--------------------------------------------------------
nm1 | 552 59.22736 10.64575 40.83842 77.61629
nm2 | 672 37.71518 1.694215 34.78725 40.6431
nm3 | 552 37.07264 .5371452 36.14481 38.00048
nm4 | 552 77.91141 3.062958 72.62061 83.20221
273
. scatter noman index, ms(p) c(l)
. di 1983 -1749 +1
235
. di (1983 -1749 +1)*12

2820
. scatter noman index in 158/188 , c(l)
. sum

-------------+--------------------------------------------------------
no | 2820 118 67.85007 1 235
anio | 2820 1866 67.85007 1749 1983
cmes | 2820 6.5 3.452665 1 12
noman | 2820 51.26596 43.44897 0 253.8
index | 2820 1410.5 814.2082 1 2820
-------------+--------------------------------------------------------
nm1 | 552 59.22736 10.64575 40.83842 77.61629
nm2 | 672 37.71518 1.694215 34.78725 40.6431
nm3 | 552 37.07264 .5371452 36.14481 38.00048
nm4 | 552 77.91141 3.062958 72.62061 83.20221
. scatter noman nm4 index, c(l l) ms(Oh p)
. use tempcom
. sum

-------------+--------------------------------------------------------
temp | 75 53.6 9.638044 38 95
dia | 75 38 21.79449 1 75
smotem | 75 53.1412 7.289272 41.1875 70.05078
s3 | 73 53.49315 7.576382 41.66667 78
s4 | 73 53.25685 7.456584 38.5 72.5
-------------+--------------------------------------------------------
s5 | 71 53.4507 7.118645 44 72
s9 | 67 47.33333 5.637609 39.33333 61.77778
test | 75 53.6 5.361508 44.49789 62.70211
resi | 75 5.09e-08 8.009128 -14.83001 34.01992
smoresi | 75 -.4469428 5.282898 -13.60792 9.490631
-------------+--------------------------------------------------------
tempc | 75 12 5.354469 3.333333 35
. use mansolda2
. di 158-25
133
. di 188+25
213
. di 158-50
108
. l anio mes index if index==108

variable mes not found
r(111);
. l anio cmes index if index==108
274
+---------------------+
| anio cmes index |
|---------------------|
108. | 1757 12 108 |
+---------------------+
. scatter noman index in 108/188 , c(l) ms(Oh)
. di 108-188-80
+---------------------+
| anio cmes index |
|---------------------|
188. | 1764 8 188 |
+---------------------+
+---------------------+
| anio cmes index |
|---------------------|
158. | 1762 2 158 |
+---------------------+
DATOS FIGURA 7.3
. save suavizamedias
file suavizamedias.dta saved
. label variable equis "Valores originales"
. label variable medias3 "Medias mviles de 3"
. scatter ye medias3 equis, ms(Oh Th) c(l l)
. label variable equis ""
. label variable ye "Valores originales"
. scatter ye medias3 equis, ms(Oh Th) c(l l) ylab(1(1)7) xlab(1(1)12) xtitle(" ")
. clear
. *(1 variable, 62 observations pasted into data editor)
. scatter suavi index, by(tsuavi)
. scatter suavi index, by(tsuavi, cols(1) note("") ) c(l)
. scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) subtitle(lab(1 "3") lab(2 "5"))
. scatter suavi index, by(tsuavi, cols(1) note("") subtitle(lab(1 "3") lab(2 "5")) ) c(l)
. scatter suavi index, by(tsuavi, cols(1) note("") ) c(l)
. label define etitipos 1 "Medianas corredizas de 3" 2 "Medianas corredizas de 5"
. label values tsuavi etitipos
. scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) ytitle(Valores suavizados)

xtitle("Tiempo (no. de mes)")
. save suavinvolibro
275
file suavinvolibro.dta saved
. clear
. save suavinvolibro2
file suavinvolibro2.dta saved
. scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) ytitle(Valores suavizados)

. scatter suavi42 index, by(tsuavi, cols(1) note("") ) c(l) ytitle(Valores suavizados)

. gen tsuavi42 = tsuavi
. label define etitipo35 1 "a) Medianas corredizas de amplitud 3" 2 "b) Medianas corredizas
de amplitud 5"
. label define etitipo42 1 "a) Medianas corredizas de 4" 2 "b) Medianas corredizas de 4 y
2"
. label values tsuavi etitipo35
. label values tsuavi42 etitipo42
. scatter suavi42 index, by(tsuavi42, cols(1) note("") ) ms(Oh) c(l) ytitle(Valores

suavizados) xtitle("Tiempo (no. de mes)")
. save suavinvolibro2, replace

file suavinvolibro2.dta saved
. clear
. save endpointdata
file endpointdata.dta saved
. scatter ye zeta ep lin equis, ms(x Oh S i) c(i i i l) ylab(0(1)10) xlab(0(1)10)

msize(vlarge large large) legend(lab(1 "Datos originales") lab(2 "Valores suavizados") lab(3
"Extrapolado a t = 0") lab(4 "Lnea de extrapolacin")) mcolor(dknavy dknavy dknavy dknavy)
lcolor(dknavy dknavy dknavy dknavy) xtitle(t)
. label variable var6 "Suavizado a t = 1"
. rename var6 suavicero
. save endpointdata, replace

. rename suavicero suaviuno
. scatter ye zeta ep lin suaviuno equis, ms(x Oh S i O) c(i i i l) ylab(0(1)10) xlab(0(1)10)

msize(vlarge large large large large) legend(lab(1 "Datos originales") lab(2 "Valores
suavizados") lab(3 "Extrapolado a t = 0") lab(4 "Lnea de extrapolacin") lab(5 "Suavizado a
t = 1")) mcolor(dknavy dknavy dknavy dknavy dknavy) lcolor(dknavy dknavy dknavy dknavy)
xtitle(t)
. save endpointdata, replace

276
. use suavinvolibro2
. sum

-------------+--------------------------------------------------------
suavi | 62 50.85484 15.18719 30 77
tsuavi | 63 1.492063 .5039526 1 2
suavi42 | 63 50.55952 14.19682 30 73
index | 62 173 9.017288 158 188
tsuavi42 | 63 1.492063 .5039526 1 2
. use suavinvolibro, clear
. rename r r3
. scatter r3 index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de mes)")
. use suavinvolibro, clear
. drop var4 var5
. drop var4 var5
. drop var4 var5
. label variable var4 "53,doble"
. rename var4 s53doble
. label variable var5 "3R"
. rename var5 s3r
. scatter s53doble index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de

mes)") ylab(30(10)80)
. label variable var6 "4253EH,doble"
. rename var6 s4253eht
. scatter s4253eht index, ms(Oh) c(l) ytitle(Valores suavizados) xtitle("Tiempo (no. de

mes)") ylab(30(10)80)
. label variable var7 "Originales"
. rename var7 noman

mes)") ylab(30(10)80)
277
. label variable var8 "Mes"
. rename var8 mes
. label variable var9 "Ao"
. rename var9 anio

mes)") ylab(30(10)80) mlab(mes)
. save suavinvolibro, replace

file suavinvolibro.dta saved
. scatter captusua anio, ms(Oh) c(l) xlab(1925(6)1955) ylab(0(4000)24000) ytitle(Nmero de

peces suavizado) xtitle("Tiempo (aos)")
. save captuatun
file captuatun.dta saved
. save capturaaed
file capturaaed.dta saved
. graph box captot, over(mediord)
. clear
. graph box captot, over(anio) ylab(0(200000)1200000) ytitle("Captura en peso vivo

(toneladas)")
. save datoscapturanualmexico
file datoscapturanualmexico.dta saved
. scatter resi vc, ms(Oh) ylab(-1.5(1)1.5) xlab(-2.6(1.3)2.6) ytitle(Residuos) xtitle(Valor

de comparacin)
. save datosfigu9p6
file datosfigu9p6.dta saved
. use captuatun
. l
+--------------------------------------+
| anio captura captusua rugoso |
|--------------------------------------|
1. | 1927 7297 7564.22 -267.219 |
2. | 1928 7218 7764.16 -546.156 |
3. | 1929 8959 7878.41 1080.59 |
4. | 1930 9533 7883.76 1649.24 |
5. | 1931 6368 7837.35 -1469.35 |
|--------------------------------------|
6. | 1932 4755 7814.14 -3059.14 |
7. | 1933 12236 7835.27 4400.73 |
8. | 1934 6287 7877.52 -1590.52 |
9. | 1935 12769 7898.64 4870.36 |
10. | 1936 3214 7688.08 -4474.08 |
|--------------------------------------|
11. | 1937 11036 7266.95 3769.05 |
278
12. | 1938 0 7113.45 -7113.45 |

13. | 1939 3407 8067.69 -4660.69 |
14. | 1940 14636 10079.4 4556.57 |
15. | 1941 15353 11468.4 3884.58 |
|--------------------------------------|
16. | 1942 9363 11705.4 -2342.43 |
17. | 1943 16589 11499.6 5089.4 |
18. | 1944 6459 11200.3 -4741.25 |
19. | 1945 12354 11404.2 949.844 |
20. | 1946 9590 13228 -3638 |
|--------------------------------------|
21. | 1947 22480 15993.6 6486.44 |
22. | 1948 17493 17392.7 100.344 |
23. | 1949 17675 17448.3 226.684 |
24. | 1950 21604 16792.7 4811.34 |
25. | 1951 14132 15206.6 -1074.62 |
|--------------------------------------|
26. | 1952 11140 13398.2 -2258.15 |
27. | 1953 13369 11629.2 1739.8 |
28. | 1954 9428 9428 0 |
+--------------------------------------+
. outfile using captuatun.txt
. use air2
(TIMESLAB: Airline passengers)
. smooth 4253eh,twice air, gen(sair)
. gen rough=air-sair
. gen logrough=log10(rough)
. gen logsair=log10(sair)
. replace logrough=log10(rough+1/6)
(73 real changes made)
. scatter logrough logsair, ms(Oh)
. l air sair rough logrough logsair
. replace logrough=log10(abs(rough)+1/6)
. scatter logrough logsair, ms(Oh) msize(medlarge) ylab(-1(.5)2) ytitle("Log del absoluto de

rugosos (dispersin)") xtitle("Log de valores suavizados (nivel)") xlab(2(.1)2.8)
. save aircom, replace

file aircom.dta saved
. outfile using aircom.txt
Comandos para el Captulo 10 (Un mtodo exploratorio

multidimensional)
. use ishidatg
. di "Hola funcin {&chi}"

Hola funcin {&chi}
279
. graph matrix totlen bodlen oraleft orpleft oraright orpright, ms(+) title("Hola funcin
{&chi}{sup: 2}")
. graph query textsizestyle
. graph matrix totlen bodlen oraleft orpleft oraright orpright, ms(+)

ylabel(,labsize(large)) xlab(,labsize(large))
. help matrix
. help graph matrix

ylabel(,labsize(large)) xlab(,labsize(large)) diagonal(,size(large))

ylabel(,labsize(large)) xlab(,labsize(large)) diagonal(,size(vlarge))
. label variable orpright "RPOD"
. label variable oraright "RAOD"
. label variable orpleft "RPOI"
. label variable oraleft "RAOI"
. label variable bodlen "LE"
. label variable totlen "LT"
. graph matrix totlen bodlen oraleft orpleft oraright orpright if sex==2, ms(+)
ylabel(,labsize(vlarge)) xlab(,labsize(vlarge)) diagonal(,size(vlarge))
. pwcorr totlen bodlen oraleft orpleft oraright orpright if sex==1
| totlen bodlen oraleft orpleft oraright orpright

-------------+------------------------------------------------------
totlen | 1.0000
bodlen | 0.9936 1.0000
oraleft | 0.7843 0.7711 1.0000
orpleft | 0.7871 0.7792 0.5676 1.0000
oraright | 0.8135 0.8046 0.8075 0.7856 1.0000
orpright | 0.6584 0.6499 0.6118 0.6275 0.4116 1.0000
. pwcorr totlen bodlen oraleft orpleft oraright orpright if sex==1, sig

-------------+------------------------------------------------------
totlen | 1.0000
|
|
bodlen | 0.9936 1.0000
| 0.0000
|
oraleft | 0.7843 0.7711 1.0000
| 0.0000 0.0000
|
orpleft | 0.7871 0.7792 0.5676 1.0000
| 0.0000 0.0000 0.0000
|
oraright | 0.8135 0.8046 0.8075 0.7856 1.0000
| 0.0000 0.0000 0.0000 0.0000
|
orpright | 0.6584 0.6499 0.6118 0.6275 0.4116 1.0000
280
| 0.0000 0.0000 0.0000 0.0000 0.0000

|
. pwcorr totlen bodlen oraleft orpleft oraright orpright if sex==2, sig

-------------+------------------------------------------------------
totlen | 1.0000
|
|
bodlen | 0.9979 1.0000
| 0.0000
|
oraleft | 0.8980 0.9010 1.0000
| 0.0000 0.0000
|
orpleft | 0.9290 0.9301 0.8713 1.0000
| 0.0000 0.0000 0.0000
|
oraright | 0.9230 0.9278 0.9358 0.9205 1.0000
| 0.0000 0.0000 0.0000 0.0000
|
orpright | 0.8410 0.8396 0.8559 0.8814 0.7668 1.0000
| 0.0000 0.0000 0.0000 0.0000 0.0000
|
. graph matrix totlen bodlen oraleft orpleft oraright orpright if sex==2, ms(+) ylab(130
300, labsize(large) axis(2)) yla
> b(2 3.5, axis(3)) ylab(2 4, axis(4)) ylab(2.5 5, axis(5)) ylab(1 2.5, axis(6))
xlab(,labsize(vlarge)) diagonal(,size(vl
> arge)) xlab(150 340, axis(1)) xlab(150 290, axis(2)) xlab(2 3.5, axis(3)) xlab(2 3.5,
axis(4)) xlab(3 5, axis(5)) half
Comandos para el Captulo 11 (Algunos procedimientos

confirmatorios)
. use andeva2vcanguros
. sum

-------------+--------------------------------------------------------
muestra | 6 3.5 1.870829 1 6
medianchum~i | 6 227.2583 14.5252 203.5 243.95
sexo | 6 1.5 .5477226 1 2
mediamachos | 3 237.1667 6.011307 232.5 243.95
mediahembras | 3 217.35 14.02828 203.5 231.55
-------------+--------------------------------------------------------
abreviasp | 6 1 .8944272 0 2
etisp | 0
. l
+---------------------------------------------------------------------------------------+
| muestra median~i sexo mediam~s mediah~s abrevi~p etisp |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . M.g. Macropus giganteus |
2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus |
3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus |
4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus |
5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus |
|---------------------------------------------------------------------------------------|
281
6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus |

+---------------------------------------------------------------------------------------+
. scatter median sexo
. scatter mediam mediah sexo, c(l l)
. scatter mediam mediah muestra, c(l l)
. rename var8 gpo
. scatter mediam mediah gpo, c(l l) xlab(1 2 3) xtitle(Especie) ytitle("Amplitud nasal

(mm)")
. label variable mediamachos "Machos"
. label variable mediahembras "Hembras"

(mm)")
. l
+---------------------------------------------------------------------------------------+
| muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . M.g. Macropus giganteus 1 |
2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus 2 |
3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus 3 |
4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus 1 |
5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus 2 |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus 3 |
+---------------------------------------------------------------------------------------+
. label define etisp 1 "Mg" 2 "Mfm" 3 "Mff"
. label values gpo etisp

(mm)")
. tab gpo
gpo | Freq. Percent Cum.

------------+-----------------------------------
Mg | 2 33.33 33.33
Mfm | 2 33.33 66.67
Mff | 2 33.33 100.00
------------+-----------------------------------
282
Total | 6 100.00

(mm)") ms(O S) msize(vlarge large) lwidth(medthick medthick)
. save andeva2vcanguros, replace

file andeva2vcanguros.dta saved
. use andeva2vcanguros, clear

(mm)") ms(O S) msize(vlarge large) lwidth(medthick medthick)
. l
+---------------------------------------------------------------------------------------+
|muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . M.g. Macropus giganteus Mg |
2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus Mfm |
3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus Mff |
4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus Mg |
5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus Mfm |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus Mff |
+---------------------------------------------------------------------------------------+
. l, nolab
+---------------------------------------------------------------------------------------+
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . 0 Macropus giganteus 1 |
2. | 2 232.5 1 232.5 . 1 M. fuliginosus melanopus 2 |
3. | 3 235.05 1 235.05 . 2 M. f. fuliginosus 3 |
4. | 4 231.55 2 . 231.55 0 Macropus giganteus 1 |
5. | 5 217 2 . 217 1 M. fuliginosus melanopus 2 |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 2 M. f. fuliginosus 3 |
+---------------------------------------------------------------------------------------+
. replace gpo = gpo-1

. l, nolab
+---------------------------------------------------------------------------------------+
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . 0 Macropus giganteus 0 |
2. | 2 232.5 1 232.5 . 1 M. fuliginosus melanopus 1 |
3. | 3 235.05 1 235.05 . 2 M. f. fuliginosus 2 |
4. | 4 231.55 2 . 231.55 0 Macropus giganteus 0 |
5. | 5 217 2 . 217 1 M. fuliginosus melanopus 1 |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 2 M. f. fuliginosus 2 |
+---------------------------------------------------------------------------------------+
. label drop etisp
. label define etisp 0 "Mg" 1 "Mfm" 2 "Mff"
. scatter mediam mediah gpo, c(l l) xlab(0 1 2, valuelabel) xtitle(Especie) ytitle("Amplitud

nasal (mm)") ms(O S) msize(vlarge large) lwidth(medthick medthick)
. save andeva2vcanguros, replace

file andeva2vcanguros.dta saved
283
. clear
. anova var6 especie sexo
Number of obs = 120 R-squared = 0.2079

Root MSE = 24.9707 Adj R-squared = 0.1874
Source | Partial SS df MS F Prob > F

-----------+----------------------------------------------------
Model | 18985.025 3 6328.34167 10.15 0.0000
|
especie | 7204.01667 2 3602.00833 5.78 0.0041
sexo | 11781.0083 1 11781.0083 18.89 0.0000
|
Residual | 72329.9667 116 623.534195
-----------+----------------------------------------------------
Total | 91314.9917 119 767.352871
. anova var6 sexo especie


-----------+----------------------------------------------------
Model | 18985.025 3 6328.34167 10.15 0.0000
|
sexo | 11781.0083 1 11781.0083 18.89 0.0000
especie | 7204.01667 2 3602.00833 5.78 0.0041
|
Residual | 72329.9667 116 623.534195
-----------+----------------------------------------------------
Total | 91314.9917 119 767.352871
. tab sexo especie

| especie
sexo | 0 1 2 | Total
-----------+---------------------------------+----------
1 | 20 20 20 | 60
2 | 20 20 20 | 60
-----------+---------------------------------+----------
Total | 40 40 40 | 120
. anova var6 sexo especie sexo#especie


-------------+----------------------------------------------------
Model | 21098.1417 5 4219.62833 6.85 0.0000
|
sexo | 11781.0083 1 11781.0083 19.13 0.0000
especie | 7204.01667 2 3602.00833 5.85 0.0038
sexo#especie | 2113.11667 2 1056.55833 1.72 0.1845
|
Residual | 70216.85 114 615.937281
-------------+----------------------------------------------------
Total | 91314.9917 119 767.352871
. save andeva2vdatoscangu
file andeva2vdatoscangu.dta saved
. regress
284
-------------+------------------------------ F( 5, 114) = 6.85

Model | 21098.1417 5 4219.62833 Prob > F = 0.0000
Residual | 70216.85 114 615.937281 R-squared = 0.2310
-------------+------------------------------ Adj R-squared = 0.1973
Total | 91314.9917 119 767.352871 Root MSE = 24.818
------------------------------------------------------------------------------
var6 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
2.sexo | -12.4 7.848167 -1.58 0.117 -27.94716 3.147159
|
especie |
1 | -11.45 7.848167 -1.46 0.147 -26.99716 4.097159
2 | -8.9 7.848167 -1.13 0.259 -24.44716 6.647159
|
sexo#especie |
2 1 | -3.1 11.09898 -0.28 0.781 -25.087 18.887
2 2 | -19.15 11.09898 -1.73 0.087 -41.137 2.837003
|
_cons | 243.95 5.549492 43.96 0.000 232.9565 254.9435
------------------------------------------------------------------------------
Comandos para el Captulo 12 (Breve introduccin a los mtodos

multivariados)
. matrix X = (4,2,2\3,1,2\0,2,2\5,0,3\6,1,2\5,3,3\5,6,0)
. matrix list X
X[7,3]
c1 c2 c3
r1 4 2 2
r2 3 1 2
r3 0 2 2
r4 5 0 3
r5 6 1 2
r6 5 3 3
r7 5 6 0
. matrix A1 = (1,1,1,1,1,1,1)
. matrix Su = A1*X
. matrix list Su
Su[1,3]
c1 c2 c3
r1 28 15 14
. matrix X = (4,2,2\3,1,2\0,1,2\5,0,3\6,1,2\5,3,3\5,6,0)
. matrix Su = A1*X
. matrix list Su
Su[1,3]
c1 c2 c3
r1 28 14 14
. matrix Xbar=Su/7
. matrix list Xbar
Xbar[1,3]
c1 c2 c3
285
r1 4 2 2
. matrix A2 = (1\1\1\1\1\1\1)
. matrix list A2
A2[7,1]
c1
r1 1
r2 1
r3 1
r4 1
r5 1
r6 1
r7 1
. matrix A3 = A2*Xbar
. matrix list A3
A3[7,3]
c1 c2 c3
r1 4 2 2
r2 4 2 2
r3 4 2 2
r4 4 2 2
r5 4 2 2
r6 4 2 2
r7 4 2 2
. matrix D=X-A3
. matrix list D
D[7,3]
c1 c2 c3
r1 0 0 0
r2 -1 -1 0
r3 -4 -1 0
r4 1 -2 1
r5 2 -1 0
r6 1 1 1
r7 1 4 -2
. matrix DprimeD=D*D'
. matrix list DprimeD
symmetric DprimeD[7,7]
r1 r2 r3 r4 r5 r6 r7
r1 0
r2 0 2
r3 0 5 17
r4 0 1 -2 6
r5 0 -1 -7 4 5
r6 0 -2 -5 0 1 3
r7 0 -5 -8 -9 -2 3 21
. matrix DDprime=D*D'
. matrix list DDprime
symmetric DDprime[7,7]
r1 r2 r3 r4 r5 r6 r7
r1 0
r2 0 2
r3 0 5 17
r4 0 1 -2 6
r5 0 -1 -7 4 5
286
r6 0 -2 -5 0 1 3
r7 0 -5 -8 -9 -2 3 21
. matrix DprimeD=D'*D
c1 c2 c3
c1 24
c2 6 24
c3 0 -9 6
. matrix S2=(1/(7-1))*DprimeD
. matrix list S2
symmetric S2[3,3]
c1 c2 c3
c1 4
c2 1 4
c3 0 -1.5 1
. matrix S=(S2[1,1]^.5\S2[2,2]^.5\S2[3,3]^.5)
. matrix list S
S[3,1]
c1
r1 2
r2 2
r3 1
. matrix list X
X[7,3]
c1 c2 c3
r1 4 2 2
r2 3 1 2
r3 0 1 2
r4 5 0 3
r5 6 1 2
r6 5 3 3
r7 5 6 0
. matrix list D
D[7,3]
c1 c2 c3
r1 0 0 0
r2 -1 -1 0
r3 -4 -1 0
r4 1 -2 1
r5 2 -1 0
r6 1 1 1
r7 1 4 -2
. matrix Dprime=D'
. matrix list Dprime
Dprime[3,7]
r1 r2 r3 r4 r5 r6 r7
c1 0 -1 -4 1 2 1 1
c2 0 -1 -1 -2 -1 1 4
c3 0 0 0 1 0 1 -2
287
c1 c2 c3
c1 24
c2 6 24
c3 0 -9 6
. matrix list DprimeD, nohalf
c1 c2 c3
c1 24 6 0
c2 6 24 -9
c3 0 -9 6
288
Apndice 2. Uso del programa

AED2010
A continuacin se presenta un breve tutorial para el programa AED2010
tal como se presenta en el archivo readme.txt que lo acompaa.
El programa AED2010 es un ejecutable escrito en Visual Basic Ver.

5.0 (Microsoft Corporation, 1997) que integra algunos de los
procedimientos ms conocidos para el clculo de mtodos exploratorios,
tales como la suavizacin no lineal resistente (Velleman y Hoaglin, 1981;
Goodall, 1990) y los estimadores de densidad por kernel, incluidas las
trazas de densidad presentadas en Chambers, et al. (1983) y el
estimador de densidad por kernel gaussiano de amplitud variable (Fox,
1990; Salgado-Ugarte, et al. 1993; Salgado-Ugarte y Prez-Hernndez,
2003). Esta versin (derivada de su predecesor el programa EDK2000)
sigue siendo muy simple pero con la ventaja de funcionar en el ambiente
Windows e integra adems mtodos no incluidos en el anterior: tres
suavizadores no lineales resistentes (4253EH, 3RRSH y 53EH) con la
opcin de re-suavizacin (procedimiento doble) para cada uno; dos
mtodos de validacin cruzada (por mnimos cuadrados y sesgada) para
determinacin de amplitud de banda de estimadores de densidad por
kernel y para regresin no paramtrica (por kernel), una rutina auxiliar
para encontrar las bandas crticas, el mtodo de bootstrap suavizado
para la evaluacin no paramtrica de la multimodalidad y regresin no
paramtrica por kernel. Por lo anterior, el programa AED2010
consideramos es un auxiliar valioso y muy poderoso para el anlisis
exploratorio (y en el caso de la prueba de multimodalidad, confirmatorio)
de datos. A continuacin la explicacin puntual de las rutinas.
Programa AED2010 Versin 1.01 Diciembre, 2010
Conjunto de programas exploratorios y de cmputo intensivo para el

anlisis de datos uni y bivariados (estimacin no paramtrica de la
densidad por medio de diferentes funciones ponderales kerneles,
determinacin de ancho de banda por validacin cruzada, evaluacin de
multimodalidad por mtodo bootstrap, regresin no paramtrica por
kernel y suavizacin no lineal resistente.
Derechos Reservados (Copyright): Isaas H. Salgado Ugarte, Jos R.

Rodrguez Rojas, D.G.A.P.A. UNAM Proyecto P.A.P.I.I.T. IN217596,
P.A.P.I.M.E. 192031, EN221403 y PE205407, Mxico, 2010. Patente en
trmite.
Apndice 2. Uso del Programa AED2010
Requerimientos:
Sistema 486 o superior (Pentium recomendado)
S.O. Windows 95, 98, Millenium XP (Recomendado)
Gua breve de uso:

A la fecha se proporciona la siguiente informacin. Versiones posteriores
contarn con ayuda dentro del programa.
El programa de instalacin en el cd de distribucin debe copiarse a
una carpeta propia en el disco duro, ejecutarse y seguir las instrucciones
de instalacin.
Para su ejecucin puede utilizarse el Explorador de Windows
abriendo la carpeta donde se encuentra el programa y oprimiendo dos
veces (doble click) el botn del ratn en el icono del archivo ejecutable
"aed.exe" o bien en el cono creado al instalarse.
Se abre una ventana de presentacin que se cierra al oprimir el
botn del ratn en el centro de dicha ventana. Enseguida aparece la
pantalla principal del programa con las siguientes opciones:
Archivo
Abrir (Una Variable)...
Abrir (Valores x,y)...
Guardar resultados...
Guardar grfica...
Cerrar
Validacin Cruzada
Mnimos cuadrados
Sesgada
Para Regresin
Estimar
Traza de densidad
EDK
EDKVariable(Gauss)
WARP (PPPR)
Amplitud Crtica
Prueba de Silverman
Regresin por kernel (PPPR)
Suavizacin no Lineal Resistente
Ayuda
Acerca de
El men Archivo-Abrir (Una Variable) permite la lectura de un

archivo de texto con los datos numricos de una sola variable mediante
la apertura de un cuadro de dilogo en el que se pueden seleccionar
archivos con tres extensiones: .raw (extensin para archivos de texto
creados con Stata), .txt (pre-establecido) y cualquier otra siempre y
292
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos
cuando el formato sea de texto en una sola columna y con el fin de

archivo debajo del ltimo nmero.
Al abrir el archivo, en la parte izquierda de la pantalla se
actualizan los datos sobre "Archivo ledo" y "Nmero de observaciones", y
aparece una nueva ventana con un resumen estadstico bsico de los
datos ledos. La ventana principal se divide en tres partes: en la superior
izquierda se presenta la lista de los datos y en la superior derecha
aparece la lista de resultados cuando se aplica un mtodo.
Con los datos en la memoria es posible abrir el Men Estimar. La

opcin "Traza de densidad" permite calcular los estimadores presentados
por Chambers, et al. 1983. Al seleccionarla se abre un cuadro de dilogo
que permite elegir funcin ponderal de dos opciones Cuadrada y
Coseno; adems se debe escoger la forma de clculo entre Directa
para estimar la densidad de cada dato Discreta que utiliza una trama
de puntos uniformemente espaciados desde un valor un poco menor al
mnimo y hasta un poco ms all del mximo. De manera pre-establecida,
el nmero de puntos es de 50, pero ese valor puede cambiarse por el
usuario en el campo que aparece al escoger esta opcin de clculo.
Asimismo, se debe especificar la amplitud de ventana (ancho de banda)
para lo cual el cuadro presenta un botn para el clculo de valores de
referencia: dos ptimos (Silverman y Hrdle) y un sobresuavizado (Scott).
Al presionar el botn Calcular ventanas aparecen los tres valores y en
el campo de entrada se dispone del valor intermedio (ptima de Hrdle).
La estimacin se lleva a cabo oprimiendo el botn Calcular Densidad lo
que produce el listado de resultados en el campo superior derecho y un
grfico con la densidad (eje vertical) para la variable (eje horizontal). En
la parte inferior izquierda de la ventana principal existen dos selectores
de opcin para la grfica: la opcin lnea es la pre-establecida y
muestra los valores de densidad unidos por lneas acompaados de un
grfico univariado de dispersin en el eje de las absisas (horizontal). La
opcin puntos presenta los valores de densidad en su respectiva
posicin de acuerdo a su valor como puntos aislados. Estas opciones son
vlidas para todas las grficas de los estimadores de densidad
subsiguientes. Los resultados pueden almacenarse en un archivo de
texto mediante la opcin Archivo-Guardar Resultados... opcin que
hace aparecer un cuadro de dilogo estndar de Windows en el que se
puede elegir el lugar de almacenaje, crear una carpeta nueva y
especificar el nombre del archivo el cual es de texto (extensin txt). Este
archivo tiene dos columnas: la primera son los valores observados Valor
de X (Directa) los Valores medios (Discreta) y la segunda es la
estimacin de la densidad. Si no se especifica valor para el ancho de
ventana, aparece un mensaje de error y se regresa al cuadro de dilogo.
En la presente versin no se ha implementado la opcin Guardar
Grfica..., sin embargo, es posible utilizar la funcin de copia de
pantalla (Impr Pant) para obtener una imagen de la pantalla actual (con
293
la grfica) y pegar esta en un programa de edicin grfica, seleccionar la

parte de la grfica, copiar la seleccin y volverla a pegar en como imagen
distinta en el mismo programa o en otro (como procesador de textos).
Esta forma de copia de grfica es posible para todas las grficas
producidas por el programa (como el caso de la regresin por kernel y las
grficas de validacin cruzada).
La opcin "EDK" permite calcular los Estimadores de Densidad por

Kernel presentados por Hrdle (1991) y Scott (1992). Para detalles ver los
artculos de Salgado-Ugarte (1993; 1995a; 1995b) y el texto de Salgado-
Ugarte (2002). Al elegir esta opcin aparece un cuadro de dilogo en
donde es posible establecer la funcin ponderal (kernel) de un total de
siete opciones: Cuadrada, Triangular, Epanechnikov, Biponderada,
Triponderada, Gaussiana (pre-establecida) y Coseno. Se puede elegir
tambin la forma de clculo: Directa (pre-establecida) Discreta. En
este ltimo caso el nmero de puntos pre-establecido es de 50. El
usuario puede utilizar un nmero mayor si lo requiere. De nuevo se
tienen los botones para calcular las bandas y la densidad. Los resultados
(lista y grfica) aparecen como en la opcin Traza de Densidad. Es
posible crear el archivo de resultados pero no se ha implementado an
Guardar Grfica. Las bandas calculadas (dos ptimas y una
sobresuavizada) automticamente se ajustan al tipo de funcin ponderal
(kernel) especificado de acuerdo a la idea de los "kerneles equivalentes"
de Scott (1992) para producir estimaciones con el mismo grado de
suavizacin. De nuevo, si no se especifica valor para el ancho de banda y
se oprime el botn de "Calcular Densidad" aparece un mensaje de error y
se regresa al cuadro de dilogo.
La opcin EDKVariable(Gauss) permite calcular el Estimador de

Densidad por Kernel Gaussiano con banda de amplitud variable (ver Fox,
1990, Salgado-Ugarte, et al. 1993 y Salgado-Ugarte y Prez Hernndez,
2003). Este estimador resulta muy conveniente ya que proporciona
detalles de la distribucin donde los datos abundan (empleando bandas
angostas) y disminuye el ruido donde los datos son escasos (con bandas
mas anchas). Para lograr esto el algoritmo realiza una estimacin
preliminar de la densidad, la cual es usada como referencia para en un
segundo paso, calcular la densidad tomando a los valores iniciales como
factores de ajuste a la banda. A semejanza de los procedimientos
anteriores al elegirla se abre un cuadro de dilogo que permite escoger la
forma de clculo: Directa Discreta. En la Directa se utilizan todos
los datos para el clculo y en la Discreta se usa un nmero de puntos
uniformemente espaciados en la segunda parte del algoritmo de clculo
(lo que resulta ms eficiente). El valor pre-establecido es de 50, pero
recomendamos usar 100 puntos. Este mtodo slo se ha implementado
para el kernel gaussiano y permite establecer el ancho de banda (media
geomtrica de todas las bandas utilizadas) y de nuevo es posible aplicar
294
el botn Calcular Bandas para que aparezcan los valores en el cuadro

para utilizarlos como referencia. De nuevo, en el campo de entrada
aparece el valor intermedio (ptimo de Hrdle). Debido a la cantidad de
clculos requeridos, esta opcin puede llevar un tiempo considerable si el
nmero de los datos es elevado (miles de observaciones) por lo que se
pide paciencia al usuario. Este mtodo est considerado como cerca de
ser el mejor posible para estimar la distribucin de un conjunto de datos
(Simonoff, 1996). Como con las opciones anteriores es posible guardar en
un archivo de texto los resultados, pero no la grfica.
La opcin "WARP" permite el clculo de "histogramas desplazados

promediados", una forma eficiente para obtener a los Estimadores de
densidad por kernel. Este procedimiento reduce considerablemente el
nmero de operaciones. Al elegirla aparece un cuadro de dilogo para
especificar una de las siguientes funciones ponderales (kerneles):
Cuadrada, Triangular, Epanechnikov, Biponderada, Triponderada y
Gaussiana. Se cuenta con los botones para calcular las bandas y la
densidad. Este mtodo requiere especificar el nmero de histogramas a
promediar el cual de manera pre-establecida es de 5, valor que conduce a
un histograma desplazado promediado. Utilizando un valor mayor (10 o
ms) el resultado es equivalente a un Estimador de Densidad por Kernel.
Se recomienda utilizar un valor de 10 para no aumentar el nmero de
operaciones y disminuir la eficiencia del mtodo. Nuevamente al oprimir
el botn Calcular Densidad aparece la lista de resultados y la grfica
(densidad y univariado de dispersin). Es posible guardar los resultados
en un archivo de texto. No est implementado an almacenar la grfica.
En todos los casos, las rutinas grficas incluidas son muy simples
(presentan valores numricos mximos y mnimos para cada eje y un
encabezado con el estimador utilizado, el nmero de puntos usado para
la estimacin en el caso discreto, el kernel y la amplitud de banda y el
nmero de modas) pero son de gran utilidad ya que permiten observar de
una manera muy clara la forma de la distribucin de los datos. Si se
desean grficos de mejor presentacin, los resultados almacenados como
texto pueden importarse a otro programa capaz de realizar grficos para
presentaciones.
El siguiente grupo de opciones es til para llevar a cabo la prueba

de multimodalidad de Silverman (bootstrap suavizado). La opcin
Amplitud Crtica facilita la identificacin de las amplitudes de banda
crticas, es decir el ltimo valor compatible con un nmero dado de
modas en la estimacin. Al escogerla se abre un cuadro de dilogo con
varios campos para especificar: el lmite superior e inferior del intervalo
de amplitudes en el cual buscar el valor crtico; el nmero de
histogramas promediados para la estimacin (se recomienda el valor pre-
establecido de 40) y el valor para la distancia entre los puntos (step)
dentro de los intervalos. Este valor depende de la precisin original de los
295
datos. Esta rutina calcula un EDK con la amplitud de banda

determinada por el intervalo y el valor de cada paso y cuenta el nmero
de modas basndose en primeras diferencias. Se recomienda usar
primero valores amplios y posteriormente valores pequeos una vez que
se han identificado las regiones donde se localizan los valores crticos.
Aqu es pertinente anotar que se deben utilizar un poco ms de
posiciones decimales que los presentes en las observaciones generales
(una o dos a lo ms). En el mismo cuadro es posible escoger la funcin
ponderal de un total de 6: Cuadrada, Triangular, Epanechnikov,
Biponderada, Triponderada y Gaussiana (pre-establecida). Se recomienda
utilizar la Gaussiana ya que la prueba de multimodalidad se implement
y valor con este kernel. Es posible tambin activar la opcin Grfica,
la cual permite visualizar la grfica de densidad para cada uno de los
pasos en el intervalo especificado. El resultado es una animacin que
permite observar como al disminuir el ancho de banda el nmero de
modas en el resultado se va incrementando. En el campo izquierdo
aparece un listado con resultados que consisten en el nmero de modas
y la amplitud asociada. El ltimo valor compatible con un nmero de
modas especificado es la amplitud crtica. En la prctica es posible
observar cierta fluctuacin en la vecindad del valor crtico, por lo que se
recomienda hacer un recorrido amplio alrededor del posible valor crtico.
Eventualmente se llega a un aumento en el nmero de modas que ya no
disminuye, y el valor crtico es el valor anterior con el valor modal menor
especificado.
Una vez identificadas las amplitudes crticas es posible proseguir

con la prueba de multimodalidad de Silverman. Esta prueba se basa en
un esquema de muestreo con repeticin bootstrap. Al activar la opcin
Prueba de Silverman se abre un cuadro de dilogo con campos para
especificar la banda crtica (el valor encontrado con la opcin anterior);
el No. Crtico de Modas (el nmero de modas a probar); el nmero de
histogramas promediados (se recomienda el valor pre-establecido de 40);
el No. de Replicaciones el cual se ha pre-establecido como 100 (valor
utilizado en el artculo original del mtodo) pero actualmente es posible
utilizar valores mayores. Dependiendo del nmero de datos este puede
ser de 500, 1000 ms aunque se recomienda prudencia en el nmero
de replicaciones. De todas formas, es posible acumular los resultados y
si se hacen 10 corridas de 1000 cada una, se finalizar con un total de
10000 replicaciones. Cabe sealar que las repeticiones requeridas para
la estimacin eficiente de valores de nivel y dispersin as como de
coeficientes de regresin son de unos pocos miles. No es necesario un
nmero mayor si bien, con este programa es posible investigar la
cuestin. Es importante tambin establecer el valor inicial para los
nmeros pseudo-aleatorios generados. Estas semillas deben ser
anotadas en todo estudio serio de simulacin ya que al utilizar el mismo
nmero permite la reproduccin exacta del muestreo realizado (cosa
296
posible con las computadoras pero imposibles por otros mtodos

aleatorios). El cuadro contiene un botn que permite la generacin
aleatoria de valores para ser utilizados como semilla. Se puede activar
la opcin Grfica para observar el EDK para cada una de las muestras
bootstrap las cuales aparecern al oprimir el botn Calcular. El
resultado de la prueba se presenta en el campo izquierdo como una lista
de valores con el nmero de muestra y el nmero de modas que cada
una posee. Al final se obtiene un valor de P obtenido de la divisin del
nmero de estimaciones con un nmero mayor al probado entre el total
de replicaciones. El valor de referencia utilizado proviene de la
recomendacin de Izenman y Sommer (1988) de 0.4 para sealar el
nmero de modas en la muestra. Al mostrar los valores para el cociente
se hace posible acumular resultados de varias corridas. Cabe sealar que
estas rutinas son hasta donde hemos podido investigar, la nica versin
de la prueba disponible aparte de la presentada en Salgado-Ugarte (1997
y 2002) con rutinas para el programa estadstico Stata.
La opcin Regresin por Kernel (PPPR) permite calcular regresin

no paramtrica por kernel mediante el mtodo de promedio de
histogramas desplazados (WARP por sus siglas en ingls PPPR por
referirse al Promedio Ponderado de Puntos Redondeados, su equivalente
en espaol, Salgado-Ugarte, 2002). Para ello se requiere tener datos
bivariados (x,y). Con los datos en la memoria, al seleccionar esta opcin
se abre un cuadro de dilogo que solicita especificar el ancho de banda
(el valor pre-establecido de 0.4 tan slo es un ejemplo y no es utilizable
en general) y el nmero de histogramas a promediar (se recomienda
utilizar el valor pre-establecido de 10). En el mismo se requiere
especificar la funcin ponderal. En la literatura (Hrdle, 1990) se
recomienda el uso del kernel curtico por lo que se ha puesto como
opcin pre-establecida. Cmo recomendacin para encontrar un valor de
banda adecuado se recomienda utilizar los valores ptimos y el
sobresuavizado para los datos del eje horizontal, los cuales pueden
estimarse separando a esta variable en un archivo de texto y leyndolo
para su uso con las rutinas de EDKs. Una estrategia ms directa es
utilizar la opcin de Validacin Cruzada- Para Regresin en el AED2010.
Al especificar los anteriores valores y funcin kernel se oprime el botn
Calcular y aparecen los resultados: en el campo superior derecho se
tiene la lista de los puntos de clculo (Valor Medio) y los valores
estimados (MM) y en el campo principal la grfica x,y de los valores
observados y los estimados por la regresin por kernel. Para esta grfica,
los selectores de lnea y puntos no aplican. Es posible guardar estas
dos columnas de datos en un archivo de texto mediante la opcin
Guardar Resultados..., pero no la grfica.
La rutina de Suavizacin no Lineal Resistente abre un cuadro de

dilogo que permite elegir el mtodo de suavizacin compuesto: 4253EH,
297
3RSSH y 53EH. Cada uno de ellos puede hacerse doble para recuperar
informacin de los valores rugosos (residuales) y reincorporarla a la
suavizacin. Los resultados aparecen listados despus de oprimir el
botn Realizar. Esta lista con el nmero de dato, valor original y valores
suavizados puede seleccionarse con el ratn, copiarse y pegarse en una
hoja de clculo o un procesador de textos para luego copiarse a un
paquete de graficacin. La opcin Guardar Resultados no est
implementada an para este procedimiento.
La opcin Validacin Cruzada puede aplicarse en la bsqueda del

ancho de banda apropiado para datos univariados (EDKs) y bivariados
(regresin por kernel). Para el primer caso se tiene la opcin de VC por
Mnimos Cuadrados la cual al ser elegida abre un cuadro de dilogo
que permite establecer el valor de delta (equivalente al paso de bsqueda
en un intervalo) cuyo valor pre-establecido es recomendado para
utilizarlo en primera instancia; asimismo se tiene que especificar un
intervalo dentro del cual buscar el cual puede entenderse como intervalo
de anchos de banda dentro de los cuales buscar un ptimo, equivalencia
uno a uno cuando delta es 1; si delta es 0.5 entonces la banda se obtiene
multiplicando al doble los valores del intervalo; si delta es 0.1 entonces
los valores del intervalo se multiplican por diez, etc. El resultado de la
rutina es una lista en el campo superior derecho que contiene los
puntajes, el valor de M (escalado por delta) y el ancho de banda (M
multiplicado por delta de acuerdo a lo arriba sealado). Estos valores
estn ordenados por el puntaje de menor a mayor, por lo que el ancho de
banda recomendado por el mtodo es el que aparece en el primer rengln.
Este valor se puede utilizar como ancho de banda en las rutinas para
estimacin de EDKs (EDK, WARP inclusive EDKVariable). En el campo
principal aparece la grfica con los valores del puntaje en el eje vertical y
los de M en el horizontal (en escala logartmica neperiana). Se marca
adems como una lnea vertical la banda sobresuavizada. Se pretende
encontrar un mnimo en los puntajes y tan slo ser de inters si este
mnimo es menor al valor sealado por la banda sobresuavizada. La lista
completa de puntajes, valores de M y ancho de banda puede almacenarse
en un archivo de texto con la opcin Guardar Resultados no as la
grfica.
La VC Sesgada muestra un cuadro de dilogo que permite

escoger una de las dos opciones implementadas para la funcin ponderal
(kernel): curtico y triponderado, as como el valor de delta (se
recomienda en primera instancia el valor pre-establecido de uno) y los
lmites inferior (inicial) y superior (final) para la bsqueda del ancho
ptimo en trminos de M (nmero de histogramas promediados). Los
resultados se presentan de manera semejante a la VC por mnimos
cuadrados, una lista en el campo superior derecho y la grfica en el
campo principal de la ventana. Los resultados estn ordenados de
298
acuerdo al puntaje y por tanto la anchura de banda recomendada por el

mtodo aparece en el primer rengln. La lista completa de resultados
puede salvarse en un archivo de texto pero no la grfica.
La opcin Validacin Cruzada Para Regresin requiere de cargar

en la memoria datos bivariados (Abrir (Valores x,y)...). Al seleccionarla
se muestra un cuadro de dilogo con campos para especificar el
parmetro delta (1), m de inicio (5), m final (20) y valor de frontera (0.1)
(boundary). Se recomienda utilizar en primera instancia los valores pre-
establecidos (entre parntesis) e ir afinando las estimaciones en pasos
posteriores. Se debe especificar el kernel (curtico como pre-establecido),
y la funcin penalizante de cinco opciones: Shibata, Validacin cruzada
generalizada, criterio de informacin de Akaike, error finito de prediccin
y T de Rice. La primera reduce el sesgo mientras que la ltima reduce la
varianza, pero sin importar las diferencias, cualquiera de estos selectores
conduce substancialmente a la misma amplitud de banda ptima
(Hrdle, 1991; Salgado-Ugarte, 2002). Los resultados aparecen en el
mismo patrn que para la VC univariada: lista de valores mnimos con la
banda ptima recomendada en el primer rengln y la grfica en el campo
principal. La lista completa de puntajes, valores de M y amplitudes de
banda puede grabarse en un archivo de texto.
Finalmente el men Ayuda contiene una opcin nica (Acerca

de) que abre un cuadro de dilogo con informacin del programa
AED2010, las advertencias sobre su proteccin como obra intelectual, y
autora. Este cuadro tiene dos botones: Aceptar, que cierra el cuadro de
informativo e Informacin del Sistema que proporciona caractersticas
del sistema de cmputo que se est utilizando.
Para informacin adicional as como reporte de fallas, contactar a
Dr. Isaas H. Salgado Ugarte

isalgado@servidor.unam.mx
ihsalgadougarte@gmail.com
299

Estadistica

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Estadistica

Caricato da

Copyright:

Formati disponibili

Mtodos estadsticos

DERECHOS RESERVADOS (COPYRIGHT) 2013 respecto a la primera edicin

IMPRESO EN MXICO PRINTED IN MEXICO

Esta obra se termin de imprimir en septiembre de 2013

Se tiraron 400 ejemplares

Isaas Hazarmabeth Salgado Ugarte

FACULTAD DE ESTUDIOS SUPERIORES

UNIVERSIDAD NACIONAL AUTNOMA DE

Esta obra se realiz con apoyo de la UNAM a travs de la DGAPA, PAPIME

Dr. Ignacio Mndez Ramrez, IIMAS, UNAM, diciembre de 2010

En el ao de 1992 se public mi primera contribucin a la difusin para la

La presente obra est organizada en 14 captulos y dos apndices que

Isaas Hazarmabeth Salgado Ugarte, FES Zaragoza, UNAM, diciembre de 2010

CUL ES EL MENSAJE DE TODOS ESTOS NMEROS Y LETRAS?

El desarrollo reciente de una serie de mtodos incluidos en la disciplina

datos antes de reportar resmenes estadsticos y conclusiones derivadas de

De acuerdo a Siegel (1988) puede afirmarse que el objetivo del AED es la

Los mtodos estadsticos tradicionales (confirmatorios) a menudo requieren

Los mtodos robustos y resistentes son aplicables en una amplia gama de

En el anlisis exploratorio de datos aparecen cuatro temas: Resistencia,

La Resistencia, se refiere a la insensibilidad hacia comportamientos

Los mtodos resistentes hacen ms fcil la identificacin de los casos

Los Residuos son los valores resultado de la substraccin de un modelo

residuos = datos ajuste

En el mbito exploratorio ningn anlisis de un conjunto de datos est

La Re-expresin se refiere a la transformacin de las variables a una escala

Algunos investigadores pueden sentirse incmodos al abandonar la escala

necesaria desde un punto de vista estadstico si se desea modelar la estructura

Otros piensan incluso que "transformacin" es una bonita palabra utilizada

La Revelacin permite la observacin directa del comportamiento de los

Por otro lado las tcnicas resistentes y robustas involucran la iteracin en

- La distribucin de los valores

- Los casos extraordinarios

El nivel expresa donde se concentran las observaciones dentro del intervalo

1.1 El desplegado bsico

Para explicar el diagrama y la manera de su construccin se empezar con

El primer paso para la construccin de este diagrama es la eleccin de un

valor del dato particin tallo y hoja

Tabla 1.1. Datos de

El diagrama terminado incluye una indicacin de la escala utilizada as

N = 25 Unidad de hoja = 1.0

La "lnea central" incluye a la mediana y el valor entre parntesis que se

Si los valores originales de los datos no han sido ordenados, el diagrama

En su apariencia global el desplegado semeja un histograma con una

En diagrama de la Tabla 1.2 se aprecia que la mayor parte de las anchuras

1.2 Nmero de lneas

El nmero de lneas en un DTH es equivalente al nmero de intervalos en un

L = [10 * log10 n] (1.1)

donde n es el nmero de datos y los parntesis cuadrados indican el valor entero

Por lo general no es muy cmodo obtener el diagrama de tallo y hoja de lotes de

Al usar el valor de L como el lmite aproximado del nmero de lneas en el

L = [10 * log10 25] = 13.97 14;

este resultado sugiere un ancho de intervalo de 66/14 = 4.71 5. El nmero de

1.3 Algunas variaciones

El nmero de tallos puede incrementarse para proporcionar ms detalle o

N = 25 Unidad de hoja = 1.0

No es la nica manera de aumentar el nmero de tallos. Pudiera utilizarse

N = 25 Unidad de hojas = 1.0

con las hojas 0 y 1 en la lnea *, 2 y 3 en la lnea t (de las iniciales de estos

La mxima expansin del diagrama de tallo y hoja (en el sistema decimal)

Se han desarrollado otras variaciones para la comparacin simultnea de

N = 50 Unidad de hoja = 1.0

Profundidad Machos Hembras Profundidad

Desde hace muchos aos, en las lneas de metro y ferrocarril de Japn, el