Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
exploratorios y confirmatorios
para anlisis de datos. Un
enfoque biomtrico
UNIVERSIDAD NACIONAL
AUTNOMA DE MXICO
FACULTAD DE ESTUDIOS
SUPERIORES
ZARAGOZA
Mtodos estadsticos exploratorios y
confirmatorios para anlisis de datos. Un
enfoque biomtrico
Prohibida la reproduccin total o parcial de esta obra, por cualquier medio, sin
autorizacin escrita del editor
ISBN: 978-607-02-3590-0
Deseo que la presente obra sea una contribucin que promueva el uso
correcto de los mtodos estadsticos para el entendimiento de los fenmenos
biolgicos y me responsabilizo por imprecisiones que pudiera contener. Mucho
agradecer se me notifique para su correccin en posteriores versiones.
Pag.
Introduccin................................................................................. 001
Captulo 1 Diagramas de Tallo y Hoja.......................................... 007
1.1 El desplegado bsico.......................................................... 008
1.2 Nmero de lneas................................................................ 011
1.3 Algunas variaciones............................................................ 012
1.4 Resistencia......................................................................... 017
1.5 Consideraciones adicionales............................................... 017
Captulo 2 Resumenes numricos de nivel y dispersin............... 019
2.1 Ordenacin, jerarquizacin, nivel y localizacin.................. 019
2.2 Valores de letras adicionales............................................... 021
2.3 Otras medidas resistentes de nivel...................................... 022
2.4 Medidas resistentes de dispersin....................................... 024
Captulo 3 Diagramas de caja...................................................... 029
3.1 Diagramas de caja para un lote de datos............................ 030
3.2 Comparacin de lotes de datos........................................... 034
3.3 El grfico de dispersin-nivel y la transformacin............... 037
3.4 Limitaciones de los diagramas de caja................................ 042
Captulo 4 Distribucin de lotes de nmeros............................... 047
4.1 Diagramas univariados de dispersin y de puntos.............. 048
4.2 Histogramas....................................................................... 049
4.3 Nmero o amplitud de intervalos........................................ 050
4.4 Estimadores de densidad por kernel................................... 052
4.5 Reglas prcticas para determinar amplitud de banda.......... 054
4.6 Ejemplos............................................................................ 056
Canguros............................................................................ 056
Duracin de erupciones de gyser Old Faithful.................. 057
Longitud de bagres.............................................................. 059
4.7 Estimadores de densidad por kernel con amplitud de
banda variable..................................................................... 061
4.8 Diagramas de violn............................................................ 062
Captulo 5 Re-expresin de los datos........................................... 065
5.1 Transformacin potencial................................................... 066
5.2 Razones para transformar.................................................. 068
Re-expresin para facilitar la interpretacin.......................... 068
5.3 Transformacin para promover simetra............................. 069
5.4 Re-expresin para otras estructuras en los datos................ 074
Re-expresin para estabilizar la dispersin............................ 075
Re-expresin para promover linearidad.................................. 075
Re-expresin para simplificar la estructura........................... 082
5.5 Transformaciones emparejadas.......................................... 082
5.6 Comentarios adicionales..................................................... 085
Captulo 6 Lnea resistente.......................................................... 087
6.1 Pendiente e intercepto........................................................ 087
6.2 Puntos resumen................................................................. 088
6.3 Estimacin de la pendiente y el intercepto.......................... 090
6.4 Residuos............................................................................ 091
6.5 Pulido del ajuste (iteracin)................................................. 092
6.6 Ejemplo: Radio del otolito contra longitud total................... 093
6.7 Casos extraordinarios (Outliers).......................................... 097
6.8 Lnea resistente, regresin por mnimos cuadrados
y regresin robusta................................................................... 099
6.9 Comentarios adicionales..................................................... 101
Captulo 7 Suavizacin no lineal resistente.................................. 103
7.1 Introduccin....................................................................... 103
Mtodos tradicionales de suavizacin.................................... 104
Medianas corredizas.............................................................. 105
7.2 Definiciones bsicas........................................................... 107
7.3 Ejemplo 1: Nmero de manchas solares.............................. 108
7.4 Suavizadores elementales................................................... 109
7.5 Definiciones adicionales y notacin..................................... 112
7.6 Suavizacin de valores terminales....................................... 114
7.7 Suavizadores compuestos................................................... 115
7.8 Ejemplo 2: Capturas de peces en el tiempo......................... 123
7.9 Diagnstico de la no-estacionaridad.................................... 126
Captulo 8 Tablas codificadas....................................................... 131
8.1 Desplegado de tablas.......................................................... 133
8.2 Recomendaciones para el uso de tablas codificadas............ 134
8.3 Tablas codificadas y diagramas de cajas............................. 137
8.4 Detalles y alternativas........................................................ 138
Captulo 9 Pulido de mediana...................................................... 141
9.1 Tablas de dos vas con tres variables.................................. 141
9.2 Modelo aditivo para tablas de dos vas
(tres variables)...................................................................... 143
9.3 Pulido de mediana......................................... ..................... 144
9.4 Residuos y aditividad.......................................................... 148
Captulo 10 Un mtodo exploratorio multidimensional................. 157
Captulo 11 Algunos procedimientos confirmatorios.................... 165
11.1 Intervalos de confianza y pruebas de hiptesis.................... 166
11.2 Tipos de error estadstico.................................................... 169
11.3 Estimacin y pruebas acerca de una media poblacional..... 170
11.4 Estimacin y comparacin de dos
parmetros (varianzas y medias)............................................... 172
11.5 Anlisis de varianza de un factor
(diseo completamente al azar)................................................... 180
11.6 Anlisis de varianza de dos factores con interaccin........... 184
Captulo 12 Breve introduccin a los mtodos multivariados .... 191
12.1 Extensiones multivariadas de estadstica elemental.......... 194
12.2 Ejemplo: contenido de Si, Al, Fe y Mg en rocas
Lunares............................................................................... 196
12.3 Comparacin multivariada de dos muestras..................... 198
12.4 Comparacin de dos matrices de covarianza..................... 201
Captulo 13 Introduccin a Stata................................................. 207
13.1 Entrada a Stata................................................................ 207
13.2 Introduccin y edicin de datos........................................ 208
13.3 Estadstica descriptiva univariada.................................... 212
13.4 Anlisis grfico de datos................................................... 214
13.5 Procedimientos exploratorios complementarios
en Stata.............................................................................. 221
Captulo 14 Introduccin al MINITAB.......................................... 225
14.1 Introduccin, edicin y desplegado de datos..................... 227
14.2 Informacin adicional sobre MINITAB............................... 230
14.3 Graficacin de datos......................................................... 234
14.4 Otros comandos bsicos importantes................................ 237
14.5 Comandos para el anlisis exploratorio de datos............... 239
a) Diagramas de puntos......................................................... 239
b) Diagramas de tallo y hoja.................................................. 241
c) Estadgrafos bsicos.......................................................... 242
d) Resmenes de letras.......................................................... 243
e) Diagramas de caja............................................................. 244
f) Lnea resistente.................................................................. 247
g) Suavizacin no lineal resistente......................................... 248
h) Tablas codificadas............................................................. 249
i) Pulido de mediana.............................................................. 250
Bibliografa................................................................................. 253
Apndices
A1.- Comandos Stata................................................................ 261
A2.- GuA para el programa AED2010 .................................... 291
Introduccin
En las investigaciones biolgicas (como en las de otras disciplinas) se obtiene una
gran cantidad de informacin. Por ejemplo, dentro de los aspectos importantes
para una correcta evaluacin y administracin de los recursos pesqueros, se
encuentra el estudio de las poblaciones de peces. En los trabajos de investigacin
que se llevan a cabo para tal fin se produce un gran nmero de datos cualitativos
y cuantitativos. La Figura I.1 reproduce la pgina de una libreta con anotaciones
sobre dimensiones corporales y otras caractersticas biolgicas de una especie de
pez. Es comn que resulten folios y folios con tales datos. La pregunta que surge
cuando se revisa el cuaderno de notas es:
Una vez que se dispone de los datos, la exploracin de los mismos debe ser
la primera etapa en su proceso; los mtodos del AED permiten reconocer su
estructura. Existe un buen nmero de formas interesantes de arreglar y analizar
a los datos para producir desplegados grficos en los cuales es posible observar
las tendencias y los valores inesperados. Otra forma de explorar la informacin
es a travs del examen de resmenes numricos, lo cual es necesario cuando se
requiere estudiar una gran cantidad de valores y es difcil revisar en detalle a
cada uno (Siegel, 1988). Un buen analista siempre examina con detalle a los
Introduccin 2
Figura I.1. Hoja de trabajo con los mediciones biomtricas y biolgicas del
pez suzuki (Lateolabrax japonicus) de la captura comercial efectuada en
la Baha de Tokio.
Introduccin 4
Es verdad que los fsicos algunas veces tienen una slida base terica para
decidir trabajar con voltios o voltios cuadrados. Sin embargo, cuando no existe
esta base terica que oriente sobre la eleccin, la escala original de medicin no
tiene preferencia. Por lo tanto la respuesta del hgado de un animal a un
tratamiento puede no estar ms naturalmente reflejado en p (el peso), que en el
logaritmo de p o en la raz cuadrada de p, al menos mientras se avanza en la
comprensin cuantitativa de los fenmenos asociados (Hoaglin et al., 1983).
- El nivel
- La dispersin
Siegel (1988), considera al diagrama de tallo y hoja como una variante del
histograma. Sin embargo, el utilizar los dgitos de los datos en vez de considerar
un intervalo de valores que los abarque puede ser ms ventajoso al permitir
recuperar de manera precisa cada dato individual. Mediante este diagrama
resulta fcil ordenar a los valores y encontrar resmenes numricos basados en
el lote ordenado como la mediana y los cuartos. Adems, debido a la sencillez de
su construccin, es posible realizarlo "a mano" con papel y lpiz. Una ventaja
adicional al poder visualizar a los valores dentro de cada intervalo es la
identificacin de patrones: se puede reconocer, por ejemplo, que el investigador
anot las observaciones como mltiplos de algn nmero.
Captulo 1. Diagramas de tallo y hoja
El diagrama de tallo y hoja (Tukey, 1970, 1972), representa una tcnica flexible y
efectiva al comienzo del examen de un lote o muestra de datos. Su nombre deriva
del hecho de que se fundamenta en la particin de los dgitos en dos
componentes: tallos y hojas. El desplegado se construye colocando una hoja para
cada valor de los datos en el nivel apropiado de los tallos de esta planta
esquemtica (Marsh, 1988). Los dgitos ms significativos de los valores de los
datos hacen la mayor parte del trabajo en el ordenamiento del lote y su
desplegado.
174 17 | 4 17 y 4
De esta forma las centenas y decenas sern los dgitos gua ("tallos") y las
unidades representarn las "hojas". Los tallos se separan de las hojas por medio
de una lnea a todo lo largo del intervalo de valores (en nuestro ejemplo los tallos
van de 10 a 17) y cada valor de las hojas (unidades) se escribe en el rengln del
tallo (centenas y decenas) que corresponda (Tabla 1.2).
8
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
9
Captulo 1. Diagramas de tallo y hoja
Tabla 1.2 Diagrama de tallo y hoja para los datos de anchura mandibular (mm)
del canguro Macropus fuliginosus (hembras)
Profundidad
1 10|8
1 11|
3 12|79
11 13|00123459
(7) 14|0112388
7 15|003378
1 16|
1 17|4
10
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
L = n1/2 (1.2)
11
Captulo 1. Diagramas de tallo y hoja
Tabla 1.3 Diagrama de tallo y hoja para los datos de anchura mandibular (mm)
del canguro Macropus fuliginosus (hembras), variacin asterisco punto.
Profundidad
1 10 |8
1 11* |
1 11 |
1 12* |
3 12 |79
9 13* |001234
11 13 |59
(5) 14* |01123
9 14 |88
7 15* |0033
3 15 |78
1 16* |
1 16 |
1 17* |4
Este desplegado (Tabla 1.3) utiliza 14 lneas con una amplitud de intervalo de 5,
valor que es la mitad de la primera potencia de 10.
12
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Tabla 1.4 Diagrama de tallo y hoja para los datos de anchura mandibular (mm)
del canguro Macropus fuliginosus (hembras), variacin de 5 lneas por tallo
Profundidad
1 10 |8
1 11* |
1 11t |
1 11f |
1 11s |
1 11 |
1 12* |
1 12t |
1 12f |
2 12s |7
3 12 |9
6 13* |001
8 13t |23
10 13f |45
10 13s |
11 13 |9
(3) 14* |011
11 14t |23
9 14f |
9 14s |
9 14 |88
7 15* |00
5 15t |33
3 15f |
3 15s |7
2 15 |8
1 16* |
1 16t |
1 16f |
1 16s |
1 16 |
1 17* |
1 17t |
1 17f |4
13
Captulo 1. Diagramas de tallo y hoja
Tabla 1.4 Diagramas de tallo y hoja en espejo por sexos para los datos de
anchura mandibular del canguro Macropus fuliginosus
En las tablas 1.4 y 1.5 se aplican estas variantes a los datos de anchura
mandibular de canguros. Se comparan los valores de machos y hembras. Puede
notarse que el nivel (lugar de concentracin) de los valores de los machos es
14
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
mayor que el de las hembras (en general los machos tienen mandbulas ms
anchas que las hembras), si bien, existi en la muestra una hembra con ancho
mandibular muy grande (174) como para ser el valor mayor de todos los
individuos.
Figura 1.1 Horario de salida de los trenes hacia el centro (izquierda) y desde el
centro (derecha) de la estacin Nezu (cerca de la Universidad de Tokio) lnea
Chiyoda.
15
Captulo 1. Diagramas de tallo y hoja
Tabla 1.5 Diagramas de tallo y hoja en paralelo por sexos para los datos de
anchura mandibular del canguro Macropus fuliginosus
Machos Hembras
0 10| 1 10|8
0 11| 1 11|
0 12| 3 12|79
1 13|3 11 13|00123459
7 14|466779 (7) 14|0112388
(12) 15|114466788999 7 15|003378
6 16|016679 1 16|
0 17| 1 17|4
9
5 8
4 8 8
3 3 7
2 2 3
1 1 3
0 1 0
8 7 0 0 0 4
10 11 12 13 14 15 16 17
16
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
1.4 Resistencia
17
Captulo 1. Diagramas de tallo y hoja
18
Captulo 2. Resmenes resistentes de
nivel y dispersin
Los resmenes estadsticos clsicos para un lote de datos constituido por n
observaciones incluyen una medida de nivel y otra de dispersin. Estos valores
son la media aritmtica (o promedio) y la varianza respectivamente. La media y la
varianza no son las nicas medidas de nivel y dispersin. En ocasiones (por
ejemplo cuando existen casos extraordinarios), en la fase exploratoria de los
datos resulta conveniente el considerar otros resmenes numricos que se basen
en el conteo y orden de las observaciones. Estos resmenes, entre otras ventajas,
son resistentes a diferencia de la media y varianza, las cuales son afectadas por
un slo valor extraordinario.
500, 440, 560, 435, 490, 540, 490, 460, 480, 475 y 485
R.A. 1 2 3 4 5 6 7 8 9 10 11
R.D. 11 10 9 8 7 6 5 4 3 2 1
Prof.: 1 2 3 4 5 6 5 4 3 2 1
435, 440, 460, 475, 480, 485, 490, 490, 500, 540, 560
Los valores con profundidad igual a 1 representan los extremos y son los
valores con el valor menor y mayor del lote de datos. En el ejemplo considerado
los extremos son 435 y 560.
20
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
n = 11
Prof. Longitud total
______________________
Mediana (M) 6 | 485 |
Cuartos (F) 3.5 | 467.5 495 |
Extremos 1 | 435 560 |
De esta forma, para las 11 longitudes, podemos decir que tpicamente los
peces en la muestra miden 485 mm y que aunque pueden medir desde 435 hasta
560 mm de longitud patrn, la mitad de los peces tuvieron una longitud
comprendida entre 467.5 y 495.
21
Captulo 2. Resmenes resistentes de nivel y dispersin
Mediana M
Cuartos (Fourths) F
Octavos (Eights) E
1/16 D
1/32 C
1/64 B
1/128 A
1/256 Z
1/512 Y
1/1024 X
1/2048 W
22
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
valor que resulta un poco menor que la media (486.82) y la mediana (485).
(440 + 460 + 475 + 480 + 485 + 490 + 490 + 500 + 540)/9 = 484.44
23
Captulo 2. Resmenes resistentes de nivel y dispersin
Para resumir la dispersin se busca un valor que nos indique que tan
concentrados estn los datos. Una medida resistente simple es la dispersin de
los cuartos, que se define como:
F-dispersin = dF = FU - FL
24
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
(todos los valores dentro del intervalo definido por los cuartos y hasta las cotas
internas constituyen los valores adyacentes) y
dF = FU - FL
dF = ( + 0.6745) - ( - 0.6745)
dF = 0.6745 + 0.6745
finalmente:
dF = 1.349
= dF/1.349
25
Captulo 2. Resmenes resistentes de nivel y dispersin
26
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
27
Captulo 2. Resmenes resistentes de nivel y dispersin
28
Captulo 3. Diagramas de caja y bigotes
Se afirma que los diagramas de caja (tambin conocidos como diagramas de caja
y bigotes) constituyen la herramienta grfica analtica ms til para el estudio de
lotes de nmeros (Deleon y Anagnoson, 1991). Los diagramas de caja estn
basados en el resumen de cinco nmeros descrito en el captulo anterior y en la
dispersin de los cuartos del lote de datos. Estos desplegados muestran
caractersticas tales como:
- Nivel y localizacin
- Dispersin
- Valores extraordinarios
29
Captulo 3. Diagramas de caja y bigotes
30
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Tabla 3.2 Diagrama de tallo y hoja para longitud nasal (mm) en crneos de
hembras de Macropus fuliginosus
N = 25 Unidad de hoja = 1
4t |34 representa 434
Profundidad
1 4t | 34
1 4f |
1 4s |
3 4 | 94,97
4 5* | 03
6 5t | 22,32
10 5f | 49,52,53,54
(7) 5s | 68,70,71,71,71,74,78
8 5 |
8 6* | 02,03
6 6t | 25,36
4 6f | 46,53
2 6s | 67
1 6 | 99
31
Captulo 3. Diagramas de caja y bigotes
n = 25
Prof. Longitud nasal
______________________
Mediana (M) 13 | 571 |
Cuartos (F) 7 | 549 603 |
Extremos 1 | 434 699 |
32
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
700
650
600
550
500
450
Figura 3.1 Diagrama de caja y bigotes para longitud nasal (mm) en crneos de
hembras de Macropus fuliginosus
33
Captulo 3. Diagramas de caja y bigotes
Machos Hembras
34
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
d
Mediana 1.58 F
n
Los lotes cuyos intervalos indicados por las muescas no se traslapan son
significativamente diferentes con un nivel de significancia aproximado del 5 %
(este es un nivel individual del 5 %, esto es, no se hace ajuste respecto al nmero
de comparaciones realizadas). El factor 1.58 combina contribuciones
provenientes de tres fuentes distintas: F-pseudosigma, la variabilidad de la
mediana de la muestra y el factor utilizado en el establecimiento de los lmites de
confianza de acuerdo a la siguiente expresin:
d F 1.7 d
1.58 F
1.349 2 n n
830
Longitud nasal (mm)
730
630
530
430
Machos Hembras
Figura 3.3 Diagramas de caja con muescas para longitud nasal de machos y
hembras en canguros Macropus fuliginosus
35
Captulo 3. Diagramas de caja y bigotes
240
Amplitud de la cresta (mm)
200
160
120
80
40
0
1 2 1 2 1 2
M. giganteus M. melanopus M. fuliginosus
Figura 3.4 Diagramas de caja mltiples con muesca para la amplitud de la cresta
craneal por sexo (1 = machos; 2 = hembras) y por especie de canguros.
36
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
dF = c M b (1)
37
Captulo 3. Diagramas de caja y bigotes
20,000
15,000
Poblacin (X1000)
10,000
5,000
0
Ecu Chi Cuba Can Arg Per Mx Ven Col E.U.A. Bra
38
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
39
Captulo 3. Diagramas de caja y bigotes
40
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Ecu Chi Cuba Can Arg Per Mx Ven Col E.U.A. Bra
Figura 3.7 Diagramas de caja para valores logartmicos (base 10) de poblacin de
las 10 ciudades ms pobladas de pases del continente americano.
41
Captulo 3. Diagramas de caja y bigotes
Para una discusin detallada de cada caso consultar Emerson y Stoto (1983) In:
Hoaglin et al., (1983). Detalles adicionales de este grfico se incluyen en Salgado-
Ugarte (1992).
Los diagramas de la Figura 3.8 para cada una de las variables son
idnticos. Sin embargo, al obtener los diagramas de tallo y hoja (Tabla 3.7) es
posible observar que las tres variables tienen distribuciones diferentes: X posee
una distribucin rectangular (uniforme), Y manifiesta una clara tendencia
bimodal y Z muestra una distribucin concentrada en el centro (quizs con
mayor nmero de observaciones pudiera tender a ser gaussiana).
42
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Sin embargo, el diagrama de tallo y hoja para estos datos (Tabla 3.8) hace
patente su distribucin bimodal. Este tipo de distribuciones hace complicado
medir su nivel. Por ejemplo, la media del conjunto anterior de nmeros es 4.77,
valor que ocurre precisamente en donde se encuentra el hueco que separa los
dos subgrupos de datos. La mediana (2.8) tampoco es una estimacin adecuada.
43
Captulo 3. Diagramas de caja y bigotes
10
8
Valor de variable
4 2
0 6
X Y Z
Tabla 3.7 Diagramas de tallo y hoja en paralelo para datos modificados de Deleon
y Anagnoson (1991)
44
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
10
8
6
4
2
0
45
Captulo 3. Diagramas de caja y bigotes
Tabla 3.8 Diagrama de tallo y hoja para datos bimodales (Hartwig y Dearing,
1979)
Profundidad
31 0 | 1222222233334444555567778888899
41 1 | 0122233446
(7) 2 | 2223679
46 3 |
46 4 |
46 5 | 5
45 6 | 16
43 7 | 046
40 8 | 01114555677889
26 9 | 00011122223334566677788899
46
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
47
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
1 2 3 4
Frecuencia
48
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Histogramas
a} b}
10
5
8
4
6
3
Frecuencia
Frecuencia
4
2
2
1
0
100 120 140 160 180 100 120 140 160 180
Anchura mandibular (mm) Anchura mandibular (mm)
49
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
a} b}
8
8
6
6
Frecuencia
Frecuencia
4
4
2
2
0
100 120 140 160 180 100 120 140 160 180
Anchura mandibular (mm) Anchura mandibular (mm)
Se puede apreciar para los mismos datos que el de la izquierda tiene una
sola moda principal, mientras que el derecho posee dos modas.
k = 1 + log 2 n (1)
50
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
/
3.5 (2)
3.5*13.2177*25^(-1/3) = 15.8213
a} b}
10
10
8
8
6
6
Frecuencia
Frecuencia
4
4
2
2
0
100 120 140 160 180 100 120 140 160 180
Anchura mandibular (mm) Anchura mandibular (mm)
51
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
(3)
52
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
comunes. Con excepcin del kernel uniforme, todas estas funciones varan
gradualmente con una altura mxima en el centro y valores mnimos hacia los
extremos (figuras 4.6 y 4.7). Notar que el sostn de las funciones es de -1 a 1 con
excepcin del kernel uniforme que se calcula desde - a +, aunque en la
prctica los algoritmos se limiten a un intervalo menor (como de -4 a 4).
a} b}
1
1
.5
.5
0
-1 -.5 0 .5 1 -1 -.5 0 .5 1
53
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
-4 -2 0 2 4
54
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
/
1.06 (4)
/
1.144 (5)
55
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Ejemplos
Los EDKs correspondientes se presentan en las figuras 4.8 y 4.9. Como era
de esperar, el estimador sobresuavizado es muy parecido a una campana de
Gauss salvo por alguna indicacin de colas gruesas. El EDK ptimo hace patente
la existencia de valores en los extremos (menor y mayor) algo separados de la
tendencia gaussiana de los dems. Para conclusiones ms slidas sobre la
distribucin sera necesario aumentar el tamao de la muestra. Con 25 datos, el
resultado es bastante gaussiano como para respaldar la aplicacin de mtodos
estadsticos confirmatorios tradicionales.
.03
.02
Densidad
.01
0
Figura 4.8 Estimador de densidad por kernel gaussiano con amplitud de banda
sobresuavizada (7.94) para anchura mandibular de hembras del canguro
Macropus fuliginosus.
56
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
.03
.02
Densidad
.01
0
Figura 4.9 Estimador de densidad por kernel gaussiano con amplitud de banda
ptima (6) para anchura mandibular de hembras del canguro Macropus
fuliginosus.
57
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
a} b}
.5
.5
.4
.4
.3
.3
Densidad
Densidad
.2
.2
.1
.1
0
0
0 2 4 6 8 0 2 4 6 8
Duracin de erupcin (min) Duracin de erupcin (min)
58
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Longitud de bagres
a} b}
.02
.02
.015
.015
Densidad
Densidad
.01
.01
.005
.005
0
0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350
Longitud patrn (mm) Longitud patrn (mm)
59
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
valores compatibles con un nmero dado de modas), se tiene que cuatro modas
se presentan de 9.63 a 3.88. Si se considera un valor intermedio (9.63 + 3.88)/2
= 6.75, la prueba de Silverman recomienda una banda un poco mayor que la
obtenida mediante la recomendacin emprica. Una explicacin detallada de la
aplicacin de esta prueba se presenta en Salgado-Ugarte (2002).
Figura 4.12 Estimador de densidad por kernel gaussiano con amplitud de banda
de 6 (mitad del valor ptimo) para la longitud patrn de hembras e
indeterminados del bagre Cathorops melanopus
60
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
Debido a que este programa requiere el clculo de pesos locales para cada
observacin individual con base en una estimacin preliminar de densidad, el
tiempo requerido para finalizar el clculo es proporcional al nmero de
observaciones. Si se tiene un lote con muchos nmeros se requiere paciencia.
61
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
.025
.02
.015
Densidad
.01 .005
0
Figura 4.13 Estimador de densidad por kernel gaussiano con amplitud de banda
variable, con media geomtrica de 6 (mitad del valor ptimo) para la longitud
patrn de hembras e indeterminados del bagre Cathorops melanopus
Diagramas de violn
62
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos. Un enfoque biomtrico
174
169
156
141
133
108
63
Captulo 5. Re-expresin de los datos
65
Emerson y Stoto (1983) definen a la transformacin del lote con valores x1,
x2, ... , xn , como una funcin T que reemplaza cada valor de x1 por un valor
nuevo T(x1) de tal forma que los valores transformados son T(x1),..., T(xn). Como
se vio en la parte referente al grfico dispersin-nivel, resulta conveniente
utilizar una familia importante de transformaciones denominada
transformaciones potenciales, las cuales como su nombre lo indica, implican
una modificacin de la potencia a la que estn elevados los datos originales.
Existe un nmero infinito de potencias posibles a la cual pueden elevarse las
observaciones, sin embargo, en la prctica se utilizan aquellas incluidas en la
Escala de Potencias de Tukey, la cual contiene exponentes enteros o
constituidos por fracciones simples (Tukey, 1977; Emerson y Stoto, 1983;
Marsh, 1988). La definicin de transformacin arriba citada es muy amplia y
puede incluir desde la substitucin de todos las observaciones por un valor
constante, la categorizacin de los valores, o la aplicacin de funciones
matemticas complicadas adems de las sugeridas por la escala de potencias.
Sin embargo, en este captulo se considerarn los ltimos dos tipos, los cuales
han manifestado tener las siguientes caractersticas:
66
0
(5.1)
log 0
donde a, b, c, d y p son nmeros reales. Se requiere que a > 0 para p > 0 y a <
0 para p < 0 si se quieren cumplir con las condiciones 1 a 5 arriba listadas.
Los valores a, b, c y d son determinados por conveniencia, mientras que el de
p se escoge para ayudar en el anlisis de los datos (Emerson y Stoto, 1983).
0
log 0 (5.2)
0
0
(5.3)
ln 0
67
Existen varios motivos para re-expresar los datos originales. Entre ellos
pueden citarse (Emerson y Stoto, 1983; Marsh, 1988):
5
32
9
En otras ocasiones, el analizar un conjunto de datos en una escala
nueva puede mejorar su comprensin, an cuando la escala re-expresada
parezca menos natural que la original. Por ejemplo, considerar una poblacin
de peces en un reservorio reciente con las condiciones propicias para el
desarrollo de los peces que permita un crecimiento proporcional al nmero de
peces existente en cualquier momento; en tales circunstancias el tamao
poblacional es una funcin exponencial del tiempo. Si esto ocurre, los valores
logartmicos de la poblacin, al graficarse contra el tiempo, describirn un
68
Estos resmenes centrales (para todas las letras posibles del conjunto
de datos) debern ser iguales a la mediana en una distribucin simtrica; si
existe sesgo hacia la derecha, los valores centrales aumentarn gradualmente
al avanzar hacia los valores extremos; si el sesgo es hacia la izquierda se
notar un patrn decreciente en los valores centrales. Al utilizar a los
resmenes centrales se obtiene resistencia que revelar en algunos casos que
la aparente asimetra es debida a la presencia de unos cuantos valores
extraordinarios que afectarn slo a los resmenes centrales de los extremos
de la secuencia de datos (Emerson y Stoto, 1983).
Para observar lo anterior se utilizarn los datos del peso total de los
bagres (Arius melanopus) de la laguna de Tampamachoco, Ver., capturados de
1980 a 1981 (Salgado-Ugarte, 1985). Se analiz una muestra de 2439
individuos cuyo resumen de letras se proporciona en la Tabla 5.1.
1
6.80 92.4 49.600
2
Al sustituir los valores correspondientes se calcula el total de los valores
centrales. En esta Tabla (5.1), es claro apreciar que existe una tendencia al
incremento de los valores centrales al acercarse a los extremos de la
distribucin (al disminuir la profundidad): el centro de W es aproximadamente
69
Tabla 5.1 Resumen de letras para una muestra de pesos de bagres (Arius
melanopus) de la laguna de Tampamachoco, Ver. (Peso total en gramos)
N = 2439
Profundidad Inferior Central Superior
M 1220.0 30.500
F 610.5 6.80 49.600 92.40
E 305.5 5.00 66.375 127.75
D 153.0 3.80 75.600 147.40
C 77.0 3.00 84.400 165.80
B 39.0 2.50 91.850 181.20
A 20.0 2.10 100.050 198.00
Z 10.5 1.80 108.500 215.20
Y 5.5 1.55 113.300 225.05
X 3.0 1.40 117.200 233.00
W 2.0 1.30 120.250 239.20
1.0 1.20 120.550 239.90
(5.4)
(5.5)
70
(5.6)
Tabla 5.2 Clculos del grfico de transformacin para simetra en los pesos de
bagres
(1) (2) (3) (4) (5)
Valor Estimacin
de letra 2 4 de
potencia
F 6.800 92.400 19.10 36.01 0.469601
E 5.000 127.750 35.88 82.85 0.566993
D 3.800 147.400 45.10 117.86 0.617331
C 3.000 165.800 53.90 156.25 0.655037
B 2.500 181.200 61.35 192.58 0.681427
A 2.100 198.000 68.55 236.58 0.706019
Z 1.800 215.200 78.00 286.38 0.727630
Y 1.550 225.050 82.80 317.11 0.738894
X 1.400 233.000 86.70 343.06 0.747272
W 1.300 239.200 89.75 364.00 0.753435
Nota: la mediana M es 30.5; las columnas con datos numricos se han
redondeado a las cifras indicadas
71
Tabla 5.3 Resmenes de letras con valores centrales para los datos de peso
total de bagres re-expresados en escala de raz cuadrada y logaritmos
Escala de raz cuadrada Escala Logartmica
N = 2439
Letra Prof.
M 1220.0 5.523 1.484
F 610.5 2.608 7.043 9.612 0.833 1.695 1.966
E 305.5 2.236 8.147 11.303 0.699 1.822 2.106
D 153.0 1.949 8.695 12.141 0.580 1.879 2.168
C 77.0 1.732 9.187 12.876 0.477 1.926 2.220
B 39.0 1.581 9.584 13.461 0.398 1.963 2.258
A 20.0 1.449 10.002 14.071 0.322 2.000 2.297
Z 10.5 1.342 10.416 14.670 0.255 2.035 2.333
Y 5.5 1.245 10.644 15.002 0.190 2.054 2.352
X 3.0 1.183 10.826 15.264 0.146 2.069 2.367
W 2.0 1.140 10.966 15.466 0.114 2.080 2.379
1.0 1.095 10.980 15.489 0.079 2.081 2.380
72
100
80
Columna 3
60
40
20
0
Figura 5.1 Grfico de transformacin para simetra para los datos del peso
total de bagres (la pendiente de la recta es aprox. 0.3 con origen en cero).
Tabla 5.4 Resumen de letras con valores centrales para los datos de peso
total de bagres re-expresados en escala del inverso negativo de la raz
cuadrada
Inverso negativo de raz cuadrada
N = 2439
Letra Profundidad
M 1220.0 -0.181
F 610.5 -0.383 -0.142 -0.104
E 305.5 -0.447 -0.123 -0.088
D 153.0 -0.513 -0.115 -0.082
C 77.0 -0.577 -0.109 -0.078
B 39.0 -0.632 -0.104 -0.074
A 20.0 -0.690 -0.100 -0.071
Z 10.5 -0.745 -0.096 -0.068
Y 5.5 -0.803 -0.094 -0.067
X 3.0 -0.845 -0.092 -0.066
W 2.0 -0.877 -0.091 -0.065
1.0 -0.913 -0.091 -0.065
73
Escala
Raz cuadrada: 10.980/5.23 = 2.099
Logartmica: 2.081/1.484 = 1.402
Inverso negativo de la raz cuadrada: -0.181/-0.091 = 1.989
La transformacin de los datos es til cuando se trabaja con datos que poseen
estructuras diferentes. Entre estas cabe citar cuando se analizan varios lotes
con diferentes niveles, pares de variables relacionadas (datos x-y) y tablas con
dos vas de clasificacin (de dos factores).
74
75
Los datos se han tomado del ya citado trabajo sobre el bagre estuarino
Arius melanopus de la laguna de Tampamachoco en Veracruz (Salgado-Ugarte,
1985) considerando a las hembras y juveniles de un muestreo mensual (Tabla
5.5). Dicha tabla contiene los valores de Longitud Patrn (medida en mm
desde la punta del hocico hasta el extremo del lbulo carnoso de la cola) y el
Peso Total (en gr). Dichos puntos se presentan en la Figura 5.2, en la cual se
aprecia una tendencia curvilnea en la relacin.
Tabla 5.5 Datos de longitud patrn y peso total de bagres para promocin de
linealidad (muestra de mayo).
No. Sexo Longitud Peso No. Sexo Longitud Peso
patrn total patrn total
(mm) (gr) (mm) (gr)
1 2 145 43.1 25 2 175 68.4
2 2 127 24.8 26 2 167 76.1
3 2 158 55.8 27 2 117 23.6
4 2 193 107.4 28 2 186 86.8
5 2 153 46.9 29 2 105 18.2
6 2 166 70.7 30 2 112 20.1
7 2 98 13.5 31 2 135 39.5
8 2 220 161.1 32 2 239 196.4
9 2 167 83.2 33 3 105 17.6
10 2 240 181.5 34 3 104 13.8
11 2 174 105.7 35 3 100 14.2
12 2 214 147.4 36 3 111 17.9
13 2 147 41.8 37 3 107 16.7
14 2 187 101.0 38 3 103 12.5
15 2 227 183.7 39 3 155 46.9
16 2 240 167.6 40 3 118 20.3
17 2 204 130.6 41 3 98 12.4
18 2 185 106.1 42 3 119 23.3
19 2 222 137.4 43 3 101 14.1
20 2 236 141.6 44 3 108 16.2
21 2 210 137.8 45 3 108 17.0
22 2 227 148.7 46 3 124 25.1
23 2 106 18.4 47 3 123 25.5
24 2 100 15.1
Nota: La clave para el sexo vale 2 para hembras y 3 para individuos
inmaduros.
76
77
200
150
Peso total (gr)
100 50
0
78
Si se substituye log y por y', log a por a' y log x por x', se tiene entonces
la expresin de una relacin lineal:
79
80
2.5
Logaritmo del Peso total
1.5 1 2
Pendientes mitad
Relacin LP-PT LP-RazPT LP-LogPT RazLP- LogLP-
mitad LogPT LogPT
Izquierda 0.6345 0.0597 0.009961 0.2228 2.863
Derecha 1.3800 0.0750 0.007295 0.1959 3.019
Razn de pendientes-mitad
Relacin LP-PT LP-RazPT LP-LogPT RazLP- LogLP-
LogPT LogPT
2.175 1.256 0.732 0.8793 1.054
81
z a bT x (5.8)
Una gran parte de las tcnicas para el anlisis exploratorio de datos son
"transparentes" a los cambios lineales en la escala. Como vimos en la parte
introductoria, para alterar significativamente la escala de medicin se requiere
una modificacin de los exponentes de los datos. De esta manera si se aplica
la expresin 5.8, el resultado cambia de un valor r al valor: a + br; br no
cambia (sigue siendo r). Si por ejemplo, los pesos y longitudes de peces se han
reportado en libras y pulgadas, no habr de dudarse en cambiarlos a gramos
y centmetros. Lo anterior es vlido para las estimaciones de nivel, localizacin,
y pendientes, as como para el mtodo del pulido de mediana (Captulo 10).
Por lo tanto, si se aplica alguno de estos mtodos a datos re-expresados, es
posible realizar una transformacin lineal adicional.
82
b (5.9)
T
y
(5.10)
(5.11)
y por tanto
(5.12)
(5.13)
y de esta forma:
(5.14)
finalmente
(5.15)
83
1 0.4343
de donde calculamos b
1 30.5
70.2
0.4343
70.2 73.7
70 70
Se puede notar tambin que aunque los valores centrales varan poco,
cada transformacin comprime los valores superiores y ampla a los inferiores
de tal forma que se obtienen nmeros negativos.
84
Cuadro 5.7 Resumen de letras con valores centrales para los datos de
peso total de bagres re-expresados mediante transformaciones
emparejadas
Datos originales Logaritmo
M 30.500 33.901
F 6.800 49.600 92.400 -11.724 48.684 67.597
E 5.000 66.375 127.750 -21.072 57.540 77.445
D 3.800 75.600 147.400 -29.415 61.497 81.795
C 3.000 84.400 165.800 -36.602 64.844 85.371
B 2.500 91.850 181.200 -42.144 67.416 88.071
A 2.100 100.050 198.000 -47.445 70.015 90.767
Z 1.800 108.500 215.200 -52.131 72.480 93.299
Y 1.550 113.300 225.050 -56.677 73.796 94.660
X 1.400 117.200 233.000 -59.771 74.825 95.715
W 1.300 120.250 239.200 -62.024 75.606 96.513
1.200 120.550 239.900 -64.457 75.682 96.602
85
- En datos bivariados o tablas de dos vas los residuos son la gua para
aplicar o no transformacin potencial; cuando son muy grandes o muestran
un comportamiento sistemtico la re-expresin ser efectiva en la
simplificacin y explicacin de la estructura de los datos.
86
(6.1)
Una forma comn para describir a la pendiente es citarla como "el cambio en
y por la variacin en x ". La declaracin "las ventas han crecido en 5,500,000
pesos por ao" especifica una pendiente (Velleman y Hoaglin, 1981).
87
Interceptoa=valordeycuandox=0
(xI,yI)
Cambiodey
(xD,yD)
Grupo n = 3k n = 3k + 1 n = 3k = 2
=============================================================
Izquierdo k k k+1
Central k k+1 k
Derecho k k k+1
=============================================================
nombran las tercias como izquierda (I), central (C), y derecha (D) de acuerdo al
orden (de menor a mayor) de los valores de x, los tres puntos resumen se
denotarn por
(xI , yI )
(xC , yC )
(xD , yD )
15
10
5
0
0 10 20 30
Con los puntos resumen es factible calcular los valores del intercepto (a) y la
pendiente (b). Esta ltima se determina mediante la expresin (6.1)
90
y de lo anterior
1
3
1
3
6.4 Residuos
91
, , .
92
93
(Al encontrar los valores resumen, conviene anotar que el valor valores que
determinan la mediana de x y aquellos que determinan la mediana de y no
necesitan provenir de los mismos puntos en los datos).
284 236
80
3.14 2.54
y el valor de a es:
1
3
32.2667 80 ,
94
310 290
Longitud total (mm)
270 250
230
Figura 6.3 Relacin radio del otolito longitud total del cuerpo
(2.54, 4.933)
(2.86, -1.07)
(3.14, 0.533)
. .
7.3333.
. .
b2 = 80 - 7.3333 = 72.6667.
95
Esta lnea indica que la longitud total del pez se relaciona con el
aumento en los radios del otolito a razn de unas 74 unidades de longitud por
cada milmetro de radio posterior. El intercepto de la lnea final puede
interpretarse como el tamao del pez al originarse el otolito (afirmacin que
amerita verificacin).
96
/ ,
97
60
40
Residuos finales
20
0
-20
98
100
300
280
260
240
220
101
Las secuencias de datos son una forma especial de pares ordenados (x,
y) en los cuales los valores de x son importantes por el orden que especifican
(sea respecto al tiempo, espacio, edad, tamao, etc.). Por tanto es posible
referirse a un dato como "anterior a" o "previo a" otro valor an cuando la
ordenacin no sea temporal. De acuerdo con lo anterior se puede utilizar el
subndice "t" para definir el orden de y.
103
100
Temperatura no.pulsos/min
Precipitacin pluvial (mm)
40 60 80
Media mensual
50 100
10
104
Medianas corredizas
105
8 10.1 12.2
8 10.1 12.2
Mortalidad suavizada
Tasa de mortalidad
5.9
3.8 5.9
3.8
8 10.1 12.2
-2.3-1.2-.1 1 2.13.24.35.46.5
Mortalidad suavizada
Residuos
3.8 5.9
1910 1914 1918 1922 1910 1914 1918 1922
Tiempo (aos) Tiempo (aos)
1 2 3 4 5 6 7 8 9 10 11 12
106
{ yt }
{ zt } o secuencia suavizada y
{ rt } o secuencia rugosa
107
Observados Suavizados
108
z3 = med(y1 , y2 , y3 , y4 , y5 )
z2 = med(y1 , y2 , y3 )
z1 = y1
109
Tabla 7.1 Suavizacin del nmero mensual de manchas solares por medianas
corredizas de tres y cinco
ndice de tiempo No. de manchas Suavizado por Suavizado por
medianas medianas
corredizas de 3 corredizas de 5
158 73 73 73
159 46 60 60
160 60 46 60
161 40 60 46
162 77 40 60
163 34 68 68
164 68 68 68
165 68 68 68
166 69 69 69
167 78 77 69
168 77 77 69
169 56 56 56
170 32 34 34
171 34 33 33
172 33 33 33
173 33 33 34
174 36 36 33
175 54 36 36
176 26 54 46
177 68 46 54
178 46 61 61
179 61 61 61
180 61 61 60
181 60 60 60
182 60 60 60
183 40 40 44
184 34 40 40
185 44 34 34
186 30 30 30
187 30 30 30
188 30 30 30
110
80
60
40
Valores suavizados
20
111
Debido a que los valores primero y final slo aparecen en una de las dos
expresiones, estos tienen la mitad del peso que los dems.
a) Medianas corredizas de 4
70
60
50
Valores suavizados
40
30
b) Medianas corredizas de 4 y 2
70
60
50
40
30
Mientras mayor sea la amplitud, mayor ser la resistencia del suavizador a los
casos extraordinarios. Esto se aclara si se considera que, por ejemplo, las
medianas corredizas de amplitud 2 son sensibles a cualquier dato
extraordinario. Las amplitudes 3 y 4 resisten datos pronunciados aislados (no
consecutivos). Las medianas corredizas de 3 sern afectadas por pares de
casos extraordinarios en los grupos de 3. Las medianas mviles de amplitud 4
reducirn aproximadamente a la mitad el efecto de 2 valores pronunciados.
Las medianas corredizas de amplitud 5 no sern afectadas por dos casos
extraordinarios en los grupos de 5.
112
Tabla 7.2 Suavizacin del nmero mensual de manchas solares por 4 y luego
por 2
ndice de tiempo No. de manchas Suavizado por 4 Suavizado por 42
158 73 73.0 73.00
159 46 59.5 56.25
160 60 53.0 53.00
161 40 53.0 51.50
162 77 50.0 52.00
163 34 54.0 61.00
164 68 68.0 68.00
165 68 68.0 68.25
166 69 68.5 70.75
167 78 73.0 73.00
168 77 73.0 69.75
169 56 66.5 55.75
170 32 45.0 39.25
171 34 33.5 33.25
172 33 33.0 33.25
173 33 33.5 34.00
174 36 34.5 34.50
175 54 34.5 39.75
176 26 45.0 47.50
177 68 50.0 51.75
178 46 53.5 57.25
179 61 61.0 60.75
180 61 60.5 60.50
181 60 60.5 60.25
182 60 60.0 55.00
183 40 50.0 46.00
184 34 42.0 39.50
185 44 37.0 34.50
186 30 32.0 31.00
187 30 30.0 30.00
188 30 30.0 30.00
30.0
Hasta este punto los valores al inicio y al final de la secuencia, debido a que
no pueden suavizarse, se han copiado sin alteracin. Sin embargo, este
proceder no es muy adecuado si el objetivo es la suavizacin de la secuencia
completa. Para esto, Tukey (1977) propone el empleo de la mediana de tres
valores:
2 /
3 2
3 2
, , )
, , )
114
0 1 2 3 4 5 6 7 8 9 10
t
115
116
80
70
Valores suavizados
50 40
30 60
119
a) 4253H,doble
b) 43R5R2H,doble
c) 3RSSH
d) 53H,doble
120
121
122
80
11
10
70 9 12
8
Valores suavizados
2
11 12
60
7 1
10
3 1
2
6 9
4
50
8
3
2
40
7
4
3 6
4 5 5
6
30
7 8
Figura 7.11 Suavizador 4253EH,doble. Los nmeros al lado de los puntos son
los meses del ao (de febrero de 1762 a agosto de 1764)
123
124
dispersin = c N b
Por lo tanto:
126
625 520
No. de pasajeros areos
310 415
205
100
0
log 0
0
p=1-b
127
128
-.2 -.22
Inverso negativo de raz cuarta
-.28 -.26 -.3
-.32-.24
129
131
132
c) Valores fuera de las cotas internas pero sin igualarse a las cotas
externas (codificados por los signos #, equivalente a un signo + "doble", o un
signo =, interpretado como un signo - "doble").
d) Valores mas all de las cotas externas (codificados por las letras P de
la palabra inglesa Plus, M de Menos).
133
134
135
10 20
30 40
136
137
138
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985 1986 1987
139
Una tabla de dos-vas con tres variables es un conjunto de datos en el cual las
observaciones se escriben:
141
clasificacin cruzada que contienen frecuencias, sin embargo, estos dos tipos
de tablas son diferentes y deben tratarse por mtodos propios (Marsh, 1988).
142
de forma abreviada:
En donde el
143
Primer Ciclo
+38.1 +36.7 +25.7 +23.5 +31.20 +6.90 +5.50 -5.50 -7.70
+37.3 +27.0 +27.1 +27.6 +27.35 +9.95 -0.35 -0.20 +0.25
+7.7 +12.2 +21.8 +13.0 +12.60 -4.90 -0.40 +9.20 +0.40
+2.3 +6.4 +18.9 +25.5 +12.65 -10.00 -6.25 +6.25 +12.85
+20.00 +1.00 -0.375 +3.00 +0.325
+11.20 +5.90 +5.875 -8.50 -8.025
+7.35 +8.95 +0.025 -3.20 -0.075
-7.40 -5.90 -0.025 +6.20 +0.075
-7.35 -11.00 -5.875 +3.25 +12.525
144
Segundo Ciclo
+6.9750 +6.9500 -7.4250 -6.9500 -1.0750 +5.90 +5.875 -8.50 -8.0250
+8.9750 +0.0500 -3.2250 -0.0500 -0.0250 +8.95 +0.025 -3.25 -0.0750
-5.9250 -0.0500 +6.1750 +0.0500 +0.0250 -5.90 -0.020 +6.20 +0.0750
-10.0375 -4.5625 +4.5625 +13.8375 -1.3125 -11.35 -5.870 +3.25 +12.525
+0.5250 0.0000 0.6687 0.0000 -0.5500
+6.4500 +6.9500 -8.0930 -6.9500 -0.5250
+8.4500 +0.0500 -3.8930 -0.0500 +0.5250
-6.4500 -0.0500 +5.5062 +0.0500 +0.5750
-10.5625 -4.5625 +3.8937 +13.8375 -0.7625
145
Primer Ciclo
1 2 3
MF1 (1 2)
5 4
(MC2) (MC3)
7 6
(2 5) (3 4)
Segundo Ciclo
9 8 6
(6 8) (MF6) (Otra vez)
10 11
(MC9) (MC8)
12 13
(9 10) (8 11)
Resultado
MF = Medianas de fila
MC = Medianas de columna
Figura 9.1 Versin esquemtica del pulido de mediana (Adaptada de Marsh,
1988)
Se sugiere que el pulido se repita tantas veces como sea necesario para
que los efectos de fila y columna se encuentren cerca de cero (aproximados a
0.5 de cero). Por lo general, rara vez se requiere un nmero mayor de dos
iteraciones. Este procedimiento es otro ejemplo de la utilidad de las
computadoras para efectuar las operaciones de mtodos exploratorios
iterativos (los otros son la recta resistente y la suavizacin no lineal resistente).
Tabla 9.2 Pulido de mediana de los datos de la Tabla 9.1 (despus de dos
ciclos)
Tipo de Especie de pez
cido Dulceacucolas Marinos
graso sp1 sp 2 sp 3 sp 4
(1) (2) (3) (4)
19.45 1.525 -0.375 3.66875 0.325
(1) I 10.675 +6.4500 +6.9500 -8.09370 -6.9500
(2) II 7.875 +8.4500 +0.0500 -3.89470 -0.0500
(3) III -6.825 -6.4500 -0.0500 +5.50625 +0.0500
(4) IV -8.1125 -10.5625 -4.5625 +3.89375 +13.8375
Para examinar las desviaciones de cada valor respecto al ajuste (es decir,
los residuos) se utilizar una tabla codificada (Tabla 9.3). En esta puede
147
148
149
Tabla 9.7 Tabla codificada de residuos del pulido de mediana (Tabla 9.6)
Grados de Nivel de significancia ()
libertad 0.9 0.95 0.975 0.99 0.995
3 # + - =
6 + + - -
9
12
15 - +
18 - - + +
150
.....................(4)
El grfico de diagnstico consiste en graficar los pares (vcij, eij ), uno para cada
celda. En otras palabras se grafican los residuos contra los valores de
comparacin. Si los puntos de dicho diagrama no presentan ningn patrn
variacin sistemtica, puede concluirse que los datos no se apartan de forma
consistente del modelo aditivo (Velleman y Hoaglin, 1981; Emerson y Hoaglin,
1983c).
151
152
1.5
.5
Residuos
-.5
-1.5
153
-50 0 50 100
Valor de comparacin
154
155
Tabla 9.12 Codificacin de los residuos del pulido de mediana para los
datos re-expresados (logaritmos) de la Tabla 9.9
Ao
Pas 1975 1980 1985 2000
Corea del Sur + =
Malasia - +
Singapur +
Burma +
Japn + + - =
Bangladesh +
Vietnam -
India -
Tailandia -
Filipinas - - + +
Taiwan = +
China = = # #
Indonesia + -
156
157
250 150
200 LE
150
3
RAOI 2.5
2
3 1.5
2.5
RPOI
2
1.5 4
RAOD 3
2 2
1.5 RPOD
1
150 200 250 1.5 2 2.5 3 2 3 4
Figura 10.1 Matriz de grficos de dispersin para los machos del pez plano
ishigerei
158
200 LE
100 4
RAOI 3
2
4
3 RPOI
2
5
4
RAOD
3
3 2
2 RPOD
1
100 200 300 400 2 3 4 2 3 4 5
Figura 10.2 Matriz de grficos de dispersin para las hembras del pez plano
ihsigarei
159
LT
224
LE
130
3
RAOI
2
3
RPOI
2
4
RAOD
2.5
2
RPOD
1
150 250 150 210 2 3 2 3 2.5 4
Figura 10.3 Diagrama de escalera para medidas de los machos del pez plano
ishigarei
160
LT
300
LE
130
3.5
RAOI
2
4
RPOI
2
5
RAOD
2.5
2.5
RPOD
1
150 340150 290 2 3.5 2 3.5 3 5
Figura 10.4 Diagrama de escalera para medidas de hembras del pez plano
ishigarei
161
162
LT
800
600
LE
400
200
5000
PT
0
0 500 1000 200 400 600 800
Figura 10.5 Diagrama de escalera para datos de longitud y peso corporal del
suzuki
163
Log10(LT)
2.5 Log10(LE)
2
4
3
Log10(PT)
2
1
2 2.5 32 2.5 3
164
Una vez que se han investigado las caractersticas de los datos (nivel,
dispersin, distribucin y casos extraordinarios) es posible elegir el mtodo
estadstico apropiado para comparar valores y comprobar (o refutar)
hiptesis estadsticas.
165
La estadstica inferencial tiene dos tareas principales:
P ( k k ) 1 (11.1)
Figura 11.1 Esquema de una prueba bilateral (de dos colas). Las regiones
de no rechazo y rechazo quedan delimitadas por los valores crticos (vc).
166
Para rechazar o no una hiptesis nula se contrasta un valor
calculado a partir de la muestra y el valor de referencia para la
comparacin llamado estadgrafo de prueba. Este valor queda dentro de
una de las regiones sealadas en las Figuras 11.1 a 11.3 e indica la
decisin a tomar.
H0: = 0
Ha: 0
H0: 0 H0: 0
Ha: < 0 Ha: > 0
167
contraparte de la regin de no rechazo. Se puede recordar tambin que la
regin de rechazo en todos los casos queda bajo las colas de la distribucin
especificadas por los valores crticos. Estos valores crticos a su vez se
establecen al elegir la confianza (1 ) de la prueba o el nivel de
significancia ().
168
11.2 Tipos de error estadstico
169
A continuacin se presentan ejemplos de estimaciones por intervalo
y pruebas de hiptesis para los casos principales en el anlisis de lotes de
nmeros.
H0: = 751
Ha: 751
x 0
t (11.2)
s
n
656.96 751
t 7.64
61.5437
25
170
s s
P ( x t1 / 2, n 1 x t1 / 2, n 1 ) 1 (11.3)
n n
61.5437 61.5437
P (656.96 2.0639 656.96 2.0639 ) 0.95
25 25
Figura 11.4 Esquema de prueba bilateral (de dos colas) para los datos de
longitud nasal de M. fuliginosus y especie desconocida. El valor de t
calculada (- 7.64) queda claramente en regin de rechazo
171
H0: 751
Ha: < 751
172
que los machos tienen longitudes mayores ya que los intervalos definidos
por las muescas no se sobrelapan con los de las hembras.
12
H0: 2 1
2 2
2
1 2
12
Ha: 1 2 2 1
2 2
s12
F (11.4)
s 22 R0
3787.6233
Fc 1.0422
3634.3733(1)
173
El valor de tablas es F1-/2, glnum, glden = F0.975, 24, 24 = 2.269,
considerando una significancia () de 0.05, glnum (grados de libertad del
numerador) = n1 1 = glden (grados de libertad del denominador) = n2 1
= 25 -1 = 24 (en esta caso ya que n1 = n2 = 25 = 25).
1
F / 2, gl .num, gl .den (11.5)
F1 / 2, gl .den, gl .num
1 1
F0.025, 24, 24 0.4407
F0.975, 24, 24 2.269
174
Figura 11.6 Esquema de una prueba bilateral de dos colas con la
distribucin F de Fisher. Las regiones de rechazo de Ho quedan
delimitadas por los valores crticos F.025,24,24 = 0.4407 y F.975,24,24 = 2.269.
La F calculada queda en la regin de no rechazo de Ho.
H0: 1 2 1 - 2 0
Ha: 1 > 2 1 - 2 > 0
175
x1 x 2 0
t (11.6)
1 1
sp
n1 n2
En donde:
(n1 1) s12 (n2 1) s 22
s 2p (11.7)
n1 n 2 2
656.96 572.96 0
tc 4.8752
1 1
60.92
25 25
176
Figura 11.7 Esquema de la prueba unilateral de cola derecha. Las regiones
de no rechazo y rechazo de la hiptesis nula (Ho) quedan delimitadas por
el valor crtico de t = 1.6772.
177
calculados con los obtenidos de las tablas, se tiene que el valor de F
calculada (0.4006) es inferior al valor de las tablas (F.025,24,24 = 0.4407) por
lo que queda en la regin de rechazo de H0 (ver Figura 11.6).
180 160
Anchura mandibular (mm)
120 140
100
Machos Hembras
178
La comparacin de medias de dos grupos con varianzas desiguales
hace necesario el clculo ajustado de los grados de libertad para llevar a
cabo la prueba. Puede utilizarse la expresin de Satterthwaite (1946):
2
s12 s 22
gl n1 n 2 (11.8)
2 2
s12 s 22
n1 n 2
n1 1 n 2 1
o la de Welch (1947):
2
s12 s 22
gl n1 n 2 2 (11.9).
2 2
s12 s 22
n1 n 2
n1 1 n 2 1
x1 x 2 0
t (11.10)
s12 s 22
n1 n 2
179
Tabla 11.4 Resultados de la prueba de diferencia de medias del programa
estadstico Stata para anchura mandibular de Macropus fuliginosus
Grupo Obs. Media Error Desviacin [Intervalo de Confianza
estndar estndar del 95%]
Machos 25 154.92 1.6732 8.3662 151.4667 158.3734
Hembras 25 141.04 2.6435 13.2175 135.5840 146.4960
Combinados 50 147.98 1.8384 13.0000 144.2854 151.6746
Diferencia 13.88 3.1286 7.5597 20.2003
gl de Satterthwaite = 40.5707; gl de Welch = 41.9516
Ho: Machos - Hembras = 0
Ha: Machos - Hembras < 0 Ha: Machos - Hembras 0 Ha: Machos - Hembras > 0
t = 4.4365 t = 4.4365 t = 4.4365
Valor de P = 1.0000 Valor de P = 0.0001 Valor de P = 0.0000
180
Tabla 11.5 Anchura de cresta craneal de canguros hembras del
gnero Macropus
M. giganteus M. melanops M. fuliginosus
203 216 199
164 125 153
148 170 169
147 209 167
131 129 155
125 159 181
129 157 214
125 88 198
101 129 153
121 148 170
104 138 154
135 140 167
103 176 170
112 112 118
80 101 138
82 87 137
123 112 160
70 127 172
114 70 139
193 135 200
74 120 122
95 140 178
28 86 78
122 65 145
100 73 188
Tamao de
muestra 25 25 25 75.00
Sumas 2929 3212 4025 10166.00
Medias 117.16 128.48 161.00 135.55
182
de aqul con la ms pequea (M. giganteus). Para indagar en mayor detalle
este resultado se indica una estimacin a posteriori. Existen varias
pruebas, siendo de las ms conocidas la distancia mnima significativa, la
distancia significativa honesta de Tukey y el criterio de Bonferroni que es
de los ms sencillos y generales. Los resultados de ste ltimo se incluyen
en la Tabla 11.9 y el arreglo consiste en la diferencia de media de fila
menos la de columna y abajo el valor de P (ajustado por comparaciones
mltiples) para la prueba de igualdad de las medias involucradas. En
dicha Tabla se aprecia claramente que M. fuliginosus es estadsticamente
diferente de M. giganteus y M. melanopus (valores de P menores que de
0.05), mientras que stas ltimas no son diferentes entre s (valor de P =
0.809).
Tabla 11.8 ANDEVA para la anchura de cresta craneal de canguros del gnero
Macropus
Fuente g.l. Suma de Cuadrados Cuadrados F calculada F tablas
Medios
Esp. 31 SC Esp. CM Trat 12948.4933 F0.95, 2, 72
F c
=2 1293.55
3
2929 2 3212 2 4025 2 10166 2 25896.9867
j 1 25 75 3 1 3.1239
12948.4933 10.0100
1403864.4 -1377967.4133
25896.9867
P= 0.0001
Error 753 SC Error 119032.5867 25896.9867 CM Error
= 72 93135.6 93135.6000
75 3
1293.55
Total 751 10166 2
= 74 SCTotal 203 2 ... 188 2
75
1497000 -1377967.4133
119032.5867
183
11.6 Anlisis de varianza de dos factores con interaccin
184
Tabla 11.11 Disposicin de informacin para el ANDEVA de dos
factores con interaccin
Fuente g.l. Suma de Cuadrados Cuadrados Medios
Factor fila I 1 I
X 2
X 2
SC filas
SC filas ( A) i CM filas
j 1 m N gl filas
Factor J1 J X 2j X 2 SC columnas
Columna SC columnas ( B ) CM columnas
j 1 n N gl columnas
Interaccin (I-1)(J-1) SCint SCsubt SC filas SCcol SC columnas
CM int
gl int
Subtotal IJ 1 J I X ij2
X 2
SC subtotal
j 1 i 1 K N
Error N IJ SCerror SCtotal SCsubtotal SC error
CM error
gl error
Total N1 J I K
X 2
SC total X ijk2
j 1 i 1 k 1 N
185
Tabla 11.12 Relacin de contrastes de acuerdo a la consideracin de
factores fijos aleatorios
Factores fijos Factores aleatorios Factores mixtos filas
factor fijo y columnas
factor aleatorio
CM filas CM filas CM filas
F filas F filas F filas
CM error CM int CM int
CM columnas CM columnas CM columnas
Fcolumnas Fcolumnas Fcolumnas
CM error CM int CM error
CM int CM int CM int
Fint Fint Fint
CM error CM error CM error
Tabla 11.13 Datos de amplitud nasal para tres especies de canguros del
gnero Macropus (modificados de Andrews y Herzberg, 1985)
Especie
Macropus Macropus fuliginosus Macropus fuliginosus
Sexo giganteus melanopus fuliginosus
Machos 241 263 236 237 231 226
222 220 204 217 218 206
233 271 216 211 200 250
207 284 225 238 202 232
247 279 220 221 247 253
189 272 219 281 208 263
226 268 201 292 234 262
240 278 213 251 216 275
215 238 228 231 237 246
231 255 234 275 240 255
186
Tabla 11.14 Resumen de clculos para el ANDEVA de dos factores con interaccin
Factor B (Especie)
Machos a1 a2 a3 m X i X i ( X 2 ) i
K = 20 K = 20 K = 20 60
xbar = 243.95 xbar = 232.5 xbar = 235.05 237.167
varx = 712.155263 varx = 621.842105 varx = 473.523684
sx = 26.6862373 sx = 24.9367621 sx = 21.7605994
sumax = 4879 sumax = 4650 sumax = 4701 14230
(sumax)2 =
23804641 (sumax)2=2162250 (sumax)2= 22099401
sumax2 = 1203763 sumax2 =1092940 sumax2 =1113967 341067
Hembras a4 a5 a6 m X i X i
K = 20 K = 20 K = 20 60
xbar = 231.55 xbar = 217 xbar = 203.5 217.35
varx = 458.997368 varx = 1051.05263 varx = 378.052632
sx = 21.4242239 sx = 32.4199419 sx = 19.4435756
sumax = 4631 sumax = 4340 sumax = 4070 13041
(sumax)2=
21446161 (sumax)2 = 18835600 (sumax)2=16564900
sumax2 = 1081029 sumax2 = 961750 sumax2 =835428 2878207
n 40 40 40 N= 120
X J 9510 8990 8771
X = 27271
227.2583
X J 237.75 224.75 219.275 X 3
2
( X ) J 2284792 205469 1949395 ( X 2 ) 6288877
187
Tabla 11.15 ANDEVA para la amplitud nasal en crneos de canguros del
gnero Macropus (entre parntesis se presenta el valor de F de tablas)
Fuente de
variacin gl SC CM F
19.12696
6209343.017 - 6197562.01 = (3.9243)
sexo 1 11781.00833 11781.0083 P < 0.001
5.84801
6204766.025 - 6197562.01 = (3.0758)
especie 2 7204.016667 3602.00833 P = 0.004
1.71537
21098.14167 - 18985.025 = (3.0758)
Interaccin 2 2113.116667 1056.55833 P = 0.184
6218660.15 - 6197562.01 =
Subtotal 5 21098.14167
91314.99167 - 21098.1417 =
Error 114 70216.85 615.93728
6288877 - 6197562.01 =
Total 119 91314.99167
188
tiene abs(243.95 232.5) = 11.45. Estas diferencias se comparan con la
distancia dada por la siguiente expresin:
CM error
DSH q ,a ,
K
Mg Mfm Mff
Especie
Machos Hembras
189
CM error 615.9373
DSH q 0.05, 6,114 4.106 22.7862
K 20
190
Captulo 12. Breve introduccin a los
mtodos multivariados
Los objetos de inters en el mundo real rara vez quedan caracterizados por
la medicin de una sola caracterstica. En la naturaleza los elementos de
inters son el resultado de la manifestacin simultnea de muchos
procesos, cuyos resultados, en el mejor de los casos, pueden medirse. Es
por eso que en Biologa y en otras reas de conocimiento y actividad
humanas se ha hecho necesario el contar con mtodos cuantitativos
capaces de considerar al mismo tiempo, varias caractersticas para llegar a
definir de manera lo ms integral posible a un objeto de estudio.
191
192
4 2 2
3 1 2
0 1 2
1 1 1 1 1 1 1 5 0 3 28 14 14
6 1 2
5 3 3
5 6 0
4 2 2
7
1 1 4 2 2
1 1 4 2 2
1 1 4 2 2
1; 1 4 2 2 4 2 2
1 1 4 2 2
1 1 4 2 2
1 1 4 2 2
193
4 2 2 4 2 2 0 0 0
3 1 2 4 2 2 1 1 0
0 1 2 4 2 2 4 1 0
5 0 3 4 2 2 1 2 1
6 1 2 4 2 2 2 1 0
5 3 3 4 2 2 1 1 1
5 6 0 4 2 2 1 4 2
0 0 0
1 1 0
0 1 4 1 2 1 1 4 1 0 24 6 0
0 1 1 2 1 1 4 1 2 1 6 24 9
0 0 0 1 0 1 2 2 1 0 0 9 6
1 1 1
1 4 2
1 24 6 0 4 1 0
6 24 9 1 4 1.5
7 1 7 1
0 9 6 0 1.5 1
194
12.1
12.2
12.3
1
195
1 1
1 1
1 1
1; 1 19.657143 5.3142857 14.684714 4.1857143
1 1
1 1
1 1
196
19.657143 22.1
5.3142857 7.4
14.685714 10.1
4.1857143 4
197
7 584.78231
7 4
584.78231 73.097789
4 7 1
H0 = [1] = [2]
Ha = [1] [2]
198
1
12.4
2
12.5
1
12.6
2
Tabla 12.3 Contenido de Si, Al, Fe y Mg (%) en basaltos del ocano Pacfico
No. Si Al Fe Mg
1 22.5 9.6 6.6 3.4
2 22.1 8.4 7.8 3.6
3 25.9 8.7 4.8 4.0
4 23.5 8.1 5.0 5.2
5 21.7 10.0 8.2 4.9
6 21.9 8.2 9.3 4.9
7 23.7 7.2 9.5 3.3
199
19.657143 23.042857
5.3142857 8.6
14.685714 7.3142858
4.1857143 4.1857143
7 7
115.97023
7 7
7 7 4 1
115.97023 21.744417
7 7 2 4
200
1
12.7
1 ln| | 12.8
2 3 1 1 1
1 12.9
6 1 1 1
12.10
201
2 3 1 1
1 12.11
6 1 1
202
7.9388936
203
2 4 3 4 1 2 1
1 0.97013889
6 4 1 2 25 1
204
25 25
65.812719
25 25
25 25 4 1
65.812719 15.424856
25 25 2 4
205
207
Si los datos no son del tipo Stata se usar para tipo ASCII (texto) sin
formato:
replace altura=23 in 2
save c:\misdatos\datopez.dta
cd c:\misdatos
save datopez.dta
209
sort peso
list peso in 6
210
Ntese que el signo "==" es diferente del operador algebraico "=". Conviene
utilizar este comando en combinacin con "sort", para observar los valores
ordenados.
sort sexo
y despus teclear:
summarize
211
generate diferen=longitud-altura
generate logpeso=log(peso)
generate loglon=log(longitud)
212
tabulate sexo
213
Comando Descripcin
graph twoway grficos de dispersin, de lnea
graph matrix matrices de grficos de dispersin
graph bar grficos de barras
graph dot diagrama de puntos
graph box diagrama de caja y bigotes
graph pie grfico circular
Comando Descripcin
histogram Histogramas
symplot grficos de simetra
quantile grficos de cuantiles
qnorm grficos de cuantiles normales
pnorm grficos de probabilidad normal,
estandarizados
qchi grficos de cuantiles de ji-cuadrada
pchi Grficos de probabilidad de ji-
cuadrada
qqplot grficos cuantil-cuantil
214
histogram longitud
215
216
217
Con la opcin mlabel es posible especificar etiquetas para los puntos. Por
ejemplo el nmero de observacin:
gen orden = _n
218
y con ejes Peso total (mm) a la izquierda y Longitud patrn (mm) bajo el
eje de las x's.
219
En todos los casos el comando graph print abre un cuadro de dilogo con
las impresoras del sistema permitiendo elegir la deseada. Las grficas
pueden exportarse a otros formatos (postscript, postscript encapsulado,
Windows metafile normal y mejorado (enhanced), pdf, png (Portable
Network Graphic), TIFF, entre otros (con el comando graph export).
220
stem longitud
Este comando puede emplearse con "if" e "in". Posee la opcin "short" que
evita el desplegado de tallos sin hojas.
221
222
las que se menciona at, opcin que permite utilizar los valores deseados
para hacer los clculos guardados en una variable haciendo posible la
utilizacin de los mismos puntos de clculo para toda una serie datos, por
ejemplo los datos de longitud de cada mes a lo largo de los aos.
223
225
Existen comandos y opciones para leer, editar e imprimir datos; para hacer
grficos e histogramas; para realizar operaciones aritmticas,
transformaciones y para efectuar anlisis estadsticos variados como pruebas
de t, regresin y anlisis de varianza.
1.- Cada comando empieza con un nombre, tal como READ (LEER) o
HISTOGRAM (HISTOGRAMA). La mayor parte de los comandos son
seguidos por argumentos. Un argumento es ya sea un nmero de
columna (como C10), un nombre de columna (por ejemplo 'ALTURA'),
una constante (tal como 75.34), una constante almacenada (K15), el
nombre de un archivo.
2.- Slo las primeras cuatro letras del nombre del comando y de los
argumentos, los cuales deben estar dispuestos en el orden adecuado,
son utilizados por el Minitab. Si se desea puede agregarse texto
adicional con fines explicativos. Sin embargo, se recomienda slo
utilizar letras y comandos para este texto extra. Nunca utilizar nmeros
o smbolos (como ; : - * & o +) puesto que son utilizados de manera
espacial por Minitab. Siguiendo estas reglas, el comando READ
FOLLOWING DATA INTO COLUMNS C1 AND C2 puede escribirse:
simplemente:
READ C1 C2
READ C2-C5
en lugar de
226
6.- Cada comando debe empezar en una lnea nueva. No es necesario iniciar
en el primer espacio. Si el comando completo no cabe en una sola lnea,
finalice la primera lnea con el smbolo & (ampersand) y contine en la
siguiente lnea. Por ejemplo:
READ C2 C3 C5
1 3 980
3 0 1430
2 4 2190
END
SET into C1
270 236 210 142 280
272 160 220 226 242 186 266
END
227
SET C1
5,3,6,2
END
SUM C1, PUT IN K1
LET K2 = 4
LET K3 = K1 + K2 - 8
PRINT K1-K3
+ para sumar
- para restar
* para multiplicar
/ para dividir
** para elevar a una potencia
Ejemplo:
LET K1 = 3
LET K2 = 5*13
LET K3 = K1+K2+4
SET C1
4652
END
228
LET C2 = 2*C1
LET C3 = K1*C1
LET C4 = C2+1
LET C5 = C3+C4
LET C6 = C1**2
C1 C2 C3 C4 C5 C6
4 8 12 9 21 16
6 12 18 13 31 36
5 10 15 11 26 25
2 4 6 5 11 4
229
2.- Todos los resultados estarn rotulados con el nombre. Muchos usuarios
encuentran que el nombrar columnas toma un poco de tiempo extra pero
ste se ve compensado por una salida de fcil lectura.
Ejemplo:
HELP SET
HELP HELP
SAVE A:EJEMPLO
230
Hay que resaltar que tanto la unidad de disco como el nombre del archivo se
escriben entre comillas. Si la unidad con la va correspondiente no se
especifican, Minitab las graba en la carpeta activa.
RETRIEVE A:EJEMPLO
HISTOGRAM C1;
CUTPOINT 0:10/1.
231
READ C1 C2
28 5.6
24 5.2
25 *
24 5.1
END
232
WOPEN A:EJEMPLO;
FTYPE;
LOTUS.
1) Se crea una columna de Minitab por cada columna de Lotus que contiene
un valor.
WSAVE 'A;SALIDA';
FType;
LOTUS;
Missing;
Numeric * *
Text ;
Replace.
escribir los datos introducidos en Minitab en un archivo con formato del 1-2-
3 de Lotus llamado "SALIDA" en el disco de la unidad A.
233
234
PLOT C1*C2;
SYMBOL ;
TYPE 2.
Grficos de texto
MPLOT C C C C
MPLOT C1 C2 C3 C4
TSPLOT [perodo = K] C
235
INCREMENT = K (INCREMENTO = K)
START = K [fin = K] (INICIO = K [fin = K])
ORIGIN = K (ORIGEN = K)
TSPLOT 12 C1;
ORIGIN = 5.
236
TSPLOT C1;
ORIGIN 1921;
TSTART 1930 1950.
ORIGIN K (ORIGEN K)
ORIGIN K para C...C ,..., origen K para C...C
MTSPLOT C1 C2;
ORIGIN 1950 C1, 1973 C2.
237
238
a) Diagramas de Puntos
Una forma simple de indagar la distribucin de los datos es graficar los datos
a lo largo de una lnea o eje graduado de acuerdo a la escala e intervalo de
medicin. El diagrama en su versin ms sencilla se conoce como grfico de
dispersin unidimensional. La principal virtud de este diagrama es que
muestra la informacin de manera compacta. Para lograr una mayor
definicin se utilizan como smbolos angostos como puntos o lneas para
representar a los datos (en lugar de asteriscos o signos de adicin). Sin
embargo mediante este grfica no es posible distinguir los valores con
exactamente el mismo valor. Para resolver este problema se pueden acumular
verticalmente los datos con el mismo valor en la escala del eje (Chambers, et
al., 1983). A este tipo de grficos se le conoce como "Diagramas de puntos"
en Minitab y se realiza mediante el comando "DOTPLOT" (DIAGRAMA DE
PUNTOS). A diferencia de un histograma, que agrupa los datos en unos
cuantos intervalos, un diagrama de puntos despliega los datos en intervalos lo
ms angostos posible. De manera ideal, disponiendo de gran resolucin los
valores no se agrupan en lo absoluto. Los histogramas tienden a ser ms
tiles en el anlisis de conjuntos grandes de datos, mientras que los
diagramas de punto trabajan mejor con lotes pequeos. Los diagramas de
puntos son tiles en la comparacin de dos o ms lotes de datos.
Sintaxis:
239
DOTPLOT C,...,C
Realiza un diagrama de puntos para cada columna. Las observaciones
situados en el lmite de intervalos se colocan en el inferior (valores pequeos).
El comando WIDTH (AMPLITUD) controla la anchura de los Diagramas de
Puntos. Se puede especificar la escala con los subcomandos
Especifica la distancia entre las marcas que sealan los intervalos (signos +)
en el eje graduado. Puesto que existen 10 espacios entre estas marcas, la
amplitud de cada espacio ser de K/10.
START en K [fin en K]
Ejemplo:
DOTPLOT C1
. : .: : : .
. : . ::::.. .: ::..::::.:: : ::. : :. : ..
+---------+---------+---------+---------+---------+-------snow
20 40 60 80 100 120
GPRO
DOTPLOT C1
240
Dotplot of snow
28 42 56 70 84 98 112 126
snow
241
colocado el punto decimal: para el nmero 260, la unidad de hoja = 10; para
26, LEAF UNIT = 1; para 2.6 LEAF UNIT = .1; y para 0.26, LEAF UNIT = .01.
Sintaxis:
STEM-AND-LEAF OF C,...,C
c) Estadgrafos Bsicos
N, el nmero de observaciones.
NMISS da el nmero de valores registrados como "faltantes".
MEAN (MEDIA), o sea la media aritmtica, la medida ms comn del centro de
un conjunto de datos.
242
Sintaxis:
DESCRIBE C,...,C
Imprime los siguientes estadsticos para cada columna.
d) Resmenes de Letras
243
Para encontrar los valores de las letras, primero se ordenan los datos.
El cuarto inferior (simbolizado por H del ingls Hinge = doblez y que
representa a los valores situados a la mitad de cada una de las partes
definidas por la mediana, es decir a los "Cuartos" o "F", del ingls "Fourths" en
notacin ms reciente) es la observacin que se encuentra a una distancia p(H)
de la observacin mnima; el cuarto superior es la observacin a una distancia
p(H) de la observacin mxima. De manera semejante, los octavos inferior y
superior son las observaciones con una profundidad p(E). El valor central
para una profundidad dada es el promedio de los valores de letras superior e
inferior a esa profundidad. La dispersin se define como valor superior - valor
inferior.
Sintaxis
LVALS C [pone las letras en C [centrales en C [dispersiones en C]]]
e) Diagramas de Caja
244
"Bigotes" de lneas punteadas van de las I's de los cuartos hasta los valores
adyacentes. Los valores localizados entre las cotas interiores y exteriores son
casos extraordinarios y se representan con una 0.
Notas:
INCREMENT = K
START = K [fin = K]
245
BY C (POR C)
Se imprime un diagrama de caja para cada nivel de C, todos en una escala
comn. Los niveles deben ser enteros entre - 10,000 y + 10,000 o valores
faltantes. Se permiten hasta 100 niveles distintos.
LINES = K (LINEAS = K)
Normalmente se utilizan tres lneas para mostrar cada diagrama de caja. Se
puede condensar este diagrama haciendo que K sea igual a 1.
Sintaxis:
BOXPLOT C
INCREMENT = K
START = K
BY C
LINES = K
NOTCH [K%] (intervalo de confianza de signo)
LEVELS K...K
246
BOXPLOT C1;
IQRBOX;
CIBOX.
Sintaxis:
f) Lnea Resistente
Minitab contiene el procedimiento "de los tres grupos" de Tukey, que ajusta
una lnea recta resistente a los casos extraordinarios. Se requieren por lo
menos seis (preferentemente nueve o ms) observaciones para su
funcionamiento.
MAXITERATIONS = K
Especifica el nmero mximo de iteraciones. El pre-establecido es 10.
Notar que RLINE se detendr antes de las K iteraciones si el valor de la
pendiente no vara significativamente.
Sintaxis:
247
Sintaxis:
248
h) Tablas Codificadas
Sintaxis
249
i) Pulido de Mediana
Los nmeros que quedan en la tabla son los residuos. Los mrgenes de
la tabla contienen al valor comn y los efectos de fila y columna. El valor
ajustado para la fila i, columna j es igual al valor comn + (efecto de fila i) +
(efecto de columna j). Como en el anlisis de varianza, dato = ajuste + residuo.
COLUMNS primero
La primera iteracin empieza con la mediana de filas de manera pre-
establecida. Este subcomando permite empezar con las medianas de columna.
250
Sintaxis:
251
que imprime una lista para todos los datos en cada celda. En este caso se
puede utilizar para visualizar los residuos, los valores ajustados. Tambin
pueden observarse todos los resultados mediante la orden PRINT, aunque no
en forma tabular, sino por columna.
252
Bibliografa
Andrews, D.F. y A.M. Herzberg, 1985. Data. A Collection of Problems from Many
Fields for the Student and Research Worker. Springer-Verlag, Nueva York.
442 p.
Ayres, F. Jr. 1969. Matrices. Teora y 340 Problemas Resueltos. Serie Schaum,
McGraw-Hill. Mxico. 219 p.
Baras, E.M., 1987. Lotus 1-2-3. Gua del Usuario. 2a. ed. McGraw-Hill de Mxico,
S.A. de C.V. Mxico, 378 p.
Beaton, A.E. y J.W. Tukey, 1974. The Fitting of Power Series, Meaning
Polinomials, Illustrated on Band-Spectroscopic Data, Technometrics, 16:
147-185.
Cassie, R.M., 1954. Some Uses of Probability Paper for the Graphical Analysis of
Polymodal Frequency Distributions. Aust. J. Mar. Freshw. Res. 5: 513-522.
Computing Resource Center, 1990b. Tukey's Two-Way Analysis. The Stata News
6 (4): 1-2.
Computing Resource Center, 1991. Stem-and-Leaf Plots. The Stata News 7 (1): 3.
Davis, J.C., 1973. Statistics and Data Analysis in Geology, John Wiley & Sons,
Nueva York, 550 p.
Deleon, R.E. y J.T. Anagnoson, 1991. Stata and the Four R's of EDA. Stata
Technical Bulletin 1: 13-17.
253
Devore, J. y R. Peck, 1986. Statistics. The Exploration and Analysis of Data. West
Publishing Co. St. Paul, 594-599.
Emerson, J.D. y D.C. Hoaglin, 1983a. Stem-and-leaf displays. In: Hoaglin, D.C.,
F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data
Analysis, John Wiley & Sons, Nueva York, p. 7-32.
Emerson, J.D. y D.C. Hoaglin, 1983b. Resistant Lines for y versus x. In: Hoaglin,
D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory
Data Analysis, John Wiley & Sons, Nueva York, p. 129-165.
Emerson, J.D. y D.C. Hoaglin, 1983c. Analysis of Two-Way Tables by Medians. In:
Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and
Exploratory Data Analysis, John Wiley & Sons, Nueva York, p. 166-210.
Emerson, J.D. y M.A. Stoto, 1983. Transforming Data. In: Hoaglin, D.C., F.
Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory Data
Analysis, John Wiley & Sons, Nueva York, p. 97-128.
Emerson, J.D. y J. Strenio, 1983. Boxplots and Batch Comparison. In: Hoaglin,
D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory
Data Analysis, John Wiley & Sons, Nueva York, p. 58-96.
Emerson, J.D. y G.Y. Wong, 1985. Resistant nonadditive fits for two-way tables.
In: Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Exploring Data Tables,
Trends and Shapes, John Wiley & Sons, Nueva York, p. 67-124.
Fowler, J., L. Cohen y P. Jarvis, 1998. Practical Statistics for Field Biology. 2a ed.
John Wiley & Sons. West Sussex, RU. 259 p.
Geiger, P., 1991. Enhancing Visual Display Using Stem and Leaf. Stata Technical
Bulletin 1: 8-9.
254
Goodall, C. 1990. A survey of smoothing techniques. In: Modern Methods of Data
Analysis, eds. J. Fox y J.S. Long, 58-125. Newbury Park, CA: Sage
publications.
Gould, W., 1991. Skewness and Kurtosis Tests of Normality. Stata Technical
Bulletin 1: 20-21.
Hald, A., 1990. A History of Probability and Statistics and Their Application
Before 1750. John Wiley, Nueva York.
Hamilton, L.C., 1990a. Modern Data Analysis. A First Course in Applied Statistics.
Brooks/Cole Pub. Co. Pacific Grove, 684 p.
Hamilton, L.C. 1990b. Statistics with Stata . Brooks/Cole Pub. Company, Pacific
Grove: 55-57.
Hartwig, F. y B.E. Dearing, 1979. Exploratory Data Analysis, Sage, Beverly Hills,
p. 9-31.
Hoaglin, D.C., 1983. Letter Values: a Set of Selected Order Statistics. In: Hoaglin,
D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding Robust and Exploratory
Data Analysis, John Wiley & Sons, Nueva York, p. 33-57.
Hoaglin, D.C., F. Mosteller y J.W. Tukey, 1985. Exploring Data Tables, Trends
and Shapes, John Wiley & Sons, Inc. Nueva York.
255
Hoenig, J.M., J. Csirke, M.J. Sanders, A. Abella, M.G. Andreoli, D. Levi, S
Ragonese, M. Al-Shoushani y M.M. El-Musa, 1987. Data adquisition for
length-based stock assessment: report of writing group I, p. 343-352. In: D.
Pauly y G.R. Morgan (eds.) Length-based methods in fisheries research.
ICLARM Conference Proceedings 13, 468 p. International Center for Living
Aquatic Resources Management, Manila, Filipinas y Kuwait Institute for
Scientific Research, Safat, Kuwait.
Iglewicz, B., 1983. Robust Scale Estimators and Confidence Intervals for
Locations. In: Hoaglin, D.C., F. Mosteller y J.W. Tukey (Eds.) Understanding
Robust and Exploratory Data Analysis, John Wiley & Sons, Nueva York, p.
404-431.
Lagler, K.F., 1978. Freshwater Fishery Biology. Wm. C. Co. Pub., Iowa, p. 159-
166.
Marques Dos Santos, M.J. 1993. Introduccin a las Matrices con Aplicaciones.
Facultad de Estudios Superiores Zaragoza, Mxico, D.F., Mxico: 26 p.
Marsh, C., 1988. Exploring Data. An Introduction to Data Analysis for Social
Scientists. Polity Press, Cambridge, Reino Unido, 385 p.
Microsoft Corporation, 1998. Visual Basic Versin 6.0. Manual del Programador.
Microsoft Corporation, EUA.
Miller, G.A., 1956. The Magical Number Seven, Plus or Minus Two: Some Limits
on Our Capacity for Processing Information. Psychological Review 63: 81-97.
Minitab Inc. 1996. Letter Values. Minitab Reference Manual, Release 11. Minitab
Inc. State College: 8-2 8-3.
Quinn, G.P. y M.J. Keough, 2002. Experimental Design and Data Analysis for
Biologists. Cambridge University Press, Cambridge, R.U. 537 p.
Ryan, B.F., B.L. Joiner y T.A. Ryan, Jr., 1985. Minitab Handbook. 2a. ed. PWS
Publishers, Boston. 386 p.
Siegel, A.F., 1988. Statistics and Data Analysis. An Introduction. John Wiley &
Sons, Singapur, 518 p.
Sokal, R.R. y F.J. Rohlf, 1981. Biometry. The Principles and Practice of Statistics
in Biological Research. 2nd. ed. W.H. Freeman and Company, Nueva York,
859 p.
StataCorp, 2003. Stata Statistical Software; Release 8.0. College Station, E.U.A.
Stata Corporation.
StataCorp, 2009. Stata: Release 11. Statistical Software. College Station, E.U.A.
StataCorp LP.
Sturges, H.A. 1926. The choice of a class interval. Journal of the American
Statistical Association, 21: 65-66.
258
Tukey, J.W., 1970. Exploratory Data Analysis (edicin preliminar limitada), Vol. 1,
Addison-Wesley, Reading.
Tukey, J.W., 1972. Some Graphic and Semigraphic Displays. In: Bancroft, T.A.
(Ed.) Statististical Papers in Honor of George W. Snedecor. Iowa State
University Press, Ames.
Weisberg, S., 1985. Applied Linear Regression. John Wiley, Nueva York, tabla 9.1,
p. 213.
Welch, B.L., 1947. The generalization of Students problem when several different
population variances are involved. Biometrika 34: 28-35.
259
Apndice 1. Comandos de Stata
En este apndice se incluyen los comandos del programa Stata para
obtener algunos de los resultados numricos y grficos de los captulos
especificados. Basta con teclear las rdenes dentro del programa para
obtener los resultados deseados. Es requisito tener instalados los archivos
con los datos y programas necesarios. Los mismos estn disponibles en la
pgina de Internet de Stata (http:/www.stata.com) en el apartado
correspondiente al Stata Technical Bulletin y en The Stata Journal. Los
programas (archivos con extensin ado) y los datos (archivos con
extensin dta) deben instalarse apropiadamente. Estos archivos estn
tambin en el CD acompaante de la presente obra.
. clear
. sum
radioto | 0
. save eda2otom
file eda2otom.dta saved
. clear
. sum if sexo==1
. sum if sexo==2
. save ishiotoanillo2
file ishiotoanillo2.dta saved
. lv raoi2 if sexo==1
# 3 raoi2
---------------------------------
M 2 | 2.28 | spread pseudosigma
F 1.5 | 2.24 2.3425 2.445 | .2049999 .2660122
1 | 2.2 2.405 2.61 | .4099998 .2488341
| |
| | # below # above
inner fence | 1.9325 2.7525 | 0 0
outer fence | 1.625 3.06 | 0 0
. di .2049/1.349
.15189029
262
. di .205/1.349
.15196442
. di 2.445-2.24
.205
. lv rpoi2 if sexo==1
# 3 rpoi2
---------------------------------
M 2 | 2.32 | spread pseudosigma
F 1.5 | 2.16 2.24 2.32 | .16 .2076193
1 | 2 2.16 2.32 | .3199999 .194212
| |
| | # below # above
inner fence | 1.92 2.56 | 0 0
outer fence | 1.68 2.8 | 0 0
. di (2.32-2.16)/1.349
.11860638
. lv raod2 if sexo==1
# 3 raod2
---------------------------------
M 2 | 3.13 | spread pseudosigma
F 1.5 | 2.98 3.1 3.22 | .24 .3114291
1 | 2.83 3.07 3.31 | .48 .2913181
| |
| | # below # above
inner fence | 2.62 3.58 | 0 0
outer fence | 2.26 3.94 | 0 0
. di (3.22-2.98)/1.349
.17790956
. lv raoi2 if sexo==2
# 5 raoi2
---------------------------------
M 3 | 3.24 | spread pseudosigma
F 2 | 2.97 3.115 3.26 | .29 .2966591
E 1.5 | 2.775 3.06 3.345 | .5700001 .3670686
1 | 2.58 3.005 3.43 | .8500001 .3756394
| |
| | # below # above
inner fence | 2.535 3.695 | 0 0
outer fence | 2.1 4.13 | 0 0
. di (3.26-2.97)/1.349
.21497405
. lv rpoi2 if sexo==2
# 6 rpoi2
---------------------------------
M 3.5 | 3.135 | spread pseudosigma
F 2 | 2.73 2.98 3.23 | .5 .3945458
E 1.5 | 2.65 2.9925 3.335 | .6850001 .3807947
1 | 2.57 3.005 3.44 | .8700001 .352761
| |
| | # below # above
inner fence | 1.98 3.98 | 0 0
outer fence | 1.23 4.73 | 0 0
263
. di (3.23-2.73)/1.349
.37064492
. lv raod2 if sexo==2
# 6 raod2
---------------------------------
M 3.5 | 3.97 | spread pseudosigma
F 2 | 3.5 4.005 4.51 | 1.01 .7969827
E 1.5 | 3.44 3.98 4.52 | 1.08 .6003771
1 | 3.38 3.955 4.53 | 1.15 .4662933
| |
| | # below # above
inner fence | 1.985 6.025001 | 0 0
outer fence | .4699993 7.540001 | 0 0
. di (4.51-3.5)/1.349
.74870274
. lv rpod2 if sexo==2
# 4 rpod2
---------------------------------
M 2.5 | 1.985 | spread pseudosigma
F 1.5 | 1.69 1.9825 2.275 | .585 .4755006
1 | 1.59 1.98 2.37 | .7799999 .3894509
| |
| | # below # above
inner fence | .8125 3.1525 | 0 0
outer fence | -.0649999 4.03 | 0 0
. di (2.275-1.69)/1.349
.43365456
. tab abrep
264
. regress ye equis
------------------------------------------------------------------------------
ye | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
equis | -.6 . . . . .
_cons | 6 . . . . .
------------------------------------------------------------------------------
. l
+------------------+
| ye equis ye1 |
|------------------|
1. | 6 0 . |
2. | 0 10 . |
3. | . 1 5.5 |
4. | . 8 2 |
+------------------+
. di -.6*1+6
5.4
. l
+------------------+
| ye equis ye1 |
|------------------|
1. | 6 0 . |
2. | 0 10 . |
3. | . 1 5.4 |
4. | . 8 2 |
+------------------+
. di -.6*8+6
1.2
. generate var5 = 10 in 1
265
. replace var5 = 0 in 2
(1 real change made)
. scatter ye ye1 ye2 equis, c(l) ms(p Oh i) ylab(none) xlab(none) legend(off) xtitle(" ")
. generate var6 = 1 in 3
(3 missing values generated)
. replace var6 = 8 in 4
(1 real change made)
. replace ye3 = . in 4
(1 real change made, 1 to missing)
. generate var7 = 8 in 4
(3 missing values generated)
. scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) ms(p Oh i) ylab(none) xlab(none)
legend(off) xtitle(" ")
. set obs 5
obs was 4, now 5
. replace ye1 = . in 5
(1 real change made, 1 to missing)
. replace equis = 1 in 5
(1 real change made)
. scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) ms(p Oh i i i) ylab(none) xlab(none)
legend(off) xtitle(" ")
. save figura6p1
file figura6p1.dta saved
. scatter ye ye1 ye2 ye3 ye4 equis, c(l i i l l) lc(dknavy dknavy dknavy dknavy dknavy) ms(p
Oh i i i) ylab(none) xlab(none) legend(off) xtitle(x) ytitle(y)
. lv equis if porcion==1
266
# 11 equis
---------------------------------
M 6 | 6.3 | spread pseudosigma
F 3.5 | 4.15 6.075 8 | 3.85 3.292907
E 2 | 1 5.35 9.7 | 8.7 4.146287
D 1.5 | .75 5.275 9.8 | 9.05 3.577162
1 | .5 5.2 9.9 | 9.4 3.039552
| |
| | # below # above
inner fence | -1.625 13.775 | 0 0
outer fence | -7.4 19.55 | 0 0
. lv ye if porcion==1
# 11 ye
---------------------------------
M 6 | 11.1 | spread pseudosigma
F 3.5 | 7.85 10.975 14.1 | 6.25 5.345628
E 2 | 7.2 11.2 15.2 | 8 3.812678
D 1.5 | 6.65 10.95 15.25 | 8.6 3.399292
1 | 6.1 10.7 15.3 | 9.2 2.974881
| |
| | # below # above
inner fence | -1.524999 23.475 | 0 0
outer fence | -10.9 32.85 | 0 0
. lv equis if porcion==2
# 11 equis
---------------------------------
M 6 | 15.4 | spread pseudosigma
F 3.5 | 12.9 15.675 18.45 | 5.55 4.746918
E 2 | 11.3 15.45 19.6 | 8.3 3.955653
D 1.5 | 10.7 15.2 19.7 | 9 3.557399
1 | 10.1 14.95 19.8 | 9.699999 3.136559
| |
| | # below # above
inner fence | 4.575001 26.775 | 0 0
outer fence | -3.749999 35.1 | 0 0
. lv ye if porcion==2
# 11 ye
---------------------------------
M 6 | 8.4 | spread pseudosigma
F 3.5 | 7.45 8.375 9.3 | 1.85 1.582306
E 2 | 6.2 8.15 10.1 | 3.900001 1.858681
D 1.5 | 6.05 9.075 12.1 | 6.05 2.391363
1 | 5.9 10 14.1 | 8.2 2.651524
| |
| | # below # above
inner fence | 4.674999 12.075 | 0 1
outer fence | 1.899999 14.85 | 0 0
. lv equis if porcion==3
# 11 equis
---------------------------------
M 6 | 25.3 | spread pseudosigma
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292
1 | 20.5 25.15 29.8 | 9.299999 3.007216
| |
| | # below # above
inner fence | 15.6 34.8 | 0 0
outer fence | 8.400002 42 | 0 0
. lv ye if porcion==3
267
# 11 ye
---------------------------------
M 6 | 8.2 | spread pseudosigma
F 3.5 | 3.35 6.6 9.85 | 6.5 5.559454
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -6.400001 19.6 | 0 0
outer fence | -16.15 29.35 | 0 0
. clear
. save figura6p2
file figura6p2.dta saved
. scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small)
legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed
mequisd, ms(Oh o) msize(vlarge small)
. replace ye = 7.1 in 27
(1 real change made)
. replace ye = 6.3 in 28
(1 real change made)
. lv equis if porcion==3
# 11 equis
---------------------------------
M 6 | 25.3 | spread pseudosigma
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292
1 | 20.5 25.15 29.8 | 9.299999 3.007216
| |
| | # below # above
inner fence | 15.6 34.8 | 0 0
outer fence | 8.400002 42 | 0 0
. lv ye if porcion==3
# 11 ye
---------------------------------
M 6 | 6.3 | spread pseudosigma
F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
268
| | # below # above
inner fence | -4.975 17.225 | 0 0
outer fence | -13.3 25.55 | 0 0
. scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small)
legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed
mequisd, ms(Oh o) msize(vlarge small)
. replace ye = 6.1 in 28
(1 real change made)
. lv ye if porcion==3
# 11 ye
---------------------------------
M 6 | 6.1 | spread pseudosigma
F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -4.975 17.225 | 0 0
outer fence | -13.3 25.55 | 0 0
. scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small)
legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed
mequisd, ms(Oh o) msize(vlarge small)
. replace mequisd = 2 in 28
(1 real change made)
. replace equis = 25 in 28
(1 real change made)
. lv ye if porcion==3
# 11 ye
---------------------------------
M 6 | 6.1 | spread pseudosigma
F 3.5 | 3.35 6.125 8.9 | 5.55 4.746918
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -4.975 17.225 | 0 0
outer fence | -13.3 25.55 | 0 0
. lv equis if porcion==3
# 11 equis
---------------------------------
M 6 | 25 | spread pseudosigma
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
269
. replace mequisd = 25 in 28
(1 real change made)
. scatter ye equis, xline(10 20) || scatter myei myei mequisi, ms(Oh o) msize(vlarge small)
legend(off) || scatter myec myec mequisc, ms(Oh o) msize(vlarge small) || scatter myed myed
mequisd, ms(Oh o) msize(vlarge small)
. replace ye = 6.5 in 30
(1 real change made)
. lv equis if porcion==3
# 11 equis
---------------------------------
M 6 | 25 | spread pseudosigma
F 3.5 | 22.8 25.2 27.6 | 4.799999 4.105442
E 2 | 21.7 25.65 29.6 | 7.9 3.765019
D 1.5 | 21.1 25.4 29.7 | 8.599999 3.399292
1 | 20.5 25.15 29.8 | 9.299999 3.007216
| |
| | # below # above
inner fence | 15.6 34.8 | 0 0
outer fence | 8.400002 42 | 0 0
. lv ye if porcion==3
# 11 ye
---------------------------------
M 6 | 6.5 | spread pseudosigma
F 3.5 | 3.6 6.25 8.9 | 5.3 4.533093
E 2 | 2.1 6.2 10.3 | 8.2 3.907995
D 1.5 | 2 6.5 11 | 9 3.557399
1 | 1.9 6.8 11.7 | 9.8 3.168895
| |
| | # below # above
inner fence | -4.35 16.85 | 0 0
outer fence | -12.3 24.8 | 0 0
. scatter ye equis, xline(10 20, lcolor(dknavy)) || scatter myei myei mequisi, ms(Oh o)
mcolor(dknavy dknavy) msize(vlarge small) legend(off) || scatter myec myec mequisc, ms(Oh o)
mcolor(dknavy dknavy) msize(vlarge small) || scatter myed myed mequisd, ms(Oh o)
mcolor(dknavy dknavy) msize(vlarge small)
. replace ye = 4.3 in 23
(1 real change made)
. replace ye = 7.2 in 24
(1 real change made)
. replace ye = 8.7 in 25
(1 real change made)
. replace ye = 6.9 in 27
(1 real change made)
. lv ye if porcion==3
270
# 11 ye
---------------------------------
M 6 | 6.1 | spread pseudosigma
F 3.5 | 3.6 5.325 7.05 | 3.45 2.950787
E 2 | 2.1 5.15 8.2 | 6.1 2.907167
D 1.5 | 2 5.225 8.45 | 6.45 2.549469
1 | 1.9 5.3 8.7 | 6.8 2.198825
| |
| | # below # above
inner fence | -1.575 12.225 | 0 0
outer fence | -6.749999 17.4 | 0 0
. save figura5p2
file figura5p2.dta saved
. save cuadro6p1
file cuadro6p1.dta saved
------------------------------------------------------------------------------
lontot | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
rpoi | 58.43738 26.06477 2.24 0.060 -3.196002 120.0708
_cons | 98.27605 74.99419 1.31 0.231 -79.05704 275.6091
------------------------------------------------------------------------------
. predict olse
(option xb assumed; fitted values)
271
------------------------------------------------------------------------------
lontot | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
rpoi | 79.2454 15.09772 5.25 0.001 43.54497 114.9458
_cons | 33.84804 43.43954 0.78 0.461 -68.87015 136.5662
------------------------------------------------------------------------------
. predict robrege
(option xb assumed; fitted values)
. scatter lontot lresi olse robrege rpoi, c(i l l l) ms(Oh Th + Sh) lcolor(dknavy dknavy
dknavy dknavy) mcolor(dknavy dknavy dknavy dknavy) xlab(2.4(.2)3.4)
. save datoscapi6
file datoscapi6.dta saved
. use resistidavis
. use tempcom
. use rainfallacal
(LA's Rainfall, 1878-1989)
. use mansolda
272
. scatter noman index in 1/200, ms(Oh) c(l) xtitle("Tiempo (meses)") ytitle(Media mensual)
title("d) Manchas solares") saving(fig4, replace)
(file fig4.gph saved)
. save tasamortaeu
file tasamortaeu.dta saved
. save tasamortal
file tasamortal.dta saved
. use tasamortaeu
. use tasamortal
. clear
. scatter original mm3 index, ms(Oh Th) c(l l) xlab(1(1)12) ylab(1(1)7) lw(medthick
medthick) legend(lab(1 "Valores originales") lab(2 "Medias mviles de 3"))
. save desfazapicovalle
file desfazapicovalle.dta saved
. use mansolda2
. sum
273
. di 1983 -1749 +1
235
. sum
. use tempcom
. sum
. use mansolda2
. di 158-25
133
. di 188+25
213
. di 158-50
108
274
+---------------------+
| anio cmes index |
|---------------------|
108. | 1757 12 108 |
+---------------------+
. di 108-188-80
+---------------------+
| anio cmes index |
|---------------------|
188. | 1764 8 188 |
+---------------------+
+---------------------+
| anio cmes index |
|---------------------|
158. | 1762 2 158 |
+---------------------+
. save suavizamedias
file suavizamedias.dta saved
. scatter ye medias3 equis, ms(Oh Th) c(l l) ylab(1(1)7) xlab(1(1)12) xtitle(" ")
. clear
. scatter suavi index, by(tsuavi, cols(1) note("") ) c(l) subtitle(lab(1 "3") lab(2 "5"))
. scatter suavi index, by(tsuavi, cols(1) note("") subtitle(lab(1 "3") lab(2 "5")) ) c(l)
. save suavinvolibro
275
. clear
. save suavinvolibro2
file suavinvolibro2.dta saved
. label define etitipo35 1 "a) Medianas corredizas de amplitud 3" 2 "b) Medianas corredizas
de amplitud 5"
. label define etitipo42 1 "a) Medianas corredizas de 4" 2 "b) Medianas corredizas de 4 y
2"
. clear
. save endpointdata
file endpointdata.dta saved
. generate var6 = 5 in 2
(10 missing values generated)
276
. use suavinvolibro2
. sum
. rename r r3
277
. save captuatun
file captuatun.dta saved
. save capturaaed
file capturaaed.dta saved
. clear
. save datoscapturanualmexico
file datoscapturanualmexico.dta saved
. save datosfigu9p6
file datosfigu9p6.dta saved
. use captuatun
. l
+--------------------------------------+
| anio captura captusua rugoso |
|--------------------------------------|
1. | 1927 7297 7564.22 -267.219 |
2. | 1928 7218 7764.16 -546.156 |
3. | 1929 8959 7878.41 1080.59 |
4. | 1930 9533 7883.76 1649.24 |
5. | 1931 6368 7837.35 -1469.35 |
|--------------------------------------|
6. | 1932 4755 7814.14 -3059.14 |
7. | 1933 12236 7835.27 4400.73 |
8. | 1934 6287 7877.52 -1590.52 |
9. | 1935 12769 7898.64 4870.36 |
10. | 1936 3214 7688.08 -4474.08 |
|--------------------------------------|
11. | 1937 11036 7266.95 3769.05 |
278
. use air2
(TIMESLAB: Airline passengers)
. smooth 4253eh,twice air, gen(sair)
. gen rough=air-sair
. gen logrough=log10(rough)
(73 missing values generated)
. gen logsair=log10(sair)
. replace logrough=log10(rough+1/6)
(73 real changes made)
. replace logrough=log10(abs(rough)+1/6)
(71 real changes made)
. use ishidatg
279
. graph matrix totlen bodlen oraleft orpleft oraright orpright, ms(+) title("Hola funcin
{&chi}{sup: 2}")
. help matrix
. graph matrix totlen bodlen oraleft orpleft oraright orpright if sex==2, ms(+)
ylabel(,labsize(vlarge)) xlab(,labsize(vlarge)) diagonal(,size(vlarge))
280
. graph matrix totlen bodlen oraleft orpleft oraright orpright if sex==2, ms(+) ylab(130
300, labsize(large) axis(2)) yla
> b(2 3.5, axis(3)) ylab(2 4, axis(4)) ylab(2.5 5, axis(5)) ylab(1 2.5, axis(6))
xlab(,labsize(vlarge)) diagonal(,size(vl
> arge)) xlab(150 340, axis(1)) xlab(150 290, axis(2)) xlab(2 3.5, axis(3)) xlab(2 3.5,
axis(4)) xlab(3 5, axis(5)) half
. use andeva2vcanguros
. sum
. l
+---------------------------------------------------------------------------------------+
| muestra median~i sexo mediam~s mediah~s abrevi~p etisp |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . M.g. Macropus giganteus |
2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus |
3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus |
4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus |
5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus |
|---------------------------------------------------------------------------------------|
281
. generate var8 = 1 in 1
(5 missing values generated)
. replace var8 = 2 in 2
(1 real change made)
. replace var8 = 3 in 3
(1 real change made)
. replace var8 = 1 in 4
(1 real change made)
. replace var8 = 2 in 5
(1 real change made)
. replace var8 = 3 in 6
(1 real change made)
. l
+---------------------------------------------------------------------------------------+
| muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . M.g. Macropus giganteus 1 |
2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus 2 |
3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus 3 |
4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus 1 |
5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus 2 |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus 3 |
+---------------------------------------------------------------------------------------+
. tab gpo
282
Total | 6 100.00
. l
+---------------------------------------------------------------------------------------+
|muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . M.g. Macropus giganteus Mg |
2. | 2 232.5 1 232.5 . M. f. m. M. fuliginosus melanopus Mfm |
3. | 3 235.05 1 235.05 . M. f. f. M. f. fuliginosus Mff |
4. | 4 231.55 2 . 231.55 M.g. Macropus giganteus Mg |
5. | 5 217 2 . 217 M. f. m. M. fuliginosus melanopus Mfm |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 M. f. f. M. f. fuliginosus Mff |
+---------------------------------------------------------------------------------------+
. l, nolab
+---------------------------------------------------------------------------------------+
|muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . 0 Macropus giganteus 1 |
2. | 2 232.5 1 232.5 . 1 M. fuliginosus melanopus 2 |
3. | 3 235.05 1 235.05 . 2 M. f. fuliginosus 3 |
4. | 4 231.55 2 . 231.55 0 Macropus giganteus 1 |
5. | 5 217 2 . 217 1 M. fuliginosus melanopus 2 |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 2 M. f. fuliginosus 3 |
+---------------------------------------------------------------------------------------+
. l, nolab
+---------------------------------------------------------------------------------------+
|muestra median~i sexo mediam~s mediah~s abrevi~p etisp gpo |
|---------------------------------------------------------------------------------------|
1. | 1 243.95 1 243.95 . 0 Macropus giganteus 0 |
2. | 2 232.5 1 232.5 . 1 M. fuliginosus melanopus 1 |
3. | 3 235.05 1 235.05 . 2 M. f. fuliginosus 2 |
4. | 4 231.55 2 . 231.55 0 Macropus giganteus 0 |
5. | 5 217 2 . 217 1 M. fuliginosus melanopus 1 |
|---------------------------------------------------------------------------------------|
6. | 6 203.5 2 . 203.5 2 M. f. fuliginosus 2 |
+---------------------------------------------------------------------------------------+
283
. clear
. save andeva2vdatoscangu
file andeva2vdatoscangu.dta saved
. regress
284
------------------------------------------------------------------------------
var6 | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
2.sexo | -12.4 7.848167 -1.58 0.117 -27.94716 3.147159
|
especie |
1 | -11.45 7.848167 -1.46 0.147 -26.99716 4.097159
2 | -8.9 7.848167 -1.13 0.259 -24.44716 6.647159
|
sexo#especie |
2 1 | -3.1 11.09898 -0.28 0.781 -25.087 18.887
2 2 | -19.15 11.09898 -1.73 0.087 -41.137 2.837003
|
_cons | 243.95 5.549492 43.96 0.000 232.9565 254.9435
------------------------------------------------------------------------------
. matrix X = (4,2,2\3,1,2\0,2,2\5,0,3\6,1,2\5,3,3\5,6,0)
. matrix list X
X[7,3]
c1 c2 c3
r1 4 2 2
r2 3 1 2
r3 0 2 2
r4 5 0 3
r5 6 1 2
r6 5 3 3
r7 5 6 0
. matrix A1 = (1,1,1,1,1,1,1)
. matrix Su = A1*X
. matrix list Su
Su[1,3]
c1 c2 c3
r1 28 15 14
. matrix X = (4,2,2\3,1,2\0,1,2\5,0,3\6,1,2\5,3,3\5,6,0)
. matrix Su = A1*X
. matrix list Su
Su[1,3]
c1 c2 c3
r1 28 14 14
. matrix Xbar=Su/7
Xbar[1,3]
c1 c2 c3
285
r1 4 2 2
. matrix A2 = (1\1\1\1\1\1\1)
. matrix list A2
A2[7,1]
c1
r1 1
r2 1
r3 1
r4 1
r5 1
r6 1
r7 1
. matrix A3 = A2*Xbar
. matrix list A3
A3[7,3]
c1 c2 c3
r1 4 2 2
r2 4 2 2
r3 4 2 2
r4 4 2 2
r5 4 2 2
r6 4 2 2
r7 4 2 2
. matrix D=X-A3
. matrix list D
D[7,3]
c1 c2 c3
r1 0 0 0
r2 -1 -1 0
r3 -4 -1 0
r4 1 -2 1
r5 2 -1 0
r6 1 1 1
r7 1 4 -2
. matrix DprimeD=D*D'
symmetric DprimeD[7,7]
r1 r2 r3 r4 r5 r6 r7
r1 0
r2 0 2
r3 0 5 17
r4 0 1 -2 6
r5 0 -1 -7 4 5
r6 0 -2 -5 0 1 3
r7 0 -5 -8 -9 -2 3 21
. matrix DDprime=D*D'
symmetric DDprime[7,7]
r1 r2 r3 r4 r5 r6 r7
r1 0
r2 0 2
r3 0 5 17
r4 0 1 -2 6
r5 0 -1 -7 4 5
286
r6 0 -2 -5 0 1 3
r7 0 -5 -8 -9 -2 3 21
. matrix DprimeD=D'*D
symmetric DprimeD[3,3]
c1 c2 c3
c1 24
c2 6 24
c3 0 -9 6
. matrix S2=(1/(7-1))*DprimeD
. matrix list S2
symmetric S2[3,3]
c1 c2 c3
c1 4
c2 1 4
c3 0 -1.5 1
. matrix S=(S2[1,1]^.5\S2[2,2]^.5\S2[3,3]^.5)
. matrix list S
S[3,1]
c1
r1 2
r2 2
r3 1
. matrix list X
X[7,3]
c1 c2 c3
r1 4 2 2
r2 3 1 2
r3 0 1 2
r4 5 0 3
r5 6 1 2
r6 5 3 3
r7 5 6 0
. matrix list D
D[7,3]
c1 c2 c3
r1 0 0 0
r2 -1 -1 0
r3 -4 -1 0
r4 1 -2 1
r5 2 -1 0
r6 1 1 1
r7 1 4 -2
. matrix Dprime=D'
Dprime[3,7]
r1 r2 r3 r4 r5 r6 r7
c1 0 -1 -4 1 2 1 1
c2 0 -1 -1 -2 -1 1 4
c3 0 0 0 1 0 1 -2
287
symmetric DprimeD[3,3]
c1 c2 c3
c1 24
c2 6 24
c3 0 -9 6
symmetric DprimeD[3,3]
c1 c2 c3
c1 24 6 0
c2 6 24 -9
c3 0 -9 6
288
Requerimientos:
Sistema 486 o superior (Pentium recomendado)
S.O. Windows 95, 98, Millenium XP (Recomendado)
Archivo
Abrir (Una Variable)...
Abrir (Valores x,y)...
Guardar resultados...
Guardar grfica...
Cerrar
Validacin Cruzada
Mnimos cuadrados
Sesgada
Para Regresin
Estimar
Traza de densidad
EDK
EDKVariable(Gauss)
WARP (PPPR)
Amplitud Crtica
Prueba de Silverman
Regresin por kernel (PPPR)
Suavizacin no Lineal Resistente
Ayuda
Acerca de
292
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos
293
Apndice 2. Uso del Programa AED2010
294
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos
295
Apndice 2. Uso del Programa AED2010
296
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos
297
Apndice 2. Uso del Programa AED2010
3RSSH y 53EH. Cada uno de ellos puede hacerse doble para recuperar
informacin de los valores rugosos (residuales) y reincorporarla a la
suavizacin. Los resultados aparecen listados despus de oprimir el
botn Realizar. Esta lista con el nmero de dato, valor original y valores
suavizados puede seleccionarse con el ratn, copiarse y pegarse en una
hoja de clculo o un procesador de textos para luego copiarse a un
paquete de graficacin. La opcin Guardar Resultados no est
implementada an para este procedimiento.
298
Mtodos estadsticos exploratorios y confirmatorios para anlisis de datos
299