2014 04 03 NotasEAI

Estadstica Aplicada I
Emilio Lopez Escobar

http://www.Info-Emilio.net
Depto. de Estadstica, ITAM, Mexico.
VERSION: Enero de 2014.
Indice general
I Informacion sobre el curso II

Contenido general del curso . . . . . . . . . . . . . . . . . . . . . . . iii
Objetivo del curso . . . . . . . . . . . . . . . . . . . . . . . . . . . . v
Conocimientos previos que son necesarios . . . . . . . . . . . . . . . . v
Referencias bibliograficas del curso . . . . . . . . . . . . . . . . . . . vi
Software estadstico . . . . . . . . . . . . . . . . . . . . . . . . . . . viii
Calendarizacion del curso . . . . . . . . . . . . . . . . . . . . . . . . ix
Horario de atencion a alumnos . . . . . . . . . . . . . . . . . . . . . x
Evaluacion del curso . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
De las practicas fraudulentas (licenciatura) . . . . . . . . . . . . . . . xii
Sobre los telefonos . . . . . . . . . . . . . . . . . . . . . . . . . . . . xii
II Estadstica Aplicada y Analisis Exploratorio de datos 1
1. Introduccion a la Estadstica Aplicada 2

1.1. Estadstica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1. Definicion . . . . . . . . . . . . . . . . . . . . . . . . . 3
ii
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
1.1.2. Partes o subdivisiones . . . . . . . . . . . . . . . . . . . 3

1.2. Variables, datos y escalas . . . . . . . . . . . . . . . . . . . . . 4
1.2.1. Definiciones . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.3.1. Datos cualitativos . . . . . . . . . . . . . . . . . . . . . 7
1.3.2. Datos cuantitativos . . . . . . . . . . . . . . . . . . . . 7
1.4. Escalas de medicion . . . . . . . . . . . . . . . . . . . . . . . . 9
2. Analisis Exploratorio de Datos 12

2.1. Analisis Exploratorio de Datos . . . . . . . . . . . . . . . . . . . 13
2.1.1. Algo de historia del Analisis Exploratorio de Datos . . . . 13
2.1.2. Objetivo del Analisis Exploratorio de Datos . . . . . . . . 15
2.2. EDA para variables cualitativas . . . . . . . . . . . . . . . . . . 17
2.2.1. Tablas de frecuencia . . . . . . . . . . . . . . . . . . . . 17
2.2.2. Diagramas circulares (pastel) . . . . . . . . . . . . . . . 18
2.2.3. Diagramas o graficos de barras . . . . . . . . . . . . . . 18
2.3. EDA para variables cuantitativas . . . . . . . . . . . . . . . . . 19
2.3.1. Diagramas de punto . . . . . . . . . . . . . . . . . . . . 19
2.3.2. Diagramas de tallo y hojas . . . . . . . . . . . . . . . . . 20
2.3.3. Distribucion de frecuencias de variables discretas . . . . . 21
2.3.4. Histogramas o distribucion de frecuencias de variables
continuas . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.4. Estadsticos Descriptivos: Medidas de tendencia central . . . . . . 24
2.4.1. La media . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2. La mediana . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.3. Percentiles o medidas de posicion . . . . . . . . . . . . . 28
2.4.4. Interpretacion geometrica de la media . . . . . . . . . . . 30
2.5. Estadsticos Descriptivos: Medidas de dispersion . . . . . . . . . 31
2.5.1. Diagramas de Caja y Brazo . . . . . . . . . . . . . . . . 35
2.5.2. Diagramas de Dispersion . . . . . . . . . . . . . . . . . . 35
2.5.3. Diagramas de Burbujas . . . . . . . . . . . . . . . . . . 35
Departamento de Estadstica iii

2.5.4. Diagramas de Estrella . . . . . . . . . . . . . . . . . . . 36

2.5.5. Graficos de Violn . . . . . . . . . . . . . . . . . . . . . 36
2.5.6. Graficos de probabilidades (Q-Q plots) . . . . . . . . . . 36
2.6. Estadsticos Descriptivos: medidas de asociacion lineal . . . . . . 37
III Introduccion al Muestreo 41
3. El objetivo del muestreo y el marco muestral 42

3.1. El objetivo del muestreo . . . . . . . . . . . . . . . . . . . . . . 43
3.2. El objetivo del muestreo: grafico . . . . . . . . . . . . . . . . . . 44
3.3. Inferir o generalizar... . . . . . . . . . . . . . . . . . . . . . . . 45
3.3.1. Siempre inferimos, siempre generalizamos... . . . . . . . . 45
3.3.2. Inferir es aprender?... . . . . . . . . . . . . . . . . . . . 46
3.4. Inferir o generalizar sobre U a partir de s . . . . . . . . . . . . . 47
3.4.1. Un ejemplo equivocado... . . . . . . . . . . . . . . . . . 47
3.4.2. Interpretacion: Foto o pronostico? . . . . . . . . . . . . 50
3.5. Sobre los 3 grandes enfoques teoricos del muestreo . . . . . . . . 51
3.5.1. Design-based approach . . . . . . . . . . . . . . . . . . 52
3.5.2. Model-based approach . . . . . . . . . . . . . . . . . . 53
3.5.3. Model-assisted approach . . . . . . . . . . . . . . . . . 54
3.6. Marco muestral . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3.7. Radiografa general de una encuesta por muestreo . . . . . . . . 57
3.8. Algunos comentarios para discutir . . . . . . . . . . . . . . . . . 60
3.8.1. Incorporacion de tecnica a el objetivo del muestreo . . . . 62
3.8.2. Un ejemplo sobre el marco muestral (de Lohr, 1999) . . . 63
4. Muestreo probabilstico y extraccion de la muestra 64

4.1. Muestreando probabilsticamente . . . . . . . . . . . . . . . . . 65
4.1.1. Muestreo en 1 etapa . . . . . . . . . . . . . . . . . . . . 65
4.2. Muestreando en mas de 1 etapa . . . . . . . . . . . . . . . . . . 69
4.2.1. Muestreo en 3 etapas . . . . . . . . . . . . . . . . . . . 69
Departamento de Estadstica iv
4.2.2. Ventaja de las muestras probabilsticas sobre las no pro-

babilsticas . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.2.3. Muestreo en 2 etapas . . . . . . . . . . . . . . . . . . . 74
5. Estimacion a partir de muestras probabilsticas 76

5.1. Poblacion, muestra y seleccion . . . . . . . . . . . . . . . . . . . 77
5.2. La funcion diseno de muestreo . . . . . . . . . . . . . . . . . . . 79
5.3. Probabilidades e indicadoras de inclusion . . . . . . . . . . . . . 82
5.3.1. Las indicadoras de inclusion muestral . . . . . . . . . . . 82
5.3.2. Las probabilidades de inclusion . . . . . . . . . . . . . . 82
5.3.3. Comentarios sobre las probabilidades de inclusion . . . . . 84
5.3.4. Estadsticos bajo el diseno muestral . . . . . . . . . . . . 87
5.4. Muestreo Bernoulli (BE) . . . . . . . . . . . . . . . . . . . . . . 92
5.5. Muestreo Aleatorio Simple (SI) . . . . . . . . . . . . . . . . . . 95
6. Estimadores y sus propiedades estadsticas basicas 98

6.1. Estimadores comunes . . . . . . . . . . . . . . . . . . . . . . . 99
6.2. Distribucion muestral de un estimador . . . . . . . . . . . . . . . 101
6.3. Los Estimadores y sus propiedades . . . . . . . . . . . . . . . 111
6.4. El estimador bajo el diseno BE . . . . . . . . . . . . . . . . . 122
6.5. El estimador bajo el diseno SI . . . . . . . . . . . . . . . . . . 124
6.6. El efecto de diseno . . . . . . . . . . . . . . . . . . . . . . . . . 126
7. Que tamano de muestra utilizar? 129

7.1. Tamano de muestra para una media bajo muestreo SI asumiendo
normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2. Tamano de muestra para una media bajo muestreo SI sin asumir
normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135
7.2.1. Utilizando el coeficiente de variacion . . . . . . . . . . . 135
7.2.2. Utilizando la desigualdad de Tchebychev . . . . . . . . . 136
Departamento de Estadstica v
7.3. Tamano de muestra para una proporcion bajo muestreo SI asu-

miendo normalidad . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.4. Tamano de muestra para una proporcion bajo muestreo SI sin
asumir normalidad . . . . . . . . . . . . . . . . . . . . . . . . . 139
7.5. Cuando se puede considerar a N grande? . . . . . . . . . . . . 139
7.6. El efecto del diseno: ajuste del tamano de muestra . . . . . . . . 141
7.7. Ajuste del tamano de muestra por la tasa de respuesta . . . . . . 142
7.8. Comentarios finales sobre el tamano de muestra . . . . . . . . . 143
8. Estratificacion 144
8.1. Introduccion a la estratificacion . . . . . . . . . . . . . . . . . . 145
8.1.1. Como se ve la estratificacion en otros textos y como la
trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 145
8.1.2. De que se trata la estratificacion? . . . . . . . . . . . . 145
8.1.3. Utilidad y usos de la estratificacion . . . . . . . . . . . . 146
8.1.4. Estratificar o no estratificar? . . . . . . . . . . . . . . . 147
8.1.5. La peor de las situaciones . . . . . . . . . . . . . . . . . 148
8.1.6. Concepcion equivocada y muy usada al estratificar . . . . 148
8.2. Hay una buena estratificacion? . . . . . . . . . . . . . . . . . . 149
8.3. El numero de estratos . . . . . . . . . . . . . . . . . . . . . . . 151
8.4. El tamano de muestra asociado a la poblacion a partir del tamano
de muestra asociado a los dominios de estimacion . . . . . . . . 152
8.5. Muestreo PPT o mejor estratificar? . . . . . . . . . . . . . . . 154
8.6. Notacion y uso de la estratificacion . . . . . . . . . . . . . . . . 155
8.6.1. El diseno de muestreo aleatorio simple estratificado, STSI 158
8.6.2. Sobre la estimacion de un total y una media con estrati-
ficacion: un error comun . . . . . . . . . . . . . . . . . . 160
8.7. Afijacion, asignacion o distribucion de muestra en estratos . . . . 161
8.7.1. Una funcion de costos . . . . . . . . . . . . . . . . . . . 165
8.7.2. Distribucion Optima . . . . . . . . . . . . . . . . . . . . 166
8.7.3. Distribucion de Neyman . . . . . . . . . . . . . . . . . . 167
Departamento de Estadstica vi
8.7.4. Distribucion proporcional . . . . . . . . . . . . . . . . . 168

8.7.5. Distribuciones alternativas . . . . . . . . . . . . . . . . . 168
9. Conglomeracion 170
9.1. Introduccion a la conglomeracion . . . . . . . . . . . . . . . . . 171
9.1.1. Como se ve la conglomeracion en otros textos y como la
trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1.2. Que problemas soluciona o que facilita la conglomera-
cion? Su utilidad... . . . . . . . . . . . . . . . . . . . . . 172
9.1.3. En que consiste el muestreo por conglomerados? . . . . 174
9.1.4. En que consiste el muestreo en dos etapas? . . . . . . . 175
9.1.5. En que consiste el muestreo multi-etapico? . . . . . . . 176
9.2. Estimacion de totales y medias con conglomeracion . . . . . . . 177
9.3. Muestreo de conglomerados unietapico . . . . . . . . . . . . . . 179
9.4. Muestreo de conglomerados unietapico aleatorio simple (SIC) . . 185
9.4.1. El coeficiente de homogeneidad . . . . . . . . . . . . . . 186
9.5. Muestreo bietapico . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.5.1. Muestreo bietapico de elementos . . . . . . . . . . . . . 193
9.5.2. Muestreo bietapico de elementos: diseno auto-ponderado . 198
9.6. Post-Estratificacion, ajuste o calibracion de factores de expansion 201
IV Apendices 203
Relacion entre distribuciones de probabilidad . . . . . . . . . . . . . . 204
Smbolos pch para graficos en R . . . . . . . . . . . . . . . . . . . . . 205
Varianzas hipoteticas de algunas distribuciones (Kish, 1965) . . . . . . 206
Teorema Central del Lmite, Velocidad de convergencia a una Normal,
Aproximaciones a la varianza de una variable, Desigualdad de
Tchebychev (Mendez, Eslava & Romero, 2004) . . . . . . . . . . 207
Departamento de Estadstica vii

V Sesiones practicas en R 212
VI Ejercicios 240
Ejercicios de Analisis Exploratorio de Datos . . . . . . . . . . . . . . . 241
Ejercicios de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Departamento de Estadstica i
Parte I
Informacion sobre el curso
ii
Contenido general del curso
Bloque de Contenidos I. Estadstica Aplicada, Analisis Exploratorio de

Datos y Computo con R.
Introduccion a la Estadstica Aplicada.
Motivacion al curso. Importancia del los conceptos del curso.

Definicion, objetivo y ramas de la Estadstica.
Tipos de datos (variables) y escalas de medicion.
Analisis Exploratorio de datos y Estadstica Descriptiva.
Distribuciones de frecuencia. Descripcion de poblaciones.

Medidas de tendencia central, dispersion y orden. Medidas de asocia-
cion lineal.
Diagramas de punto, de dispersion, de tallo y hojas, histogramas, de
probabilidades (Q-Q).
Introduccion a R.
Manipulacion y tipos de datos con R. Importacion de datos con R.

Estadsticos descriptivos, graficos y analisis exploratorio de datos uni-
variados con R.
Exportacion de resultados numericos y graficos en otros formatos.
Bloque de Contenidos II. Muestreo.
Introduccion al muestreo.
El enfoque particularizado vs. generalizado en el muestreo.
Departamento de Estadstica iii

Teora de muestreo bajo el enfoque generalizado de los estimadores

o de Narain-Horvitz-Thompson (probabilidades arbitrarias).
Nocion de factor de expansion.
Muestreo aleatorio simple.
Distribucion muestral de un estimador.
Propiedades de los estimadores. La varianza del estimador, errores

estandares. Calidad de estimaciones. Coeficiente de variacion.
Calidad de un esquema de muestreo especfico. El efecto de diseno.
Calculo de tamano de muestra. Estimacion en dominios o subpoblaciones.
Estratificacion. Metodos de asignacion (afijacion) de muestra.
Conglomeracion. Muestreo en dos etapas. Introduccion al muestreo en mas

de dos etapas.
Introduccion al muestreo con probabilidades proporcionales al tamano.

Ventajas, desventajas y precauciones.
Sobre disenos de muestreo autoponderados, post-estratificacion y conse-

cuencias de suponer muestreo aleatorio simple en la estimacion cuando
este no fue utilizado en la extraccion de la muestra.
Introduccion al muestreo complejo con paquetes estadsticos (SPSS o de

preferencia R).
Planteamiento de problemas practicos y comunes de muestreo complejo.
Departamento de Estadstica iv
Objetivo del curso
Conocer los principales conceptos de la estadstica aplicada, los metodos del

analisis exploratorio de datos y los fundamentos de las tecnicas de muestreo. Se
hara especial enfasis en la teora de muestreo contemporanea bajo una perspec-
tiva unificada y generalizada. Se discutiran ejemplos y casos. Se combinara con
ejemplos practicos de computo.
Conocimientos previos que son necesarios
Es deseable que los alumnos cuenten con los siguientes conocimientos previos
mnimos:
Algebra (conjuntos, doble sumas, conocimientos de conteo),
Calculo de probabilidades (distribuciones de probabilidad basicas, calculo

de probabilidades, funcion de densidad Bernoulli y Normal),
Inferencia estadstica (deseable - estimacion puntual, intervalos de con-

fianza, pruebas de hipotesis, pruebas de significancia),
Nociones de uso y/o programacion en R (deseable).
Departamento de Estadstica v
Referencias bibliograficas del curso
Las referencias del curso para la parte I es:
Crawley, M. J. (2012). The R Book. 2nd ed. Wiley.
Departamento de Estadstica ITAM. (2006). Fundamentos de probabilidad

y estadstica. 2da. Edicion. Just in Time Press.
Rice, J. A. (2006). Mathematical Statistics and Data Analysis. 3rd. Edition.

Duxbury Press.
Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with

S. 4th Edition. Springer.
Verzani, J. (2005). Using R for Introductory Statistics. Chapman & Hall.
Y la referencia base del curso para la parte II, de muestreo:
Sarndal, C.-E., Swensson, B. & Wretman, J. (2003). Model Assisted Survey

Sampling. Springer-Verlag.
Departamento de Estadstica vi
Referencias adicionales de muestreo. (Tradicionales, enfoque particularizado):

Deming(1950) (Algo ilustrativo pero ya muy anticuado).
Kish(1965) (Un clasico - Muy bueno en lo que atane a consejos y resolu-

cion de problemas practicos - Mejor consultarlo despues del Sarndal).
Raj(1968).
Kish(1972) (Traduccion al Espanol difcil de encontrar a la venta).
Cochran(1977) (Un clasico - Anticipa varios problemas teoricos serios a

los que se enfrentara un muestrista - Consultarlo despues del Sarndal).
Sukhatme(1984).
Kish(1987) (Varios detalles importantes para investigacion).
Mendez, Eslava & Romero(2004)(Ayuda mucho a tener una vision rapida

y sencilla sobre conceptos basicos - Mejor consultarlo despues del Sarndal).
Y tambien nos apoyaremos en pasajes o ejemplos de:

Pfeffermann, D. & Rao, C. R. (eds.) (2009). Handbook of Statistics 29A.
Sample Surveys: Designs, Methods and Applications. North-Holland.
Lohr, S. L. (1999). Sampling: Design and Analysis. Duxbury Press.
Caractersticas generales de la bibliografa que utilizaremos:

El libro base ofrece un enfoque o perspectiva unificada del muestreo.
El libro es rico en conceptos estadsticos pero a la vez no es de alto nivel

matematico (al menos en los captulos que tocaremos en este curso).
Y algo importante para este curso en particular, el planteamiento

de este libro es el mismo que utiliza cualquier software especiali-
zado de muestreo.
Departamento de Estadstica vii

Software estadstico
Utilizaremos primordialmente R.
Es gratuito. Esta en la Comprehensive R Archive Network (CRAN-ITAM):
http://www.r-project.org/
Este sera el paquete estadstico basico.
Por que R? Por que es el mejor. Para acabar pronto... terminaran utilizando R
en algun momento. Empiecen desde ahora. Vamos de la mano.
Si hay tiempo, podramos utilizar tambien software comercial de amplia distri-

bucion como SPSS de IBM o cualquier otro.
Son libres de utilizar el software que prefieran. Por supuesto, se sugiere

utilizar R.
Departamento de Estadstica viii

Calendarizacion del curso
El curso esta compuesto de:
Numero de sesiones: 33 sesiones en total
Enero: 6 sesiones, 18 %, Acum. 18 %
Febrero: 8 sesiones, 24 %, Acum. 42 %
Marzo: 8 sesiones, 24 %, Acum. 66 %
Abril: 7 sesiones, 21 %, Acum. 87 %
Mayo: 4 sesiones, 13 %, Acum. 100 %
Asueto/Descansos: 15 y 17 de Abril; 01 de Mayo.
Duracion de sesion: 1.5 horas (17:30-19:00 hrs. Martes y Jueves)
Total de horas: 49.5 horas efectivas en aulas
Dado el contenido general del curso (en la pagina iii), sera practicamente
imposible repasar o regresar a lo visto en la clase anterior.
Departamento de Estadstica ix
Horario de atencion a alumnos
Lunes de 12:00 a 13:15 horas

Martes de 12:00 a 13:15 horas
Miercoles de 12:00 a 13:15 horas
Jueves de 12:00 a 13:15 horas
Departamento de Estadstica x
Evaluacion del curso
Asistencia Individual 5%
Ex. Parcial 1() Individual Febrero 13 15 %
()
Ex. Parcial 2 Individual Marzo 20 20 %
Ex. Parcial 3() Individual Abril 29 25 %
()
Ex. final Individual Mayo 35 %
Notas:
()
Los examenes son estrictamente individuales, el examen
final es acumulativo y debe tener calificacion aprobatoria.
Adicionalmente, habran tareas opciones que valdran (en total) 3 a 5 %,
mas dependiendo de cuantas son. Traten de hacerlas para ayudarse.
No hay cambios a las fechas de los examenes.
No se confen... Recuerden que tienen que utilizar tiempo de estudio adicional a

su clase... (lectura, repaso, ejercicios)
No sera suficiente que solo vengan a ver la clase. Se trata de que se involucren
en el tema y maduren conceptos.
Departamento de Estadstica xi
De las practicas fraudulentas (licenciatura)
Para preservar la armona y el correcto desarrollo del curso nos apegaremos al

reglamento del ITAM. No habra negociacion.
Recuerden...
Sobre los telefonos
No utilizar el telefono por favor (smartphones). Distrae.
Departamento de Estadstica xii

Parte II
Estadstica Aplicada y Analisis

Exploratorio de datos
1
CAPITULO 1
Introduccion a la Estadstica Aplicada
2
1.1. Estadstica
1.1.1. Definicion
Rama de las matematicas que comprende un conjunto de tecnicas que

se encargan de la coleccion, organizacion, analisis e interpretacion de datos
que presentan variabilidad o incertidumbre.
No es una ciencia, se desprende de las Matematicas que s es una ciencia.
1.1.2. Partes o subdivisiones
A su vez, la Estadstica se subdivide en varias partes o especialidades, e.g.:
- Estadstica descriptiva.
- Analisis exploratorio de datos.
- Estadstica no parametrica.
- Inferencia estadstica y estadstica parametrica.
- Estadstica multivariada (componentes principales, escalamiento mul-
tidimensional).
- Analisis multivariado de datos (componentes principales, analisis de
factores, analisis discriminante, arboles de regresion).
- Analisis multivariado de datos categoricos (arboles de decision, anali-
sis de correspondencia, analisis de correspondencias multiples).
Departamento de Estadstica 3
- Muestreo (design-based, model-based).

- Diseno de experimentos (analisis observacional, metodos de captura
y recaptura).
- Modelos lineales (regresion lineal simple, regresion lineal multiple).
- Modelos lineales generalizados (regresion logstica, regresion ordinal,
regresion Poisson, regresion Probit, regresion log-log, regresion Tobit,
regresion zero-inflada, regresion binomial negativa, etc.).
- Modelo lineal general.
- Modelos jerarquicos.
- Modelos no lineales.
- Series de tiempo.
- Analisis de supervivencia.
- Simulacion estocastica.
- Computo estadstico.
- Estadstica Bayesiana.
- Estadstica Fiducial.
- etc...
1.2. Variables, datos y escalas
1.2.1. Definiciones
La materia prima con la que estaremos trabajando son los datos y sus
terminos relacionados.
Las siguientes definiciones pueden variar segun la aplicacion o fenomeno

de estudio.
Datos. Mediciones o en general observaciones documentadas que recolec-

tamos de un experimento o fenomeno.
Es decir, los datos son las diferentes mediciones que obtenemos al observar
cierta caracterstica en cada una de las unidades experimentales.
Unidad experimental. Puede referirse a seres, cosas o periodos de tiempo.
Variables de respuesta o variables. Es el registro u organizacion de los

datos de modo que conforman la caracterstica observada en una poblacion
de estudio.
En un conjunto de datos, idealmente se debera definir la utilidad de cada

variable antes de capturarla y considerando el tipo de analisis estadstico
que se llevara a cabo.
A veces las variables son tan complejas que resulta difcil su definicion,
que tiene que ser inequvoca.
Ejemplos de variables difcil de definir?
A veces las variables que interesan no estan disponibles. No al menos de

manera directa porque son multifactoriales.
Ejemplos de variables multifactoriales de interes no disponibles de manera

directa?
Entonces, tenemos un dato para cada unidad experimental y para cada

variable respuesta.
Que valores pueden tomar estos datos?
1.3. Tipos de datos
Hay dos tipos de datos (y por consiguiente tipos de variables):
1. Datos cualitativos.
2. Datos cuantitativos.
1.3.1. Datos cualitativos
Denotan cualidades o atributos de las unidades experimentales.
Pueden clasificarse en un numero finito de categoras o clases.
Las categoras deben ser mutuamente excluyentes y exhaustivas.
Es decir, cada unidad experimental debe ser clasificada en 1 y solo 1 de las

categoras. Todas las unidades deben pertenecer a alguna clase. En caso
de existir ambiguedad, esta debe resolverse de manera unica.
Ejemplos?
1.3.2. Datos cuantitativos
Representan respuestas con significado numerico.
Obtenidos de un proceso de conteo o medicion.
Si son resultado de un conteo se denominan datos discretos.
Si vienen de un proceso de medicion se denominan datos continuos.
De manera mas formal, son datos continuos si entre cualesquiera 2 dos

valores potencialmente observables, puede estar otro valor potencialmente
observable.
Notar que los conteos pueden tambien representarse de manera continua

si se expresan en terminos de porcentajes.
Ejemplos?
Categorizacion. Los datos cuantitativos pueden a veces re-expresarse o

agruparse de modo que se obtengan clases o categoras. Y entonces se
pueden utilizar otras tecnicas estadsticas para datos categoricos.
Que tan bueno es hacer esto ultimo? Depende de la escala, lo veremos...
Ejemplos?
1.4. Escalas de medicion
Dependiendo del detalle y precision, los valores medidos de las variables de

respuesta pueden clasificarse en niveles.
Por supuesto, dependiendo de tales escalas dependera cual tecnica es-

tadstica es posible emplear.
Los niveles de las escalas son:
(a) Escala nominal.
El mas bajo nivel de medicion.

Se realiza la operacion mas basica y sencilla: clasificar en categoras.
No es posible establecer una relacion de orden entre las categoras.
Solo es posible decir si la observacion pertenece o no a cierta cate-
gora.
Ejemplos?
(b) Escala ordinal.
Igual que la escala nominal pero ahora con la presencia o estableci-

miento de un orden entre las categoras.
No es posible hacer operaciones aritmeticas usuales.
Ejemplos?
(c) Escala de intervalo.
Los valores no solo se clasifican sobre la base del grado de posesion del
atributo sino que ademas es posible medir exactamente la intensidad
con la que se posee esa caracterstica.
Se requiere de una unidad de medida aceptada.
El origen o cero se establece sobre la base de conveniencias practicas.
No necesariamente implica ausencia de atributo.
Es posible hacer operaciones de suma o resta.
Ejemplos?
(d) Escala de razon.
Igual que el anterior pero ademas es posible situar un punto cero

absoluto no arbitrario y fijo, donde cero implica ausencia del atributo.
Es posible hacer operaciones de suma, resta, producto, cociente.
Es posible comparar mediante proporciones o razones.
Ejemplos?
Notar que las escalas son acumulativas, es decir, una escala ordinal posee
todas las propiedades de una escala nominal. Y as sucesivamente...
Una escala de razon es mas fuerte que una escala nominal porque posee
mas informacion.
Siempre sera posible transformar datos que se encuentran en cierta escala

a una mas debil.
Entonces como sera la relacion entre escalas y tipos de datos?
CAPITULO 2
Analisis Exploratorio de Datos
12
2.1. Analisis Exploratorio de Datos
2.1.1. Algo de historia del Analisis Exploratorio de Datos
Originalmente la Estadstica en sus comienzos (hace alrededor de 400

anos), era casi solo registro y resumen de datos.
La descripcion de los datos acompanada de graficos era ocasional.
Con el desarrollo del calculo y la probabilidad, la Estadstica dejo de ser

unicamente descriptiva y se torno en una herramienta inferencial o de
induccion (principios s. XIX).
Los metodos descriptivos quedaron casi en el olvido o pasaron a un se-

gundo plano como visualizacion de resultados obtenidos por procedimientos
analticos o inferenciales.
Debate entre el hecho de que los resultados obtenidos graficamente eran

suficientes y muchas veces no era si quiera necesario tener procedimientos
inferenciales.
Llegada de John W. Tukey, que crea metodos grafico-numericos novedosos.

Publicacion del libro Exploratory Data Analysis (1977). Conocido como
EDA.
Renacimiento del uso de graficos antes o al comienzo del analisis de un

conjunto de datos.
De enorme utilidad ante datos multivariados.
2.1.2. Objetivo del Analisis Exploratorio de Datos
El principal objetivo del EDA es hacer hablar a los datos.
No hay supuestos probabilsticos (principal fortaleza).
Su simplicidad, o evidencia, convierte al EDA en una herramienta muy

poderosa.
Puede echar abajo cualquier otra teora aunque sea muy sofisticada
(supuestos, graficos de residuales, supuestos de Normalidad, etc).
Ejemplo de un grafico de dispersion de Y vs. X antes de una regresion.
Describir de manera rapida y resumida un conjunto de datos.
Ver la solucion de un problema estadstico.
Detectar particularidades en los datos que pudieran afectar adversamente

los procedimientos estadsticos inferenciales tradicionales.
Senalar caractersticas que nos hagan conocer mas el fenomeno (observaciones

atpicas).
Despues al EDA, la inferencia estadstica surge naturalmente (confirma,

desecha, cuantifica diferencias o asociaciones encontradas previamente).
Ambos campos, el exploratorio y el inferencial se refuerzan mutuamente.
2.2. EDA para variables cualitativas
2.2.1. Tablas de frecuencia
Contiene las frecuencias (conteos, apariciones) de cada categora.
Pueden ser frecuencias absolutas o frecuencias relativas.
Frecuencia absoluta: numero de veces en que se observo cierta categora
Frecuencia relativa: divide la frecuencia absoluta entre el total de ob-

servaciones. Regularmente se expresan en porcentaje (multiplicandolas por
100).
A las tablas de frecuencia se les conoce tambien como distribuciones de

frecuencia.
Entonces, una tabla de frecuencia me muestra dos cosas:
1. Todos los posibles valores que puede tomar una variable categorica.
2. La frecuencia.
Implementacion en R: ver clase practica.
2.2.2. Diagramas circulares (pastel)
Compara las partes que componen una entidad con la entidad completa.
Regularmente expresados en porcentaje.
2.2.3. Diagramas o graficos de barras
Despliega grafico de frecuencias (relativas o absolutas).
2.3. EDA para variables cuantitativas
2.3.1. Diagramas de punto
Sirven para exhibir graficamente un conjunto de datos cuantitativos.
Se puede apreciar el numero de veces en que se presenta cada valor en el

conjunto de datos.
Se hacen evidentes:
Observaciones atpicas: Valores observados sustancialmente grandes

o pequenos con respecto al resto del conjunto.
Huecos: Espacios grandes entre conjuntos de puntos.
Perfil de la distribucion: Valores que son mas frecuentes.
Faciles de construir e interpretar si el numero de observaciones es pequeno,

digamos 25. De lo contrario se pierde claridad.
2.3.2. Diagramas de tallo y hojas
Con este diagrama se obtienen dos cosas:
Un orden de los datos.

Una idea de la distribucion de los datos.
Nos permite determinar:
Alejamiento de los datos entre s.

Concentracion de observaciones.
Si existen muchos datos cuyos valores se alejan mucho del resto del
conjunto.
Simetra.
Si hay grupos aislados de observaciones.
Pasos para hacer un diagrama de tallo y hojas a mano:
1. Hallar el maximo y el mnimo.

2. Determinar la regla para los tallos y las hojas.
3. Ordenar los tallos de arriba hacia abajo.
4. Por cada dato ingresar una hoja (sin orden)
5. Ordenar las hojas de izquierda a derecha.
Adecuaciones si queda muy largo hacia la derecha: abrir o amplificar los

niveles en los tallos.
2.3.3. Distribucion de frecuencias de variables discretas
Las distribuciones de frecuencias de variables discretas es igual a lo que

vimos para variables categoricas.
En este caso, las categoras son los valores discretos que toma la variable.
Es decir, en la construccion necesitamos contar apariciones (comando ta-

ble(), recuerdan?) para determinar las frecuencias absolutas y relativas.
De modo que podemos notar los valores mas frecuentes, concentraciones,

alejamientos, simetra, etc... darnos una idea de como estan distribuidos
los datos.
2.3.4. Histogramas o distribucion de frecuencias de varia-

bles continuas
Las distribuciones de frecuencias de variables continuas no puede hacerse

de manera directa. Por que?
Necesitamos la construccion de intervalos cuantos intervalos? de que lon-

gitud? de igual longitud o de diferente longitud?
A los intervalos de igual longitud se les suele llamar intervalos de clase
Notar que si se cambian los anchos de los intervalos de clase, la distribucion

de frecuencias puede cambiar.... Hay metodos con algunos criterios de
optimalidad, pero es algo con lo que tienen que vivir.
Entonces, un histograma es una representacion grafica (barras) de estas

frecuencias... Las frecuencias de los intervalos de clase.
Con los histogramas podemos ver:
Simetra
Sesgo
Bimodalidad
Observaciones atpicas
Huecos
Etc...
Graficos analogos: Polgono de frecuencias, Ojiva (frecuencias relativas acu-

muladas).
2.4. Estadsticos Descriptivos: Medidas de ten-

dencia central
Nos hemos dado una idea de la distribucion de los datos para algunas
variables utilizando frecuencias, histogramas, barras, pasteles, puntos, etc.
Existe otro tipo de descripciones no graficas que estan basadas en unos

numeros resumen o estadsticos descriptivos. Estos proporcionan as-
pectos relevantes de los datos.
Por ejemplo, hemos visto en algunos ejercicios practicos como los datos se
amontonan o se aglomeran alrededor de cierto valor.
Nos interesa ese valor, esa tendencia central y tambien nos interesan
medidas de variabilidad con respecto a ese valor.
Ejemplo de motivacion: Los 2 estudiantes.
Nos interesan estadsticos que resuman... summary statistics.
Fuente: Gonick & Smith, 1993
2.4.1. La media
Es la medida de tendencia central mas comun.
Es el promedio aritmetico de un conjunto de mediciones (suma de todas

las observaciones dividida entre el numero de observaciones).
Conceptualmente, sabemos que existe una media poblacional. Que no co-

nocemos pero que esta ah y la podemos definir. Se suele denotar por
:
N
1 X
= Xk
N k=1
La media muestral o promedio muestral se suele denotar por x

n
1X
x = xk
n k=1
En que casos conviene utilizar la media como medida de tendencia central

y en que casos no?
Alguna alternativa?
2.4.2. La mediana
Es el percentil del 50 % (veremos percentiles mas adelante).
Es el valor que, una vez ordenados los datos, los divide en 2 partes con
mismo numero de observaciones.
En otras palabras, una vez obtenida la mediana, el 50 % de los datos estan

por debajo o igual a ese valor y el 50 % estan por arriba.
En textos, regularmente se denota a la mediana poblacional (la que no

conocemos pero que sabemos existe) con una M y a la mediana muestral
con una m.
Ejemplo:
2.4.3. Percentiles o medidas de posicion

Si queremos describir todava mas a una distribucion emprica, estan los
percentiles.
Con ellos podemos comparar dos distribuciones, por ejemplo. O focalizarnos

en los extremos o en algun lugar especifico de una distribucion.
Para entender los percentiles, la forma mas facil es explicar los percentiles
mas utilizados... Veamos primero estos y luego regresamos a los percentiles.
As como el percentil 50 es la mediana, que corta en 2 nuestra distribucion,

nos interesan tambien aquellas medidas que cortan en 4 partes nuestra
distribucion. Estos son los cuartiles.
Cuartiles. Son valores que dividen al conjunto de observaciones ordenadas

en cuatro partes.
Son las abscisas que tienen por debajo al 25 %, 50 % (mediana), y el 75 %

de los valores de la distribucion de frecuencias.
El cuartil inferior o primer cuartil. Es aquel que acumula 25 % de las ob-

servaciones. Notar que este sera la mediana de los datos inferiores a la
mediana original con todos los datos.
El cuartil superior o tercer cuartil. Es aquel que acumula 75 % de las ob-

servaciones.
De modo que los percentiles es la generalizacion de lo anterior para cual-

quier porcentaje acumulado.
Existe tambien el concepto de deciles. Ya se imaginaran...
Ejemplo, a partir de un diagrama de hoja y tallo.
Suponga que tiene 31 observaciones que producen el siguiente diagrama:
Cual es la mediana?
Cual es el primer cuartil?
Cual es el tercer cuartil?
Y el segundo cuartil?
Y el primer decil?
2.4.4. Interpretacion geometrica de la media
2.5. Estadsticos Descriptivos: Medidas de dis-

persion
Hemos podido resumir el sentido de un conjunto de datos pero aun nos

falta dar medidas de dispersion para caracterizarlo bien.
Recuerden el ejemplo de los estudiantes. Nos interesa que tan dispersos

estan los datos con respecto, regularmente, a las medidas de tendencia
central como la media.
Amplitud o Rango (R): Es la medida de dispersion mas simple de todas.
Mide la distancia entre el maximo y el mnimo de los valores observados.
R = Amplitud = valor maximo - valor mnimo
De modo que podemos comparar dos distribuciones de datos. Nos podemos

dar cuenta cual esta mas dispersa. Esto sera bueno o malo segun lo que
estamos estudiando.
Amplitud Intercuartlica (AI): Es la distancia que hay entre los cuartiles

1 y 3.
AI = q3 - q1
Luego tenemos a la siguiente medida basada en las desviaciones de cada

valor con respecto a la media.
Varianza ( 2 ): (Poblacional) Suma las desviaciones cuadraticas de las

observaciones con respecto a la media poblacional y las divide entre el
numero de observaciones en la poblacion.
N
2 1 X
= (Xk )2
N k=1
Por que esta definicion?
Por que desviaciones al cuadrado? Que pasa si no tenemos ese cuadrado?
Si lo que tenemos es una muestra o subconjunto de datos observados de

la poblacion. Entonces tenemos a la varianza muestral
n
2 1 X
s = (xk x)2
n 1 k=1
Esa varianza muestral nos sirve para estimar la varianza poblacional. Es

posible demostrar que se obtiene una mejor estimacion utilizando n 1 en
lugar de n.
Notar que las unidades en que se expresa la varianza son el cuadrado de

las unidades originales, por lo que se acostumbra aplicar la raz cuadrada a
las definiciones anteriores para tener una medida de dispersion que tenga
las unidades originales.
Obtenemos entonces la desviacion estandar ( y s)

= 2
y

s = s2
Coeficiente de Variacion (CV): Este mide la dispersion relativa de un

conjunto de datos. Relativiza la dispersion con respecto a la media.

CV =

Relativizar? Ejemplo de los millones de dolares.
De modo que podemos expresar la dispersion en terminos de la media

(porcentaje), con la gran ventaja de que este coeficiente es independiente
de las unidades de medicion por que?
Entonces por eso resulta muy util para hacer comparaciones de variabilidad
en diversos datos.
Ejemplo (datos de la sesion practica en R): Billetes suizos (francos viejos).
Tenemos un conjunto de datos con 200 observaciones. Se trata de mediciones de

billetes suizos. La mitad de las observaciones son de billetes genuinos mientras
que la otra mitad se trata de billetes falsos.
Se midieron las siguientes variables que se expresan en el dibujo:
X1 = Largo del billete.
X2 = Ancho izquierdo del billete.
X3 = Ancho derecho del billete.
X4 = Margen inferior de la figura del billete.
X5 = Margen superior de la figura del billete.
X6 = Diagonal del billete.
2.5.1. Diagramas de Caja y Brazo
Ver clase practica en R.
Importante saber los nombres y como se construye cada elemento del grafi-
co.
2.5.2. Diagramas de Dispersion
co.
2.5.3. Diagramas de Burbujas
co.
2.5.4. Diagramas de Estrella
co.
2.5.5. Graficos de Violn
2.5.6. Graficos de probabilidades (Q-Q plots)
2.6. Estadsticos Descriptivos: medidas de aso-

ciacion lineal
Ya vimos graficamente algo sobre asociacion de variables utilizando dia-

gramas de dispersion.
Para medir la asociacion de dos variables se tiene el coeficiente de co-

rrelacion
Motivemos graficamente al coeficiente de correlacion en el pizarron...
Entonces tenemos a la covarianza muestral entre X y Y definida como:

n
1 X
Cov(X, Y ) = (xi x)(yi y)
n 1 i=1
Tiene como unidades el producto de las unidades de X por las unidades

de Y .
En la practica resulta conveniente eliminar la dependencia de la covarianza

con las unidades de medicion de las variables. Entonce se divide la cova-
rianza entre el producto de las desviaciones estandar de cada variable.
Se obtiene entonces lo que se denomina coeficiente de correlacion mues-

tral, usualmente abreviado como r,
Pn
i=1 (xi x)(yi y)
Corr(X, Y ) = r =
sX sY
Entonces r ya no depende de unidades.... Ejemplo...
|r| 1
Se le suele tambien llamar coeficiente de correlacion lineal, porque la aso-

ciacion que mide es lineal.... Grafico en el pizarron.
De modo que si hay algun otro tipo de asociacion entre las variables en
cuestion, esta pasara inadvertida por r.
Por ello, como vimos en la clase practica pasada, hay que acompanar de
graficos nuestras conclusiones.
Importante: Ni los diagramas de dispersion, ni el coeficiente de correlacion

deben tomarse como evidencia de causalidad.
Para concluir causalidad, se requiere de informacion externa de un experto

en el fenomeno estudiado.
Resumiendo:
La covarianza es una medida de dependencia o asociacion.
La covarianza mide solo dependencia lineal.
La covarianza es dependiente de la escala utilizada (unidades de medicion).
Covarianza cero no implica independencia.
La independencia implica covarianza cero.
Una covarianza negativa corresponde a un grafico de dispersion con pen-

diente negativa.
La covarianza de una variable consigo misma es la varianza de la variable.
La correlacion es una medida de dependencia o asociacion estandarizada.
El valor absoluto de la correlacion siempre sera menor o igual a 1.
La correlacion solo mide dependencia lineal.
Existen dependencias no-lineales que tienen correlacion cero.
Una correlacion cero no implica independencia.
Independencia implica correlacion cero.
Una correlacion negativa corresponde a una pendiente negativa en un dia-

grama de dispersion.
Una correlacion positiva corresponde a una pendiente positiva en un dia-

grama de dispersion.
Parte III
Introduccion al Muestreo
41
CAPITULO 3
El objetivo del muestreo y el marco muestral
42
3.1. El objetivo del muestreo
Hay una poblacion finita (conjunto de elementos) de la cual nos in-

teresa conocer alguna(s) caracterstica(s).
Nos aproximaremos a esta poblacion mediante una muestra (subconjunto

de elementos).
Se trata entonces de inferir sobre ciertas propiedades de una pobla-

cion a partir de la informacion parcial de esta.
3.2. El objetivo del muestreo: grafico
3.3. Inferir o generalizar...
3.3.1. Siempre inferimos, siempre generalizamos...
Notemos que siempre estamos infiriendo.
No podemos estar experimentando exhaustivamente todas las cosas o

vivencias... inferimos a partir de una pequena muestra.
Probamos y luego decidimos, inferimos sobre el resto.
Ejemplo: Enologa.... Otros ejemplos?
Como tenemos memoria, siempre estamos en proceso de induccion... ge-

neralizamos a partir de informacion parcial.
3.3.2. Inferir es aprender?...
Ejemplo: Opiniones formadas.... Ustedes que creen?
3.4. Inferir o generalizar sobre U a partir de s
3.4.1. Un ejemplo equivocado...

Un ejemplo del Lohr (1999).
En el libro: Mujeres y amor: Una revolucion cultural en progreso por Shere Hite
(1987) se encuentran los siguientes resultados:
84 % de las mujeres estan no satisfechas emocionalmente con su relacion

sentimental (p. 804)
70 % de todas las mujeres casadas 5 o mas anos tienen relaciones sexuales

fuera de sus matrimonios (p. 856)
95 % de las mujeres reportan formas de abuso emocional o psicologico de

parte de hombres con quienes estan en una relacion amorosa (p. 810)
84 % de las mujeres reportan formas de desden o indiferencia por parte de

los hombres en su relacion amorosa (p. 809)
Resultados citados y criticados bastante en Estados Unidos por periodicos y

revistas. Por que tan criticado? Sera informacion que ofende?
El estudio de Hite discute temas de interes, no obstante su error es generalizar a

todas las mujeres por el solo hecho de haber o no participado en su encuesta.
Tal generalizacion no es posible porque:
La muestra fue auto-seleccionada. Las mujeres que reciban el cuestiona-

rio por correo decidan si estaran en muestra o no. Hite mando 100,000
cuestionarios y solo le regresaron 4.5 %
Los cuestionarios llegaron mediante asociaciones profesionales de mujeres,

grupos de trabajo, iglesias, etc. y dejaron fuera a todas las demas mujeres
que no acudan a tales lugares
La encuesta tiene 127 preguntas abiertas y varias preguntas tenan varias

partes Quien tendera a contestar tales preguntas?
Muchas preguntas son vagas y usan palabras como amor. Un concepto

de muchas interpretaciones - sin criterios validos o comparables.
Muchas de las preguntas son tendenciosas. Por ejemplo: Tu esposo/amante

te ve como igual? O hay veces en que parece que el te trata como alguien
inferior? O no te deja tomar decisiones? O actua superior? (p. 795)
Hite escribe: Es posible que una investigacion no basada en la probabilidad o

en una muestra aleatoria permita generalizar sus resultados a la gran poblacion?
Si el estudio es lo suficientemente grande y la muestra lo suficientemente amplia
y si una generaliza con cuidado, s. (p. 778)
Para un estadstico muestrista la respuesta es no. La muestra final no representa

a las mujeres de los Estados Unidos y los estadsticos obtenidos solo describen a
las mujeres que decidieron responder.
Entonces, por ejemplo...
son validos los sondeos por Internet?
son validos los cuestionarios por correo electronico a empleados de una

empresa?
son validas las generalizaciones que se hacen a partir de este tipo de

sondeos?
La respuesta es: s son validos. Lo que puede no ser valido son las genera-
lizaciones que se hagan.
Entonces, nos tenemos que fijar no solo en el instrumento o cuestionario,

sino quienes contestan, que se infiere o generaliza. Abusados.
Esto aunque simple es un abuso muy comun....
3.4.2. Interpretacion: Foto o pronostico?
Los votantes probables... En que consiste?
La estimacion directa... En que consiste?
Que diferencia de interpretacion tiene?
Cual es mejor?
3.5. Sobre los 3 grandes enfoques teoricos del

muestreo
Hay varias formas de resolver el mismo problema con matematicas.
El objetivo o problema de muestreo puede tambien resolverse de varias

formas.
Hay 3 principales enfoques o perspectivas, dependiendo de donde se en-

cuentra (o se asume) esta la estructura estocastica del problema.
Antes de definir cada enfoque... Vamos a ejemplificarlos..
Ejemplo: Observar el movimiento de una mano con un ojo y un tubo.
3.5.1. Design-based approach

Lo importante: Como fue extrada la muestra?
El muestrista puede elegir como, lo crucial sera que considere este como a
la hora de estimar.
Otros nombres: muestreo a secas por colegas no expertos, muestreo ba-

sado en diseno, muestreo con enfoque aleatorizado, muestreo directo.
Fortalezas:
Objetividad. Si se hace de manera documentada, nadie puede cuestio-

nar la objetividad de la muestra, o el que haya o no sido seleccionada
de acuerdo a un diseno de muestreo.
No se confundan. Notar que la objetividad no esta ligada a la arbitra-
riedad del diseno de muestreo que elija el muestrista (e.g. una vez de
acuerdo todos en como se extraera la muestra no hay subjetividad).
La aparente confusion es un argumento mal utilizado para atacar este
enfoque.
Exactitud (insesgamiento). Y conforme se aumente el tamano de
muestra se tendera al verdadero valor.
Debilidades:
Tamanos de muestra grandes. Para obtener buenas estimaciones se

requieren tamanos de muestra considerables o de plano muy grandes.
Elevados costos. Por el tamano de muestra grande necesita de mas
recursos economicos.
3.5.2. Model-based approach

Asume la existencia de una super-poblacion U que genero a la poblacion
U que tenemos enfrente a traves de un modelo.
Lo importante: el modelo?
El muestrista tiene que elegir el modelo que impondra. El modelo determina

que partes son aleatorias y que parte no lo son, tambien la estructura
estocastica de la parte aleatoria.
Otros nombres: muestreo basado en modelos, muestreo con enfoque de

super-poblacion (areas pequenas, etc.).
Notar que el modelo se impone subjetivamente. Se impone un modelo a

algo que no se conoce.
Fortalezas:
Precision (estabilidad de las estimaciones).

Se pueden manejar tamanos de muestra muy pequenos o de plano
tamano de muestra cero.
Encuestas muy economicas.
Debilidades:
No insesgamiento. Ni siquiera aumentando el tamano de muestra te

puedes quitar el sesgo.
Subjetividad. (e.g. aunque todos estemos de acuerdo en el modelo,
no es cierto, porque no conocemos la super-poblacion).
Ojo, no estoy diciendo que este enfoque sea equivocado. Claramente tiene
sus ventajas (principalmente economicas y muy fuertes). El problema es
la subjetividad que puede echar abajo todo. Como siempre que se utilizan
modelos, no hay forma alguna de saber si son ciertos. Aguas!
3.5.3. Model-assisted approach

Lo importante: La informacion auxiliar disponible y los recursos compu-
tacionales.
En palabras llanas, combina los dos anteriores.
Otros nombres: muestreo modelo asistido, estimacion GREG.
Fortalezas:
Robustez: Siempre jala. Aunque el modelo esta mal especificado se

obtienen buenas estimaciones porque automaticamente se le da mas
peso a la parte design-based. Si el modelo esta muy bien especificado
(resulto ser muy realista) automaticamente el metodo da mas peso a
la parte model-based.
Objetividad.
Exactitud (insesgamiento).
Precision (estabilidad de las estimaciones).
Debilidades:
Para que de verdad funcione y mejore al design-based, lo necesario

para dar estimaciones (los g-weights) son a nivel maximo de des-
agregacion (individuo - observacion). Los g-weights dependen de las
probabilidades de inclusion de los individuos y de un parametro de
variabilidad por individuo.
Elevados costos informaticos (informacion, computo, etc.).
3.6. Marco muestral
Para extraer una muestra de la poblacion se requiere de algo que denominamos

marco muestral, marco de muestreo o simplemente marco.
Este es una lista que me permitira:
1. Identificar los individuos de mi poblacion y proporcionarme informacion

adicional util para un mejor uso del muestreo.
Cuantos individuos hay en la poblacion, como esta dividida, etc.?
2. Acceder a los individuos o poder establecer contacto con ellos.
Donde estan, telefono, direccion, coordenadas, etc..?
En el peor de los casos si no existe una lista, un marco muestral puede ser:
un mapa geografico,
una delimitacion en el plano cartesiano,
el boot de un disco duro,
el directorio de un CD,
el directorio telefonico,
el listado nominal electoral,
el padron de un partido poltico, etc.
Lo importante es que el marco me esquematice a la poblacion de interes.
Problemas o imperfecciones en el marco muestral:
Incompleto (No cobertura).
Muy general (Muy grueso, sin detalle ni informacion adicional necesaria

para muestrear).
Desactualizado.
Inexistente (el clasico problema en Mexico).
Mucha de la labor de muestreo tiene que ver con la construccion de un

buen marco muestral.
Importante: los errores de marco pueden ser indetectables en la lectura de re-

sultados de una muestra si en su construccion fueron obviados detalles, huecos,
etc. Pueden llegar a ser grandes errores arrastrados. Un marco muestral equi-
vocado puede ser un verdadero desastre.
En muestreos mas complejos se requerira que el marco proporcione informacion

adicional para la obtencion de estimaciones mas precisas y esquemas de seleccion
mas economicos.
La bibliografa base del curso, Sarndal et al.(1992), habla mas sobre marcos
muestrales y tambien aquella bibliografa clasica como el Kish (1965) que toca
el tema de manera muy completa y hasta con sugerencias ante complicaciones.
3.7. Radiografa general de una encuesta por mues-

treo
Para ir familiarizandonos mas con el problema al que da respuesta el muestreo

(inferir sobre una poblacion a partir de un subconjunto de individuos) y con
la nomenclatura (sinonimos) de lo que utilizaremos, consideremos el siguiente
listado muy sintetico del proceso de una encuesta (una aplicacion muy natural
del muestreo, ojo, pero no la unica).
1. Una encuesta tiene que ver con un conjunto de elementos denominado

poblacion finita.
2. Se dispone de una regla o listado que define de manera inequvoca a los

elementos que pertenecen a la poblacion; a tal regla se le denomina marco
muestral.
3. El objetivo de la encuesta es proveer de informacion sobre la poblacion

finita o sobre subpoblaciones de especial interes, por ejemplo, hombres y
mujeres como dos subpoblaciones; tales subpoblaciones son denominadas
dominios de estudio o simplemente dominios.
4. Se tiene asociado un valor de una o mas variables de estudio para cada

elemento de la poblacion. El objetivo de la encuesta es obtener informacion
sobre caractersticas poblacionales o parametros.
5. Los parametros son funciones de los valores de las variables de estudio.

Estos, son desconocidos y pueden ser medidas cuantitativas de interes
para la investigacion en curso, por ejemplo, el ingreso total, el ingreso
medio, numero de desempleados; para la poblacion entera o para dominios
especficos.
6. En la mayora de las encuestas, la observacion y el acceso a los elementos

individuales (en ocasiones denominados unidades de analisis) de la po-
blacion es establecido a partir de un marco muestral. Este asocia a los
elementos de la poblacion con las unidades muestrales contenidas en el
marco.
7. Una muestra (un subconjunto) de elementos se selecciona de la poblacion.

Esto se lleva a cabo seleccionando unidades muestrales de un marco.
8. Una muestra es una muestra probabilstica si fue obtenida mediante un

mecanismo aleatorio y con ciertos lineamientos.
9. Se realiza una observacion de los elementos muestrales, esto es que, para

cada elemento de la muestra, se hace una medicion de las variables de
estudio y sus valores son registrados. Las mediciones son acorde a un plan
de medicion bien definido.
10. Los valores registrados de las variables son utilizados para el calculo de es-
timaciones (puntuales) de los parametros poblacionales de interes (to-
tales, medias, medianas, razones, coeficientes de regresion, etc.). Luego se
realizan estimaciones de la precision de las estimaciones (los errores). Por
ultimo, se publican los resultados.
En una encuesta por muestreo, el ejercicio de observacion se limita a un subcon-

junto de la poblacion. Un tipo especial de encuesta es aquella en donde toda la
poblacion es observada; denominada censo o enumeracion completa.
Un censo significa automaticamente la estimacion de un parametro sin

errores?
Que se suele hacer con los censos en lo que toca al gran numero de
variables de estudio?
Cual es la tendencia cada vez mas creciente en primer mundo con respecto
a los censos?
3.8. Algunos comentarios para discutir
Considerando los ejemplos anteriores y lo hasta ahora visto, notese lo siguiente:
1. La complejidad de una encuesta por muestreo puede variar mucho.
2. Aunque una encuesta involucra observaciones individuales de los elementos

de la poblacion, el proposito de la encuesta no es utilizar esos datos
a nivel individual sino la obtencion de estadsticos resumen para la
poblacion o subgrupos especficos.
3. En la misma encuesta pueden haber muchas variables de estudio, mu-

chos dominios de estudio, muchos parametros de interes y quizas mu-
chos tipos de estos.
4. Una muestra es cualquier subconjunto de la poblacion. Puede o no ser ex-

trada mediante un mecanismo aleatorio. Nosotros nos concentraremos
en aquellas probabilsticas.
Un ejemplo de aquellas no probabilsticas son aquellas en las que un ex-

perto en la materia del estudio ligada a la encuesta decide la seleccion de
los individuos de modo que la muestra represente las caractersticas de la
poblacion de estudio.
En general, solo en circunstancias afortunadas una seleccion no

probabilstica arrojara estimaciones adecuadas.
5. La correcta medicion y registro de informacion pude ser difcil y en ocasio-

nes imposible. Respuestas falsas, no respuesta, rechazo a responder. Todos
estos errores no muestrales pueden llegar a ser considerables.
6. Existe cada vez mayor posibilidad de la combinacion e incorporacion de

informacion proveniente de otras encuestas, diversas bases de datos gu-
bernamentales (esto gracias a la ley federal de transparencia y acceso a
la informacion publica gubernamental - hay que aprovecharla!).
3.8.1. Incorporacion de tecnica a el objetivo del muestreo
3.8.2. Un ejemplo sobre el marco muestral (de Lohr, 1999)
Poblacion objetivo y poblacion muestreada en una encuesta telefonica

de posibles votantes en una eleccion.
No todos los hogares tienen telefono, de modo que cierta cantidad de

personas de la poblacion objetivo de posibles votantes no estaran asociados
a los numeros telefonicos del marco muestral.
En algunos hogares con telefono, los residentes no estan empadronados

para votar y entonces no son elegibles para la encuesta.
Algunas personas que s son elegibles y que estan en el marco muestral

no responden debido a varias razones: No pueden contestar, no quieren
contestar, o son incapaces de contestar.
CAPITULO 4
Muestreo probabilstico y extraccion de la muestra
64
4.1. Muestreando probabilsticamente
Ahora... Como es la extraccion? Como se extrae la muestra?

Respuesta: Mediante muestreo probabilstico.
Este es una forma de seleccion de muestras que satisface ciertas condiciones.

Si no, entonces no se le puede llamar probabilstico.
4.1.1. Muestreo en 1 etapa
Para el caso en el que se hace una seleccion directa de elementos de la

poblacion, es decir, muestreo en una etapa; tales condiciones son las siguientes:
1. Es posible definir a S = {s1 , s2 , . . . , sM }, el conjunto de todas las muestras

posibles del esquema de seleccion.
2. Se tiene una probabilidad conocida de seleccion p(s) asociada con cada

posible muestra s S.
3. El esquema de seleccion p(), aunque esta definido para s, hereda a cada

elemento k en la poblacion una probabilidad de ser seleccionado k 6= 0.
4. Se selecciona una muestra s mediante un mecanismo aleatorio que per-

mita que cada s posible tenga exactamente la probabilidad p(s) de ser
seleccionada.
Notese que 1, 2 y 4 tienen que ver con muestras (subconjuntos de elementos

de la poblacion) o probabilidades de obtener estas; mientras que 3 tiene que
ver con elementos de la poblacion.
Se le denomina muestra probabilstica a una muestra obtenida bajo estas

cuatro condiciones.
La funcion p() define una distribucion de probabilidad sobre
S = {s1 , s2 , . . . , sM } ,
el conjunto de todas las muestras posibles.
A la funcion p() se le denomina funcion diseno de muestreo o simplemente

funcion diseno. Es la que matematiza la forma en que previamente estable-
cimos sera seleccionada la muestra.
La probabilidad mencionada en el punto 3 es denominada la probabilidad de

inclusion (en la muestra) de los elementos en la poblacion.
El proceso de aleatorizacion del punto 4 regularmente puede llevarse a cabo me-

diante un algoritmo facil (que muchas veces, tratandose de situaciones estandar,
ya viene integrado a algun software estadstico).
Un tipo comun de algoritmo es aquel en el que un experimento aleatorio se lleva

a cabo para cada elemento listado en el marco indicando inclusion o no inclusion
del elemento en la muestra (simulacion de distribuciones Uniformes y definiendo
una probabilidad tope).
Ejemplo simple de Excel o en el Pizarron.
Esquema de muestreo en 1 etapa
4.2. Muestreando en mas de 1 etapa
La seleccion de una muestra regularmente se lleva a cabo en dos o mas

etapas.
Esto quiere decir que se seleccionan conglomerados de elementos en la

etapa inicial por ejemplo y posteriormente se seleccionan individuos o ele-
mentos dentro de los conglomerados seleccionados.
Esto puede suceder en una o mas etapas de muestreo (submuestreo); los

elementos tal cual son muestreados entonces hasta la ultima etapa.
Importante: En un diseno de muestreo probabilstico de mas de 1 etapa

se tienen que cumplir las condiciones 1-4 en cada etapa.
4.2.1. Muestreo en 3 etapas
Por ejemplo, pensemos que tenemos un muestreo en 3 etapas.
Para ello necesito un marco muestral organizado de manera anidada en

3 niveles.
Esto es, tengo un marco muestral a partir de donde voy a extraer una
muestra que esta organizado en forma desagregada por niveles.
Por ejemplo, de la siguiente forma:
1. Manzanas (representado por rombos) compuesta de viviendas

2. Viviendas que estan conformadas por individuos
3. Individuos
La poblacion U de individuos esta organizada de modo que tengo una

poblacion UI de manzanas, una poblacion UII de viviendas y una poblacion
UIII de individuos.
La siguiente tabla ejemplifica esta estructura anidada en los datos.
Esquema de muestreo en 3 etapas
Entonces, finalmente, se debera tener una probabilidad de inclusion de ser

seleccionado para cada uno de los elementos de la poblacion sin importar
el numero de etapas del esquema de muestreo.
Esto lo veremos mas adelante, y se denominan las probabilidades de inclu-

sion de individuos (elementos) de una poblacion en muestra.
Hay que tener cuidado en no confundir estas con la probabilidad de selec-

cion de una muestra.
4.2.2. Ventaja de las muestras probabilsticas sobre las no

probabilsticas
La ventaja principal que tienen las muestras probabilsticas sobre

las demas es que permiten el uso de la teora estadstica para inferir
sobre la poblacion de la que fueron tomadas.
Con esto se tiene la capacidad de producir medidas de error y de

precision en terminos probabilsticos.
Por ultimo, el muestreo probabilstico garantiza la eliminacion de cualquier

subjetividad en el proceso de seleccion de elementos en una muestra.
Esa subjetividad ausente, es lo que coloquialmente algunos llaman sesgo.

No obstante esta palabra tiene otras connotaciones estadsticas.
Es por ello que las muestras obtenidas mediante muestreo probabilstico

son objetivas y por lo tanto gozan de mayor aceptacion.
4.2.3. Muestreo en 2 etapas
Con lo unico que se sabe del ejemplo anterior de 3 etapas...
Rapidamente... Como podra mejorar el diseno de muestreo anterior?
Mas etapas implica un mejor diseno?
Mas etapas implica un diseno mas economico?
Hay respuesta absoluta a estas preguntas?
Esquema de muestreo en 2 etapas
CAPITULO 5
Estimacion a partir de muestras probabilsticas
76
5.1. Poblacion, muestra y seleccion
Considerese la poblacion, U , un conjunto finito de N elementos etiquetados

k = 1, . . . , N ,
{u1 , . . . , uk , ..., uN } (5.1)
Por simplicidad, representemos al elemento k-esimo, uk , unicamente por su eti-

queta k. De modo que:
def
U = {1, . . . , k, . . . , N } (5.2)
Por lo pronto, tomaremos como conocido a N , que representara el tamano de

la poblacion.
Ahora, considerese a y la variable de estudio, y sea yk , k U el valor de la

variable y para el k-esimo elemento de la poblacion U . Sabemos que yk existe
pero la desconocemos.
Supongase que interesa el total poblacional t de la variable y,
def
X X
t= yk = yk (5.3)
kU U
o de la media poblacional y U de la variable y,

X
y U = t/N = yk /N (5.4)
U
Notese que cuando y toma unicamente los valores 0 y 1 tendramos que

y U es una proporcion.
Entonces, como una proporcion es una media y la media es un total

dividido entre la constante N , plantearemos todo en terminos del
problema de estimar al total t.
Esto, de nuevo es otra generalizacion del libro base del curso que antes no
se efectuaba en libros tradicionales.
Para la estimacion de t a partir de una muestra probabilstica s, sub-

conjunto de elementos de la poblacion U seleccionados mediante un me-
canismo aleatorio, tendremos que observar los valores que toma yk , k s;
es decir, los valores de y unicamente para aquellos elementos que fueron
seleccionados en la muestra probabilstica.
Esto es, se generaran estimaciones de t con la informacion que contengan

las yk , k s.
5.2. La funcion diseno de muestreo
Ya tenemos definida nuestra poblacion U de tamano N , le extraeremos una

muestra probabilstica s mediante un esquema aleatorio de seleccion.
De modo que es posible (aunque no siempre sencillo) determinar la proba-

bilidad de seleccion p(s) de la muestra especfica s.
Asumimos que existe la funcion p() tal que p(s) indica la probabilidad de
seleccionar s bajo el esquema utilizado.
A la funcion p() la denominaremos funcion diseno de muestreo.
Es fundamental pues determina las propiedades estadsticas de las canti-

dades aleatorias calculadas a partir de la muestra... por eso son aleatorias,
porque no sabemos que muestra estamos observando.
Por ejemplo: la distribucion muestral, el valor esperado y la varianza de la

media muestral, la mediana muestral y la varianza muestral.
Estas cantidades aleatorias vendran siendo lo que en cursos como Inferen-

cia Estadstica se denominan estimadores, i.e. funciones con variabilidad
pues dependen de un conjunto aleatorio.
Para un diseno de muestreo dado p(), se puede entonces considerar cual-

quier muestra s como la realizacion de la variable aleatoria (o output del
evento aleatorio) S, cuya distribucion de probabilidad queda explicitada
mediante la funcion p().
Sea S el conjunto de todas las muestras s posibles. Entonces, S es un

conjunto de 2N subconjuntos de U , si incluimos al conjunto vaco y tambien
al conjunto U mismo; i.e. con un mismo diseno muestral se tienen un total
de 2N muestras posibles incluyendo a la muestra vaca y a la muestra
censal.
Entonces tenemos que:
P r {S = s} = p(s) (5.5)
para cualquier s S. Como p(s) es una distribucion de probabilidad sobre

S, tenemos
i. p(s) 0, s S (5.6)
P
ii. sS p(s) = 1 (5.7)
Notese que muchas de las 2N muestras contenidas en S pueden tener de

hecho probabilidad cero. El subconjunto de S compuesto de aquellas s
cuyas p(s) son estrictamente mayores que cero constituyen el conjunto de
muestras verdaderamente posibles. Ellas seran las unicas que podran ser
extradas segun el diseno especificado.
El tamano de muestra, ns , es el numero de elementos en s, es decir la

cardinalidad del conjunto s.
ns no es necesariamente el mismo para todas las muestras posibles, esto

dependera del diseno de muestreo utilizado.
El diseno de muestreo p(), como ya se dijo, determina las propiedades

estadsticas de las cantidades calculadas a partir de la muestra. No obs-
tante, p() es principalmente una herramienta matematica, un constructo
teorico, no practico per se para la extraccion de una muestra. Pero s fun-
damental para el desarrollo de toda la teora que sostiene el muestreo
probabilstico.
Es importante la eleccion del diseno de muestreo y a su vez la simultanea

eleccion de un esquema de seleccion que haga posible la implementacion
del diseno. Ambos tienen que estar ligados.
En otras palabras, la realidad de mi forma de extraer muestras tiene

que estar perfectamente compaginada con la teora que asumo para
la extraccion y/o proceso de inferencia.
5.3. Probabilidades e indicadoras de inclusion
Suponga que determinado diseno de muestreo p(s) ha quedado establecido,

i.e. que se tiene una forma matematica para p(s).
5.3.1. Las indicadoras de inclusion muestral
Entonces, la inclusion de un elemento determinado k en una muestra es un

evento aleatorio indicado por la variable aleatoria Ik , denominada la indicadora
de inclusion muestral del elemento k, definida como,
(
1 si k S
Ik = (5.8)
0 en otro caso
Notese que Ik = Ik (S) es una funcion de la variable aleatoria S.
5.3.2. Las probabilidades de inclusion
De modo que la probabilidad de que el elemento k este en muestra es k donde,
X
k = P r {k S} = P r {Ik = 1} = p(s) (5.9)
s3k
Y la probabilidad de que los elementos k y l estan simultaneamente en muestra,
X
kl = lk = P r {k&l S} = P r {Ik Il = 1} = p(s) (5.10)
s3k&l
Tambien, tenemos que,
kk = P r Ik2 = 1 = P r {Ik = 1} = k , k = 1, . . . , N

(5.11)
Formalmente para evitar abusos de notacion, en la ecuacion (5.9) lo escrito como

{k S} debe ser interpretado como el evento aleatorio {S 3 k}, el cual es el
evento una muestra en cuya realizacion contiene al elemento k.
Entonces, dado p(), se tienen asociados N valores,
1 , . . . , k , . . . , N (5.12)
denominadas las probabilidades de inclusion de primer orden. Tambien estan

asociados N (N 1)/2 valores,
12 , 13 , . . . , kl , . . . , N 1,N (5.13)
denominadas las probabilidades de inclusion de segundo orden.
Desde luego, as le podemos seguir con probabilidades de inclusion de tercer

orden, etc... partiendo de p(), pero no seran necesarias para este curso y
tampoco son necesarias para disenos comunmente usados.
Usualmente el diseno de muestreo se escoge en funcion de la facilidad para

el calculo de las probabilidades de inclusion de primero y segundo orden.
Tambien se busca un compromiso entre que sea facil manejo tecnico y

factible llevar tal seleccion a la realidad.
Por otro lado, p() pueda llegar a ser complicada pero eso no afecta tanto
mientras podamos obtener las k y las kl .
Como veremos, es posible alcanzar uno de los objetivos principales, la ob-

tencion del valor esperado y la varianza de ciertas cantidades calculadas a
partir de la muestra, a partir de las k y las kl unicamente.
5.3.3. Comentarios sobre las probabilidades de inclusion
Formalmente, hemos visto en la seccion 4.1 en el punto 3, que para que

una muestra sea considerada una muestra probabilstica, se tendra que
cumplir que k > 0, k U .
No obstante, en la practica a veces se le asigna probabilidad cero a algunos

individuos en la poblacion de modo que estos nunca salgan en muestra.
Esta practica (previa a la extraccion de la muestra) tiene como objeto

eliminar de posibles muestras a individuos que se sabe no importante la in-
formacion que aportan. Desde luego, esta es una practica delicada porque
varias expresiones tienen estos valores como denominador.
En el muestreo directo de individuos (es decir, una sola etapa de muestreo),

todas las k , k = 1, . . . , N son (y deben ser) normalmente conocidas
antes de la extraccion de la muestra.
En disenos de muestreo mas complejos esto no es posible o resulta muy

complicado. Sin embargo, en muestreo de varias etapas, conocer todas las
k y las kl no es indispensable pues basta con el conocimiento a
priori de las probabilidades de inclusion para las unidades de muestreo al
momento de la extraccion en cada etapa.
En otras palabras, basta con conocerlas previo a muestrear en cada

etapa. As lo podemos apreciar en el siguiente grafico.
5.3.4. Estadsticos bajo el diseno muestral
En Estadstica el termino estadstico es una funcion que toma valores

reales cuyo valor puede variar acorde con las diferentes realizaciones de
determinado experimento.
En muestreo, queremos examinar como un estadstico vara de la

realizacion de una muestra s segun vare el conjunto aleatorio S.
Es decir, la variacion muestra a muestra es lo que nos interesa.
Si Q(S) es una funcion real del conjunto aleatorio S, esta funcion to-
mara valores una vez que se tenga la realizacion s de S y se tengan reco-
lectados los datos de los elementos que componen a s.
En la practica cuando una muestra es extrada, exactamente una realizacion

s del conjunto aleatorio S ha ocurrido.
Una vez que s se realizo, asumimos que es posible medir la o las variables
de interes, e.g. y y z, para cada elemento k s.
P P
Por ejemplo para el estadstico Q(S) = S yk / S zk , despues de la medi-
P P
cion, podemos calcular (la realizacion del estadstico) Q(s) = s yk / s zk .
Importante!. En este ejemplo y y z son variables en el sentido matemati-

co determinstico o de bases de datos...
i.e. pueden tomar posibles valores diferentes yk y zk para k s. No obs-

tante, y y z no seran tratados como variables aleatorias.
Por que esto ultimo?
Importante!. La naturaleza aleatoria del estadstico Q(S) recae so-

lamente del hecho de que el conjunto S es aleatorio.
Es muy importante que esto quede claro. La aleatoriedad reside

en cual muestra fue extrada y no en los posibles valores de las
variables de interes en los elementos de la muestra.
Consideraremos que los valores de las variables de interes son dados (fijos)
en los elementos, no son aleatorios pero s son desconocidos.
La incertidumbre vendra, entonces, de la muestra que utilizaremos y no de

lo que medimos en los elementos que componen la muestra.
Como el estadstico Q(S) es una variable aleatoria, esta tiene varias pro-
piedades estadsticas.
Definicion 5.3.4.1 La esperanza y la varianza del estadstico Q = Q(S) se

definen, respectivamente, por las siguientes expresiones,
X
E(Q) = p(s)Q(s) (5.14)
sS
V (Q) = E [Q E(Q)]2

(5.15)
X
= p(s) [Q(s) E(Q)]2 (5.16)
sS
La covarianza entre dos estadsticos Q1 = Q1 (S) y Q2 = Q2 (S) se define por,
C(Q1 , Q2 ) = E {[Q1 E(Q1 )][Q2 E(Q2 )]} (5.17)

X
= p(s)[Q1 E(Q1 )][Q2 E(Q2 )]. (5.18)
sS
Notese (de nueva cuenta) que estas definiciones hacen referencia a la

variacion sobre todas las muestras posibles que pueden ser obtenidas
bajo el diseno de muestreo dado, p(s).
Entonces, hacia donde vamos?
Para hacer enfasis, algunos textos de muestreo utilizan los terminos espe-
ranza diseno, varianza diseno y covarianza diseno. Aqu no utilizaremos la
palabra diseno (como apellido) en estos estadsticos.
No hay riesgo de mala interpretacion porque todo lo estamos viendo bajo

el enfoque basado en diseno.
Los estimadores que nos interesan son los que pueden expresarse como
funciones de las indicadores de inclusion muestral definidas en la ecuacion
(5.8).
Es importante entonces describir las propiedades basicas de los estadsticos

Ik = Ik (S), para k = 1, . . . , N .
Resultado 5.3.1.1 Para un diseno de muestreo p(s) arbitrario, y para k, l =

1, . . . , N ,
E(Ik ) = k (5.19)
V (Ik ) = k (1 k ) (5.20)
def
C(Ik , Il ) = kl k l = kl (5.21)
Demostracion.
Tarea opcional 1 para la proxima clase, antes de su comienzo (cla-
se despues del examen). Se entrega por e-mail -LaTeX o algo legible
escaneado-, les tengo que confirmar recepcion, revisare mi correo antes
de comenzar la clase.
Dependiendo del diseno, C(Ik , Il ) puede ser positiva, negativa o cero. Notese
que si k = l,
V (Ik ) = kk (5.22)
5.4. Muestreo Bernoulli (BE)
N elementos en un marco muestral con cierto orden, que no nos interesa.
De antemano, se fija constante, 0 < < 1, i.e. k = , k U
Sean 1 , . . . , N un conjunto de N realizaciones independientes de una

variable aleatoria U nif (0, 1).
La seleccion o no del elemento k-esimo se decide de la siguiente forma:
Si k < , entonces k es seleccionado, de otro modo no. k = 1, . . . , N .
Entonces, la probabilidad de seleccionar al individuo k-esimo es:
P r{k < } = , k U.
Y tenemos que para k 6= ` los eventos {k s} y {` s} son independiente.
El numero de elementos seleccionados

X
ns = #(s) = Ik ,
U
se distribuye Bin(N, ). Es decir, ns no es fijo, es una variable aleatoria.

N n
P r{ns = n} = (1 )N n , n = 1, . . . , N.
n
De modo que:
EBE [ns ] = N y VBE (ns ) = N (1 )
Y entonces tenemos que:
p(s) = ns (1 )N ns
Notar que no tenemos que conocer N para determinar las s.
Notar que el tamano de muestra es aleatorio, pero sabemos como se

comporta.
Ojo: Esto no es un modelo impuesto. Predefinimos que as sera la selec-

cion de individuos, con una probabilidad fija .
En que casos es util este diseno de muestreo?
Algun ejemplo real?
5.5. Muestreo Aleatorio Simple (SI)
Queremos seleccionar especficamente n elementos de una poblacion de N

sin reemplazo y donde cada seleccion sea con igual probabilidad.
Lo mas facil es imaginarlo como si seleccionaramos n elementos de una

urna con N elementos. Elemento que fue seleccionado se separa y se siguen
extrayendo elementos de la urna hasta alcanzar una muestra de tamano n.
Hay varias formas de llevar a cabo este esquema de seleccion. El mas

sencillo es un procedimiento basado en extracciones, tal cual como se
menciono, con una urna o con papelitos:
1. Seleccionar con igual probabilidad 1/N al primer elemento de entre N

posibles y apartarlo.
2. Seleccionar con igual probabilidad 1/(N 1) al segundo elemento de entre

los restantes N 1 y apartarlo.
..
.
n. Seleccionar con igual probabilidad 1/(N n + 1) al n-esimo elemento de

entre los restantes N n + 1 despues de n 1 extracciones y apartarlo.
Otra forma? Se les ocurre otra forma?
Otra forma es siguiendose:
1. Seleccionar con igual probabilidad 1/N al primer elemento de entre N

posibles y reemplazarlo (devolverlo a la urna).
2. Repetir el paso anterior veces hasta obtener n elementos distintos,

P r{ n} = 1.
Otra forma? Se les ocurre otra forma?
Otra forma es, grosso modo, convirtiendo el primer esquema en un esquema

secuencial de lista (Fan, Muller & Rezucha, 1962).
1. Se generan 1 , 2 , . . . realizaciones U nif (0, 1) independientes. Seleccionar

el primer elemento si 1 < n/N , si no, no.
2. Para los siguientes elementos k = 2, 3, . . ., sea nk el numero de elementos

que hemos seleccionado entre los primeros k 1 elementos en la lista de
la poblacion (marco). Si
n nk
k <
N k+1
se elige el elemento k-esimo, si no, no.
3. El procedimiento termina cuando nk = n.
Otro? S, uno muy facil que yo llamo con hojita de Excel. Pizarron.
1. Se generan 1 , 2 , . . . , N realizaciones U nif (0, 1) independientes.
2. Ordenar la poblacion acorde con estas variables generadas. Y elegir los

primeros n elementos.
Este ultimo tiene la particularidad de generar tantas muestras SI como yo

quiera y que ademas no se traslapen (negatively coordinated samples).
Desventajas de estos esquemas? Alternativas?
De modo que, bajo SI tenemos que:

(
N

1/ n
si #(s) = n,
p(s) =
0 en otro caso .
Y usando la definiciones que vimos, podemos calcular k y k` .

1
Tenemos exactamente Nn1

muestras s que tienen al elemento k-esimo,
N 2

y n2 muestras s que tienen a los elementos k y `-esimo (k 6= `).
Dado que todas las muestras de tamano n tienen la misma probabilidad:

N 1 N n
k = / = , k = 1, . . . , N
n1 n N
y
N 2 N n(n 1)
k` = / = , k 6= ` = 1, . . . , N
n2 n N (N 1)
Notar que aqu ns = n es fijo. Por como definimos quebamos a seleccionar.
Como ven los textos tradicionales al muestreo aleatorio simple?
CAPITULO 6
Estimadores y sus propiedades estadsticas basicas
98
6.1. Estimadores comunes
Vimos en general estadsticos bajo el diseno muestral...
La gran mayora de los estadsticos que utilizaremos son estimadores.
Un estimador es un estadstico pensado para la produccion de valo-

res cercanos a un valor poblacional de interes que desconocemos, que
denominaremos parametro y denotaremos por .
Si, por ejemplo, solo hay una variable de estudio y, se puede pensar a
como una funcion de y1 , . . . , yN , los N valores de y en la poblacion.
= (y1 , . . . , yN )
Un ejemplo de parametro podra ser el total poblacional t de y,
= t
X
= yk
kU
def
X
= yk
U
Otro, la media poblacional y U de y,
= yU
t
=
N
P
U yk
=
N
Otro ejemplo de parametro que es funcion de dos variables de estudio y y

z, sera la razon de los totales poblacionales de y y z,
P
y
= PU k
U zk
Denotaremos al estimador de como,
b = b (S)
Si s es una realizacion del conjunto aleatorio S, entonces podemos calcular b a

partir de la(s) variable(s) de estudio asociadas a los elementos k s.

6.2. Distribucion muestral de un estimador
Como ya se dijo, para nosotros es de interes describir la variacion mues-

tra a muestra del estimador b que utilicemos.
Un estimador que vare poco alrededor del valor desconocido del parametro es
intuitivamente mejor que otro que vare mucho.
Esta descripcion del comportamiento muestra a muestra de b la logramos

mediante la distribucion muestral del estimador .
b

En ella se describen todos los valores posibles del estimador junto con la proba-
bilidad correspondiente para cada uno de esos valores, todo esto bajo el diseno
de muestreo p(s) en uso.
Ejemplo de la Distribucion Muestral: Las Letras (A,B,C,D,E,F,G,H).
uk
yk
#(S)
si
(s
b i)
Frecuencias relativas
Distribucion muestral de b

En teora, dado el diseno, el estimador y las mediciones de la variable de interes;

habra de ser posible la obtencion de la distribucion muestral del estimador.
No obstante, puede ser complicado debido al gran numero de muestras

posibles que se traduciran en un gran numero de valores del estimador.
Sin embargo, es posible tener, de manera teorica a partir de la Definicion 5.3.4.1,

medidas resumen (usualmente desconocidas) que describen importantes aspectos
de la distribucion muestral de un estimador.
La esperanza de b esta dada por,

X
E()
b = p(s) (s)
b
sS
Mientras que la varianza esta dada por,

X h i2
V ()
b = b E()
p(s) (s) b
sS


Hay dos medidas importantes de la calidad de un estimador ,

b son el sesgo y el
error cuadratico medio. El sesgo de b se define como,
B() b
b = E() (6.1)
Un estimador b se dice que es insesgado de si:
b = 0, y = (y , . . . , y )0 RN
B() (6.2)
1 N
El error cuadratico medio de b se define como,
h i2
b = E b
M SE() (6.3)
X h i2
= p(s) (s)
b (6.4)
sS
h i2
= V () + B()
b b (6.5)
Y, por supuesto, si el estimador b es insesgado para , entonces por la ecuacion

(6.5), M SE()
b = V ().b
(Es muy importante que esto quede claro, es un error muy comun.) Notese la
diferencia entre una estimacion y un estimador. Una estimacion (s)
b es un

numero, es producido por un estimador b = (S),

b una funcion.
(s)
b es un numero que puede ser calculado una vez que hay una realizacion s
del conjunto aleatorio S y ha sido observado y la(s) variable(s) de estudio ha(n)
sido medida(s) para los elementos k s.
En adelante, ignoraremos la diferencia tipografica entre S, el conjunto

aleatorio y s la realizacion de S. Por simplicidad designaremos a ambos
con la notacion s.
En palabras, un estimador es insesgado si el promedio ponderado (sobre todas

las muestras posibles utilizando las probabilidades p(s) como pesos) es igual al
valor del parametro desconocido.
Los estimadores que son de mayor interes al muestreo son aquellos que
son insesgados o aproximadamente insesgados.
Estos ultimos son aquellos en donde el sesgo es muy pequeno. Que tan pe-
queno? Se puede relativizar tal sesgo con lo que se esta midiendo (coeficiente
de variacion). Tambien, es posible calcular tal sesgo. El muestrista decidira si lo
considera grande o pequeno.
Una nota, formalmente hablando. No existen estimaciones insesgadas pues

las estimaciones (como ya se dijo) son numeros, valores constantes. Los que
pueden o no ser insesgados son unicamente los estimadores. No obstante,
en la practica, cuando se habla coloquialmente de una estimacion insesgada se

esta hablando de una estimacion proveniente de un estimador insesgado.
Un muestrista en la practica tendra que decidir entre varios posibles esti-

madores para un mismo parametro. Buscara utilizar aquel cuya distribucion
muestral esta altamente concentrada, poco dispersa alrededor de .
No obstante, aun cuando la distribucion muestral esta altamente concen-

trada alrededor de siempre existira una pequena posibilidad de que
nuestra muestra en particular haya sido desafortunada (mala), de tal manera que
la estimacion caiga en una de las colas de la distribucion, muy lejos de
. Tendran que vivir con esta posibilidad.
Entonces que puede uno controlar como muestrista?


h i1/2
A la raz cuadrada de la varianza del estimador V ()b se le denomina el
error estandar del estimador .
b Al cociente del error estandar del estimador y
h i1/2
la esperanza del estimador, CV ()
b = V ()b /E()
b se le denomina el error
estandar relativo o el coeficiente de variacion del estimador.
En la practica, se desconoce a V ().b Esto porque tendra que conocer todos

los valores posibles que toma el estimador de muestra en muestra y para ello
necesitara conocer la variable de interes en toda la poblacion.
Por lo tanto, tal varianza se estima a partir de los datos disponibles de la muestra
mediante el estimador Vb ().
b

Pero este estimador, Vb (),

b nos dice poca informacion de manera directa, pues
esta en unidades al cuadrado de las unidades en las que esta el estimador ,
b
de modo que se acostumbra tomar su raz cuadrada, el error estandar esti-
h i1/2
mado, Vb ()b y tambien se calcula el coeficiente de variacion estimado,
(normalmente expresado en porcentaje) que se define de la siguiente manera,
h i1/2
V ()
b b
cve()
b = (6.6)
b
Nota. En la practica suele llamarse coloquialmente al cve como el coeficiente de

variacion, aunque esto no es correcto si observamos las dos definiciones anteriores.
No obstante, no hay confusion pues es evidente que si uno esta trabajando con
datos muestrales, no es posible el calculo del coeficiente de variacion de acuerdo
a la definicion de la expresion especfica y por lo tanto se utiliza la expresion
(6.6) que finalmente tiene la misma intencion o utilidad.
Para que nos sirve el cve?
Por que no lo utilizan en Mexico?
Tiene sentido que al muestrear de la misma forma, con el mismo tamano de

muestra y medir lo mismo, se tengan mejores o peores estimaciones que otras?
Ejemplo de los Millones de Dolares
Entonces, cuales son los niveles aceptables o utilizados para el cve?

6.3. Los Estimadores y sus propiedades
Suponer que interesa estimar el parametro del total de la poblacion t,

de la variable de estudio y, definido como:
X
t= yk
U
Considerar al estimador del total t

Xy
k
t = (6.7)
s
k
Este estimador puede ser expresado en terminos de una funcion lineal de

las variables indicadoras de inclusion muestral Ik . Entonces,
X yk
t = Ik (6.8)
U
k
De (6.8) y como E [Ik ] = k y k > 0, k U tenemos que:

" #
X y X y X y X
E t = E Ik k = E [Ik ] k = k k = yk = t (6.9)
U
k U
k U
k U
P
por lo tanto t es insesgado para t = U yk .
Las cantidades yk /k se llaman los valores de y -expandidos del k-

esimo elemento. Usualmente son denotados como:
yk
yk =
k

Entonces (6.7) es simplemente la suma de los valores de y, -expandidos.

X X
t = yk = Ik yk (6.10)
s U
Pregunta Los valores yk son constantes o son variables aleatorias? Expli-

que.
Pregunta Donde esta la aleatoriedad en t ? Explique.
Lo aleatorio esta incorporado por s o equivalentemente por las indicadoras

I1 , . . . , IN . Los valores -expandidos yk son constantes fijas.
Notar que en (6.10) se logra la conexion analtica entre s y U , gracias a el

uso de las indicadoras I1 , . . . , Ik , . . . , IN .
Que efectos tiene el dividir yk entre k ?
La expansion aumenta la importancia de elementos en la muestra; co-

mo la muestra contiene menos elementos que la poblacion se requiere
forzosamente de una expansion.

El elemento k-esimo cuando esta presente en muestra representara 1/k

elementos de la poblacion.
Las formulas (6.7), (6.8) y (6.10) anteriores conforman un principio extre-

madamente importante:
Es posible usar los valores muestrales -expandidos para estimar

insesgadamente el total poblacional aun cuando el muestreo es
hecho con probabilidades de inclusion arbitrarias positivas.
Pregunta Por que las k s pueden ser arbitrarias? Explique.
Cuando asignamos arbitrariamente k a yk , k U , lo hacemos en U y

no ha habido nada aleatorio.
Una vez realizada la extraccion siguiendo las k s arbitrarias, despues re-

construyo.
En otras palabras, antes de extraer, estamos decidiendo como vamos a em-

paquetar o comprimir independientemente de que muestra nos toque...
y despues de la extraccion desempaquetamos o descomprimimos la
informacion de la muestra.

Los orgenes de este principio de expansion vienen de Narain (1951) y

de Horvitz & Thompson (1952), y por eso estos estimadores se conocen
tambien con el nombre de estimadores de Narain-Horvitz-Thompson
o solo estimadores de Horvitz-Thompson.
Algo similar haba sido utilizado por Hansen & Hurwitz (1943), pero para
muestreo probabilstico con reemplazo (y probabilidades desiguales).
Notar que el estimador es lineal en Ik , esto, como se vera mas adelante

simplificara la derivacion de la varianza.
La siguiente expresion se sintetiza cierta notacion y algunas equivalencias

para el facil manejo de dobles sumas, mismas que utilizaremos en algunos
desarrollos matematicos posteriores.
XX def
XX X X X{k6=l}
akl = akl = akk + akl (6.11)
U U U
kU lU
Tambien, para toda k, l U , definamos al expandido de (que denota la

covarianza entre Ik y Il ),
= /
kl kl kl
y por la definicion (5.21) dentro del Resultado 5.3.1.1 tenemos que,
= 1 ( / ) para k 6= l ;
=1

kl k l kl kk k

Resultado 6.3.1 El estimador
X
t = yk (6.12)
s
P
es insesgado para t = U yk , y tiene la varianza,
XX
V t = kl yk yl (6.13)
U
donde kl se define por (5.21) dentro del Resultado 5.3.1.1. Luego, dado que

kl > 0, k 6= l U , un estimador insesgado de V t esta dado por,
XX
y y

Vb t = kl k l
(6.14)
s
= / .
donde kl kl kl

Demostracion.
De (6.9), tenemos demostrado el insesgamiento. Respecto a la varianza, par-
P
tiendo de (6.10) tenemos que t = U Ik yk , entonces por la sabida formula de
varianza de combinacion lineal de variables aleatorias (en este caso las Ik )
X X X{k6=l}
V t = V (Ik )yk2 + C(Ik , Il )yk yl (6.15)
U U
Ahora, por (5.21) y (5.22), donde C(Ik , Il ) = kl y V (Ik ) = kk , y tambien

por el manejo de dobles sumas visto en (6.11), tenemos
X X X{k6=l}
kk yk2 +

V t = kl yk yl (6.16)
XUX U
= kl yk yl (6.17)
U

Para la demostracion del insesgamiento de Vb t , primero expresemos (6.14)
utilizando las indicadoras Ik ,
XX
Vb t = y y
Ik Il (6.18)
kl k l
U
dado que kl > 0, k, l U . Luego, como Ik Il toma el valor 1 si y solo si ambas

k y l pertenecen a s. Entonces, por la ecuacion (5.10), E[Ik Il ] = P r{Ik Il =
1} = kl , de modo que
h i hX X i XX
E Vb t = E y y =
Ik Il y y(6.19)
E [Ik Il ]
kl k l kl k l
U U
XX XX
y y =

= kl kl k l
kl yk yl = V t (6.20)
U U

PP
La varianza V t = U kl yk yl puede alternativamente ser expre-
sada de las siguientes formas en terminos de valores originales (es decir,
no expandidos) de yk como
XX
kl
V t = 1 yk yl (6.21)
U k l
XX X 2
kl
= yk yl y (6.22)
U U k
k l

PP
Y por su parte, el estimador de varianza Vb t = s kl yk yl como
XX 1
kl
Vb t = 1 yk yl (6.23)
s k l
kl
Como ya se menciono anteriormente (pagina 80) el tamano de muestra,

ns , puede o no ser fijo, puede o no ser el mismo para todas las muestras
s posibles contenidas en S (el conjunto de todas las muestras s posibles).
Esto dependera del diseno de muestreo p(s) utilizado o por utilizar.
Cuando utilicemos un diseno de muestreo con tamano de muestra fijo,

denotaremos a ns unicamente con n.

Resultado 6.3.2 (Sen; Yates-Grundy, 1953) Si p(s) es un diseno de muestreo

de tamano de muestra fijo, entonces la varianza del estimador puede alterna-
tivamente ser escrita como
1X X
(yk yl )2

V t = (6.24)
2 U kl

Dado que kl > 0, k 6= l U , un estimador insesgado de V t esta dado por
1X X
kl (yk yl )2

Vb t = (6.25)
2 s
Demostracion.
Tarea opcional 2 para la proxima clase, antes de su comienzo. Se entrega
por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase. Pista: Desarrollar
el termino al cuadrado, sumar y utilizar los resultados siguientes para disenos de
tamano de muestra fijo:
X
k = n (6.26)
U
X X{k6=l}
kl = n(n 1) (6.27)
U
X{k6=l}
kl = (n 1)k (6.28)
U


recepcion, revisare mi correo antes de comenzar la clase. Demostrar las 3
expresiones anteriores.
Sobre el Resultado 6.3.2. Como yk yl = 0 si k = l, los terminos en donde

k = l no contribuyen con valores en la doble suma del resultado. De modo
P P{k6=l}
que es posible, en el Resultado 6.3.2, utilizar U en la formula para
P P{k6=l}
V t ,y s en la formula para V t .
b
Notar tambien, a partir de la demostracion, que las dos varianzas (6.13)

y (6.24) son identicas cuando el diseno es de tamano de muestra
fijo.
No obstante, aun con diseno con tamano de muestra fijo, las dos varianzas
(6.14) y (6.25), no son necesariamente identicas, pero ambas son
insesgadas.
Pregunta Por que no son necesariamente identicas? Explique.
Ahora, notar que ambas varianzas (6.14) y (6.25), requieren que
kl > 0, k 6= l U (6.29)
Pregunta Por que este requerimiento? Explique.

Pregunta Por que es tan fuerte? Explique.
Para cualquier s seleccionada, p(s) es necesariamente positiva y por lo

tanto kl > 0, k 6= l s, el requerimiento mas fuerte (6.29), puede
no satisfacerse. Alguien sabe un ejemplo?
Ojo: Las varianzas (6.14) y (6.25) pueden ser calculadas para cualquier s.
No obstante, si no se cumple (6.29), estas estimaciones de varianza
no deben utilizarse, pueden estar totalmente equivocadas
Un resultado util relativo a los valores -expandidos es el siguiente, cuya demos-

tracion es muy parecida a la utilizada en la demostracion de los Resultados 6.3.1.
y 6.3.2.
Resultado 6.3.3 Sean a1 , . . . , ak , . . . , aN numeros fijos y ak = ak /k (con

P P
k > 0) para k = 1, . . . , N . Entonces s ak es insesgado para U ak . Sean
a11 , a12 , . . . , akl , . . . , aN N numeros fijos y akl = akl /kl (con kl > 0) para
PP PP
k, l U . Entonces s akl es insesgado para U akl .

Comentarios en clase
Entonces, que estamos haciendo con el Resultado 6.3.1.?
De que se trata el principio este de utilizar los factores de expansion?
Cual es el chiste del uso de los estimadores de Horvitz-Thompson(1952)?
Como lo entiendo de manera facil, intuitiva?
Para contestar esto, veamos el siguiente ejemplo que contiene la idea...
Ejemplo del Arca de Noe mezclado con la Carretera Inter-Galactica.

6.4. El estimador bajo el diseno BE
Retomando lo que vimos del diseno de muestreo BE, tenemos que:
k = , k U,
y tambien que:
k` = 2 , (k 6= `) U
De modo que aplicando los resultados que vimos, tenemos el siguiente

resultado
Resultado 6.4.1 Bajo un diseno BE, el estimador del total poblacional t =

P
U yk toma la forma:
1 X
t = y . (6.30)
s k
La varianza esta dada por,
X
1
y2.

VBE t = 1 (6.31)
U k
Un estimador insesgado de tal varianza es,
X
1 1
yk2 .

VbBE t = 1 (6.32)
U

Y si hablaramos de estimar una media....
Pregunta Como sera un estimador para la media utilizando los estimado-

res o de Narain-Horvitz-Thompson cuando conocemos a N ?
Pregunta Cual es la varianza de tal estimador?
Pregunta Cual es un estimador insesgado de tal varianza?
Pregunta Y si queremos estimar la proporcion de hombres de cierta pobla-

cion bajo un diseno BE, Como adecuamos tales expresiones?

6.5. El estimador bajo el diseno SI

Vimos que bajo el diseno SI:
n
k = f = , k U,
N
donde f denota la fraccion de muestreo. Y tambien vimos que:
n(n 1)
k` = , (k 6= `) U
N (N 1)
Tenemos entonces el siguiente resultado...
Resultado 6.5.1 Bajo un diseno SI, el estimador del total poblacional t =

P
U yk toma la forma:
1 X
t = N ys = y . (6.33)
f s k
La varianza esta dada por,

2 1 1 2 2 1f 2
VSI t = N SyU = N SyU , (6.34)
n N n
2 1
yU )2 . Un estimador insesgado de tal varianza es,
P
donde SyU = N 1 U (yk

2 1 1 2 2 1f 2
VbSI t = N Sys = N Sys , (6.35)
n N n
2 1
ys )2 .
P
con Sys = n1 s (yk


recepcion, revisare mi correo antes de comenzar la clase. Demostrar que,
en efecto, a partir de las expresiones generales se obtienen las expresiones (6.31)
y (6.34) cuando se utiliza un diseno BE y SI, respectivamente.

recepcion, revisare mi correo antes de comenzar la clase. Demostrar que
la expresion (6.35) es insesgada para (6.34).
Resultado 6.5.2 En un diseno de muestreo SI (por lo tanto, de tamano de

muestra fijo), el estimador de la media poblacional de la variable de interes y,
P
es decir, y U = U yk /N , es
t X
y U = = y /N = y s (6.36)
N s k
La varianza estara dada por,
1f 2
VSI y s = SU (6.37)
n y
1
donde S 2U = y U )2 . Y un estimador insesgado de tal varianza es,
P
y N 1 U (yk
1f 2
VbSI y s = Sy s (6.38)
n
1
donde Sy2s = y s )2 .
P
n1 s (yk
Demostracion. La demostracion se desprende de manera muy sencilla de la de-

mostracion del Resultado 6.5.1.


6.6. El efecto de diseno
Como puedo comparar disenos? Que se les ocurre?
Como puedo saber que diseno es el adecuado para cada situacion?
Como puedo comparar dos disenos dado el uso del mismo estimador?
Como puedo comparar dos estimadores dado el mismo diseno de mues-

treo?
Por ejemplo, de los resultados anteriores Como puedo saber bajo cual
diseno, BE o SI, el estimador es mejor?...
O dicho de otra forma mas formal... Que diseno es mejor cuando utilizo
el estimador ?
Primero recordemos la importancia del diseno SI:
(a) El mas importante.
(b) Teorico.
(c) Ideal.

(d) Contra el que se comparan todos los desarrollos nuevos.
Entonces, tiene sentido tomar al diseno SI como referencia.
Kish (1965) propuso la medida Design Effect, efecto de diseno, usualmente

denotado como Def f ,
Vp ()
b
Def f (p, )
b = . (6.39)
VSI ()
b
Notar que utilizamos valores poblacionales... Las varianzas reales, pero no

las conocemos porque no tenemos todas las muestras posibles, entonces se
define al efecto de diseno estimado def f (o a veces denotado Def \ f.
Este lo unico que hace es utilizar estimaciones de la varianza en lugar de
las varianzas poblacionales que utiliza la expresion (6.40):
b = Vp () .
b b
def f (p, ) (6.40)
VbSI ()
b
Notar los valores que pueden tomar...
Si utilizamos un diseno SI tenemos que Def f = 1 y def f = 1
Entonces, siempre queremos que Def f < 1... buscamos eso!

Normalmente, el Def f < 1 siempre que se utilicen disenos con estratifi-

cacion y el Def f > 1 siempre que se utilicen disenos con conglomeracion.
El problema en la practica es que vamos a utilizar estratificacion y conglo-

meracion... y no sabemos que efecto es el que domina.
Lo importante es, anotar la posibilidad de mejorar los disenos de

muestreo utilizados.
Con el paso del tiempo o en el repetido ejercicio dela misma encuesta, uno
puede mejorar anadiendo experiencia previa.
Esto es, cambiando el diseno: la forma de estratificar, los tamanos de

muestra de estratos, el tamano de muestra utilizado, etc.
Cuidado con las definiciones y las notaciones de diferentes fuentes.

CAPITULO 7
Que tamano de muestra utilizar?
129
El tamano de muestra a utilizar es un tema claves en muestreo.
Pregunta que le hacen regularmente a un muestrista o estadstico.
Bajo la teora moderna de muestreo el tema no es tan clave. Es mas una

cuestion de $. Por eso el libro base del curso no incluye este tema.
Desde otras disciplinas ajenas a la estadstica creen que existe un

tamano de muestra preestablecido que aplica siempre.
Salen entonces varias interrogantes, las primeras muchas veces de nuestro

jefe, cliente o companero de oficina:
Es suficiente el tamano de muestra de # para estimar esto?

Con un tamano de muestra de # ya es representativa mi muestra?
Que dice Sarndal al respecto? Se utiliza en Sarndal el concepto de
representatividad?
Que hace en la practica el mercado actual de encuestas en Mexico?
El tamano de muestra depende fundamentalmente de lo que se

intenta medir, en particular de la variabilidad de lo que se mide.
Si lo que se quiere medir tiene mucha variabilidad se necesitara un tamano

de muestra mayor, a que si es bastante homogeneo.

Tenemos algo aparentemente paradojico:
Como sabemos la variabilidad de lo que se intenta medir?
Aunque parezca paradoja, muchas veces se puede tener una idea o se

pueden tener estudios del mismo tipo (o similares) anteriores.
Ejemplos para casos extremos del Deming (1950) y del Kish (1965)
Existen varias expresiones matematicas para el calculo del tamano de muestra,

tambien existen varias interrogantes y consideraciones; se iran resolviendo con la
practica y el manejo repetido.
Listaremos de manera esquematizada algunas expresiones e ideas simples para el

calculo del tamano de muestra (viene mayormente extendido en Mendez et al.
(2004)[pp. 12-15, 44-50]).
Importante no perderse en la teora siguiente. La mecanica basica a seguir es:
Utilizaremos el Teorema Central del Lmite (trata medias, recordar la rela-

cion entre media, total y proporcion).
Se obtienen formulas para un diseno SI.

Posteriormente el tamano de muestra obtenido se altera segun que tanto

nos alejamos del diseno SI cuando utilizamos cualquier diseno de muestreo.
Finalmente se incorporan alteraciones segun tasas de no respuesta
Como se menciona en Mendez et al. (2004), de manera laxa dice que los prome-
dios de muchas muestras probabilsticas de una poblacion tienden, al aumentar
el tamano de muestra, a tener una distribucion normal, a pesar de que la variable
que se mide no tenga distribucion normal en la poblacion.
Para alcanzar una distribucion muestral parecida a una Normal, se requiere que
el tamano de muestra sea grande.
La rapidez con la que se alcanza tal Normalidad depende del tipo y de como es la
variable en la poblacion. Con estudios empricos de simulacion estocastica, se han
determinado algunos tamanos de muestra mnimos: 1, 5, 20, 30, etc. Observar
las Figuras 1.6 y 1.7 del Mendez et al. (2004)[pp. 12-13].
Una vez que se considera un tamano de muestra mnimo, entonces puedo decir:
b N [, V ()],
b (7.1)
de modo que es posible determinar la probabilidad
P [ b + ] = 1 , (7.2)

que estara asociada al intervalo de confianza
P [b b + ] = 1 , (7.3)
que puede expresarse sinteticamente:
P [|b | < ] = 1 . (7.4)
Esta ultima expresion me determinara como tendria que ser (que tamano de
muestra utilizar en) ,
b para que discrepe a lo mas (la precision o error
absoluto o margen de error) del verdadero valor , y para que esto suceda
con un nivel de confianza del (1 ) 100 %.
7.1. Tamano de muestra para una media bajo

muestreo SI asumiendo normalidad
Si utilizamos el Teorema Central del Lmite, entonces necesitamos una suce-

sion de variables aleatorias independientes identicamente distribudas. Esto lo
cubrimos utilizando un muestreo SI y cuando interesa estimar una media en la
poblacion (es decir, = yU ), de modo que tenemos expresiones para b y para
V ().
b
Entonces, sea n el tamano de muestra llegamos a que, para una media, bajo
un diseno SI y asumiendo normalidad en la distribucion muestral de : b
1
n = 2 1
(7.5)
2
z/2 Sy2 U
+ N

donde,
1 X
Sy2U = (yk yU )2 . (7.6)
N 1 U
Notar que Sy2U se desconoce, pero podra ser sustituido por algun valor aproxi-
mado de mediciones anteriores de lo mismo o mediante una prueba piloto.
La expresion (7.5) la podemos simplificar utilizando un nivel de confianza del 95 %

y si podemos suponer que N es muy grande, tal que 1/N sea muy pequeno.
Ojo: Notar lo conservador del supuesto de que 1/N l 0 en (7.5).
Asi, (7.5) es aproximado de la siguiente forma,
(1.96)2 Sy2U
n l (7.7)
2

7.2. Tamano de muestra para una media bajo

muestreo SI sin asumir normalidad
Cuando no es posible asumir normalidad en la distribucion muestral de

b hay dos opciones.
Utilizar una expresion asociada al coeficiente de variacion o utilizar la de-

sigualdad de Tchebychev.
7.2.1. Utilizando el coeficiente de variacion
Si utilizamos el coeficiente de variacion cuando b = ys tenemos que:

q
p
V ()
b V (ys )
CV = = , (7.8)
E[]
b E[ys ]
expresion que bajo el diseno SI resulta ser:

q
1n/N 2
n
SU
y
CV = , (7.9)
yU
y despejando n y estableciendo un coef. de variacion deseado de CV0 ,
S 2U
y
n = S2
, (7.10)
yU
(CV0 )2 (yU )2 + N

La expresion (7.10) es util cuando es de interes tener una precision del

orden de lo que se esta midiendo, es decir, cuando el error absoluto o nuestra
precision se quiere establecer en terminos porcentuales de lo que intentamos
medir.
Desafortunadamente, (7.10) tiene la desventaja de que necesita adicionalmente

tener un valor aproximado o de una prueba piloto de lo que intentamos medir yU ,
cosa a veces no muy facil de determinar si consideramos que estamos hablando
de una media.
7.2.2. Utilizando la desigualdad de Tchebychev
La otra opcion cuando no se puede asumir normalidad, es la Desigualdad de

Tchebychev, en cuyo caso para la expresion (7.5) tendriamos la correspondiente
expresion siguiente que no asume normalidad:
1
n = 2 1
. (7.11)
(4.4)2 Sy2 U
+ N
Que equivalentemente, como ocurrio anteriormente, puede simplificarse si pode-

mos suponer que N es muy grande, como:
(4.4)2 Sy2U
n l . (7.12)
2

Analogamente, tambien se pueden derivar expresiones donde se utiliza el coefi-

ciente de variacion simultaneamente con el uso de la desigualdad de Tchebychev,
e.g. Mendez et al. (2004, p. 48).
7.3. Tamano de muestra para una proporcion

bajo muestreo SI asumiendo normalidad
Consideremos la expresion que ya vimos para la media (7.5). Entonces, cuando

el parametro de interes a estimar es una proporcion, es decir = P , se tiene
que:
1
n = 2 1
(7.13)
2
z/2 N
P (1P )
+ N
N 1
donde P representa la proporcion que se quiere estimar, que desconocemos y

cuyo valor en la expresion anterior puede ser sustituido por alguno aproximado
de estudios anteriores o de una prueba piloto.
Simplificando la expresion (7.13), utilizando un nivel de confianza del 95 % y si

podemos suponer que N es muy grande de modo que 1/N sea muy pequeno y
de modo que N/(N 1) sea casi 1, tenemos entonces la siguiente version de
(7.13) simplificada:
(1.96)2 P (1 P )
n l , (7.14)
2

expresion que puede todavia simplificarse mas si se considera que P (1P ) toma
su valor maximo cuando P = 0.50 y que reflejara absoluta ignorancia sobre cual
sera el valor del parametro P que queremos estimar.
Y si ademas amplificamos, conservadoramente, el tamano de muestra todava

mas considerando gruesamente que 1.96 l 2, entonces podramos re-escribir
(7.14) como:
(2)2 (0.25) 1
n l 2
= 2. (7.15)

Desde luego, considerando el hecho de que para poder asumir normalidad en

(7.13), (7.14) y en (7.15) se tendra que dar la conocida condicion emprica de
que:
nP > 5 (7.16)
y simultaneamente de que
n(1 P ) > 5. (7.17)
Hay que recordar de que este resultado viene de lo ya visto sobre el Teorema
Central del Lmite, vease Mendez et al. (2004, p. 13).
Adicional a esto, en varios textos de muestreo se sugiere que el valor de P se

encuentre entre 0.2 y 0.8 para que las expresiones vistas para proporciones supo-
niendo normalidad funcionen bien. Esto ultimo ya quedara a criterio de ustedes.

7.4. Tamano de muestra para una proporcion

bajo muestreo SI sin asumir normalidad
Analogamente a lo que ya hemos visto, para el caso en que se requiera utilizar

la desigualdad de Tchebychev para proporciones y simplificando (de la misma
manera que ya hemos visto) tenemos que la expresion correspondiente sera:
(4.4)2 (0.25) 5
n l 2
l 2. (7.18)

7.5. Cuando se puede considerar a N grande?
Para contestar a esta pregunta observemos las siguientes tablas que nos daran
una idea del comportamiento de las expresiones hasta ahora vistas

Podemos decir entonces que, en general, el tamano de la poblacion N no

es fundamental para el calculo del tamano de muestra n. Basta con que
N sea lo suficientemente grande.
As, considerando la expresion (7.13) tenemos los siguientes tamanos de muestra

para diferentes niveles de error absoluto o precision predefinidos:

7.6. El efecto del diseno: ajuste del tamano de

muestra
Una vez determinado el tamano de muestra n adecuado a nuestras necesidades y

conforme a lo desarrollado en parrafos anteriores, este tiene que ser modificado
si el diseno de muestreo a utilizar no es un muestreo aleatorio simple.
Para ello basta con multiplicar el tamano de muestra obtenido originalmente por
el Deff (design effect).
El Def f proporciona una medida de perdida o ganancia en precision

conforme al diseno de muestreo que estamos utilizando y respecto al
diseno de muestreo SI.
Por ejemplo, tratandose de dos Def f s del mismo diseno pero para diferentes
variables o estimadores, este me indicara de entre esos dos para cual variable o
estimador es mas adecuado el diseno de muestreo que estamos utilizando.
Esto es, no hay disenos de muestreo malos, lo que hay son disenos
mas adecuados que otros para lo que se esta midiendo y el como se
esta midiendo.
Para efectos de calculo de tamano de muestra, este puede tomarse de estudios

o experiencias anteriores.
Problemas practicos con el uso del Def f :

Para calculo de tamanos de muestra pueden no tenerse a disposicion valores

del de estudios anteriores.
Y como vimos, el diseno que vamos a utilizar puede usar estratificacion y

conglomeracion, no sabemos que efecto domina.
Otra vez, lo importante es la posibilidad de mejorar los disenos de mues-

treo utilizados con el paso del tiempo o en encuestas repetidas.
7.7. Ajuste del tamano de muestra por la tasa

de respuesta
Otra modificacion que se puede hacer al tamano de muestra n es ajustar por la

tasa de respuesta r (valor entre 0 y 1) que senala el porcentaje de respuesta a
una encuesta. Para realizar dicho ajuste basta con dividir a n entre r.

7.8. Comentarios finales sobre el tamano de mues-

tra
Finalmente, el tamano de muestra (y/o el diseno de muestreo utilizado)

suele estar muchas veces definido por los recursos economicos destinados
a la encuesta.
Esto se combina con la importancia que el cliente o consumidor de a la

informacion obtenida.
Si, por ejemplo, se trata de simplemente tener una idea de determinadas

proporciones se destinara poco dinero a la encuesta y por consiguiente
sera un tamano de muestra pequeno con respecto al ideal que el mues-
trista calcule. Se tendran estimaciones con precisiones modestas.
En el mercado de encuestas en Mexico, le llaman Error Teorico de Esti-

macion al que se obtiene bajo muestreo aleatorio simple con el tamano
de muestra impuesto por las restricciones economicas.
En lo que respecta a la tasa de no respuesta, su consideracion en la practica

depende de la forma de cobrar de las empresas de campo, por cuestionario
efectivo o aplicado. Siendo la primera opcion la que normalmente se cobra.

CAPITULO 8
Estratificacion
144
8.1. Introduccion a la estratificacion
8.1.1. Como se ve la estratificacion en otros textos y

como la trataremos?
Se ve mas como un tipo de diseno de muestreo.
Nosotros lo veremos como una tecnica o una herramienta que podemos

implementar para mejorar nuestro diseno.
Es una de las tecnicas mas importantes para mejorar un diseno.
Ayuda grandemente a mejorar la calidad de un ejercicio de muestreo sin

aumentar la complejidad matematica de este.
8.1.2. De que se trata la estratificacion?
En palabras llanas, dividir un problema grande de estimacion en va-

rios problemas pequenos de estimacion y ulteriormente combinar las
estimaciones obtenidas en estas subdivisiones (estratos) para la obtencion
de una estimacion global (de toda la poblacion).

8.1.3. Utilidad y usos de la estratificacion
Me ayuda a enfrentar problemas de marco muestral.
Me ayuda a separar los pedazos de la poblacion en partes que tienen que

tratarse de diferente forma.
El estratificar me ayuda tambien a la incorporacion de informacion

adicional (proveniente de mi marco muestral o de mi experiencia) para la
mejora del diseno de muestreo a utilizar.
Otra utilidad importante de la estratificacion es el control de mi muestra.
Lo anterior, de modo que puedo mejorar la dispersion de mi muestra.
Ojo: Notar la palabra dispersion... Es dispersion geografica?
Tambien puede ser una herramienta para el manejo de costos y admi-

nistracion de recursos en las tareas operativas
Otra utilidad importante de la estratificacion es que muchas veces se re-

quiere tener estimacion para determinadas subpoblaciones o dominios de
estudio.

Para poder arrojar estimaciones por dominios, sin desvos de muestra. Es

decir, sin tener mas muestra donde no nos interesa, o tener mas donde hay
mas variabilidad o s nos interesa.
Por ejemplo, si un grupo de polticos solicitan una muestra, desde luego

que exigiran que caigan, digamos, todos los estados de la republica; en
este caso la estratificacion solo se utiliza para fines de control de la muestra
y no para mejorar la precision.
Que esta pasando, en terminos generales, cuando estratificamos y como

es que me ayuda ante problemas de marco muestral, mejoras de precision
o manejo de costos? Es una idea muy basica. Al estratificar se trata por
separado cada estrato.
Puede ser que se utilicen esquemas de muestreo independientes entre es-

tratos y mas adecuados para cada estrato (costos, precision o marco mues-
tral).
8.1.4. Estratificar o no estratificar?
Estratificar o no estratificar?.... Respuesta....

Se gana siempre, estratificando?.... Respuesta....
Claro, esto ultimo siempre y cuando se haga una adecuada estratifica-

cion.
8.1.5. La peor de las situaciones
En el peor de los casos, ante una estratificacion no adecuada,

se obtienen niveles de precision equivalentes a no haber utilizado
estratificacion.
En otras palabras, si una estratificacion no es adecuada es como si no se

hubiera estratificado.
Esta es una propiedad muy interesante, noble y util pues te permite experi-
mentar e intentar mejorar tu diseno de muestreo sin grandes consecuencias.
8.1.6. Concepcion equivocada y muy usada al estratificar
Necesariamente los estratos tienen que ser bloques geograficos definidos

o colindantes?

Esta es una idea erronea de la gente que cree tener mucho contacto con la
materia de muestreo y piensa a la estratificacion como cortes geograficos
unicamente.
En realidad los estratos pueden ser cualquier corte en mi poblacion objetivo.
Estos cortes tienen que ser a manera de lo que en matematicas se conoce

como una particion.
Es decir cortes exhaustivos (todos los elementos de la poblacion pertenecen

a algun estrato, no podran quedar fuera) y excluyentes (un elemento no
puede estar en mas de un estrato).
8.2. Hay una buena estratificacion?
Que es lo mas importante para que mi estratificacion sea fructfera en

terminos de precision?
Mas alla de la clasica recomendacion de los viejos libros de muestreo....

Los estratos deben ser homogeneos al interior y heterogeneos entre s,

i.e. los individuos dentro de un estrato deben ser muy parecidos y dos
individuos pertenecientes a diferentes estratos deben ser muy distintos
Cual creen ustedes?.....
Que la variable de estratificacion (una variable categorica o continua ca-

tegorizada en intervalos) este ntimamente ligada o asociada a la variable
de estudio relativa al parametro de interes.
Por ejemplo, si me interesa medir la estatura media de una poblacion,

una muy buena variable a utilizar para estratificar sera la estatura de la
poblacion en mediciones pasadas.
Esto porque yo como investigador se de antemano que la estatura esta nti-

mamente ligada (correlacionada) con el peso.
Entonces, podramos utilizarla en intervalos de estatura, etc.
Claro, esto dependera si tenemos tal variable disponible en nuestro marco

muestral.

De modo que obtendramos una buena estratificacion mientras mas

relacionada este la variable que utilizamos para estratificar con la
variable asociada a lo que nos interesa.
8.3. El numero de estratos
Cuantos estratos usar?
Esto equivale a responder Cuantos intervalos usar? en el caso de que

tengamos que categorizar alguna variable continua que queremos utilizar
para la estratificacion.
Alguien sabe?
La respuesta tiene que ver con cuanta muestra tenemos disponible para ser
distribuda en nuestros estratos y tambien cuestiones ejecutivas, es decir,
si la estratificacion es vendible al jefe o cliente no experto en muestreo.
Nosotros, expertos, tenemos que tener en mente siempre que la variable

de estratificacion debe estar muy asociada a lo que queremos medir.

De nuevo, si esto ultimo no sucede, no pasa nada, pero desperdiciaremos

concentracion de muestra donde debieramos concentrarla.
Donde deberamos concentrarla?
Donde hay mayor variabilidad.
Habamos dicho, que depende de cuanta muestra tenemos... Por que?
Para determinar cuantos estratos utilizar, se tiene que considerar que se

necesitan al menos 2 elementos por estrato. Esto nos limita en el numero
de estratos a utilizar.
8.4. El tamano de muestra asociado a la pobla-

cion a partir del tamano de muestra asocia-
do a los dominios de estimacion
La estratificacion nos permite tratar a cada estrato por separado.
De modo que se podra planificar una muestra a partir de los tamanos de

muestra necesarios para arrojar buenas estimaciones por dominio.

Y, entonces, tendramos un tamano de muestra para toda la poblacion
Claro, va a salir gigante y eso no le va a gustar al jefe o cliente, ni modo,

as tiene que ser si quieren dar estimaciones con precisiones muy exigentes
por dominio.
Esto es difcil de explicar a gente de otras disciplinas... como lo explicaran

ustedes? A alguien se le ocurre algo?

8.5. Muestreo PPT o mejor estratificar?
Hay que resaltar el punto que se menciona en la bibliografa base del curso,
Sarndal et al. (1992, p. 100).
A estas alturas del curso ya hemos platicado un poco del muestreo con pro-
babilidades proporcionales al tamano (PPS, o PPT en Espanol), entonces
ya tiene sentido este comentario.
Como se platico, el tener probabilidades proporcionales a cierta variable

relacionada con la variable de interes trae beneficios en precision.
Estos beneficios, sin necesidad de utilizar probabilidades desiguales es po-

sible obtenerlos si se utiliza una buena estratificacion.
A diferencia de utilizar un diseno de muestreo PPS, al estratificar no

tendramos que manejar teora matematica de muestreo que pudiere llegar
a ser complicada.

8.6. Notacion y uso de la estratificacion
Tenemos una poblacion U = {u1 , . . . , uk , . . . , uN } que dijimos represen-

taramos (por pura simplificacion de notacion) como:
U = {1, . . . , k, . . . , N }.
Ahora, haremos una particion de esta poblacion en H subpoblaciones que

se denominan estratos y que denotaremos por
U1 , . . . , Uh , . . . , UH
donde,
Uh = {k : k Uh }.
Una vez estratificada nuestra poblacion U , extraemos una muestra sh

del estrato Uh de acuerdo al diseno de muestreo ph (), para h = 1, . . . , H.
Como ya se menciono, la extraccion de muestra en un estrato es indepen-

diente de la extraccion en otro estrato.
De modo que se puede decir que s esta compuesta de la siguiente manera:
s = s1 s2 . . . sH

y por la independencia (que ya hemos comentado mucho)
p(s) = p(s1 ) p(s2 ) . . . p(sH ).
Los estratos son de tamano Nh (que tambien asumiremos un dato conocido

para este curso), entonces
H
X
N = Nh .
h=1
Y por lo tanto el total poblacional t de la variable de interes y lo podemos

descomponer de la siguiente manera:
X
t = yk (8.1)
U
H
X
= th (8.2)
h=1
XH
= Nh yUh (8.3)
h=1
P
donde th = Uh yk es el total de la variable y en el estrato h, y yUh es la
correspondiente media de y en el estrato h.
Definamos ahora el tamano relativo del estrato
Nh
Wh = , (8.4)
N

entonces la media poblacional la podramos descomponer de la siguiente

manera:
XH
yU = Wh yUh .
h=1
Resultado 8.6.1 En un diseno de muestreo estratificado, el estimador del

P
total poblacional t = U yk puede escribirse como
H
X
t = th (8.5)
h=1
P
donde th es el estimador de th = Uh yk . La varianza de t puede escribirse
como,
H
X

VST t = Vh th (8.6)
h=1

donde Vh th es la varianza de th . Un estimador insesgado de la varianza

VST t esta dado por,
H
X

VbST t = Vbh th (8.7)
h=1

suponiendo que existe un estimador insesgado Vbh th para cada h.
Demostracion.
recepcion, revisare mi correo antes de comenzar la clase.


8.6.1. El diseno de muestreo aleatorio simple estratificado,

STSI
Sea nh el tamano de muestra fijo de un muestreo bajo el diseno SI para el estrato

h, con h = 1, . . . , H.
Resultado 8.6.2 Bajo el diseno STSI, el estimador del total poblacional t =

P
U yk es
H
X
t = Nh ysh (8.8)
h=1
P
donde ysh = sh yk /nh es la media muestral del estrato h. La varianza de t es,
H
X

VST SI t = Vh th (8.9)
h=1
H
X 1 fh 2
= Nh2 Sy Uh (8.10)
h=1
nh
donde fh = nh /Nh es la fraccion de muestreo para el estrato h y
1 X
Sy2Uh = (yk yUh )2 . (8.11)
Nh 1 U
h

Un estimador insesgado de la varianza VST SI t esta dado por,

H
X 1 fh 2
Nh2

VbST SI t = Sy sh (8.12)
h=1
nh
donde
1 X
Sy2sh = (yk ysh )2 . (8.13)
nh 1 s
h
es la varianza muestral de y para el estrato h.
Demostracion.
Tarea opcional 7 para la siguiente clase, se entrega electronicamente
como le hemos venido haciendo.

8.6.2. Sobre la estimacion de un total y una media con

estratificacion: un error comun
Entonces, para la estimacion de un total poblacional, bajo estratificacion

basta con estimar el total en cada estrato y luego hacer una suma de tales
estimaciones por estrato.
En este caso, para la varianza, basta con sumar las varianzas por estrato,
esto por la independencia entre estratos.
Para el caso de una media (proporciones), se estiman las medias en

cada estrato y luego se suman de manera ponderada por el tamano relativo
del estrato Wh , definido anteriormente en (8.4).
La varianza, entonces, sera la suma de las varianzas por estrato (para una
media) ponderando por el cuadrado de los tamanos relativos del estrato
Un error muy comun es, para el caso de la media, querer combinar las
estimaciones (y sus correspondientes estimaciones de varianza) por estrato
de la misma manera que para un total.
Este error es mas comun para el calculo de la varianza.

8.7. Afijacion, asignacion o distribucion de mues-

tra en estratos
Un resumen breve de lo anterior ...
La estratificacion es mi amiga... siempre ayuda.
Nos ayuda con (no nos quita) problemas de marco, administracion, disper-
sion, precision y lo mejor de todo es que es barata o facil.
Los estratos deben estar predefinidos?
Deben ser delimitaciones geograficas?
Que necesito en mi marco muestral para poder estratificar?
Se vale estratificar por una variable que no tengo en mi marco?
Que habamos comentado que es fundamental para una buena estratifi-

cacion mas alla de lo que dicen los viejos libros de muestreo? Que dicen
los libros tradicionales?

Una vez comprendido como opera la estratificacion... o decidimos llevarla

a cabo, viene la siguiente pregunta...
Si no se necesita dar estimaciones por estrato, cuanta muestra de la que

ya haba calculado para U y para la estimacion global, asigno o distribuyo
a mis estratos?.....
Depende de varias cosas... Sabemos que depende de costos, tamanos de

los estratos y de la variabilidad...
Y si tuvieramos que dar estimaciones por cierto estrato o sub-estrato (es

decir, por ciertos dominios) como se calculaba la muestra?
Ejemplo: Una encuesta nacional, con posibilidad de dar estimacion nacio-

nal a cierta precision y a la vez con posibilidad de dar estimaciones en
Iztapalapa, D.F., Toluca, Monterrey y Guadalajara. Por donde empiezo?

Ejemplo del presidente municipal de un pueblo que cuestiona insistentemen-

te y pide que usemos menos muestra... 2 posibles soluciones o explicaciones
que pongo a su consideracion:
(1) La historia del pueblo y la de Mexico.
(2) La recta numerica.
Tarea opcional 8 para la siguiente clase despues del examen, se

entrega verbalmente ante el salon (bien preparado - escrbanlo
para ustedes - pueden usar pizarron).
Pensar en un buen EJEMPLO (no explicacion) para el presidente municipal.

Ojo, es darle un ejemplo al presidente municipal (o diputado local de bajos
estudios) para que le caiga el veinte de porque a cierta precision y confianza
tenemos que (suponiendo un diseno SI) encuestar a la misma cantidad de
gente en el pas y en el pueblo indistintamente.
Entonces, en el problema de asignar muestra a mis estratos... hay varios

metodos. Aqu listaremos los mas importantes.
El primero, distribucion optima, es poco utilizado pero es importante

tenerlo en consideracion. De el se desprenden los otros dos que listaremos.
El metodo de Neyman, caso particular del optimo cuando los costos son
fijos.

El de Neyman es el mas importante ya que indica como se incorpora infor-

macion que tengamos de los estratos.
Esta informacion tiene que ver con la variabilidad de lo que queremos medir
de estudios pasados o de variables muy asociadas a lo que queremos medir.
Es informacion de la que tendramos que disponer en nuestro marco mues-

tral, claro.
El metodo de Neyman asignara mas muestra en aquellos estratos en donde

mas se requiera (donde haya mas variabilidad, si no, como dicen: para
muestra un boton).
Finalmente, se lista la expresion de la distribucion proporcional, en esta

solo se consideran los tamanos de los estratos. Se ignora la variabilidad.
El proporcional no es muy bueno por obvias razones, tiramos informacion

de gran utilidad para ganar mayor precision en la estratificacion, desapro-
vechamos muestra en estratos donde no es necesaria tanta muestra.
Es el mas utilizado. Aun con nociones rudimentarias de muestreo puede

ser mas facil de venderse de manera ejecutiva, sin oposicion, sin discusion
de colegas, jefes o clientes.

Si utilizamos este ultimo metodo, entonces utilizamos la estratificacion

unicamente como control de extraccion y/o dispersion de la muestra.
Es decir, aseguramos que la muestra caiga en todos los estratos. No obs-

tante, en terminos de precision, no mejoramos o mejoramos muy poco con
respecto a no estratificar.
8.7.1. Una funcion de costos
Para la distribucion optima, de donde se desprenden las demas distribucio-

nes, necesitamos establecer siguiente funcion de costo total C.
Son costos asociados al ejercicio practico de muestrear, por ejemplo ope-

rativos de levantamiento, etc.
H
X
C = c0 + n h ch
h=1
donde:
c0 es el costo fijo, igual para todos los estratos;
ch > 0 es el costo variable de estrato en estrato.
Entonces, surge un problema de optimizacion matematica...

Minimizar la varianza total del estimador global sujeto al costo total C,
O puede verse como un problema de maximizar la precision, dado un costo

total fijo (gobierno).
Este problema se resuelve con la desigualdad de Cauchy, y su resolucion

no se desarrollara en el presente texto (viene en cualquier libro estandar de
muestreo, incluso los mas viejos).
Las expresiones estan calculadas bajo un diseno de muestreo SI para cada

estrato, es decir un diseno STSI y suponiendo respuesta completa (tasa de
respuesta del 100 %).
Recuerden... todo lo que tiene que ver con tamanos de muestra se hace
bajo el diseno SI y posteriormente se hacen los ajustes con los def f y las
tasas de respuesta, para tener el tamano de correspondiente a un diseno
cualquiera que utilicemos.
8.7.2. Distribucion Optima

Nh SyU h / ch
nh = (C c0 ) PH (8.14)
h=1 Nh SyU h ch

8.7.3. Distribucion de Neyman
Si es posible asumir costos constantes en todos los estratos, entonces te-

nemos esta forma de afijacion de muestra en estratos:
Nh SyU h
nh = n PH
h=1 Nh SyU h
En este caso, SyU h tiene que ser conocida.
De nueva cuenta, pueden obtener aproximaciones, rescatar informacion de

una encuesta previa.
O bien, utilizar informacion de alguna variable auxiliar x que este altamente

correlacionada con la variable de interes y, de modo que utilizaramos:
Nh SxU h
n h = n PH
h=1 Nh SxU h

8.7.4. Distribucion proporcional
si es posible asumir que tanto los costos y la variabilidad de la variable de

interes es constante (o cercanamente constante) en todos los estratos:
Nh Nh
n h = n PH = n
h=1 Nh N
Esta expresion, es la que regularmente es utilizada cuando lo que se quiere

es utilizar la estratificacion como un control de nuestra muestra o para
forzar cierta dispersion de la muestra.
Ejemplo grafico en el pizarron.
Si utilizamos esta distribucion, habriamos de obtener casi la misma preci-

sion a que si no estratificaramos pero asegurariamos la presencia de muestra
en diversos estratos en que previamente fue cortada la poblacion U .
8.7.5. Distribuciones alternativas
Desde luego, las expresiones anteriores pueden ser modificadas segun lo requiere
el estudio en cuestion.

Normalmente estas modificaciones siguen la misma lnea que el metodo de Ney-

man, pero modificando a los terminos SyU h .
p
Por ejemplo, a veces se utiliza SyU h . Esto ayuda a suavizar el efecto de la
distribucion de Neyman. Asi, se enva mas muestra donde hay mas variabilidad
pero de manera menos pronunciada a si se utiliza la expresion original de Neyman.
Otra modificacion comun, como ya se vio, es hacer uso de SxU h en lugar de SyU h .
O tambien, a veces se hacen asignaciones ad hoc.
En algunos ejercicios practicos, cuando se tiene un tamano de muestra muy gran-

de, se prefiere afectar la calidad de la estimacion global y mejorar las estimaciones
por estratos o dominios.

CAPITULO 9
Conglomeracion
170
9.1. Introduccion a la conglomeracion
9.1.1. Como se ve la conglomeracion en otros textos y

como la trataremos?
Al igual que la estratificacion, se ve mas como un tipo de diseno de mues-

treo.
Nosotros lo veremos como una tecnica o una herramienta que podemos

implementar no para mejorar nuestro diseno, sino para solucionar
problemas practicos del muestreo.
Ojo: No mejoramos la estimacion.
De entrada, conglomerar disminuye nuestra precision. Esto es, aumenta

la variabilidad de nuestro estimador sea el que sea.
Pero, nos sirve para solucionar problemas...

9.1.2. Que problemas soluciona o que facilita la conglo-

meracion? Su utilidad...
Hasta ahora los disenos que hemos utilizado o comentado son los disenos
en 1 etapa.
Es decir, muestreo directo de elementos.
No obstante, en muchas encuestas o estudios que utilizan muestreo, el

muestreo directo de elementos no es viable o es impractico por alguna
de las siguientes razones:
No existe o no se tiene disponible un marco muestral.

Obtener un marco muestral con mucha desagregacion geografica y
con mucho detalle puede no existir o ser excesivamente caro.
El marco muestral de las unidades de interes para el estudio que
realizamos es, de plano, imposible.
Por ejemplo, la poblacion de abejas en una region de Michoacan, la
poblacion indgena de la sierra oaxaquena.
A lo mas que podramos llegar, en el segundo ejemplo, es a un listado
de viviendas (y eso, tambien no es tan sencillo o barato)
Se les ocurre algun otro ejemplo de marco muestral difcil, caro,

inaccesible o inexistente?

Otra razon... La poblacion de elementos esta muy dispersa geografica-

mente y los operativos de medicion o levantamiento de campo seran
muy costosos.
Es decir, es necesario abaratar la encuesta.
Otra razon para conglomerar... La poblacion de elementos esta, na-

turalmente aglomerada en escuelas, barrios, etc. y entonces la super-
vision de campo es mas facil si consideramos tales grupos.
De modo que, al igual que en la estratificacion, siempre podemos cuestionar

cierta conglomeracion e intentar mejorarla... i.e. disminuir su dano.
Volvemos a lo que vimos en primeras clases de manera muy platicada...

En realidad hay que seguir cierta conglomeracion hecha por tradicion ?
Que comentamos en el ejemplo que tenamos de pasar de 3 a 2 etapas?
Que nos limita para cierta conglomeracion aparte de los recursos economi-
cos?
Vamos a lo basico... muestreo por conglomerados en una etapa...

9.1.3. En que consiste el muestreo por conglomerados?
Pizarron.... Empecemos por el caso de muestreo por conglomerados como

lo define nuestro texto base (despues submuestrearemos).
En muestreo por conglomerados la poblacion finita es agrupada en

conglomerados.
Luego se selecciona una muestra de conglomerados.
Posteriormente todos los elementos contenidos en los conglomerados se-

leccionados son encuestados.
El muestreo por conglomerados tambien se le llama muestreo de con-

glomerados en una etapa.
O si no, tambien como muestreo unietapico de conglomerados.

9.1.4. En que consiste el muestreo en dos etapas?
Por otro lado, en el muestreo de dos etapas o muestreo bi-etapico,

una muestra de elementos dentro de los conglomerados es seleccionada en
lugar de (censarlos) medirlos a todos.
Es decir, el muestreo en dos etapas es el resultado de dos etapas en

donde se muestrea.
Esto es:
La poblacion de elementos es agrupada en subpoblaciones disjuntas

llamadas unidades primarias de muestreo (UPMs) (o PSUs en
Ingles)
Se selecciona una muestra de UPMs (primera etapa de muestreo)
Para cada UPM seleccionada en la primera etapa de muestreo se lleva

a cabo una segunda etapa de muestreo al interior.
Estas unidades secundarias de muestreo (USMs) (o SSUs en

Ingles) pueden ser elementos o incluso conglomerados.
Cuando las USMs son conglomerados, todos los elementos de estos

conglomerados son encuestados, a estos disenos se les llama mues-
treo bi-etapico de conglomerados.

Tratandose del caso en que las USMs son elementos, se utiliza el

termino muestreo bi-etapido de elementos
Entonces, si se habla de un diseno de muestreo bi-etapico hablamos de

dos posibles opciones. Ojo, evtense confusiones..
9.1.5. En que consiste el muestreo multi-etapico?
Este consiste en tres o mas etapas de muestreo.
Hay una jerarqua de unidades muestrales... UPMs, USMs, UTMs,... UPUMs,

UUMs.
Analogamente, cuando se trata de elementos o conglomerados podemos

tener un muestreo multi-etapico de elementos o un muestreo multi-etapico
de conglomerados.
De modo que ya podemos ir viendo en los reportes de las encuestadoras

mexicanas quienes llaman de manera correcta lo que reportan que estan
haciendo...

9.2. Estimacion de totales y medias con conglo-

meracion
Tratandose de totales, la teora que hemos visto aplica directamente (ya lo

veremos).
Si se dan cuenta, vimos una forma general de estimar y solo estamos

revisando como se adapta bajo estratificacion, conglomeracion y demas...
Y si trabajamos con medias... es igual?

Tratandose de medias, no es posible dividir las estimaciones puntuales entre

N y las varianzas entre N 2 .
Esto porque usualmente N es desconocido en muestreos donde se requiere

conglomerar.
Entonces, la media es una razon de dos totales desconocidos que tienen

que ser estimados, esto se vera mas adelante.
Y esto, como se imaginaran traera complicaciones en la estimacion de

varianzas...

9.3. Muestreo de conglomerados unietapico
Como habamos introducido, se tiene que la poblacion finita
U = {1, . . . , k, . . . , N } (9.1)
se particiona en NI subpoblaciones llamados conglomerados, y se denotan
U1 , . . . , Ui , . . . , UNI (9.2)
Entonces tenemos una nueva poblacion, una poblacion de conglomerados
UI = {1, . . . , i, . . . , NI } (9.3)
de donde seran muestreados conglomerados.
Notar que el ndice I lo utilizaremos para identificar objetos o entidades asociados

con los conglomerados.
El numero de elementos en el i-esimo conglomerado Ui se denota Ni . Es decir,

el tamano del conglomerado i.
Entonces, por la particion de U tenemos que

[
U = Ui (9.4)
iUI
y entonces,
X
N = Ni (9.5)
iUI

Consecuentemente, definimos el muestreo unietapico conglomerado de la siguien-

te manera:
1. Se extrae una muestra sI de la poblacion de conglomerados UI de acuerdo

a un diseno pI ().
El tamano de sI lo denotamos como nI o nsI para disenos de tamano no

fijo
2. Todos los elementos dentro de los conglomerados seleccionados son obser-

vados
Aqu, pI () representa cualquier diseno de muestreo convencional, e.g. muestreo

aleatorio simple sin reemplazo, muestreo aleatorio simple con reemplazo, mues-
treo aleatorio simple estratificado (ojo: podemos estratificar en pI ()), etc.
Entonces
Como sera s?
Como sera ns ?

[
s = Ui (9.6)
isI
y su tamano
X
ns = Ni (9.7)
isI
Notar que aunque pI () sea de tamano de muestra fijo, el numero ns en

general no sera fijo porque los tamanos de los conglomerados Ni pueden
variar.
Y de manera analoga a lo ya visto anteriormente, la funcion diseno pI () induce

las siguientes probabilidades
X
Ii = pI (sI ) (9.8)
sI 3i
y para dos conglomerados i y j,

X
Iij = pI (sI ) (9.9)
sI 3i&j
Tambien tenemos que Iii = Ii .
Entonces, en lo que respecta a las probabilidades de inclusion de elementos....
Como seran?...

Dado que s contiene cada elemento de los conglomerados seleccionados, tene-

mos, para cada k en Ui ,
k = P r(k s) = P r(i sI ) = Ii . (9.10)
Y las probabilidades de inclusion de segundo orden estan dadas por,
kl = P r(k&l s) = P r(i sI ) = Ii , (9.11)
si ambas k y l estan contenidas en el mismo conglomerado Ui , y
kl = P r(k&l s) = P r(i&j sI ) = Iij , (9.12)
si k y l pertenecen a diferentes conglomerados Ui y Uj . Notar que kk = k .
Ahora, para simplificar la notacion definamos,

X
ti = yk , (9.13)
Ui
para el total del conglomerado i-esimo. Entonces, el total a ser estimado puede
re-expresarse como
X X
t = yk = ti . (9.14)
U UI
Iij = Iij /Iij , con Iij = Iij Ii Ij , y definamos

Sea
ti = ti /Ii . (9.15)

Resultado 9.3.1 En un muestreo conglomerado unietapico, el estimador del

P
X X
t = ti = ti /Ii (9.16)
sI sI
La varianza de este esta dada por,
XX
V t = Iij ti tj (9.17)
UI

Un estimador insesgado de V t esta dado por,
XX
Vb t = t t
(9.18)
Iij i j
sI
Demostracion. La demostracion se desprende de manera muy sencilla de la de-

mostracion del Resultado 6.3.1.
Como ha sucedido anteriormente, si pI () es un diseno de muestreo de tamano

de muestra fijo, la varianza V t puede expresarse como
1X X 2
V t = Iij ti tj , (9.19)
2 UI
con el siguiente estimador insesgado
1X X 2
Vb t = Iij ti tj . (9.20)
2 sI

De esta ultima ecuacion podemos extraer interesantes conclusiones sobre la

eficiencia del muestreo de conglomerados (unietapico).

Si todos los ti = ti /Ii son iguales, entonces Vb t = 0.
De modo que podemos escoger Ii aproximadamente proporcional a los to-

tales por conglomerado ti , y asi el muestreo por conglomerados unietapico
sera eficiente.
Si los tamanos de los conglomerados Ni son conocidos en la etapa de

planeacion, uno puede escoger un diseno con Ii Ni .
P
Y, como ti = Ni yUi = Ui yk esta es una buena eleccion si existe poca
variacion entre las medias de los conglomerados yU . Si todas las medias

yUi fueran iguales tendriamos Vb t = 0.
Un muestreo de conglomerados unietapico con probabilidades iguales (i.e.

las Ii todas iguales) es usualmente una mala eleccion cuando los conglo-
merados son de diferente tamano.
Para que tal diseno sea eficiente necesitaramos que yUi fueran mas o menos
proporcionales a Ni1 . Esto es raro en la practica.

9.4. Muestreo de conglomerados unietapico alea-

torio simple (SIC)
Consideremos ahora el muestreo aleatorio simple (sin reemplazo) de con-

glomerados (SIC).
Se utilizara un diseno SI para extraer una muestra sI de tamano nI de

la poblacion de conglomerados UI de tamano NI , y todos los elementos
contenidos en los conglomerados extrados son observados.
Entonces, por el resultado 9.3.1 tenemos que el estimador del total

poblacional esta dado por
t = NI tsI ,
P
donde tsI = sI ti /nI es la media de los totales de los conglomerados ti
en sI .
La varianza, entonces, se puede expresar como
1 fI 2
VSIC (t ) = NI2 S t UI
nI
donde fI = nI /NI es la fraccion de muestreo de conglomerados y
1 X
St2UI = (ti tUI )2 ,
NI 1 U
I

P
con tUI = UI ti /NI . El estimador insesgado de la varianza es
1 fI 2
VbSIC (t ) = NI2 St sI
nI
donde
1 X
St2sI = (ti tsI )2 .
nI 1 s
I
9.4.1. El coeficiente de homogeneidad
Ahora comparemos el diseno SIC contra el diseno SI.
Para ello es util trabajar con el coeficiente de homogeneidad
Sy2 W
= 1 ,
Sy2 U
donde
1 XX
Sy2 W = (yk yUi )2 ,
N NI U U
I i
es la varianza combinada intra-conglomerado, con la media del con-

glomerado i-esimo:
X yk
yUi =
U
Ni
i
Hay varias formas de re-expresar el coeficiente de homogeneidad.

(Pizarron.) Desde el analisis de regresion, no es mas que el coeficiente

de determinacion ajustado por los grados de libertad, obtenido de
correr una regresion lineal sobre y en las NI variables dummy (que indican
la membresa a los conglomerados) en toda la poblacion con N puntos.
El coeficiente de homogeneidad satisface
NI 1
1
N NI
Un valor pequeno de significa...
... que los elementos en el mismo conglomerado son disimilares con respecto
a la variable de estudio, esto es, tienen un bajo nivel de homogeneidad.
Por otro lado, si = 1 tenemos el caso de que hay variacion cero dentro
de cada conglomerado, i.e. total homogeneidad.
El extremo inferior de es usualmente cercano a cero, especialmente si N

es grande comparado con NI .

Y uno obtiene exactamente el valor = 0 si la varianza promedio dentro

de los conglomerado es igual a la varianza de la poblacion entera U .
Una vez definido , vamos a obtener el efecto de diseno del diseno SIC.
Sea N = N/NI el numero promedio de elementos por conglomerado, y

sea Cov la covarianza entre Ni y Ni yU2 i dada por:
1 X
Cov = (Ni N )Ni yU2 i
NI 1 U
I
Haciendo un poco de Algebra tenemos entonces que:
VSIC (t ) N NI Cov
Def f (SIC, t ) = = 1 + +
VSI (t ) NI 1 N Sy2 U
Entonces, si todos los conglomerados tuvieran el mismo tamano Cov = 0

y si << 0 se podra dar que VSIC < VSI . Analticamente s se podra...
No obstante, que << 0 es muy difcil que se de en la practica ya que

los conglomerados, usualmente estan conformados de elementos cercanos
geograficamente y tenderan a parecerse en terminos de la variable y.
Por ejemplo, incluso con = 0.08 y un tamano promedio de conglomerados

N = 300 tenemos que Def f (SIC, t ) l 25.

Hay mas resultados parecidos al anterior.... Todos, en general, exhiben

que siempre, en la practica y en casos facilmente encontrables, se pierde
precision al conglomerar.
9.5. Muestreo bietapico
Dado que perdemos precision al conglomerar, para controlar costos y au-

mentar el numero de conglomerados a seleccionar (que como ya vimos
tambien, habria de mejorar nuestra precision) hace sentido muestrear den-
tro de los conglomerados seleccionados en lugar de observar a todos.
Entonces, tenemos que estimar cada total de cada conglomerado ti con

submuestras dentro de los conglomerados.
Si la variacion dentro de los conglomerados es pequena (cosa que podemos

esperar), entonces habramos de tener estimadores ti con pequena varianza,
incluso para utilizando poca cantidad de elementos en tales estimaciones.
Y entonces, intuitivamente, si tenemos, digamos, un numero limitado de

lecturas o mediciones en nuestra muestra global, o si tenemos fijo el
tamano de muestra global sin importar como se distribuye la muestra por
etapas (pizarron), habramos de mejorar las estimaciones globales.

En un muestreo bietapico hay dos fuentes de variacion, la primera de la

seleccion de unidades primarias de muestreo (UPM) y la segunda del sub-
muestreo o seleccion de unidades secundarias de muestreo (USM) dentro
de las UPMs seleccionadas en la primera etapa.
La poblacion U se particiona, entonces, en NI UPMs, denotadas
U1 , . . . , UNI .
Tenemos entonces, una poblacion de conglomerados UI de tamano NI .
De nuevo, denotaremos el tamano del conglomerado Ui como Ni .
Tenemos entonces que,

X
N = Ni
iUI
Definimos el muestreo bietapico de la siguiente manera:
1. Se extrae una muestra sI de la poblacion de conglomerados UI de

acuerdo a un diseno pI ().
El tamano de sI lo denotamos como nI o nsI para disenos de tamano
no fijo.
2. Para cada i sI , se extrae una muestra si de elementos a partir de

Ui de acuerdo al diseno pi (|sI )

Formalmente hemos visto que en la segunda etapa estamos utilizando el

diseno pi (|sI ).
El supuesto que usualmente se hace, a estas alturas, son los de invarianza

e independencia.
De manera sencilla y en palabras, esto significa que pi (|sI ) = pi () y que

el submuestreo dentro de una UPM se lleva a cabo independientemente de
lo que pase en las demas UPMs.
Hay disenos mas generales en donde los dos supuestos de independencia e

invarianza no se hacen. Nosotros, en lo que queda de conglomeracion (en
particular el diseno bietapico) nos restringiremos al muestreo de elementos
en dos etapas.
El numero de UPMs en sI se denota nsI , o simplemente nI , si el diseno

de muestreo de la primera etapa pI () es de tamano de muestra fijo.
Los elementos muestreados en la UPM i-esima, si se denota como nsi , o

simplemente ni , si pi () es de tamano de muestra fijo.
El numero total de elementos muestreados en s es denotado ns .

Entonces, tenemos que:

[
s = si
isI
y su tamano
X
ns = ni
isI
Ahora, para las probabilidades de inclusion asociadas al muestreo bietapico

tenemos: para el diseno de muestreo de la primera etapa pI (), tenemos a
Ii y Iij .
Sea,
Iij = Iij Ii Ij
con
Iii = Ii (1 Ii )
y con
Iij = Iii /Iij

Correspondientemente, para la segunda etapa de muestreo pi (), utilizamos

la notacion k|i y kl|i .
As,
kl|i = kl|i k|i l|i

con
kk|i = k|i (1 k|i )
y con,
kl|i = kl|i /kl|i

9.5.1. Muestreo bietapico de elementos
Para obtener el estimador , su varianza y el correspondiente estimador de

varianza podemos aplicar tal cual el Resultado 6.3.1 general sustituyendo
las correspondientes probabilidades de inclusion k y kl subyacentes
En un muestreo bietapico de elementos:
k = Ii k|i si k Ui
y,
Ii k|i
si k = l Ui
kl = Ii kl|i si k&l Ui , k 6= l

Iij k|i l|j si k Ui and l Uj , i 6= j

En muestreo bietapico condicionamos en el evento realizado de extraccion

de la muestra sI de la primera etapa.

Sea
yk
yk|i =
k|i
y sea
X
ti = yk|i (9.21)
si
el estimador con respecto a la etapa 2 del total i-esimo de UPMs

X
ti = yk
Ui
Entonces, sub-muestreando muestras si de manera repetida a partir de Ui ,

de acuerdo al diseno pi (), ti es insesgado para ti .
La varianza con respecto a la etapa 2 es

XX
Vi = kl|i yk|i yl|i
Ui
la cual es estimada insesgadamente mediante el estimador de varianza

XX
Vbi = kl|i yk|i yl|i

si
Alternativamente, como ha sucedido anteriormente, para disenos de mues-

treo pi () de tamano fijo, Vi puede escribirse como
1X X 2
Vi = kl|i yk|i yl|i (9.22)
2 Ui

la cual es estimada insesgadamente mediante el estimador de varianza
1X X 2
Vbi = kl|i yk|i yl|i (9.23)
2 si
A continuacion, la varianza del estimador la escribiremos como la suma

de dos componentes VU P M y VU SM , que representan las dos fuentes de
variabilidad.
El sub-ndice 2st lo utilizaremos para denotar que hay 2 etapas (detwo

stages).
Importante: Notar la diferencia entre ti de la ecuacion (9.21), y
ti
ti =
Ii
Resultado 9.5.1.1 En un muestreo bietapico de elementos, el estimador del

P
X ti
t = (9.24)
sI Ii
donde ti es el estimador de ti con respecto a la etapa 2. La varianza de t

puede escribirse como la suma de dos componentes,
V2st (t ) = VU P M + VU SM (9.25)

con
XX
VU P M = Iij ti tj (9.26)
UI
donde ti = ti /Ii , y
X Vi
VU SM = (9.27)
UI Ii
donde Vi esta dado por la ecuacion (9.22). El primer componente VU P M es
estimado insesgadamente mediante
XX ti tj X 1 1
VU P M = Iij
1 Vi (9.28)
sI Ii Ij sI Ii Ii
donde Vi esta dado por la ecuacion (9.23), y el segundo componente VU SM es

estimado insesgadamente mediante
X Vi
VU SM = 2
(9.29)
sI Ii
Un estimador insesgado para V2st (t ) es
V2st (t ) = VU P M + VU SM (9.30)
Y se puede demostrar, haciendo el algebra, que
Iij ti tj +
XX X Vi
V2st (t ) = (9.31)
sI Ii Ij sI Ii
Es importante notar que los dos componentes de estas dos ultimas ecuaciones
no corresponden.
Demostracion. La demostracion se desprende de la teora vista.

Dado que el segundo termino de la ultima expresion es complicado de

calcular en la practica, en algunos ejercicios practicos se utiliza, como sim-
plificacion solo el primer componente.
Ojo: Esta practica simplifica, no obstante, subestima la verdadera varianza,

aunque por poco (en la mayora de los casos). Es importante, saberlo.
Ojo: Como ya se dijo. No es lo mismo ignorar el ultimo termino que ignorar

VU SM .
En algunas aplicaciones es necesario saber cuanto contribuye cada etapa

en la varianza. Regularmente, se utiliza un estudio piloto.
Notar que VU P M no siempre da estimaciones positivas.
En que condiciones cada componente da cero?
(a) si SI = UI con probabilidad 1, entonces Ii = Iij = 1, i, j. Entonces

P
VU P M = 0 y VU SM = UI Vi . Es decir la varianza del estimador en
muestreo estratificado.
(b) si si = Ui entonces tenemos...

Hablar de Srinath & Hidiroglou (1980).
Otra ventaja de ignorar el ultimo termino, aunque sub-estime, es que en la

vida real uno puede utilizar cualquier diseno de muestreo probabilstico en
la segunda etapa.
9.5.2. Muestreo bietapico de elementos: diseno auto-ponderado
Uno de los diseno mas comunes en la practica son los disenos auto-
ponderados.
Basicamente por dos razones:
1. Ayudan a controlar el trabajo de campo.
2. Simplifican los calculos de estimaciones (puntuales).
Un diseno auto-ponderado de dos etapas se hace de la siguiente manera:
(a) Se supone la existencia y conocimiento de una medida de tamano

(gruesa) ui de la i-esima UPM.

(b) Seleccionamos UPMs de acuerdo a un diseno tal que Ii Ni .
(c) Submuestreamos un numero fijo de USMs, ni dentro de las UPMs

seleccionadas, utilizando un diseno SI.
(d) Si se utiliza un diseno de muestreo de tamano de muestra fijo nI

entonces tenemos que:
Ni
Ii = nI P .
Ni
(e) Tenemos entonces que:
Ni ni ni
k = Ii k|i = nI P = nI
Ni Ni N
Obtenemos entonces que todos los individuos en nuestra muestra pesan lo

mismo.
Es lo mismo que considerar, entonces, un diseno SI?
Que creen que hacen las empresas encuestadoras que tenemos en Mexico?
Y es que, entonces se tiene la misma carga de trabajo de campo en cada

UPM.

Se puede utilizar software estandar, al menos para la estimacion puntual.
Que pasa con el calculo de varianzas?
El vicio del mercado...
Este auto-ponderamiento se puede tambien implementar en diseno de

mas de dos etapa, por supuesto.

9.6. Post-Estratificacion, ajuste o calibracion de

factores de expansion
Como lograr que si calculamos las frecuencias de una encuesta por ejem-
plo, se tengan proporciones de hombres y mujeres igual a la poblacion
objetivo si la informacion del sexo del entrevistado no la sabemos si no
hasta que ya nos contesto?
Como evitar desviaciones de tal o cual caracterstica en mi muestra y que

ademas se que esa caracterstica esta relacionada con lo que me interesa
medir?
Es decir, lograr lo que en algunos textos o clientes llaman coloquialmente

representatividad en lo que se refiere a cierta variable que no pudimos
controlar previo a la extraccion de la muestra.
Hay que utilizar un Factor de Ajuste,
Pc
F Ac =
P Mc
donde Pc es la proporcion poblacional (esperado) del cruce c, y P Mc es la

proporcion muestral (observada) del cruce c.
Explicando en el pizarron...

Cuanto deben sumar los F Ac en mi base de datos muestral?
Otros nombres: ponderacion (comun), calibracion (correcto), post-estratificacion

(correcto).
El vicio del mercado...
Como saber cuando te dan una base de datos que es el ponderador que
reportan en tal base de datos?
Un ponderador o el producto de varios ponderadores?
El otro vicio del mercado... anclar.
Otras opciones...

Parte IV
Apendices
203
Relacion entre distribuciones de probabilidad
Fuente: Leemis, L. M. (1986). Relationships among common univariate distributions. Am. Stat.. 40, pp. 1436.

Smbolos pch para graficos en R

Varianzas hipoteticas de algunas distribuciones

(Kish, 1965)

Teorema Central del Lmite,

Velocidad de convergencia a una Normal,
Aproximaciones a la varianza de una variable,
Desigualdad de Tchebychev
(Mendez, Eslava & Romero, 2004)

Parte V
Sesiones practicas en R
212
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 00 (Instalacion de R y R-Studio)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 16, 2014
###
#################################################################
#################################################################
#################################################################
#Instalacion de R en el equipo.
#################################################################
#Este se encuentra ms rpidamente en el siguiente servidor mexicano:
#http://cran.itam.mx
#(Si tienen curiosidad esta es la pgina principal de R: http://www.r-project.org)
#Hay que seleccionar la versin de R segn el sistema que se est utilizando.
#Bajar, ejecutar la instalacin y seguir las instrucciones del instalador de Windows.
#Importante: Cuando pregunte el instalador el tipo de formato que se desea para la ayuda hay que
elegir html (o html2). Es ms fcil navegar por la ayuda con el navegador.
#Posteriormente, si se desea, instalar R-Studio (opcional, sugerido). Est aqu:
#http://rstudio.org
#Para la instalacin de R-Studio, tiene que haberse instalado antes R.
#R-Studio es una "mascara" de R que lo hace ms amigable.
#Propiamente, no es necesario para ejecutar R, es opcional.
#Una vez instalado R (y en su caso R-Studio), hay que ejecutar R (o R-Studio si se instal,
directamente sin ejecutar antes a R).
#Dentro de R (o R-Studio), en la lnea de comandos, hay que aprender 2 comandos bsicos que
necesitaremos para saber donde estamos trabajando.
#El primer comando indica el directorio de trabajo actual:
getwd()
#Y otro que me permite manualmente determinar el directorio que yo quiero utilizar para trabajar.
Por ejemplo, si quiero trabajar en una carpeta llamada R, en el disco F.
#(Ojo, la carpeta que se indica debe de existir.
#Notar que las diagonales que se utilizan son diagonales NO INVERSAS, de divisin. As se indican
las carpetas en R bajo Windows. Tambin, no olvidar las comillas al inicio y al final.):
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
setwd("E:/WORK/Lecturing/2014_01_ITAM_Licenciatura_EstadisticaAplicada_I/08_R")
#Otra forma es hacer esto con el mouse...
#Una vez determinado el directorio de trabajo hay que colocar all los archivos de datos que se van
a leer.
#Tambin, es en esa carpeta donde se guardaran las cosas que guarden.

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 01 (Introduccion a R)
###
###
###
#################################################################
#################################################################
#################################################################
# Basta con copiar y pegar cualquier linea en la consola de R.
# Ojo: Es quizas necesario copiar, pegar y correr las lineas anteriores a la linea de interes.
# Precisamente para que pudieran copiar y pegar no estoy utilizando acentos ni letras hispanas.
# Para ir aprendiendo y que tenga chiste, hay que ir viendo lo que pasa con cada linea.
# Si quiero comentar algo sin que lo ejecute R, utilizo el signo # antes
getwd() # Me indica la carpeta de trabajo
setwd("C:/Emilio/R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir)
setwd("C:\\Emilio\\R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir)
help(sum) # Llama la ayuda relativa al comando sum
?sum # Llama la ayuda relativa al comando sum
??sum # Llama la ayuda relativa a la palabra sum (cuando estamos ignorando mas)
# Si de plano no encuentro, entonces utilizo Google tecleando por ejemplo: R sum of values
c(1, 2.5, 3) # Arroja un vector de tamano 3
x <- c(1, 2.5, 3) # Asigna a x un vector conformado de 3 numeros
x # Arroja el valor de x
length(x) # Devuelve el tamano del vector x
x <- c(x, 4) # Sobre-escribe a x, extiende su dimension en uno con el valor 4
x # Arroja el valor de x
length(x) # Devuelve el tamano del vector x
mean(x) # Calcula la media de los elementos del vector x
var(x) # Calcula la varianza de los elementos del vector x
mean(x^2) # Calcula el cuadrado de cada elemento del vector x, luego calcula la media
# Entonces estas dos lineas:
sum(x)/length(x)
sum( (x-mean(x))^2 ) / (length(x)-1)
# me tienen que dar lo mismo, respectivamente, que estas dos lineas:
mean(x)
var(x)
Varianza.Que.Me.Interesa <- var(x) # Crea una variable que guarde la varianza de x
sqrt(Varianza.Que.Me.Interesa) # Calcula la raiz cuadrada de la variable con el nombre raro
sd(x) # Calcula la desviacion estandar del vector x
n <- 5 # Crea una variable con el valor de n igual a 5
c(1:n) # Arroja un vector que tiene la secuencia del 1 al valor de n
rep(x, times=2) # Arroja un vector que repite al vector x, 2 veces
rep(x, each=2) # Arroja un vector que repite 2 veces cada elemento de x
z <- c(1:6)^2 # Crea un vector z con valores enteros del 1 al 6 y los eleva al
cuadrado
z # Arroja el valor de z
EsMenorADos <- z<2 # Crea un vector logico con nombre chistoso evaluando contra 2
EsMenorADos # Arroja el valor del vector EsMenorADos
EsIgualACuatro <- z==4 # Crea un vector logico con nombre chistoso evaluando contra 4
EsIgualACuatro # Arroja el valor del vector EsIgualACuatro
z # Arroja el valor de z
z[3] # Arroja el tercer elemento del vector z
z[c(1,3)] # Arroja el 1er y 3er elemento del vector z
z[z<2] # Arroja los elementos del vector z que son menores a 2
z[EsMenorADos] # Arroja los elementos del vector z que son menores a 2
z[-3] # Arroja el valor de z pero omitiendo el 3er elemento
summary(z) # Dependiendo de lo que sea z (datos, vector, matrix,.. arroja estadisticos basicos

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 02 (Introduccion a R y BilletesSuizos)
###
###
###
#################################################################
#################################################################
#################################################################
# Primero, es recomendable revisar cual es el directorio de trabajo que tenemos actualmente definido
para trabajar en R.
getwd() # Del vocablo en Ingles "get working directory"
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
# A continuacisn, leemos el conjunto de datos llamado BilletesSuizos.csv. Este esta en formato .csv
(Comma Separated Values)
BilletesSuizos <- read.table(
file = "BilletesSuizos.csv",#Nombre del archivo
#debe estar en el
#direct. de trabajo.
header = TRUE, #Indicamos que los datos
#tienen encabezados en las
#columnas.
sep = ",") #Indicamos que los datos estan
#separados por coma.
# Notar que escrib el comando en varias lneas para irles explicando qu significa cada cosa.
# El comando de arriba lo puedo alternativamente correr como:
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
# Otra forma de hacerlo es utilizando los botones de R-studio... Hagmoslo...
# Ahora, echemos directamente un vistazo a los datos cargados...
# Una primera forma de hacerlo es que llamemos, tal cual a la tabla (o matriz) que acabamos de
cargar.
BilletesSuizos
# Otra forma es que demos doble click a el arreglo de datos que tenemos en nuestro espacio de
trabajo en el R-studio
# Si quiero ver en la consola los primeros 10 renglones (por ejemplo).
BilletesSuizos[1:10, ]
# Tambin tenemos al comando head() que sirve para mostrar los primeros 6 renglones de algn arreglo.
head(BilletesSuizos)
# Puedo ver que son puras variables continuas....
# Si tuvieramos muchas variables, tambien vale la pena ejecutar el comando names()
names(BilletesSuizos)
# En este caso puedo ver que tengo 6 variables y sus nombres.
# Utilizando los botones de R-studio quizs esto no es necesario pero sirve saber que hay un comando
que arroja los nombres en la consola.
# Podemos averiguar la estructura de los datos en la ventana de espacio de trabajo (Workspace) de R-
studio, vemos que son 200 observaciones de 6 variables.
# Otra forma de averiguar el tamaqo de los datos es con el comando dim()
dim(BilletesSuizos)
# Tal comando me arroja la dimensisn del arreglo de datos que estoy utilizando. Entonces utilizamos
200 observaciones (filas) y 6 variables (columnas)
# Vimos que es util calcular la media de cada variable:
colMeans(BilletesSuizos) # Este comando me sirve para calcular la media de las columnas de una
matriz de datos
# Si tuviera una sola variable, entonces utilizo el comando mean()
mean(BilletesSuizos$LARGO) #Estoy indicando me calcule la media del vector que conforma la columna
con nombre LARGO en mi matriz de datos.
# Ahora... sabemos que los primeros 100 registros son de billetes genuinos y los otros 100 son de
billetes falsos.
# Vamos a crear una variable (aparte) 0 y 1 donde 1 es genuino y 0 es falso.
GENUINO <- c(rep(1, times=100), rep(0, times=100))
GENUINO # Vemos cmo quedo mi nueva variable en la consola y en visualizador de datos de R-studio

colMeans(BilletesSuizos[GENUINO==1, ]) # Los genuinos

colMeans(BilletesSuizos[GENUINO==0, ]) # Los falsos
# Ahora, si quiero, ese vector se lo pegamos a nuestra matriz de datos como otra columna, para ello
utilizamos el comando cbind()
BilletesSuizos <- cbind(BilletesSuizos, GENUINO)
# Ahora, le pedimos a R que nos de un resumen esquematico de los datos. Para ellos utilizamos el
comando summary()
summary(BilletesSuizos) # Todos los billetes
summary(BilletesSuizos[GENUINO==1, ]) # Los genuinos
summary(BilletesSuizos[GENUINO==0, ]) # Los falsos

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 03 (Analisis Exploratorio de Datos: Variables Cualitativas)
###
###
###
#################################################################
#################################################################
#################################################################
# Tip de R-Studio: Utilicen CTRL + R para correr la linea en la que estan situados.
# Primero, revisamos el directorio de trabajo.
getwd()
que utilizaremos.
# Ahora vamos a cargar unos datos para ejemplificar.
# Vamos a cargar la biblioteca MASS.... Platicar sobe la biblioteca MASS.
library(MASS)
# Una vez hecho esto, vamos a utilizar el dataset "bacteria"
bacteria
# Para ver el conjunto de datos solo unas cuantas observaciones y encabezados utilizamos el comando
head()
head(bacteria)
# Como este conjunto de datos esta cargado en un paquete (es decir, es un comando del paquete MASS),
entonces podemos ver que significa cada variable utilizando la ayuda:
?bacteria
# Ahora, para que ustedes puedan reciclar los siguientes comandos, vamos a asignar el conjunto de
datos a una variable
Datos <- bacteria
# De modo que todo lo que hagamos a continuacin, lo pueden hacer ustedes modificando el conjunto de
datos bacteria por el que ustedes quieran en la linea anterior. Por supuesto, en comandos siguientes
tendr que modificar los nombres de columnas, etc...
# Podemos observar que ahora tenemos un objeto de 220 observaciones y 6 variables en la ventana
superior derecha de R-Studio
# Podemos darle doble click para navegar en los datos.
# Digamos que ahora vamos a hacer una tabla de frecuencias simple de la variable y
table(Datos$y)
# En la linea de comando anterior tratamos a Datos como un data.frame.... Ahora vamos a hacer lo
mismo tratando a Datos como una matriz
table(Datos[,"y"])
# O equivalentemente, como una matriz donde no se tiene nombre de columna y nos interesa la primera
columna.
table(Datos[,1])
# Si queremos estas frequencias en trminos relativos y en porcentaje...
prop.table(table(Datos[,1])) * 100
# Pensemos ahora que queremos `cruzar' dos variables cualitativas, una forma es:
table(Datos$y, Datos$trt)
table(Datos$trt, Datos$y) #Vean que pasa.
# Otra forma es (notar la diferencia del output):
with(Datos, table(y, trt))
# Si me interesan las proporciones por celda, es decir, de toda la tabla (que sumen 1):
prop.table(table(Datos$y, Datos$trt))
# Si les interesa que las proporciones sumen 1 por renglones:
prop.table(table(Datos$y, Datos$trt),1)
# Si queremos anadir una columna con la suma para darle mas presentacion, utilizaremos el comando
cbind() que pega columnas, y el comando rowSums() que suma por renglones...
x <- prop.table(table(Datos$y, Datos$trt),1) # Estamos guardando lo anterior en el
objeto x
Total <- rowSums(x) # Guardamos los totales de la tabla x por
renglon
TablaCruzada1 <- cbind(x, Total) # Pegamos a y del lado derecho de x
(agregamos una columna)
# Y guardamos todo en TablaCruzada1

# Ahora vemos como quedo:

TablaCruzada1
# Si queremos a nuestra tabla en terminos porcentuales multiplicamos por 100 y sobreescribimos el
objeto:
TablaCruzada1 <- TablaCruzada1 * 100
TablaCruzada1
# Si quisiera menos decimales utilizo round()
TablaCruzada1 <- round(TablaCruzada1, digits = 2)
TablaCruzada1
# Ahora, si queremos la misma tabla pero que las proporciones sumen por columna (ahora lo voy a
escribir mas rapido sin tanta explicacion). Utilizare esta vez el comando colSums() y el comando
rbind(), que suma por columnas y pega renglones, respectivamente. Entonces, seria:
TablaCruzada2 <- 100 * prop.table(table(Datos$y, Datos$trt),2)
TablaCruzada2 <- rbind(TablaCruzada2, Total = colSums(TablaCruzada2))
TablaCruzada2
# Entonces, con estas tres lineas puedo hacer una tabla que sume por columnas. De modo que puedo ver
la distribucion de los datos, por ejemplo, de "trt" dado "y". Y en el caso pasado, cuando sumaba por
renglones, podiamos observar la distribucion de los datos, de "y" dado "trt".
# Si ahora queremos hacer una tabla cruzada simple con 3 variables:
x <- table(Datos$y, Datos$ap, Datos$trt)
x
# Y podemos seguir usando table con mas variables, pero para mejorar el formato del output, mejor
utilizamos otro comando...
ftable(x)
# Y lo mismo, si queremos proporciones:
ftable(prop.table(x))
# Y si queremos un poco ms de formato, parecido a SAS o a SPSS... Utilizamos el paquete gmodels
# Para instalarlo, podemos usar el comando install.packages() o si no, utilizando el R-Studio...
Hagamoslo...
# Una vez instalado, hay que cargar el paquete con el comando library()
library(gmodels)
# Otra forma de cargar los paquetes es utilizando require() que carga en memoria un paquete si no ha
sido cargado (para ahorrar tiempo)
require(gmodels)
# Y utilizamos el comando CrossTable() del paquete gmodels.
CrossTable(Datos$y, Datos$trt)
# El comando CrossTable tiene un monton de configuraciones... veamos:
?CrossTable
# Veamos por ejemplo las diferentes versiones de la misma tabla utilizando configuraciones
diferentes...
CrossTable(Datos$y, Datos$trt, digits=8)
CrossTable(Datos$y, Datos$trt, digits=1, prop.r=TRUE, prop.c=TRUE, prop.t=TRUE, prop.chisq=TRUE)
CrossTable(Datos$y, Datos$trt, digits=1, prop.r=FALSE, prop.c=TRUE, prop.t=FALSE, prop.chisq=FALSE)
# Pensemos que ahora queremos ver graficamente estos datos...
# Vamos a utilizar un grafico de pastel o pay...
rebanadaspay <- prop.table(table(Datos$trt))
pie(rebanadaspay,
main="Pay de la variable trt")
pie(rebanadaspay,
labels = levels(Datos$trt),
# Ahora vamos a poner mas informacion...
pct <- round(rebanadaspay/sum(rebanadaspay)*100)
etiquetas <- levels(Datos$trt)
etiquetas <- paste(etiquetas, pct) # Agregamos porcentajes a las etiquetas
etiquetas <- paste(etiquetas,"%",sep="") # Agregamos el signo porcentaje a etiquetas
pie(rebanadaspay,
labels = etiquetas,
# Cambiamos a otra paleta de colores...
pie(rebanadaspay,
labels = etiquetas,
main="Pay de la variable trt",
col=rainbow(length(etiquetas)))
# Si queremos hacer un pay en 3D, hay un paquete que lo hace (quizs hay mas opciones). Es el
paquete plotrix... lo instalamos con R-Studio
# Lo cargamos...
library(plotrix)
pie3D(rebanadaspay, labels = etiquetas, main="Pay de la variable trt",
col=rainbow(length(etiquetas)))

# Si queremos separar las rebanadas...

pie3D(rebanadaspay, labels = etiquetas, main="Pay de la variable trt",
col=rainbow(length(etiquetas)), explode=0.12)
# Si queremos poner diferentes las etiquetas, agregamos un cambio de linea...
etiquetas <- levels(Datos$trt)
etiquetas <- paste(etiquetas, "\n") # Agregamos cambio de linea a etiquetas
etiquetas <- paste(etiquetas, pct) # Agregamos porcentajes a las etiquetas
etiquetas <- paste(etiquetas,"%",sep="") # Agregamos el signo porcentaje a
# Corremos de nuevo...
pie3D(rebanadaspay,
labels = etiquetas,
main="Pay de la variable trt",
col=rainbow(length(etiquetas)),
explode=0.05)
# Y asi sucesivamente...
# Ahora para realizar un grafico de barras...
conteos <- table(Datos$trt)
barplot(conteos,
main="Distribucion de trt",
xlab="Numero de Observaciones")
# Y si hacemos el grafico acostado...
barplot(conteos,
main="Distribucion de trt",
horiz=TRUE,
xlab="Numero de Observaciones")
# Y si ahora apilamos por la variable y
conteos <- table(Datos$y, Datos$trt)
barplot(conteos,
main="Distribucion de observaciones por trt y la variable y",
xlab="Number de observaciones en trt",
col=c("darkblue","red"),
legend = rownames(conteos))
# Y ahora no apilados, lado a lado...
barplot(conteos,
main="Distribucion de observaciones por trt y la variable y",
xlab="Number de observaciones en trt",
col=c("darkblue","red"),
legend = rownames(conteos),
beside=TRUE)
# Ver R gallery en : http://rgraphgallery.blogspot.mx//

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 04 (Analisis Exploratorio de Datos: Variables Cuantitativas)
###
###
###
#################################################################
#################################################################
#################################################################
getwd() # Revisamos el directorio de trabajo.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") # Definimos el
directorio donde trabajaremos, donde estan los datos.
# Ahora vamos a borrar todo lo que tengamos en memoria desde la consola
# (se puede hacer tambin con la escobill en el Workspace)
rm(list=ls()) # el comando "remove" rm() borra objetos en memoria y el comando ls() me lista lo que
tengo en memoria. Si uso los dos juntos me borra todo en la memoria
gc() # Este es el comando "Garbage Collection", sirve para re-establecer la memoria y elimiar
basura que haya quedado en memoria por "memory-leaks".
# Ahora cargamos los datos que utilizaremos.
# Nos interesan los datos "TVcable.csv"
Datos <- read.table(file = "TVcable.csv", header= TRUE, sep= ",")
# Borremos de nuevo... todo
rm(list=ls())
# Si lo quisiera hacer directamente con R-Studio....
# Hagamoslo...
# Revisemos...
head(Datos)
# Que sabemos hasta ahora?
# Veamos los datos... Podemos decir algo?
# Hagamos un diagrama de puntos de la variable RENTA.
# Como se hace a mano?
# Con R, hay un comando para hacer diagramas de puntos es stripchart()
# Veamos como se usa...
?stripchart()
stripchart(Datos$RENTA)
stripchart(Datos$RENTA, method = "stack", vertical = TRUE, axes=TRUE, pch=21, col="blue",
main='Diagrama de puntos, con los datos: TVcable', ylab =
pagar al mes")
# Otro mas cambiando configuracion
stripchart(Datos$RENTA, method = "stack", vertical = FALSE, axes=TRUE, pch=19, col="red",
main='Diagrama de puntos, con los datos: TVcable', xlab =
pagar al mes")
# Ahora un diagrama de tallo y hojas...
# Como se hace a mano?
# Ahora con R utilizando el comando stem()
# Primero veamos como se usa...
?stem
# Ahora lo hacemos con R y revisamos que est bien hecho...
stem(Datos$RENTA)
# Y si nos preguntaran de TVTOT?
stem(Datos$TVTOT)
# Y si quiero ms detalle?
stem(Datos$TVTOT, scale = 2)
# Ahora, para observar una distribucion de frecuencias de una variable discreta...
# Retomamos lo visto en la clase pasada... No abordaremos esta vez las tablas, nos iremos solo a los
graficos.
# Por ejemplo, pensemos en las variables ADULTOS y NINOS...
conteos1 <- table(Datos$ADULTOS)
conteos2 <- table(Datos$NINOS)
barplot(conteos1,
main="Distribucion de frecuencias absolutas",
col="red",
xlab="Nmero de adultos en el hogar"

)
barplot(conteos2,
main="Distribucion de frecuencias absolutas",
col="blue",
xlab="Nmero de nios en el hogar"
)
#NOTA: abusados con las comas
#cuando escriban los comandos
#de esta forma
# Ahora utilicemos histogramas...
# Como se harian a mano?
# Ok, hagamoslo en R con el comando hist()... Hay, por supuesto, mas comandos y opciones para hacer
histogramas mas exoticos y presentables... Nosotros utilizaremos lo basico.... Recuerden, simple
siempre es bueno.
# Veamos como se usa el comando hist()
?hist
# Ahora supongamos que nos interesa la variable VALOR
hist(Datos$VALOR)
# Y si le queremos dar mas formato...
hist(Datos$VALOR, col = "blue", breaks = 4)
hist(Datos$VALOR,
col = "red",
breaks = "Sturges", #Nota: Default, ponerlo o no ponerlo es igual.
main = "Histograma ms presentable",
xlab = "Valor catastral del hogar (en miles de pesos)",
ylab = "Frecuencia",
)
# Hagamos ahora un ejemplo mas elaborado con histogramas...
# Utilicemos los datos de los "Billetes Suizos"
# Pegamos a nuestra matriz de datos la informacion del vector GENUINO
# Ahora, le pedimos a R que nos de un resumen esquematico de los datos. Para ellos utilizamos el
comando summary()
summary(BilletesSuizos) # Todos los billetes
summary(BilletesSuizos[GENUINO==1, ]) # Los genuinos
summary(BilletesSuizos[GENUINO==0, ]) # Los falsos
# Qu vemos?
# Ahora digamos que quiero ver cmo estn distribuidos los datos
hist(BilletesSuizos$LARGO, col = "blue", breaks = 20)
hist(BilletesSuizos$ANCHOIZQ, col = "blue", breaks = 20)
hist(BilletesSuizos$ANCHODER, col = "blue", breaks = 20)
hist(BilletesSuizos$MARGENINF, col = "blue", breaks = 20)
hist(BilletesSuizos$MARGENSUP, col = "blue", breaks = 20)
hist(BilletesSuizos$DIAGONAL, col = "blue", breaks = 20)
# Me doy cuenta que parece ser que la variable DIAGONAL es la que tiene dos montoncitos y que quizs
pudiera diferenciar mis billetes entre genuinos y falsos ms fcilmente.
# Vuelvo a hacer esos histogramas pero diferenciando entre genuinos y falsos
hist(BilletesSuizos$DIAGONAL[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c(138, 142))
hist(BilletesSuizos$DIAGONAL[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c(138, 142), add=
TRUE)
# A ver otra variable???
hist(BilletesSuizos$MARGENSUP[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c(8, 12))
hist(BilletesSuizos$MARGENSUP[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c(8, 12), add= TRUE)
# Que puedo concluir?

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 05 (Analisis Exploratorio de Datos: Variables Cuantitativas - Diagramas de Caja y
Brazos)
###
###
###
#################################################################
#################################################################
#################################################################
# Revisamos y definimos el directorio de trabajo.
getwd() # Revisamos el directorio de trabajo.
# Definimos el directorio donde trabajaremos, donde estan los datos.
getwd() # Volvemos a revisar.
# Borramos memoria.
rm(list=ls())
gc()
# Ahora cargamos los datos que utilizaremos...
# Los vemos...
# Creamos la variable GENUINO...
# Pegamos a nuestra matriz de datos la informacion del vector GENUINO
# Sabamos de la clase pasada que la variable DIAGONAL de los billetes suizos es la que mejor me
poda discriminar entre los genuinos y los falsos...
# Ahora vamos a llegar a la misma conclusin haciendo unos grficos de Caja y Brazos...
# Primero, los elementos de un diagrama de caja y brazos (caja y bigotes en Ingls)... En el
pizarrn.
# Adyacente inferior
# q1
# m
# q3
# Adyacente superior
# Valores atpicos (o atpicos menores)
# Valores extremos (o atpicos mayores)
# Factor de escala: fes = 1.5 * AI
# AI = Amplitud Intercuartlica
# Barreras interiores: f1 = q1 - fes y f2 = q3 + fes
# Barreras exteriores: F1 = f1 - fes y F2 = f2 + fes
# Para hacer un diagrama de caja y brazos utilizamos el comando boxplot()
boxplot(BilletesSuizos$LARGO,
xlab = "Largo del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHOIZQ,
xlab = "Ancho Izquierdo del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHODER,
xlab = "Ancho Derecho del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENINF,
xlab = "Margen Inferior del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENSUP,
xlab = "Margen Superior del Billete",
col = "red",
horizontal = TRUE )

boxplot(BilletesSuizos$DIAGONAL,
xlab = "Diagonal del Billete",
col = "red",
horizontal = TRUE )
# Ahora hacemos diagramas de caja y brazos de cada variable y separando por genuinos y falsos.
boxplot(BilletesSuizos$LARGO ~ BilletesSuizos$GENUINO,
xlab = "Largo del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHOIZQ ~ BilletesSuizos$GENUINO,
xlab = "Ancho Izquierdo del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHODER ~ BilletesSuizos$GENUINO,
xlab = "Ancho Derecho del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENINF ~ BilletesSuizos$GENUINO,
xlab = "Margen Inferior del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENSUP ~ BilletesSuizos$GENUINO,
xlab = "Margen Superior del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$DIAGONAL ~ BilletesSuizos$GENUINO,
xlab = "Diagonal del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
# Podemos concluir lo mismo que la vez pasada pero ahora utilizando otro tipo de grafico...

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 06 (Analisis Exploratorio de Datos: Ms grficos)
###
###
###
#################################################################
#################################################################
#################################################################
getwd()
# Utilizaremos el conjunto de datos: mtcars que ya viene con R...
# Es buena idea ver la descripcinn de las variables utilizando ?mtcars
?mtcars
#################################################################
#################### Grficos de Dispersin #####################
#################################################################
# Son como los diagramas de punto pero en 2 dimensiones
# Lo pueden pensar tal cual como los grficos en un plano cartesiano (2D)
# Empecemos por hacer un grafico de dispersion en 2 dimensiones.
# Un diagrama de dispersinn simple se hace con el comando: plot()
?plot()
# Utilicemos las variables wt y mpg de la base de datos...
# Grafiquemos una primera version...
plot(x = mtcars$wt,
y = mtcars$mpg,
xlab ="Peso del carro ",
ylab ="Millas por galon",
main ="Grafico de dispersion simple/crudo",
col = "red",
pch = 19)
# Otra versin cambiando configuraciones... Qu creen que cambie?
plot(x = mtcars$wt,
y = mtcars$mpg,
cex = 3,
col = "dark green",
pch = 21)
# Otra versin cambiando configuraciones
plot(x = mtcars$wt,
y = mtcars$mpg,
cex = 2,
col = "dark red",
pch = 8)
# A continuacin un listado de los posibles simbolos para pch... Tambin pueden ver en sus notas, he
aadido en el apndice un listado.
#pch=0, square
#pch=1, circle
#pch=2, triangle point up
#pch=3, plus
#pch=4, cross
#pch=5, diamond
#pch=6, triangle point down
#pch=7, square cross
#pch=8, star
#pch=9, diamond plus
#pch=10, circle plus

#pch=11, triangles up and down

#pch=12, square plus
#pch=13, circle cross
#pch=14, square and triangle down
#pch=15, filled square blue
#pch=16, filled circle blue
#pch=17, filled triangle point up blue
#pch=18, filled diamond blue
#pch=19, solid circle blue
#pch=20, bullet (smaller circle)
#pch=21, filled circle red
#pch=22, filled square red
#pch=23, filled diamond red
#pch=24, filled triangle point up red
#pch=25, filled triangle point down red
# Supongamos que queremos agregar a ese grafico (el ltimo) un par de lineas.
# la lnea ajustada de una regresion lineal simple y la de suvizamiento (promedio movil)
abline(lm(mtcars$mpg ~ mtcars$wt), col="red") # Agrega linea de regresion
lines( lowess(mtcars$wt, mtcars$mpg), col="blue") # Agrega linea de suavizamiento
# Ahora unos diagramas de dispersinn por parejas con el comando: pairs()
# Primero todas las parejas de variables...
pairs(mtcars,
main = "Todas las parejas de variables",
cex = 2,
col = "red",
pch = 20)
# Ahora una seleccin de variables...
pairs(mtcars[ , c("mpg","disp","hp")],
main = "Una seleccion de variables",
cex = 2,
col = "red",
pch = 20)
# Ahora una seleccin de variables... cambiando la expansion de etiquetas...
pairs(mtcars[ , c("mpg","disp","hp")],
main = "Una seleccion de variables",
cex = 2,
cex.labels = 1.5,
col = "red",
pch = 20)
# Ahora un diagrama de dispersion en 3D...
# Hay que instalar el paquete "scatterplot3d"
library(scatterplot3d)
?scatterplot3d
scatterplot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Diagrama de dispersion 3D",
color = "red",
col.grid = "grey",
pch = 19)
# Ahora agamos el mismo grafico pero con mas cosas activadas en la funcion...
y = mtcars$disp,
z = mtcars$mpg,
highlight.3d = TRUE,
col.grid = "grey",
pch = 19)
# Ahora con "spikes" o lineas de proyecccion y con etiquetas cambiadas
y = mtcars$disp,
z = mtcars$mpg,
xlab = "Peso",
ylab = "Desplazamiento",
zlab = "Millas/galon",
highlight.3d =TRUE,
col.grid ="blue",
type ="h",
pch = 19)

# Ahora digamos que quieren interactuar con el grafico 3D...

# Instalen el paquete "rgl"
library(rgl)
?plot3d
plot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Dispersion 3D",
xlab = "Peso",
ylab = "Despl.",
zlab = "Mill/galon",
col = "red",
size = 9)
plot3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
main = "Dispersion 3D",
xlab = "Peso",
zlab = "Mill/galon",
col = "blue",
box = FALSE,
size = 9)
# Otra opcion de grafico 3D...
# Ojo: requiere de instalar un paquete que a su vez requiere de ms paquetes, etc...
# Puede tomar tiempo instalarlo porque son graficos de alta resolucion...
# Hay que instalar el paquete: "Rcmdr"
# Despus poner aceptar en los demas paquetes y aplicaciones que necesita...
library(Rcmdr)
?scatter3d
scatter3d(x = mtcars$wt,
y = mtcars$disp,
z = mtcars$mpg,
xlab = "Peso",
point.col = "red")
# Pongamos ms opciones... y cambiemos colores
y = mtcars$disp,
z = mtcars$mpg,
xlab = "Peso",
surface.col = "dark red",
point.col = "yellow")
# Pongamos ms opciones... y cambiemos colores
y = mtcars$disp,
z = mtcars$mpg,
xlab = "Peso",
surface.col = "white",
point.col = "yellow",
bg.col = "black",
surface = FALSE,
ellipsoid = TRUE)
################################################################
#################### Grfico Combinado 1 #######################
################################################################
# Ahora un grfico esttico mas sofisticado, no interactivo pero con mas informacion:
# Hay que instalar el paquete "graphics"
# Indicaremos que se grafique la variable mpg (galones por milla) contra la variable disp
(desplazamiento)
# Pero queremos que todo est cortado o desglosado por la variable (cilindros)
# Antes, como la variable cilindros no es una variable categrica le aplicamos el comando
as.factor() que la convierte o trata como variable categrica.

levels(mtcars$cyl) # Con este comando confirmamos que, en efecto, no es categrica porque fue
definida como no categrica...
# Tambin (como hay 3 tipos de cilindros: 4, 6 y 8, pedimos que los tres graficos los ponga en un
solo renglon.
# Se pide tambien que suavice los datos con una linea utilizando panel.smooth...
# Si quieren ver que hace cada cosa, quiten algun parametro, cambien su valor, etc...
library(graphics) #Solicita que se cargue el paquete graphics (ya debe estar instalado)
?coplot
coplot( mpg ~ disp | as.factor(cyl),
data = mtcars,
panel = panel.smooth,
rows = 1)
coplot( mtcars$mpg ~ mtcars$disp | as.factor(mtcars$cyl),
rows = 1)
coplot( mpg ~ disp | as.factor(cyl),
xlab = "Desplazamiento",
ylab = "Millas/galn",
data = mtcars,
rows = 1)
# Notar que aqu ya estamos metiendo mucha informacin...
# Ahora vamos a ver un grafico muy sencillo en el que puedo representar varias dimensiones y que
quizs es ms fcil de interpretar...
#################################################################
#################### Grficos de Burbujas #######################
#################################################################
# A continuacion, un grafico de burbujas que utiliza el comando symbols()
?symbols
symbols( x = mtcars$mpg,
y = mtcars$disp,
circles = mtcars$cyl,
inches = 0.3,
fg = "blue",
bg = rgb(0,0,1,1/4),
xlab = "Millas por galon",
main = "Burbujas de los Carros")
# Ahora vamos aadir etiquetas a los circulos por si no es muy clara la diferencia de tamaos..
?text
text(x = mtcars$mpg,
y = mtcars$disp,
labels = mtcars$cyl,
cex = 0.8)
# Recuerden, para que aprendan a usar estos graficos vayan moviendo y cambiando cosas y vean que
pasa.....
# Notar que el grafico esta utilizando 3 dimensiones... los 2 ejes y el tamao de las burbujas...
# Adicionalmente se podria etiquetar con otra variable en lugar de repetir la 3er variable en el
comando text() con la variable que esta en el argumento circles...
# Otra variante....
symbols( x = mtcars$mpg,
y = mtcars$disp,
squares = sqrt(mtcars$cyl),
inches = 0.5,
fg = "blue",
bg = rgb(0,0,1,1/4),
xlab = "Millas por galon",
main = "Cuadrados de los Carros")
text(x = mtcars$mpg,
y = mtcars$disp,
labels = mtcars$cyl,
cex = 0.8)
# Como les decia... vayan moviendo y cambiando cosas y vean que pasa.....
##################################################################
#################### Grficos de Estrellas #######################
##################################################################
# Ahora el grafico de estrellas con el comando stars()
# Primero observar los datos mtcars...
mtcars

# Notar que los renglones tienen nombres, estos nombres ya los traian nuestros datos....
# R permite poner nombre a los renglones asi como tambien permite que las columnas tengan nombres...
?stars
stars(mtcars[, 1:7],
len = 0.8,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE)
# Podemos cambiar la paleta de colores a una mejor...
palette(rainbow(12, s = 0.6, v = 0.75))
# Y volvemos a graficar...
stars(mtcars[, 1:7],
len = 0.8,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE)
# Notar que estamos graficando 7 dimensiones....
# Si quisieramos graficar solo algunos renglones... y cambiar algunas cosas....indicamos por
ejemplo...
palette(rainbow(14, s = 0.55, v = 0.85))
stars(mtcars[c(2, 3, 6, 7, 8, 9, 10, 12:31), 1:5],
len = 0.9,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE,
cex = 0.95,
nrow = 5)
# Aqui estamos graficando 5 dimensiones.... que carros son mas parecidos??? por ejemplo.
################################################################
#################### Grfico Combinado 2 #######################
################################################################
# Grafico combinado de 3... estamos poniendo un diagrama de dispersion, luego unos de caja y brazos
y luego unos de puntos unidimensionales apilados...
# Esto es muy artesanal... iremos viendo cada cosa paso a paso...
plot.new() # Por si hab?a alguna grafica incompleta, esperando nueva sobreescritura. Decimos que se
va a hacer un nuevo grafico... esto me da una hoja en blanco nueva.
par(fig=c(0, 0.8, 0, 0.8), new=TRUE) # Establece ubicacion nueva
plot(mtcars$wt, mtcars$mpg, xlab="Peso del carro", ylab="Millas por galon", pch=19, col="red") #
Hace el grafico de dispersion en la ubicacion determinada anteriormente
par(fig=c(0,0.8,0.46,1), new=TRUE) # Establece otra ubicacion nueva (arriba)
boxplot(mtcars$wt , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25) # Hace el boxplot
horizontal de arriba
par(fig=c(0,0.8,0.61,1), new=TRUE) # Establece otra ubicacion nueva (mas arriba)
stripchart(mtcars$wt, method = "stack", vertical = FALSE, axes=FALSE, pch=19, col="blue", add=TRUE)
# Grafico unidimensional de puntos arriba
par(fig=c(0.525,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (a la derecha)
boxplot(mtcars$mpg, horizontal=FALSE, axes=FALSE, col="red", boxwex = 0.25) # Hace el boxplot
vertical de la derecha
par(fig=c(0.7,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (mas a la derecha)
stripchart(mtcars$mpg, method= "stack", vertical = TRUE, axes=FALSE, pch=19, col="blue", add=TRUE)#
Grafico unidimensional de puntos a la derecha
mtext("Grafico combinado: dispersion, caja y brazos y puntos unidimensional", side=3, outer=TRUE,
line=-3) # Pone titulo al grafico
# Ahora un ejemplo, para resaltar la importancia de usar informacin grfica...
# Se trata de mostrarles la utilidad de los graficos y no solo de los estadisticos basicos.
# Por supuesto, hagamoslo para el caso mas simple, bidimensional...
# Imaginemos que tenemos 2 variables, x1 y x2 con los siguientes datos...
x1 <- c(3, 4, 2, 6, 8, 2, 5)
x2 <- c(5, 5.5, 4, 7, 10, 5, 7.5)
# Hagamos el grfico combinado que vimos ...
# Para ello copiamos y pegamos lo de arriba pero hacemos los cambios pertinentes...
# Para evitar estar cambie y cambie de aqui en adelante, mejor defino todo en terminos de las
variables x1 y x2 y todo lo corro con esas variables de aqui en adelante.... solo tendre que ir
modificando los valores de x1 y x2 y no de las lineas correspondientes a los graficos....
plot.new()
par(fig=c(0, 0.8, 0, 0.8), new=TRUE)
plot(x1, x2, xlab="x1", ylab="x2", pch=19, col="red")
par(fig=c(0,0.8,0.46,1), new=TRUE)
boxplot(x1 , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25)

stripchart(x1, method = "stack", vertical = FALSE, pch=19, col="blue", add=TRUE)

par(fig=c(0.525,1,0,0.8),new=TRUE)
boxplot(x2, horizontal=FALSE, axes=FALSE, col="red", boxwex = 0.25)
stripchart(x2, method= "stack", vertical = TRUE, pch=19, col="blue", add=TRUE)
mtext("Grafico combinado", side=3, outer=TRUE, line=-3)
# Entonces, de este grafico podemos ver la covarianza entre x1 y x2 ser positiva
# Ahora, podemos reordenar las parejas de modo que tengamos los mismo graficos marginales de puntos
y una relacion totalmente diferente entre las variables...
x1 <- c(5, 4, 6, 2, 2, 8, 3)
x2 <- c(5, 5.5, 4, 7, 10, 5, 7.5)
# Volvemos a graficas.... Notar que los graficos de puntos siguen iguales...
plot.new()
par(fig=c(0, 0.8, 0, 0.8), new=TRUE)
plot(x1, x2, xlab="x1", ylab="x2", pch=19, col="red")
boxplot(x1 , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25)
stripchart(x1, method = "stack", vertical = FALSE, pch=19, col="blue", add=TRUE)
boxplot(x2, horizontal=FALSE, axes=FALSE, col="red", boxwex = 0.25)
stripchart(x2, method= "stack", vertical = TRUE, pch=19, col="blue", add=TRUE)
mtext("Grafico combinado", side=3, outer=TRUE, line=-3)
# Entonces, de este segundo grafico esperariamos una covarianza negativa entre las dos variables...
# De modo que podemos concluir algo.... podemos tener la misma distribucion marginal para las
variables pero la distribucion conjunta de ambas puede variar... importa entonces como estan
aparejados los datos (ordenados o relacionados)...
# Esto mismo se cumplira generalizando a mas dimensiones.... Es por esto que yo puedo estar viendo
solo cosas marginales pero la idea del analisis multivariado es considerar la combinacion de
informacion... y entonces "sacar mas"
# Veamos otro ejemplo......
# Pensemos ahora que nos encontramos en la situacion de que alguien en la oficina no quiere utilizar
graficos pues aduce que con el puro estadistico descriptivo numerico se captura toda la
informacion...
# Puede que si, pero nosotros sabemos que no... o mejor dicho, con un grafico podriamos contar mejor
la pelicula de lo que esta pasando con nuestros datos...
# Digamos que tenemos los siguientes datos... Que son una recreacion aproximada de datos publicados
en Forbes, Abril, 30, 1990) relativos a la productividad de 16 empresas
x1 <- c( 11, 11, 20, 25, 9, 10, 29, 36, 20, 15, 5, 9, 5, 8, 73, 25 ) # Miles de empleados
x2 <- c( 4, 6, 5, 9, 9, 10, 10, 11, 11, 15, 22, 27, 32, 35, 12, -9 ) # Ganancia por empleado en
miles de dolares
# Supongamos que las empresas estan etiquetadas del 1 al 16... Utilicemos el comando seq() para
crear secuencias.
Etiquetas <- seq(from=1, to=16, by= 1)
# Calculamos el coeficiente de correlacion entre las dos variables
cor(x1,x2)
# Los graficamos...
plot.new()
plot(x1, x2, xlab="x1", ylab="x2", type="n")
text(x1, x2, Etiquetas)
# Calculamos el coeficiente de correlacion entre las dos variables pero probando quitar la empresa
15, luego la 16 y luego quitando las dos, 15 y 16.
cor(x1,x2) # Todas las 16 empresas
cor(x1[-15],x2[-15]) # Quitando la empresa numero 15
cor(x1[-16],x2[-16]) # Quitando la empresa numero 16
cor(x1[-c(15,16)],x2[-c(15,16)]) # Quitando las empresas 15 y 16
# Podemos entonces ver que si nos hubieramos quedado solo con la informacion numerica nos hubieramos
perdido de lo que esta pasando... Sucede que estas dos empresas son muy diferentes del resto y por
tanto "jalan" nuestro estadistico descriptivo.
# El dejar o quitar la observacion u observaciones de nuestras conclusiones sobre la industria
dependera de los objetivos de nuestro estudio.

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 07 (Analisis Exploratorio de Datos: Q-Q plot y Violin Plot)
###
###
###
#################################################################
#################################################################
#################################################################
getwd()
################################################################
#################### Grfico de Violin #########################
################################################################
# Un primo un poco ms moderno de los diagramas de caja y brazos (BoxPlots), se llaman grficos de
violines o "violin plots"
install.packages("vioplot")
library(vioplot)
# Graficamos la DIAGONAL de todos los billetes....
vioplot(BilletesSuizos$DIAGONAL, names=c("Todos"), col="red", rectCol ="white", colMed ="black",
pchMed =19, ylim=c(138, 143))
title("Violines de los billetes TODOS juntos") # Ponemos titulo al grafico...
# Graficamos la DIAGONAL de todos los billetes pero separando...
vioplot(BilletesSuizos$DIAGONAL[GENUINO==1], BilletesSuizos$DIAGONAL[GENUINO==0], names=c("Genuinos",
"Falsos"), col="red", rectCol ="white", colMed ="black", pchMed =19, ylim=c(138, 143))
title("Violines de los billetes separados") # Ponemos titulo al grafico...
################################################################
#################### Grfico de Probabilidades QQ ##############
################################################################
# Vimos que ms o menos la DIAGONAL se comportaban como una Normal cuando hicimos histogramas y
violines para los GENUINOS y para los FALSOS...
# Primero... Graficamos la DIAGONAL de todos los billetes... Esperamos que los datos no se
distribuyan como una Normal...
qqnorm(BilletesSuizos$DIAGONAL, # Hace el grfico de probabilidades Normales, tal cual sin
modificar
ylab = "Diagonal TODOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL, # Dibuja la linea de probas Normales
col = "red")
points(qnorm(c(.25, .50, .75)), # Dibuja los puntos con los cuartiles centrales
quantile(BilletesSuizos$DIAGONAL, c(.25, .50, .75)),
pch=20, col="red", cex = 2)
# Y si ahora lo hacemos por separado para los GENUINOS
qqnorm(BilletesSuizos$DIAGONAL[GENUINO==1],
ylab = "Diagonal GENUINOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL[GENUINO==1],
col = "red")
points(qnorm(c(.25, .50, .75)),
quantile(BilletesSuizos$DIAGONAL[GENUINO==1], c(.25, .50, .75)),
# Y si ahora lo hacemos por separado para los FALSOS
qqnorm(BilletesSuizos$DIAGONAL[GENUINO==0],
ylab = "Diagonal FALSOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL[GENUINO==0],
col = "red")

points(qnorm(c(.25, .50, .75)),

quantile(BilletesSuizos$DIAGONAL[GENUINO==0], c(.25, .50, .75)),

#################################################################
#################################################################
#################################################################
###
###
### Clase Practica 08 (Estimacion 1)
###
### D.F., Mexico. Marzo 04, 2014
###
#################################################################
#################################################################
#################################################################
# Primero, revisamos el directorio de trabajo actual en R.
que utilizaremos.
# A continuacion, leemos el conjunto de datos llamado MU284.csv. Este esta en formato .csv (Comma
Separated Values)
Marco <- read.table(
file = "MU284.csv",#Nombre del archivo
#debe estar en el
#direct. de trabajo.
header = TRUE, #Indicamos que los datos
#tienen encabezados en las
#columnas.
sep = ",") #Indicamos que los datos estan
#separados por coma.
# Notar que escribi el comando en varias lineas para irles explicando que significa cada cosa.
Marco <- read.table(file = "MU284.csv", header= TRUE, sep= ",")
# Otra forma de hacerlo es utilizando los botones de R-studio... Hagamoslo...
# Ahora, echemos directamente un vistazo a los datos cargados...
# Podemos ver que ya aparece un dataframe en nuestra memoria, vemos sus caracter?sticas.
# Vamos a ver las variables y les voy explicando que es cada una...
# Ahora vamos a instalar dos paquetes.... el paquete "sampling" y el paquete "samplingVarEst"
# Los paquetes se instalan utilizando clicks con R-studio o con el comando
?install.packages # Cuando no sepa que hacer utilizo el signo de interrogacin para abrir la
ayuda relativa a ese comando....
# Si no tengo ni idea del comando, entonces utilizo doble ??
# Tercera opcion de ayuda, es utilizar Google, ponga una R antes...
# Ok, instalemos utilizando clicks con el R-Studio o con la siguiente linea de comando
install.packages("samplingVarEst")
# Una vez instalados, ahora los cargamos...
#Recordar aqu? que podemos tener muchos paquetes instalados y no necesariamente cargados (activos)
en memoria...
library(sampling)
require(samplingVarEst)
# Ahora vamos a dar una revisada rapida al paquete sampling (paquete especializado en seleccion de
muestras)
# En particular los comandos que utilizaremos en esta sesion:
#srswor1
#inclusionprobabilities
#UPmaxentropy
#UPbrewer
# Tambien utilizaremos el paquete samplingVarEst (paquete especializado en estimacion de varianza)
# En particular utilizaremos los comandos:
#Pk.PropNorm.U
#Est.Total.NHT
#VE.HT.Total.NHT
#VE.SYG.Total.NHT
# Una vez que ya sabemos que hace cada comando, supongamos que me interesa estimar Theta...
# Theta: Total de la variable P85
# n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio
utilizaremos 50
# De modo que:
n <- 50

# Y tenemos que N es:

N <- dim(Marco)[1]
# Si tienen duda que hace el comando dim, tecleen ?dim
# Supongamos que vamos a utilizar un diseno SI (muestreo aleatorio simple - sin reemplazo)
# Entonces, como no es necesario que calculemos las Pk antes de extraer la muestra, nos vamos
directo a la extraccion...
# Recuerden, cada renglon en mi marco muestral es un municipio sueco....
# Revisamos de nuevo como se ejecuta el comando de seleccion de muestras aleatorias simples (sin
reemplazo)
?srswor1
####
#### Nota: Estas lineas de comando que siguen a continuaci?n NO SON EFICIENTES, son mas bien
didacticas. Traten de mejorarlas o comentarlas para ustedes mismos.
####
# Extraemos las muestras... saquemos 4, piensen en 4 compa?ias que hacen lo mismito...
s.SI1.U <- srswor1(n,N) # Compania "El buen nmero"
s.SI2.U <- srswor1(n,N) # Compania "Salgo en la TV"
s.SI3.U <- srswor1(n,N) # Compania "Salgo en el peridico"
s.SI4.U <- srswor1(n,N) # Compania "Macondo"
# Suponemos que se levantan los datos....
# Entonces, tenemos la variable de interes pero para cada muestra
VecY.s.SI1 <- Marco$P85[s.SI1.U==1]
# Tratandose de muestreo aleatorio simple tenemos que se tienen los mismos valores en las
probabilidades de inclusion para todos los individuos.
# Tambien en este caso, como cada empresa tiene el mismo tama?o de muestra, todas tendran las mismas
probabilidades de inclusion.
VecPk.s <- rep(n/N, times=n)
# Si tienen duda de como se usa el comando rep, teclear ?rep
# Entonces, si estimamos puntualmente utilizando Narain(1951);Horvitz-Thompson (1952)
EstTheta1 <- Est.Total.NHT(VecY.s.SI1, VecPk.s)
# Veamos las estimaciones
EstTheta1
EstTheta2
EstTheta3
EstTheta4
# A cual le creen?
# Vamos a calcular el coeficiente de variaci?n estimado de cada medici?n. Pero para ello primero
necesitamos calcular la varianza
# Veamos c?mo se utilizan los dos comandos
?VE.HT.Total.NHT
?VE.SYG.Total.NHT
# Me hace falta la matriz de probabilidades de inclusi?n conjuntas MatPkl.s
# La podemos calcular de la siguiente forma:
# Camino largo...
MatPkl.s <- matrix(n*(n-1)/(N*(N-1)), ncol=n, nrow=n)
diag(MatPkl.s) <- n/N
MatPkl.s[1:5,1:5]
# Camino corto gracias a nuestro amigo Hajek que en 1964 public?... Ojo: esto es solo para
muestreos de alta entropia.
MatPkl.s <- Pkl.Hajek.s(VecPk.s)
MatPkl.s[1:5,1:5]
# Entonces, calculemos las varianzas....
EstVarEstTheta1 <- VE.HT.Total.NHT(VecY.s.SI1, VecPk.s, MatPkl.s)
# Y entonces los errores estandar son...
StdErrEstTheta1 <- sqrt(EstVarEstTheta1)
# Y ahora calculemos nuestro error absoluto o precision al 95% de confianza
alpha <- 0.05
AbsErrEstTheta1 <- StdErrEstTheta1*qnorm(1-alpha/2)


# Entonces nuestros 4 intervalos de confianza a un nivel de 95% son:
LimInfICEstTheta1 <- EstTheta1 - AbsErrEstTheta1
LimSupICEstTheta1 <- EstTheta1 + AbsErrEstTheta1
# Ahora calculemos el coeficiente de variacion estimado de cada una de las 4 estimaciones...
CVEEstTheta1 <- StdErrEstTheta1/EstTheta1
# Entonces si queremos tener un output bonito: (cbind pega vectores columna)
OUTPUT1 <- c(EstTheta1, EstTheta2, EstTheta3, EstTheta4)
OUTPUT1 <- cbind(EstTheta = OUTPUT1, StdErr = c(StdErrEstTheta1, StdErrEstTheta2, StdErrEstTheta3,
StdErrEstTheta4))
OUTPUT1 <- cbind(OUTPUT1, LInfCI95 = c(LimInfICEstTheta1, LimInfICEstTheta2, LimInfICEstTheta3,
LimInfICEstTheta4))
OUTPUT1 <- cbind(OUTPUT1, LSupCI95 = c(LimSupICEstTheta1, LimSupICEstTheta2, LimSupICEstTheta3,
LimSupICEstTheta4))
OUTPUT1 <- cbind(OUTPUT1, CVE = c(CVEEstTheta1, CVEEstTheta2, CVEEstTheta3, CVEEstTheta4))
OUTPUT1
# Y si ahora muestreamos con probabilidades desiguales...
# Con que sera mejor muestrear, con probabilidades proporcionales a la variable P75 o con
probabilides iguales...?
# Hagamoslo...
# Primero construimos nuestras probabilidades de inclusion proporcional a P75
?Pk.PropNorm.U
VecPk.U <- Pk.PropNorm.U(n, Marco$P75)
# Ahora necesitamos las probabilidades de inclusion de segundo orden, esto seria con el comando
MatPkl.U <- Pkl.Hajek.U(VecPk.U) #Ojo: No espantarse, puede salir error si excedemos las
dimensiones permitidas...
# Que alternativas tenemos?
# Por que antes cuando utilizmos SI primero extrajimos las muestras y luego construimos las Pik's?
# Claramente porque no importa que muestra cae, podemos reconstruir las probabilides de inclusion
sin problema...
# Para el caso de probabilidades desiguales podemos hacer lo mismo con el comando Pkl.Hajek.s en
lugar de utilizar Pkl.Hajek.U
# Este comando Pkl.Hajek.s estima las probas de inclusion de segundo orden a partir de las probas de
inclusion de primer orden pero de los individuos que tenemos en la muestra extraida...
# Es decir, manejaremos matrices de n por n, que son mucho mas manejables...
# Entonces vamos a extraer primero las muestras... y luego estimamos las Pikls
# Extraemos las muestras... vamos a utilizar el muestreo de Brewer que es de alta entropia Grafstrom
(2010, p. 97) da evidencia de que es de alta entrop?a aunque no est? demostrado. Berger (2011)
plantea que basta que el muestreo sea de alta entrop?a (aunque no maxima) para poder utilizar los
resultados de Hajek (1964)
s.Br1.U <- UPbrewer(VecPk.U)
# Notar que si hubieramos utilizado UPmaxentropy hubiera sido muy lento... pueden hacer la prueba en
su computadora... Notar tambien que el paquete sampling esta programado en R, seria bueno tener una
version mas veloz (programado en C)
# Y entonces ahora si, estimamos nuestras probabilidades de inclusion de 2do orden a partir de datos
muestrales.... (ver la expresion en el manual del paquete samplingVarEst).
# Primero creo un vector con las probabilidades de inclusion de primer orden con solo los datos
muestrales (tengo que hacer uno para cada muestra que saque)
VecPk.s1 <- VecPk.U[s.Br1.U==1]
# Como tenemos la matrix N por N de Pkl's tenemos que quedarnos con los renglones y las columnas de
esta:
MatPkl.s1 <- MatPkl.U[s.Br1.U==1,s.Br1.U==1]


MatPkl.s1[1:5,1:5]
# Si no tuviera la matrix poblacional de Pkl's entonces creo las matrices de probas de 2do orden
estimadas utilizando la version muestral del Hajek(1964)
MatPkl.s1 <- Pkl.Hajek.s(VecPk.s1)
MatPkl.s1[1:5,1:5]
# Ahora creo mis datos muestrales, i.e. solo tendre datos observados de la variable Y para aquellos
que cayeron en muestra...
VecY.s.Br1 <- Marco$P85[s.Br1.U==1]
# Entonces, si estimamos puntualmente utilizando Narain(1951);Horvitz-Thompson (1952)
EstTheta1 <- Est.Total.NHT(VecY.s.Br1, VecPk.s1)
# Entonces, calculemos las varianzas....
#
#
#
#
# Pero aqui, como usamos probabilidades desiguales tiene m?s sentido utilizar SYG en lugar de NHT
para la estimaci?n de varianza, no tanto por el asunto de obtener valores negativos, sino porque es
mejor estimador (quizas estas diferencias aqu? no sean tan importantes porque tenemos una poblaci?n
grande y un tamano de muestra grande... estos argumentos son mas utiles cuando se est? operando en
poblaciones moderadas y tamanos de muestra m?s peque?os, e.g. en algunos estratos en particular)
# Ademas, recuerden que el estimador de varianza de SYG es mas rapido porque hace la mitad de
calculos
#
#
#
EstVarEstTheta1 <- VE.SYG.Total.NHT(VecY.s.Br1, VecPk.s1, MatPkl.s1)
# Y entonces los errores estandar son...
# Y ahora calculemos nuestro error absoluto o precision al 95% de confianza
alpha <- 0.05
# Entonces nuestros 4 intervalos de confianza a un nivel de 95% son:
# Ahora calculemos el coeficiente de variaci?n estimado de cada una de las 4 estimaciones...
# Y como ahora estamos muestreando diferente del SI entonces s? tiene sentido calcular el deff
(estimado)
VecPk.s <- rep(n/N, times=n) # Ya lo teniamos en memoria pero para recordar que es... Notar
que es igual en todas las estimaciones porque es para un diseno SI y todas las muestras tienen el
mismo tama?o.

deffEstTheta1 <- EstVarEstTheta1/VE.SYG.Total.NHT(VecY.s.Br1, VecPk.s, Pkl.Hajek.s(VecPk.s))

# Entonces si queremos tener un output bonito:
OUTPUT2 <- c(EstTheta1, EstTheta2, EstTheta3, EstTheta4)
OUTPUT2 <- cbind(EstTheta = OUTPUT2, StdErr = c(StdErrEstTheta1, StdErrEstTheta2, StdErrEstTheta3,
StdErrEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, LInfCI95 = c(LimInfICEstTheta1, LimInfICEstTheta2, LimInfICEstTheta3,
LimInfICEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, LSupCI95 = c(LimSupICEstTheta1, LimSupICEstTheta2, LimSupICEstTheta3,
LimSupICEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, CVE = c(CVEEstTheta1, CVEEstTheta2, CVEEstTheta3, CVEEstTheta4))
OUTPUT2 <- cbind(OUTPUT2, deff = c(deffEstTheta1, deffEstTheta2, deffEstTheta3, deffEstTheta4))
OUTPUT2
# Como son los FE de cada diseno?
summary(1/VecPk.s)
plot(sort(1/VecPk.s))
summary(1/VecPk.s1)
plot(sort(1/VecPk.s1))
# Notar que si el tamano de muestra es generoso, incluso con muestreo SI se obtienen buenas
estimaciones. Pero si tenemos poquita muestra, entonces el SI tendera a fallar y sera mucho mejor
utilizar pesos desiguales.
# Entonces, utilizando probabilidades desiguales esperamos que la distribucion muestral de nuestro
estimador est? m?s concentrada alrededor del verdadero valor, es decir, que utilizando
probabilidades desiguales voy a obtener con mucho menor frecuencia relativa estimaciones que disten
mucho del verdadero valor...
# Nom?s por puro ocio, revisemos qu? tan lejos estamos del verdadero valor en cada caso
OUTPUT1
OUTPUT2
# El verdadero valor es:
Theta <- sum(Marco$P85)
Theta
# Esperamos que vamos a tener mejores estimaciones utilizando un diseno diferente al muestreo SI por
como se comporta la variable de interes
# Para que esto de utilizar probas desiguales funcione, tenemos que la variable de interes tiene que
estar correlacionada con la variable que estamos utilizando para calcular las Pks
# Chequemos que tal esta la correlacion
cor(Marco$P75,Marco$P85)
# Usar las muestras con probas desiguales pero estimar con SI (vicio del mercado - exagerado)
EstTheta1 <- Est.Total.NHT(VecY.s.Br1, VecPk.s)
EstTheta1
EstTheta2
EstTheta3
EstTheta4

#################################################################
#################################################################
#################################################################
###
### Diplomado en Estadistica Aplicada : Modulo Muestreo
###
### Clase Practica 09 (Estimacin 1 - samplingEstimates)
###
###
### D.F., Mexico. Marzo 06, 2014
###
#################################################################
#################################################################
#################################################################
### Esta sesin tiene que ejecutarse habendo entendido la sesin anterior... No se explicar con
tanto detalle algunas cosas ya que no vale la pena repetir y repetir lo mismo.
### La idea de esta sesin es hacer lo mismo que la clase pasada pero de manera ms rpida
utilizando el paquete: samplingEstimates
# Primero, revisamos el directorio de trabajo actual en R.
que utilizaremos.
Marco <- read.table(file = "MU284.csv", header= TRUE, sep= ",")
# Ahora vamos a instalar el paquete "samplingEstimates"
install.packages("samplingEstimates")
# Una vez instalado, ahora lo cargamos y Tambin cargamos el paquete que muestrea que vimos la clase
pasada:
library(samplingEstimates)
require(sampling)
# Ahora vamos a dar una revisada rpida al paquete samplingEstimates (paquete "mscara" del paquete
samplingVarEst, con el objeto de hacerlo ms amigable)
# En particular el comando que utilizaremos en esta sesin (del paquete samplingEstimates):
#Estimate.Total.NHT (ver el manual en PDF para entender cmo trabaja)
# Una vez que ya sabemos como opera el comando, supongamos que me interesa estimar Theta...
# Theta: Total de la variable P85
# n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio
utilizaremos 50
n <- 50
# Y tenemos que N es:
N <- dim(Marco)[1]
# Supongamos que vamos a utilizar un dise?o SI (muestreo aleatorio simple - sin reemplazo)
# Entonces, como no es necesario que calculemos las Pk antes de extraer la muestra, nos vamos
directo a la extracci?n...
# Extraemos las muestras... saquemos 4, piensen en 4 compa?ias que hacen lo mismito...
s.SI1.U <- srswor1(n,N) # Compaa "El buen nmero"
s.SI2.U <- srswor1(n,N) # Compaa "Salgo en la TV"
s.SI3.U <- srswor1(n,N) # Compaa?"Salgo en el peridico"
s.SI4.U <- srswor1(n,N) # Compaa "Macondo"
# Suponemos que se levantan los datos.... tenemos la variable de inters pero para cada muestra
# En este caso, cada empresa tiene el mismo tamao de muestra, todas tendran las mismas
probabilidades de inclusin.
VecPk.s <- rep(n/N, times=n)
# Tambin necesito la matriz de probabilidades de inclusion conjuntas MatPkl.s
MatPkl.s <- Pkl.Hajek.s(VecPk.s)
#### OJO: el paquete samplingEstimates me pide pesos muestrales en lugar de probabilidades de
inclusin de primer orden.
# Entonces, estimamos con el paquete samplingEstimates utilizando el estimador de un total de
Narain(1951);Horvitz-Thompson (1952)
Resultados1 <- Estimate.Total.NHT(MatY.s = VecY.s.SI1,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,

PopSize = N )
VarEst = "SYG" ,
PopSize = N )
VarEst = "SYG" ,
PopSize = N )
VarEst = "SYG" ,
PopSize = N )
OUTPUT1 <- rbind(Resultados1, Resultados2, Resultados3, Resultados4)
OUTPUT1
# Y si ahora muestreamos con probabilidades desiguales...
# Primero construimos nuestras probabilidades de inclusin proporcional a P75 para todos los
individuos en la poblacin
?Pk.PropNorm.U
VecPk.U <- Pk.PropNorm.U(n, Marco$P75)
# Ahora necesitamos las probabilidades de inclusi?n de segundo orden, esto ser?a con el comando
MatPkl.U <- Pkl.Hajek.U(VecPk.U) #Ojo: No espantarse, puede salir error si excedemos las
dimensiones permitidas...
# Extraemos las muestras... vamos a utilizar el muestreo de Brewer que es de alta entrop?a Grafstr?m
(2010, p. 97) da evidencia de que es de alta entrop?a aunque no est? demostrado. Berger (2011)
plantea que basta que el muestreo sea de alta entrop?a (aunque no m?xima) para poder utilizar los
resultados de H?jek (1964)
#estimamos nuestras probabilidades de inclusi?n de 2do orden a partir de datos muestrales....
# Primero creo un vector con las probabilidades de inclusi?n de primer orden con s?lo los datos
muestrales (tengo que hacer uno para cada muestra que saqu?)
# Como tenemos la matrix N por N de Pkl's tenemos que quedarnos con los renglones y las columnas de
esta:
MatPkl.s1[1:5,1:5]
# Si no tuviera la matrix poblacional de Pkl's entonces creo las matrices de probas de 2do orden
estimadas utilizando la versi?n muestral del H?jek(1964)
MatPkl.s1[1:5,1:5]
# Ahora creo mis datos muestrales, i.e. s?lo tendr? datos observados de la variable Y para aquellos
que cayeron en muestra...
# Entonces, si estimamos:
Resultados1 <- Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 ,
PopSize = N )
VarEst = "SYG" ,

PopSize = N )
VarEst = "SYG" ,
PopSize = N )
VarEst = "SYG" ,
PopSize = N )
OUTPUT2 <- rbind(Resultados1, Resultados2, Resultados3, Resultados4)
OUTPUT2
# Notar las diferencias de los comandos:
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VarEst = "SYG" ,
PopSize = N )
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 )
VarEst = "SYG" )
VecWk.s = 1/VecPk.s1)

Parte VI
Ejercicios
240
Ejercicios de Analisis Exploratorio de Datos
1. (Verdadero o Falso) La Estadstica es una ciencia.
2. (Pregunta abierta) Definicion de Estadstica.
3. (Pregunta abierta) Por que importa que haya una nocion de azar o incertidumbre en la definicion de
Estadstica?
4. (Reflexion) Donde esta el azar asociado a un objeto: en el objeto per se o en mi ignorancia sobre el
comportamiento del objeto? Justifique.
5. (Reflexion) Con su intuicion, suponiendo que no tiene conocimientos de muestreo. Intente calcular la
probabilidad de que su vecina Chuchita caiga seleccionada en una muestra. Como le hara? Justifique.
6. (Pregunta abierta) Dar 3 ejemplos de variables difciles de definir y que son de interes publico (i.e. que
interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.).
7. (Pregunta abierta) Dar 3 ejemplos de variables multifactoriales que son de interes publico (i.e. que
interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.)
8. (Pregunta abierta) Dar 3 ejemplos de variables categoricas de interes publico (i.e. que interesen a
INEGI, CONAPO, CONEVAL, CNSF, etc.)
9. (Pregunta abierta) Dar 3 ejemplos de variables continuas de interes publico.
10. (Pregunta abierta) Dar 3 ejemplos de variables continuas de interes publico que son recodificadas a
variables categoricas.
11. (Pregunta abierta) Dar 3 ejemplos de variables con escala nominal (de interes publico).
12. (Pregunta abierta) Dar 3 ejemplos de variables con escala ordinal (de interes publico).
13. (Pregunta abierta) Dar 3 ejemplos de variables con escala de intervalo (de interes publico).
14. (Pregunta abierta) Dar 3 ejemplos de variables con escala de razon (de interes publico).
15. (Pregunta abierta) Por que se recomienda hacer un EDA como punto de partida para un estudio o
investigacion?
16. (Pregunta abierta) Cual es la diferencia entre un diagrama de barras y un histograma?
17. (Pregunta abierta) Explique las diferencias entre una escala de intervalo y una escala de razon.
18. (Pregunta abierta) Explique porque se dice que hay una jerarqua entre los niveles de las escalas en los
datos.

19. (Ejercicio Practico)
Utilizar los datos TVcable2 (ojo, estan en formato XLS)
1. Hacer en R un grafico de pastel y uno de barras de la variable asociada al tipo de televisor.

Tratar de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando los graficos.
2. Hacer en R un grafico de pastel y uno de barras de la variable asociada al tipo de televisor

pero ahora uno por cada colonia. Tratar de hacerlo lo mas bonito que se pueda. Escribir unas
lneas interpretando los graficos para cada colonia y luego otras lneas platicando si se observan
diferencias.
3. Hacer en R un diagrama de puntos con alguna variable (que corresponda, por supuesto). Tratar
de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.
4. Hacer en R un grafico de frecuencias de variables discreta con alguna variable (que corresponda,
por supuesto). Tratar de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.
5. Hacer en R un histograma con alguna variable (que corresponda, por supuesto). Tratar de
hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.
20. (Tarea moral) Investigue de que se trata el polgono de frecuencias.
21. (Tarea moral) Investigue de que se trata el diagrama llamado ojiva.
22. (Ejercicio algebraico) A partir de la definicion vista en clase de s2 , demostrar que:
Pn
k=1 x2k nx2
s2 =
n1
23. (Ejercicio Practico) Se tiene el siguiente diagrama de tallo y hojas de ciertos porcentajes para 129
pases. Las cifras del grafico se interpretan de la siguiente manera, por ejemplo 1|5 significa 15 %.
Uselo para determinar:
El rango.
El primer cuartil.
La mediana.
La amplitud intercuartlica.
24. (Ejercicio Practico) Suponga que tienen solamente dos datos: 14 y 160. Calcule:
El rango.
El primer cuartil.
La mediana.
La amplitud intercuartlica.
25. (Repaso de conceptos) Cual es la funcion de distribucion Bernoulli, su esperanza, su varianza?

Que modela una variable aleatoria con tal distribucion de probabilidades?

26. (Repaso de conceptos) Cual es la funcion de distribucion Normal, su esperanza, su varianza? Que mo-
dela una variable aleatoria con tal distribucion de probabilidades?
27. (Ejercicio Practico) Indique hacia que lado (derecho o izquierdo) se tiene un sesgo en el siguiente
grafico.
28. (Ejercicio) Determine, en ese orden, si las siguientes variables son: cualitativas o cuantitativas, discretas
o continuas, y determine su escala de medicion.
El INPC. ( )( )( )
El rendimiento de las acciones de una empresa que cotiza en la BMV. ( )( )( )
El volumen de acciones vendidas por da. ( )( )( )
La clasificacion del riesgo-pas emitida por JP Morgan. ( )( )( )

La intencion de voto del entrevistado. ( )( )( )
El ingreso mensual del entrevistado. ( )( )( )
El numero de focos en el hogar del entrevistado. ( )( )( )
La colonia donde vive el entrevistado. ( )( )( )
El genero del entrevistado. ( )( )( )
La etnia del entrevistado. ( )( )( )
Edad del entrevistado en anos cumplidos. ( )( )( )
El estado civil del entrevistado. ( )( )( )
Tipo de poblacion en que habita el entrevistado (urbana o rural). ( )( )( )
29. (Verdadero o Falso) La covarianza mide solo dependencia lineal.
30. (Verdadero o Falso) Si hay independencia entre 2 variables, esto implica que la correlacion entre estas
es cero.
31. (Verdadero o Falso con justificacion) La Estadstica es una ciencia.
32. (Verdadero o Falso) Con datos cualitativos, las categoras no necesariamente tienen que ser excluyentes.
Puede haber observaciones en 2 o mas categoras.
33. (Verdadero o Falso con justificacion) Los datos cuantitativos tienen un numero finito de clases. Puede
ser muy grande, pero es finito.
34. (Verdadero o Falso) Los datos cuantitativos discretos son aquellos donde hace falta informacion de la
unidad de medicion.
35. (Verdadero o Falso con justificacion) No es posible, de manera alguna, representar a los datos cuanti-
tativos discretos como datos cuantitativos continuos.
36. (Verdadero o Falso con justificacion) No es posible recodificar una variable continua a una variable
categorica.
37. (Verdadero o Falso con justificacion) No es posible determinar causalidad a partir de una correlacion,
aunque esta sea muy cercana a 1.
38. (Verdadero o Falso con justificacion) No es posible o no tiene sentido utilizar un histograma con una
variable categorica.
39. (Verdadero o Falso con justificacion) Existen dependencias no-lineales que pueden tener una correlacion
cero.
40. (Verdadero o Falso con justificacion) Si la covarianza entre dos variables da un valor de cero, esto
implica que las dos variables en cuestion son independientes.
(... trabajo en curso)

Ejercicios de Muestreo
1. (Pregunta abierta) Cual es el objetivo principal del muestreo, es decir, en que situaciones se usa o
que pregunta ayuda a responder el muestreo?
2. (Pregunta abierta) Como podemos relacionar las siguientes ideas en una sola oracion: variabilidad,
muestreo, obtencion y recoleccion de datos, estimacion, inferencia, poblacion, responder preguntas,
precision, terminos probabilsticos, control, medicion, parte de la estadstica? Es decir, haga una oracion
que contenga todas las palabras y que a la vez no este diciendo algo equivocado.
3. (Pregunta abierta) Que diferencia tienen los libros tradicionales de muestreo y el libro de Sarndal que
estamos utilizando?
4. (Pregunta abierta) Que relacion hay entre el software de muestreo en general y el Sarndal?
5. (Pregunta abierta) Cual es la principal desventaja de un enfoque particularizado del muestreo en la

practica, en la oficina, en la realidad?
6. (Pregunta abierta) Comente en sus palabras cual sera el procedimiento general o esqueleto del proceso
que involucra una encuesta. Como si lo estuviera platicando o explicando a un poltico o a un joven
sin contacto previo con el muestreo.
7. (Pregunta abierta) Proporcione 3 ejemplos sobre el uso del muestreo diferente a una encuesta electoral
o de opinion publica. Es decir, se necesitan ejemplos en donde no se trate de una encuesta. En donde
no se necesite un cuestionario tal cual como ordinariamente se hace en una encuesta de opinion. De
preferencia de ejemplos diferentes a los comentados en clase.
8. (Pregunta abierta) Es importante definir bien todos los elementos o detalles involucrados dentro de un
ejercicio de muestreo de poblaciones finitas Que relacion tiene esto con el ejercicio de inferir?
9. (Pregunta abierta) Que es un marco muestral y para que me sirve dentro de la teora de muestreo?
10. (Pregunta abierta) Por que es importante tener un marco muestral de buena calidad y actualizado?
11. (Pregunta abierta) En que casos tengo problemas con mi marco muestral, cuales son los tpicos
problemas que pueden presentarse?
12. (Pregunta abierta) Una encuesta me sirve para responder preguntas de un individuo en particular.
S o no? Explique ampliamente.
13. (Pregunta abierta) Todos los errores en una encuesta tienen que ver con muestreo. S o no? Explique
ampliamente.
14. (Pregunta abierta) Explique de manera simple las ventajas y desventajas de un enfoque de muestreo
basado en diseno.

15. (Pregunta abierta) Pensando en un enfoque de muestreo basado en modelos, explique por que es
posible tener tamanos de muestra muy pequenos en este .approach
16. (Pregunta abierta) Explique como es posible que el enfoque basado en diseno pueda utilizar disenos
de muestreo (o probabilidades de inclusion) arbitrarias y a la vez no se considera un enfoque subjetivo?
17. (Pregunta abierta) Que es el muestreo probabilstico?
18. (Pregunta abierta) Comente por que no es posible determinar que una muestra es probabilstica si solo
se observa la muestra extrada.
19. (Pregunta abierta) Que son las probabilidades de inclusion?
20. (Pregunta abierta) Que es el diseno de muestreo?
21. (Pregunta abierta) Cual es la diferencia entre p(s) y k ?
22. (Pregunta abierta) Para que me sirve determinar p(s) y k en todo este asunto del muestreo que
vemos en el curso. Que importancia tiene cada uno en la teora vista?
23. (Pregunta abierta) Es posible (y por que?) utilizar tecnicas de muestreo que hemos visto con muestras
no probabilsticas?
24. (Pregunta abierta) Que es un parametro (en la teora de muestreo)?
25. (Pregunta abierta) Un parametro tiene variabilidad. S, no, por que?
26. (Pregunta abierta) Y la variable de estudio, es una variable aleatoria. S, no, por que?
27. (Pregunta abierta) Un estimador de un parametro tiene variabilidad. S, no, por que?
28. (Pregunta abierta) Explique como es eso de que un estimador estima un parametro. Que es un
estimador? Como funciona con peras y manzanas Que quiero de un estimador y como me aseguro
de que eso que quiero suceda? Explquelo a un nino pregunton.
29. (Pregunta abierta) De donde viene la variabilidad en el muestreo bajo el enfoque basado en diseno?
30. (Pregunta abierta) La variabilidad en el muestreo basado en diseno la puedo controlar o mnimo
describir? Para que me interesa controlarla o describirla? Como? Mediante que? Explique.
31. (Pregunta abierta) Cual es la diferencia entre un estimador y una estimacion?
32. (Pregunta abierta) Que es la distribucion muestral? Que me dice? Es facil obtenerla siempre. S,
no, por que? En caso de que no, Que puedo hacer entonces?
33. (Pregunta abierta) Por que nos importa estimar en todo momento la media y la varianza de un
estimador? Como se conecta con el concepto de la distribucion muestral?
34. (Pregunta abierta) Que tiene que ver con la calidad del diseno de muestreo que utilicemos el calculo
o estimacion de la varianza?

35. (Pregunta abierta) Como se relaciona en general un total, una media y una proporcion?
36. (Pregunta abierta) Si la calidad de un estimador, una de las caractersticas de las que depende es el
sesgo de este, Que significa que un estimador sea insesgado formalmente hablando? Y que significa
en palabras coloquiales como las entendera para un poltico o cliente comercial?
37. (Pregunta abierta) Es lo mismo hablar del sesgo de un estimador que de que una muestra tiene sesgo,
como habla coloquialmente la gente ajena a tecnicas de muestreo? S, no, explique ampliamente.
38. (Pregunta abierta) Por que formalmente hablando no existe una estimacion insesgada?
39. (Pregunta abierta) Explique como se construye una distribucion muestral de un estimador? Explique
como para un chavito de preparatoria.
40. (Pregunta abierta) Hasta lo que hemos visto, si se quisieran mejorar las estimaciones. En que elementos
tengo control (es decir, no depende del azar) y que cosa usted podra alterar o mejorar?
41. (Pregunta abierta) En poblaciones finitas, es posible determinar todas las muestras posibles? Sirve
de algo eso en la practica, necesito listarlas todas?
42. (Pregunta abierta) Para que nos sirve el coeficiente de variacion estimado? Explique su utilidad practica
a un subalterno que estudio matematicas.
43. (Pregunta abierta) Como explicarle a un poltico o a un nino en terminos coloquiales en realidad
que hace el coeficiente de variacion? Ejemplifique si lo considera pertinente.
44. (Pregunta abierta) En palabras, sin formulas ni notacion matematica. . . De que se trata el uso de
los estimadores o de Narain-Horvitz-Thompson? Cual es la idea intuitiva que hay detras? Explique
ampliamente de manera simple. Ejemplifique si lo considera pertinente.
45. (Pregunta abierta) Que restricciones hay en las probabilidades de inclusion para poder utilizar los
estimadores de Narain-Horvitz-Thompson? Que restricciones tengo para establecerlas?
46. (Pregunta abierta) Que es la fraccion de muestreo y que informacion me da si la tengo terminos
porcentuales?
47. (Pregunta abierta) Explique que significa estratificar en terminos practicos y en terminos matematicos?
48. (Pregunta abierta) Por que se recomienda estratificar como una tecnica util para mejorar estimaciones?
Como convencera a su jefe ignorante en muestreo sin tanto tecnicismo?
49. (Pregunta practica abierta) Suponga que tiene un marco muestral de 40mil registros. Usted sabe
de antemano que la variable Z, disponible en su marco, es dealpara utilizarse como variable de
estratificacion. Desafortunadamente, no todos los registros en su marco tienen registros de esa variable.
Aproximadamente un 20 % de su marco muestral no presenta informacion sobre tal variable. Cual es
la mejor alternativa que usted sugerira? Discuta ampliamente las otras alternativas y por que lo que
propone es mejor. Convenza al jefe que estudio medicina.

50. (Verdadero o Falso con justificacion) La funcion diseno de muestreo es la que determina las propiedades
estadsticas del estadstico que estoy utilizando como estimador.
51. (Verdadero o Falso con justificacion) En muestreo directo de elementos, es decir en 1 etapa, y bajo un
diseno SI se requiere forzosamente tener el marco muestral completo que identifique a los elementos
de la poblacion.
52. (Verdadero o Falso) Si se incorporan mas etapas al diseno de muestreo regularmente se aumenta la
varianza del estimador.
53. (Verdadero o Falso) La ventaja principal de las muestras probabilsticas sobre las no probabilsticas es
que no hay errores no muestrales.
54. Para mejorar la precision en un diseno de muestreo de varias etapas se sugiere tratar de aumentar el
tamano de muestra de las unidades primarias de muestreo, es decir el numero de elementos a muestrear
en la primera etapa. Muchas veces esto tiene que hacerse disminuyendo el numero de unidades ultimas
de muestreo para no afectar el tamano de muestra global.
55. (Verdadero o Falso con justificacion) Es posible obtener muestras insesgadas incluso bajo disenos de
muestreo diferentes al SI.
56. (Verdadero o Falso con justificacion) El tamano de muestra se determina mayormente por el tamano
de la poblacion objetivo.
57. (Verdadero o Falso con justificacion) En un muestreo SI. Si censamos se obtiene una varianza del
estimador igual a cero y tambien la estimacion de la varianza del estimador es igual a cero.
58. (Verdadero o Falso con justificacion) Una proporcion es una media de variables continuas.
59. (Verdadero o Falso) En el muestreo aleatorio simple, todas las muestras tienen la misma probabilidad
de ser extradas.
60. (Verdadero o Falso) En el muestreo aleatorio simple estratificado, todos los elementos de la poblacion
tienen la misma probabilidad de ser seleccionados.
61. (Verdadero o Falso) En el muestreo aleatorio simple, todos los elementos de la poblacion tienen la
misma probabilidad de ser seleccionados.
62. (Verdadero o Falso con justificacion) Para mejorar la precision en un diseno de muestreo se sugiere
aumentar el tamano de muestra.
63. (Verdadero o Falso con justificacion) Siempre que tenga un nivel de precision en los dominios de
estimacion, al combinar las estimaciones para dar una estimacion global, el nivel de precision de la
estimacion global es mejor que el de la estimacion por dominios.
64. (Verdadero o Falso con justificacion) Para estimar proporciones se pueden usar practicamente las
mismas expresiones matematicas que para estimar medias.

65. (Verdadero o Falso con justificacion) El muestreo polietapico, es decir en mas de dos etapas de muestreo
requiere forzosamente de un marco muestral completo que identifique a todas las unidades ultimas de
muestreo.
66. (Verdadero o Falso con justificacion) El deff teorico para cualquier estimador del diseno SI es igual a
cero siempre. Esto por su definicion.
67. (Verdadero o Falso con justificacion) Siempre que utilizamos conglomeracion se aumenta la precision
en mis estimaciones.
68. (Verdadero o Falso con justificacion) Segun la teora vista en el curso. El esquema real de muestreo
puede ser diferente a mi funcion diseno de muestreo al momento de estimar. Se vale y es correcto.
69. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en un diseno de
muestreo en varias etapas se sugiere reducir el numero de etapas, es decir dejar de conglomerar para
algunas etapas.
70. (Verdadero o Falso con justificacion) El coeficiente de variacion (teorico, no estimado) puede tener
valores iguales a cero si censo.
71. (Verdadero o Falso con justificacion) El error estandar y la desviacion estandar no son lo mismo.
72. (Verdadero o Falso) Si muestreamos bajo el enfoque basado en modelos lo estocastico o variabilidad
esta en el componente aleatorio del modelo.
73. (Verdadero o Falso con justificacion) No se pueden calcular errores de estimacion con muestreo no
probabilstico. Por eso no tiene sentido calcular un tamano de muestra.
74. (Verdadero o Falso con justificacion) Para calcular un tamano de muestra a cierta precision y confianza
necesito siempre el supuesto de Normalidad.
75. (Verdadero o Falso con justificacion) Una manera de estimar a N , el tamano de la poblacion, es
sumando los factores de expansion de los individuos cados en muestra.
76. (Verdadero o Falso) La probabilidad de inclusion conjunta para el par de elementos (k, k), es igual a
la probabilidad de inclusion de primer orden del elemento k.
77. (Verdadero o Falso con justificacion) Es posible tener probabilidades de inclusion de primer orden igual
a n/N y tener un diseno de muestreo p() distinto del muestreo SI.
78. (Verdadero o Falso con justificacion) No se puede estimar puntualmente una proporcion si no se
conocen sus probabilidades kl .
79. (Verdadero o Falso con justificacion) Con las expresiones que vimos en clase, no es posible calcular la
varianza con un tamano de muestra menor a 2.
80. (Verdadero o Falso con justificacion) Las probabilidades de inclusion de primer orden son iguales a las
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo aleatorio simple.

81. (Verdadero o Falso con justificacion) El tamano de muestra se determina mayormente por el tamano
de la poblacion objetivo.
82. (Verdadero o Falso con justificacion) Es conservador que la estimacion de varianza de un estimador
tenga un sesgo negativo a uno positivo. Es decir, es conservador obtener errores estandares ligeramente
sub-estimados.
83. (Verdadero o Falso con justificacion) En las expresiones de estimacion puntual de Narain-Horvitz-
Thompson las probabilidades de inclusion pueden ser arbitrarias sin restriccion.
84. (Verdadero o Falso con justificacion) Los .errores no muestralessiempre son pequenos en comparacion
a los errores muestrales.
85. (Verdadero o Falso con justificacion) Al incorporar mas etapas al diseno de muestreo se puede perder
el insesgamiento del estimador puntual lineal.
86. (Verdadero o Falso con justificacion) Siempre que la poblacion es mucho mas grande, la muestra tiene
que ser mucho mas grande.
87. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en una etapa especfica
de muestreo se sugiere disminuir el numero de unidades muestrales correspondientes a esa etapa.
88. (Verdadero o Falso con justificacion) Se necesitan al menos tanta cantidad de estratos como cantidad
de dominios de estudio tengo planeados.
89. (Verdadero o Falso) Si censamos una poblacion de elementos tenemos una fraccion de muestreo de 1.
90. (Verdadero o Falso con justificacion) De acuerdo a la teora vista en el curso. El total de elementos en
mi poblacion a los que les asigno probabilidad k = 1 no puede ser mayor al tamano de muestra n.
91. (Verdadero o Falso con justificacion) Si sumamos las probabilidades de inclusion de los elementos en
toda mi poblacion obtenemos exactamente el valor n.
92. (Verdadero o Falso con justificacion) Cuando usamos muestreo aleatorio simple no podemos asumir el
gran supuesto estadstico de tener observaciones independientes identicamente distribuidas.
93. (Verdadero o Falso con justificacion) Siempre que la poblacion es mas chica mejora la precision de mis
calculos.
94. (Verdadero o Falso con justificacion) Por su definicion, kl es la correlacion de las indicadoras de
inclusion muestral de los elementos k y l.
95. (Verdadero o Falso con justificacion) Un parametro tiene variabilidad y esta se mide por la varianza de
este, pero para calcular su varianza se requiere de toda la informacion de la poblacion.
96. (Verdadero o Falso con justificacion) Cuando alcanzo cierto error estandar en mis estimaciones globales,
si quiero dar resultados por sub-poblaciones, dominios o cruces, estos tendran un error estandar mas
grande.

probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo aleatorio simple.
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo Bernoulli.
99. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en un diseno de
muestreo se sugiere estratificar.
100. (Verdadero o Falso con justificacion) La varianza del estimador de un parametro en un muestreo
estratificado aleatorio simple es casi siempre menor que la varianza si no hay estratos y se utilizo un
muestreo aleatorio simple.
101. (Verdadero o Falso con justificacion) Siempre se disminuye la varianza del estimador si se aumenta el
tamano de muestra en un diseno SI.
102. (Verdadero o Falso con justificacion) De acuerdo al curso. No es posible asignar probabilidades de
inclusion 1 a algunos elementos en el marco muestral porque no estaramos haciendo muestreo proba-
bilstico.
103. (Verdadero o Falso con justificacion) Si estratificamos un diseno de muestreo (sin importar si es un
diseno de muestreo de mas de una etapa), esta puede hacer perder al estimador lineal su insesgamiento.
104. (Verdadero o Falso con justificacion) No es posible tener tamano de muestra 1 en un estrato, aun
cuando su tamano poblacional sea 1.
105. (Verdadero o Falso con justificacion) No existen restricciones en el tamano de muestra asignado a los
estratos cuando se incorpora una estratificacion al diseno de muestreo utilizado.
106. (Verdadero o Falso con justificacion) En un muestreo en varias etapas. No es posible utilizar la muestra
de la etapa anterior como poblacion para extraer muestras en la etapa siguiente.
107. (Ejercicio algebraico) Vimos en clase (y usted demostro como tarea opcional) que:
Resultado 5.3.1.1 Para un diseno de muestreo p(s) arbitrario, y para k, l = 1, . . . , N ,
E(Ik ) = k
V (Ik ) = k (1 k )
def
C(Ik , Il ) = kl k l = kl
Sea ns el tamano de muestra para cualquier diseno de muestreo, tenemos que este puede expresarse
P
en terminos de las indicadoras de inclusion muestral Ik como: ns = U Ik .
(a) Calcule: E(ns )

(b) Sabiendo que: !

X X X
V Ik = C(Ik , I` )
U kU `U
Complete la expresion para V (ns ), rellenando las siguientes expresiones:
X
V (ns ) = k (1 k ) +
U
!2
X
= k +
U
(... trabajo en curso)

Indice alfabetico
Wh , 156 tablas de frecuencia, 17

kl , 83 para variables cuantitativas, 19
k , 82 diagramas de punto, 19
diagramas de tallo y hojas, 20
afijacion, asignacion o distribucion de
frecuencias de variables continuas,
muestra, 161
22
distribucion optima, 166
frecuencias de variables discretas,
distribucion de Neyman, 167
21
distribucion proporcional, 168
histogramas, 22
distribuciones alternativas, 168
Tukey, 13
ajuste de tamano de muestra por no
apendices, 204
respuesta, 142
analisis exploratorio de datos, 2, 12, 13 coeficiente de variacion, 109
EDA, 13 estimado, 110
historia, 13 coeficiente de variacion estimado, 110
objetivo, 15 conglomeracion, 170
para variables cualitativas, 17 bi-etapico, 175
diagramas circulares, 18 bietapico, 189
diagramas de barras, 18 de elementos, 193
diagramas de pastel, 18 bietapido
253
varianza, 195 diagramas de tallo y hojas, 20

coeficiente de homogeneidad, 186 frecuencias de variables continuas,
estimacion de totales y medias, 177 22
muestreo por conglomerados, 174 frecuencias de variables discretas,
multi-etapico, 176 21
SIC, 185 histogramas, 22
unietapico, 179 efecto de diseno, 126
unietapico aleatorio simple, 185 efecto de diseno estimado, 126
utilidad, 172 ejercicios, 241
CV, 109 exploratorio de datos, 241, 245
encuesta, 60
datos, 4
elementos, 57
cualitativos, 7
dominios de estudio, 57
cuantitativos, 7
marco muestral, 57
definiciones, 4
error cuadratico medio, 105
tipos, 6
error estandar, 109
Deff, 126, 141
error estandar relativo, 109
deff, 126, 142
escalas, 4
distribuciones de probabilidad
de medicion, 9
relacion, 204
Estadstica
dominios de estudio, 57
definicion, 3
EDA, 13 partes o subdivisiones, 3
objetivo, 15 Estadstica aplicada, 2
para variables cualitativas, 17 introduccion, 2
diagramas circulares, 18 estadsticos descriptivos
diagramas de barras, 18 medidas de dispersion, 31
diagramas de pastel, 18 amplitud, 31
tablas de frecuencia, 17 amplitud intercuartlica, 31
para variables cuantitativas, 19 coeficiente de variacion, 33
diagramas de punto, 19 rango, 31

varianza muestral, 32 afijacion de muestra, 161

varianza poblacional, 32 distribucion optima, 166
medidas de posicion distribucion de Neyman, 167
percentiles, 28 distribucion proporcional, 168
medidas de tendencia central, 24 distribuciones alternativas, 168
media, 25, 30 asignacion de muestra, 161
mediana, 27 distribucion optima, 166
estimacion, 106 distribucion de Neyman, 167
estimador, 98 distribucion proporcional, 168
, 111 distribuciones alternativas, 168
diseno BE, 122 de que se trata, 145
diseno SI, 124 diseno aleatorio simple estratifica-
comunes, 99 do, 158
de expansion simple, 112 distribucion de muestra, 161
definicion, 99 la buena, 149
distribucion muestral, 101 numero de estratos, 151
error cuadratico medio, 105 peor de los casos, 148
esperanza, 103 STSI, 158
Horvitz-Thompson, 111 tamano relativo del estrato, 156
diseno BE, 122 utilidad y usos, 146
diseno SI, 124 expansion , 112
MSE, 105
fraccion de muestreo, 124
Narain-Horvitz-Thompson, 111
funcion diseno de muestreo, 66, 79
diseno BE, 122
definicion, 79
diseno SI, 124
funciones indicadoras, 82
notacion, 100
propiedades, 103 Horvitz-Thompson, 114
sesgo, 105
indicadoras de inclusion muestral, 82
varianza, 103
introduccion al muestreo, 42
estratificacion, 144
marco muestral, 55

definicion, 55 deff, 127, 142

errores, 56 efecto de diseno, 141
informacion adicional, 56 elementos tecnicos, 62
problemas, 56 esquema
media, 78 1 etapa, 68
interpretacion geometrica, 30 2 etapas, 75
medidas de dispersion, 31 3 etapas, 72
amplitud, 31 fraccion de muestreo, 124
amplitud intercuartlica, 31 introduccion, 42
coeficiente de variacion, 33 multi-etapico, 176
rango, 31 no respuesta, 142
varianza muestral, 32 objetivo, 43, 44
varianza poblacional, 32 por conglomerados, 174
medidas de posicion principio de expansion, 112
percentiles, 28 probabilstico, 64
medidas de tendencia central, 24 SIC, 185
media, 25 STSI, 158
interpretacion geometrica, 30 unietapico, 179
mediana, 27 unietapico aleatorio simple, 185
MSE, 105 muestreo probabilstico, 64
muestreo condiciones, 65
aleatorio simple elementos, 65
estratificado, 158 ventajas, 73
bi-etapico, 175
niveles de escala de medicion, 9
bietapico, 189
de elementos, 193 parametro, 99
bietapido definicion, 99
varianza, 195 media poblacional, 100
coeficiente de homogeneidad, 186 total poblacional, 99
Deff, 127, 141 percentiles, 28

poblacion, 43, 77 utilizando el coeficiente de varia-

marco muestral, 55 cion, 135
tamano de, 77 tamano relativo del estrato, 156
probabilidades de inclusion, 82 total, 78
conjunta, 83
variable de estudio, 77
de primer orden, 82
variables, 4
de segundo orden, 83
varianzas hipoteticas, 206
proporcion, 78
R
smbolos para graficos, 205
sesiones practicas, 213
smbolos para graficos en R, 205

Sen-Yates-Grundy, 118
sesgo, 105
tamano de muestra, 130

ajuste por no respuesta, 142
casos extremos, Deming, 131
casos extremos, Kish, 131
el tamano de la poblacion, 139
para estratos, 161
distribucion optima, 166
distribucion de Neyman, 167
distribucion proporcional, 168
distribuciones alternativas, 168
para una media asumiendo norma-
lidad y SI, 133
para una proporcion bajo SI sin asu-
mir normalidad, 139

2014 04 03 NotasEAI

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

2014 04 03 NotasEAI

Caricato da

Copyright:

Formati disponibili

Estadstica Aplicada I

Emilio Lopez Escobar

I Informacion sobre el curso II

II Estadstica Aplicada y Analisis Exploratorio de datos 1

1. Introduccion a la Estadstica Aplicada 2

1.1.2. Partes o subdivisiones . . . . . . . . . . . . . . . . . . . 3

2. Analisis Exploratorio de Datos 12

Departamento de Estadstica iii

2.5.4. Diagramas de Estrella . . . . . . . . . . . . . . . . . . . 36

III Introduccion al Muestreo 41

3. El objetivo del muestreo y el marco muestral 42

4. Muestreo probabilstico y extraccion de la muestra 64

4.2.2. Ventaja de las muestras probabilsticas sobre las no pro-

5. Estimacion a partir de muestras probabilsticas 76

6. Estimadores y sus propiedades estadsticas basicas 98

7. Que tamano de muestra utilizar? 129

7.3. Tamano de muestra para una proporcion bajo muestreo SI asu-

8.7.4. Distribucion proporcional . . . . . . . . . . . . . . . . . 168

Departamento de Estadstica vii

V Sesiones practicas en R 212

Informacion sobre el curso

Contenido general del curso

Bloque de Contenidos I. Estadstica Aplicada, Analisis Exploratorio de

Introduccion a la Estadstica Aplicada.

Motivacion al curso. Importancia del los conceptos del curso.

Analisis Exploratorio de datos y Estadstica Descriptiva.

Distribuciones de frecuencia. Descripcion de poblaciones.

Manipulacion y tipos de datos con R. Importacion de datos con R.

Bloque de Contenidos II. Muestreo.

El enfoque particularizado vs. generalizado en el muestreo.

Departamento de Estadstica iii

Teora de muestreo bajo el enfoque generalizado de los estimadores

Distribucion muestral de un estimador.

Propiedades de los estimadores. La varianza del estimador, errores

Calculo de tamano de muestra. Estimacion en dominios o subpoblaciones.

Estratificacion. Metodos de asignacion (afijacion) de muestra.

Conglomeracion. Muestreo en dos etapas. Introduccion al muestreo en mas

Introduccion al muestreo con probabilidades proporcionales al tamano.

Sobre disenos de muestreo autoponderados, post-estratificacion y conse-

Introduccion al muestreo complejo con paquetes estadsticos (SPSS o de

Planteamiento de problemas practicos y comunes de muestreo complejo.

Objetivo del curso

Conocer los principales conceptos de la estadstica aplicada, los metodos del

Conocimientos previos que son necesarios

Algebra (conjuntos, doble sumas, conocimientos de conteo),

Calculo de probabilidades (distribuciones de probabilidad basicas, calculo

Inferencia estadstica (deseable - estimacion puntual, intervalos de con-

Nociones de uso y/o programacion en R (deseable).

Referencias bibliograficas del curso

Las referencias del curso para la parte I es:

Crawley, M. J. (2012). The R Book. 2nd ed. Wiley.

Departamento de Estadstica ITAM. (2006). Fundamentos de probabilidad

Rice, J. A. (2006). Mathematical Statistics and Data Analysis. 3rd. Edition.

Venables, W. N. & Ripley, B. D. (2002). Modern Applied Statistics with

Verzani, J. (2005). Using R for Introductory Statistics. Chapman & Hall.

Y la referencia base del curso para la parte II, de muestreo:

Sarndal, C.-E., Swensson, B. & Wretman, J. (2003). Model Assisted Survey

Referencias adicionales de muestreo. (Tradicionales, enfoque particularizado):

Kish(1965) (Un clasico - Muy bueno en lo que atane a consejos y resolu-

Kish(1972) (Traduccion al Espanol difcil de encontrar a la venta).

Cochran(1977) (Un clasico - Anticipa varios problemas teoricos serios a

Kish(1987) (Varios detalles importantes para investigacion).

Mendez, Eslava & Romero(2004)(Ayuda mucho a tener una vision rapida