Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ii
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica iv
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica v
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
8. Estratificacion 144
8.1. Introduccion a la estratificacion . . . . . . . . . . . . . . . . . . 145
8.1.1. Como se ve la estratificacion en otros textos y como la
trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 145
8.1.2. De que se trata la estratificacion? . . . . . . . . . . . . 145
8.1.3. Utilidad y usos de la estratificacion . . . . . . . . . . . . 146
8.1.4. Estratificar o no estratificar? . . . . . . . . . . . . . . . 147
8.1.5. La peor de las situaciones . . . . . . . . . . . . . . . . . 148
8.1.6. Concepcion equivocada y muy usada al estratificar . . . . 148
8.2. Hay una buena estratificacion? . . . . . . . . . . . . . . . . . . 149
8.3. El numero de estratos . . . . . . . . . . . . . . . . . . . . . . . 151
8.4. El tamano de muestra asociado a la poblacion a partir del tamano
de muestra asociado a los dominios de estimacion . . . . . . . . 152
8.5. Muestreo PPT o mejor estratificar? . . . . . . . . . . . . . . . 154
8.6. Notacion y uso de la estratificacion . . . . . . . . . . . . . . . . 155
8.6.1. El diseno de muestreo aleatorio simple estratificado, STSI 158
8.6.2. Sobre la estimacion de un total y una media con estrati-
ficacion: un error comun . . . . . . . . . . . . . . . . . . 160
8.7. Afijacion, asignacion o distribucion de muestra en estratos . . . . 161
8.7.1. Una funcion de costos . . . . . . . . . . . . . . . . . . . 165
8.7.2. Distribucion Optima . . . . . . . . . . . . . . . . . . . . 166
8.7.3. Distribucion de Neyman . . . . . . . . . . . . . . . . . . 167
Departamento de Estadstica vi
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
9. Conglomeracion 170
9.1. Introduccion a la conglomeracion . . . . . . . . . . . . . . . . . 171
9.1.1. Como se ve la conglomeracion en otros textos y como la
trataremos? . . . . . . . . . . . . . . . . . . . . . . . . 171
9.1.2. Que problemas soluciona o que facilita la conglomera-
cion? Su utilidad... . . . . . . . . . . . . . . . . . . . . . 172
9.1.3. En que consiste el muestreo por conglomerados? . . . . 174
9.1.4. En que consiste el muestreo en dos etapas? . . . . . . . 175
9.1.5. En que consiste el muestreo multi-etapico? . . . . . . . 176
9.2. Estimacion de totales y medias con conglomeracion . . . . . . . 177
9.3. Muestreo de conglomerados unietapico . . . . . . . . . . . . . . 179
9.4. Muestreo de conglomerados unietapico aleatorio simple (SIC) . . 185
9.4.1. El coeficiente de homogeneidad . . . . . . . . . . . . . . 186
9.5. Muestreo bietapico . . . . . . . . . . . . . . . . . . . . . . . . . 189
9.5.1. Muestreo bietapico de elementos . . . . . . . . . . . . . 193
9.5.2. Muestreo bietapico de elementos: diseno auto-ponderado . 198
9.6. Post-Estratificacion, ajuste o calibracion de factores de expansion 201
IV Apendices 203
Relacion entre distribuciones de probabilidad . . . . . . . . . . . . . . 204
Smbolos pch para graficos en R . . . . . . . . . . . . . . . . . . . . . 205
Varianzas hipoteticas de algunas distribuciones (Kish, 1965) . . . . . . 206
Teorema Central del Lmite, Velocidad de convergencia a una Normal,
Aproximaciones a la varianza de una variable, Desigualdad de
Tchebychev (Mendez, Eslava & Romero, 2004) . . . . . . . . . . 207
VI Ejercicios 240
Ejercicios de Analisis Exploratorio de Datos . . . . . . . . . . . . . . . 241
Ejercicios de Muestreo . . . . . . . . . . . . . . . . . . . . . . . . . . 245
Departamento de Estadstica i
Parte I
ii
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Introduccion a R.
Introduccion al muestreo.
Departamento de Estadstica iv
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Es deseable que los alumnos cuenten con los siguientes conocimientos previos
mnimos:
Departamento de Estadstica v
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica vi
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Raj(1968).
Sukhatme(1984).
Software estadstico
Utilizaremos primordialmente R.
http://www.r-project.org/
Por que R? Por que es el mejor. Para acabar pronto... terminaran utilizando R
en algun momento. Empiecen desde ahora. Vamos de la mano.
Dado el contenido general del curso (en la pagina iii), sera practicamente
imposible repasar o regresar a lo visto en la clase anterior.
Departamento de Estadstica ix
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica x
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Asistencia Individual 5%
Ex. Parcial 1() Individual Febrero 13 15 %
()
Ex. Parcial 2 Individual Marzo 20 20 %
Ex. Parcial 3() Individual Abril 29 25 %
()
Ex. final Individual Mayo 35 %
Notas:
()
Los examenes son estrictamente individuales, el examen
final es acumulativo y debe tener calificacion aprobatoria.
Adicionalmente, habran tareas opciones que valdran (en total) 3 a 5 %,
mas dependiendo de cuantas son. Traten de hacerlas para ayudarse.
No sera suficiente que solo vengan a ver la clase. Se trata de que se involucren
en el tema y maduren conceptos.
Departamento de Estadstica xi
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Recuerden...
1
CAPITULO 1
2
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
1.1. Estadstica
1.1.1. Definicion
- Estadstica descriptiva.
- Analisis exploratorio de datos.
- Estadstica no parametrica.
- Inferencia estadstica y estadstica parametrica.
- Estadstica multivariada (componentes principales, escalamiento mul-
tidimensional).
- Analisis multivariado de datos (componentes principales, analisis de
factores, analisis discriminante, arboles de regresion).
- Analisis multivariado de datos categoricos (arboles de decision, anali-
sis de correspondencia, analisis de correspondencias multiples).
Departamento de Estadstica 3
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
1.2.1. Definiciones
La materia prima con la que estaremos trabajando son los datos y sus
terminos relacionados.
Departamento de Estadstica 4
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Es decir, los datos son las diferentes mediciones que obtenemos al observar
cierta caracterstica en cada una de las unidades experimentales.
A veces las variables son tan complejas que resulta difcil su definicion,
que tiene que ser inequvoca.
Departamento de Estadstica 5
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
1. Datos cualitativos.
2. Datos cuantitativos.
Departamento de Estadstica 6
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Ejemplos?
Departamento de Estadstica 7
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Ejemplos?
Ejemplos?
Departamento de Estadstica 8
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 9
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Los valores no solo se clasifican sobre la base del grado de posesion del
atributo sino que ademas es posible medir exactamente la intensidad
con la que se posee esa caracterstica.
Se requiere de una unidad de medida aceptada.
El origen o cero se establece sobre la base de conveniencias practicas.
No necesariamente implica ausencia de atributo.
Es posible hacer operaciones de suma o resta.
Ejemplos?
Notar que las escalas son acumulativas, es decir, una escala ordinal posee
todas las propiedades de una escala nominal. Y as sucesivamente...
Una escala de razon es mas fuerte que una escala nominal porque posee
mas informacion.
Departamento de Estadstica 10
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 11
CAPITULO 2
12
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 13
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 14
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Puede echar abajo cualquier otra teora aunque sea muy sofisticada
(supuestos, graficos de residuales, supuestos de Normalidad, etc).
Departamento de Estadstica 15
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 16
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
1. Todos los posibles valores que puede tomar una variable categorica.
2. La frecuencia.
Departamento de Estadstica 17
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Compara las partes que componen una entidad con la entidad completa.
Departamento de Estadstica 18
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Se hacen evidentes:
Departamento de Estadstica 19
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 20
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
En este caso, las categoras son los valores discretos que toma la variable.
Departamento de Estadstica 21
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Simetra
Sesgo
Bimodalidad
Observaciones atpicas
Departamento de Estadstica 22
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Huecos
Etc...
Departamento de Estadstica 23
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Nos hemos dado una idea de la distribucion de los datos para algunas
variables utilizando frecuencias, histogramas, barras, pasteles, puntos, etc.
Por ejemplo, hemos visto en algunos ejercicios practicos como los datos se
amontonan o se aglomeran alrededor de cierto valor.
Nos interesa ese valor, esa tendencia central y tambien nos interesan
medidas de variabilidad con respecto a ese valor.
Departamento de Estadstica 24
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
2.4.1. La media
Departamento de Estadstica 25
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Alguna alternativa?
Departamento de Estadstica 26
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
2.4.2. La mediana
Es el percentil del 50 % (veremos percentiles mas adelante).
Es el valor que, una vez ordenados los datos, los divide en 2 partes con
mismo numero de observaciones.
Ejemplo:
Departamento de Estadstica 27
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Para entender los percentiles, la forma mas facil es explicar los percentiles
mas utilizados... Veamos primero estos y luego regresamos a los percentiles.
Departamento de Estadstica 28
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Cual es la mediana?
Y el segundo cuartil?
Y el primer decil?
Departamento de Estadstica 29
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 30
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
AI = q3 - q1
Departamento de Estadstica 31
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
N
2 1 X
= (Xk )2
N k=1
Departamento de Estadstica 32
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
y
s = s2
CV =
Entonces por eso resulta muy util para hacer comparaciones de variabilidad
en diversos datos.
Departamento de Estadstica 33
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 34
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Importante saber los nombres y como se construye cada elemento del grafi-
co.
Importante saber los nombres y como se construye cada elemento del grafi-
co.
Importante saber los nombres y como se construye cada elemento del grafi-
co.
Departamento de Estadstica 35
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Importante saber los nombres y como se construye cada elemento del grafi-
co.
Departamento de Estadstica 36
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 37
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
|r| 1
De modo que si hay algun otro tipo de asociacion entre las variables en
cuestion, esta pasara inadvertida por r.
Por ello, como vimos en la clase practica pasada, hay que acompanar de
graficos nuestras conclusiones.
Departamento de Estadstica 38
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Resumiendo:
Departamento de Estadstica 39
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 40
Parte III
Introduccion al Muestreo
41
CAPITULO 3
42
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 43
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 44
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 45
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 46
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
En el libro: Mujeres y amor: Una revolucion cultural en progreso por Shere Hite
(1987) se encuentran los siguientes resultados:
Departamento de Estadstica 47
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 48
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
La respuesta es: s son validos. Lo que puede no ser valido son las genera-
lizaciones que se hagan.
Departamento de Estadstica 49
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Cual es mejor?
Departamento de Estadstica 50
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 51
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
El muestrista puede elegir como, lo crucial sera que considere este como a
la hora de estimar.
Fortalezas:
Debilidades:
Departamento de Estadstica 52
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Lo importante: el modelo?
Fortalezas:
Debilidades:
Ojo, no estoy diciendo que este enfoque sea equivocado. Claramente tiene
sus ventajas (principalmente economicas y muy fuertes). El problema es
la subjetividad que puede echar abajo todo. Como siempre que se utilizan
modelos, no hay forma alguna de saber si son ciertos. Aguas!
Departamento de Estadstica 53
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Fortalezas:
Debilidades:
Departamento de Estadstica 54
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
En el peor de los casos si no existe una lista, un marco muestral puede ser:
un mapa geografico,
el directorio de un CD,
el directorio telefonico,
Departamento de Estadstica 55
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Desactualizado.
La bibliografa base del curso, Sarndal et al.(1992), habla mas sobre marcos
muestrales y tambien aquella bibliografa clasica como el Kish (1965) que toca
el tema de manera muy completa y hasta con sugerencias ante complicaciones.
Departamento de Estadstica 56
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 57
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 58
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
10. Los valores registrados de las variables son utilizados para el calculo de es-
timaciones (puntuales) de los parametros poblacionales de interes (to-
tales, medias, medianas, razones, coeficientes de regresion, etc.). Luego se
realizan estimaciones de la precision de las estimaciones (los errores). Por
ultimo, se publican los resultados.
Que se suele hacer con los censos en lo que toca al gran numero de
variables de estudio?
Cual es la tendencia cada vez mas creciente en primer mundo con respecto
a los censos?
Departamento de Estadstica 59
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 60
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 61
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 62
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 63
CAPITULO 4
64
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 65
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
S = {s1 , s2 , . . . , sM } ,
Departamento de Estadstica 66
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 67
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 68
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 69
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Esto es, tengo un marco muestral a partir de donde voy a extraer una
muestra que esta organizado en forma desagregada por niveles.
Departamento de Estadstica 70
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 71
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 72
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 73
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 74
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 75
CAPITULO 5
76
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
def
U = {1, . . . , k, . . . , N } (5.2)
def
X X
t= yk = yk (5.3)
kU U
Departamento de Estadstica 77
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Esto, de nuevo es otra generalizacion del libro base del curso que antes no
se efectuaba en libros tradicionales.
Departamento de Estadstica 78
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Asumimos que existe la funcion p() tal que p(s) indica la probabilidad de
seleccionar s bajo el esquema utilizado.
Departamento de Estadstica 79
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
P r {S = s} = p(s) (5.5)
i. p(s) 0, s S (5.6)
P
ii. sS p(s) = 1 (5.7)
Departamento de Estadstica 80
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
muestras verdaderamente posibles. Ellas seran las unicas que podran ser
extradas segun el diseno especificado.
Departamento de Estadstica 81
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
X
k = P r {k S} = P r {Ik = 1} = p(s) (5.9)
s3k
Departamento de Estadstica 82
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
X
kl = lk = P r {k&l S} = P r {Ik Il = 1} = p(s) (5.10)
s3k&l
kk = P r Ik2 = 1 = P r {Ik = 1} = k , k = 1, . . . , N
(5.11)
1 , . . . , k , . . . , N (5.12)
12 , 13 , . . . , kl , . . . , N 1,N (5.13)
Departamento de Estadstica 83
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Por otro lado, p() pueda llegar a ser complicada pero eso no afecta tanto
mientras podamos obtener las k y las kl .
Departamento de Estadstica 84
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 85
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 86
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Si Q(S) es una funcion real del conjunto aleatorio S, esta funcion to-
mara valores una vez que se tenga la realizacion s de S y se tengan reco-
lectados los datos de los elementos que componen a s.
Una vez que s se realizo, asumimos que es posible medir la o las variables
de interes, e.g. y y z, para cada elemento k s.
P P
Por ejemplo para el estadstico Q(S) = S yk / S zk , despues de la medi-
P P
cion, podemos calcular (la realizacion del estadstico) Q(s) = s yk / s zk .
Departamento de Estadstica 87
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 88
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Consideraremos que los valores de las variables de interes son dados (fijos)
en los elementos, no son aleatorios pero s son desconocidos.
Como el estadstico Q(S) es una variable aleatoria, esta tiene varias pro-
piedades estadsticas.
Departamento de Estadstica 89
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Para hacer enfasis, algunos textos de muestreo utilizan los terminos espe-
ranza diseno, varianza diseno y covarianza diseno. Aqu no utilizaremos la
palabra diseno (como apellido) en estos estadsticos.
Departamento de Estadstica 90
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Los estimadores que nos interesan son los que pueden expresarse como
funciones de las indicadores de inclusion muestral definidas en la ecuacion
(5.8).
E(Ik ) = k (5.19)
V (Ik ) = k (1 k ) (5.20)
def
C(Ik , Il ) = kl k l = kl (5.21)
Demostracion.
Tarea opcional 1 para la proxima clase, antes de su comienzo (cla-
se despues del examen). Se entrega por e-mail -LaTeX o algo legible
escaneado-, les tengo que confirmar recepcion, revisare mi correo antes
de comenzar la clase.
Dependiendo del diseno, C(Ik , Il ) puede ser positiva, negativa o cero. Notese
que si k = l,
V (Ik ) = kk (5.22)
Departamento de Estadstica 91
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
P r{k < } = , k U.
Departamento de Estadstica 92
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
De modo que:
p(s) = ns (1 )N ns
Departamento de Estadstica 93
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 94
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Departamento de Estadstica 95
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
n nk
k <
N k+1
Otro? S, uno muy facil que yo llamo con hojita de Excel. Pizarron.
Departamento de Estadstica 96
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
y
N 2 N n(n 1)
k` = / = , k 6= ` = 1, . . . , N
n2 n N (N 1)
Departamento de Estadstica 97
CAPITULO 6
98
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Si, por ejemplo, solo hay una variable de estudio y, se puede pensar a
como una funcion de y1 , . . . , yN , los N valores de y en la poblacion.
= (y1 , . . . , yN )
= t
X
= yk
kU
def
X
= yk
U
Departamento de Estadstica 99
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
= yU
t
=
N
P
U yk
=
N
b = b (S)
Un estimador que vare poco alrededor del valor desconocido del parametro es
intuitivamente mejor que otro que vare mucho.
En ella se describen todos los valores posibles del estimador junto con la proba-
bilidad correspondiente para cada uno de esos valores, todo esto bajo el diseno
de muestreo p(s) en uso.
uk
yk
#(S)
si
(s
b i)
Frecuencias relativas
Distribucion muestral de b
B() b
b = E() (6.1)
b = 0, y = (y , . . . , y )0 RN
B() (6.2)
1 N
h i2
b = E b
M SE() (6.3)
X h i2
= p(s) (s)
b (6.4)
sS
h i2
= V () + B()
b b (6.5)
(Es muy importante que esto quede claro, es un error muy comun.) Notese la
diferencia entre una estimacion y un estimador. Una estimacion (s)
b es un
(s)
b es un numero que puede ser calculado una vez que hay una realizacion s
del conjunto aleatorio S y ha sido observado y la(s) variable(s) de estudio ha(n)
sido medida(s) para los elementos k s.
Los estimadores que son de mayor interes al muestreo son aquellos que
son insesgados o aproximadamente insesgados.
Estos ultimos son aquellos en donde el sesgo es muy pequeno. Que tan pe-
queno? Se puede relativizar tal sesgo con lo que se esta midiendo (coeficiente
de variacion). Tambien, es posible calcular tal sesgo. El muestrista decidira si lo
considera grande o pequeno.
h i1/2
A la raz cuadrada de la varianza del estimador V ()b se le denomina el
error estandar del estimador .
b Al cociente del error estandar del estimador y
h i1/2
la esperanza del estimador, CV ()
b = V ()b /E()
b se le denomina el error
estandar relativo o el coeficiente de variacion del estimador.
Por lo tanto, tal varianza se estima a partir de los datos disponibles de la muestra
mediante el estimador Vb ().
b
P
por lo tanto t es insesgado para t = U yk .
yk
yk =
k
Algo similar haba sido utilizado por Hansen & Hurwitz (1943), pero para
muestreo probabilstico con reemplazo (y probabilidades desiguales).
= /
kl kl kl
= 1 ( / ) para k 6= l ;
=1
kl k l kl kk k
X
t = yk (6.12)
s
P
es insesgado para t = U yk , y tiene la varianza,
XX
V t = kl yk yl (6.13)
U
donde kl se define por (5.21) dentro del Resultado 5.3.1.1. Luego, dado que
kl > 0, k 6= l U , un estimador insesgado de V t esta dado por,
XX
y y
Vb t = kl k l
(6.14)
s
= / .
donde kl kl kl
Demostracion.
De (6.9), tenemos demostrado el insesgamiento. Respecto a la varianza, par-
P
tiendo de (6.10) tenemos que t = U Ik yk , entonces por la sabida formula de
varianza de combinacion lineal de variables aleatorias (en este caso las Ik )
X X X{k6=l}
V t = V (Ik )yk2 + C(Ik , Il )yk yl (6.15)
U U
X X X{k6=l}
kk yk2 +
V t = kl yk yl (6.16)
XUX U
= kl yk yl (6.17)
U
Para la demostracion del insesgamiento de Vb t , primero expresemos (6.14)
utilizando las indicadoras Ik ,
XX
Vb t = y y
Ik Il (6.18)
kl k l
U
h i hX X i XX
E Vb t = E y y =
Ik Il y y(6.19)
E [Ik Il ]
kl k l kl k l
U U
XX XX
y y =
= kl kl k l
kl yk yl = V t (6.20)
U U
PP
La varianza V t = U kl yk yl puede alternativamente ser expre-
sada de las siguientes formas en terminos de valores originales (es decir,
no expandidos) de yk como
XX
kl
V t = 1 yk yl (6.21)
U k l
XX X 2
kl
= yk yl y (6.22)
U U k
k l
PP
Y por su parte, el estimador de varianza Vb t = s kl yk yl como
XX 1
kl
Vb t = 1 yk yl (6.23)
s k l
kl
1X X
(yk yl )2
V t = (6.24)
2 U kl
Dado que kl > 0, k 6= l U , un estimador insesgado de V t esta dado por
1X X
kl (yk yl )2
Vb t = (6.25)
2 s
Demostracion.
Tarea opcional 2 para la proxima clase, antes de su comienzo. Se entrega
por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase. Pista: Desarrollar
el termino al cuadrado, sumar y utilizar los resultados siguientes para disenos de
tamano de muestra fijo:
X
k = n (6.26)
U
X X{k6=l}
kl = n(n 1) (6.27)
U
X{k6=l}
kl = (n 1)k (6.28)
U
No obstante, aun con diseno con tamano de muestra fijo, las dos varianzas
(6.14) y (6.25), no son necesariamente identicas, pero ambas son
insesgadas.
kl > 0, k 6= l U (6.29)
Ojo: Las varianzas (6.14) y (6.25) pueden ser calculadas para cualquier s.
No obstante, si no se cumple (6.29), estas estimaciones de varianza
no deben utilizarse, pueden estar totalmente equivocadas
Comentarios en clase
k = , k U,
y tambien que:
k` = 2 , (k 6= `) U
1 X
t = y . (6.30)
s k
X
1
y2.
VBE t = 1 (6.31)
U k
X
1 1
yk2 .
VbBE t = 1 (6.32)
U
n
k = f = , k U,
N
n(n 1)
k` = , (k 6= `) U
N (N 1)
1 X
t = N ys = y . (6.33)
f s k
2 1 1 2 2 1f 2
VSI t = N SyU = N SyU , (6.34)
n N n
2 1
yU )2 . Un estimador insesgado de tal varianza es,
P
donde SyU = N 1 U (yk
2 1 1 2 2 1f 2
VbSI t = N Sys = N Sys , (6.35)
n N n
2 1
ys )2 .
P
con Sys = n1 s (yk
t X
y U = = y /N = y s (6.36)
N s k
1f 2
VSI y s = SU (6.37)
n y
1
donde S 2U = y U )2 . Y un estimador insesgado de tal varianza es,
P
y N 1 U (yk
1f 2
VbSI y s = Sy s (6.38)
n
1
donde Sy2s = y s )2 .
P
n1 s (yk
Como puedo comparar dos disenos dado el uso del mismo estimador?
Por ejemplo, de los resultados anteriores Como puedo saber bajo cual
diseno, BE o SI, el estimador es mejor?...
O dicho de otra forma mas formal... Que diseno es mejor cuando utilizo
el estimador ?
(b) Teorico.
(c) Ideal.
Vp ()
b
Def f (p, )
b = . (6.39)
VSI ()
b
b = Vp () .
b b
def f (p, ) (6.40)
VbSI ()
b
Con el paso del tiempo o en el repetido ejercicio dela misma encuesta, uno
puede mejorar anadiendo experiencia previa.
129
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Como se menciona en Mendez et al. (2004), de manera laxa dice que los prome-
dios de muchas muestras probabilsticas de una poblacion tienden, al aumentar
el tamano de muestra, a tener una distribucion normal, a pesar de que la variable
que se mide no tenga distribucion normal en la poblacion.
Para alcanzar una distribucion muestral parecida a una Normal, se requiere que
el tamano de muestra sea grande.
La rapidez con la que se alcanza tal Normalidad depende del tipo y de como es la
variable en la poblacion. Con estudios empricos de simulacion estocastica, se han
determinado algunos tamanos de muestra mnimos: 1, 5, 20, 30, etc. Observar
las Figuras 1.6 y 1.7 del Mendez et al. (2004)[pp. 12-13].
Una vez que se considera un tamano de muestra mnimo, entonces puedo decir:
b N [, V ()],
b (7.1)
P [ b + ] = 1 , (7.2)
P [b b + ] = 1 , (7.3)
Esta ultima expresion me determinara como tendria que ser (que tamano de
muestra utilizar en) ,
b para que discrepe a lo mas (la precision o error
absoluto o margen de error) del verdadero valor , y para que esto suceda
con un nivel de confianza del (1 ) 100 %.
Entonces, sea n el tamano de muestra llegamos a que, para una media, bajo
un diseno SI y asumiendo normalidad en la distribucion muestral de : b
1
n = 2 1
(7.5)
2
z/2 Sy2 U
+ N
donde,
1 X
Sy2U = (yk yU )2 . (7.6)
N 1 U
Notar que Sy2U se desconoce, pero podra ser sustituido por algun valor aproxi-
mado de mediciones anteriores de lo mismo o mediante una prueba piloto.
(1.96)2 Sy2U
n l (7.7)
2
S 2U
y
n = S2
, (7.10)
yU
(CV0 )2 (yU )2 + N
1
n = 2 1
. (7.11)
(4.4)2 Sy2 U
+ N
(4.4)2 Sy2U
n l . (7.12)
2
1
n = 2 1
(7.13)
2
z/2 N
P (1P )
+ N
N 1
(1.96)2 P (1 P )
n l , (7.14)
2
expresion que puede todavia simplificarse mas si se considera que P (1P ) toma
su valor maximo cuando P = 0.50 y que reflejara absoluta ignorancia sobre cual
sera el valor del parametro P que queremos estimar.
(2)2 (0.25) 1
n l 2
= 2. (7.15)
nP > 5 (7.16)
y simultaneamente de que
Hay que recordar de que este resultado viene de lo ya visto sobre el Teorema
Central del Lmite, vease Mendez et al. (2004, p. 13).
(4.4)2 (0.25) 5
n l 2
l 2. (7.18)
Para contestar a esta pregunta observemos las siguientes tablas que nos daran
una idea del comportamiento de las expresiones hasta ahora vistas
Para ello basta con multiplicar el tamano de muestra obtenido originalmente por
el Deff (design effect).
Por ejemplo, tratandose de dos Def f s del mismo diseno pero para diferentes
variables o estimadores, este me indicara de entre esos dos para cual variable o
estimador es mas adecuado el diseno de muestreo que estamos utilizando.
Esto es, no hay disenos de muestreo malos, lo que hay son disenos
mas adecuados que otros para lo que se esta midiendo y el como se
esta midiendo.
Estratificacion
144
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Esta es una propiedad muy interesante, noble y util pues te permite experi-
mentar e intentar mejorar tu diseno de muestreo sin grandes consecuencias.
Esta es una idea erronea de la gente que cree tener mucho contacto con la
materia de muestreo y piensa a la estratificacion como cortes geograficos
unicamente.
Alguien sabe?
La respuesta tiene que ver con cuanta muestra tenemos disponible para ser
distribuda en nuestros estratos y tambien cuestiones ejecutivas, es decir,
si la estratificacion es vendible al jefe o cliente no experto en muestreo.
Hay que resaltar el punto que se menciona en la bibliografa base del curso,
Sarndal et al. (1992, p. 100).
A estas alturas del curso ya hemos platicado un poco del muestreo con pro-
babilidades proporcionales al tamano (PPS, o PPT en Espanol), entonces
ya tiene sentido este comentario.
U = {1, . . . , k, . . . , N }.
U1 , . . . , Uh , . . . , UH
donde,
Uh = {k : k Uh }.
s = s1 s2 . . . sH
H
X
N = Nh .
h=1
P
donde th = Uh yk es el total de la variable y en el estrato h, y yUh es la
correspondiente media de y en el estrato h.
Nh
Wh = , (8.4)
N
H
X
t = th (8.5)
h=1
P
donde th es el estimador de th = Uh yk . La varianza de t puede escribirse
como,
H
X
VST t = Vh th (8.6)
h=1
donde Vh th es la varianza de th . Un estimador insesgado de la varianza
VST t esta dado por,
H
X
VbST t = Vbh th (8.7)
h=1
suponiendo que existe un estimador insesgado Vbh th para cada h.
Demostracion.
Tarea opcional 6 para la proxima clase, antes de su comienzo. Se entrega
por e-mail -LaTeX o algo legible escaneado-, les tengo que confirmar
recepcion, revisare mi correo antes de comenzar la clase.
H
X
t = Nh ysh (8.8)
h=1
P
donde ysh = sh yk /nh es la media muestral del estrato h. La varianza de t es,
H
X
VST SI t = Vh th (8.9)
h=1
H
X 1 fh 2
= Nh2 Sy Uh (8.10)
h=1
nh
1 X
Sy2Uh = (yk yUh )2 . (8.11)
Nh 1 U
h
Un estimador insesgado de la varianza VST SI t esta dado por,
H
X 1 fh 2
Nh2
VbST SI t = Sy sh (8.12)
h=1
nh
donde
1 X
Sy2sh = (yk ysh )2 . (8.13)
nh 1 s
h
Demostracion.
Tarea opcional 7 para la siguiente clase, se entrega electronicamente
como le hemos venido haciendo.
En este caso, para la varianza, basta con sumar las varianzas por estrato,
esto por la independencia entre estratos.
La varianza, entonces, sera la suma de las varianzas por estrato (para una
media) ponderando por el cuadrado de los tamanos relativos del estrato
Un error muy comun es, para el caso de la media, querer combinar las
estimaciones (y sus correspondientes estimaciones de varianza) por estrato
de la misma manera que para un total.
Nos ayuda con (no nos quita) problemas de marco, administracion, disper-
sion, precision y lo mejor de todo es que es barata o facil.
El metodo de Neyman, caso particular del optimo cuando los costos son
fijos.
Esta informacion tiene que ver con la variabilidad de lo que queremos medir
de estudios pasados o de variables muy asociadas a lo que queremos medir.
H
X
C = c0 + n h ch
h=1
donde:
Recuerden... todo lo que tiene que ver con tamanos de muestra se hace
bajo el diseno SI y posteriormente se hacen los ajustes con los def f y las
tasas de respuesta, para tener el tamano de correspondiente a un diseno
cualquiera que utilicemos.
Nh SyU h / ch
nh = (C c0 ) PH (8.14)
h=1 Nh SyU h ch
Nh SyU h
nh = n PH
h=1 Nh SyU h
Nh SxU h
n h = n PH
h=1 Nh SxU h
Nh Nh
n h = n PH = n
h=1 Nh N
Desde luego, las expresiones anteriores pueden ser modificadas segun lo requiere
el estudio en cuestion.
p
Por ejemplo, a veces se utiliza SyU h . Esto ayuda a suavizar el efecto de la
distribucion de Neyman. Asi, se enva mas muestra donde hay mas variabilidad
pero de manera menos pronunciada a si se utiliza la expresion original de Neyman.
Otra modificacion comun, como ya se vio, es hacer uso de SxU h en lugar de SyU h .
O tambien, a veces se hacen asignaciones ad hoc.
Conglomeracion
170
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Hasta ahora los disenos que hemos utilizado o comentado son los disenos
en 1 etapa.
Que nos limita para cierta conglomeracion aparte de los recursos economi-
cos?
Esto es:
U = {1, . . . , k, . . . , N } (9.1)
U1 , . . . , Ui , . . . , UNI (9.2)
UI = {1, . . . , i, . . . , NI } (9.3)
y entonces,
X
N = Ni (9.5)
iUI
Entonces
Como sera s?
Como sera ns ?
[
s = Ui (9.6)
isI
y su tamano
X
ns = Ni (9.7)
isI
Como seran?...
para el total del conglomerado i-esimo. Entonces, el total a ser estimado puede
re-expresarse como
X X
t = yk = ti . (9.14)
U UI
ti = ti /Ii . (9.15)
X X
t = ti = ti /Ii (9.16)
sI sI
XX
V t = Iij ti tj (9.17)
UI
Un estimador insesgado de V t esta dado por,
XX
Vb t = t t
(9.18)
Iij i j
sI
1X X 2
V t = Iij ti tj , (9.19)
2 UI
1X X 2
Vb t = Iij ti tj . (9.20)
2 sI
Si todos los ti = ti /Ii son iguales, entonces Vb t = 0.
Para que tal diseno sea eficiente necesitaramos que yUi fueran mas o menos
proporcionales a Ni1 . Esto es raro en la practica.
1 fI 2
VSIC (t ) = NI2 S t UI
nI
1 X
St2UI = (ti tUI )2 ,
NI 1 U
I
P
con tUI = UI ti /NI . El estimador insesgado de la varianza es
1 fI 2
VbSIC (t ) = NI2 St sI
nI
donde
1 X
St2sI = (ti tsI )2 .
nI 1 s
I
Sy2 W
= 1 ,
Sy2 U
donde
1 XX
Sy2 W = (yk yUi )2 ,
N NI U U
I i
NI 1
1
N NI
... que los elementos en el mismo conglomerado son disimilares con respecto
a la variable de estudio, esto es, tienen un bajo nivel de homogeneidad.
Por otro lado, si = 1 tenemos el caso de que hay variacion cero dentro
de cada conglomerado, i.e. total homogeneidad.
Una vez definido , vamos a obtener el efecto de diseno del diseno SIC.
1 X
Cov = (Ni N )Ni yU2 i
NI 1 U
I
VSIC (t ) N NI Cov
Def f (SIC, t ) = = 1 + +
VSI (t ) NI 1 N Sy2 U
U1 , . . . , UNI .
y su tamano
X
ns = ni
isI
Sea,
Iij = Iij Ii Ij
con
Iii = Ii (1 Ii )
y con
Iij = Iii /Iij
As,
kl|i = kl|i k|i l|i
con
kk|i = k|i (1 k|i )
y con,
kl|i = kl|i /kl|i
k = Ii k|i si k Ui
y,
Ii k|i
si k = l Ui
kl = Ii kl|i si k&l Ui , k 6= l
Iij k|i l|j si k Ui and l Uj , i 6= j
Sea
yk
yk|i =
k|i
y sea
X
ti = yk|i (9.21)
si
1X X 2
Vi = kl|i yk|i yl|i (9.22)
2 Ui
1X X 2
Vbi = kl|i yk|i yl|i (9.23)
2 si
ti
ti =
Ii
X ti
t = (9.24)
sI Ii
V2st (t ) = VU P M + VU SM (9.25)
con
XX
VU P M = Iij ti tj (9.26)
UI
donde ti = ti /Ii , y
X Vi
VU SM = (9.27)
UI Ii
donde Vi esta dado por la ecuacion (9.22). El primer componente VU P M es
estimado insesgadamente mediante
XX ti tj X 1 1
VU P M = Iij
1 Vi (9.28)
sI Ii Ij sI Ii Ii
X Vi
VU SM = 2
(9.29)
sI Ii
V2st (t ) = VU P M + VU SM (9.30)
Iij ti tj +
XX X Vi
V2st (t ) = (9.31)
sI Ii Ij sI Ii
Es importante notar que los dos componentes de estas dos ultimas ecuaciones
no corresponden.
Uno de los diseno mas comunes en la practica son los disenos auto-
ponderados.
Ni ni ni
k = Ii k|i = nI P = nI
Ni Ni N
Que creen que hacen las empresas encuestadoras que tenemos en Mexico?
Como lograr que si calculamos las frecuencias de una encuesta por ejem-
plo, se tengan proporciones de hombres y mujeres igual a la poblacion
objetivo si la informacion del sexo del entrevistado no la sabemos si no
hasta que ya nos contesto?
Pc
F Ac =
P Mc
Explicando en el pizarron...
Como saber cuando te dan una base de datos que es el ponderador que
reportan en tal base de datos?
Otras opciones...
Apendices
203
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
Fuente: Leemis, L. M. (1986). Relationships among common univariate distributions. Am. Stat.. 40, pp. 1436.
Sesiones practicas en R
212
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 00 (Instalacion de R y R-Studio)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 16, 2014
###
#################################################################
#################################################################
#################################################################
#Instalacion de R en el equipo.
#################################################################
#Este se encuentra ms rpidamente en el siguiente servidor mexicano:
#http://cran.itam.mx
#(Si tienen curiosidad esta es la pgina principal de R: http://www.r-project.org)
#Hay que seleccionar la versin de R segn el sistema que se est utilizando.
#Bajar, ejecutar la instalacin y seguir las instrucciones del instalador de Windows.
#Importante: Cuando pregunte el instalador el tipo de formato que se desea para la ayuda hay que
elegir html (o html2). Es ms fcil navegar por la ayuda con el navegador.
#Posteriormente, si se desea, instalar R-Studio (opcional, sugerido). Est aqu:
#http://rstudio.org
#Para la instalacin de R-Studio, tiene que haberse instalado antes R.
#R-Studio es una "mascara" de R que lo hace ms amigable.
#Propiamente, no es necesario para ejecutar R, es opcional.
#Una vez instalado R (y en su caso R-Studio), hay que ejecutar R (o R-Studio si se instal,
directamente sin ejecutar antes a R).
#Dentro de R (o R-Studio), en la lnea de comandos, hay que aprender 2 comandos bsicos que
necesitaremos para saber donde estamos trabajando.
#El primer comando indica el directorio de trabajo actual:
getwd()
#Y otro que me permite manualmente determinar el directorio que yo quiero utilizar para trabajar.
Por ejemplo, si quiero trabajar en una carpeta llamada R, en el disco F.
#(Ojo, la carpeta que se indica debe de existir.
#Notar que las diagonales que se utilizan son diagonales NO INVERSAS, de divisin. As se indican
las carpetas en R bajo Windows. Tambin, no olvidar las comillas al inicio y al final.):
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
setwd("E:/WORK/Lecturing/2014_01_ITAM_Licenciatura_EstadisticaAplicada_I/08_R")
#Otra forma es hacer esto con el mouse...
#Una vez determinado el directorio de trabajo hay que colocar all los archivos de datos que se van
a leer.
#Tambin, es en esa carpeta donde se guardaran las cosas que guarden.
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 01 (Introduccion a R)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 16, 2014
###
#################################################################
#################################################################
#################################################################
# Basta con copiar y pegar cualquier linea en la consola de R.
# Ojo: Es quizas necesario copiar, pegar y correr las lineas anteriores a la linea de interes.
# Precisamente para que pudieran copiar y pegar no estoy utilizando acentos ni letras hispanas.
# Para ir aprendiendo y que tenga chiste, hay que ir viendo lo que pasa con cada linea.
# Si quiero comentar algo sin que lo ejecute R, utilizo el signo # antes
getwd() # Me indica la carpeta de trabajo
setwd("C:/Emilio/R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir)
setwd("C:\\Emilio\\R") # Cambia la carpeta de trabajo a C:\Emilio\R (tiene que existir)
help(sum) # Llama la ayuda relativa al comando sum
?sum # Llama la ayuda relativa al comando sum
??sum # Llama la ayuda relativa a la palabra sum (cuando estamos ignorando mas)
# Si de plano no encuentro, entonces utilizo Google tecleando por ejemplo: R sum of values
c(1, 2.5, 3) # Arroja un vector de tamano 3
x <- c(1, 2.5, 3) # Asigna a x un vector conformado de 3 numeros
x # Arroja el valor de x
length(x) # Devuelve el tamano del vector x
x <- c(x, 4) # Sobre-escribe a x, extiende su dimension en uno con el valor 4
x # Arroja el valor de x
length(x) # Devuelve el tamano del vector x
mean(x) # Calcula la media de los elementos del vector x
var(x) # Calcula la varianza de los elementos del vector x
mean(x^2) # Calcula el cuadrado de cada elemento del vector x, luego calcula la media
# Entonces estas dos lineas:
sum(x)/length(x)
sum( (x-mean(x))^2 ) / (length(x)-1)
# me tienen que dar lo mismo, respectivamente, que estas dos lineas:
mean(x)
var(x)
Varianza.Que.Me.Interesa <- var(x) # Crea una variable que guarde la varianza de x
sqrt(Varianza.Que.Me.Interesa) # Calcula la raiz cuadrada de la variable con el nombre raro
sd(x) # Calcula la desviacion estandar del vector x
n <- 5 # Crea una variable con el valor de n igual a 5
c(1:n) # Arroja un vector que tiene la secuencia del 1 al valor de n
rep(x, times=2) # Arroja un vector que repite al vector x, 2 veces
rep(x, each=2) # Arroja un vector que repite 2 veces cada elemento de x
z <- c(1:6)^2 # Crea un vector z con valores enteros del 1 al 6 y los eleva al
cuadrado
z # Arroja el valor de z
EsMenorADos <- z<2 # Crea un vector logico con nombre chistoso evaluando contra 2
EsMenorADos # Arroja el valor del vector EsMenorADos
EsIgualACuatro <- z==4 # Crea un vector logico con nombre chistoso evaluando contra 4
EsIgualACuatro # Arroja el valor del vector EsIgualACuatro
z # Arroja el valor de z
z[3] # Arroja el tercer elemento del vector z
z[c(1,3)] # Arroja el 1er y 3er elemento del vector z
z[z<2] # Arroja los elementos del vector z que son menores a 2
z[EsMenorADos] # Arroja los elementos del vector z que son menores a 2
z[-3] # Arroja el valor de z pero omitiendo el 3er elemento
summary(z) # Dependiendo de lo que sea z (datos, vector, matrix,.. arroja estadisticos basicos
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 02 (Introduccion a R y BilletesSuizos)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 21, 2014
###
#################################################################
#################################################################
#################################################################
# Primero, es recomendable revisar cual es el directorio de trabajo que tenemos actualmente definido
para trabajar en R.
getwd() # Del vocablo en Ingles "get working directory"
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# A continuacisn, leemos el conjunto de datos llamado BilletesSuizos.csv. Este esta en formato .csv
(Comma Separated Values)
BilletesSuizos <- read.table(
file = "BilletesSuizos.csv",#Nombre del archivo
#debe estar en el
#direct. de trabajo.
header = TRUE, #Indicamos que los datos
#tienen encabezados en las
#columnas.
sep = ",") #Indicamos que los datos estan
#separados por coma.
# Notar que escrib el comando en varias lneas para irles explicando qu significa cada cosa.
# El comando de arriba lo puedo alternativamente correr como:
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
# Otra forma de hacerlo es utilizando los botones de R-studio... Hagmoslo...
# Ahora, echemos directamente un vistazo a los datos cargados...
# Una primera forma de hacerlo es que llamemos, tal cual a la tabla (o matriz) que acabamos de
cargar.
BilletesSuizos
# Otra forma es que demos doble click a el arreglo de datos que tenemos en nuestro espacio de
trabajo en el R-studio
# Si quiero ver en la consola los primeros 10 renglones (por ejemplo).
BilletesSuizos[1:10, ]
# Tambin tenemos al comando head() que sirve para mostrar los primeros 6 renglones de algn arreglo.
head(BilletesSuizos)
# Puedo ver que son puras variables continuas....
# Si tuvieramos muchas variables, tambien vale la pena ejecutar el comando names()
names(BilletesSuizos)
# En este caso puedo ver que tengo 6 variables y sus nombres.
# Utilizando los botones de R-studio quizs esto no es necesario pero sirve saber que hay un comando
que arroja los nombres en la consola.
# Podemos averiguar la estructura de los datos en la ventana de espacio de trabajo (Workspace) de R-
studio, vemos que son 200 observaciones de 6 variables.
# Otra forma de averiguar el tamaqo de los datos es con el comando dim()
dim(BilletesSuizos)
# Tal comando me arroja la dimensisn del arreglo de datos que estoy utilizando. Entonces utilizamos
200 observaciones (filas) y 6 variables (columnas)
# Vimos que es util calcular la media de cada variable:
colMeans(BilletesSuizos) # Este comando me sirve para calcular la media de las columnas de una
matriz de datos
# Si tuviera una sola variable, entonces utilizo el comando mean()
mean(BilletesSuizos$LARGO) #Estoy indicando me calcule la media del vector que conforma la columna
con nombre LARGO en mi matriz de datos.
# Ahora... sabemos que los primeros 100 registros son de billetes genuinos y los otros 100 son de
billetes falsos.
# Vamos a crear una variable (aparte) 0 y 1 donde 1 es genuino y 0 es falso.
GENUINO <- c(rep(1, times=100), rep(0, times=100))
GENUINO # Vemos cmo quedo mi nueva variable en la consola y en visualizador de datos de R-studio
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 03 (Analisis Exploratorio de Datos: Variables Cualitativas)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 21, 2014
###
#################################################################
#################################################################
#################################################################
# Tip de R-Studio: Utilicen CTRL + R para correr la linea en la que estan situados.
# Primero, revisamos el directorio de trabajo.
getwd()
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# Ahora vamos a cargar unos datos para ejemplificar.
# Vamos a cargar la biblioteca MASS.... Platicar sobe la biblioteca MASS.
library(MASS)
# Una vez hecho esto, vamos a utilizar el dataset "bacteria"
bacteria
# Para ver el conjunto de datos solo unas cuantas observaciones y encabezados utilizamos el comando
head()
head(bacteria)
# Como este conjunto de datos esta cargado en un paquete (es decir, es un comando del paquete MASS),
entonces podemos ver que significa cada variable utilizando la ayuda:
?bacteria
# Ahora, para que ustedes puedan reciclar los siguientes comandos, vamos a asignar el conjunto de
datos a una variable
Datos <- bacteria
# De modo que todo lo que hagamos a continuacin, lo pueden hacer ustedes modificando el conjunto de
datos bacteria por el que ustedes quieran en la linea anterior. Por supuesto, en comandos siguientes
tendr que modificar los nombres de columnas, etc...
# Podemos observar que ahora tenemos un objeto de 220 observaciones y 6 variables en la ventana
superior derecha de R-Studio
# Podemos darle doble click para navegar en los datos.
# Digamos que ahora vamos a hacer una tabla de frecuencias simple de la variable y
table(Datos$y)
# En la linea de comando anterior tratamos a Datos como un data.frame.... Ahora vamos a hacer lo
mismo tratando a Datos como una matriz
table(Datos[,"y"])
# O equivalentemente, como una matriz donde no se tiene nombre de columna y nos interesa la primera
columna.
table(Datos[,1])
# Si queremos estas frequencias en trminos relativos y en porcentaje...
prop.table(table(Datos[,1])) * 100
# Pensemos ahora que queremos `cruzar' dos variables cualitativas, una forma es:
table(Datos$y, Datos$trt)
table(Datos$trt, Datos$y) #Vean que pasa.
# Otra forma es (notar la diferencia del output):
with(Datos, table(y, trt))
# Si me interesan las proporciones por celda, es decir, de toda la tabla (que sumen 1):
prop.table(table(Datos$y, Datos$trt))
# Si les interesa que las proporciones sumen 1 por renglones:
prop.table(table(Datos$y, Datos$trt),1)
# Si queremos anadir una columna con la suma para darle mas presentacion, utilizaremos el comando
cbind() que pega columnas, y el comando rowSums() que suma por renglones...
x <- prop.table(table(Datos$y, Datos$trt),1) # Estamos guardando lo anterior en el
objeto x
Total <- rowSums(x) # Guardamos los totales de la tabla x por
renglon
TablaCruzada1 <- cbind(x, Total) # Pegamos a y del lado derecho de x
(agregamos una columna)
# Y guardamos todo en TablaCruzada1
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 04 (Analisis Exploratorio de Datos: Variables Cuantitativas)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 23, 2014
###
#################################################################
#################################################################
#################################################################
getwd() # Revisamos el directorio de trabajo.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") # Definimos el
directorio donde trabajaremos, donde estan los datos.
# Ahora vamos a borrar todo lo que tengamos en memoria desde la consola
# (se puede hacer tambin con la escobill en el Workspace)
rm(list=ls()) # el comando "remove" rm() borra objetos en memoria y el comando ls() me lista lo que
tengo en memoria. Si uso los dos juntos me borra todo en la memoria
gc() # Este es el comando "Garbage Collection", sirve para re-establecer la memoria y elimiar
basura que haya quedado en memoria por "memory-leaks".
# Ahora cargamos los datos que utilizaremos.
# Nos interesan los datos "TVcable.csv"
Datos <- read.table(file = "TVcable.csv", header= TRUE, sep= ",")
# Borremos de nuevo... todo
rm(list=ls())
# Si lo quisiera hacer directamente con R-Studio....
# Hagamoslo...
# Revisemos...
head(Datos)
# Que sabemos hasta ahora?
# Veamos los datos... Podemos decir algo?
# Hagamos un diagrama de puntos de la variable RENTA.
# Como se hace a mano?
# Con R, hay un comando para hacer diagramas de puntos es stripchart()
# Veamos como se usa...
?stripchart()
stripchart(Datos$RENTA)
stripchart(Datos$RENTA, method = "stack", vertical = TRUE, axes=TRUE, pch=21, col="blue",
main='Diagrama de puntos, con los datos: TVcable', ylab =
pagar al mes")
# Otro mas cambiando configuracion
stripchart(Datos$RENTA, method = "stack", vertical = FALSE, axes=TRUE, pch=19, col="red",
main='Diagrama de puntos, con los datos: TVcable', xlab =
pagar al mes")
# Ahora un diagrama de tallo y hojas...
# Como se hace a mano?
# Ahora con R utilizando el comando stem()
# Primero veamos como se usa...
?stem
# Ahora lo hacemos con R y revisamos que est bien hecho...
stem(Datos$RENTA)
# Y si nos preguntaran de TVTOT?
stem(Datos$TVTOT)
# Y si quiero ms detalle?
stem(Datos$TVTOT, scale = 2)
# Ahora, para observar una distribucion de frecuencias de una variable discreta...
# Retomamos lo visto en la clase pasada... No abordaremos esta vez las tablas, nos iremos solo a los
graficos.
# Por ejemplo, pensemos en las variables ADULTOS y NINOS...
conteos1 <- table(Datos$ADULTOS)
conteos2 <- table(Datos$NINOS)
barplot(conteos1,
main="Distribucion de frecuencias absolutas",
col="red",
xlab="Nmero de adultos en el hogar"
)
barplot(conteos2,
main="Distribucion de frecuencias absolutas",
col="blue",
xlab="Nmero de nios en el hogar"
)
#NOTA: abusados con las comas
#cuando escriban los comandos
#de esta forma
# Ahora utilicemos histogramas...
# Como se harian a mano?
# Ok, hagamoslo en R con el comando hist()... Hay, por supuesto, mas comandos y opciones para hacer
histogramas mas exoticos y presentables... Nosotros utilizaremos lo basico.... Recuerden, simple
siempre es bueno.
# Veamos como se usa el comando hist()
?hist
# Ahora supongamos que nos interesa la variable VALOR
hist(Datos$VALOR)
# Y si le queremos dar mas formato...
hist(Datos$VALOR, col = "blue", breaks = 4)
hist(Datos$VALOR, col = "blue", breaks = 8)
hist(Datos$VALOR, col = "blue", breaks = 12)
hist(Datos$VALOR,
col = "red",
breaks = "Sturges", #Nota: Default, ponerlo o no ponerlo es igual.
main = "Histograma ms presentable",
xlab = "Valor catastral del hogar (en miles de pesos)",
ylab = "Frecuencia",
)
# Hagamos ahora un ejemplo mas elaborado con histogramas...
# Utilicemos los datos de los "Billetes Suizos"
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
head(BilletesSuizos)
GENUINO <- c(rep(1, times=100), rep(0, times=100))
# Pegamos a nuestra matriz de datos la informacion del vector GENUINO
BilletesSuizos <- cbind(BilletesSuizos, GENUINO)
# Ahora, le pedimos a R que nos de un resumen esquematico de los datos. Para ellos utilizamos el
comando summary()
summary(BilletesSuizos) # Todos los billetes
summary(BilletesSuizos[GENUINO==1, ]) # Los genuinos
summary(BilletesSuizos[GENUINO==0, ]) # Los falsos
# Qu vemos?
# Ahora digamos que quiero ver cmo estn distribuidos los datos
hist(BilletesSuizos$LARGO, col = "blue", breaks = 20)
hist(BilletesSuizos$ANCHOIZQ, col = "blue", breaks = 20)
hist(BilletesSuizos$ANCHODER, col = "blue", breaks = 20)
hist(BilletesSuizos$MARGENINF, col = "blue", breaks = 20)
hist(BilletesSuizos$MARGENSUP, col = "blue", breaks = 20)
hist(BilletesSuizos$DIAGONAL, col = "blue", breaks = 20)
# Me doy cuenta que parece ser que la variable DIAGONAL es la que tiene dos montoncitos y que quizs
pudiera diferenciar mis billetes entre genuinos y falsos ms fcilmente.
# Vuelvo a hacer esos histogramas pero diferenciando entre genuinos y falsos
hist(BilletesSuizos$DIAGONAL[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c(138, 142))
hist(BilletesSuizos$DIAGONAL[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c(138, 142), add=
TRUE)
# A ver otra variable???
hist(BilletesSuizos$MARGENSUP[GENUINO==1], col=rgb(0,0,1,1/4), breaks = 20, xlim=c(8, 12))
hist(BilletesSuizos$MARGENSUP[GENUINO==0], col=rgb(1,0,0,1/4), breaks = 20, xlim=c(8, 12), add= TRUE)
# Que puedo concluir?
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 05 (Analisis Exploratorio de Datos: Variables Cuantitativas - Diagramas de Caja y
Brazos)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 28, 2014
###
#################################################################
#################################################################
#################################################################
# Revisamos y definimos el directorio de trabajo.
getwd() # Revisamos el directorio de trabajo.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# Definimos el directorio donde trabajaremos, donde estan los datos.
getwd() # Volvemos a revisar.
# Borramos memoria.
rm(list=ls())
gc()
# Ahora cargamos los datos que utilizaremos...
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
# Los vemos...
head(BilletesSuizos)
# Creamos la variable GENUINO...
GENUINO <- c(rep(1, times=100), rep(0, times=100))
# Pegamos a nuestra matriz de datos la informacion del vector GENUINO
BilletesSuizos <- cbind(BilletesSuizos, GENUINO)
# Sabamos de la clase pasada que la variable DIAGONAL de los billetes suizos es la que mejor me
poda discriminar entre los genuinos y los falsos...
# Ahora vamos a llegar a la misma conclusin haciendo unos grficos de Caja y Brazos...
# Primero, los elementos de un diagrama de caja y brazos (caja y bigotes en Ingls)... En el
pizarrn.
# Adyacente inferior
# q1
# m
# q3
# Adyacente superior
# Valores atpicos (o atpicos menores)
# Valores extremos (o atpicos mayores)
# Factor de escala: fes = 1.5 * AI
# AI = Amplitud Intercuartlica
# Barreras interiores: f1 = q1 - fes y f2 = q3 + fes
# Barreras exteriores: F1 = f1 - fes y F2 = f2 + fes
# Para hacer un diagrama de caja y brazos utilizamos el comando boxplot()
boxplot(BilletesSuizos$LARGO,
xlab = "Largo del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHOIZQ,
xlab = "Ancho Izquierdo del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHODER,
xlab = "Ancho Derecho del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENINF,
xlab = "Margen Inferior del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENSUP,
xlab = "Margen Superior del Billete",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$DIAGONAL,
xlab = "Diagonal del Billete",
col = "red",
horizontal = TRUE )
# Ahora hacemos diagramas de caja y brazos de cada variable y separando por genuinos y falsos.
boxplot(BilletesSuizos$LARGO ~ BilletesSuizos$GENUINO,
xlab = "Largo del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHOIZQ ~ BilletesSuizos$GENUINO,
xlab = "Ancho Izquierdo del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$ANCHODER ~ BilletesSuizos$GENUINO,
xlab = "Ancho Derecho del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENINF ~ BilletesSuizos$GENUINO,
xlab = "Margen Inferior del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$MARGENSUP ~ BilletesSuizos$GENUINO,
xlab = "Margen Superior del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
boxplot(BilletesSuizos$DIAGONAL ~ BilletesSuizos$GENUINO,
xlab = "Diagonal del Billete",
ylab = "Genuino 1",
col = "red",
horizontal = TRUE )
# Podemos concluir lo mismo que la vez pasada pero ahora utilizando otro tipo de grafico...
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 06 (Analisis Exploratorio de Datos: Ms grficos)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 28, 2014
###
#################################################################
#################################################################
#################################################################
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") # Definimos el
directorio donde trabajaremos, donde estan los datos.
getwd()
# Utilizaremos el conjunto de datos: mtcars que ya viene con R...
# Es buena idea ver la descripcinn de las variables utilizando ?mtcars
?mtcars
#################################################################
#################### Grficos de Dispersin #####################
#################################################################
# Son como los diagramas de punto pero en 2 dimensiones
# Lo pueden pensar tal cual como los grficos en un plano cartesiano (2D)
# Empecemos por hacer un grafico de dispersion en 2 dimensiones.
# Un diagrama de dispersinn simple se hace con el comando: plot()
?plot()
# Utilicemos las variables wt y mpg de la base de datos...
# Grafiquemos una primera version...
plot(x = mtcars$wt,
y = mtcars$mpg,
xlab ="Peso del carro ",
ylab ="Millas por galon",
main ="Grafico de dispersion simple/crudo",
col = "red",
pch = 19)
# Otra versin cambiando configuraciones... Qu creen que cambie?
plot(x = mtcars$wt,
y = mtcars$mpg,
xlab ="Peso del carro ",
ylab ="Millas por galon",
main ="Grafico de dispersion simple/crudo",
cex = 3,
col = "dark green",
pch = 21)
# Otra versin cambiando configuraciones
plot(x = mtcars$wt,
y = mtcars$mpg,
xlab ="Peso del carro ",
ylab ="Millas por galon",
main ="Grafico de dispersion simple/crudo",
cex = 2,
col = "dark red",
pch = 8)
# A continuacin un listado de los posibles simbolos para pch... Tambin pueden ver en sus notas, he
aadido en el apndice un listado.
#pch=0, square
#pch=1, circle
#pch=2, triangle point up
#pch=3, plus
#pch=4, cross
#pch=5, diamond
#pch=6, triangle point down
#pch=7, square cross
#pch=8, star
#pch=9, diamond plus
#pch=10, circle plus
levels(mtcars$cyl) # Con este comando confirmamos que, en efecto, no es categrica porque fue
definida como no categrica...
# Tambin (como hay 3 tipos de cilindros: 4, 6 y 8, pedimos que los tres graficos los ponga en un
solo renglon.
# Se pide tambien que suavice los datos con una linea utilizando panel.smooth...
# Si quieren ver que hace cada cosa, quiten algun parametro, cambien su valor, etc...
library(graphics) #Solicita que se cargue el paquete graphics (ya debe estar instalado)
?coplot
coplot( mpg ~ disp | as.factor(cyl),
data = mtcars,
panel = panel.smooth,
rows = 1)
coplot( mtcars$mpg ~ mtcars$disp | as.factor(mtcars$cyl),
panel = panel.smooth,
rows = 1)
coplot( mpg ~ disp | as.factor(cyl),
xlab = "Desplazamiento",
ylab = "Millas/galn",
data = mtcars,
panel = panel.smooth,
rows = 1)
# Notar que aqu ya estamos metiendo mucha informacin...
# Ahora vamos a ver un grafico muy sencillo en el que puedo representar varias dimensiones y que
quizs es ms fcil de interpretar...
#################################################################
#################### Grficos de Burbujas #######################
#################################################################
# A continuacion, un grafico de burbujas que utiliza el comando symbols()
?symbols
symbols( x = mtcars$mpg,
y = mtcars$disp,
circles = mtcars$cyl,
inches = 0.3,
fg = "blue",
bg = rgb(0,0,1,1/4),
xlab = "Millas por galon",
ylab = "Desplazamiento",
main = "Burbujas de los Carros")
# Ahora vamos aadir etiquetas a los circulos por si no es muy clara la diferencia de tamaos..
?text
text(x = mtcars$mpg,
y = mtcars$disp,
labels = mtcars$cyl,
cex = 0.8)
# Recuerden, para que aprendan a usar estos graficos vayan moviendo y cambiando cosas y vean que
pasa.....
# Notar que el grafico esta utilizando 3 dimensiones... los 2 ejes y el tamao de las burbujas...
# Adicionalmente se podria etiquetar con otra variable en lugar de repetir la 3er variable en el
comando text() con la variable que esta en el argumento circles...
# Otra variante....
symbols( x = mtcars$mpg,
y = mtcars$disp,
squares = sqrt(mtcars$cyl),
inches = 0.5,
fg = "blue",
bg = rgb(0,0,1,1/4),
xlab = "Millas por galon",
ylab = "Desplazamiento",
main = "Cuadrados de los Carros")
text(x = mtcars$mpg,
y = mtcars$disp,
labels = mtcars$cyl,
cex = 0.8)
# Como les decia... vayan moviendo y cambiando cosas y vean que pasa.....
##################################################################
#################### Grficos de Estrellas #######################
##################################################################
# Ahora el grafico de estrellas con el comando stars()
# Primero observar los datos mtcars...
mtcars
# Notar que los renglones tienen nombres, estos nombres ya los traian nuestros datos....
# R permite poner nombre a los renglones asi como tambien permite que las columnas tengan nombres...
?stars
stars(mtcars[, 1:7],
len = 0.8,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE)
# Podemos cambiar la paleta de colores a una mejor...
palette(rainbow(12, s = 0.6, v = 0.75))
# Y volvemos a graficar...
stars(mtcars[, 1:7],
len = 0.8,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE)
# Notar que estamos graficando 7 dimensiones....
# Si quisieramos graficar solo algunos renglones... y cambiar algunas cosas....indicamos por
ejemplo...
palette(rainbow(14, s = 0.55, v = 0.85))
stars(mtcars[c(2, 3, 6, 7, 8, 9, 10, 12:31), 1:5],
len = 0.9,
key.loc = c(12, 1.5),
main = "Carros",
draw.segments = TRUE,
cex = 0.95,
nrow = 5)
# Aqui estamos graficando 5 dimensiones.... que carros son mas parecidos??? por ejemplo.
################################################################
#################### Grfico Combinado 2 #######################
################################################################
# Grafico combinado de 3... estamos poniendo un diagrama de dispersion, luego unos de caja y brazos
y luego unos de puntos unidimensionales apilados...
# Esto es muy artesanal... iremos viendo cada cosa paso a paso...
plot.new() # Por si hab?a alguna grafica incompleta, esperando nueva sobreescritura. Decimos que se
va a hacer un nuevo grafico... esto me da una hoja en blanco nueva.
par(fig=c(0, 0.8, 0, 0.8), new=TRUE) # Establece ubicacion nueva
plot(mtcars$wt, mtcars$mpg, xlab="Peso del carro", ylab="Millas por galon", pch=19, col="red") #
Hace el grafico de dispersion en la ubicacion determinada anteriormente
par(fig=c(0,0.8,0.46,1), new=TRUE) # Establece otra ubicacion nueva (arriba)
boxplot(mtcars$wt , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25) # Hace el boxplot
horizontal de arriba
par(fig=c(0,0.8,0.61,1), new=TRUE) # Establece otra ubicacion nueva (mas arriba)
stripchart(mtcars$wt, method = "stack", vertical = FALSE, axes=FALSE, pch=19, col="blue", add=TRUE)
# Grafico unidimensional de puntos arriba
par(fig=c(0.525,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (a la derecha)
boxplot(mtcars$mpg, horizontal=FALSE, axes=FALSE, col="red", boxwex = 0.25) # Hace el boxplot
vertical de la derecha
par(fig=c(0.7,1,0,0.8),new=TRUE) # Establece otra ubicacion nueva (mas a la derecha)
stripchart(mtcars$mpg, method= "stack", vertical = TRUE, axes=FALSE, pch=19, col="blue", add=TRUE)#
Grafico unidimensional de puntos a la derecha
mtext("Grafico combinado: dispersion, caja y brazos y puntos unidimensional", side=3, outer=TRUE,
line=-3) # Pone titulo al grafico
# Ahora un ejemplo, para resaltar la importancia de usar informacin grfica...
# Se trata de mostrarles la utilidad de los graficos y no solo de los estadisticos basicos.
# Por supuesto, hagamoslo para el caso mas simple, bidimensional...
# Imaginemos que tenemos 2 variables, x1 y x2 con los siguientes datos...
x1 <- c(3, 4, 2, 6, 8, 2, 5)
x2 <- c(5, 5.5, 4, 7, 10, 5, 7.5)
# Hagamos el grfico combinado que vimos ...
# Para ello copiamos y pegamos lo de arriba pero hacemos los cambios pertinentes...
# Para evitar estar cambie y cambie de aqui en adelante, mejor defino todo en terminos de las
variables x1 y x2 y todo lo corro con esas variables de aqui en adelante.... solo tendre que ir
modificando los valores de x1 y x2 y no de las lineas correspondientes a los graficos....
plot.new()
par(fig=c(0, 0.8, 0, 0.8), new=TRUE)
plot(x1, x2, xlab="x1", ylab="x2", pch=19, col="red")
par(fig=c(0,0.8,0.46,1), new=TRUE)
boxplot(x1 , horizontal=TRUE , axes=FALSE, col="red", boxwex = 0.25)
par(fig=c(0,0.8,0.61,1), new=TRUE)
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 07 (Analisis Exploratorio de Datos: Q-Q plot y Violin Plot)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Enero 30, 2014
###
#################################################################
#################################################################
#################################################################
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R") # Definimos el
directorio donde trabajaremos, donde estan los datos.
getwd()
BilletesSuizos <- read.table(file = "BilletesSuizos.csv", header= TRUE, sep= ",")
GENUINO <- c(rep(1, times=100), rep(0, times=100))
################################################################
#################### Grfico de Violin #########################
################################################################
# Un primo un poco ms moderno de los diagramas de caja y brazos (BoxPlots), se llaman grficos de
violines o "violin plots"
install.packages("vioplot")
library(vioplot)
# Graficamos la DIAGONAL de todos los billetes....
vioplot(BilletesSuizos$DIAGONAL, names=c("Todos"), col="red", rectCol ="white", colMed ="black",
pchMed =19, ylim=c(138, 143))
title("Violines de los billetes TODOS juntos") # Ponemos titulo al grafico...
# Graficamos la DIAGONAL de todos los billetes pero separando...
vioplot(BilletesSuizos$DIAGONAL[GENUINO==1], BilletesSuizos$DIAGONAL[GENUINO==0], names=c("Genuinos",
"Falsos"), col="red", rectCol ="white", colMed ="black", pchMed =19, ylim=c(138, 143))
title("Violines de los billetes separados") # Ponemos titulo al grafico...
################################################################
#################### Grfico de Probabilidades QQ ##############
################################################################
# Vimos que ms o menos la DIAGONAL se comportaban como una Normal cuando hicimos histogramas y
violines para los GENUINOS y para los FALSOS...
# Primero... Graficamos la DIAGONAL de todos los billetes... Esperamos que los datos no se
distribuyan como una Normal...
qqnorm(BilletesSuizos$DIAGONAL, # Hace el grfico de probabilidades Normales, tal cual sin
modificar
ylab = "Diagonal TODOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL, # Dibuja la linea de probas Normales
col = "red")
points(qnorm(c(.25, .50, .75)), # Dibuja los puntos con los cuartiles centrales
quantile(BilletesSuizos$DIAGONAL, c(.25, .50, .75)),
pch=20, col="red", cex = 2)
# Y si ahora lo hacemos por separado para los GENUINOS
qqnorm(BilletesSuizos$DIAGONAL[GENUINO==1],
ylab = "Diagonal GENUINOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL[GENUINO==1],
col = "red")
points(qnorm(c(.25, .50, .75)),
quantile(BilletesSuizos$DIAGONAL[GENUINO==1], c(.25, .50, .75)),
pch=20, col="red", cex = 2)
# Y si ahora lo hacemos por separado para los FALSOS
qqnorm(BilletesSuizos$DIAGONAL[GENUINO==0],
ylab = "Diagonal FALSOS",
pch = 21,
col = "blue")
qqline(BilletesSuizos$DIAGONAL[GENUINO==0],
col = "red")
#################################################################
#################################################################
#################################################################
###
### Estadistica Aplicada I
###
### Clase Practica 08 (Estimacion 1)
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Marzo 04, 2014
###
#################################################################
#################################################################
#################################################################
# Primero, revisamos el directorio de trabajo actual en R.
getwd() # Del vocablo en Ingles "get working directory"
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# A continuacion, leemos el conjunto de datos llamado MU284.csv. Este esta en formato .csv (Comma
Separated Values)
Marco <- read.table(
file = "MU284.csv",#Nombre del archivo
#debe estar en el
#direct. de trabajo.
header = TRUE, #Indicamos que los datos
#tienen encabezados en las
#columnas.
sep = ",") #Indicamos que los datos estan
#separados por coma.
# Notar que escribi el comando en varias lineas para irles explicando que significa cada cosa.
# El comando de arriba lo puedo alternativamente correr como:
Marco <- read.table(file = "MU284.csv", header= TRUE, sep= ",")
# Otra forma de hacerlo es utilizando los botones de R-studio... Hagamoslo...
# Ahora, echemos directamente un vistazo a los datos cargados...
# Podemos ver que ya aparece un dataframe en nuestra memoria, vemos sus caracter?sticas.
# Vamos a ver las variables y les voy explicando que es cada una...
# Ahora vamos a instalar dos paquetes.... el paquete "sampling" y el paquete "samplingVarEst"
# Los paquetes se instalan utilizando clicks con R-studio o con el comando
?install.packages # Cuando no sepa que hacer utilizo el signo de interrogacin para abrir la
ayuda relativa a ese comando....
# Si no tengo ni idea del comando, entonces utilizo doble ??
# Tercera opcion de ayuda, es utilizar Google, ponga una R antes...
# Ok, instalemos utilizando clicks con el R-Studio o con la siguiente linea de comando
install.packages("samplingVarEst")
# Una vez instalados, ahora los cargamos...
#Recordar aqu? que podemos tener muchos paquetes instalados y no necesariamente cargados (activos)
en memoria...
library(sampling)
require(samplingVarEst)
# Ahora vamos a dar una revisada rapida al paquete sampling (paquete especializado en seleccion de
muestras)
# En particular los comandos que utilizaremos en esta sesion:
#srswor1
#inclusionprobabilities
#UPmaxentropy
#UPbrewer
# Tambien utilizaremos el paquete samplingVarEst (paquete especializado en estimacion de varianza)
# En particular utilizaremos los comandos:
#Pk.PropNorm.U
#Est.Total.NHT
#VE.HT.Total.NHT
#VE.SYG.Total.NHT
# Una vez que ya sabemos que hace cada comando, supongamos que me interesa estimar Theta...
# Theta: Total de la variable P85
# n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio
utilizaremos 50
# De modo que:
n <- 50
#################################################################
#################################################################
#################################################################
###
### Diplomado en Estadistica Aplicada : Modulo Muestreo
###
### Clase Practica 09 (Estimacin 1 - samplingEstimates)
###
###
### Emilio Lopez Escobar (http://www.info-Emilio.NET)
### Departamento de Estadistica, ITAM.
### D.F., Mexico. Marzo 06, 2014
###
#################################################################
#################################################################
#################################################################
### Esta sesin tiene que ejecutarse habendo entendido la sesin anterior... No se explicar con
tanto detalle algunas cosas ya que no vale la pena repetir y repetir lo mismo.
### La idea de esta sesin es hacer lo mismo que la clase pasada pero de manera ms rpida
utilizando el paquete: samplingEstimates
# Primero, revisamos el directorio de trabajo actual en R.
getwd() # Del vocablo en Ingles "get working directory"
# Si es necesario definimos el directorio donde trabajaremos. Es decir, en donde estaran los datos
que utilizaremos.
setwd("E://WORK//Lecturing//2014_01_ITAM_Licenciatura_EstadisticaAplicada_I//08_R")
# El comando de arriba lo puedo alternativamente correr como:
Marco <- read.table(file = "MU284.csv", header= TRUE, sep= ",")
# Ahora vamos a instalar el paquete "samplingEstimates"
install.packages("samplingEstimates")
# Una vez instalado, ahora lo cargamos y Tambin cargamos el paquete que muestrea que vimos la clase
pasada:
library(samplingEstimates)
require(sampling)
# Ahora vamos a dar una revisada rpida al paquete samplingEstimates (paquete "mscara" del paquete
samplingVarEst, con el objeto de hacerlo ms amigable)
# En particular el comando que utilizaremos en esta sesin (del paquete samplingEstimates):
#Estimate.Total.NHT (ver el manual en PDF para entender cmo trabaja)
# Una vez que ya sabemos como opera el comando, supongamos que me interesa estimar Theta...
# Theta: Total de la variable P85
# n: De acuerdo con cierto nivel de confianza y de error absoluto... para este ejercicio
utilizaremos 50
n <- 50
# Y tenemos que N es:
N <- dim(Marco)[1]
# Supongamos que vamos a utilizar un dise?o SI (muestreo aleatorio simple - sin reemplazo)
# Entonces, como no es necesario que calculemos las Pk antes de extraer la muestra, nos vamos
directo a la extracci?n...
# Extraemos las muestras... saquemos 4, piensen en 4 compa?ias que hacen lo mismito...
s.SI1.U <- srswor1(n,N) # Compaa "El buen nmero"
s.SI2.U <- srswor1(n,N) # Compaa "Salgo en la TV"
s.SI3.U <- srswor1(n,N) # Compaa?"Salgo en el peridico"
s.SI4.U <- srswor1(n,N) # Compaa "Macondo"
# Suponemos que se levantan los datos.... tenemos la variable de inters pero para cada muestra
VecY.s.SI1 <- Marco$P85[s.SI1.U==1]
VecY.s.SI2 <- Marco$P85[s.SI2.U==1]
VecY.s.SI3 <- Marco$P85[s.SI3.U==1]
VecY.s.SI4 <- Marco$P85[s.SI4.U==1]
# En este caso, cada empresa tiene el mismo tamao de muestra, todas tendran las mismas
probabilidades de inclusin.
VecPk.s <- rep(n/N, times=n)
# Tambin necesito la matriz de probabilidades de inclusion conjuntas MatPkl.s
MatPkl.s <- Pkl.Hajek.s(VecPk.s)
#### OJO: el paquete samplingEstimates me pide pesos muestrales en lugar de probabilidades de
inclusin de primer orden.
# Entonces, estimamos con el paquete samplingEstimates utilizando el estimador de un total de
Narain(1951);Horvitz-Thompson (1952)
Resultados1 <- Estimate.Total.NHT(MatY.s = VecY.s.SI1,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,
PopSize = N )
Resultados2 <- Estimate.Total.NHT(MatY.s = VecY.s.SI2,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,
PopSize = N )
Resultados3 <- Estimate.Total.NHT(MatY.s = VecY.s.SI3,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,
PopSize = N )
Resultados4 <- Estimate.Total.NHT(MatY.s = VecY.s.SI4,
VecWk.s = 1/VecPk.s ,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s ,
PopSize = N )
OUTPUT1 <- rbind(Resultados1, Resultados2, Resultados3, Resultados4)
OUTPUT1
# Y si ahora muestreamos con probabilidades desiguales...
# Primero construimos nuestras probabilidades de inclusin proporcional a P75 para todos los
individuos en la poblacin
?Pk.PropNorm.U
VecPk.U <- Pk.PropNorm.U(n, Marco$P75)
# Ahora necesitamos las probabilidades de inclusi?n de segundo orden, esto ser?a con el comando
MatPkl.U <- Pkl.Hajek.U(VecPk.U) #Ojo: No espantarse, puede salir error si excedemos las
dimensiones permitidas...
# Extraemos las muestras... vamos a utilizar el muestreo de Brewer que es de alta entrop?a Grafstr?m
(2010, p. 97) da evidencia de que es de alta entrop?a aunque no est? demostrado. Berger (2011)
plantea que basta que el muestreo sea de alta entrop?a (aunque no m?xima) para poder utilizar los
resultados de H?jek (1964)
s.Br1.U <- UPbrewer(VecPk.U)
s.Br2.U <- UPbrewer(VecPk.U)
s.Br3.U <- UPbrewer(VecPk.U)
s.Br4.U <- UPbrewer(VecPk.U)
#estimamos nuestras probabilidades de inclusi?n de 2do orden a partir de datos muestrales....
# Primero creo un vector con las probabilidades de inclusi?n de primer orden con s?lo los datos
muestrales (tengo que hacer uno para cada muestra que saqu?)
VecPk.s1 <- VecPk.U[s.Br1.U==1]
VecPk.s2 <- VecPk.U[s.Br2.U==1]
VecPk.s3 <- VecPk.U[s.Br3.U==1]
VecPk.s4 <- VecPk.U[s.Br4.U==1]
# Como tenemos la matrix N por N de Pkl's tenemos que quedarnos con los renglones y las columnas de
esta:
MatPkl.s1 <- MatPkl.U[s.Br1.U==1,s.Br1.U==1]
MatPkl.s2 <- MatPkl.U[s.Br2.U==1,s.Br2.U==1]
MatPkl.s3 <- MatPkl.U[s.Br3.U==1,s.Br3.U==1]
MatPkl.s4 <- MatPkl.U[s.Br4.U==1,s.Br4.U==1]
MatPkl.s1[1:5,1:5]
# Si no tuviera la matrix poblacional de Pkl's entonces creo las matrices de probas de 2do orden
estimadas utilizando la versi?n muestral del H?jek(1964)
MatPkl.s1 <- Pkl.Hajek.s(VecPk.s1)
MatPkl.s2 <- Pkl.Hajek.s(VecPk.s2)
MatPkl.s3 <- Pkl.Hajek.s(VecPk.s3)
MatPkl.s4 <- Pkl.Hajek.s(VecPk.s4)
MatPkl.s1[1:5,1:5]
# Ahora creo mis datos muestrales, i.e. s?lo tendr? datos observados de la variable Y para aquellos
que cayeron en muestra...
VecY.s.Br1 <- Marco$P85[s.Br1.U==1]
VecY.s.Br2 <- Marco$P85[s.Br2.U==1]
VecY.s.Br3 <- Marco$P85[s.Br3.U==1]
VecY.s.Br4 <- Marco$P85[s.Br4.U==1]
# Entonces, si estimamos:
Resultados1 <- Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 ,
PopSize = N )
Resultados2 <- Estimate.Total.NHT(MatY.s = VecY.s.Br2,
VecWk.s = 1/VecPk.s2,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s2 ,
PopSize = N )
Resultados3 <- Estimate.Total.NHT(MatY.s = VecY.s.Br3,
VecWk.s = 1/VecPk.s3,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s3 ,
PopSize = N )
Resultados4 <- Estimate.Total.NHT(MatY.s = VecY.s.Br4,
VecWk.s = 1/VecPk.s4,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s4 ,
PopSize = N )
OUTPUT2 <- rbind(Resultados1, Resultados2, Resultados3, Resultados4)
OUTPUT2
# Notar las diferencias de los comandos:
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 ,
PopSize = N )
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" ,
MatPkl.s = MatPkl.s1 )
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1,
VarEst = "SYG" )
Estimate.Total.NHT(MatY.s = VecY.s.Br1,
VecWk.s = 1/VecPk.s1)
Ejercicios
240
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
3. (Pregunta abierta) Por que importa que haya una nocion de azar o incertidumbre en la definicion de
Estadstica?
4. (Reflexion) Donde esta el azar asociado a un objeto: en el objeto per se o en mi ignorancia sobre el
comportamiento del objeto? Justifique.
5. (Reflexion) Con su intuicion, suponiendo que no tiene conocimientos de muestreo. Intente calcular la
probabilidad de que su vecina Chuchita caiga seleccionada en una muestra. Como le hara? Justifique.
6. (Pregunta abierta) Dar 3 ejemplos de variables difciles de definir y que son de interes publico (i.e. que
interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.).
7. (Pregunta abierta) Dar 3 ejemplos de variables multifactoriales que son de interes publico (i.e. que
interesen a INEGI, CONAPO, CONEVAL, CNSF, etc.)
8. (Pregunta abierta) Dar 3 ejemplos de variables categoricas de interes publico (i.e. que interesen a
INEGI, CONAPO, CONEVAL, CNSF, etc.)
10. (Pregunta abierta) Dar 3 ejemplos de variables continuas de interes publico que son recodificadas a
variables categoricas.
11. (Pregunta abierta) Dar 3 ejemplos de variables con escala nominal (de interes publico).
12. (Pregunta abierta) Dar 3 ejemplos de variables con escala ordinal (de interes publico).
13. (Pregunta abierta) Dar 3 ejemplos de variables con escala de intervalo (de interes publico).
14. (Pregunta abierta) Dar 3 ejemplos de variables con escala de razon (de interes publico).
15. (Pregunta abierta) Por que se recomienda hacer un EDA como punto de partida para un estudio o
investigacion?
17. (Pregunta abierta) Explique las diferencias entre una escala de intervalo y una escala de razon.
18. (Pregunta abierta) Explique porque se dice que hay una jerarqua entre los niveles de las escalas en los
datos.
3. Hacer en R un diagrama de puntos con alguna variable (que corresponda, por supuesto). Tratar
de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.
4. Hacer en R un grafico de frecuencias de variables discreta con alguna variable (que corresponda,
por supuesto). Tratar de hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.
5. Hacer en R un histograma con alguna variable (que corresponda, por supuesto). Tratar de
hacerlo lo mas bonito que se pueda. Escribir unas lneas interpretando.
Pn
k=1 x2k nx2
s2 =
n1
23. (Ejercicio Practico) Se tiene el siguiente diagrama de tallo y hojas de ciertos porcentajes para 129
pases. Las cifras del grafico se interpretan de la siguiente manera, por ejemplo 1|5 significa 15 %.
Uselo para determinar:
El rango.
El primer cuartil.
La mediana.
La amplitud intercuartlica.
24. (Ejercicio Practico) Suponga que tienen solamente dos datos: 14 y 160. Calcule:
El rango.
El primer cuartil.
La mediana.
La amplitud intercuartlica.
26. (Repaso de conceptos) Cual es la funcion de distribucion Normal, su esperanza, su varianza? Que mo-
dela una variable aleatoria con tal distribucion de probabilidades?
27. (Ejercicio Practico) Indique hacia que lado (derecho o izquierdo) se tiene un sesgo en el siguiente
grafico.
28. (Ejercicio) Determine, en ese orden, si las siguientes variables son: cualitativas o cuantitativas, discretas
o continuas, y determine su escala de medicion.
El INPC. ( )( )( )
30. (Verdadero o Falso) Si hay independencia entre 2 variables, esto implica que la correlacion entre estas
es cero.
32. (Verdadero o Falso) Con datos cualitativos, las categoras no necesariamente tienen que ser excluyentes.
Puede haber observaciones en 2 o mas categoras.
33. (Verdadero o Falso con justificacion) Los datos cuantitativos tienen un numero finito de clases. Puede
ser muy grande, pero es finito.
34. (Verdadero o Falso) Los datos cuantitativos discretos son aquellos donde hace falta informacion de la
unidad de medicion.
35. (Verdadero o Falso con justificacion) No es posible, de manera alguna, representar a los datos cuanti-
tativos discretos como datos cuantitativos continuos.
36. (Verdadero o Falso con justificacion) No es posible recodificar una variable continua a una variable
categorica.
37. (Verdadero o Falso con justificacion) No es posible determinar causalidad a partir de una correlacion,
aunque esta sea muy cercana a 1.
38. (Verdadero o Falso con justificacion) No es posible o no tiene sentido utilizar un histograma con una
variable categorica.
39. (Verdadero o Falso con justificacion) Existen dependencias no-lineales que pueden tener una correlacion
cero.
40. (Verdadero o Falso con justificacion) Si la covarianza entre dos variables da un valor de cero, esto
implica que las dos variables en cuestion son independientes.
Ejercicios de Muestreo
1. (Pregunta abierta) Cual es el objetivo principal del muestreo, es decir, en que situaciones se usa o
que pregunta ayuda a responder el muestreo?
2. (Pregunta abierta) Como podemos relacionar las siguientes ideas en una sola oracion: variabilidad,
muestreo, obtencion y recoleccion de datos, estimacion, inferencia, poblacion, responder preguntas,
precision, terminos probabilsticos, control, medicion, parte de la estadstica? Es decir, haga una oracion
que contenga todas las palabras y que a la vez no este diciendo algo equivocado.
3. (Pregunta abierta) Que diferencia tienen los libros tradicionales de muestreo y el libro de Sarndal que
estamos utilizando?
4. (Pregunta abierta) Que relacion hay entre el software de muestreo en general y el Sarndal?
6. (Pregunta abierta) Comente en sus palabras cual sera el procedimiento general o esqueleto del proceso
que involucra una encuesta. Como si lo estuviera platicando o explicando a un poltico o a un joven
sin contacto previo con el muestreo.
7. (Pregunta abierta) Proporcione 3 ejemplos sobre el uso del muestreo diferente a una encuesta electoral
o de opinion publica. Es decir, se necesitan ejemplos en donde no se trate de una encuesta. En donde
no se necesite un cuestionario tal cual como ordinariamente se hace en una encuesta de opinion. De
preferencia de ejemplos diferentes a los comentados en clase.
8. (Pregunta abierta) Es importante definir bien todos los elementos o detalles involucrados dentro de un
ejercicio de muestreo de poblaciones finitas Que relacion tiene esto con el ejercicio de inferir?
9. (Pregunta abierta) Que es un marco muestral y para que me sirve dentro de la teora de muestreo?
10. (Pregunta abierta) Por que es importante tener un marco muestral de buena calidad y actualizado?
11. (Pregunta abierta) En que casos tengo problemas con mi marco muestral, cuales son los tpicos
problemas que pueden presentarse?
12. (Pregunta abierta) Una encuesta me sirve para responder preguntas de un individuo en particular.
S o no? Explique ampliamente.
13. (Pregunta abierta) Todos los errores en una encuesta tienen que ver con muestreo. S o no? Explique
ampliamente.
14. (Pregunta abierta) Explique de manera simple las ventajas y desventajas de un enfoque de muestreo
basado en diseno.
15. (Pregunta abierta) Pensando en un enfoque de muestreo basado en modelos, explique por que es
posible tener tamanos de muestra muy pequenos en este .approach
16. (Pregunta abierta) Explique como es posible que el enfoque basado en diseno pueda utilizar disenos
de muestreo (o probabilidades de inclusion) arbitrarias y a la vez no se considera un enfoque subjetivo?
18. (Pregunta abierta) Comente por que no es posible determinar que una muestra es probabilstica si solo
se observa la muestra extrada.
22. (Pregunta abierta) Para que me sirve determinar p(s) y k en todo este asunto del muestreo que
vemos en el curso. Que importancia tiene cada uno en la teora vista?
23. (Pregunta abierta) Es posible (y por que?) utilizar tecnicas de muestreo que hemos visto con muestras
no probabilsticas?
26. (Pregunta abierta) Y la variable de estudio, es una variable aleatoria. S, no, por que?
27. (Pregunta abierta) Un estimador de un parametro tiene variabilidad. S, no, por que?
28. (Pregunta abierta) Explique como es eso de que un estimador estima un parametro. Que es un
estimador? Como funciona con peras y manzanas Que quiero de un estimador y como me aseguro
de que eso que quiero suceda? Explquelo a un nino pregunton.
29. (Pregunta abierta) De donde viene la variabilidad en el muestreo bajo el enfoque basado en diseno?
30. (Pregunta abierta) La variabilidad en el muestreo basado en diseno la puedo controlar o mnimo
describir? Para que me interesa controlarla o describirla? Como? Mediante que? Explique.
32. (Pregunta abierta) Que es la distribucion muestral? Que me dice? Es facil obtenerla siempre. S,
no, por que? En caso de que no, Que puedo hacer entonces?
33. (Pregunta abierta) Por que nos importa estimar en todo momento la media y la varianza de un
estimador? Como se conecta con el concepto de la distribucion muestral?
34. (Pregunta abierta) Que tiene que ver con la calidad del diseno de muestreo que utilicemos el calculo
o estimacion de la varianza?
35. (Pregunta abierta) Como se relaciona en general un total, una media y una proporcion?
36. (Pregunta abierta) Si la calidad de un estimador, una de las caractersticas de las que depende es el
sesgo de este, Que significa que un estimador sea insesgado formalmente hablando? Y que significa
en palabras coloquiales como las entendera para un poltico o cliente comercial?
37. (Pregunta abierta) Es lo mismo hablar del sesgo de un estimador que de que una muestra tiene sesgo,
como habla coloquialmente la gente ajena a tecnicas de muestreo? S, no, explique ampliamente.
38. (Pregunta abierta) Por que formalmente hablando no existe una estimacion insesgada?
39. (Pregunta abierta) Explique como se construye una distribucion muestral de un estimador? Explique
como para un chavito de preparatoria.
40. (Pregunta abierta) Hasta lo que hemos visto, si se quisieran mejorar las estimaciones. En que elementos
tengo control (es decir, no depende del azar) y que cosa usted podra alterar o mejorar?
41. (Pregunta abierta) En poblaciones finitas, es posible determinar todas las muestras posibles? Sirve
de algo eso en la practica, necesito listarlas todas?
42. (Pregunta abierta) Para que nos sirve el coeficiente de variacion estimado? Explique su utilidad practica
a un subalterno que estudio matematicas.
43. (Pregunta abierta) Como explicarle a un poltico o a un nino en terminos coloquiales en realidad
que hace el coeficiente de variacion? Ejemplifique si lo considera pertinente.
44. (Pregunta abierta) En palabras, sin formulas ni notacion matematica. . . De que se trata el uso de
los estimadores o de Narain-Horvitz-Thompson? Cual es la idea intuitiva que hay detras? Explique
ampliamente de manera simple. Ejemplifique si lo considera pertinente.
45. (Pregunta abierta) Que restricciones hay en las probabilidades de inclusion para poder utilizar los
estimadores de Narain-Horvitz-Thompson? Que restricciones tengo para establecerlas?
46. (Pregunta abierta) Que es la fraccion de muestreo y que informacion me da si la tengo terminos
porcentuales?
47. (Pregunta abierta) Explique que significa estratificar en terminos practicos y en terminos matematicos?
48. (Pregunta abierta) Por que se recomienda estratificar como una tecnica util para mejorar estimaciones?
Como convencera a su jefe ignorante en muestreo sin tanto tecnicismo?
49. (Pregunta practica abierta) Suponga que tiene un marco muestral de 40mil registros. Usted sabe
de antemano que la variable Z, disponible en su marco, es dealpara utilizarse como variable de
estratificacion. Desafortunadamente, no todos los registros en su marco tienen registros de esa variable.
Aproximadamente un 20 % de su marco muestral no presenta informacion sobre tal variable. Cual es
la mejor alternativa que usted sugerira? Discuta ampliamente las otras alternativas y por que lo que
propone es mejor. Convenza al jefe que estudio medicina.
50. (Verdadero o Falso con justificacion) La funcion diseno de muestreo es la que determina las propiedades
estadsticas del estadstico que estoy utilizando como estimador.
51. (Verdadero o Falso con justificacion) En muestreo directo de elementos, es decir en 1 etapa, y bajo un
diseno SI se requiere forzosamente tener el marco muestral completo que identifique a los elementos
de la poblacion.
52. (Verdadero o Falso) Si se incorporan mas etapas al diseno de muestreo regularmente se aumenta la
varianza del estimador.
53. (Verdadero o Falso) La ventaja principal de las muestras probabilsticas sobre las no probabilsticas es
que no hay errores no muestrales.
54. Para mejorar la precision en un diseno de muestreo de varias etapas se sugiere tratar de aumentar el
tamano de muestra de las unidades primarias de muestreo, es decir el numero de elementos a muestrear
en la primera etapa. Muchas veces esto tiene que hacerse disminuyendo el numero de unidades ultimas
de muestreo para no afectar el tamano de muestra global.
55. (Verdadero o Falso con justificacion) Es posible obtener muestras insesgadas incluso bajo disenos de
muestreo diferentes al SI.
56. (Verdadero o Falso con justificacion) El tamano de muestra se determina mayormente por el tamano
de la poblacion objetivo.
57. (Verdadero o Falso con justificacion) En un muestreo SI. Si censamos se obtiene una varianza del
estimador igual a cero y tambien la estimacion de la varianza del estimador es igual a cero.
58. (Verdadero o Falso con justificacion) Una proporcion es una media de variables continuas.
59. (Verdadero o Falso) En el muestreo aleatorio simple, todas las muestras tienen la misma probabilidad
de ser extradas.
60. (Verdadero o Falso) En el muestreo aleatorio simple estratificado, todos los elementos de la poblacion
tienen la misma probabilidad de ser seleccionados.
61. (Verdadero o Falso) En el muestreo aleatorio simple, todos los elementos de la poblacion tienen la
misma probabilidad de ser seleccionados.
62. (Verdadero o Falso con justificacion) Para mejorar la precision en un diseno de muestreo se sugiere
aumentar el tamano de muestra.
63. (Verdadero o Falso con justificacion) Siempre que tenga un nivel de precision en los dominios de
estimacion, al combinar las estimaciones para dar una estimacion global, el nivel de precision de la
estimacion global es mejor que el de la estimacion por dominios.
64. (Verdadero o Falso con justificacion) Para estimar proporciones se pueden usar practicamente las
mismas expresiones matematicas que para estimar medias.
65. (Verdadero o Falso con justificacion) El muestreo polietapico, es decir en mas de dos etapas de muestreo
requiere forzosamente de un marco muestral completo que identifique a todas las unidades ultimas de
muestreo.
66. (Verdadero o Falso con justificacion) El deff teorico para cualquier estimador del diseno SI es igual a
cero siempre. Esto por su definicion.
67. (Verdadero o Falso con justificacion) Siempre que utilizamos conglomeracion se aumenta la precision
en mis estimaciones.
68. (Verdadero o Falso con justificacion) Segun la teora vista en el curso. El esquema real de muestreo
puede ser diferente a mi funcion diseno de muestreo al momento de estimar. Se vale y es correcto.
69. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en un diseno de
muestreo en varias etapas se sugiere reducir el numero de etapas, es decir dejar de conglomerar para
algunas etapas.
70. (Verdadero o Falso con justificacion) El coeficiente de variacion (teorico, no estimado) puede tener
valores iguales a cero si censo.
71. (Verdadero o Falso con justificacion) El error estandar y la desviacion estandar no son lo mismo.
72. (Verdadero o Falso) Si muestreamos bajo el enfoque basado en modelos lo estocastico o variabilidad
esta en el componente aleatorio del modelo.
73. (Verdadero o Falso con justificacion) No se pueden calcular errores de estimacion con muestreo no
probabilstico. Por eso no tiene sentido calcular un tamano de muestra.
74. (Verdadero o Falso con justificacion) Para calcular un tamano de muestra a cierta precision y confianza
necesito siempre el supuesto de Normalidad.
75. (Verdadero o Falso con justificacion) Una manera de estimar a N , el tamano de la poblacion, es
sumando los factores de expansion de los individuos cados en muestra.
76. (Verdadero o Falso) La probabilidad de inclusion conjunta para el par de elementos (k, k), es igual a
la probabilidad de inclusion de primer orden del elemento k.
77. (Verdadero o Falso con justificacion) Es posible tener probabilidades de inclusion de primer orden igual
a n/N y tener un diseno de muestreo p() distinto del muestreo SI.
78. (Verdadero o Falso con justificacion) No se puede estimar puntualmente una proporcion si no se
conocen sus probabilidades kl .
79. (Verdadero o Falso con justificacion) Con las expresiones que vimos en clase, no es posible calcular la
varianza con un tamano de muestra menor a 2.
80. (Verdadero o Falso con justificacion) Las probabilidades de inclusion de primer orden son iguales a las
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo aleatorio simple.
81. (Verdadero o Falso con justificacion) El tamano de muestra se determina mayormente por el tamano
de la poblacion objetivo.
82. (Verdadero o Falso con justificacion) Es conservador que la estimacion de varianza de un estimador
tenga un sesgo negativo a uno positivo. Es decir, es conservador obtener errores estandares ligeramente
sub-estimados.
83. (Verdadero o Falso con justificacion) En las expresiones de estimacion puntual de Narain-Horvitz-
Thompson las probabilidades de inclusion pueden ser arbitrarias sin restriccion.
84. (Verdadero o Falso con justificacion) Los .errores no muestralessiempre son pequenos en comparacion
a los errores muestrales.
85. (Verdadero o Falso con justificacion) Al incorporar mas etapas al diseno de muestreo se puede perder
el insesgamiento del estimador puntual lineal.
86. (Verdadero o Falso con justificacion) Siempre que la poblacion es mucho mas grande, la muestra tiene
que ser mucho mas grande.
87. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en una etapa especfica
de muestreo se sugiere disminuir el numero de unidades muestrales correspondientes a esa etapa.
88. (Verdadero o Falso con justificacion) Se necesitan al menos tanta cantidad de estratos como cantidad
de dominios de estudio tengo planeados.
89. (Verdadero o Falso) Si censamos una poblacion de elementos tenemos una fraccion de muestreo de 1.
90. (Verdadero o Falso con justificacion) De acuerdo a la teora vista en el curso. El total de elementos en
mi poblacion a los que les asigno probabilidad k = 1 no puede ser mayor al tamano de muestra n.
91. (Verdadero o Falso con justificacion) Si sumamos las probabilidades de inclusion de los elementos en
toda mi poblacion obtenemos exactamente el valor n.
92. (Verdadero o Falso con justificacion) Cuando usamos muestreo aleatorio simple no podemos asumir el
gran supuesto estadstico de tener observaciones independientes identicamente distribuidas.
93. (Verdadero o Falso con justificacion) Siempre que la poblacion es mas chica mejora la precision de mis
calculos.
94. (Verdadero o Falso con justificacion) Por su definicion, kl es la correlacion de las indicadoras de
inclusion muestral de los elementos k y l.
95. (Verdadero o Falso con justificacion) Un parametro tiene variabilidad y esta se mide por la varianza de
este, pero para calcular su varianza se requiere de toda la informacion de la poblacion.
96. (Verdadero o Falso con justificacion) Cuando alcanzo cierto error estandar en mis estimaciones globales,
si quiero dar resultados por sub-poblaciones, dominios o cruces, estos tendran un error estandar mas
grande.
97. (Verdadero o Falso con justificacion) Las probabilidades de inclusion de primer orden son iguales a las
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo aleatorio simple.
98. (Verdadero o Falso con justificacion) Las probabilidades de inclusion de primer orden son iguales a las
probabilidades de inclusion conjuntas si trabajamos con un diseno de muestreo Bernoulli.
99. (Verdadero o Falso con justificacion) Siempre que se quiera mejorar la precision en un diseno de
muestreo se sugiere estratificar.
100. (Verdadero o Falso con justificacion) La varianza del estimador de un parametro en un muestreo
estratificado aleatorio simple es casi siempre menor que la varianza si no hay estratos y se utilizo un
muestreo aleatorio simple.
101. (Verdadero o Falso con justificacion) Siempre se disminuye la varianza del estimador si se aumenta el
tamano de muestra en un diseno SI.
102. (Verdadero o Falso con justificacion) De acuerdo al curso. No es posible asignar probabilidades de
inclusion 1 a algunos elementos en el marco muestral porque no estaramos haciendo muestreo proba-
bilstico.
103. (Verdadero o Falso con justificacion) Si estratificamos un diseno de muestreo (sin importar si es un
diseno de muestreo de mas de una etapa), esta puede hacer perder al estimador lineal su insesgamiento.
104. (Verdadero o Falso con justificacion) No es posible tener tamano de muestra 1 en un estrato, aun
cuando su tamano poblacional sea 1.
105. (Verdadero o Falso con justificacion) No existen restricciones en el tamano de muestra asignado a los
estratos cuando se incorpora una estratificacion al diseno de muestreo utilizado.
106. (Verdadero o Falso con justificacion) En un muestreo en varias etapas. No es posible utilizar la muestra
de la etapa anterior como poblacion para extraer muestras en la etapa siguiente.
107. (Ejercicio algebraico) Vimos en clase (y usted demostro como tarea opcional) que:
Resultado 5.3.1.1 Para un diseno de muestreo p(s) arbitrario, y para k, l = 1, . . . , N ,
E(Ik ) = k
V (Ik ) = k (1 k )
def
C(Ik , Il ) = kl k l = kl
Sea ns el tamano de muestra para cualquier diseno de muestreo, tenemos que este puede expresarse
P
en terminos de las indicadoras de inclusion muestral Ik como: ns = U Ik .
X
V (ns ) = k (1 k ) +
U
!2
X
= k +
U
253
Emilio Lopez Escobar EST-24104: Estadstica Aplicada I
R
smbolos para graficos, 205
sesiones practicas, 213