Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
INTRODUCCIN AL MUESTREO
Los especialistas usan la palabra poblacin para referirse a todo los
elementos que han sido escogidos para su estudio; y la palabra muestra
para describir una porcin escogida de la poblacin.
ESTADISTICAS Y PARAMETROS
Cuando la media, mediana, moda y desviacin estndar describen
caractersticas de una muestra, se denominan estadsticas; cuando
describen las caractersticas de una poblacin se llaman parmetros.
TIPOS DE MUESTREOS
Utilizamos muestreos porque en algunos casos medir una poblacin
completa no puede ser factible debido al tiempo y costos que conlleva.
Existen dos tipos:
No aleatorio o de juicio: se emplea el conocimiento y la opinin personal
para identificar a los elementos de una poblacin que deben incluirse en
una muestra.
Probabilidad: todos los elementos de la poblacin tienen la posibilidad de
ser elegidos. Incluyen un anlisis mayor estadstico y de planeacin,
toman as tiempo y dinero que las muestras subjetivas.
o Aleatorio simple: cada posible muestra tiene igual probabilidad de ser
seleccionada y cada elemento de la poblacin tiene igual oportunidad
de ser incluido en la muestra.
o Sistemtico: cada elemento tiene igual probabilidad de ser incluido pero
cada muestra no tiene la misma oportunidad de ser elegida.
Estadstica 2|1
DISEO DE EXPERIMENTOS
Definimos un evento como uno o ms de los resultados posibles de
hacer algo, y un experimento como la actividad que tendra como resultados
tales eventos.
FASES
1.
2.
3.
4.
5.
6.
DISTRIBUCION DE MUESTREOS
POBLACIONES NORMALES
x =
Estadstica 2|2
z=
x
x
POBLACIONES NO NORMALES
TEOREMA DEL LIMITE CENTRAL
La media de la distribucin de muestra de la media ser igual a la media
de la poblacin, sin importar el tamao de la muestra; la distribucin de
muestreo de la media se acercara a la normalidad, sin importar la forma de
la distribucin de la poblacin.
El teorema del lmite central asegura que la distribucin de muestreo de
la media se aproxima a la normal al incrementarse el tamao de la muestra.
La distribucin de muestreo de la media tendr distribucin
aproximadamente normal:
Para la mayora, sin importar la 30 observaciones
forma
Distribuciones bastante simtricas
15 observaciones
Distribucin normalmente
Siempre
La importancia del teorema del lmite central es que nos permite usar
estadsticas de muestras para hacer inferencias con respecto a los
parmetros de poblacin, sin saber sobre la forma de la distribucin de
frecuencia de esa poblacin ms lo que podamos obtener en la muestra.
Nn
N 1
x =
N n
n N1
ESTIMACION
Los administradores utilizan estimaciones porque deben tomar
decisiones racionales sin contar con la informacin pertinente completa y
con una cuota de incertidumbre de lo que el futuro pueda deparar.
Estadstica inferencial: tcnicas que permiten dar considerado plausible
acerca de un valor de parmetro poblacional de inters.
En la inferencia estadstica, debemos tomar los resultados de una sola
muestra y llegar a conclusiones acerca de la poblacin, y no al contrario.
Estadgrafos: medidas anlogas obtenidas a partir de datos muestrales.
Tambin conocidos como estimadores. Se utilizan para proporcionar una
idea del valor de a media poblacional correspondiente, pero solo
considerando los datos muestrales.
TIPOS DE ESTIMACIONES
Una estimacin puntual es un solo nmero que se utiliza para estimar un
parmetro de poblacin desconocido. A menudo, una estimacin puntual
solo tiene dos opciones: correcta o equivocada, por eso es mucho ms til si
viene acompaada por una estimacin del error que podra estar implicado.
Una estimacin de intervalo es un conjunto de valores que se utiliza
para estimar un parmetro de la poblacin. Una estimacin de este tipo
indica el error de dos maneras: por la extensin del intervalo y por la
probabilidad de que el verdadero parmetro poblacional se encuentre
dentro del intervalo.
ESTIMADOR Y ESTIMACIONES
Un estimador es un estadstico de la muestra utilizado para estimar un
parmetro poblacional.
Una estimacin es un valor especfico observado de un estadstico que
resulta de la muestra particular observada.
Estadstica 2|4
ESTIMACIONES PUNTUALES
La media de la muestra es el mejor estimador de la media de la
poblacin. Es insesgada, consistente el estimador ms eficiente y, siempre y
cuando la muestra sea suficientemente grande, su distribucin muestral
puede ser aproximada por medio de la distribucin normal.
DESVIACION ESTANDAR
s 2=
s 2=
( x x )2
n1
( x x )2
n
Muestra
Poblacin
Estadstica 2|5
2 ,
3 , y as sucesivamente.
la poblacin.
[ LI ; LS ] = x Z 1
2
; x + Z
]
Estadstica 2|6
1,96
2,575
1,645
x xitos
p= =
n tamao
Para derivar la media y la desviacin estndar de la distribucin
nominal:
=np; =npq
[LI ; LS]= pZ
1
2
P ( 1 p )
P (1 p )
; p+ Z
1
n
n
2
z=
P1P
P (1 p )
n
^p =
pq
n
^p q^
^ ^p =
n
ESTIMACIONES DE INTERVALOS CON LA DISTRIBUCION t
El uso de la distribucin t para hacer estimaciones se requiere siempre
que el tamao de la muestra sea menor o igual a 30 no est muy sesgada y
la desviacin estndar de la poblacin no se conozca. Adems, al utilizar la
distribucin t suponemos que la distribucin poblacional es normal o
aproximadamente normal.
Fue estudiada por Gasset.
CARACTERISTICAS DE LA DISTIBUCION t
La distribucin t y normal tienen relacin. Ambas son simtricas,
acampanadas. En general, la distribucin t es ms plana que la distribucin
normal y hay una distribucin t para cada tamao posible de muestra. Aun
as, conforme el tamao de muestra o grados de libertad se hace ms
grande, la forma de la distribucin t deja de ser plana y se aproxima ms a
la normal. Esto se debe a que conforme aumenta el tamao de la muestra,
la desviacin de la muestra se vuelve una mejor estimacin de la desviacin
de la poblacin.
Con un tamao de muestra aproximadamente 120 o mayor, S estima a
, con suficiente precisin, de modo que existe poca diferencia entre las
distribuciones t y Z. Por esta razn, cuando la muestra es mayor a 120 se
utiliza la distribucin Z en lugar de la distribucin t.
La distribucin t tiene ms rea en los extremos y menos en la parte
central que en el caso de la distribucin normal.
Estadstica 2|8
GRADOS DE LIBERTAD
Podemos definirlos como el nmero de valores que podemos escoger
libremente. Utilizaremos los grados de libertado cuando elijamos una
distribucin t para estimar una media de poblacin, y utilizaremos n-1
grados de libertas, cuando n es igual al tamao de la muestra.
La varianza es mayor a 1. Cuanto ms grados de libertad tenga, la
varianza es ms cercana a 1 y ms se aproximan las distribuciones.
La idea de grados de libertad remite a la cantidad de valores de una
muestra que podra asumir cualquier calor. Cada restriccin impuesta en la
observacin, hace perder un grado de libertad.
Estadstica 2|9
x 100
2
de la
estadstica.
1
X t S 1+
n
DETERMINACION DEL TAMAO DE MUESTRA EN ESTIMACION
Se presentara cierto grado de error de muestreo por no estudiar la
poblacin completa. Siempre que tomamos una muestra, perdemos algo de
informacin til de la poblacin. Si queremos tener un alto nivel de precisin
debemos muestrear la poblacin lo suficiente para asegurarnos que
obtuvimos la informacin requerida.
El error de muestreo se puede controlar si seleccionamos una muestra
con el tamao adecuado. En general, cuanta ms precisin se requiera, ms
grande ser el tamao necesario de la muestra. Tenemos que pensar en qu
tanto error podeos aceptar y todava ser capaces de obtener conclusiones
adecuadas sobre los datos.
Incluso en los casos en que el nivel de confianza y el error de muestreo
estn especificados, debemos tener disponible una estimacin de la
desviacin estndar, la podemos desarrollar apropiadamente si tomamos en
cuenta el alcance y la distribucin de la variable.
pq
=z x
n
n0=
z2 2
e2
n=
Z 2 p(1 p)
2
Debe conocerse:
1. Nivel de confianza Z
2. Error de muestreo permitido, e. 100% - X% nivel de confianza
= e
3. Desviacin estndar,
n=
n0 N
n o+( N 1)
E s t a d s t i c a 2 | 10
E s t a d s t i c a 2 | 11
PRUEBA DE HIPOTESIS
En una prueba de hiptesis, debemos establecer el valor supuesto o
hipottico del parmetro de poblacin antes de comenzar a tomar la
muestra. La suposicin que deseamos probar se conoce como hiptesis nula
y se simboliza H0.
Un valor hipottico de una media de poblacin seria: H 0.
Si los resultados de nuestra muestra no respaldan la hiptesis nula,
debemos concluir que se cumple alguna otra cosa. Siempre que rechazamos
la hiptesis, la conclusin que s aceptamos se llama hiptesis alternativa
cuyo smbolo es H1.
La distribucin de muestreo de la estadstica de prueba se divide en dos
regiones: una regin de rechazo o crtica y una regin de no rechazo. Si la
estadstica de prueba cae dentro de la regin de no rechazo, no se puede
rechazar la hiptesis nula.
La regin de rechazo puede considerarse como el conjunto de valores de
la estadstica de prueba que no tienen posibilidad de presentarse si la
hiptesis nula es verdadera. Por otro lado, estos valores no son tan
improbables de presentarse si la H0 es falsa. En consecuencia, si
observamos un valor de la estadstica de prueba que cae en esta regin
critica, rechazamos la H0 porque el valor seria improbable si sta fuera
verdadera.
Con el fin de tomar una decisin con respecto a la H0, primero debemos
determinar el valor crtico de la estadstica de prueba. El valor crtico separa
las regiones de rechazo y no rechazo; depende del tamao de la primera,
que est relacionada con el riesgo implicado en el uso de una sola evidencia
de muestra para tomar decisiones con respecto a un parmetro de
poblacin.
ERRORES DE TIPO I Y II
Rechazar una hiptesis nula cuando es cierta se denomina error tipo I o
nivel de significacin y su probabilidad se simboliza con . Los
investigadores han elegido niveles de alfa igual o menores a 5.
Aceptar una hiptesis nula cuando es falsa se le llama error tipo II o
riesgo , y su probabilidad se simboliza con . Se conoce tambin como
nivel de riesgo del consumidor. Depende de la diferencia entre los valores
supuesto y real del parmetro de poblacin.
La probabilidad de cometer un tipo de error puede reducirse solo si
estamos dispuestos a aumentar la probabilidad de cometer el otro tipo de
error.
Con el fin de obtener una baja, tendremos que tolerar una alta. Los
tomadores de decisiones deciden el nivel de significancia adecuando
examinando los costos o la penalizacin vinculados con ambos tipos de
error.
COEFICIENTE DE CONFIANZA
Est representado por 1-, es la probabilidad de que H0 no sea
rechazada cuando de hecho es verdadera y debera ser aceptada.
Representa la probabilidad de llegar a la conclusin de que el valor
especificado del parmetro que se est probando con la H0 pueda ser
plausible.
SITUACION
H0 verdadera
H0 falsa
Confianza ( 1-)
Error tipo II
Error tipo I
Potencia (1-)
E s t a d s t i c a 2 | 14
n=
x ( Z Z )
2
(o
1 )
Se conoce
Normal, z
Normal, z
No se conoce
Normal, z
Distribucin t
E s t a d s t i c a 2 | 15
Los procedimientos
ampliamente como:
de
prueba
sin
distribucin
pueden
definirse
2. Aquellos para los cuales los datos no tienen fuerza suficiente para
garantizar operaciones aritmticas significativas, estn escalados
nominal u ordinalmente.
Los procedimientos no paramtricos pueden definirse como aquellos que
no tienen que ver con los parmetros de una poblacin.
Principales ventajas del uso de estos dos procedimientos:
en la escala original.
E s t a d s t i c a 2 | 17
z=
x H
x
x ,
estandarizada:
las
mismas
conclusiones,
p =
z=
p Ho q Ho
n
p Ho
P
p
t=
x H
x
E s t a d s t i c a 2 | 18
x 1 x 2
y es igual a
x 1 x 2 . Si ambas
x 1 x 2=
21 22
+
n1 n2
^ .
de
poblaciones
MUESTRAS GRANDES
z=
( x1 x2 ) ( 1 2 ) Ho
^ x 1x 2
MUESTRAS PEQUEAS
^ .
La estimacin conjunta de 2:
2
p
s =
1 1
^ x 1 x 2=s p
+
n1 n 2
PRUEBA DE
DEPENDIENTES
DIFERENCIAS
ENTRE
MEDIAS
CON
MUESTRAS
DOS
COLAS
PARA
DIFERENCIAS
ENTRE
x 1 x 2=
p1 q1 p2 q2
+
n1
n2
)(
^p=
n1 p 1+ n2 p2
n 1+ n2
z=
( p 1 p2 )( p 1 p2 )Ho
^ x 1x 2
X 2=
(n1) S 2
2x
E s t a d s t i c a 2 | 21
R+
W =
E s t a d s t i c a 2 | 22
'
'
'
Entonces:
'
W
Z=
n' (n +1)
4
E s t a d s t i c a 2 | 23
U
Z=
2 n1 n 2
+1
n
2n 1 n2 (2n 1 n2 n)
n2 (n1)
E s t a d s t i c a 2 | 24
t' =
( X 1 X 2 ) ( 1 2)
v=
(
S 21
n1
S1 S2
+
n1 n 2
S1 S2
+
n1 n2
2
S 22
n2
( ) ( )
+
( n11 ) ( n2 1 )
PRUEBA F PARA DIFERENCIAS ENTRE DOS VARIANZAS
La estadstica de prueba F para probar la igualdad entre dos varianzas
seria:
2
S
F= 12
S2
Al probar la igualdad de dos varianzas, se puede emplear prueba de dos
extremos o de un extremo, dependiendo de si estamos probando si las
varianzas de dos poblaciones son diferentes o si una de ellas es mayor o
igual que la otra.
Precaucin
Z=
D
D
D
n
En la que:
n
Dt
D=
t =1
E s t a d s t i c a 2 | 25
t=
D
D
sD
n
SD=
D21n D 2
t =1
n1
DE
PRUEBA
APROPIADO
PARA
Variacion
total - SST
Variacion
entre
grupos SSA
Variacion
detro de
grupos SSW
Error
experiment
al
Efecto de
tratamiento
E s t a d s t i c a 2 | 26
DESARROLLO DE ANOVA
Para llevar a cabo una prueba de ANOVA de la igual de las medias de
poblacin, subdividimos la variacin total en las mediaciones resultantes en
dos partes, la que se puede atribuir a las diferencias entre los grupos y la
que se debe a variaciones inherentes dentro de los grupos. La variacin
total generalmente se representa con la suma total de cuadrados (SST: Sum
of Squares Total). Puesto que bajo la hiptesis nula las medias de poblacin
de los c grupos se suponen iguales, se puede obtener una medicin de la
variacin total entre todas las observaciones, mediante la suma de las
diferencias al cuadrado entre cada observacin individual y la gran media o
media general,
X )2
Variacin total ( SST )= ( X
La variacin entre grupos, por lo general conocida como suma de
cuadrados entre grupos (SSA: Sum of Squares Among), se mide mediante la
suma de diferencias al cuadrado entre la media de la muestra de cada
grupo y la media general o gran media, ponderadas o pesadas con el
tamao de muestra de cada grupo. La variacin entre grupos se calcula a
partir de:
X )
Variacin entre grupos ( SSA ) = n ( X
MSA=
SSA
c1
M SW =
MS T =
SSW
nc
SST
n1
E s t a d s t i c a 2 | 27
F=
MSA
MSW
La estadstica sigue una distribucin F con c-1 y n-c gl. Para un nivel de
significacin dado, , podeos rechazar la hiptesis nula si la estadstica de
prueba excede al valor critico de extremo superior de la distribucin F.
Si la hiptesis nula fuera verdadera, deberamos esperar que la
estadstica F calculada fuera aproximadamente igual a 1, pues los trminos
cuadrticos medios tanto del numerador como del denominador son
estimaciones de la varianza verdadera, inherente a los datos.
En el otro extremo, si Ho es falsa, deberamos esperar que la estadstica
F calculada sea sustantivamente mayor que uno, pues el numerador MSA
estara estimando el efecto del tratamiento o la diferencia entre grupos,
adems de la variabilidad inherente de los datos, mientras que el
denominador, MSW, estara midiendo solamente la variabilidad inherente.
En consecuencia, el procedimiento ANOVA produce una prueba F en la cual
la hiptesis nula puede ser rechazada a un nivel de significacin ,
solamente si la estadstica F calculada es lo suficiente grande para exceder
al valor critico de extremo superior de la distribucin F, con c-1 y n-c gl.
Los resultados de un procedimiento de anlisis de varianza por lo
general se presentan en una tabla de resumen ANOVA que nos permite
llegar directamente a conclusiones con respecto a la hiptesis nula sin tener
que referirnos a una tabla de valores crticos de la distribucin F. si el valor p
es menor que el nivel elegido de significacin la hiptesis nula es
rechazada.
FUENTE
G
L
SUMAS DE
CUADRADOS
ENTRE
GRUPOS
c1
DENTRO
DE
GRUPOS
nc
2
SSW = ( X X )
TOTAL
n1
)
SST = ( X X
SSA= n ( X X )
CUADRADO MEDIO
(VARIANZA)
2
MSA=
MSW =
SSA
c1
SSW
nc
F=
MSA
MSW
PREMISAS ANOVA
En el anlisis de varianza se tienen tres suposiciones principales:
1) Aleatoriedad e independencia de errores: debe cumplirse para evitar
tendencias en los resultados. No solo se refiere a errores fortuitos, sino
tambin a la diferencia de cada valor observado respecto a la media de su
propio grupo. La premisa es que tales diferencias deben ser independientes
de cada valor observado. Esto es, la diferencia o error de una observacin
no debera estar relacionada con la diferencia o error de cualquier otra
observacin.
2) Normalidad: establece que los valores de cada grupo estn distribuidos de
manera normal. La prueba F ANOVA de una direccin es bastante robusta
respecto a las desviaciones de la distribucin normal; siempre y cuando las
distribuciones no sean extremadamente diferentes de una distribucin
normal, el nivel de significacin de la prueba de anlisis de varianza no se
ve muy afectado por la falta de normalidad, particularmente en muestras
grandes.
E s t a d s t i c a 2 | 28
DESARROLLO
La variacin entre bloques, tambin conocida como suma de cadrados
entre bloques (SSBL: Sum of Squares Among Blocks), se mide a travs de la
suma de las diferencias de cuadrado entre la media de cada bloque y la
gran media generl, esadas o ponderadas por el numero de grupos c:
2
SSBL= ( X X )
JI CUADRADA
COMO PRUEBA DE INDEPENDENCIA
La prueba de independencia permite establecer si existe o no relacin
entre variables categricas, cuando cada una de las cuales posee dos o ms
categoras.
La prueba ji-cuadrada es una prueba de carcter general que se utiliza
cuando se desea determinar si las frecuencias absolutas obtenidas en la
observacin difieren significativamente o no de las que se esperaran bajo
cierta hiptesis planteada de interrelacin de las categoras de las variables
consideradas.
En las pruebas de ji-cuadrada de independencia, siempre se coloca el
riesgo de no aceptar la hiptesis nula siendo sta cierta en el extremo
superior de valores de la distribucin.
E s t a d s t i c a 2 | 29
Tablas de contingencia
Frecuencias observadas
Ho: Pn=Ps=Pc=Pw ; H 1: Pn , Ps , Pc , Pw no son iguales
Pn es la proporcin del noreste que prefiere el plan actual
Ps sureste que prefieren plan actual
Pc proporcin central
Pw proporcin oeste
Frecuencia real:
N
ACTUAL
N NUEVO
TOTAL
N
68
S
75
C
57
W
79
TOTAL
279
32
100
45
120
33
90
31
110
141
420
N
66,43
S
79,72
C
59,79
W
73,07
TOTAL
-
33,57
-
40,28
-
30,21
-
36,93
-
Frecuencia esperada:
N
ACTUAL
N NUEVO
TOTAL
68+75+57 +79
=0,06643
100+120+ 90+110
Prefieren actual:
Prefieren lo nuevo:
106643=0,3357
El estadstico ji-cuadrada
2
( f 0 f e )
2
x =
fe
En el ejemplo es igual a 2,7638.
Si este valor fuera muy grande, indicara una diferencia sustantiva entre
los valores esperados los observados. Una ji-cuadrada igual a cero indica
que las frecuencias son exactamente iguales. Nunca puede ser negativo
porque las frecuencias estn elevadas al cuadrado.
E s t a d s t i c a 2 | 30
La distribucin de ji-cuadrada
Para un nmero pequeo de grados de libertad (gl), la distribucin jicuadrada estar seriamente sesgada a la derecha. Conforme aumentan los
gl, la curva de hace cada vez ms simtrica hasta que el nmero de grados
alcanza valores grandes, en cuyo caso puede aproximarse con la normal.
Determinacin de los gl
n gl=( n renglones1 ) x ( n columnas1 )=( r1 ) x ( c1 )
Tabla de contingencia con ms de dos renglones
RTxCT
f e=
n
f e : Frecuencia esperada en una celda dada
RT: total por rengln, para el que contiene esa celda
CT: total por columna, para la que contiene esa celda
N: nmero total de observaciones
CALIFICA
CIONES
POSITIVA
S
N
CANDI
DATOS
ENTREVI
STA 0
1
4
0,216
100
ENTREVI
STA 1
4
7
0,432
100
ENTREVI
STA 2
2
4
0,288
100
ENTREVI
STA 3
1
1
0,064
100
fe
2
= 1,
6
4
= 3,
2
2
= 8,
8
6,
=
4
fe
21,
6
43,
2
28,
8
6,4
( f of e )
f of e
( f of e )
-3,6
12,96
0,6
3,8
14,44
0,3343
-4,8
23,04
0,8
4,6
21,26
3,3063
fe
2
( f of e )
fe
=x2=5,0406
o
o
DEFECTOS
P(x)
0
1
2
3+
0,52205
0,33933
0,10519
0,03343
P ( x )=
x
x!
fe
N TOTAL
X
X
X
x
43
43
43
43
=
=
=
=
2,44815
14,59119
4,52317
1,43749
2
DEFECTOS
fe
0
1
2
3+
TOTAL
2,44815
14,59119
4,52317
1,43749
43
fo
25
10
6
2
43
f of e
2
( f of e )
-2,55185
4,59119
-1,47683
-0,56251
-
8,591193842
21,0790256
2,18102685
0,3164175
-
( f of e )
fe
0,29008798
1,444464061
0,48218989
0,22011805
2,43703653
E s t a d s t i c a 2 | 33
E s t a d s t i c a 2 | 34