Apuntes de Estadística Avanzada

APUNTES DE ESTADSTICA AVANZADA
TEMA 1: ESTIMACIN POR PUNTO

1. INTRODUCCIN.
En este curso vamos a tratar de una parte de la Estadstica denominada
Inferencia Estadstica. Veamos con un ejemplo qu es exactamente la Inferencia
Estadstica. Imaginemos que queremos determinar la edad media de los
componentes de un equipo de ftbol. Bastara con preguntar a cada uno su edad y
hacer un sencillo clculo que nos dara el valor buscado.
Pero, qu ocurrira si quisiramos conocer la edad media de la poblacin de
Crdoba? No podramos ir preguntando uno por uno pues al ser demasiado grande
la poblacin invertiramos mucho tiempo en tomar los datos a la vez que podra ser
bastante costoso. Significa esto que no podemos conocer con exactitud ese dato?
As es, no lo podemos conocer con exactitud pero si lo podemos aproximar y aqu
es donde la Inferencia Estadstica juega su papel.
La Inferencia Estadstica trabaja con subconjuntos de una poblacin, a los que
se llama muestras, y a partir de su estudio intenta sacar conclusiones acerca de
alguna caracterstica de la poblacin. En el ejemplo que nos ocupa, se tomara una
muestra de la poblacin cordobesa y a partir de sus edades se tratara de inferir
sobre la edad media poblacional.
2. CONCEPTOS PREVIOS.
Llamamos poblacin al conjunto de elementos del cual queremos estudiar
alguna caracterstica concreta, mientras que llamamos muestra a un subconjunto
de la poblacin que nos sirve para extraer conclusiones acerca de la misma.
Las caractersticas observadas en una poblacin pueden ser cuantitativas, si se
pueden expresar mediante nmeros (la edad o la altura) y cualitativas, si no se
pueden expresar mediante nmeros (el color del pelo).
Llamamos observacin a los valores que toma la caracterstica observada en
cada elemento de la poblacin.
Dado que una caracterstica toma valores concretos en cada observacin,

podemos definir las caractersticas en una poblacin como variables aleatorias que
ACADEMIA AL CUADRADO, C.B
pueden tomar un conjunto de valores (el espacio muestral de dicha variable

aleatoria) y, as, podemos demos definir tambin la poblacin como el conjunto de
valores que puede tomar dicha caracterstica (variable aleatoria).
Llamamos estadstico a una funcin de los valores de la muestra que nos sirve
para tomar decisiones acerca de la poblacin.
Continuando con el ejemplo anterior, si queremos estudiar la edad media de la
poblacin cordobesa, no podemos tomar la muestra un Sbado por la noche en los
pubs del centro, ya que obtendramos elementos con una edad parecida y la
conclusin obtenida no sera fiable ni representativa de la poblacin, pues en sta
habra otros elementos con distinta edad que no estaramos considerando. En este
caso diramos que la muestra no es representativa de la poblacin.
Por eso, si vamos a tomar conclusiones acerca de la poblacin a partir de
valores muestrales, es razonable pensar que las muestras seleccionadas sean
representativas para que sean vlidas. Y esto se consigue siempre que la eleccin
de la muestra se base en un proceso de azar, o lo que es lo mismo, que la muestra
sea aleatoria. As las conclusiones que extraeremos acerca de la poblacin sern
fiables.
Ahora bien, de qu maneras se puede elegir una muestra aleatoria? Veamos
los siguientes mtodos:
Muestreo aleatorio simple: es aquel en que las distintas observaciones se
obtienen con igual probabilidad e independientemente unas de otras. Si la
poblacin es finita se realiza con reemplazamiento, es decir, que un
elemento de la poblacin puede ser elegido varias veces.
Muestreo aleatorio irrestricto: similar al anterior pero en el caso que la
poblacin sea finita y el muestreo se realice sin reemplazamiento, de manera
que todos los elementos de la poblacin (no seleccionados previamente)
tienen la misma probabilidad de ser elegidos.
Muestreo estratificado: la poblacin se divide en varios grupos o estratos y
de cada uno de ellos se toma una muestra. Los estratos se seleccionan de
forma que sean lo ms homogneos posibles internamente y heterogneos
entre si.
Muestreo por conglomerados: la poblacin se divide en varios grupos o

conglomerados de donde se toman las correspondientes muestras. Los
conglomerados deben tomarse homogneos entre si para que cada uno de
ellos sea representativo de toda la poblacin.
Muestreo polietpico: los datos se toman en varios instantes de tiempo o
etapas.
El utilizar uno u otro sistema de muestreo depende de muchos factores. En
general se utilizar aquel diseo que proporcione la mayor informacin posible a
un coste preciso y determinado. En general, es frecuente utilizar una combinacin
de estos mtodos. Por ejemplo, un conglomerado se puede dividir en varios
estratos y con cada uno de stos realizar un muestreo aleatorio simple.
3. MTODOS DE ESTIMACIN.
Hemos comentado anteriormente que la Inferencia Estadstica trata de hacer
predicciones sobre una caracterstica poblacional en base a datos muestrales
observados. En ocasiones se est interesado en algn parmetro de la poblacin,
como la media () o la varianza ( ). De esto se encarga la Estadstica
Paramtrica. En otros casos slo queremos conocer la distribucin F(X) de la
poblacin sin hacer referencia a ningn parmetro de la misma. De esto se encarga
la Estadstica no Paramtrica.
Nos centraremos en la Estadstica Paramtrica en este captulo. Es decir,
nuestro objetivo es hacer aproximaciones sobre parmetros poblacionales a partir
de datos de una muestra. A estas aproximaciones las llamamos estimacin y a los
estadsticos que las proporcionan estimador.
Existen dos tipos de estimaciones paramtricas: por punto (cuando se da como

aproximacin un solo valor) y por intervalo (cuando la aproximacin es un
intervalo que contenga al parmetro con una cierta probabilidad). Nos centraremos
ahora en los mtodos de estimacin por punto y ms concretamente en el mtodo
de mxima verosimilitud.
4. MTODO DE MXIMA VEROSIMILITUD.

Supongamos una poblacin W de la que queremos estudiar una caracterstica X
y para ellos tomamos una muestra de tamao n. Denotemos a dicha muestra por
(Xi) con i = 1, 2, , n.
Cada Xi tomar un valor de entre un conjunto de valores posibles, esto es, cada
Xi ser una variable aleatoria independiente de las dems. Podemos, entonces,
considerar la muestra como una variable aleatoria n-variante, donde (X 1, X2, ,
Xn) se denomina muestra genrica y (x1, x2, , xn) se denomina muestra
concreta (cuando cada Xi toma valores concretos).
Al ser las n variables aleatorias independientes, la probabilidad de que la
muestra tome los valores (x1, x2, , xn) ser:
Y como la probabilidad de la una variable aleatoria tome un valor determinado

es igual al valor de la funcin f de probabilidad (si la variable es discreta) o de
densidad (si la variable es continua) en ese punto, se tendr:
A esta funcin se le denomina funcin de verosimilitud y se denota por

aunque en la mayora de los casos esta funcin de verosimilitud depende de un
parmetro
por lo que es usual escribirla as
El mtodo de mxima verosimilitud se utiliza para estimar estos parmetros en

poblaciones de las que se conoce su distribucin y, en consecuencia, su funcin de
probabilidad o de densidad y se basa en la idea de que un buen estimador del
parmetro podra ser aquel que maximice la probabilidad de seleccionar una
muestra concreta o lo que es lo mismo de que la variable tome los valores (x 1, x2,
, xn). Es decir, en maximizar la funcin de verosimilitud.
Sin embargo, es frecuente no maximizar la funcin de verosimilitud sino su
logaritmo neperiano. Esto es debido a que una funcin no negativa (y la funcin de
verosimilitud lo es puesto que es una funcin de probabilidad) alcanza su mximo
en los puntos que su logaritmo neperiano. En efecto:
Si tenemos
su mximo se obtendr donde
. Supongamos
Su mximo se alcanzar donde

, esto es, donde
. El hecho de
maximizar el logaritmo neperiano se debe a que para ello tenemos que derivar y es
ms sencillo derivar el logaritmo de la funcin de verosimilitud que la propia
funcin de verosimilitud. Vemoslo con un ejemplo.
EJEMPLO 1
Obtener el estimador de mxima verosimilitud del parmetro p de una
distribucin binaria de la que se ha extrado una muestra de tamao n.
Recordemos que una distribucin binaria es una distribucin de probabilidad
discreta donde slo existen dos posibles resultados: xito (cuya probabilidad es p)
y fracaso (cuya probabilidad es 1-p). Su funcin de probabilidad es:
Elegida una muestra al azar de tamao n (x 1, x2, , xn), construimos la funcin

de verosimilitud:
En consecuencia:
Tomamos logaritmos neperianos:
Maximizamos la funcin derivndola el igualando a cero:
Operando se obtiene:
Por tanto el estimador mximo verosmil del parmetro p de una distribucin

binaria es la media muestral:
EJEMPLO 2
Obtener el estimador de mxima verosimilitud del parmetro de una
distribucin de Poisson de la que se ha extrado una muestra de tamao n.
Recordemos que una distribucin de Poisson es una distribucin de
probabilidad discreta cuya funcin de probabilidad es:

de verosimilitud:
En consecuencia:
Maximizamos la funcin derivndola el igualando a cero:
Observamos que el estimador mximo verosmil del parmetro de una

distribucin de Poisson es tambin la media muestral.
EJEMPLO 3
Obtener los estimadores de mxima verosimilitud de los parmetros "" y
" "de una distribucin Normal de la que se ha extrado una muestra de
tamao n.
Recordemos que una distribucin Normal es una distribucin de probabilidad

continua cuya funcin de densidad es:

de verosimilitud:
En consecuencia:
Derivamos esta funcin respecto a :
Derivamos ahora respecto de
5. PROPIEDADES DE LOS ESTIMADORES.

Hemos visto en el apartado anterior que la media muestral es el estimador
mximo verosmil de la media poblacional y que la varianza muestral es el
estimador mximo verosmil de la varianza poblacional. La pregunta que nos
ocupa ahora es, son stos los nicos estimadores? La respuesta es que no y por
tanto cabe plantearse si de entre todos los estimadores de un parmetro hay alguno
que tenga preferencia de ser elegido, es decir si hay alguno que sea preferido frente
a los dems.
Para responder a esta pregunta enunciaremos una serie de propiedades que son
deseables para que un estimador sea considerado como buen estimador.
INSESGADEZ.
Decimos que un estimador
del parmetro
es insesgado si su esperanza
matemtica coincide con el valor del parmetro estimado. Esto es:
10
Por el contrario diremos que es sesgado cuando no ocurre lo anterior, es decir:
donde
se denomina sesgo del estimador.
EJEMPLO 4
Demostrar que la media muestral
poblacional .
es un estimador insesgado de la media
Para ello se deber cumplir:
En efecto:
Mediante un procedimiento similar se demuestra que la varianza muestral es un

estimador sesgado de la varianza poblacional, ya que:
EFICIENCIA.
11
Consideremos todos los posibles estimadores insesgados de un parmetro ,

ser ms eficiente el que presente menor varianza. Por tanto un estimador ser
eficiente si posee la mnima varianza. En trminos relativos lo podemos enunciar
de la siguiente forma:
Si
son dos estimadores insesgados de un parmetro
ms eficiente que
si
, se dice que
es
CONSISTENCIA.
Se dice que un estimador de un parmetro es consistente si, a medida que
aumenta el tamao de la muestra, el estimador se aproxima ms al parmetro que
estima. Matemticamente lo podemos expresar as:
SUFICIENCIA.
Se dice de un estimador que es suficiente cuando es capaz de extraer de los
datos toda la informacin importante sobre el parmetro.
TEMA 2: ESTIMACIN POR INTERVALO

1. INTRODUCCIN.
12
Hemos visto en el tema anterior un mtodo de estimacin de parmetros que

consista en dar un slo valor como estimacin de un parmetro. Esto presenta un
inconveniente y es que difcilmente la estimacin dada ser exactamente igual al
valor del parmetro que se estima, es decir, estamos seguros de que cometemos un
error. Pero lo realmente grave no es que cometamos un error sino que no sabemos
qu magnitud tiene, es decir, no sabemos si nos equivocamos en una unidad o en
veinte.
Para solventar esto existe otro mtodo de estimacin llamado estimacin por
intervalo que consiste en dar como estimacin un conjunto de valores (intervalo)
en el que, con una cierta probabilidad, se encuentre el parmetro a estimar.
A esta probabilidad de que el parmetro se encuentre dentro del intervalo
obtenido se le llama nivel de confianza y se denota por
, mientras que la
probabilidad de que el parmetro no est dentro del intervalo se le llama nivel de
significacin y se denota por
El mtodo que utilizaremos para construir intervalos de confianza se basar en

partir de un estimador insesgado del parmetro a estimar (por ejemplo si queremos
estimar la media poblacional partiremos de su estimador insesgado que es la media
muestral), y dado que dicho estimador seguir una distribucin conocida,
buscaremos dos valores de dicha distribucin tales que la probabilidad que quede
entre ellos sea
. As obtendremos un intervalo centrado en un estimador
insesgado del parmetro a estimar y con la probabilidad

dentro de l el parmetro.
deseada de encontrar
2. INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL.

Utilizaremos para este intervalo la media muestral ( ) que es un estimador
insesgado de la media poblacional . Distinguiremos los casos en que se conozca
la desviacin tpica de la poblacin o no se conozca.
Si se conoce .
13
Supongamos una poblacin que sigue una distribucin normal del media y
varianza 2, N(, 2). Tomada una muestra de tamao "n", la media de dicha
muestra
seguir una distribucin N
Tipificando se tiene
, cuya desviacin tpica ser
. Buscaremos entonces en la distribucin normal
estndar dos valores tales que exista una probabilidad
encuentre el estadstico
de que entre ellos se
Es claro que si tenemos dos valores Z 1 y Z2 que dejan entre ellos una
probabilidad
, el que est ms a la derecha dejar a su
derecha una probabilidad de
y el que est ms a la
izquierda dejar a su derecha una probabilidad de
. Es
por esto que a los valores de Z obtenidos los llamaremos

y . Sin embargo, y
dado la simetra de la distribucin normal, estos valores sern iguales pero de signo
contrario, por lo que se conviene en llamarlos
Entonces podemos decir que la probabilidad de que un valor se encuentre

entre
es igual a
, lo que nos llevara a escribir:
Multiplicando los tres miembros de la desigualdad por
Restando en los tres miembros de la desigualdad
14
se obtiene:
obtenemos:
Multiplicando toda la desigualdad por -1 cambiar el sentido de los signos y se

obtendr:
que podemos reescribir de la siguiente forma:
La expresin anterior nos indica que la probabilidad de que la media

poblacional
se encuentre entre los dos valores obtenidos es igual a
que el intervalo de confianza para la media al nivel
, por lo
ser:

As este intervalo estar centrado en
valores con una confianza de
y dado que
15
se encuentra entre dichos
, lo ms alejado que puede estar
de
es
que sera el error mximo admisible para ese nivel de confianza. Por tanto:
EJEMPLO 1
Se considera una muestra aleatoria de 10 consumidores mayores de edad
que en las rebajas de invierno gastaron: 65, 72, 74, 75, 80, 81, 82, 84, 87 y 90
euros respectivamente. Sabiendo que el gasto por persona sigue una
distribucin normal de media desconocida y desviacin tpica de 20 euros,
hallar un intervalo de confianza para el gasto medio poblacional con un nivel
de confianza del 95%.
Del enunciado se desprende que tenemos que construir un intervalo de
confianza al 95% para la media poblacional (gasto medio) conocida la desviacin
tpica poblacional que nos dicen que es 20. Dicho intervalo ser:
Al
ser
el
nivel
de
confianza
del
95%
esto
implica
que
. Luego nosotros calcularemos

, es
decir la z que deja a su derecha una probabilidad de 0,025. Dicho valor mirado en
tablas (se puede obtener por PQRS o cualquier otro software) es 1,96. Por tanto
(esta ser la
de nuestro intervalo).
16
Por otro lado, necesitamos conocer la media muestral, que es fcil obtener a
partir de las observaciones:
Ahora ya podemos calcular los extremos del intervalo que ser:
EJEMPLO 2
Las tensiones de ruptura de los cables fabricados por una empresa siguen
una distribucin normal N(,120). A partir de una muestra de 70 cable se ha
obtenido una tensin media de ruptura de 2100 kilos.
(a) Hallar un intervalo de confianza al 95% para la tensin media de
ruptura.
(b) Hallar el tamao que debe tener la muestra para obtener u intervalo
de confianza al 99% con una amplitud igual al anterior.
(a) Del enunciado se desprende que tenemos que construir un intervalo de
confianza al 95% para la media poblacional (tensin media) conocida la desviacin
tpica poblacional que nos dicen que es 120. Dicho intervalo ser:
Al ser el nivel de confianza del 95% (igual que en el ejemplo 1) ya sabemos

que
En este caso no hay que calcular la media muestral pues ya nos la da como dato
el enunciado, luego el intervalo de confianza al 95% ser:
(b) Ahora el nivel de confianza es el 99%. Calculemos entonces la

corresponde a este nivel de confianza.
17
que
Entonces miramos en tablas

, es decir, la z que deja a su derecha una
probabilidad de 0,005 y obtenemos que dicho valor es 2,575.
Por otro lado, como nos dicen que la amplitud del nuevo intervalo debe ser
igual que la del apartado (a), calculamos dicha amplitud:
En la figura hemos representado el intervalo cuyo centro es
son
y sus extremos
con lo que concluimos que la amplitud del intervalo es:
Entonces la amplitud del intervalo del apartado (a) es:
.
La amplitud del nuevo intervalo, construido al 99%, deber ser la misma.
Siendo ahora
, se tendr:
18
De aqu despejando n se obtiene n = 120,83, aproximadamente n = 121.

POBLACIN FINITA E INFINITA.
En los dos ejemplos anteriores, slo se nos da informacin sobre el tamao de
la muestra (n) pero no de la poblacin de la que se extrae la muestra. En tal caso
consideramos la poblacin infinita y utilizaremos el intervalo hallado.
Pero si tenemos informacin acerca del tamao de la poblacin (N) tendramos
que considerar dos circunstancias por las que podramos considerar la poblacin
como finita. Una es que la muestra sea mayor o igual de 20 y otra que el cociente
y, en tal caso, tendramos que corregir el intervalo con el factor de
correccin
, con lo que el intervalo quedara de la siguiente manera:
siendo en este caso el error

Por ltimo para una distribucin no normal utilizaremos el mismo intervalo
hallado para la distribucin normal siempre que
Si no se conoce .
Cuando no conocemos la varianza poblacional, la media muestral se distribuye
de la siguiente forma:
donde es la cuasi-desviacin tpica muestral y

grados de libertad.
19
es una t de Student con n - 1
Tendremos, por tanto que encontrar en la distribucin t-Student dos valores

tales que exista una probabilidad
, que denominaremos
llamaremos
de que entre ellos se encuentre el estadstico
, pero por simetra de la t-Student los
ya que coincidirn en valor pero con signo contrario.
Siguiendo el mismo procedimiento anterior, podremos escribir:
Multiplicando toda la desigualdad por
se tiene:
Restando en los tres miembros de la desigualdad
obtenemos:
20
Multiplicando toda la desigualdad por -1 cambiar el sentido de los signos y se

obtendr:
que reescribimos as:
La expresin anterior indica que la probabilidad de que la media poblacional se

encuentre entre esos dos valores es
confianza a ese nivel, de manera que:
Aqu el error sera
y, por lo tanto, constituye un intervalo de
e igualmente sirve aqu lo comentado para
cuando la poblacin no es normal (el mismo intervalo si

) o cuando tengamos
que considerar que la poblacin es finita, de manera que este caso el intervalo ser:
EJEMPLO 3
Se ha obtenido una muestra de 15 vendedores de una editorial para
estimar el valor medio de las ventas por trabajador en la empresa. La media y
la varianza de la muestra (en miles de euros) son 5 y 2, respectivamente.
21
Hallar un intervalo de confianza para la venta media por trabajador en la

editorial al 90%.
En este problema nos dan datos relativos a la muestra, su media y su varianza,
pero no nos dicen nada acerca de la varianza de la poblacin, por lo que tendremos
que utilizar el intervalo construido en el punto anterior, es decir:
Al
ser
el
nivel
de
confianza
del
90%
esto
implica
que

, es
decir la t de Student con 14 grados de libertad que deja a su derecha una
probabilidad de 0,05. Dicho valor mirado en tablas es 1,7613. Por tanto
(esta ser la
Por otro lado, la media muestral la conocemos por el enunciado y tambin la

varianza muestral, pero necesitamos la cuasi-desviacin tpica muestral.
Procedemos del siguiente modo:
Igualando:
Ahora ya podemos calcular el intervalo que ser:

22
EJEMPLO 4
La cotizacin del dlar frente a la peseta sigue una distribucin normal de
media y varianza desconocidas. Elegidos 9 das al azar, la cotizacin del dlar
en esos das fue:
1453, 1462, 1458, 1461, 146, 1445, 1452, 147, 1442
Determinar un intervalo de confianza, de coeficiente de confianza 0,95, para
la cotizacin media del dlar frente a la peseta.
Del enunciado se desprende claramente que el intervalo a utilizar es:
pues no conocemos la varianza de la poblacin.
Al
ser
el
nivel
de
confianza
del
95%
esto
implica
que

,
es decir la t de Student con 8 grados de libertad que deja a su derecha una
(esta ser la
Calculamos la media y la cuasi-desviacin tpica muestral:
23
Ahora ya podemos calcular el intervalo que ser:
EJEMPLO 5
Para estudiar las medidas del tiempo (en segundos) de aceleracin de una
marca de vehculos se toma una muestra de 15 de ellos resultando ser:
109, 963, 65, 1106, 1139, 976, 1252, 7,68
925, 1240, 984, 1045, 767, 877, 963
(a) Determinar un intervalo de confianza del 95% para la el tiempo medio
de aceleracin de dichos vehculos.
(b) Calcular el tamao de la muestra necesario para que el error de
estimacin de la media ser menor que 0,75 a dicho nivel de confianza.
(a) Utilizaremos el siguiente intervalo:
ya que el enunciado no nos proporciona informacin acerca de la varianza de los

vehculos.
Al
ser
el
nivel
de
confianza
del
95%
esto
implica
que

,
24

(esta ser la
Calculamos la media y la cuasi-desviacin tpica muestral:
Con esto calculamos el intervalo que ser:
(b) El error mximo en la estimacin ser:
Como dicho error debe ser menor de 0,75, se tendr:
En consecuencia, el tamao muestral mnimo debe ser n = 25.

Muestras grandes.
Para calcular el intervalo de confianza para la media de una poblacin, cuando
se desconoce su varianza, podemos utilizar el siguiente intervalo:
25
siempre y cuando la muestra tomada sea grande pues por el teorema central del
lmite sabemos que la suma de n variables aleatorias idnticamente distribuidas
converge a una normal cuando n tiende a infinito. En consecuencia, si la muestra
(n variables aleatorias independientes con igual distribucin) es muy grande (se
considera muy grande para n>30) , la suma de todas ella converger a una normal,
esto es:
y, por tanto,
Esto implica, que para muestras grandes, el valor
va a ser casi igual que
por lo que podemos mirarlo directamente en la tabla normal.

Supongamos una muestra de tamao 120. Con un nivel de significacin de
0,95, tendramos que mirar el valor t119,0025 = 1,98. Al ser la muestra grande, este
valor debe coincidir prcticamente con z0,025, o dicho de otra forma para z = 1,98 se
obtendra el valor 0,025.
Se puede comprobar mirando en tablas que dicho valor es 0,0239, muy prximo
a valor de la t de Student.
Sin embargo, si repetimos los clculos para un tamao muestral menor que 30,
los valores obtenidos para la z y para la t no seran tan parecidos.
3. INTERVALO DE CONFIANZA PARA LA VARIANZA.
26
Para determinar un intervalo de confianza para la varianza de una oblacin

normal usaremos el siguiente estadstico:
donde es la cuasi-desviacin tpica muestral y

cuadrado con n-1 grados de libertad.
es el valor de una Chi-
Tendremos, por tanto que encontrar en la distribucin Chi-cuadrado con n-1

grados de libertad dos valores tales que exista una probabilidad
ellos
se
encuentre
el
estadstico
de que entre
que
denominaremos
y
. No coincidirn en
valor como pasaba en el intervalo para la media pues la distribucin Chi-cuadrado
no es simtrica.
As pues, escribiremos:
Invirtiendo cada miembro de la desigualdad cambiar el sentido de la misma y

podremos escribir as:
se obtiene:
27
que podemos reescribir as:
La expresin anterior indica que la probabilidad de que la varianza poblacional

se encuentre entre esos dos valores es
de confianza a ese nivel, de manera que:
y, por lo tanto, constituye un intervalo
Equivalente al anterior podemos usar el siguiente intervalo:
donde s2 es la varianza muestral.

Es aqu de aplicacin tambin la correccin para poblaciones finitas comentada
en los intervalos para la media.
EJEMPLO 6
Un fabricante de juguetes desea lanzar al mercado un tambor de piel de
conejo. Para determinar el dimetro del mismo tom una muestra aleatoria de
10 pieles y midi en cm el ancho de las mismas resultando ser:
20;19,7;20,1;19,9;20,2;19,8;20,3;20,4;19,6;20. Determinar un intervalo de
confianza al 95% para la varianza.
28
El intervalo que utilizaremos ser el siguiente:
Al
ser
el
nivel
de
confianza
del
Luego
95%
esto
nosotros
implica
que
calcularemos
y
es decir las Chi-cuadrado con 9 grados de libertad
que dejan a su derecha las probabilidades de 0,025 y 0,975, respectivamente.
Dichos valores, consultados en tablas, son los siguientes:
.
Por otro lado, la varianza muestral ser:
Sustituyendo datos en el intervalo se obtiene:
EJEMPLO 7
29
Un entrenador de ftbol est interesado en estimar, con un 99% de

confianza, la fuerza mxima de los msculos cudriceps de los futbolistas.
Admitiendo que dicha fuerza sigue una distribucin normal, se selecciona al
azar una muestra de 25 futbolistas para la que se obtuvo una media de 85 y
una cuasivarianza de 144. Determinar intervalos de confianza para la media y
para la desviacin tpica de la fuerza mxima de estos msculos.
Para la media utilizaremos el intervalo:
pues no conocemos la varianza de la poblacin.
Al
ser
el
nivel
de
confianza
del
99%
esto
implica
que

,
(esta ser la
Dado que la media y la cuasivarianza nos la proporciona el enunciado,

sustituimos en el intervalo que ser:
El intervalo para la varianza ser:
Calcularemos
y
es decir las Chi-cuadrado con
24 grados de libertad que dejan a su derecha las probabilidades de 0,005 y 0,995,
30
respectivamente. Dichos valores, consultados en tablas, son los siguientes:

y
Por otro lado en el enunciado nos dan la cuasi-varianza, pero:
Sustituyendo en el intervalo:
Al pedirnos un intervalo de confianza para la desviacin tpica haremos la raz

cuadrada de cada extremo y as tendremos:
4. INTERVALO DE CONFIANZA PARA LA PROPORCIN.

Supongamos una poblacin en la que queremos estudiar si los elementos
poseen o no una determinada caracterstica X. Para ello seleccionamos una muestra
aleatoria simple de tamao "n" y observamos cuantos elementos poseen dicha
caracterstica. Como solamente tenemos dos resultados posibles, es decir, o se
posee o no se posee la caracterstica, resulta que la variable aleatoria X sigue una
distribucin binomial de parmetros "n" y "p", donde n es el tamao de la muestra
y p la probabilidad de poseer la caracterstica (o la proporcin poblacional para
dicha caracterstica), es decir:
y aproximndola a una normal sera
Si consideramos ahora la proporcin

caracterstica ser:
Tipificando:
31
de elementos que cumplen dicha
Buscamos entonces en la distribucin normal estndar dos valores tales que
exista una probabilidad
de que entre ellos se encuentre el estadstico
A estos valores los llamaremos

y
al igual que hicimos en el intervalo
de confianza para la media. Escribiremos, por tanto:
Restando
se ontiene:
se tiene:
32
Multiplicando por -1 cambiamos el sentido de la desigualdad:
que reescribiremos as:
As pues un intervalos de confianza para la proporcin al nivel de confianza

ser:
Recordemos ahora que "p" es la proporcin poblacional. Resulta ilgico que

queremos precisamente estimar dicha proporcin tengamos que utilizarla en el
intervalo, pues no la conocemos. Esto se puede resolver de varias formas:
Pudiera ser que, aunque no dispusiramos del valor exacto de la proporcin
poblacional, tengamos informacin fiable acerca de ella, bien por
estimaciones anteriores recientes o pre-muestreos piloto. En ese caso
utilizaramos dichas estimaciones como valor de la proporcin poblacional.
Lo ms lgico es colocarse en el supuesto ms desfavorable en cuanto a los
valores de dicha proporcin poblacional que no es otro que p = 0,5 y, en
consecuencia, 1 - p = 0,5.
33
El ltimo supuesto es utilizar la proporcin muestral como valor de la

proporcin poblacional y, aunque este supuesto no es el ms aconsejable,
ser el que utilicemos.
Por lo tanto, nuestro intervalo de confianza para la proporcin a un nivel de

significacin
ser:
y el error cometido en la estimacin ser como mximo:
EJEMPLO 8
Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se
encontr que 54 de ellos hablaban ingls. Halle, con un nivel de confianza del
90%, un intervalo de confianza para estimar la proporcin de estudiantes que
hablan el idioma ingls entre los estudiantes de esa Universidad.
Del enunciado se desprende que
. Al ser el nivel de confianza del
90% esto implica que

calcularemos
. Luego nosotros
, es decir la z que deja a su derecha una probabilidad de 0,05.
Dicho valor mirado en tablas es 1,645. Por tanto

nuestro intervalo).
(esta ser la
de
34
Sustituyendo en el intervalo se tiene:
EJEMPLO 9
Una muestra aleatoria de automviles tomada en una zona turstica ha
permitido obtener un intervalo de confianza, al nivel del 95%, para estimar de
la proporcin de matrculas extranjeras de esa zona, siendo sus extremos 0,232
y 0,368.
(a) Determine el valor de la proporcin estimada a travs de esa muestra y una
cota del error de estimacin a este nivel de confianza.
(b) Utilizando el mismo nivel de confianza, cul sera la cota de error, si esa
misma proporcin se hubiera observado en una muestra de 696 matrculas?
(a) Al nivel de confianza del 95%,

(ya calculado en anteriores
ejercicios). Dado que el intervalo de confianza es (0,232, 0,368) ser:
de donde:
y
Sumando ambas ecuaciones se obtiene:
La cota del error en la estimacin ser:

35
(b) En este caso sera:
EJEMPLO 10
Un investigador desea conocer cuntas personas en un pueblo de 3000
votan a un determinado partido poltico. Para ello toma una muestra de 60
personas resultando que 42 votan a dicho partido poltico. Determinar un
intervalo de confianza para la proporcin de personas que votan a dicho
partido con un nivel de confianza del 99%.
Comenzamos calculando la
, que para el nivel de confianza del 99% ser
. Este valor mirado en tablas es 2,575. Adems
Dado que
y n > 20, deberemos aplicar el factor de correccin
de poblacin finita y el intervalo de confianza que dar as:
Sustituyendo valores se obtiene:
36
TEMA 3: CONTRASTES DE HIPTESIS PARAMTRICOS

1. INTRODUCCIN.
En este tema y en el siguiente utilizaremos otra de las herramientas que utiliza
la Inferencia Estadstica para estudiar aspectos de una poblacin a partir de una
muestra, los contrastes de hiptesis. En este caso se trata de tomar decisiones
sobre alguna caracterstica poblacional. Entre captulo nos centraremos en los
contrastes paramtricos, que son aquellos que se hacen respecto a parmetros de la
poblacin.
Un contraste de hiptesis paramtrico es una prueba que se basa en los datos
de una muestra de una variable aleatoria para contrastar alguna hiptesis sobre un
parmetro de la poblacin. Consta de dos hiptesis, la llamada hiptesis nula (Ho),
que es aquella que suponemos como cierta y que vamos a aceptar siempre que los
datos muestrales no apoyen la idea de que debemos rechazarla y otra la llamada
hiptesis alternativa (H1), que ser generalmente aquello que queremos
contrastar.
La prueba se basa en una transformacin de los datos de la muestra
denominada estadstico de contraste, de manera que se rechazar la hiptesis nula
37
en favor de la alternativa cuando el estadstico de contraste se site en una regin

llamada regin crtica o de rechazo.
Es evidente que al tomar una decisin acerca de una hiptesis no podemos
equivocar, pues nuestra decisin se basa en los datos de una muestra. Existen dos
tipos de errores en un contraste de hiptesis: el error tipo I, que implica rechazar
Ho siendo cierta y el error tipo II, que implica aceptar Ho siendo falsa. A la
probabilidad de cometer un error de tipo I se le denota por y a la probabilidad de
cometer un error tipo II se le denota por . Esto es:
y
En consecuencia:
y
A 1 - se le denomina nivel de confianza y a 1 - se le llama potencia del
contraste. Lo deseable es que la probabilidad de cometer ambos tipos de error
fuera cero, es decir, = = 0. Pero esto es imposible dado que para que eso
ocurriera la nica alternativa sera examinar a toda la poblacin, con lo cual lo
deseable sera que ambos tipos de error fueran lo ms pequeos posibles.
Sin embargo, la relacin entre y es inversa, es decir, a media que aumenta
uno disminuye el otro, con lo cual no se pueden minimizar los dos
simultneamente. Por eso la Estadstica Matemtica ha deducido tests siguiendo el
criterio de que fijado un nivel de significacin (suele ser bastante pequeo) la
potencia del contraste sea mxima y eso implica minimizar . Estos tests se llaman
de mxima potencia.
En consecuencia, fijado un por el investigador, no nos preocuparemos por el
error tipo II pues los tests que vamos a utilizar se han obtenido de manera que se
minimice para ese .
Antes de introducirnos en el estudio de los distintos contrastes de hiptesis
definiremos un concepto importante, el p-valor. Llamamos p-valor de un contraste
al menor valor de a partir del cual no se rechaza Ho. Es decir, a medida que
disminuye es ms difcil rechazar la Ho y, en consecuencia, existir un valor a
38
partir del cual ya no se rechace. Ese valor es el p-valor y se denota por p. Digamos
pues que el p-valor es el valor de lmite entre la aceptacin y el rechazo.
El clculo del p-valor es, en ocasiones, difcil y slo puede realizarse con un
ordenador. Si < p se acepta Ho y si > p se rechaza Ho.
Veamos a continuacin los distintos tipos de test de mxima potencia que
vamos a estudiar.
2. CONTRASTE PARA LA MEDIA CONOCIDA LA DESV. TPICA.
Se trata de contrastar si se puede aceptar a un nivel de significacin la
hiptesis nula de que la media de una poblacin es igual, mayor o menor que un
valor determinado, frente a lo contrario, es decir, distinto, menor o mayor. En la
siguiente tabla recogemos los distintos tipos de contrastes y sus caractersticas:
Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
donde 0 es el valor a contrastar.
EJEMPLO 1
Hace 5 aos el consumo medio de agua por domicilio en un municipio era
de 16 m3 mensuales. Se ha hecho una campaa de ahorro de agua y, luego, se
ha observado una muestra de 15 domicilios elegidos al azar y se ha obtenido
un consumo medio de 14,9 m3. Suponiendo que el consumo de agua sigue una
39
ley normal con desviacin tpica de 3,6 m 3. Se acepta que el consumo medio
sigue siendo 16 m3 o, por el contrario, hay evidencias de que ha disminuido con
= 0,1?
Dado que lo que conocemos es que el consumo medio era de 16 m 3, eso es lo
que suponemos como cierto que se mantiene en la actualidad, por tanto, ser
nuestra H0. Por el contrario, queremos contrastar si el programa de ahorro ha
surtido efecto, es decir, si la media ha disminuido, con lo cual esa ser nuestra H 1.
En consecuencia, el contraste ser:
Se trata de un contraste unilateral y su regin de aceptacin viene dada por:
Mirando en tablas z0,1 obtenemos 1,28.
En consecuencia, la regin de aceptacin ser
Calculamos ahora el valor del estadstico de contraste:
Dado que z = -1,18 est en la regin de aceptacin, podemos afirmar a un nivel

de significacin del 10% que la media que el consumo medio no ha variado y en
consecuencia el programa de ahorro no ha surtido efecto.
El clculo del p-valor, en este caso, es sencillo segn la tabla anterior:
Dado que < p llegamos a la misma conclusin de no rechazar H0.

40
EJEMPLO 2
Un banco quiere analizar si las comisiones que cobra a sus clientes por
operaciones en el mercado burstil difieren significativamente de las que cobra
la competencia, cuya media es de 12 euros mensuales con una desviacin
estndar de 4,3 euros. Para ello toma una muestra de 64 operaciones burstiles
y observa que la comisin promedio es de 13,6 euros. Contrastar al nivel de
significacin del 5% que este banco no difiere significativamente en el cobro de
las comisiones por operaciones en la Bolsa con respecto a la competencia.
Como el banco quiere contrastar si sus comisiones son distintas de la
competencia plantear el siguiente contraste:
Al ser un contraste bilateral, la regin de aceptacin ser:
Como es
, en consecuencia, habr que buscar z 0,025 cuyo
valor es 1,96. Por tanto la regin de aceptacin ser
Calculamos ahora el estadstico:
Como
existen evidencias en contra de H0 y, en consecuencia, a una
nivel de significacin del 5%, podemos afirmar que las comisiones cobradas por el
banco difieren significativamente de las de la competencia.
El p-valor de este contraste es:
41
Dado que p < concluimos que se debe rechazar H0.

EJEMPLO 3
Un informe indica que el precio medio del billete de avin entre Canarias y
Madrid es como mximo de 120 con una desviacin tpica de 40 . Se toma
una muestra al azar de 100 viajeros y se obtiene que la media de los precios de
sus billetes es de 128 . Se puede aceptar, con un nivel de significacin de 0,1
la afirmacin de partida?
La hiptesis nula ser aquella que es cierta y esto es que el precio medio no
supera los 120 . Por tanto el contraste es:
Se trata de un contraste unilateral y su regin de aceptacin viene dada por:

.
Mirando en tablas z0,1 obtenemos 1,28. Luego la regin de aceptacin ser
.
Calculamos ahora el valor del estadstico de contraste:
Dado que z = 2 no est en la regin de aceptacin, podemos afirmar a un nivel

de significacin del 10% que el precio medio del billete es superior a 120 .
El clculo del p-valor, en este caso, es sencillo segn la tabla anterior:
42
Dado que p < llegamos a la misma conclusin de rechazar H0.

3. CONTRASTE PARA LA MEDIA DESCONOCIDA LA DESV. TPICA.
Ahora no conocemos la desviacin tpica poblacional con lo que usaremos el
estadstico de contraste que usamos para construir el intervalo de confianza en esta
situacin.
La tabla con los datos del contraste ser:
Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
A la hora de calcular la regin de aceptacin podemos sustituir la "t" por "z",
cuando el tamao de la muestra es mayor que 30, como ya vimos en los intervalos
de confianza (teorema central del lmite).
EJEMPLO 4
Se piensa que el tiempo medio que est en paro un tipo de profesional de
un determinado sector es de 13,5 meses. Para contrastar esta hiptesis al nivel
del 5% se tom una muestra de 45 profesionales que estuvieron en paro en ese
sector y se obtuvo una media de 17,2 meses y una cuasi-desviacin tpica de
15,3 meses. Contrastar si se puede afirmar la hiptesis de partida.
43
El contraste a realizar ser:
Se trata de un contraste bilateral y su regin de aceptacin vendr dada por:
pero dado que el tamao de la muestra es mayor que 30, consideraremos la regin
de aceptacin siguiente:
Calculamos ahora el valor del estadstico:
Como
no podemos rechazar, al nivel del 5%, la hiptesis nula y, por
tanto, el tiempo medio de paro es de 13,5 meses.
EJEMPLO 5
Una famosa pizzera afirma que el tiempo que tarda el cliente en recibir su
pedido es una variable aleatoria con distribucin normal de media . Adems
asegura que nunca es mayor que 12. No obstante, un cliente se ha quejado
de que en los 9 ltimos pedidos efectuados en das elegidos al azar, el tiempo
medio calculado por l ha sido de 17,792 minutos con una cuasivarianza
muestral de 36. Contrastar, al nivel de significacin del 5% la afirmacin de la
pizzera.
De los datos del enunciado se desprende que el test a realizar es:
44
pues, en principio, suponemos como cierta (H0) la afirmacin de la pizzera.

Dado que en el enunciado no figura datos sobre la desviacin tpica poblacional
utilizaremos el estadstico:
Como es un contraste unilateral la regin de aceptacin ser:
Calculamos el valor del estadstico:
Dado que t se encuentra fuera de C0, podemos afirmar, con un nivel de

significacin del 5%, que el tiempo medio que esperan los clientes de la pizzera en
recibir su pedido supera los 12 minutos.
Calculemos el p-valor del contraste:
Al ser p < rechazamos H0.
EJEMPLO 6
Una persona est convencida que puede afirmarse que el tiempo medio de
espera de un autobs es de ms de 15 minutos. Para ello anota tiempos de
espera elegidos al azar de dicho autobs obteniendo los siguientes valores en
minutos:
45
14, 19, 20, 14, 17, 24, 14, 20, 20

Si se admite que dicho tiempo de espera sigue una distribucin normal,
contrastar al nivel del 5% la hiptesis de la persona.
Dado que la persona quiere contrastar que el tiempo medio de espera es de ms
de 15 minutos, sta ser la hiptesis que establezcamos como alternativa. Es ms,
dado que, a priori, no hay pruebas de que eso sea as, estableceremos como cierto
lo contrario, es decir, que el tiempo medio de espera es, como mximo, de 15
minutos y slo lo rechazaremos si los datos nos indican lo contrario.
El contraste a realizar ser por tanto:
Dado que en el enunciado no figura datos sobre la desviacin tpica poblacional

utilizaremos el estadstico:
Como es un contraste unilateral la regin de aceptacin ser:
Para calcular el valor del estadstico necesitamos la media muestral y la

cuasidesviacin tpica muestral:
46
Entonces el estadstico de contraste ser:
Dado que t se encuentra fuera de C0, podemos afirmar, con un nivel de

significacin del 5%, que el tiempo medio de espera del autobs es de ms de 15
minutos, lo que confirma la hiptesis de la persona.
Calculemos el p-valor del contraste:
Mirando en tablas observamos que este valor est acotado entre 0,025 y 0,01,
por tanto p < , lo que confirma el rechazo de H0.
4. CONTRASTE PARA LA VARIANZA.

Tratamos ahora de realizar contrastes sobre los valores de la varianza
poblacional. El cuadro de estos contrastes es el siguiente:
Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
47
EJEMPLO 7
En medidas de ngulos con un cierto teodolito, un topgrafo asegura que
la varianza que obtiene es igual o menor que 5. Se le pone a prueba y se le
hacen 20 determinaciones, obtenindose una varianza de 6. Si la variable
medida del ngulo es normal, podemos aceptar su aseveracin a un nivel de
significacin del 1%?
Del enunciado se extrae inmediatamente que el contraste a realizar es:
cuya regin de aceptacin es
Calculamos el estadstico de contraste que ser:
Dado que t est en la regin de aceptacin, no podemos rechazar H 0 a un nivel

de significacin del 1%, y por tanto, deberemos aceptar que las medidas de los
ngulos con el teodolito tienen una varianza menor o igual que 5.
EJEMPLO 8
Sea una poblacin normal con media y varianza desconocida en la que se
pretende contrastar que su varianza es de 75. Para ello seleccionamos una
muestra aleatoria de tamao n = 25, resultando que la varianza muestral ha
sido s = 38,75. Admitimos como el nivel de significacin =0,10.
El contraste a realizar es:
48
cuya regin de aceptacin es:
El estadstico de contraste ser:
Dado que t no est en la regin de aceptacin, debemos rechazar H 0 a un nivel

de significacin del 10%, y por tanto, tendremos que afirmar que la varianza de
dicha poblacin no es 75.
5. CONTRASTE PARA LA PROPORCIN.

Contrastaremos ahora si la proporcin de personas que cumplen una
determinada caracterstica es igual a un valor o est por encima o por debajo de l.
Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
EJEMPLO 9
49
Inicialmente el porcentaje de usuarios no satisfechos con un software en

pruebas era del 30%. Tras unas medidas de mejora, se tom una muestra de
800 usuarios resultando que 208 no estaban satisfechos con el software.
Contrastar a un nivel de significacin del 4% si ha habido mejora en el
porcentaje de satisfaccin.
Contrastar si ha habido mejora equivale a contrastar si la proporcin de
insatisfechos ha disminuido. Por tanto esto ser lo que tomemos como hiptesis
alternativa. En consecuencia, el contrate ser:
La regin de aceptacin de este contraste es:
La proporcin muestral nos servir para calcular el estadstico de contraste:
Dado que z no est en C0, podemos rechazar a un nivel de significacin del 4%

la hipotsis de que la proporcin no ha mejorado y, en consecuencia, afirmar que
las medidas de mejora han surtido efecto.
que al ser menor que confirma el rechazo de la hiptesis nula.

50
EJEMPLO 10
Hace 10 aos, el 65% de los habitantes de determinada comunidad
autnoma estaba en contra de la instalacin de una central nuclear.
Recientemente se ha realizado una encuesta a 300 habitantes y 190 se
mostraron contrarios a la instalacin. Con estos datos y con un nivel de
significacin de 0,01, se puede afirmar que la proporcin de contrarios a la
central sigue siendo la misma?
Dado que queremos contrastar si la proporcin sigue siendo la misma o ha
variado, tomaremos como H0 lo que se sabe que es que la proporcin de contrarios
es 0,65 y como H1 que no lo es. Hacemos el siguiente contraste bilateral:
cuya regin de aceptacin es:
Dado que z est en C0, no podemos rechazar a un nivel de significacin del 1%

la hipotsis nula y, en consecuencia, aceptaremos que no ha variado dicha
proporcin.
51
Dado que el p-valor es mayor que , confirmamos la aceptacin de H0.

EJEMPLO 11
Una marca de nueces afirma que como mximo el 6% de las nueces estn
vacas. Se eligieron 300 nueces al azar y se detectaron 21 vacas. Con un nivel
de significacin del 1%, se puede aceptar la afirmacin de la marca?
Consideraremos como H0 la afirmacin de la marca ya que es lo que se supone
que es cierto y mantendremos salvo que el contraste lo refute. El contraste ser, por
tanto:
Dado que z est en C0, no podemos rechazar a un nivel de significacin del 1%

la hipotsis nula y, en consecuencia, aceptaremos que como mximo el 6% de las
nueces estn vacas.
52
Dado que el p-valor es mayor que , confirmamos la aceptacin de H0.

6. CONTRASTE PARA LA IGUALDAD DE MEDIAS (POB. INDEP)
Trataremos aqu los contrastes para comparar la media de dos poblaciones (X e
Y) que se consideran independientes. Distinguiremos los casos en que las
varianzas poblacionales, aunque desconocidas, sean iguales o no, por lo que
haremos dos tablas, una para cada caso.
Varianzas desconocidas pero iguales (X e Y homocedsticas).

Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
donde los grados de libertad de t se calculan g = nx + ny - 2

Varianzas desconocidas y distintas.
Bilateral
Unilateral
53
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
siendo:
EJEMPLO 12
En una prueba general realizada por todo el alumnado de un nivel de
enseanza se han detectado diferencias que parecen significativas entre dos
grupos, uno diurno y otro nocturno. El primero, de 67 alumnos, ha obtenido
una media en la calificacin de 5,23 con una desviacin tpica de 1,78. En el
otro, compuesto de 58 alumnos, la media ha sido 4,78 y la desviacin tpica
1,60. No se tiene informacin sobre las caractersticas y los parmetros de la
poblacin. Puede ser significativa la diferencia de rendimiento entre los dos
turnos al 95% de nivel de confianza?
El problema nos indica que no conocemos la distribucin de la poblacin pero
sabemos que al ser las muestras grandes podemos suponer normalidad. El contraste
a plantear es:
54
Del problema se extraen los siguientes datos:
Para calcular el estadstico de contraste necesitamos las cuasivarianzas

muestrales:
Calculamos, ahora, el estadistico de contraste:
Calculamos ahora g, para obtener la regin de aceptacin:
As, la regin de aceptacin ser:
55
Dado que t est en la regin de aceptacin podemos concluir a un nivel de

significacin del 5% que no hay diferencias significativas en los dos grupos.
que al ser mayor que el nivel de significacin confirma la aceptacin de la

hiptesis nula.
NOTA: en este caso, al ser las muestras grandes, podramos haber aproximado
la t de Student por la z de la normal estndar, obtenindose en ese caso la siguiente
regin de aceptacin:
prcticamente igual a la que hemos obtenido con la t. De hecho, cuando tengamos

muestras grandes haremos esta aproximacin dado que nos evitamos todo el
engorroso clculo de los grados de libertad.
EJEMPLO 13
Se dispone de los rendimientos de dos mquinas. La mquina A ha
proporcionado los rendimientos:
137.5, 140.7, 106.9, 175.1, 177.3, 120.4, 77.9, 104.2
56
mientras que la mquina B ha proporcionado los siguientes rendimientos:

103.3, 121.7, 98.4, 161.5, 167.8, 67.3
Suponiendo hiptesis de normalidad y homocedasticidad, contrastar la
hiptesis de que el rendimiento medio de las mquinas A y B es el mismo,
considerando = 0,05.
Al especificarnos el problema claramente la hiptesis de homocedasticidad,
consideramos las varianzas igual, aunque sean desconocidas. El contraste es:
Calculemos en primer lugar la media y la varianza de cada muestra:
Con estos datos calculamos el estadstico de contraste:
57
Los grados de libertad sern g = nx + ny 2 = 8 + 6 2 = 12
La regin de aceptacin es:
Como t est en C0 no podemos rechazar la hiptesis nula al nivel de

significacin del 5% y, en consecuencia, deberemos admitir que ambas mquinas
tienen el mismo rendimiento.
que al ser mayor que el nivel de significacin confirma la aceptacin de la

hiptesis nula.
7. CONTRASTE PARA LA IGUALDAD DE MEDIAS (POB. DEP)
En este ltimo contraste que vamos a estudiar haremos contraste para la
igualdad de medias en poblaciones dependientes. Pero, qu entendemos por
poblaciones dependientes?
Consideremos el ejemplo anterior de la mquina A y la B. Al tomar las
muestras de dos mquinas diferentes, se considera que esas poblaciones son
independientes. Pero, y si tomamos el rendimiento de la mquina A y
posteriormente a un proceso de mejora volvemos a tomar otra muestra de la misma
mquina? Entonces las poblaciones seran dependientes.
Este es el supuesto que vamos a considerar aqu: las muestras se toman en
diferentes momentos el tiempo pero de la misma poblacin. Por ejemplo.
Supongamos que medimos la nota media de un grupo de alumnos en un examen de
58
estadstica y queremos saber si se ha modificado despus de una clases intensivas,

realizando a los mismos alumnos un nuevo examen. Este contraste tambin se
conoce como de datos apareados.
El cuadro de este contraste es el siguiente:
Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
EJEMPLO 14
Para comprobar la utilidad de una tcnica de enriquecimiento
motivacional un investigador pasa una prueba de rendimiento acadmico a
una muestra de 16 sujetos. Despus aplica su tcnica de enriquecimiento y.
tras ello, vuelve a pasar la prueba de rendimiento. Los resultados fueron los
siguientes:
A
D
8
9
12
16
14
23
11
21
16
17
6
10
11
14
9
8
10
11
10
12
19
19
12
16
17
16
8
13
13
17
12
11
A un nivel de confianza del 95%, podemos rechazar que los rendimientos

acadmicos son iguales antes que despus frente a la alternativa de que se
produce una mejora?
El que se produzca una mejora implica que la media despus es mayor que la
media antes. El contraste sera entonces:
59
Escribimos de nuevo la tabla pero incluyendo las diferencias entre antes y

despus:
A
D
Z
8
9
1
12
16
4
14
23
9
11
21
10
16
17
1
6
10
4
11
14
3
9
8
-1
10
11
1
10
12
2
19
19
0
12
16
4
17
16
-1
8
13
5
13
17
4
12
11
-1
Calculamos la media y la cuasi-desviacin tpica de z:
Con estos datos, el estadstico de contraste es:
Dado que t no est en C0 debemos rechazar al nivel de significacin del 5% que

las medias antes y despus sigan siendo iguales, y en consecuencia, aceptaremos
que la tcnica de enriquecimiento ha producido una mejora.
60
que al ser menor que el nivel de significacin confirma el rechazo de la hiptesis

nula.
TEMA 4: CONTRASTES NO PARAMTRICOS

1. INTRODUCCIN.
En el tema anterior estudiamos contrastes de hiptesis basados en el
conocimiento de la distribucin de probabilidad de la que proceda la muestra,
limitando nuestro estudio a realizar hiptesis acerca de los parmetros de la misma.
En ocasiones, el investigador no est seguro de la distribucin de probabilidad de
la que proceden las observaciones de la muestra y parece arriesgado hacer algn
supuesto concreto acerca de la misma.
En tal situacin, el investigador puede estar interesado en contrastar si se puede
aceptar una distribucin concreta para la poblacin de la que proceden las
observaciones muestrales y no en hacer conjeturas sobre los parmetros de la
poblacin. Los contrastes que se utilizan para estas cuestiones se denominan no
paramtricos.
Los tipos de contrastes que estudiaremos son los siguientes: contrastes de
ajuste a una distribucin terica (contraste
de bondad de ajuste y contraste de
Kolmogorov-Smirnov), contrastes de comparacin de dos muestras independientes
(contrastes de Wilcoxon y contraste de Mann-Whitney) y el contraste
independencia en una tabla de contingencia.
2. CONTRASTE
de
DE BONDAD DE AJUSTE.
Este contraste sirve para contrastar si la poblacin de la que se ha extrado una

muestra de tamao "n" sigue una distribucin de probabilidad concreta. El
contraste suele ser:
Ho : La poblacin sigue una distribucin F(x)
61
H1 : La poblacin no sigue una distribucin F(x)

Para ello se basa en observar las diferencias entre las frecuencias absolutas
observadas en la muestra (nj) y las frecuencias absolutas tericas que deberan de
darse si realmente la poblacin siguiera esa distribucin (Ej).
Cabe pensar que si realmente la poblacin sigue la distribucin que pensamos,

las diferencias entre nj y Ej tendern a cero. El procedimiento general es el
siguiente:
Agrupamos los datos observados en "m" clases de las que tenemos su
frecuencia observada (nj).
Calculamos las frecuencias esperadas o tericas (E j) segn la distribucin
que estemos contrastando.
Calculamos el siguiente estadstico:

que ser el que nos
proporcione la informacin relativa a las diferencias entre nj y Ej.
Cuanto ms prximo sea a cero el valor del estadstico ms ajustada estar la
distribucin de la poblacin a la distribucin en estudio. Pero nos podramos
preguntar, cmo de pequeo debe de ser el estadstico para que podamos aceptar a
un nivel de significacin la hiptesis nula de que la poblacin sigue tal
distribucin?
La respuesta est en compararlo con un valor crtico que es

donde "m"
es el nmero de clases en que se ha dividido la muestra y "r" el nmero de
parmetros estimados ya que en ocasiones habr que estimar algn parmetro para
calcular Ej pues nos dirn que contrastemos que la poblacin sigue tal distribucin
pero no nos dirn cul es el parmetro de la distribucin y tendremos que estimarlo
por mxima verosimilitud a partir de los datos de la muestra. En caso de que nos
digan el o los parmetros y no haya que estimarlos r valdr cero.
62
Este valor
es el valor que nos separa la regin de aceptacin de la
regin crtica, de manera que:
Si P <
aceptaremos Ho al nivel de significacin .
Si P >
no aceptaremos Ho al nivel de significacin .
EJEMPLO 1
El nmero de asignaturas aprobadas en una determinada convocatoria
universitaria por 60 alumnos ha sido el siguiente:
N aprobadas
N alumnos
0
10
1
15
2
15
3
10
4
6
5
4
Podramos aceptar, a un nivel de significacin del 5%, la hiptesis de que el

nmero de asignaturas aprobadas sigue una distribucin de Poisson?
En primer lugar no nos dicen nada sobre el parmetro de esa distribucin de
Poisson, por lo que deberemos estimarlo a partir de la muestra por mxima
verosimilitud. Sabemos que el estimador mximo-verosmil del parmetro de una
distribucin de Poisson es la media muestral por lo que la calculamos:
As pues, nuestra distribucin de Poisson tendr parmetro 1,983.

El test a realizar ser el siguiente:
Ho : La poblacin sigue una distribucin de Poisson de parmetro 1,983
63
H1 : La poblacin no sigue una distribucin de Poisson de parmetro 1,983

Calculamos ahora las frecuencias tericas esperadas en una distribucin de
Poisson para los valores de la muestra. Estos valores vendrn dados por
Calculamos ahora el estadstico P, pero dado que hay una frecuencia absoluta
esperada menor que 5, la de la ltima clase, juntaremos las dos ltimas clases as:
n5 + n6 = 10
E5 + E6 = 8,4
Buscamos el valor crtico que ser
64
. Dado que P <
, podemos aceptar a un nivel de significacin del 5% que el nmero de

asignaturas aprobadas sigue una distribucin de Poisson.
EJEMPLO 2
Se cree que el nmero de erratas por pgina de un determinado libro sigue
una distribucin de Poisson. Elegida una muestra aleatoria simple de 250
pginas del mencionado libro se obtuvo la siguiente distribucin de
frecuencias absolutas sobre dicho nmero de erratas por pgina:
N erratas
N pginas
0
35
1
72
2
68
3
48
4
17
5
6
6
3
7
1
Se puede afirmar con un nivel de significacin del 5% que el nmero de

erratas por pgina del libro sigue una distribucin de Poisson?
Al igual que en el ejercicio anterior no conocemos el parmetro de la

distribucin de Poisson por lo que lo estimaremos a partir de la muestra por
mxima verosimilitud:
El test a realizar ser, por tanto:

Ho : La poblacin sigue una distribucin de Poisson de parmetro 1,9
H1 : La poblacin no sigue una distribucin de Poisson de parmetro 1,9
Calculamos ahora las frecuencias tericas esperadas en una distribucin de
Poisson para los valores de la muestra. Estos valores vendrn dados por
65
Como existen frecuencias esperadas menores que 5, agruparemos las tres

ltimas para que no haya ninguna con frecuencia menor a 5 y formamos la
siguiente tabla:
i
nj
pj
0
1
2
3
35
72
68
48
0,1496
0,2842
0,27
0,171
37,4
71,05
67,5
42,75
-2,4
0,95
0,5
5,25
5,76
0,9025
0,25
27,5625

4
17
10
0,0812
0,044
20,30
11
-3,3
-1
66
10,89
1
De esta forma el estadstico de contraste sera:
. Dado que P <
, podemos aceptar a un nivel de significacin del 5% que el nmero de

asignaturas aprobadas sigue una distribucin de Poisson.
EJEMPLO 3
Con dado de pker se han realizado 600 tiradas con el siguiente resultado:
Caras
As
K
Q
J
Rojo
Negro
ni
70
115
122
98
85
110
Puede admitirse a un nivel de significacin del 5% que el dado est bien

construido?
Que el dado est bien construido equivale a decir que la muestra de 600 tiradas
proviene de una distribucin uniforme con una probabilidad de 1/6 para cada cara
del dado.
Ho : La poblacin sigue una distribucin uniforme

H1 : La poblacin no sigue una distribucin uniforme
67
Calculamos ahora las frecuencias tericas esperadas que sern todas iguales
dado que la probabilidad de que salga cada cara es la misma e igual a 1/6. Por
tanto:
con j = 1, 2, ..., 6
Realizamos la siguiente tabla para calcular el estadstico de contraste:
nj
pj
As
K
Q
J
Rojo
Negro
70
115
122
98
85
110
1/6
1/6
1/6
1/6
1/6
1/6
100
100
100
100
100
100
-30
15
22
-2
-15
10
900
225
484
4
225
100
De esta forma el estadstico de contraste sera:
. Dado que P >
, rechazaramos a un nivel de significacin del 5% que la distribucin de la

poblacin es uniforme y, en consecuencia, que el dado est bien construido.
3. CONTRASTE DE KOLMOGOROV-SMIRNOV.
Este contraste es similar al anterior. Se utiliza tambin para determinar si la
poblacin de la que procede la muestra sigue o no una distribucin concreta,
normalmente para distribuciones continuas y tamao muestral pequeo, y se basa
en la comparacin de la funcin de distribucin terica acumulada de la
68
distribucin objeto de hiptesis (F0(x)), con una funcin de distribucin acumulada

observada o emprica (F*(x)) de la muestra.
Los valores de F*(x) se calculan con la siguiente expresin:
Los valores de F0(x) se calculan con la funcin de distribucin de la

distribucin objeto de contraste.
El procedimiento consiste en ordenar los valores de la muestra y para cada uno
de ellos calcular F*(x) y F0(x).
Calcularamos el siguiente estadstico:

la siguiente correccin
y si n > 30 haremos
Comparamos dicho valor que estar tabulado en la tabla Kolmogorov-Smirnov

para los valores dados de n y . Este ser el valor crtico que denominaremos d .
Para n > 30 se puede aproximar d por la siguiente expresin:
La regla de decisin ser:

Si d < d aceptaremos Ho al nivel de significacin .
Si d > d no aceptaremos Ho al nivel de significacin .
69
EJEMPLO 4
Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de
palabras previamente presentadas, han sido los siguientes:
115, 98, 123, 109, 112, 87, 118, 104, 106
A un nivel de confianza del 95%, son compatibles estos resultados con la
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
normal de media 110 y desviacin tpica 10?
Ho : La poblacin sigue una distribucin normal
H1 : La poblacin no sigue una distribucin normal
Dado que la variable es continua, el tamao muestral pequeo y en la hiptesis
nula est totalmente especificada la distribucin utilizaremos un contraste de
Kolmogorov-Smirnov.
Para ello construiremos una tabla donde aparezcan:
xi: sern los datos de la muestra ordenados en orden creciente.
zi: sern los datos anteriores tipificados.
F*(xi): sern los valores de la funcin de distribucin emprica, teniendo en
cuenta que n = 9.
F0(xi): ser P(z<zi)
no realizaremos todos los clculos para no extender
demasiado la resolucin, solamente pondremos el resultado, pero se pueden
calcular fcilmente con PQRS.
: sern las diferencias entre la funcin de distribucin

acumulada emprica y la terica.
xi
zi
87
98
104
109
112
115
116
118
123
-2,3
-1,2
-0,6
-0,1
0,2
0,5
0,6
0,8
1,3

F*(xi)
F0(xi) = P(z<zi)
0,1111
0,2222
0,3333
0,4444
0,5556
0,6667
0,7778
0,8889
0,0107
0,1151
0,2743
0,4602
0,5793
0,6915
0,7257
0,7881
0,9032
0,1004
0,1071
0,059
0,0158
0,0237
0,0248
0,0521
0,1008
0,0968
Calculamos el estadstico d:
correccin porque n< 30.
70
(no aplicamos la
Por ltimo miramos en la tabla dn, = d9,005 = 0,43. Dado que d < 0,43,
aceptamos al nivel de significacin del 5% que el tiempo de reaccin procede
sigue una distribucin normal N(110,10).
EJEMPLO 5
Las tallas, medidas en metros, de nueve peces de espada capturados por
un palangrero, fueron:
1.628, 1.352, 1.800, 1.420, 1.594, 2.132, 1.614, 1.924, 1.692
Estudiar si se puede admitir, a un nivel de significacin del 5% que los datos
siguen una distribucin normal.
Ho : La poblacin sigue una distribucin normal
H1 : La poblacin no sigue una distribucin normal
Tenemos que estimar la media y la desviacin tpica a partir de los datos de la

muestra, para poder calcular las zi:
71
Escribimos la tabla como en el ejercicio anterior:

xi
zi
F*(xi)
F0(xi) = P(z<zi)
1,352
1,420
1,594
1,614
1,628
1,692
1,800
1,924
2,132
-1,373
-1,092
-0,372
-0,289
-0,232
0,033
0,480
0,992
1,852
0,1111
0,2222
0,3333
0,4444
0,5556
0,6667
0,7778
0,8889
0,085
0,137
0,355
0,386
0,408
0,513
0,684
0,840
0,968
0,026
0,085
0,022
0,058
0,147
0,153
0,094
0,049
0,032
Calculamos el estadstico d:
porque n< 30.
(no aplicamos la correccin
Por ltimo miramos en la tabla dn, = d9,005 = 0,43. Dado que d < 0,43,
aceptamos al nivel de significacin del 5% que la talla de los peces de espada sigue
una distribucin normal.
4. CONTRASTE DE MANN-WHITNEY.
La prueba U de Mann-Whitney se utiliza para contrastar si dos muestras
independientes proceden o no de la misma poblacin. Requiere que las dos
poblaciones sean continuas.
La hiptesis nula de este contraste es que las esperanzas matemticas de las
poblaciones de las que provienen las muestras sean iguales frente a la alternativa
de que no lo son (contraste bilateral) o que una de ellas, previamente escogida, es
superior a la otra (contraste unilateral).
El contraste se basa en ordenar los datos de las dos muestras como si fueran
una sola, de manera que se le asigna un orden a cada dato. Si las esperanzas
matemticas de ambas poblaciones son iguales cabra esperar que la suma de
rangos de los valores de cada muestra fueran parecidos. En caso contrario los
valores de cada muestra estaran agrupado al principio o al final de la muestra
72
conjunta y sus valores esperados no seran parecidos, con lo que razonablemente

tampoco cabra esperar que lo fueran los de las poblaciones de las cuales
provienen.
La metodologa de este contraste es la siguiente:
Supongamos dos muestras X e Y de tamao nx y ny respectivamente.
Ordenamos los datos de menor a mayor de las dos muestras conformando
una sola muestra de tamao nx + ny.
Asignamos un orden (rango) a cada dato empezando por 1 y terminando por
nx + ny.
Si hubiera valores iguales se le asigna como rango la media aritmtica de los
rangos de cada uno.
Calculamos la suma de rangos de cada muestra que llamaremos Wx y Wy.
Calculamos los siguientes estadadsticos:
El estadstico de contraste es
de manera que se rechazar H0
cuando sea T < Ttablas (que es el valor crtico proporcionado por la tabla de
Mann-Whitney para el tamao de las muestras y el nivel de significacin
considerados).
EJEMPLO 6
En una publicacin se lee que el consumo de carne en dos Comunidades
Autnomas espaolas, Andaluca y Extremadura, difiere significativamente.
73
Para contrastar si hay diferencias se anota el consumo en kg durante un

determinado perodo de una muestra de 10 extremeos (X) y 5 andaluces (Y)
encontrando los siguientes resultados:
Extremeos: 16, 11, 14, 21, 18, 34, 22, 7, 12, 12
Andaluces: 12, 14, 11, 30, 10
A un nivel de significacin del 5%, se puede afirmar que el consumo de carne
depende de la comunidad autnoma ?
Lo que queremos contrastar es si el consumo de carne es igual o distinto en
cada comunidad autnoma, es decir, si se puede considerar que las dos muestras
proceden de poblaciones iguales. Para ello realizaremos la prueba U de MannWhitney.
El test por tanto ser:
Para ello ordenamos los datos de la muestra conjunta y asignamos rangos:

X
7
1
1
Y
10
2
2
X
11
3
3,5
Y
11
4
3,5
X
12
5
6
X
12
6
6
Y
12
7
6
X
14
8
8,5
Y
14
9
8,5
X
16
10
10
X
18
11
11
X
21
12
12
X
22
12
13
Y
30
14
14
X
34
15
15
En la tabla anterior, se recogen en la primera fila si el dato pertenece a la

muestra X o a la muestra Y, en la segunda el valor de cada dato, en la tercera el
rango que corresponde a cada dato y en la ltima el rango que utilizaremos para
calcular Wi una vez desechos los empates.
De la tabla se extrae entonces que:
y
74
Calculamos ahora los estadsticos Ux y Uy:
Elegimos
El valor observado en tablas es T10,5;005 = 8 y dado que T > Ttablas
aceptamos al nivel de significacin del 5% que no hay diferencias significativas en
el consumo de carne en ambas comunidades autonomas.
Aproximacin del test de Mann-Whitney por la normal.
Cuando el tamao de las muestras es grande (n x, ny > 30), el estadstico T se
ajusta bastante bien a la distribucin normal, de manera que al tipificarlo se obtiene
un valor de z que habr que ver si pertenece o no a la regin de aceptacin, que
este caso son las siguientes:
Para la tipificacin se tomara como media y desviacin tpica los siguientes

valores:
75
donde C es el nmero de grupos donde hay empate y t c el nmero de datos que

empatan en cada grupo.
EJEMPLO 7
Dos operarios son contratados para el procesado industrial de fruta. Se
mide la productividad de cada uno a partir de los kilos tratados diariamente
durante 30 das, resultando las siguientes cantidades X e Y atribuibles a cada
uno:
X
Y
220
215
208
212
205
217
207
213
225
223
210
215
214
213
200
203
218
226
202
215
221
219
215
221
208
215
210
206
209
216
198
205
219
212
207
200
207
217
201
209
213
221
209
212
216
214
212
210
212
222
210
220
209
206
206
200
211
218
205
206
Comparar las distribuciones X e Y, al nivel de significacin del 5%. Puede

afirmarse que la productividad de los operarios es la misma? Datos:
;
Se trata de comparar las distribuciones de X e Y, y dado que las muestras se
toman de personas diferentes, consideramos muestras independientes y
utilizaremos el contraste de Mann-Whitney.
Para ello, ordenaremos los datos en una muestra conjunta, ya que aunque nos
dan la suma de rangos, vamos a aproximar el estadstico a una normal y
necesitamos conocer cuntos empates hay y cuntos datos hay en cada uno para
calcular la desviacin tpica, y nos ser ms fcil ver esto si los ordenamos. As
pues:
198, 200, 200, 200, 201, 202, 203, 205, 205, 205, 206, 206, 206, 206, 207, 207,
207, 208, 208, 209, 209, 209, 209, 210, 210, 210, 210, 211, 212, 212, 212, 212,
212, 213, 213, 213, 214, 214, 215, 215, 215, 215, 215, 216, 216, 217, 217, 218,
218, 219, 219, 220, 220, 221, 221, 221, 222, 223, 225, 226
76
Dado que conocemos la suma de rangos calculamos los estadsticos Ux y Uy:
Elegimos T = 172,5 por ser el menor valor.

Como las muestras son grandes aplicaremos el ajuste a la normal, de manera
que:
Calcularemos aparte
, donde tc es el nmero de datos que empatan en
cada empate. Hay 7 dobles empates, 5 triples empates, 3 cudruples empates y 2
quntuples empates. Luego:
Luego:
77
Al tipificar T con estos datos resulta:
La regin de aceptacin del contraste es:
Como z no est en C0 no aceptamos al nivel de significacin del 5% la

hiptesis de que los dos operarios trabajan de la misma forma.
5. CONTRASTE DE WILCOXON.
Este contraste se utiliza para lo mismo que el anterior, decidir si existen
diferencias significativas entre dos poblaciones. La diferencia con el contraste de
Mann-Whitney radica en que las muestras deben de ser de datos apareados, es
decir, relacionadas y con el mismo nmero de elementos (n).
Los pasos para realizar este contraste son los siguientes:
Calcular las diferencias entre los datos de la muestra y hacerles el valor
absoluto:
. Las diferencias que salga 0 se descartan.
Asignar un rango a cada diferencia en valor absoluto, de manera que si

hay empates se procede igual que en el test de Mann-Whitney.
Una vez calculados los rangos ponerle signo positivo a aquellos cuyas
diferencias fueran positivas y signo negativo a aquellos cuyas diferencias
fueran negativas.
78
Sumar los rangos de las diferencias positivas (W+). Este ser nuestro
estadstico de contraste T.
Comparamos dicho estadstico con el T observado en tablas para el
tamao muestral y el nivel de significacin considerados de forma que si
T < Ttablas (valor crtico de la tabla de Wilcoxon para el tamao de la
muestra y el nivel de significacin considerados) se rechaza H0.
Cuando la muestra es grande el estadstico T se puede aproximar por una

normal cuya media y varianza son, respectivamente:
de manera que si
cae en la regin de aceptacin aceptaremos
H0. Las regiones de aceptacin son las tpicas:
EJEMPLO 8
Una empresa de cosmticos est estudiando nuevas fragancias y ha
desarrollado dos nuevos productos que desea comparar, X e Y. Ha elegido una
muestra de 20 personas que valoran en una escala de 1 a 10, el aroma de cada
uno de los productos obteniendo los siguientes resultados:
Pe 1 2 3 4 5 6 7 8 9 1
r
0
P1 6 4 5 8 3 6 7 5 6 7
P2 2 2 3 5 4 6 9 6 7 6
11 1
2
9 5
3 4
1
3
5
6
1
4
2
1
0
1
5
6
8
1
6
8
3
1
7
9
4
1
8
4
5
1
9
6
8
20
5
4
79
Comparando ambas distribuciones ( = 0,05), puede afirmarse que

existen diferencias en las valoraciones de los dos productos?
Dado que los dos productos estn valorados por las mismas personas
consideramos muestras apareadas y utilizaremos un test de Wilcoxon.
El test a realizar es:
H0: no existen diferencias en las valoraciones
H1: s existen diferencias en las valoraciones
A continuacin calcularemos las diferencias en valor absoluto, le asignaremos
un rango a cada una y desharemos los empates para establecer el rango definitivo
(las diferencias iguales a 0 se descartan):
Per
P1
P2
Dif
V.Abs
R Pro
R def
1
6
2
4
4
1
5
1
5
2
4
2
2
2
9
11
3
5
3
2
2
1
0
11
4
8
5
3
3
1
4
1
4
5
3
4
-1
1
1
4,
5
6
6
6
0
0
7
7
9
-2
2
11
8
5
6
-1
1
2
9
6
7
-1
1
3
10
7
6
1
1
4
11
9
3
6
6
18
12
5
4
1
1
5
13
5
6
-1
1
6
14
2
10
-8
8
19
15
6
8
-2
2
12
16
8
3
5
5
16
17
9
4
5
5
17
18
4
5
-1
1
7
19
6
8
-2
2
13
20
5
4
1
1
8
11
4,
5
4,
5
4,5
18
4,5
4,5
19
11
16,
5
16,
5
4,5
11
4,5
Con estos datos el estadstico T+ = 115,5.

Dado que el tamao de las muestras es suficientemente grande haremos la
aproximacin a la normal. Los valores de la media y la desviacin tpica son:
Tipificando el valor de T+ obtenido se tiene:

80
Y como z est en la regin de aceptacin aceptamos al nivel de significacin

del 5% que no existen diferencias significativas en la valoracin de ambos
productos.
6. CONTRASTE DE INDEP. EN TABLA DE CONTINGENCIA

El ltimo contraste que vamos a estudiar nos servir para contrastar si dos
variables estn relacionadas o no y normalmente se presenta en una tabla
bidimensional. Observemos la siguiente tabla que podra ser el enunciado de uno
de estos contrastes:
Nia
Nio
Sexo
Total
Deportes
17
51
68
Prioridad
Notas
101
95
196
Total
Popular
75
38
113
193
184
377
La pregunta que nos pueden plantear es si a un nivel de significacin dado se

puede aceptar que la eleccin en la prioridad est relacionada con el sexo.
Esta tabla, de forma genrica, se puede representar as:
Y
X
.
.
.
.
..
81
..
..
..
..
. . .
.
.
.
En la tabla anterior:
nij = frecuencia absoluta de la celda (i,j), es decir, nmero de casos que se
presentan cuando X = xi e Y = yj
ni. = frecuencia absoluta de la fila i.
n.j = frecuencia absoluta de la columna j.
n..= frecuencia absoluta de la tabla (nmero total de observaciones
contenidas en la tabla).
El contraste trata de ver si la diferencia entre los dos grupos es debida o no al
azar, de manera que compara las frecuencias observadas (n ij) y las que cabra
esperar en caso de que X e Y fueran independientes (frecuencias esperadas Eij).
Las frecuencias esperadas se calculan de la siguiente forma:
El estadstico de contraste ser:
que se puede aproximar por el estadstico de Pearson:

82
La distribucin muestral de estos estadsticos se puede aproximar a una

distribucin Chi-cuadrado siempre que Eij > 1 para todo i, j. Como esto casi
siempre ser as podemos decir que:
La regin de aceptacin ser:
El p-valor del contraste ser:
EJEMPLO 9
En 2008 se llev a cabo un estudio a adolescentes chilenos titulado
Usuarios habituales de videojuegos. Uno de los aspectos que se estudi entre
los que juegan regularmente fue la frecuencia a cantidad de tiempo dedicada
a jugar segn el sexo cuyos datos se recopilan a continuacin.
Sexo
Mujer
Hombre
Diariamente
3
24
Frecuencia de juego
Habit. (3 das/sem)
39
212
Fin de semana
60
111
Determina si son independientes estas variables con = 0,05.

Es claro que nos piden hacer un contraste de independencia en una tabla de
contingencia, pues hay dos variables en estudio: el sexo de los adolescentes (X) y
la frecuencia de juego (Y).
83
Lo primero que haremos ser calcular las frecuencias de cada fila y columna as
como la total de la tabla.
Sexo
Mujer
Hombre
n.j
Diaria
3
24
27
Frecuencia de juego
Habitual
Fin Semana
39
60
212
111
251
171
ni.
102
347
449
Ahora calcularemos las frecuencias esperadas:
Con estos datos la tabla de frecuencias observadas queda de la siguiente forma:
Sexo
Mujer
Hombre
Diariamente
6,13
20,87
Frecuencia de juego
Habit. (3 das/sem)
57,02
193,98
Fin de semana
38,85
132,15
As ya podemos calcular el estadstico:
84
Como P no est en C0 no aceptamos H0 al nivel de significacin del 5% y, en

consecuencia, las variables no son independientes.
El p-valor del contraste es:
que dado que es menor que confirma el rechazo de la hiptesis nula.
TEMA 5: MODELOS CAUSALES

1. INTRODUCCIN
Con frecuencia, nos encontramos en diferentes disciplinas, como la economa,
con modelos en los que el comportamiento de una variable Y se puede explicar a
travs de una variable X, lo que se puede representar por:
Si la relacin entre X e Y es de tipo lineal podremos escribir:
85
es decir, si tuviremos i observaciones de la variable X y otras tantas de la variable

Y, la relacin anterior nos dara la recta que pasa por los puntos que formar cada
par de valores (x,y). En tal caso, si existiese esa recta que pasa por todos los
puntos, diramos que las variables X e Y estn perfectamente relacionadas.
Sin embargo, esto no suele ser as, es decir, las variables X e Y pueden tener un
grado de relacin entre ellas pero no estar perfectamente relacionadas, esto es, que
no exista una recta que pase por todo los pares de puntos. En tal caso, trataramos
de ajustar una recta a los puntos, pero siempre cometeramos un error dado que
sera imposible encontrar una recta que pasara por todos. A este error se le llama
perturbacin aleatoria y se denota por , de manera que la expresin de la recta
sera:
El problema que se nos plantea es que si no podemos encontrar una recta que
pase por todos los puntos y hemos de ajustar una, qu valores de
y
tomamos?, pues en realidad existen muchas rectas que se ajustan a un conjunto de
puntos. Es decir, nuestro problema es cmo estimar los coeficientes de la recta.
Aunque, como hemos dicho, existen muchas rectas que se ajustan a un

conjunto de puntos, parece razonable que una recta que se ajuste bien a ellos ser
aquella en la que se minimice los errores cometidos por la estimacin.
Concretamente la mejor recta que se ajusta a un conjunto de puntos es aquella que
minimiza la suma de los cuadrados de los errores, por lo que plantearemos el
mtodo de mnimos cuadrados para realizar la estimacin de los coeficientes.
2. MTODO DE MNIMOS CUADRADOS.
Como hemos dicho, este mtodo consiste en minimizar la suma de los
cuadrados de los errores. Empecemos despejando el error en funcin de x e y:
86
Por tanto la suma de los cuadrados de los errores ser:
Para minimizar esa suma tendremos que derivar respecto de

cero:
e igualar a
Igualando a cero se tiene:
(1)
(2)
Operando en (1):
Operando en (2):
87
Las ecuaciones obtenidas al operar (1) y (2) se llaman ecuaciones normales de

la recta de regresin. La solucin del sistema que forman nos dan los estimadores
mnimo cuadrticos de
sistema:
. Daremos directamente la solucin sin resolver el
donde Sxy es la covarianza entre X e Y, Sx2 es la varianza de X y

a partir de
punto
se ha obtenido
aplicando la propiedad de la recta de regresin de que pasa por el

.
3. COEFICIENTE DE CORRELACIN.
Estamos estudiando modelos en los que una variable Y se relaciona de forma
lineal con otra variable X. Sin embargo nada hemos dicho acerca de cmo es esa
relacin, es decir, como medir si dichas variables estn mucho o poco relacionadas.
El grado de relacin entre las variables se mide por el coeficiente de
correlacin lineal, que vara entre -1 y 1. La frmula para calcularlo es:
donde
es la covarianza entre X e Y y
muestrales de X e Y, respectivamente.
son las desviaciones tpicas
El coeficiente de correlacin puede tomar los siguientes valores:
88
Valores entre -1 y 0 indican que existe una relacin fuerte e inversa entre
las variables, de manera que dicha relacin se hace ms dbil cuanto ms
prximo est el valor de r a 0 y ms fuerte cuanto ms prximo est a -1.
rxy = 0 indica que no existe relacin entre las variables.
Valores entre 0 y 1 indican una relacin fuerte y directa entre las
variables de manera que dicha relacin se hace ms dbil cuanto ms
prximo est r a 0 y ms fuerte cuanto ms prximo est a 1.
4. COEFICIENTE DE DETERMINACIN.
Hemos mencionado anteriormente que la mejor manera de ajustar una recta a
una nube de puntos es mediante el mtodo de mnimos cuadrados. Sin embargo
esto no implica que el ajuste sea bueno, es decir, encontraremos siempre la mejor
recta que se ajusta a ellos pero si los datos estn demasiado dispersos el ajuste no
ser bueno aunque dicha recta sea la mejor.
Para determinar si el ajuste es bueno utilizaremos el coeficiente de
determinacin que es el cuadrado del coeficiente de correlacin, es decir, R2 = rxy2.
El coeficiente de determinacin toma valores entre 0 y 1.
El coeficiente de determinacin mide el porcentaje de la variabilidad de Y
explicado mediante el modelo de regresin, por tanto, el ajuste es tanto mejor
cuanto ms prximo este R2 a 1.En general, se puede decir que el ajuste es bueno
cuando R2 > 0,75.
5. CONTRASTE SOBRE LOS COEFICIENTES DEL MODELO.

En este punto nos centraremos en el contraste de significacin sobre la
pendiente de la recta de regresin. Su formulacin es la siguiente:
89
Este contraste tiene el inters de que si aceptamos H 0 la recta sera

y no existira relacin entre las variables.
El estadstico de contraste es:
cuya distribucin es tn 2
de manera que si t cae en dicha regin se acepta H 0 y las variables no estaran

relacionadas.
EJEMPLO 1
En una encuesta se han tomado datos sobre el consumo de un cierto
producto (Y) y de la renta disponible (X).
X
Y
212
40
152
32
155
35
121
33
96
26
185
37
68
25
126
27
Se pide:
a) Obtener estimaciones mnimo cuadrticas de los parmetros del
modelo que exprese el consumo en funcin de la renta disponible.
b) Calcular los errores del modelo estimado.
c) Proporcionar una medida sobre la bondad del ajuste realizado,
interpretando el resultado.
90
d) Realizar el contraste de significacin sobre la pendiente de la recta de

regresin al nivel de significacin = 0,05.
a) La recta de regresin ser
De los datos se calcula fcilmente que:
(los clculos se han realizado en Excel)

Entonces los coeficientes de la recta de regresin sern:
Luego la recta de regresin es Y = 16,66 + 0,109X

b) Los errores del modelo sern la diferencia entre la y i reales, proporcionadas
en el enunciado y las estimadas calculadas sustituyendo cada x i en la recta
de regresin. La siguiente tabla proporciona dichos datos (las y i estimadas
se han calculado en Excel con los datos obtenidos anteriormente en la recta
de regresin):
Xi
212
152
155
121
96
185
68
Yi
40
32
35
33
26
37
25
39,800
33,253
33,580
29,870
27,142
36,854
24,086
ei
0,200
-1,253
1,420
3,130
-1,142
0,146
0,914

126
27
30,415
91
-3,415
En la tabla anterior se ha incluido X para calcular Yestimada con la recta de

regresin. La columna ei se ha obtenido como Yi -
c) La medida de la bondad del ajuste nos la da el coeficiente de determinacin.

Calculamos primero el coeficiente de correlacin:
El ajuste es bastante bueno ya que el coeficiente de determinacin est muy

prximo a 1. La interpretacin de este resultado es que el 86,9% de la variabilidad
de Y est explicada por el modelo de regresin.
d) El contraste que queremos hacer es:
El estadstico de contraste es:
92
Como t no se encuentra en la regin de aceptacin se rechaza H 0 al nivel de

significacin del 5% y, en consecuencia, el coeficiente
es distinto de cero y las
variables estn relacionadas, tal como preveamos pues el coeficiente de
correlacin era muy prximo a 1.
6. ANLISIS DE LA VARIANZA.
Supongamos una poblacin de las notas yi,r de 9 alumnos de tres grupos
distintos. As:
Grupo 1
5
5
5
Grupo 2
5
5
5
Grupo 3
5
5
5
Evidentemente en este caso la media global de los 9 alumnos es 5 y la de cada

grupo tambin es 5, es decir,
Supongamos ahora que aplicamos un mtodo de enseanza que afecta subiendo

las notas del grupo 1 en 1 punto, las de grupo 2 en 2 puntos y no modificando las
notas del grupo 3. La tabla sera ahora:
Grupo 1
5+1=6
5+1=6
5+1=6
Grupo 2
5+2=7
5+2=7
5+2=7
Grupo 3
5
5
5
Parece claro que el mtodo de enseanza aplicado (a lo que llamaremos factor)

influye en establecer diferencias entre las medias de los grupos, de manera que
ahora la nota de un alumno ser
, donde
es la variacin producida en
93
cada grupo por el factor aplicado (1,2 y 0, respectivamente). Es decir, podemos

decir que hay variaciones entre los grupos debidos a la presencia del factor.
Pero tambin puede haber variaciones dentro del mismo grupo por razones
aleatorias o que no dependan del factor. En el ejemplo que nos ocupa, podramos
pensar que es bastante habitual que haya alumnos que rindan ms que otros, de
manera que dentro del mismo grupo se pueden producir variaciones aleatorias
no debidas a la presencia del factor.
En el ejemplo podra ser algo como esto:
Grupo 1
5+1-1=5
5+1-2=4
5+1+0=
6
Grupo 2
5+2+2=
9
5+2+0=
7
5+2+1=
8
Grupo 3
5+0+3=
8
5+0+4=
9
5+0+0=
5
En la tabla anterior observamos que el efecto debido al factor (entre grupos) se

materializan en los nmeros 1,2 y 0 mientras que los efectos aleatorios (intra
grupos) se materializan en los nmeros -1,2,0,2,0,1,3,4 y 0.
Resumiendo podemos decir que la media de un conjunto de datos puede variar
por dos motivos: la presencia de un factor y razones aleatorias.
En este punto nos vamos a ocupar de un tcnica que se llama anlisis de la
varianza pare determinar si la presencia de un factor provoca diferencias
significativas entre las medias de cada grupo.
Dado que esas diferencias pueden estar provocadas por el factor y por razones
aleatorias, para poder afirmar que el factor produce efectos, la variabilidad entre
grupos ha de ser significativamente grande respecto a la intra grupos.
Supongamos una variable aleatoria Y sobre la que se han tomado n

observaciones de manera que obtenemos f muestras correspondientes a las f
94
categoras del factor. Si el tamao de la muestra para cada categora es el mismo

(n*) estaremos antes un modelo balanceado en el que n = fn*.
Esto se representa en la siguiente tabla:
NIVELES DEL FACTOR
i
r
1
2
r
n*
El modelo sera el siguiente:
donde:
es la obsrvacin r-sima del nivel i
es la media general
efecto del i-simo nivel del factor
efecto aleatorio independiente
Lo que queremos contrastar es si existen diferencias significativas entre los

grupos debido a la presencia del factor, es decir, si las medias son iguales o no lo
son, luego el contraste ser:
95
Aceptar H0 implicar aceptar que el factor no influye significativamente en los

grupos.
Para aplicar este mtodo debemos de partir de unas consideraciones generales:
Independencia de los errores: los errores experimentales han de ser
independientes. Esto se consigue si los elementos de los diversos grupos han
sido elegidos por muestreo aleatorio.
Normalidad: se supone que los errores experimentales se distribuyen
normalmente lo que supone que cada una de las observaciones y ir siguen una
distribucin normal.
Homogeneidad de varianzas (homocedasticidad): las varianzas de los
subgrupos han de ser iguales.
Para aplicar el test nos basaremos en lo que llamamos sumas de cuadrados:
SCT = SCI + SCE
SCT: Suma de cuadrados total
SCI: suma de cuadrados inter grupos.
SCE: suma de cuadrado entre grupos.
En la prctica calcularemos SCT y SCE y SCI la obtendremos por diferencia.
donde
representa el valor de cada observacin e
es la media del conjunto
*
total de datos, n es el tamao de cada muestra y f el nmero de niveles del factor.
96
donde n* es el tamao de cada muestra (para nosotros ser el mismo en cada una
porque suponemos que el modelo es balanceado),
correspondientes a cada nivel del factor e
datos y f el nmero de niveles del factor.
es la media de datos
es la media total del conjunto de
Una vez calculados estos valores procedemos a construir la tabla ANOVA:

F.V
S.C
G. L
Factor F
SF
f-1
Error
n-f
Total
SY
n-1
C.M
donde:
F.V: factor de variacin

S.C: suma de cuadrados.
G.L: grados de libertad.
C.M: cuadrados medios
F: estadstico de contraste que sigue una distribucin Ff-1,n-f
y el p-valor es:
97
EJEMPLO 2
Se quiere averiguar si tres tipos de gasolina presentan diferencias
significativas en cuanto a sus efectos contaminantes. Para ello se seleccionaron
al azar doce vehculos en los que se aplicaron aleatoriamente los tres tipos de
gasolinas obtenindose los siguientes datos respecto a reduccin de xido de
nitrgeno:
Gasolina I
Gasolina II
Gasolina III
23
28
22
26
29
25
25
27
26
25
25
27
Con estos datos, pueden inferirse diferencias significativas entre los 3 tipos
de gasolina a un nivel de significacin del 5%?
En este ejercicio nos dicen que contrastemos el efecto que produce cada tipo de
gasolina en la contaminacin. Tenemos 3 grupos (gasolina I, gasolina II y gasolina
III), y las mediciones de contaminacin para cada grupo. Tenemos que ver si el
echar un tipo de gasolina u otro influye en las medias de cada grupo y esto lo
contrastaremos con una tabla ANOVA.
El contraste es:
Para realizar la tabla ANOVA hemos de calcular la suma de cuadrado total

y la suma de cuadrados del factor
Clculo de SY.
Empezaremos calculando la media total del conjunto de datos (
):
98
Entonces la suma de cuadrados total SY ser:
Clculo de SF.
Empezaremos calculando las medias de cada grupo:
Entonces:
Por ltimo, calculamos la suma de cuadrados residual:
99
Con estos datos, ya podemos realizar la tabla ANOVA, teniendo en cuenta que f =
3, pues existen 3 niveles del factor (grupos) y n = 12 que es nmero de
observaciones totales.
F.V
S.C
G. L
Factor F
15,16
Error
27,5
Total
42,66
11
C.M
Como F se encuentra en la regin de aceptacin, aceptamos H0 al nivel de

significacin del 5%, pudiendo afirmar que no existen diferencias significativas en
la reduccin de xido de nitrgeno en los 3 tipos de gasolinas.
El p-valor del contraste es:
que dado que es mayor que confirma la aceptacin de H0.

Apuntes de Estadística Avanzada

Caricato da

Informazioni sul documento

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Apuntes de Estadística Avanzada

Caricato da

Copyright:

Formati disponibili

APUNTES DE ESTADSTICA AVANZADA

TEMA 1: ESTIMACIN POR PUNTO

Dado que una caracterstica toma valores concretos en cada observacin,

APUNTES DE ESTADSTICA AVANZADA

pueden tomar un conjunto de valores (el espacio muestral de dicha variable

APUNTES DE ESTADSTICA AVANZADA

Muestreo por conglomerados: la poblacin se divide en varios grupos o

Existen dos tipos de estimaciones paramtricas: por punto (cuando se da como

APUNTES DE ESTADSTICA AVANZADA

4. MTODO DE MXIMA VEROSIMILITUD.

Y como la probabilidad de la una variable aleatoria tome un valor determinado

A esta funcin se le denomina funcin de verosimilitud y se denota por

por lo que es usual escribirla as

El mtodo de mxima verosimilitud se utiliza para estimar estos parmetros en

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

su mximo se obtendr donde

Su mximo se alcanzar donde

Elegida una muestra al azar de tamao n (x 1, x2, , xn), construimos la funcin

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Tomamos logaritmos neperianos:

Maximizamos la funcin derivndola el igualando a cero:

Por tanto el estimador mximo verosmil del parmetro p de una distribucin

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Elegida una muestra al azar de tamao n (x 1, x2, , xn), construimos la funcin

Tomamos logaritmos neperianos:

Maximizamos la funcin derivndola el igualando a cero:

Observamos que el estimador mximo verosmil del parmetro de una

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Recordemos que una distribucin Normal es una distribucin de probabilidad

Elegida una muestra al azar de tamao n (x 1, x2, , xn), construimos la funcin

Tomamos logaritmos neperianos:

Derivamos esta funcin respecto a :

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Derivamos ahora respecto de

5. PROPIEDADES DE LOS ESTIMADORES.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Por el contrario diremos que es sesgado cuando no ocurre lo anterior, es decir:

se denomina sesgo del estimador.

es un estimador insesgado de la media

Para ello se deber cumplir:

Mediante un procedimiento similar se demuestra que la varianza muestral es un

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

Consideremos todos los posibles estimadores insesgados de un parmetro ,

son dos estimadores insesgados de un parmetro

TEMA 2: ESTIMACIN POR INTERVALO

APUNTES DE ESTADSTICA AVANZADA

Hemos visto en el tema anterior un mtodo de estimacin de parmetros que

El mtodo que utilizaremos para construir intervalos de confianza se basar en

. As obtendremos un intervalo centrado en un estimador

insesgado del parmetro a estimar y con la probabilidad

2. INTERVALO DE CONFIANZA PARA LA MEDIA POBLACIONAL.

ACADEMIA AL CUADRADO, C.B

APUNTES DE ESTADSTICA AVANZADA

seguir una distribucin N

, cuya desviacin tpica ser

. Buscaremos entonces en la distribucin normal

estndar dos valores tales que exista una probabilidad