Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
muestra concreta o lo que es lo mismo de que la variable tome los valores (x 1, x2,
, xn). Es decir, en maximizar la funcin de verosimilitud.
Sin embargo, es frecuente no maximizar la funcin de verosimilitud sino su
logaritmo neperiano. Esto es debido a que una funcin no negativa (y la funcin de
verosimilitud lo es puesto que es una funcin de probabilidad) alcanza su mximo
en los puntos que su logaritmo neperiano. En efecto:
Si tenemos
. Supongamos
En consecuencia:
Operando se obtiene:
EJEMPLO 2
Obtener el estimador de mxima verosimilitud del parmetro de una
distribucin de Poisson de la que se ha extrado una muestra de tamao n.
Recordemos que una distribucin de Poisson es una distribucin de
probabilidad discreta cuya funcin de probabilidad es:
En consecuencia:
EJEMPLO 3
Obtener los estimadores de mxima verosimilitud de los parmetros "" y
" "de una distribucin Normal de la que se ha extrado una muestra de
tamao n.
En consecuencia:
10
donde
EJEMPLO 4
Demostrar que la media muestral
poblacional .
En efecto:
EFICIENCIA.
11
ms eficiente que
si
, se dice que
es
CONSISTENCIA.
Se dice que un estimador de un parmetro es consistente si, a medida que
aumenta el tamao de la muestra, el estimador se aproxima ms al parmetro que
estima. Matemticamente lo podemos expresar as:
SUFICIENCIA.
Se dice de un estimador que es suficiente cuando es capaz de extraer de los
datos toda la informacin importante sobre el parmetro.
12
deseada de encontrar
13
Supongamos una poblacin que sigue una distribucin normal del media y
varianza 2, N(, 2). Tomada una muestra de tamao "n", la media de dicha
muestra
Tipificando se tiene
encuentre el estadstico
Es claro que si tenemos dos valores Z 1 y Z2 que dejan entre ellos una
probabilidad
y el que est ms a la
. Es
es igual a
14
se obtiene:
obtenemos:
, por lo
ser:
y dado que
15
de
es
que sera el error mximo admisible para ese nivel de confianza. Por tanto:
EJEMPLO 1
Se considera una muestra aleatoria de 10 consumidores mayores de edad
que en las rebajas de invierno gastaron: 65, 72, 74, 75, 80, 81, 82, 84, 87 y 90
euros respectivamente. Sabiendo que el gasto por persona sigue una
distribucin normal de media desconocida y desviacin tpica de 20 euros,
hallar un intervalo de confianza para el gasto medio poblacional con un nivel
de confianza del 95%.
Del enunciado se desprende que tenemos que construir un intervalo de
confianza al 95% para la media poblacional (gasto medio) conocida la desviacin
tpica poblacional que nos dicen que es 20. Dicho intervalo ser:
Al
ser
el
nivel
de
confianza
del
95%
esto
implica
que
de nuestro intervalo).
16
Por otro lado, necesitamos conocer la media muestral, que es fcil obtener a
partir de las observaciones:
EJEMPLO 2
Las tensiones de ruptura de los cables fabricados por una empresa siguen
una distribucin normal N(,120). A partir de una muestra de 70 cable se ha
obtenido una tensin media de ruptura de 2100 kilos.
(a) Hallar un intervalo de confianza al 95% para la tensin media de
ruptura.
(b) Hallar el tamao que debe tener la muestra para obtener u intervalo
de confianza al 99% con una amplitud igual al anterior.
(a) Del enunciado se desprende que tenemos que construir un intervalo de
confianza al 95% para la media poblacional (tensin media) conocida la desviacin
tpica poblacional que nos dicen que es 120. Dicho intervalo ser:
En este caso no hay que calcular la media muestral pues ya nos la da como dato
el enunciado, luego el intervalo de confianza al 95% ser:
ACADEMIA AL CUADRADO, C.B
17
que
son
y sus extremos
.
La amplitud del nuevo intervalo, construido al 99%, deber ser la misma.
Siendo ahora
, se tendr:
ACADEMIA AL CUADRADO, C.B
18
correccin
Si no se conoce .
Cuando no conocemos la varianza poblacional, la media muestral se distribuye
de la siguiente forma:
ACADEMIA AL CUADRADO, C.B
19
, que denominaremos
llamaremos
se tiene:
obtenemos:
20
EJEMPLO 3
Se ha obtenido una muestra de 15 vendedores de una editorial para
estimar el valor medio de las ventas por trabajador en la empresa. La media y
la varianza de la muestra (en miles de euros) son 5 y 2, respectivamente.
ACADEMIA AL CUADRADO, C.B
21
Al
ser
el
nivel
de
confianza
del
90%
esto
implica
que
de nuestro intervalo).
Igualando:
22
EJEMPLO 4
La cotizacin del dlar frente a la peseta sigue una distribucin normal de
media y varianza desconocidas. Elegidos 9 das al azar, la cotizacin del dlar
en esos das fue:
1453, 1462, 1458, 1461, 146, 1445, 1452, 147, 1442
Determinar un intervalo de confianza, de coeficiente de confianza 0,95, para
la cotizacin media del dlar frente a la peseta.
Del enunciado se desprende claramente que el intervalo a utilizar es:
Al
ser
el
nivel
de
confianza
del
95%
esto
implica
que
de nuestro intervalo).
23
EJEMPLO 5
Para estudiar las medidas del tiempo (en segundos) de aceleracin de una
marca de vehculos se toma una muestra de 15 de ellos resultando ser:
109, 963, 65, 1106, 1139, 976, 1252, 7,68
925, 1240, 984, 1045, 767, 877, 963
(a) Determinar un intervalo de confianza del 95% para la el tiempo medio
de aceleracin de dichos vehculos.
(b) Calcular el tamao de la muestra necesario para que el error de
estimacin de la media ser menor que 0,75 a dicho nivel de confianza.
Al
ser
el
nivel
de
confianza
del
95%
esto
implica
que
24
de nuestro intervalo).
25
siempre y cuando la muestra tomada sea grande pues por el teorema central del
lmite sabemos que la suma de n variables aleatorias idnticamente distribuidas
converge a una normal cuando n tiende a infinito. En consecuencia, si la muestra
(n variables aleatorias independientes con igual distribucin) es muy grande (se
considera muy grande para n>30) , la suma de todas ella converger a una normal,
esto es:
y, por tanto,
Se puede comprobar mirando en tablas que dicho valor es 0,0239, muy prximo
a valor de la t de Student.
Sin embargo, si repetimos los clculos para un tamao muestral menor que 30,
los valores obtenidos para la z y para la t no seran tan parecidos.
3. INTERVALO DE CONFIANZA PARA LA VARIANZA.
ACADEMIA AL CUADRADO, C.B
26
ellos
se
encuentre
el
estadstico
de que entre
que
denominaremos
y
. No coincidirn en
valor como pasaba en el intervalo para la media pues la distribucin Chi-cuadrado
no es simtrica.
As pues, escribiremos:
se obtiene:
27
28
Al
ser
el
nivel
de
confianza
del
Luego
95%
esto
nosotros
implica
que
calcularemos
y
es decir las Chi-cuadrado con 9 grados de libertad
que dejan a su derecha las probabilidades de 0,025 y 0,975, respectivamente.
Dichos valores, consultados en tablas, son los siguientes:
.
Por otro lado, la varianza muestral ser:
EJEMPLO 7
ACADEMIA AL CUADRADO, C.B
29
Al
ser
el
nivel
de
confianza
del
99%
esto
implica
que
de nuestro intervalo).
Calcularemos
y
es decir las Chi-cuadrado con
24 grados de libertad que dejan a su derecha las probabilidades de 0,005 y 0,995,
ACADEMIA AL CUADRADO, C.B
30
Sustituyendo en el intervalo:
Tipificando:
31
Restando
se ontiene:
se tiene:
32
33
ser:
EJEMPLO 8
Tomada, al azar, una muestra de 120 estudiantes de una Universidad, se
encontr que 54 de ellos hablaban ingls. Halle, con un nivel de confianza del
90%, un intervalo de confianza para estimar la proporcin de estudiantes que
hablan el idioma ingls entre los estudiantes de esa Universidad.
. Luego nosotros
(esta ser la
de
34
EJEMPLO 9
Una muestra aleatoria de automviles tomada en una zona turstica ha
permitido obtener un intervalo de confianza, al nivel del 95%, para estimar de
la proporcin de matrculas extranjeras de esa zona, siendo sus extremos 0,232
y 0,368.
(a) Determine el valor de la proporcin estimada a travs de esa muestra y una
cota del error de estimacin a este nivel de confianza.
(b) Utilizando el mismo nivel de confianza, cul sera la cota de error, si esa
misma proporcin se hubiera observado en una muestra de 696 matrculas?
de donde:
y
Sumando ambas ecuaciones se obtiene:
35
EJEMPLO 10
Un investigador desea conocer cuntas personas en un pueblo de 3000
votan a un determinado partido poltico. Para ello toma una muestra de 60
personas resultando que 42 votan a dicho partido poltico. Determinar un
intervalo de confianza para la proporcin de personas que votan a dicho
partido con un nivel de confianza del 99%.
Comenzamos calculando la
Dado que
y n > 20, deberemos aplicar el factor de correccin
de poblacin finita y el intervalo de confianza que dar as:
36
37
38
partir del cual ya no se rechace. Ese valor es el p-valor y se denota por p. Digamos
pues que el p-valor es el valor de lmite entre la aceptacin y el rechazo.
El clculo del p-valor es, en ocasiones, difcil y slo puede realizarse con un
ordenador. Si < p se acepta Ho y si > p se rechaza Ho.
Veamos a continuacin los distintos tipos de test de mxima potencia que
vamos a estudiar.
2. CONTRASTE PARA LA MEDIA CONOCIDA LA DESV. TPICA.
Se trata de contrastar si se puede aceptar a un nivel de significacin la
hiptesis nula de que la media de una poblacin es igual, mayor o menor que un
valor determinado, frente a lo contrario, es decir, distinto, menor o mayor. En la
siguiente tabla recogemos los distintos tipos de contrastes y sus caractersticas:
Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
donde 0 es el valor a contrastar.
EJEMPLO 1
Hace 5 aos el consumo medio de agua por domicilio en un municipio era
de 16 m3 mensuales. Se ha hecho una campaa de ahorro de agua y, luego, se
ha observado una muestra de 15 domicilios elegidos al azar y se ha obtenido
un consumo medio de 14,9 m3. Suponiendo que el consumo de agua sigue una
ACADEMIA AL CUADRADO, C.B
39
ley normal con desviacin tpica de 3,6 m 3. Se acepta que el consumo medio
sigue siendo 16 m3 o, por el contrario, hay evidencias de que ha disminuido con
= 0,1?
Dado que lo que conocemos es que el consumo medio era de 16 m 3, eso es lo
que suponemos como cierto que se mantiene en la actualidad, por tanto, ser
nuestra H0. Por el contrario, queremos contrastar si el programa de ahorro ha
surtido efecto, es decir, si la media ha disminuido, con lo cual esa ser nuestra H 1.
En consecuencia, el contraste ser:
40
EJEMPLO 2
Un banco quiere analizar si las comisiones que cobra a sus clientes por
operaciones en el mercado burstil difieren significativamente de las que cobra
la competencia, cuya media es de 12 euros mensuales con una desviacin
estndar de 4,3 euros. Para ello toma una muestra de 64 operaciones burstiles
y observa que la comisin promedio es de 13,6 euros. Contrastar al nivel de
significacin del 5% que este banco no difiere significativamente en el cobro de
las comisiones por operaciones en la Bolsa con respecto a la competencia.
Como el banco quiere contrastar si sus comisiones son distintas de la
competencia plantear el siguiente contraste:
Como es
Como
existen evidencias en contra de H0 y, en consecuencia, a una
nivel de significacin del 5%, podemos afirmar que las comisiones cobradas por el
banco difieren significativamente de las de la competencia.
El p-valor de este contraste es:
ACADEMIA AL CUADRADO, C.B
41
42
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
A la hora de calcular la regin de aceptacin podemos sustituir la "t" por "z",
cuando el tamao de la muestra es mayor que 30, como ya vimos en los intervalos
de confianza (teorema central del lmite).
EJEMPLO 4
Se piensa que el tiempo medio que est en paro un tipo de profesional de
un determinado sector es de 13,5 meses. Para contrastar esta hiptesis al nivel
del 5% se tom una muestra de 45 profesionales que estuvieron en paro en ese
sector y se obtuvo una media de 17,2 meses y una cuasi-desviacin tpica de
15,3 meses. Contrastar si se puede afirmar la hiptesis de partida.
ACADEMIA AL CUADRADO, C.B
43
pero dado que el tamao de la muestra es mayor que 30, consideraremos la regin
de aceptacin siguiente:
Como
no podemos rechazar, al nivel del 5%, la hiptesis nula y, por
tanto, el tiempo medio de paro es de 13,5 meses.
EJEMPLO 5
Una famosa pizzera afirma que el tiempo que tarda el cliente en recibir su
pedido es una variable aleatoria con distribucin normal de media . Adems
asegura que nunca es mayor que 12. No obstante, un cliente se ha quejado
de que en los 9 ltimos pedidos efectuados en das elegidos al azar, el tiempo
medio calculado por l ha sido de 17,792 minutos con una cuasivarianza
muestral de 36. Contrastar, al nivel de significacin del 5% la afirmacin de la
pizzera.
De los datos del enunciado se desprende que el test a realizar es:
44
EJEMPLO 6
Una persona est convencida que puede afirmarse que el tiempo medio de
espera de un autobs es de ms de 15 minutos. Para ello anota tiempos de
espera elegidos al azar de dicho autobs obteniendo los siguientes valores en
minutos:
ACADEMIA AL CUADRADO, C.B
45
46
Mirando en tablas observamos que este valor est acotado entre 0,025 y 0,01,
por tanto p < , lo que confirma el rechazo de H0.
Bilateral
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
47
EJEMPLO 7
En medidas de ngulos con un cierto teodolito, un topgrafo asegura que
la varianza que obtiene es igual o menor que 5. Se le pone a prueba y se le
hacen 20 determinaciones, obtenindose una varianza de 6. Si la variable
medida del ngulo es normal, podemos aceptar su aseveracin a un nivel de
significacin del 1%?
Del enunciado se extrae inmediatamente que el contraste a realizar es:
48
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
EJEMPLO 9
ACADEMIA AL CUADRADO, C.B
49
50
EJEMPLO 10
Hace 10 aos, el 65% de los habitantes de determinada comunidad
autnoma estaba en contra de la instalacin de una central nuclear.
Recientemente se ha realizado una encuesta a 300 habitantes y 190 se
mostraron contrarios a la instalacin. Con estos datos y con un nivel de
significacin de 0,01, se puede afirmar que la proporcin de contrarios a la
central sigue siendo la misma?
Dado que queremos contrastar si la proporcin sigue siendo la misma o ha
variado, tomaremos como H0 lo que se sabe que es que la proporcin de contrarios
es 0,65 y como H1 que no lo es. Hacemos el siguiente contraste bilateral:
51
52
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
Unilateral
53
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
siendo:
EJEMPLO 12
En una prueba general realizada por todo el alumnado de un nivel de
enseanza se han detectado diferencias que parecen significativas entre dos
grupos, uno diurno y otro nocturno. El primero, de 67 alumnos, ha obtenido
una media en la calificacin de 5,23 con una desviacin tpica de 1,78. En el
otro, compuesto de 58 alumnos, la media ha sido 4,78 y la desviacin tpica
1,60. No se tiene informacin sobre las caractersticas y los parmetros de la
poblacin. Puede ser significativa la diferencia de rendimiento entre los dos
turnos al 95% de nivel de confianza?
El problema nos indica que no conocemos la distribucin de la poblacin pero
sabemos que al ser las muestras grandes podemos suponer normalidad. El contraste
a plantear es:
54
55
56
57
58
Unilateral
Contraste
Estadstico
Reg. Acept.
Decisin
Prob. Lmite
EJEMPLO 14
Para comprobar la utilidad de una tcnica de enriquecimiento
motivacional un investigador pasa una prueba de rendimiento acadmico a
una muestra de 16 sujetos. Despus aplica su tcnica de enriquecimiento y.
tras ello, vuelve a pasar la prueba de rendimiento. Los resultados fueron los
siguientes:
A
D
8
9
12
16
14
23
11
21
16
17
6
10
11
14
9
8
10
11
10
12
19
19
12
16
17
16
8
13
13
17
12
11
59
A
D
Z
8
9
1
12
16
4
14
23
9
11
21
10
16
17
1
6
10
4
11
14
3
9
8
-1
10
11
1
10
12
2
19
19
0
12
16
4
17
16
-1
8
13
5
13
17
4
12
11
-1
60
2. CONTRASTE
de
DE BONDAD DE AJUSTE.
61
62
Este valor
es el valor que nos separa la regin de aceptacin de la
regin crtica, de manera que:
Si P <
Si P >
EJEMPLO 1
El nmero de asignaturas aprobadas en una determinada convocatoria
universitaria por 60 alumnos ha sido el siguiente:
N aprobadas
N alumnos
0
10
1
15
2
15
3
10
4
6
5
4
63
Calculamos ahora el estadstico P, pero dado que hay una frecuencia absoluta
esperada menor que 5, la de la ltima clase, juntaremos las dos ltimas clases as:
n5 + n6 = 10
E5 + E6 = 8,4
64
0
35
1
72
2
68
3
48
4
17
5
6
6
3
7
1
65
nj
pj
0
1
2
3
35
72
68
48
0,1496
0,2842
0,27
0,171
37,4
71,05
67,5
42,75
-2,4
0,95
0,5
5,25
5,76
0,9025
0,25
27,5625
17
10
0,0812
0,044
20,30
11
-3,3
-1
66
10,89
1
ni
70
115
122
98
85
110
67
Calculamos ahora las frecuencias tericas esperadas que sern todas iguales
dado que la probabilidad de que salga cada cara es la misma e igual a 1/6. Por
tanto:
con j = 1, 2, ..., 6
Realizamos la siguiente tabla para calcular el estadstico de contraste:
nj
pj
As
K
Q
J
Rojo
Negro
70
115
122
98
85
110
1/6
1/6
1/6
1/6
1/6
1/6
100
100
100
100
100
100
-30
15
22
-2
-15
10
900
225
484
4
225
100
68
y si n > 30 haremos
69
EJEMPLO 4
Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de
palabras previamente presentadas, han sido los siguientes:
115, 98, 123, 109, 112, 87, 118, 104, 106
A un nivel de confianza del 95%, son compatibles estos resultados con la
hiptesis de que el tiempo de reaccin en esta tarea sigue una distribucin
normal de media 110 y desviacin tpica 10?
El contraste a realizar ser:
Ho : La poblacin sigue una distribucin normal
H1 : La poblacin no sigue una distribucin normal
Dado que la variable es continua, el tamao muestral pequeo y en la hiptesis
nula est totalmente especificada la distribucin utilizaremos un contraste de
Kolmogorov-Smirnov.
Para ello construiremos una tabla donde aparezcan:
xi: sern los datos de la muestra ordenados en orden creciente.
zi: sern los datos anteriores tipificados.
F*(xi): sern los valores de la funcin de distribucin emprica, teniendo en
cuenta que n = 9.
F0(xi): ser P(z<zi)
no realizaremos todos los clculos para no extender
demasiado la resolucin, solamente pondremos el resultado, pero se pueden
calcular fcilmente con PQRS.
87
98
104
109
112
115
116
118
123
-2,3
-1,2
-0,6
-0,1
0,2
0,5
0,6
0,8
1,3
0,1111
0,2222
0,3333
0,4444
0,5556
0,6667
0,7778
0,8889
0,0107
0,1151
0,2743
0,4602
0,5793
0,6915
0,7257
0,7881
0,9032
0,1004
0,1071
0,059
0,0158
0,0237
0,0248
0,0521
0,1008
0,0968
Calculamos el estadstico d:
correccin porque n< 30.
70
(no aplicamos la
Por ltimo miramos en la tabla dn, = d9,005 = 0,43. Dado que d < 0,43,
aceptamos al nivel de significacin del 5% que el tiempo de reaccin procede
sigue una distribucin normal N(110,10).
EJEMPLO 5
Las tallas, medidas en metros, de nueve peces de espada capturados por
un palangrero, fueron:
1.628, 1.352, 1.800, 1.420, 1.594, 2.132, 1.614, 1.924, 1.692
Estudiar si se puede admitir, a un nivel de significacin del 5% que los datos
siguen una distribucin normal.
El contraste a realizar ser:
Ho : La poblacin sigue una distribucin normal
H1 : La poblacin no sigue una distribucin normal
71
1,352
1,420
1,594
1,614
1,628
1,692
1,800
1,924
2,132
-1,373
-1,092
-0,372
-0,289
-0,232
0,033
0,480
0,992
1,852
0,1111
0,2222
0,3333
0,4444
0,5556
0,6667
0,7778
0,8889
0,085
0,137
0,355
0,386
0,408
0,513
0,684
0,840
0,968
0,026
0,085
0,022
0,058
0,147
0,153
0,094
0,049
0,032
Calculamos el estadstico d:
porque n< 30.
Por ltimo miramos en la tabla dn, = d9,005 = 0,43. Dado que d < 0,43,
aceptamos al nivel de significacin del 5% que la talla de los peces de espada sigue
una distribucin normal.
4. CONTRASTE DE MANN-WHITNEY.
La prueba U de Mann-Whitney se utiliza para contrastar si dos muestras
independientes proceden o no de la misma poblacin. Requiere que las dos
poblaciones sean continuas.
La hiptesis nula de este contraste es que las esperanzas matemticas de las
poblaciones de las que provienen las muestras sean iguales frente a la alternativa
de que no lo son (contraste bilateral) o que una de ellas, previamente escogida, es
superior a la otra (contraste unilateral).
El contraste se basa en ordenar los datos de las dos muestras como si fueran
una sola, de manera que se le asigna un orden a cada dato. Si las esperanzas
matemticas de ambas poblaciones son iguales cabra esperar que la suma de
rangos de los valores de cada muestra fueran parecidos. En caso contrario los
valores de cada muestra estaran agrupado al principio o al final de la muestra
ACADEMIA AL CUADRADO, C.B
72
El estadstico de contraste es
de manera que se rechazar H0
cuando sea T < Ttablas (que es el valor crtico proporcionado por la tabla de
Mann-Whitney para el tamao de las muestras y el nivel de significacin
considerados).
EJEMPLO 6
En una publicacin se lee que el consumo de carne en dos Comunidades
Autnomas espaolas, Andaluca y Extremadura, difiere significativamente.
ACADEMIA AL CUADRADO, C.B
73
Y
10
2
2
X
11
3
3,5
Y
11
4
3,5
X
12
5
6
X
12
6
6
Y
12
7
6
X
14
8
8,5
Y
14
9
8,5
X
16
10
10
X
18
11
11
X
21
12
12
X
22
12
13
Y
30
14
14
X
34
15
15
y
ACADEMIA AL CUADRADO, C.B
74
Elegimos
El valor observado en tablas es T10,5;005 = 8 y dado que T > Ttablas
aceptamos al nivel de significacin del 5% que no hay diferencias significativas en
el consumo de carne en ambas comunidades autonomas.
Aproximacin del test de Mann-Whitney por la normal.
Cuando el tamao de las muestras es grande (n x, ny > 30), el estadstico T se
ajusta bastante bien a la distribucin normal, de manera que al tipificarlo se obtiene
un valor de z que habr que ver si pertenece o no a la regin de aceptacin, que
este caso son las siguientes:
75
220
215
208
212
205
217
207
213
225
223
210
215
214
213
200
203
218
226
202
215
221
219
215
221
208
215
210
206
209
216
198
205
219
212
207
200
207
217
201
209
213
221
209
212
216
214
212
210
212
222
210
220
209
206
206
200
211
218
205
206
;
Se trata de comparar las distribuciones de X e Y, y dado que las muestras se
toman de personas diferentes, consideramos muestras independientes y
utilizaremos el contraste de Mann-Whitney.
Para ello, ordenaremos los datos en una muestra conjunta, ya que aunque nos
dan la suma de rangos, vamos a aproximar el estadstico a una normal y
necesitamos conocer cuntos empates hay y cuntos datos hay en cada uno para
calcular la desviacin tpica, y nos ser ms fcil ver esto si los ordenamos. As
pues:
198, 200, 200, 200, 201, 202, 203, 205, 205, 205, 206, 206, 206, 206, 207, 207,
207, 208, 208, 209, 209, 209, 209, 210, 210, 210, 210, 211, 212, 212, 212, 212,
212, 213, 213, 213, 214, 214, 215, 215, 215, 215, 215, 216, 216, 217, 217, 218,
218, 219, 219, 220, 220, 221, 221, 221, 222, 223, 225, 226
76
Calcularemos aparte
, donde tc es el nmero de datos que empatan en
cada empate. Hay 7 dobles empates, 5 triples empates, 3 cudruples empates y 2
quntuples empates. Luego:
Luego:
77
78
Sumar los rangos de las diferencias positivas (W+). Este ser nuestro
estadstico de contraste T.
Comparamos dicho estadstico con el T observado en tablas para el
tamao muestral y el nivel de significacin considerados de forma que si
T < Ttablas (valor crtico de la tabla de Wilcoxon para el tamao de la
muestra y el nivel de significacin considerados) se rechaza H0.
de manera que si
cae en la regin de aceptacin aceptaremos
H0. Las regiones de aceptacin son las tpicas:
EJEMPLO 8
Una empresa de cosmticos est estudiando nuevas fragancias y ha
desarrollado dos nuevos productos que desea comparar, X e Y. Ha elegido una
muestra de 20 personas que valoran en una escala de 1 a 10, el aroma de cada
uno de los productos obteniendo los siguientes resultados:
Pe 1 2 3 4 5 6 7 8 9 1
r
0
P1 6 4 5 8 3 6 7 5 6 7
P2 2 2 3 5 4 6 9 6 7 6
11 1
2
9 5
3 4
1
3
5
6
1
4
2
1
0
1
5
6
8
1
6
8
3
1
7
9
4
1
8
4
5
1
9
6
8
20
5
4
79
1
6
2
4
4
1
5
1
5
2
4
2
2
2
9
11
3
5
3
2
2
1
0
11
4
8
5
3
3
1
4
1
4
5
3
4
-1
1
1
4,
5
6
6
6
0
0
7
7
9
-2
2
11
8
5
6
-1
1
2
9
6
7
-1
1
3
10
7
6
1
1
4
11
9
3
6
6
18
12
5
4
1
1
5
13
5
6
-1
1
6
14
2
10
-8
8
19
15
6
8
-2
2
12
16
8
3
5
5
16
17
9
4
5
5
17
18
4
5
-1
1
7
19
6
8
-2
2
13
20
5
4
1
1
8
11
4,
5
4,
5
4,5
18
4,5
4,5
19
11
16,
5
16,
5
4,5
11
4,5
80
Nia
Nio
Sexo
Total
Deportes
17
51
68
Prioridad
Notas
101
95
196
Total
Popular
75
38
113
193
184
377
.
.
.
.
..
81
..
..
..
..
. . .
.
.
.
En la tabla anterior:
nij = frecuencia absoluta de la celda (i,j), es decir, nmero de casos que se
presentan cuando X = xi e Y = yj
ni. = frecuencia absoluta de la fila i.
n.j = frecuencia absoluta de la columna j.
n..= frecuencia absoluta de la tabla (nmero total de observaciones
contenidas en la tabla).
El contraste trata de ver si la diferencia entre los dos grupos es debida o no al
azar, de manera que compara las frecuencias observadas (n ij) y las que cabra
esperar en caso de que X e Y fueran independientes (frecuencias esperadas Eij).
Las frecuencias esperadas se calculan de la siguiente forma:
82
EJEMPLO 9
En 2008 se llev a cabo un estudio a adolescentes chilenos titulado
Usuarios habituales de videojuegos. Uno de los aspectos que se estudi entre
los que juegan regularmente fue la frecuencia a cantidad de tiempo dedicada
a jugar segn el sexo cuyos datos se recopilan a continuacin.
Sexo
Mujer
Hombre
Diariamente
3
24
Frecuencia de juego
Habit. (3 das/sem)
39
212
Fin de semana
60
111
83
Lo primero que haremos ser calcular las frecuencias de cada fila y columna as
como la total de la tabla.
Sexo
Mujer
Hombre
n.j
Diaria
3
24
27
Frecuencia de juego
Habitual
Fin Semana
39
60
212
111
251
171
ni.
102
347
449
Sexo
Mujer
Hombre
Diariamente
6,13
20,87
Frecuencia de juego
Habit. (3 das/sem)
57,02
193,98
Fin de semana
38,85
132,15
84
85
El problema que se nos plantea es que si no podemos encontrar una recta que
pase por todos los puntos y hemos de ajustar una, qu valores de
y
tomamos?, pues en realidad existen muchas rectas que se ajustan a un conjunto de
puntos. Es decir, nuestro problema es cmo estimar los coeficientes de la recta.
86
e igualar a
(1)
(2)
Operando en (1):
Operando en (2):
87
se ha obtenido
3. COEFICIENTE DE CORRELACIN.
Estamos estudiando modelos en los que una variable Y se relaciona de forma
lineal con otra variable X. Sin embargo nada hemos dicho acerca de cmo es esa
relacin, es decir, como medir si dichas variables estn mucho o poco relacionadas.
El grado de relacin entre las variables se mide por el coeficiente de
correlacin lineal, que vara entre -1 y 1. La frmula para calcularlo es:
donde
es la covarianza entre X e Y y
muestrales de X e Y, respectivamente.
88
Valores entre -1 y 0 indican que existe una relacin fuerte e inversa entre
las variables, de manera que dicha relacin se hace ms dbil cuanto ms
prximo est el valor de r a 0 y ms fuerte cuanto ms prximo est a -1.
rxy = 0 indica que no existe relacin entre las variables.
Valores entre 0 y 1 indican una relacin fuerte y directa entre las
variables de manera que dicha relacin se hace ms dbil cuanto ms
prximo est r a 0 y ms fuerte cuanto ms prximo est a 1.
4. COEFICIENTE DE DETERMINACIN.
Hemos mencionado anteriormente que la mejor manera de ajustar una recta a
una nube de puntos es mediante el mtodo de mnimos cuadrados. Sin embargo
esto no implica que el ajuste sea bueno, es decir, encontraremos siempre la mejor
recta que se ajusta a ellos pero si los datos estn demasiado dispersos el ajuste no
ser bueno aunque dicha recta sea la mejor.
Para determinar si el ajuste es bueno utilizaremos el coeficiente de
determinacin que es el cuadrado del coeficiente de correlacin, es decir, R2 = rxy2.
El coeficiente de determinacin toma valores entre 0 y 1.
El coeficiente de determinacin mide el porcentaje de la variabilidad de Y
explicado mediante el modelo de regresin, por tanto, el ajuste es tanto mejor
cuanto ms prximo este R2 a 1.En general, se puede decir que el ajuste es bueno
cuando R2 > 0,75.
89
cuya distribucin es tn 2
La regin de aceptacin es:
212
40
152
32
155
35
121
33
96
26
185
37
68
25
126
27
Se pide:
a) Obtener estimaciones mnimo cuadrticas de los parmetros del
modelo que exprese el consumo en funcin de la renta disponible.
b) Calcular los errores del modelo estimado.
c) Proporcionar una medida sobre la bondad del ajuste realizado,
interpretando el resultado.
ACADEMIA AL CUADRADO, C.B
90
Xi
212
152
155
121
96
185
68
Yi
40
32
35
33
26
37
25
39,800
33,253
33,580
29,870
27,142
36,854
24,086
ei
0,200
-1,253
1,420
3,130
-1,142
0,146
0,914
ACADEMIA AL CUADRADO, C.B
27
30,415
91
-3,415
92
Grupo 2
5
5
5
Grupo 3
5
5
5
Grupo 2
5+2=7
5+2=7
5+2=7
Grupo 3
5
5
5
, donde
es la variacin producida en
93
Grupo 2
5+2+2=
9
5+2+0=
7
5+2+1=
8
Grupo 3
5+0+3=
8
5+0+4=
9
5+0+0=
5
94
1
2
r
n*
El modelo sera el siguiente:
donde:
es la media general
95
donde
representa el valor de cada observacin e
es la media del conjunto
*
total de datos, n es el tamao de cada muestra y f el nmero de niveles del factor.
96
donde n* es el tamao de cada muestra (para nosotros ser el mismo en cada una
porque suponemos que el modelo es balanceado),
correspondientes a cada nivel del factor e
datos y f el nmero de niveles del factor.
es la media de datos
S.C
G. L
Factor F
SF
f-1
Error
n-f
Total
SY
n-1
C.M
donde:
y el p-valor es:
97
EJEMPLO 2
Se quiere averiguar si tres tipos de gasolina presentan diferencias
significativas en cuanto a sus efectos contaminantes. Para ello se seleccionaron
al azar doce vehculos en los que se aplicaron aleatoriamente los tres tipos de
gasolinas obtenindose los siguientes datos respecto a reduccin de xido de
nitrgeno:
Gasolina I
Gasolina II
Gasolina III
23
28
22
26
29
25
25
27
26
25
25
27
Con estos datos, pueden inferirse diferencias significativas entre los 3 tipos
de gasolina a un nivel de significacin del 5%?
En este ejercicio nos dicen que contrastemos el efecto que produce cada tipo de
gasolina en la contaminacin. Tenemos 3 grupos (gasolina I, gasolina II y gasolina
III), y las mediciones de contaminacin para cada grupo. Tenemos que ver si el
echar un tipo de gasolina u otro influye en las medias de cada grupo y esto lo
contrastaremos con una tabla ANOVA.
El contraste es:
Clculo de SY.
Empezaremos calculando la media total del conjunto de datos (
):
98
Clculo de SF.
Empezaremos calculando las medias de cada grupo:
Entonces:
99
Con estos datos, ya podemos realizar la tabla ANOVA, teniendo en cuenta que f =
3, pues existen 3 niveles del factor (grupos) y n = 12 que es nmero de
observaciones totales.
F.V
S.C
G. L
Factor F
15,16
Error
27,5
Total
42,66
11
C.M