Sei sulla pagina 1di 25

Casos y problemas

resueltos

VI: Inferencia en la media Inferencia IV: Inferencia no paramétrica no paramétrica

Contraste de asociación Pruebas de Chi-cuadrado Prueba de McNemar Test G

Pruebas de Chi-cuadrado ∑ Prueba de McNemar ∑ Test G Estadística Inferencia Estadística Aplicada a las

Estadística Inferencia Estadística

Aplicada a las Ciencias Sociales

I: Estadística Descriptiva

Aplicada a las Ciencias Sociales

- 2 -

Patricio Alcaíno Martínez Patricio Alcaíno Martínez

Derechos Reservados

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

2

Palabras iniciales

Estimados usuari@s:

Este material que pongo a su disposición, está creado a partir de casos e investigaciones reales en distintos ámbitos de las Ciencias Sociales. Los datos han sido cambiados para ajustarlos a un criterio didáctico. Por ello, la información y conclusiones a las cuales llegan, no son necesariamente válidos en la realidad cotidiana, ni sirven de referencia para fundamentar trabajos e investigaciones.

Los casos y problemas aquí presentados constituyen una muestra representativa de situaciones frecuentes a enfrentar en investigación social con variables categóricas, en lo referido al test o contraste de asociación o independencia. A saber:

1. Contraste de hipótesis con Chi-cuadrado de Pearson y la corrección de

Yates.

2. Contraste de hipótesis con el test G o de razón de verosimilitudes.

3. Contraste, test o dócima de asociación con muestras pareadas mediante la

prueba de McNemar.

La metodología de contraste se hace a través del valor-p, que es el criterio más utilizado en este momento, toda vez que aparece incorporado a muchos softwares de análisis estadístico hoy en boga.

Este volumen está dirigido a tratar operacionalmente el tema de los contrastes de asociación a partir de datos de frecuencia, abordando tanto el tema del cálculo numérico como la interpretación de los estadísticos que resultan. El lector deberá manejar los conceptos y procedimientos elementales de Inferencia Estadística y contraste de hipótesis y tener competencia en el cálculo de probabilidades con el modelo Chi-cuadrado.

Para trabajar con este material el usuario deberá hacer uso de calculadora y la tabla de probabilidades Chi-cuadrado, tablas que se adjuntan en las páginas finales de este documento.

El uso de este material queda restringido solamente al ámbito académico.

Atentamente;

Patricio Alcaíno Martínez

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

3

Caso 1: Estado civil y síntomas depresivos

Sobre la base de los resultados de un estudio, se ha afirmado que las madres casadas presentan menos síntomas de depresión que las solteras. En una muestra de mujeres de 18-19 años con 1 hijo, se recabó la siguiente información, en número de casos, desagregadas por estado civil:

 

SÍNTOMAS DEPRESIVOS

 

ESTADO CIVIL

No

Total

Casadas

45

131

176

Solteras

83

127

210

Total

128

258

386

1.1. Contraste, con estos datos y un1% de significación, la hipótesis de que el síntoma

depresivo de las mujeres está asociado a su estado civil. Construya sus conclusiones respecto del caso.

1.2. ¿Qué significa, en este contexto, cometer error de tipo II?

Solución:

1.1. Situación típica de resolver a través del contraste de hipótesis de asociación con la

prueba Chi-cuadrado. La muestra es lo suficientemente grande como para utilizar Chi- cuadrado de Pearson, esto es, sin corrección por continuidad de Yates.

Significación:

α = 0,01

Hipótesis:

H0: Los síntomas depresivos de la mujer son independientes de su estado civil H1: Los síntomas depresivos de la mujer están asociados a su estado civil

Estadístico de prueba:

χ

2

obs

Valor p:

α

*

=

Decisión:

=

P(

(45 127

131 83)

2

386

χ

176 210 128 258

2

p;1

>

8,4)

= 0,0037

= 8,4

Como α* < 0,01 , se rechaza H0 al 1%.

Conclusión:

Los síntomas depresivos de la mujer están asociados a su estado civil (p = 0,0037).

1.2. El error de tipo II consiste en no rechazar la hipótesis nula siendo que es falsa. En

este caso significa no rechazar la independencia entre síntomas depresivos y estado civil, dado que en realidad sí hay asociación.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

4

Caso 2: Consumo de cocaína y terapia

En cierta universidad de USA, se realizó un estudio con 187 consumidores compulsivos de cocaína, los que fueron aleatoriamente asignados a acupuntura auricular o a terapia de relajación sin acupuntura. Durante el estudio, los sujetos fueron sometidos a exámenes de orina para detectar la presencia de cocaína en el organismo. De 103 sujetos asignados a tratamiento de auriculopuntura, 35 presentaron evidencia de cocaína en la orina, mientras que entre los sometidos a relajación, 51 de un total de 84.

2.1. A un nivel de significación del 1%, contraste la hipótesis de que el consumo de cocaína durante el estudio resultó asociado al tipo de tratamiento.

Solución:

Se trata de contrastar la posible asociación entre dos variables categóricas, dicotómicas:

Evidencia de cocaína en la orina: Sí – No Tratamiento: Auriculopuntura – Terapia de relajación

Es aplicable una prueba de hipótesis de asociación con la Chi-cuadrado. Primeramente se llevarán los datos a una tabla de contingencia 2x2.

 

TRATAMIENTO

Cocaína en la orina

Total

No

Auriculopuntura

35

68

103

Relajación

51

33

84

Total

86

101

187

Significación:

 
 

α = 0,01

Hipótesis:

 

H0: La presencia de cocaína en la orina es independiente del tratamiento H1: La presencia de cocaína en la orina está asociada al tipo de tratamiento

Estadístico de prueba:

χ

2

obs

=

(35 33

68 51)

2

187

103

84 86

33

= 13,3

Valor p:

*

α =

P(

χ

Decisión:

Como α

2

p;1

>

13,3)

= 0,0003

* < 0,01

, se rechaza H0 al 1%.

Conclusión:

La presencia de cocaína en la orina está asociada al tipo de tratamiento (p =

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

5

Caso 3: Salud y sobrepeso

El gráfico de la figura presenta, en N° de casos, la evaluación del estado general de salud de una muestra de personas adulto mayor, según si presentan peso normal o sobrepeso.

Nº de

casos 12 10 Peso normal 08 Sobrepeso 06 04 02 ESTADO DE SALUD 00 Bueno
casos
12
10
Peso normal
08
Sobrepeso
06
04
02
ESTADO DE SALUD
00
Bueno
Malo

Estado general de salud de adulto mayor, según peso

3.1. Con los datos del gráfico, analice, al 5%, la existencia de una relación significativa

entre peso y estado general de salud en el adulto mayor.

3.2. ¿En qué consiste cometer error de tipo I en este contraste?

Solución:

3.1. Se cuenta con dos variables dicotómicas, con datos de frecuencia. Por esta razón es

aplicable una prueba de hipótesis de asociación con la Chi-cuadrado.

Primero se llevarán los datos a una tabla de contingencia 2x2.

ESTADO DE

SALUD

Bueno

Malo

Total

PESO

PESO

Normal

12

4

16

Sobrepeso

8

10

18

ESTADO DE SALUD Bueno Malo Total PESO Normal 12 4 16 Sobrepeso 8 10 18 Total

Total

20

14

34

El tamaño de la muestra es menor a 40, lo que hace aconsejable el uso de la Chi- cuadrado con corrección de Yates.

La frecuencia observada en una de las celdas es 4, menor que lo aconsejable en cada celda, que es 5, lo que podría hacer pensar en cierta inestabilidad del cálculo. Pero esa

celda tiene una frecuencia esperada igual a

cumplirían con el mínimo aconsejable de 5 en su valor esperado.

14

34

16 = 6,6, por lo que todas las celdas

Significación:

α = 0,5

Hipótesis:

H0: El estado general de salud del adulto mayor es independiente de su peso H1: El estado general de salud del adulto mayor está asociado a su peso

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

6

Estadístico de prueba:

χ

2

obs

=

(

12 10

8

5

0,5 34)

2

34

20 14 16 18

Valor p:

α

*

Decisión:

=

P(

χ

2

p;1

>

2,13)

= 0,1449

= 2,13

Como α* > 0,05 , NO se rechaza H0 al 5%.

Conclusión:

El estado general de salud del adulto mayor no está asociado a su peso (p = 0,1449).

3.2. El error de tipo I es rechazar la hipótesis nula siendo que es veradera. En el marco del caso consiste en rechazar la independencia entre estado de salud y peso en el adulto mayor, dado que en realidad están asociados.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

7

Caso 4: Deserción estudiantil

Una ONG realiza un estudio de deserción estudiantil en la educación superior en una muestra aleatoria de estudiantes de educación superior. Los estudiantes fueron segmentados según género y tipo de carrera y se les hizo un seguimiento a lo largo del primer semestre de estudio, instancia en la que se determinó si habían abandonado o no sus estudios. Las variables estudiadas fueron las siguientes:

Deserción:

Género:

Tipo de carrera:

Técnica

Deserta del sistema: 1 = Sí; 0 = No

Sexo del encuestado: 1 = Hombre; 2 = Mujer

Carrera de estudio del encuestado: 1 = Profesional; 2 =

Los datos obtenidos de la investigación se analizaron con el test de independencia χ ,

llegándose a las siguientes conclusiones:

2

C1: La deserción se da igual en hombres y mujeres (p = 0,0838)

C2: La deserción está asociada al tipo de carrera (p = 0,0184)

De acuerdo a esta información:

4.1. Indique cuál fue la hipótesis nula en el contraste de la conclusión C1.

4.2. Para la conclusión C2, ¿cuál fue la decisión en el contraste?

4.3. Si ambas hipótesis fueron contrastadas al mismo nivel de significación, de los

valores usuales en investigación social, ¿cuál es ese valor?

4.4. Si la correlación entre Deserción y Tipo de carrera fue de negativa y significativa,

¿qué conclusión puede sacar de ello?

Solución:

Se trata del contraste de asociación entre variable categóricas, definidas con dos valores dicotómicos. El contraste fue realizado con pruebas con la Chi-cuadrado.

4.1. En este tipo de contaste, la hipótesis nula siempre afirma la independencia entre las

variables. Por lo tanto, la hipótesis nula para el contraste que llevó a la conclusión C1 fue:

H0: La deserción es independiente del sexo del estudiante.

4.2. Al afirmar asociación entre variables, la conclusión C2 está refutando la

independencia entre deserción y tipo de carrera que plantea la hipótesis nula. Por lo tanto

la decisión fue rechazar la hipótesis nula a un nivel de significación

α .

4.3. En la conclusión C1 no se rechazó la hipótesis nula con α < 0,0838. Entonces la

significación pudo ser 1% o 5%. En la conclusión C2 se rechazó la hipótesis nula con α > 0,0184. Entonces la significación pudo ser 5% o 10%.

Por lo tanto, la significación utilizada en ambos contrastes fue α =5%.

4.4. Correlación negativa indica que los valores “bajos” de deserción (1 = Sí) están

asociados a valores “Altos” de Tipo de carrera (2 = técnica). Por lo tanto se concluye que la deserción está asociada a las carreras técnicas.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

8

Caso 5: Percepción de la situación económica

Se hizo en Chile un estudio hacia fines del año 2010 con una muestra informantes dirigentes sociales, 17 hombres y 15 mujeres, a fin de conocer su percepción de la situación económica del país. Los resultados son los siguientes, en número de casos:

Sexo

Percepción de la situación económica

Total

Buena

Aceptable

Deficiente

Hombre

8

6

3

17

Mujer

9

4

2

15

Total

17

10

5

32

5.1. Con un nivel de significación del 10% realice un contraste de hipótesis para

responder a la afirmación de que la percepción de la situación económica está asociada al género del encuestado.

Solución:

5.1. Primero se calculan los valores esperados bajo la hipótesis de independencia

verdadera.

Valores esperados:

Sexo

Percepción de la situación económica

Total

Buena

Aceptable

Deficiente

Hombre

9,03

5,31

2,66

17

Mujer

7,97

4,69

2,34

15

Total

17

10

5

32

Esta tabla tiene el 50% de las celdas con valores esperados menores que 5, lo que resta validez al análisis. Por lo tanto, se reorganizan los datos para llevarlos a una tabla de 2x2. Como la variable “Percepción de la situación económica” está medida a escala ordinal, se juntarán los valores Aceptable y Deficiente en una misma categoría. La tabla resultante es la siguiente:

Sexo

Percepción de la situación económica

 

Buena

Aceptable-

Total

Deficiente

Hombre

8

9

17

Mujer

9

6

15

Total

17

15

32

El tamaño de la muestra hace aconsejable aplicar el contraste de asociación mediante el Chi-cuadrado con corrección de Yates.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

9

Significación:

α = 0,10

Hipótesis:

H0: La percepción de la situación económica es independiente del sexo del encuestado. H1: La percepción de la situación económica está asociada al sexo del encuestado.

Estadístico de prueba:

χ

2

Yates

=

(

8·6

9·9

0,5 · 32)

2

· 32

17 ·15 ·17 ·15

Valor p:

2

α* = P( χ >

p;1

Decisión:

0,1422)

= 0,706

No se rechaza H0, al 10%.

= 0,1422

Conclusión:

La percepción de la situación económica es independiente del sexo del encuestado (p = 0,706)

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

10

Caso 6: Estado civil y situación laboral de mujeres

Se realiza un estudio para esclarecer la posible asociación entre el estado civil de las mujeres y su situación laboral, conjeturando inicialmente que las mujeres que trabajan remuneradamente fuera del hogar son, fundamentalmente, solteras. Para los efectos, el estudio investigó a 44 mujeres casadas y 34 solteras, independientes entre sí. Los resultados se organizaron en una tabla como la siguiente:

Mujeres según estado civil y situación laboral

Trabaja

Estado civil

Total

remuneradamente

Casada

Soltera

     

No

     

Total

44

34

78

El análisis de la tabla de contingencia dio los siguientes estadísticos:

Estadística

valor

p

Chi2-Pearson

5,4985432

0,0190

Chi2-con corrección de Yates Test-G

4,4638738

0,0346

5,5293445

0,0187

Chi2-McNemar

2,88

0,0897

Correlación-fi Q de Yule

-0,265507

0,0188

-0,502551

Con estos datos, y un 5% de significación, realice el análisis necesario para validar o refutar las siguientes afirmaciones:

6.1. La situación laboral de la mujer está asociada a su estado civil.

6.2. Las mujeres que trabajan remuneradamente son, fundamentalmente, solteras.

Solución:

6.1. La situación laboral de la mujer está asociada a su estado civil

Para estudiar la asociación entre variables categóricas en una tabla de 2x2 es utilizable el

test de asociación con

χ

2 de Pearson, con o sin corrección de Yates, el test G (razón de

verosimilitudes), que también se basa en

que es aplicable a casos con muestras pareadas.

χ

2 . El test de McNemar no sirve en este caso, ya

Las hipótesis del caso son las siguientes:

H0: La situación laboral de la mujer es independiente de su estado civil H1: La situación laboral de la mujer está asociada a su estado civil

Los tres estadísticos basados en Chi cuadrado que aparecen en el cuadro, tienen un valor p menor a la significación del 5%, al igual que el test de Fisher. Estos cuatro resultados

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

11

confirman el rechazo de la hipótesis de independencia. Por lo tanto, se puede afirmar, que:

La situación laboral de la mujer está asociada a su estado civil (p< 0,05).

6.2. Las mujeres que trabajan remuneradamente son, fundamentalmente, solteras. Ya se concluyó que la situación laboral de la mujer está asociada a su estado civil. Falta analizar ahora la dirección de dicha asociación. Para los efectos sirven los dos estadísticos que aparecen en la tabla de estadísticos: el coeficiente de correlación φ y la Q de Yule.

Ambos estadísticos son negativos y existe un valor p menor al 5%. Esto hace concluir que la correlación entre estado civil y situación laboral es inversa y significativa al 5%. De acuerdo a la organización de la tabla de frecuencias, esta correlación indica que la situación laboral de “Sí trabaja remuneradamente”, está correlacionada con el estado civil “Soltera”.

Aunque la correlación es baja en valor absoluto, es significativa, lo que lleva a poder concluir que:

En la mujer, la situación laboral de “sí, trabajando”, está asociada, en forma baja, pero significativa, a las solteras (p<0,05).

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

12

Caso 7: Obesidad en el tiempo

En el marco de una investigación de la obesidad, se hizo un seguimiento a 40 adolescentes obesos y 40 no-obesos, todos independientes entre sí. Cuando adultos, se verificó su estado de peso de los mismos, encontrando los siguientes datos:

ADULTOS

ADOLESCENTES

Total

Obeso

No-obeso

Obeso

16

21

37

No-obeso

24

19

43

Total

40

40

-

7.1. A un nivel de significación del 10%, contraste la hipótesis de que los adolescentes

obesos suelen ser adultos obesos. Analice y formule una conclusión en el marco del caso.

Solución:

7.1. De acuerdo a la descripción y datos dados, se trata de una muestra pareada en una

situación antes-después. Por lo tanto, es aplicable el contraste con el estadístico Chi- cuadrado de McNemar.

Significación:

α = 0,10

Hipótesis:

H0: La obesidad es independiente de la etapa etaria del encuestado. H1: La obesidad está asociada a la etapa etaria del encuestado.

Estadístico de prueba:

Valor p:

Decisión:

2

χ McNemar

*

α =

P(

χ

2

p;1

=

>

(24

21) 2

24

+

21

= 0,2

0,2 )= 0,6547

No se rechaza H0, al 10%.

Conclusión:

La obesidad es independiente de la etapa etaria del encuestado (p = 0,6547). Esto significa que los adolescentes obsesos no necesariamente siguen siéndolo cuando adultos.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

13

Caso 8: El debate televisivo, ¿cambió la intención de voto?

Se investiga la intención de voto en las elecciones presidenciales en 240 sujetos. Después de un debate de los dos candidatos por televisión, se les volvió a consultar a los mismos sujetos su intención de voto, llegando a los datos de la tabla siguiente:

 

Intención de voto DESPUÉS del debate Votaría por candidato

TOTAL

A

B

Intención de voto ANTES del debate Votaría por candidato

 

A 51

45

96

 

B 80

64

144

TOTAL

131

109

240

8.1. Con estos datos, y un nivel de significación del 5%, contraste la hipótesis de que el

debate televisivo cambió significativamente la intención de voto.

Solución:

8.1. De acuerdo a los datos dados y descripción del caso, se trata de una muestra

pareada en una situación antes-después. Por lo tanto, es ideal realizar el contraste con el

estadístico Chi-cuadrado de McNemar.

Significación:

α = 0,10

Hipótesis:

H0: La intención de voto es igual antes y después del debate. H1: La intención de voto es distinta antes y después del debate.

Estadístico de prueba:

 

2

χ

McNemar

Valor p:

α * =

P(

 

2

χ

p;1

Decisión:

=

(80

45) 2

80

+

45

= 9,8

> 9,8)

= 0,0017

Se rechaza H0, al 5%.

Conclusión:

La intención de voto cambió significativamente después del debate televisivo (p =

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

14

Caso 9: Accidentes de tránsito con resultado de muerte

Se investiga una muestra aleatoria de accidentes de tránsito, según sexo del conductor (1 = mujer; 2 = hombre) y su hubo o no resultado de muerte (1 = sí; 0 = no).

Se desea saber si sexo y accidentes de tránsito con resultados de muerte están o no asociados y la dirección de la asociación, si la hubiera. El análisis de una tabla de 2x2 arrojó los siguientes resultados de estadísticos:

χ

2 = 4,2;

Q-Yule= 0,498

9.1. Sobre la base de estos resultados, construya las conclusiones del caso, al 5% de significación.

Solución:

El estadístico

χ

2 se usa en el contraste de asociación. Como la tabla es de 2x2, por ser

ambas variables dicotómicas, esta Chi-cuadrado tiene 1 grado de libertad. Por lo tanto, el valor p de la prueba es: 0,0404, rechazándose la hipótesis de independencia, al 5% de significación.

Por otro lado, el estadístico Q de Yule indica una dirección positiva de la correlación entre sexo (hombre = 2 y Resultado de muerte (1 = sí), ya que esos son los valores mayores de ambas variables.

Por lo tanto, el análisis nos permite afirmar la existencia de una asociación significativa entre sexo del conductor y accidente de tránsito con resultado de muerte (p = 0,0404), verificándose que los resultados de muerte se asocian a los conductores hombres.

Conclusión:

Al 5%, se puede afirmar que los accidentes con resultado de muerte están significativamente asociados a los conductores de sexo masculino (p<0,05).

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

15

Caso 10: Estrés post-terremoto

Después del terremoto en Chile en febrero de 2010, se realizaron una serie de estudios de los fenómenos sociales asociados al acontecimiento. Uno de ellos enfocó el estrés post- terremoto de la población en relación al grupo socioeconómico de los sujetos. La tabla adjunta muestra el estado de estrés pos-terremoto según condición socioeconómica de un grupo de personas seleccionadas aleatoriamente.

Condición

Con estrés

Sin estrés

Total

socioeconómica

Alta

15

25

40

Media

20

32

52

Baja

60

15

75

Total

95

72

167

10.1. Con estos datos, y a un nivel de significación del 1%, ¿está el estrés post-terremoto asociado a la condición socioeconómica?

Solución:

Se trata de un contraste de hipótesis de asociación entre variables categóricas. Una es dicotómica (estado de estrés) y otra ordinal de tres valores (Condición socioeconómica). Para el contraste, se requiere una prueba con la Chi-cuadrado en una tabla de 3x2. Como no se tiene una tabla de 2x2 no pueden ser utilizadas las fórmulas de cálculo abreviados.

Hipótesis:

H0: fo = fe

socioeconómica.

H1: fo

socioeconómica.

El estrés pos-terremoto es independiente de la condición

fe

El estrés pos-terremoto NO es independiente de la condición

Cálculo de la frecuencia esperada:

En cada celda se calcula la frecuencia esperada.

 

Condición

 

Con estrés

Sin estrés

Total

socioeconómica

 

Alta

 

22,8

17,2

40

Media

 

29,6

22,4

52

Baja

 

42,6

32,4

75

Total

 

95

72

167

 

40

1ª fila, 1ª columna:

f e =

167

95 = 22,8

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

16

2ª fila, 1ª columna:

f e =

52

167

95 = 29,6

2ª fila, 2ª columna se calcula por diferencia: 52 – 29,6 = 22,4

3ª fila, 1ª columna: se puede calcular por diferencia: 95 – 22,8 – 29,6 = 42,6

3ª fila, 2ª columna se calcula por diferencia: 72 – 42,6 = 29,4

Cálculo del estadístico de prueba:

Una vez calculadas todas las frecuencias esperadas, se calcula Chi-cuadrado:

χ

χ

χ

2

OBS

2

OBS

2

OBS

=

(f

o

f )

e

2

=

(15

22,8) 2

+

(25

17,2) 2

(20

29,6) 2

+

f

e

22,8

17,2

29,6

(32

22,4) 2

22,4

+

(60

42,6) 2

42,6

+

(15

32,4) 2

32,4

= 2,67 + 3,54 + 3,11 + 4,11 + 7,11 + 9,34 = 29,88

=

29,9

+

Grados de libertad:

Para una tabla de 3 x 2 los grados de libertad son:

ν = (3

1) · (2 – 1) = 2 gl.

Cálculo del valor p:

α* = P (

χ

Decisión:

2

p; 2

>

29,9)

= 0

El valor p es prácticamente cero, por lo que se rechaza la hipótesis de independencia, al 1%.

Conclusión:

El estado de estrés pos-terremoto NO es independiente de la condición socioeconómica (p = 0).

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

17

Caso 11: Universidades y GSE

Se investiga una muestra aleatoria de estudiantes universitarios, según grupo socioeconómico y tipo de universidad en la cual estudian (Estatales –Privadas).

Universidades

 

Grupo socioeconómico

 

Alto

Medio alto

Medio bajo

Bajo

Estatales

13

17

4

3

Privadas

38

19

2

2

11.1. A un nivel del 5% haga una prueba de hipótesis con el test G para validar la

afirmación que dice que los estudiantes universitarios de las universidades privadas son preferentemente de los estratos socioeconómicos altos.

Solución:

El test G, también llamado “razón de verosimilitud”, es una prueba de Chi-cuadrado, que entrega mejores resultados que el de Pearson. Está dado por:

G

=

2

f

o

ln

f

o

f e

11.1. La tabla tiene un 50% de celdas que no cumplen con la cantidad mínima exigida

por la prueba de Chi-cuadrado. Para resolver esto, se fusionará la columna “medio bajo”

con “bajo”, quedando así:

Universidades

 

Grupo socioeconómico

Total

Alto

Medio alto

Medio bajo-bajo

Estatales

13

17

7

37

Privadas

38

19

4

61

Total

51

36

11

98

Ahora se procede a calcular las frecuencias esperadas en cada celda:

Para la celda Estatal/Alto:

f e =

37

98

·51

=19,3

Y así sucesivamente. Se llega a la siguiente tabla:

Universidades

 

Grupo socioeconómico

Total

Alto

Medio alto

Medio bajo-bajo

Estatales

19,3

13,6

4,1

37

Privadas

31,7

22,4

6,9

61

Total

51

36

11

98

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

18

La tabla resultó con una cela con la frecuencia esperada menor a 5, que es el valor mínimo recomendado para la prueba. Pero, así mismo, se acepta hasta un 20% de las celdas que no cumplan con el requisito. Como en este caso. Por lo tanto, se procede al cálculo del estadístico G.

Se calcula en cada celda el valor de:

f

o

· ln

f

o

f e

Universidades

 

Grupo socioeconómico

Total

Alto

Medio alto

Medio bajo-bajo

Estatales

-5,11

3,80

3,65

 

Privadas

6,83

-3,13

-2,15

 

Total

     

3,89

El estadístico G es igual a:

G =

2

f

o

ln

f

o

f

e

G

= 2 (-5,11 + 3,80 + 3,65 + 6,83 – 3,13 – 2,15)

G

= 2 · 3,89 = 7,78

Grados de libertad:

Para una tabla de 2 x 3 los grados de libertad son:

ν=

(2

1) · (3 – 1) = 2 gl.

Esta G es una Chi-cuadrado con 2 grados de libertad.

Valor p:

α* = P(

χ

2

p; 2

>

7,8)

= 0,0202

Decisión:

Con este valor del p-value, se rechaza la hipótesis nula de independencia, al 5%.

Conclusión:

El tipo de universidad de los estudiantes, está asociado al grupo socioeconómico de estos (p = 0,0202).

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

19

Caso 12: IVE en España

Se seleccionan 50 mujeres españolas y 30 extranjeras residentes en España, que se realizaron una IVE 1 . A estas se les consultó si ya se habían realizado una IVE anterior. El resultado es que, de las españolas, 18 ya lo habían hecho anteriormente, mientras que de las extranjeras, un total de 20.

12.1. ¿Existe una diferencia en la realización de IVE anterior respecto de la nacionalidad

de las mujeres? Use un 10% de significación.

Solución:

12.1. Con los datos se construye la siguiente tabla:

IVE anterior

Nacionalidad

Total

Española

Extranjera

18

20

38

No

32

10

42

Total

50

30

80

Hipótesis:

H0: fo = fe

H1: fo

fe

Estadístico de prueba:

Usando la forma abreviada del estadístico Chi-cuadrado de Pearson, se tiene:

2

χ obs

=

Valor p:

P(

2

χ p; 1

(18 · 10

20 · 32)

2

· 80

38 · 42 · 50 · 30

= 7,07.

> 7,07) = 0,0082 (según tabla)

Como valor p < 0,10; se rechaza la hipótesis de homogeneidad al 10%. La diferencia es relevante.

Haciendo un breve análisis de % en cada columna, se tiene que el:

18

50

·100 = 36,0%

De las mujeres españolas se han hecho un IVE anterior, mientras que en las extranjeras ese % llega al:

20

30

·100 =

realizado.

66,7%, sendo la diferencia, significativa, de acuerdo a test

Conclusión:

La proporción de mujeres que se realiza IVE es mayor en las mujeres extranjeras residentes en España que las españolas (p = 0,0082).

1 IVE: Interrupción Voluntaria del Embarazo.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

20

Caso 13: Compra de café

En un supermercado se observa a 46 personas que compran café, de las cuales 27 llevan de la marca A, mientras que las restantes 19 llevan marca B. 13.1. Al 5%, ¿constituye este dato un fundamento para afirmar que las personas compran preferentemente el café marca A?

Solución:

13.1.

Las hipótesis son:

H0: las frecuencias observadas son iguales a las esperadas. H1: las frecuencias observadas son distintas a las esperadas.

En el marco del caso, la hipótesis nula afirma que la compra del café es independiente de la marca, que las personas compran por igual marca A o B y que las diferencias son debidas al azar. La hipótesis alternativa afirma que hay diferencias en la marca que compran.

La situación se puede resumir como sigue:

Frecuencia

Marca de café

Total

A

B

Observada

27

19

46

Cálculo del valor de Chi-cuadrado. Se calculan las frecuencias esperadas, bajo la hipótesis de que no hay diferencia por marca de café. Como se ve, si no hay diferencia, se espera que de las 46 personas, 23 compren café A y 23 compren B.

Frecuencia

Marca de café

Total

A

B

Observada

27

19

46

Esperada

23

23

46

Para la primera celda, el cálculo es:

(27

23) 2

23

= 0,70

Para la segunda celda, el cálculo es:

(19

23) 2

23

Por lo tanto,

χ

2

obs

= 0,70

= 0,7 + 0,7 = 1,4

El valor p:

Grados de libertad: 2 celdas – 1 = 1 gl.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

21

α* = 0,2367. Este resultado lleva a no rechazar la hipótesis nula.

Conclusión:

Con estos datos, no se puede afirmar que los compradores tienen preferencia por una marca de café.

Solución con el test G:

Frecuencia

Marca de café

Total

A

B

Observada

27

19

46

Esperada

23

23

46

Para la primera celda el valor es:

27 · ln

27

23

= 4,33

Para la segunda celda el valor es:

19 · ln

19

23

= –3,63

Estadístico de prueba G:

G = χ

2

obs

= 2 · (4,33 – 3,63) = 1,4

α* = 0,2367

El resultado y conclusiones son equivalentes al de la prueba anterior.

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de

Estadística Aplicada a las Ciencias Sociales-Casos y problemas resueltos Inferencia No paramétrica: Contrastes de asociación de variables categóricas Patricio Alcaíno Martínez – Derechos Reservados

22

Caso 14: Salud, ejercicio y sexo Se investiga en una muestra aleatoria de personas algunas
Caso 14: Salud, ejercicio y sexo
Se investiga en una muestra aleatoria de personas algunas variables de sus hábitos de
vida, para lo cual se han recogido datos de las siguientes variables:
X 1 Estado general de salud (4 = muy bueno; 3 = bueno; 2 = regular; 1 = malo)
=
X
2 Sexo (1 = femenino; 2 = masculino).
=
X
3 = Nivel de ejercicio diario (0 = Ninguno; 1 = Moderado y 2 = Intenso).
Con las tablas de contingencia correspondientes, fueron calculados los siguientes
estadísticos Chi-cuadrado para contrastes de asociación:
14.1. χ
2 (
X 1 ,
X
2 ) = 8,2
2
14.2. (
χ
X
X
) = 4,6
2 ,
3
2
14.3. (
χ
X 1 , X
) = 6,2
3
Con esta información, analice y construya una conclusión al 5% para cada una de las
parejas de variables.

Solución:

Calculando los valores p de cada estadístico, se tiene:

14.1.

χ

2

(

X

1

,

X

2

) = 8,2

Esta tabla tiene 3 grados de libertad. Entonces,

Se rechaza H0, al 5%. Conclusión: El estado general de salud está asociado al sexo (p = 0,0421).

> 8,2) = 0,0421

α* =

P( χ

2

p;3

2

14.2. χ

(

X

2

,

X

3

) = 4,6

Esta tabla tiene 2 grados de libertad. Entonces, α* = P(

No se rechaza H0, al 5%. Conclusión: El nivel de ejercicio diario es independiente del sexo (p = 1003).

2

χ p;2

> 4,6) = 0,1003

14.3. χ

2

(

X

1

,

X

3

) = 6,2

Esta tabla tiene 6 grados de libertad. Entonces,

No se rechaza H0, al 5%. Conclusión: El estado general de salud es independiente del nivel de ejercicio diario (p = 0,4012).

α* =

P( χ

2

p;3

> 8,2) = 0,4012

PROBABILIDAD p DE LA DISTRIBUCIÓN CHI CUADRADA A LA DERECHA DE

2

i

χ

ν

p 0 2 χ i
p
0 2
χ i

χ

2

2

χ p

;ν

GRADOS DE LIBERTAD

1

2

3

4

5

6

2

χ p

;ν

GRADOS DE LIBERTAD

1

2

3

4

5

6

0,2

0,6547

0,9048

0,9776

0,9953

0,9991

0,9998

6,2

0,0128

0,0450

0,1023

0,1847

0,2872

0,4012

0,4

0,5271

0,8187

0,9402

0,9825

0,9953

0,9989

6,4

0,0114

0,0408

0,0937

0,1712

0,2692

0,3799

0,6

0,4386

0,7408

0,8964

0,9631

0,9880

0,9964

6,6

0,0102

0,0369

0,0858

0,1586

0,2521

0,3594

0,8

0,3711

0,6703

0,8495

0,9384

0,9770

0,9921

6,8

0,0091

0,0334

0,0786

0,1468

0,2359

0,3397

1,0

0,3173

0,6065

0,8013

0,9098

0,9626

0,9856

7,0

0,0082

0,0302

0,0719

0,1359

0,2206

0,3208

1,2

0,2733

0,5488

0,7530

0,8781

0,9449

0,9769

7,2

0,0073

0,0273

0,0658

0,1257

0,2062

0,3027

1,4

0,2367

0,4966

0,7055

0,8442

0,9243

0,9659

7,4

0,0065

0,0247

0,0602

0,1162

0,1926

0,2854

1,6

0,2059

0,4493

0,6594

0,8088

0,9012

0,9526

7,6

0,0058

0,0224

0,0550

0,1074

0,1797

0,2689

1,8

0,1797

0,4066

0,6149

0,7725

0,8761

0,9371

7,8

0,0052

0,0202

0,0503

0,0992

0,1676

0,2531

2,0

0,1573

0,3679

0,5724

0,7358

0,8491

0,9197

8,0

0,0047

0,0183

0,0460

0,0916

0,1562

0,2381

2,2

0,1380

0,3329

0,5319

0,6990

0,8208

0,9004

8,2

0,0042

0,0166

0,0421

0,0845

0,1456

0,2238

2,4

0,1213

0,3012

0,4936

0,6626

0,7915

0,8795

8,4

0,0038

0,0150

0,0384

0,0780

0,1355

0,2102

2,6

0,1069

0,2725

0,4575

0,6268

0,7614

0,8571

8,6

0,0034

0,0136

0,0351

0,0719

0,1261

0,1974

2,8

0,0943

0,2466

0,4235

0,5918

0,7308

0,8335

8,8

0,0030

0,0123

0,0321

0,0663

0,1173

0,1851

3,0

0,0833

0,2231

0,3916

0,5578

0,7000

0,8088

9,0

0,0027

0,0111

0,0293

0,0611

0,1091

0,1736

3,2

0,0736

0,2019

0,3618

0,5249

0,6692

0,7834

9,2

0,0024

0,0101

0,0267

0,0563

0,1013

0,1626

3,4

0,0652

0,1827

0,3340

0,4932

0,6386

0,7572

9,4

0,0022

0,0091

0,0244

0,0518

0,0941

0,1523

3,6

0,0578

0,1653

0,3080

0,4628

0,6083

0,7306

9,6

0,0019

0,0082

0,0223

0,0477

0,0874

0,1425

3,8

0,0513

0,1496

0,2839

0,4337

0,5786

0,7037

9,8

0,0017

0,0074

0,0203

0,0439

0,0811

0,1333

4,0

0,0455

0,1353

0,2615

0,4060

0,5494

0,6767

10,0

0,0016

0,0067

0,0186

0,0404

0,0752

0,1247

4,2

0,0404

0,1225

0,2407

0,3796

0,5210

0,6496

10,2

0,0014

0,0061

0,0169

0,0372

0,0698

0,1165

4,4

0,0359

0,1108

0,2214

0,3546

0,4934

0,6227

10,4

0,0013

0,0055

0,0155

0,0342

0,0647

0,1088

4,6

0,0320

0,1003

0,2035

0,3309

0,4666

0,5960

10,6

0,0011

0,0050

0,0141

0,0314

0,0599

0,1016

4,8

0,0285

0,0907

0,1870

0,3084

0,4408

0,5697

10,8

0,0010

0,0045

0,0129

0,0289

0,0555

0,0948

5,0

0,0253

0,0821

0,1718

0,2873

0,4159

0,5438

11,0

0,0009

0,0041

0,0117

0,0266

0,0514

0,0884

5,2

0,0226

0,0743

0,1577

0,2674

0,3920

0,5184

11,2

0,0008

0,0037

0,0107

0,0244

0,0476

0,0824

5,4

0,0201

0,0672

0,1447

0,2487

0,3690

0,4936

11,4

0,0007

0,0033

0,0097

0,0224

0,0440

0,0768

5,6

0,0180

0,0608

0,1328

0,2311

0,3471

0,4695

11,6

0,0007

0,0030

0,0089

0,0206

0,0407

0,0715

5,8

0,0160

0,0550

0,1218

0,2146

0,3262

0,4460

11,8

0,0006

0,0027

0,0081

0,0189

0,0376

0,0666

6,0

0,0143

0,0498

0,1116

0,1991

0,3062

0,4232

12,0

0,0005

0,0025

0,0074

0,0174

0,0348

0,0620

Elaborada con función DISTR.CHI(x;grados_de_libertad) de Excel. Gentileza ALKAYNO S. A. 2011. Derechos Reservados.

Tabla Chi-cuadrado

 

;ν

ν p 0 2 χ i GRADOS DE LIBERTAD 2 χ p 1 2 3
ν
p
0 2
χ i
GRADOS DE LIBERTAD
2
χ p
1
2
3

χ

;ν

 

PROBABILIDAD p DE LA DISTRIBUCIÓN CHI CUADRADA A LA DERECHA DE

 

2

χ

i

2

GRADOS DE LIBERTAD

 

2

GRADOS DE LIBERTAD

 

2

2

GRADOS DE LIBERTAD

χ p

;ν

1

2

3

χ p

;ν

1

2

3

χ p

 

1

2

3

0,1

0,7518

0,9512

0,9918

3,1

0,0783

0,2122

0,3765

6,1

0,0135

0,0474

0,1068

9,1

0,0026

0,0106

0,0280

0,2

0,6547

0,9048

0,9776

3,2

0,0736

0,2019

0,3618

6,2

0,0128

0,0450

0,1023

9,2

0,0024

0,0101

0,0267

0,3

0,5839

0,8607

0,9600

3,3

0,0693

0,1920

0,3476

6,3

0,0121

0,0429

0,0979

9,3

0,0023

0,0096

0,0256

0,4

0,5271

0,8187

0,9402

3,4

0,0652

0,1827

0,3340

6,4

0,0114

0,0408

0,0937

9,4

0,0022

0,0091

0,0244

0,5

0,4795

0,7788

0,9189

3,5

0,0614

0,1738

0,3208

6,5

0,0108

0,0388

0,0897

9,5

0,0021

0,0087

0,0233

0,6

0,4386

0,7408

0,8964

3,6

0,0578

0,1653

0,3080

6,6

0,0102

0,0369

0,0858

9,6

0,0019

0,0082

0,0223

0,7

0,4028

0,7047

0,8732

3,7

0,0544

0,1572

0,2957

6,7

0,0096

0,0351

0,0821

9,7

0,0018

0,0078

0,0213

0,8

0,3711

0,6703

0,8495

3,8

0,0513

0,1496

0,2839

6,8

0,0091

0,0334

0,0786

9,8

0,0017

0,0074

0,0203

0,9

0,3428

0,6376

0,8254

3,9

0,0483

0,1423

0,2725

6,9

0,0086

0,0317

0,0752

9,9

0,0017

0,0071

0,0194

1,0

0,3173

0,6065

0,8013

4,0

0,0455

0,1353

0,2615

7,0

0,0082

0,0302

0,0719

10,0

0,0016

0,0067

0,0186

1,1

0,2943

0,5769

0,7771

4,1

0,0429

0,1287

0,2509

7,1

0,0077

0,0287

0,0688

10,1

0,0015

0,0064

0,0177

1,2

0,2733

0,5488

0,7530

4,2

0,0404

0,1225

0,2407

7,2

0,0073

0,0273

0,0658

10,2

0,0014

0,0061

0,0169

1,3

0,2542

0,5220

0,7291

4,3

0,0381

0,1165

0,2308

7,3

0,0069

0,0260

0,0629

10,3

0,0013

0,0058

0,0162

1,4

0,2367

0,4966

0,7055

4,4

0,0359

0,1108

0,2214

7,4

0,0065

0,0247

0,0602

10,4

0,0013

0,0055

0,0155

1,5

0,2207

0,4724

0,6823

4,5

0,0339

0,1054

0,2123

7,5

0,0062

0,0235

0,0576

10,5

0,0012

0,0052

0,0148

1,6

0,2059

0,4493

0,6594

4,6

0,0320

0,1003

0,2035

7,6

0,0058

0,0224

0,0550

10,6

0,0011

0,0050

0,0141

1,7

0,1923

0,4274

0,6369

4,7

0,0302

0,0954

0,1951

7,7

0,0055

0,0213

0,0526

10,7

0,0011

0,0047

0,0135

1,8

0,1797

0,4066

0,6149

4,8

0,0285

0,0907

0,1870

7,8

0,0052

0,0202

0,0503

10,8

0,0010

0,0045

0,0129

1,9

0,1681

0,3867

0,5934

4,9

0,0269

0,0863

0,1793

7,9