Sei sulla pagina 1di 9
Socioestadística III - 2013 Sociología - Vespertino Profesor: Patricio Alcaíno Martínez Guía de trabajo personal

Socioestadística III - 2013 Sociología - Vespertino

Profesor: Patricio Alcaíno Martínez

Guía de trabajo personal Nº1

Introducción al contraste de hipótesis

Fundamentos de contraste de hipótesis – la prueba de Chi-cuadrado – test de asociación

Pruebas de hipótesis de independencia entre variables categóricas

Y se le ha dado al hombre el más peligroso de los bienes, el lenguaje… para que muestre lo que es… (M. Heidegger)

I: Conceptos básicos de contraste de hipótesis

1.1. Concepto de hipótesis estadística Una hipótesis es una suposición, o un supuesto, con miras a explicar algo. Referida a la ciencia, es una generalización o enunciado general que, en principio, supone una interpretación de determinados hechos, y que adoptamos transitoriamente como verdadera mientras la sometemos a confirmación o refutación. 1 Una hipótesis estadística es aquella que cuenta con una distribución de frecuencias (datos empíricos) para proceder a su contestación que levará a su confirmación o refutación.

Ejemplo: el siguiente texto fue extraído de un informe de investigación:

Existen evidencias que la mujer embarazada tiene un riesgo de maltrato más alto que la mujer no embarazada, afectando su capacidad reproductiva. Además, se ha comprobado una baja detección de la violencia doméstica en los centros de salud en los que consulta la mujer.

De este párrafo es posible derivar las siguientes afirmaciones:

(1) La mujer embarazada tiene un riesgo de maltrato más alto que la mujer no embarazada. (2) El maltrato en la mujer embarazada afecta su capacidad reproductiva. (3)Existe una baja detección de la violencia doméstica en los centros de salud en los que consulta la mujer.

Mientras que las afirmaciones (1) y (2) constituyen genuinas hipótesis, la (3) no, ya que constituye más bien un juicio. El concepto de “baja detección” no permite su confirmación o refutación.

1 Cortés Morató, Jordi - Martínez Riu, Antoni. Diccionario de filosofía. Empresa Editorial Herder S.A. 1996. ISBN 84-254-1991-3.

Guía Nº1-Socioestadística III-2013

2

1.2. Contaste de hipótesis

Docimar, probar, testear o contrastar una hipótesis, consiste en someterla a un mecanismo estadístico para decidir, sobre la

base de las observaciones empíricas, si se rechaza o no se rechaza.

El contraste de hipótesis tiene por fin, entonces:

Rechazar la hipótesis que se plantea; o bien:

NO rechazar la hipótesis planteada, ya que los datos presentados no son suficientes para rechazarla.

1.3. Riesgo de error

Cada vez que se decide acerca del rechazo o no de una hipótesis, existe riesgo de error:

1.3.1. Error tipo I: es aquel que se comete al rechazar una hipótesis (como si fuese falsa) siendo que es

verdadera.

1.3.2. Error tipo II: es el error que se comete cuando no se rechaza una hipótesis (como si fuese verdadera)

siendo que en realidad es falsa.

Estos errores están SIEMPRE presentes en todo contraste de hipótesis.

1.4. Error y decisión estadística

 

La hipótesis es:

Decisión

V

F

Rechazar

error I

decisión correcta

No-rechazar

decisión correcta

error II

Los errores I y II están relacionados inversamente. Al disminuir uno, aumenta el otro. La única manera de disminuirlos es aumentando el tamaño de la muestra.

1.5. Nivel de significación ( α )

Es el riesgo de cometer error del tipo I que el investigador asume para tomar una decisión acerca de una hipótesis. La significación se entiende como probabilidad, y frecuentemente se expresa como %.

Los más usuales son: α = 0,1 (10%);

α = 0,05 (5%) y

α = 0,01 (1%)

1.6. Hipótesis nula y alternativa:

Para realizar una dócima de hipótesis se plantean dos tipos de hipótesis:

1.6.1. Hipótesis Nula (H0)

Esta es una hipótesis instrumental, que se plantea como oposición o complemento a la hipótesis que interesa.

1.6.2. Hipótesis alternativa (H1):

Es la hipótesis que se desea someter a contraste.

1.7. Estrategia del contraste de hipótesis

La estrategia del contraste de una hipótesis estadística se puede resumir en los siguientes puntos:

1º: Se adopta como hipótesis nula un modelo de probabilidad. Se asume que esta hipótesis es verdadera, hasta que se pruebe lo contrario. 2º: Con los datos empíricos se calcula un estadístico de prueba. 3º: Se compara el estadístico de prueba con el modelo teórico. 4º: Si el estadístico de prueba coincide con el modelo, significa que la hipótesis nula es verdadera. 5º: Si el estadístico de prueba NO coincide con el modelo, significa que la hipótesis nula puede ser rechazada, a favor de la hipótesis alternativa, con una probabilidad de error α .

Guía Nº1-Socioestadística III-2013

3

II: Contraste de hipótesis de independencia de variables categóricas dicotómicas con el estadístico Chi-cuadrado de Pearson

2.1. Introducción:

En general, el test con la Chi-cuadrado se usa para contrastar la hipótesis de que dos variables categóricas son independientes, versus la alternativa de que están asociadas, es decir, que no son independientes. Uno de los casos más frecuentes se da en el contraste con dos variables dicotómicas organizadas en tablas de contingencia de 2x2.

2.2.

Tabla:

 
   

Variable Y

Variable X

Total fila

 

+

-

 

+ a

 

b

n1

 

- c

 

d

n2

Total columna

n3

n4

n

En donde:

X

e Y: variables aleatorias con dos valores nominales dicotómicos.

 

a,

b, c, d: frecuencias absolutas. N° de casos observados.

 

n1, n2: suma de filas. n3, n4: suma de columnas.

n = tamaño de la muestra

2.3. Hipótesis

H0: X e Y son independientes. H1: X e Y están asociadas, no son independientes.

Para la hipótesis nula, se asume que las diferencias observadas empíricamente (datos) son aleatorias y no constituyen signos de asociación entre las variables. La hipótesis alternativa, en tanto, asume la postura de que las diferencias observadas son significativas y suficientes como para afirmar que las variables no son independientes entre sí. En este tipo de contraste, la hipótesis nula adopta como modelo la distribución de probabilidad Chi-cuadrado (

χ

2

).

2.4. Estadístico Chi-cuadrado de Pearson

Para los efectos de contrastar las hipótesis, se calcula el siguiente estadístico de prueba.

χ

2

OBS

=

(a

n

1

d

n

2

b

n

c)

3

2

n

n

4

Cuando la hipótesis nula es verdadera, este estadístico sigue una distribución Chi-cuadrado con 1 grado de libertad. En tablas de contingencia de 2 x 2, siempre ν = 1 grado de libertad.

Guía Nº1-Socioestadística III-2013

4

2.5. Valor p de la prueba ( α * , p-value)

Para el caso del contraste de independencia con mayor al observado (figura 1).

χ

2 , el valor p es la probabilidad de que el Chi-cuadrado tenga un valor

ν 1 gl α * 2 0 2 χ 0 3 , 84 χ 5,4
ν
1 gl
α *
2
0
2 χ
0
3 , 84
χ
5,4
obs
Fig. 1
Fig. 2

α = 0,05

α* = 0,0201

χ

2

1 gl α* = 0,1380 α = 0,05 2 χ 0 2,2 3 ,84
1 gl
α* = 0,1380
α = 0,05
2
χ
0
2,2
3 ,84

Fig. 3

Por ejemplo, si se trabaja con una significación del 5% y con 1 gl, el valor de

Si la prueba da como resultado un estadístico observado 5,4, la probabilidad a la derecha de 5,4 es, 0,0201. Entonces, el

valor p de la prueba es 0,0201. Ver figura 2. Sin embargo, si el valor del chi-cuadrado de prueba es 2,2, el valor p es 0,1380. Ver figura 3.

χ

2

es 3,84 (ver tabla).

2.6. Regla de decisión:

A un nivel de significación α :

Rechazar H0 si α* < α

No rechazar en caso contrario

En la figura 2 se aprecia claramente, que si α* < α , el estadístico observado queda en la región de rechazo de H0. En la figura 3, α* > α , y el estadístico observado queda en la región de NO rechazo de H0.

2.7. Especificaciones de la prueba:

Muestras independientes.

a, b, c y d 5 (se acepta, a lo más, una sola celda con n = 4. (En general se acepta hasta un 20% de las celdas con n < 5)

n 40

Si n 20 < 40, usar corrección de continuidad de Yates.

Si n < 20, usar Test exacto de Fischer.

2.8. Aplicaciones de la prueba

El contraste de independencia o asociación con chi-cuadrado, solo puede concluir respecto de la asociación o no entre las

dos variables, pero no puede establecer la dirección de dicha asociación. Para establecer ese tipo de relaciones, se debe complementar este análisis con otros, como por ejemplo, el análisis de correlación. Este contraste es muy utilizado en ciencias sociales para contrastar independencia, pues tiene la ventaja de poder aplicarse en situaciones con variables cualitativas del tipo nominal. Toda vez que esta prueba trabaja con frecuencias observadas, es posible inscribirlo en los métodos cualitativos, llamados, más propiamente, no paramétricos.

Guía Nº1-Socioestadística III-2013

5

2.9. Ejemplos:

2.9.1. Satisfacción con la vida y zona de residencia

Se encuesta a una muestra aleatoria de 33 personas que viven en zonas rurales y 47 en zonas urbanas, acerca de su grado de satisfacción con la vida, variable que fue dicotomizada en Alto – Bajo.

 

satisfacción

Distribución de personas según grado de satisfacción con la vida y zona de residencia. zona

Total

 

urbana

rural

Alta

21

23

44

Baja

26

10

36

Total

47

33

80

Al 5%, ¿está el grado de satisfacción con la vida asociado a la zona de residencia?

Solución:

H0: el grado de satisfacción es independiente de la zona de residencia H1: el grado de satisfacción está asociado a la zona de residencia

Calculando el estadístico de prueba:

χ

2

obs

=

(

21 10

23 26

)

2

80

44

36

47

33

=

4,90

Calculando el p-value (fig. 4):

α * = P(

χ

2

p ; 1

> 4,90) 0,027 (según tabla)

Decisión:

Como α * < 0,05, se rechaza

H

0

al 5%.

1 gl Fig. 4 α* ≈ 0,027 2 χ 0
1 gl
Fig. 4
α* ≈ 0,027
2
χ
0

4,9

Conclusión: El grado de satisfacción con la vida está significativamente asociado a la zona de residencia urbana o rural.

Nota: estas afirmaciones suelen ser acompañadas por el valor p de la prueba. En este caso sería así:

El grado de satisfacción con la vida está significativamente asociado a la zona de residencia urbana o rural (p = 0,027).

2.9.2. Deserción escolar y zona de residencia

Un estudio ha llegado a la siguiente conclusión:

“En la población escolar de 7º y 8º año, la deserción escolar está significativamente asociada a la zona (rural-urbana) de residencia de los estudiantes (p = 0,0326)”.

1.- ¿Cuál es la hipótesis nula en este estudio? 2.- ¿Cuál fue la decisión estadística en el contraste que llevó a esta conclusión? 3.- De los niveles de significación usuales, ¿cuál se usó en este estudio? 4.- ¿En qué consiste el error de tipo II en este estudio?

Solución:

1.- La deserción escolar es independiente de la zona (rural-urbana) de residencia de los estudiantes. 2.- Se rechazó la hipótesis nula. 3.- Puede haber sido el 5% o el 10%. 4.- Aceptar que la deserción escolar es independiente de la zona de residencia de los estudiantes, siendo que es falso.

Guía Nº1-Socioestadística III-2013

6

III: Test Chi-cuadrado para tablas de 2x2 con corrección de Yates

3.1. Corrección de continuidad de Yates

En el cálculo de Chi cuadrado en tablas de 2x2 se usa la corrección de Yates cuando n 20 < 40, ya que el contraste de hipótesis asume el tratamiento de un fenómeno discreto con un modelo de probabilidad continuo. En muestras mayores a 40 el efecto de esta aproximación, aunque existe, se minimiza, pero en muestra más pequeñas la diferencia puede llegar a ser clave en la decisión.

3.2. Cálculo de Chi-cuadrado con corrección de continuidad de Yates

El cálculo abreviado de

χ

2 con corrección de Yates en tablas de 2x2 es el siguiente:

χ

2

=

(

a

 

d

 

b

 

c

 

0 5

·n

)

2

 

n

 

,

 

n

1

n

2

n

3

n

4

; siendo: x

valor absoluto de x.

El procedimiento de contraste sigue los mismos pasos ya señalados para la prueba con

χ

2 sin corrección de Yates.

3.3. Ejemplo

Se ha sugerido que en las personas que trabajan, el nivel de ingresos estaría asociado a la estatura. Una breve investigación con una muestra aleatoria arrojó los siguientes datos, en número de casos:

Estatura

Ingreso mensual

Total

Sobre la media

Bajo la media

Alta

11

7

18

Baja

6

9

15

Total

17

16

33

Se pide realizar un test de la hipótesis del texto, con un nivel de significación del 10%.

Solución:

H0: Estatura e Ingreso son independientes. H1: El Ingreso está asociado a la Estatura.

Calculando Chi-cuadrado con corrección de Yates:

χ

2

OBS

=

[

11 9

7

6

33

·

0 , 5

]

2

33

 

18

15

17

16

= 0,737

Según tabla, promediando los dos valores cercanos, el valor p es: α* = P(

Como α * > 0,10 No rechazar H0, a un nivel del 10%.

χ

2

p ; 1

1 gl Fig. 5 α* ≈ 0,027 2 χ 0
1 gl
Fig. 5
α* ≈ 0,027
2
χ
0

0,737

> 0,737) 0,404. Ver figura 5.

Conclusión: Con los datos dados no se puede rechazar la independencia entre Ingreso y Estatura. Por lo tanto, con un 10% de significación, se concluye que en las personas que trabajan, el nivel de ingresos no está asociado a su estatura.

Guía Nº1-Socioestadística III-2013

7

Casos y ejercicios propuestos

Caso 1: Estado civil y síntomas depresivos Sobre la base de los resultados de un estudio, se ha afirmado que las madres casadas presentan menos síntomas de depresión que las solteras. En una muestra de mujeres de 18-19 años con 1 hijo, se recabó la siguiente información, en número de casos, desagregadas por estado civil:

Estado civil

Síntomas depresivos

Total

NO

CASADAS

45

131

176

SOLTERAS

83

127

210

Total

128

258

386

1.1. Docime, con α = 5%, la hipótesis de que el síntoma depresivo está asociado al estado civil. Construya sus

conclusiones respecto del caso.

1.2. ¿Qué significa, en este contexto, cometer error de tipo II?

Caso 2: Relación padres-hijos y convivencia matrimonial Según un estudio, de 140 hijos de padres separados, el 30% declara tener malas relaciones con sus padres, mientras que de una muestra de 170 hijos de padres que permanecen casados, 36 tienen malas relaciones con sus padres. Considere las muestras, independientes. Realice, al 10%, un contraste de la hipótesis relacionada con el supuesto efecto de la convivencia matrimonial en la relación padre-hijos.

Caso 3: Salud y sobrepeso El gráfico de la figura presenta, en N° de casos, la evaluación del estado general de salud de una muestra de personas, según si presentan peso normal o sobrepeso.

Con los datos del gráfico, analice, al 10%, la existencia de una relación significativa entre peso y estado general de salud.

Nº de

casos

12 10 Peso normal 08 Sobrepeso 06 04 02 ESTADO 00 Bueno Malo
12
10
Peso normal
08
Sobrepeso
06
04
02
ESTADO
00
Bueno
Malo

Estado general de salud, según peso

Caso 4: Consumo de cocaína y terapia En la universidad de Yale (USA) se realizó un estudio con 187 consumidores compulsivos de cocaína, que fueron aleatoriamente asignados a acupuntura auricular o a terapia de relajación sin acupuntura. Durante el estudio, los sujetos fueron sometidos a exámenes de orina para detectar la presencia de cocaína en el organismo. De 103 sujetos asignados a tratamiento de acupuntura, 35 presentaron evidencia de cocaína en la orina, mientras que entre los sometidos a relajación, 51 de un total de 84.

4.1. A un nivel de significación del 5%, contraste la hipótesis de que el consumo de cocaína durante el estudio resultó

asociado al tipo de tratamiento.

Guía Nº1-Socioestadística III-2013

8

Caso 5: Situación civil y relación de pareja Una investigación estudió las relaciones de pareja en una muestra aleatoria de tamaño 125, evaluando las siguientes variables: X = Relación de la pareja (Buena-Deficiente); Y = Situación civil de la pareja (Casados-Unión libre) El estudio llegó a la siguiente conclusión:

“La relación de pareja es independiente de la situación civil de la pareja (p = 0,0763)”

5.1. ¿Cuál es la hipótesis alternativa en este estudio?

5.2. ¿Cuál fue la decisión estadística en el contraste que llevó a esta conclusión?

5.3. De los niveles de significación usuales, ¿cuál se usó en este estudio?

5.4. ¿En qué consiste el error de tipo I en este estudio?

Caso 6: Satisfacción en el lugar de trabajo Una empresa está recabando información del ambiente laboral al interior de la empresa. Para los efectos aplica un cuestionario a una muestra aleatoria de hombres y mujeres. Entre los aspectos incluidos en el estudio está el nivel de satisfacción de los trabajadores en el trabajo. La siguiente tabla muestra los resultados de esta parte del estudio. Trabajadores según nivel de satisfacción con su lugar de trabajo y sexo.

   

Nivel de satisfacción

 

Sexo

Muy satisfecho

Satisfecho

Insatisfecho

Muy insatisfecho

Hombre

3

16

3

2

Mujer

2

7

2

2

6.1. ¿Está la satisfacción en el trabajo asociada al sexo del trabajador?

Analice el caso y construya las conclusiones, con un nivel de significación del 10%. (Sugerencia: los datos de la tabla se pueden reorganizar).

Caso 7: Evaluación de la educación Un estudio realizado con apoderados de colegios municipalizados se planteó como objetivo conocer la evaluación que éstos hacen de la calidad de la educación que reciben sus hijos.

Nivel educacional del hijo(a)

¿Cómo evaluaría usted la educación que recibe su hijo(a)?

Total

Buena

Mala

Educación Básica

67

81

148

Educación Media

23

67

90

Total

90

148

238

Con un 10% de significación pruebe si la evaluación que realizan los padres acerca de la educación que reciben sus hijos es independiente o no del nivel educacional que cursan sus hijos.

Guía Nº1-Socioestadística III-2013

9

Caso 8: Pérdida de piezas dentales en adulto mayor Algunos científicos estudiaron 145 voluntarios saludables con más de 65 años de edad. Estos voluntarios participaron en un estudio aleatorio de tres años en que un grupo de personas seleccionadas al azar recibieron placebos en vez de los suplementos nutritivos que recibió el otro grupo. Todos los voluntarios también participaron en encuestas dos años después de discontinuar los suplementos del estudio.

Tratamiento

Perdieron dientes

TOTAL

NO

Suplementos nutritivos

10

70

80

Placebos

18

47

65

TOTAL

28

117

145

8.1. ¿Está la pérdida de dientes asociada a la alimentación? Use un nivel de significación del 5%.

8.2. ¿Existe evidencia para firmar que la pérdida de dientes está asociada a la falta de suplementos nutritivos?

Soluciones numéricas

Caso 1:

Caso 2:

Caso 3:

 

Estadístico

valor

p

Estadístico

valor

p

Estadístico

valor

p

Chi2-Pearson=

8,4137256

0,0037

Chi2-Pearson=

4,7834942

0,0287

Chi2-Pearson=

3,2650794

0,0708

Chi2-Yates=

7,7958625

0,0052

Chi2-Yates=

4,2322102

0,0397

Chi2-Yates=

2,1254216

0,1449

Test-G=

8,5164103

0,0035

Test-G=

4,7687003

0,0290

Test-G=

3,3442781

0,0674

Caso 4:

Caso 6:

Caso 7:

 

Estadístico

valor

p

Estadístico

valor

p

Estadístico

valor

p

Chi2-Pearson=

13,312405

0,0003

Chi2-Pearson=

0,452241

0,5013

Chi2-Pearson=

9,2503454

0,0024

Chi2-Yates=

12,257886

0,0005

Chi2-Yates=

0,0735303

0,7863

Chi2-Yates=

8,4309628

0,0037

Test-G=

13,444275

0,0002

Test-G=

0,442621

0,5059

Test-G=

9,5108123

0,0020

Caso 8:

Estadístico

valor

p

Chi2-Pearson=

13,312405

0,0003

Chi2-Yates=

12,257886

0,0005

Correlación fi=

-0,191405

Q de Yule=

-0,456647

RECURSOS ANEXOS:

-Biblioteca ARCIS:

Alcaíno, Patricio. Estadística para Ciencias Sociales Nº7. Problemas resueltos.

-Sitio Scribd:

-Bioestadística Universidad de Málaga: