Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
ISCTE
SOCIOLOGIA E SOCIOLOGIA E PLANEAMENTO
Ano Lectivo 2003/2004 (2 Semestre)
ESTATSTICA II
(Textos de Apoio das Aulas)
Testes No-Paramtricos
(Qui-Quadrado de Independncia
Teste de Fisher
Medidas de Associao baseadas no Qui-Quadrado)
Carlos Loureno, Dep. Mtodos Quantitativos
(carlos.lourenco@iscte.pt)
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
Total
Count
% within
77,9%
Habilitaes do pai
Ensino Secundrio
Count
17
% within
19,8%
Habilitaes do pai
Ensino Mdio/SuperiorCount
2
% within
2,3%
Habilitaes do pai
Count
86
% within
100,0%
Habilitaes do pai
Ensino Bsico
60
Total
84
30,2%
12,5%
22
10
52,2%
49
51,2%
31,3%
30,4%
18
28
18,6%
56,3%
17,4%
43
32
161
100,0%
100,0%
100,0%
Ensino Secundrio
Ensino Mdio/Superior
Bars show counts
Count
Habilitaes da me
Habilitaes do pai
Ensino
Ensino
Ensino
Mdio/Su
Bsico
Secundrio
perior
67
13
4
40
20
0
Ensino Bsico
Habilitaes do pai
Nijole V. Benokraitis (1996), Marriages and Families Changes, Choices, and Constraints, Prentice Hall, Inc.,
2nd Edition; Part Three Individual and Marital Commitments; Chapter 8: Becoming a Couple: Dating, Rating,
and Mating; Choices and Constraints in Dating and Mate Selection, Social Class.
2
Note que neste caso no se pretende indicar a direco de causalidade entre as duas variveis. Por esta razo, a
disposio da tabela, colocando as habilitaes do pai em coluna, perfeitamente arbitrria (no se est a
pretender explicar as habilitaes da me em linha pela habilitaes do pai em coluna.
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
Para inferirmos estas mesmas concluses para as populaes, necessitamos de realizar um teste
de independncia. Os Testes de Independncia em tabelas de contingncia (crosstabs) so os
seguintes:
Medida de Associao
Phi
V de Cramer
Coeficiente de Contingncia
Tau B de Kendall
Tau C de Kendall
Eta
Eta2
Aplicao
Nominal vs. Nominal
(ou quando a ordem no for tomada em
considerao, e portanto, pode aplicar-se
quando temos Ordinal vs. Nominal e
Ordinal vs. Ordinal6)
Ordinal vs. Ordinal
(ou seja, a ordem tomada em
considerao)
Nominal vs.Intervalo
(ou quando uma outra escala for tratada
como nominal7)
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
Habilitaes da me
Ensino Bsico
Ensino Secundrio
Ensino
Mdio/Superior
Total
Count
% within
Habilitaes do pai
Count
% within
Habilitaes do pai
Count
% within
Habilitaes do pai
Count
% within
Habilitaes do pai
Ensino
Bsico
67
Ensino
Secundrio
22
Ensino
Mdio/Sup
erior
18
Total
84
77,9%
51,2%
56,3%
52,2%
17
13
10
49
19,8%
30,2%
31,3%
30,4%
28
2,3%
18,6%
12,5%
17,4%
86
43
32
161
100,0%
100,0%
100,0%
100,0%
Em que, claramente, qualquer que seja a habilitao do pai, a maioria tem a me apenas com o
nvel de Ensino Bsico.
Formulao das hipteses estatsticas
Para facilitar a exposio que se segue, apresentamos a seguinte notao para as frequncias
observadas:
Varivel 1
Varivel 2
B1
B2
Bc
Total em linha
A1
O11
O12
O1c
O1
A2
O21
O22
O2 c
O 2
Ar
O r1
Or 2
Orc
Or
Total em coluna
O1
O2
Oc
Onde
a varivel 1 (em linha) tem Ai categorias, com i = 1,2, , r (r de rows, linhas em ingls);
a varivel 2 (em coluna) tem B j categorias, com j = 1,2, , c (c de columns).
Na tabela, note que os totais de cada coluna (linha) tm um ponto em substituio do ndice respeitante
linha (coluna), uma vez que se tratam das somas das frequncias observadas em todas as linhas (colunas)
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
Habilitaes da me
Total
B1
B2
B3
A1
o11
o12
o13
o1
A2
o 21
o 22
o 23
o 2
A3
o 31
o32
o 33
o3
Total
o1
o 2
o3
p j
em simultneo;
a probabilidade marginal de um indivduo da amostra pertencer categoria Ai da
varivel em linha;
a probabilidade marginal de um indivduo da amostra pertencer categoria B j da
E ij
varivel em coluna;
o nmero esperado de indivduos em ambas as categorias Ai e B j ;
E i
E j
p i
E i = np i
E j = np j .
H 0 : p ij = p i p j
H a : As variveis X e Y no so independentes , ou
H a : p ij p i p j
H 0 : As variveis X e Y so independentes ,
de cada uma dessas colunas (linhas), Oc e Or . E, naturalmente, o total dos totais em coluna (ou em
linha), tem dois pontos, correspondendo soma total, O .
10
O teste do Qui-Quadrado um teste bilateral.
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
2 =
(O
i =1 j =1
E ij
ij
E ij
p i =
n n
oi o j
eij =
n
X2 =
(o
i =1 j =1
ij
eij
eij
(2r 1)(c 1)
X =
i =1 j =1
(o
ij
eij 0,5
eij
(2r 1)(c 1)
12
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
13
14
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
Aplicao ao Exemplo
ou
H 0 : p ij = p i p j
ou
H a : p ij p i p j
Habilitaes
da me
Ensino
Bsico
67
17
2
86
Ensino Bsico
Ensino Secundrio
Ensino Mdio/Superior
Total
Ensino
Secundrio
13
22
8
43
Ensino
Mdio/Su
perior
4
10
18
32
Total
84
49
28
161
Temos 3 linhas (rows) e 3 colunas (columns), logo, r=3 e c=3. E a nossa estatstica de teste ser:
X2 =
(o
ij
eij
eij
i =1 j =1
Para o que teremos de estimar cada frequncia esperada eij sabendo que
eij =
o i o j
n
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
Bsico
Habilitaes da
me
o1 o1 84 86
=
= 44,870
n
161
Secundrio
Mdio/Superior
Total
e12 = 22,435
e13 = 16,696
84
o 2 o 3 49 32
=
= 9,739
161
n
Secundrio
e21 = 26,174
e22 = 13,087
Md./Super.
e31 = 14,957
e23 = 7,478
e33 = 5,565
28
Total
86
43
32
161
e11 =
49
(o
ij
i =1 j =1
eij
eij
44,870
26,174
14,957
(13 22,435)2 + (22 13,087 )2 + (8 7,478)2 + (4 16,696)2 + (10 9,739)2 + (18 5,565)2
22,435
13,087
7,478
16,696
9,739
= 10,915 + 3,215 + 11,224 + 3,968 + 6,070 + 0,036 + 9,654 + 0,027 + 27,786
5,565
X 2 72,895
Carlos Loureno
ISCTE, 2004
Estatstica II
Sociologia e Sociologia e Planeamento
Habilitaes
da me
Ensino Bsico
Ensino Secundrio
Ensino Mdio/Superior
Total
Count
Expected Count
% within
Habilitaes do pai
Adjusted Residual
Count
Expected Count
% within
Habilitaes do pai
Adjusted Residual
Count
Expected Count
% within
Habilitaes do pai
Adjusted Residual
Count
Expected Count
% within
Habilitaes do pai
Ensino
Bsico
67
44,9
Ensino
Secundrio
13
22,4
Ensino
Mdio/Su
perior
4
16,7
77,9%
30,2%
12,5%
52,2%
7,0
17
26,2
-3,4
22
13,1
-5,0
10
9,7
49
49,0
19,8%
51,2%
31,3%
30,4%
-3,1
2
15,0
3,5
8
7,5
,1
18
5,6
28
28,0
2,3%
18,6%
56,3%
17,4%
-5,4
86
86,0
,2
43
43,0
6,5
32
32,0
161
161,0
100,0%
100,0%
100,0%
100,0%
Total
84
84,0
Chi-Square Tests
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value
72,874a
72,107
62,778
4
4
Asymp. Sig.
(2-sided)
,000
,000
,000
df
161
15
O valor do Pearson Chi-Square ligeiramente diferente do valor da estatstica de teste obtido devido a
arredondamentos das casas decimais.
Carlos Loureno
ISCTE, 2004
10
Estatstica II
Sociologia e Sociologia e Planeamento
Varivel 1
Classe 1
Classe 2
Total em linha
Classe 1
a+b
Classe 2
c+d
Total em coluna
a+c
b+d
(a+c)+(b+d)
Estatstica de Teste
Neste caso, a estatstica do teste do Qui-Quadrado simplifica-se ao rcio entre o quadrado da
diferena entre os produtos cruzados e o produto entre os quatro totais marginais, multiplicado
pelo total da amostra, ou seja:
X2 =n
(ad bc )2
2
(a + b )(c + d )(a + c )(b + d ) (r 1)(c 1)
n
2
X2 =n
2
(a + b )(c + d )(a + c )(b + d ) (r 1)(c 1)
ad bc
16
Existe alguma controvrsia em admitir que uma varivel respeitante, por exemplo, ao rendimento de
um agregado familiar, com apenas 2 escales, e.g. de 50 u.m. ou + de 50 u.m., esteja em escala
ordinal. Contudo, apesar de se tratar apenas de 2 escales, estes no s nomeiam, como tambm
definem uma ordem entre eles.
17
Alguns autores acrescentam ainda que a dimenso da amostra deva ser maior que 20 e outros ainda que
esta deva ser maior que 30.
Carlos Loureno
ISCTE, 2004
11
Estatstica II
Sociologia e Sociologia e Planeamento
Aplicao a um Exemplo
Suponhamos que por uma qualquer razo estamos a trabalhar com apenas 30% da amostra e que
temos apenas 2 estados civis: solteiros e no-solteiros; a distribuio de alunos por turnos e
por estado civil fica a seguinte:
Estado civil
Horrio (Diurno/Nocturno)
Valid
Diurno
Nocturno
Total
Frequency
37
21
58
Valid Percent
63,8
36,2
100,0
Valid
Solteiro
No Solteiro
Total
Frequency
43
15
58
Valid Percent
74,1
25,9
100,0
Cruzando as duas variveis, e com os dados da amostra, temos a seguinte tabela 2x2 de
frequncias conjuntas observadas:
Horrio (Diurno/Nocturno) * Estado civil Crosstabulation
Horrio
(Diurno /
Nocturno)
Diurno
Nocturno
Total
Count
% within Estado civil
Count
% within Estado civil
Count
% within Estado civil
Estado civil
Solteiro
No Solteiro
34
3
79,1%
20,0%
9
12
20,9%
80,0%
43
15
100,0%
100,0%
Total
37
63,8%
21
36,2%
58
100,0%
Na amostra, dos alunos solteiros, cerca de 79% est no horrio diurno, enquanto que dos alunos
no-solteiros, 80% est no horrio nocturno. Queremos testar a independncia entre as
variveis estado civil e o horrio das aulas.
Estatstica de Teste
Estamos na presena de uma amostra de reduzida dimenso ( n = 58 , logo n < 60 ). Vamos
ento exemplificar o clculo da estatstica de teste pelas duas vias possveis: (1) com a frmula
genrica para tabelas r x c, mas com a correco de Yates, e (2) com a frmula para tabelas 2x2,
igualmente corrigida (os resultados tero, necessariamente, de ser iguais).
(1) Tabelas r x c
Horrio (Diurno/Nocturno) * Estado civil Crosstabulation
Estado civil
Solteiro
Horrio
(Diurno /
Nocturno)
Diurno
Nocturno
Total
Carlos Loureno
No Solteiro
37 43
= 27,431
58
Total
e12 = 9,569
37
e21 = 15,569
e22 = 5,431
21
43
15
58
e11 =
ISCTE, 2004
12
Estatstica II
Sociologia e Sociologia e Planeamento
X =
(o
ij
eij 0,5
eij
i =1 j =1
27,431
9,569
5,431
15,569
X 2 = 14,34
(2) Tabelas 2x2
n
58
ad bc
34 12 3 9
2
2
X2 =n
= 58
(a + b )(c + d )(a + c )(b + d )
37 21 43 15
7186432
= 14,34
501165
Horrio (Diurno/Nocturno)
Diurno
Nocturno
Total
18
Count
Expected Count
% within Estado civil
Adjusted Residual
Count
Expected Count
% within Estado civil
Adjusted Residual
Count
Expected Count
% within Estado civil
Estado civil
Solteiro
No Solteiro
34
3
27,4
9,6
79,1%
20,0%
4,1
-4,1
9
12
15,6
5,4
20,9%
80,0%
-4,1
4,1
43
15
43,0
15,0
100,0%
100,0%
Total
37
37,0
63,8%
21
21,0
36,2%
58
58,0
100,0%
X2 =
(o
i =1 j =1
ij
eij
eij
) (34 27,431)
=
2
27,431
9,569
5,431
Note que em tabelas 2x2, o nmero de graus de liberdade sempre igual a 1: (r 1)(c 1) = (2 1)(2 1) = 1 1 = 1 .
Carlos Loureno
ISCTE, 2004
13
Estatstica II
Sociologia e Sociologia e Planeamento
Chi-Square Tests
Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
Value
16,800b
14,339
16,801
16,510
df
1
1
1
Asymp. Sig.
(2-sided)
,000
,000
,000
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
,000
,000
,000
58
Count
Estado
civil
Solteiro
No Solteiro
Total
Sexo
Feminino
Masculino
7
4
1
1
8
5
Total
11
2
13
a. Turma = SA3
E a hiptese nula do teste de Fisher neste caso dir respeito igualdade de propores de alunos
solteiros entre os 2 sexos. Se a classe no-solteiro estivesse posicionada na tabela de
contingncia no lugar da primeira classe, nesse caso a hiptese nula j diria respeito igualdade
de propores de alunos no-solteiros entre os 2 sexos. Concretizemos o exemplo.
Formulao das hipteses estatsticas
Queremos comparar a proporo de solteiros entre alunos do sexo feminino e alunos do sexo
masculino. Na hiptese nula iremos formular a hiptese em que estas propores so iguais,
contra a hiptese alternativa em que a proporo de alunos solteiros do sexo feminino
menor do que os do sexo masculino (significando nesse caso que a proporo de alunas nosolteiras seria maior, indicando uma maior antecipao na alterao do seu estado civil
comparativamente aos alunos do sexo masculino).
p a proporo de alunos solteiros; E as hipteses so formuladas do seguinte modo:
H 0 : p fem = p mas ou H 0 : p fem p mas = 0
H a : p fem < p mas ou H a : p fem p mas < 0 (teste unilateral, esquerda)
Carlos Loureno
ISCTE, 2004
14
Estatstica II
Sociologia e Sociologia e Planeamento
Estado
civil
Solteiro
Count
Expected Count
% within Sexo
Adjusted Residual
Count
Expected Count
% within Sexo
Adjusted Residual
Count
Expected Count
% within Sexo
No Solteiro
Total
Sexo
Feminino
Masculino
7
4
6,8
4,2
87,5%
80,0%
,4
-,4
1
1
1,2
,8
12,5%
20,0%
-,4
,4
8
5
8,0
5,0
100,0%
100,0%
Total
11
11,0
84,6%
2
2,0
15,4%
13
13,0
100,0%
a. Turma = SA3
Devemos ento aplicar o teste de Fisher. Atravs do SPSS temos ento o seguinte resultado:
Chi-Square Testsc
Pearson Chi-Square
Continuity Correctiona
Likelihood Ratio
Fisher's Exact Test
Linear-by-Linear
Association
N of Valid Cases
Value
,133b
,000
,130
df
1
1
1
,123
Asymp. Sig.
(2-sided)
,715
1,000
,718
Exact Sig.
(2-sided)
Exact Sig.
(1-sided)
1,000
,641
,726
13
Como se pode verificar, com um nvel de significncia de 5%, o teste indica que no se rejeita a
hiptese nula, isto , a hiptese de a proporo de alunos solteiros entre o sexo feminino e o
sexo masculino ser igual ( 0,641 > 0,05 No Rej .H 0 )
i =1 j =1
Oij ln
Oij
E ij
(2r 1)(c 1)
20
Note-se no entanto que os resduos standardizados ajustados indicam que nenhuma das 3 clulas onde
existem menos de 5 observaes esperadas, se afastam signi
21
Para ser aplicado deve verificar-se [n ( r c )] 5 .
Carlos Loureno
ISCTE, 2004
15
Estatstica II
Sociologia e Sociologia e Planeamento
Medida
Clculo
Phi
Phi =
V de Cramer
V=
Coeficiente de
Contingncia
C=
n(q 1)
0 V 1
(em tabelas 2x2 o Phi igual ao V de Cramer)
q 1
,onde q = min (r , c ) , ou seja, o menor
q
nmero de entre o nmero de linhas e colunas; portanto,
mesmo no caso de associao perfeita nunca assume o valor 1.
0C
2
2 + n
X 2 = 72,874 e n = 161.
Medida
Clculo
Phi
Phi =
V de Cramer
V=
Coeficiente de
Contingncia
C=
2
n
72,874
= 0,673
161
72,874
72,874
=
= 0,476
(
)
161 3 1
322
72,874
= 0,558
72,874 + 161
q 1
3 1
=
= 0,816
, parece existir uma
q
3
0 C 0,816
associao forte 0,558 > (0,816 2) .
22
Como as medidas de associao se baseiam no Qui-Quadrado, optou-se por usar o valor da estatstica
de teste com os arredondamentos do SPSS encontrada anteriormente, de modo a obter valores das
medidas de associao mais prximas das do software.
Carlos Loureno
ISCTE, 2004
16
Estatstica II
Sociologia e Sociologia e Planeamento
Nominal by
Nominal
Value
,673
,476
,558
,626
,618
161
Phi
Cramer's V
Contingency Coefficient
Pearson's R
Spearman Correlation
Interval by Interval
Ordinal by Ordinal
N of Valid Cases
Asymp.
a
Std. Error
Approx. T
,057
,058
10,133
9,904
Approx. Sig.
,000
,000
,000
,000c
,000c
De salientar que em todas as medidas rejeitada a hiptese nula de os seus valores serem no
significativos ( p value 0,05 ).23 Note ainda que o coeficiente de correlao ordinal, R de
Spearman, indica a existncia de uma correlao ordinal algo forte (0,618 > 0,5) entre as duas
variveis (e igualmente significativo).
Clculo
Phi
Phi =
V de Cramer
V=
Coeficiente de
Contingncia
C=
2
n
14,34
= 0,497
58
14,34
14,34
=
= 0,497
58(2 1)
58
q 1
2 1
=
= 0,707
, parece existir uma
q
2
14,34
= 0,445
14,34 + 58
0 C 0,707
associao forte 0,445 > (0,707 2)
Nominal by
Nominal
Ordinal by
Ordinal
Phi
Cramer's V
Contingency Coefficient
Kendall's tau-b
Kendall's tau-c
N of Valid Cases
Value
,538
,538
,474
,538
,453
58
Asymp.
a
Std. Error
Approx. T
,115
,113
3,998
3,998
Approx. Sig.
,000
,000
,000
,000
,000
23
As hiptese nulas sobre as medidas de associao, podem ser escritas genericamente como
H 0 : Med . Assoc = 0 .
24
Note que os valores calculados pelo SPSS usam o valor da estatstica de teste do Qui-Quadrado sem a
correco de continuidade (Pearson Chi-Square) adequada para este caso.
Carlos Loureno
ISCTE, 2004
17