Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
RESUMO
Devido a grande utilizao da Anlise de Correlao em diferentes reas do conhecimento, importante conhecer os
diferentes mtodos para a obteno dos coeficientes de correlao. comum as situaes em que as variveis no so
medidas em nvel intervalar, mas em nvel ordinal e/ou dicotmica. Apresentam-se no presente trabalho os mtodos de
coeficientes de correlao derivados do coeficiente linear de Pearson, para situaes que envolvem variveis medidas em
nvel intervalar, ordinal e dicotmica, quais sejam: coeficiente de correlao ponto bisserial, phi, de Spearman, entre
variveis intervalar e ordinal e entre variveis ordinal e dicotmica.
Palavras-chave: coeficiente de correlao; coeficiente de correlao para variveis ordinais e dicotmicas.
ABSTRACT
As the Correlation Analysis is used in several knowledge areas, it is important to be familiar with the different methods
existing to obtain correlation coefficients. Usually, we can find situations where variables are not measured by interval level
but according to ordinal and/or dichotomic. The present work shows the correlation coefficient methods derived from
Pearson linear coefficient and applied to situations involving variables measured by interval, ordinal and dichotomic levels,
such as: bi-serial point, phi and Spearman correlation coefficient, between interval and ordinal variables, and between
ordinal e dichotomic variables.
Keywords: correlation coefficient; correlation coefficient for ordinal and dichotomic variables
n
n (X X) (Y Y)
i
2
n
i
2 n X Y varivel contnua, e outra varivel com duas categorias ou
dicotmicas, como perfeito ou defeituoso.
i=1 n i=1 n Segundo Ferguson [4], Downie e Heath [3] e Guilford
[5], a correlao ponto bisserial a correlao do momento
(3)
produto. Se for atribudo 1 para observaes de uma
onde:
categoria e zero para outra, e se for calculado o coeficiente
n o nmero de observaes da amostra
de correlao do momento produto, o resultado ser o
X a mdia aritmtica de X coeficiente ponto bisserial. Ele interpretado da mesma
Y a mdia aritmtica de Y forma que .
O estimador do coeficiente de correlao ponto
Este coeficiente tambm conhecido como bisserial foi obtido a partir do estimador do coeficiente de
Coeficiente de Correlao do Momento Produto. correlao linear de Pearson, conforme apresentado em
Na prtica, conforme apresentado em Lira [7], o Guilford [5].
coeficiente de correlao interpretado como um Fazendo x i = Xi X e yi = Yi Y , o estimador do
indicador que descreve a interdependncia entre as coeficiente linear de Pearson :
variveis X e Y.
Outra forma de interpretar o coeficiente de correlao n n n
=
pXp pX
=
(X p X p ) onde: x i = Xi X e yi = Yi Y
S x pq S x pq n
n ( n + 1)
Dividindo por p , tem-se:
Pode-se escrever: X
i =1
i =
2
, onde
pb =
(
Xp X ) p
(11)
n = postos=rank = 1, 2, 3,..., n (14)
n
onde: n ( n + 1)(2n + 1)
pb o coeficiente de correlao ponto bisserial
Ento: X
i =1
2
i
=
6
(15)
n Varivel X
x i yi 1 0 TOTAL
i =1
fazendo s = , tem-se que
n n Varivel 1 a b np
x i2 y i2
i =1 i =1 Y 0 c d nq
TOTAL n p' n q' n
n n n
x i yi = s x i2 yi2 (22)
i =1 i =1 i =1 Tem-se da expresso (11) que o estimador do
coeficiente de correlao ponto bisserial :
substituindo (17), (18) e (22) em (21) tem-se:
bp =
(
Xp X ) p
(25)
n n3 n n n
Sx q
d 2i = 2 12 2 s x i2 yi2
i =1 i =1 i =1
a a c c
mas X p = = e Xq = = (26)
Assim, obtm-se: np a + b nq c+ d
6 di2
n
p=
(a + b ) e q=
(c + d ) (27)
n n
s = 1 i =1
2
(23)
n (n 1)
X = pX p + q X q =
(a + b ) a
+
(c + d ) c = (a + c ) (28)
onde: n (a + b ) n (c + d ) n
s o coeficiente de correlao de Spearman
(a + c) ( b + d ) 1
d i a diferena entre as ordenaes S x = n p' n q' = = (a + c)(b + d ) (29)
n n n
n o nmero de pares de ordenaes
Ento, substituindo as expresses (26), (27), (28) e
Quando a seleo dos elementos que compem a amostra
(29) na (25), tem-se:
feita de forma aleatria, a partir de uma populao,
possvel determinar se as variveis em estudo so associadas
na populao. Ou seja, possvel testar a hiptese de que as
a
(a + c) na (a + b )(a + c )
(a + b) (a + b) n (a + b ) (a + b)
duas variveis esto associadas na populao. = n
=
Para amostras superiores a 10, segundo Siegel [8], a
1
(a + c)(b + d ) (a + c) 1
(a + c)(b + d ) (a + c)
n n
significncia de um valor obtido de s pode ser verificada
atravs de t calculado pelo estimador apresentado a seguir. = na (a + b )(a + c ) (a + b )
(a + b ) (a + c )(b + d ) (a + c )
n2
t = s (24)
1 s2 = (ad bc ) (30)
(a + b)(a + c)(b + d)(c + d)
onde: n 2 1
Y = (36)
o coeficiente de correlao phi 12
a,b,c,d so as frequncias da tabela de contingncia Sendo X uma varivel dicotmica, ento:
n a soma das frequncias a,b,c e d
n = n 0 + n1
O coeficiente de correlao phi est relacionado com
onde:
2 para a tabela 2x2, dada pela expresso a seguir, como
n o nmero total de observaes da amostra
apresentada em Ferguson [4]: n 0 o nmero de observaes cuja varivel X assume
2 valor zero
= ou 2 = n 2 (31) n 1 o nmero de observaes cuja varivel X assume
n
valor um
Por essa razo, pode-se testar a significncia de n n1 n0 n1
X i Yi = Yi 1 + Yi 0 = Yi (37)
calculando o valor de = n 2 2
e comparando com o i =1 i =1 i =1 i =1
Bunchaft e Kellner [2] suficiente que a e d indiquem ou A mdia e a varincia de X sero dadas por:
concordncia ou discordncia, o mesmo acontecendo com
n
b e c.
Xi n1
i =1
X= = (39)
3.2.4. Coeficiente de correlao entre variveis dicotmica n n
e ordinal (rank)
n2 n n 1 n 12
Este coeficiente utilizado, segundo Wherry [10], quando n1
n = n n 1 (n n 1 )
uma das variveis (X) dicotmica e a outra ordinal X = = (40)
(rank). O seu estimador tambm foi obtido a partir do
n n n2
coeficiente de correlao linear de Pearson.
O estimador do coeficiente de correlao linear de Substituindo (35), (36), (39) e (40) em (32) tem-se:
Pearson dado pela expresso (3) pode ser reescrito como: n n1 n (n + 1) n
n n Yi - n
2 Yi - n1 (n + 1)
i =1
X i Yi 2
i =1
n
dr = n = 2n
X i Yi i =1 i =1
[n1(n1 + n 0 )] n 2 - 1
(X i X )(Yi Y ) n1 (n n1 ) n 2 - 1
n
i =1 n
i =1 n n2 12 n2 12
X ,Y = = (32)
n X Y X Y
Sendo X a varivel dicotmica e Y a varivel ordinal Resultando em:
(rank), ento tem-se: n
2 Yi n 1 (n + 1)
i =1
n n (n + 1) dr = (41)
Yi
i =1 2
= onde
(
n1 n 0 n 2 1 )
n = postos=rank = 1, 2, 3,..., n (33) 3
onde:
Os quadrados dos postos so: 1 , 2 , 3 ,..., n 2 2 2 2 dr o coeficiente de correlao entre as variveis X e Y
n
n n ( n + 1)( 2n + 1) Yi a soma da varivel ordinal Y
Ento: Yi2 = 6
(34) i =1
i =1 n o nmero total de observaes
n 0 o nmero de observaes cuja varivel X assume
A mdia de Y dada por:
valor zero;
n n 1 o nmero de observaes cuja varivel X assume
Yi n +1 valor um.
i =1
Y= = (35)
n 2 A significncia do coeficiente estimado para amostras
E a varincia ser dada por: com n 30 , poder ser obtida atravs da estatstica Z,
como segue:
n X i Yi 4 - RESULTADOS E DISCUSSO
X i Yi i =1 i =1
(X i X )(Yi Y )
n
i =1 n Para a aplicao de diferentes mtodos de coeficiente de
X ,Y = i =1
= n (43) correlao derivados do coeficiente linear de Pearson,
n X Y X Y gerou-se diferentes amostras pelo processo de simulao
Monte Carlo, utilizando o Statistical Software Analysis
Se X uma varivel ordinal (rank), ento possvel (SAS), atendendo s suposies quanto ao nvel de
escrever: mensurao das variveis envolvidas na anlise. Os
algoritmos utilizados encontram-se no apndice.
n n (n + 1)
Xi =
2
onde n = postos= rank = 1, 2, 3,..., n
i =1 4.1. Aplicao do coeficiente de correlao ponto bisserial
Os quadrados dos postos so: 12 , 2 2 , 32 ,..., n 2 Gerou-se uma amostra aleatria em que a varivel X
intervalar e a varivel Y dicotmica. A amostra aleatria
n ( n + 1)( 2n + 1)
n
e as estatsticas encontram-se nos quadros A.1 e A.2 do
Ento: X 2i = 6
(44)
apndice.
i =1
A mdia e a varincia da varivel X sero obtidas por: O coeficiente de correlao ponto bisserial calculado
n foi pb = 0,76533 . Calculando-se o coeficiente linear de
Xi n (n + 1) n + 1 Pearson para as variveis X e Y, evidentemente obteve-se o
i =1
X= = = (45) mesmo valor, pois trata-se do mesmo coeficiente.
n n2 2
2
A significncia do coeficiente de correlao ponto
n bisserial quanto do coeficiente linear de Pearson
X i
< 0,01 , cujo valor de t calculado foi 7,33.
(X i X )
n n
2 i =1
X i2 n
i =1 i =1
X = = (46) 4.2. Aplicao do coeficiente de correlao de Spearman
n n
Tem-se que: As variveis X e Y geradas aleatoriamente so ordinais,
apresentadas no quadro A.3. Foram calculados os
2
n coeficientes de correlao de Spearman e o linear de
Xi Pearson, cujo coeficiente estimado foi = S = 0,80423 ,
n n3 n
Xi2 i =1 n = 12 (47) com t = 7,16 , significativo, portanto, para < 0,01.
i =1
onde:
data normalbi;
keep x y; QUADRO A.3 - VARIVEIS ALEATRIAS X E Y NORMAIS E
m1=5; m2=20; v1=2; v2=10; ro=0.80; TRANSFORMADAS EM ORDINAIS
do i=1 to 30; /* tamanho da amostra */ OBS. X Y OBS. X Y OBS. X Y
x=m1+sqrt(v1)*rannor(123); 1 4 1 11 14 11 21 22 21
y=(m2+ro*(sqrt(v2)/sqrt(v1))*(x-m1))+ sqrt(v2*(1- 2 1 2 12 15 12 22 21 22
3 2 3 13 17 13 23 20 23
ro**2))*rannor(123); 4 8 4 14 10 14 24 27 24
output; 5 6 5 15 16 15 25 13 25
end; 6 3 6 16 28 16 26 25 26
7 9 7 17 12 17 27 24 27
run;
8 18 8 18 23 18 28 19 28
9 7 9 19 5 19 29 30 29
1.2. Algoritmo para gerar varivel normal 10 11 10 20 26 20 30 29 30
seed=45;
n=20;
TABELA A.1 - TABELA DE CONTINGNCIA DAS VARIVEIS X E Y
do j=1 to n;
X
x=ranbin(seed,1,0.4); Y
output; end; 1 0
run; 1 23 2 25
0 2 13 15
25 15 40
2 AMOSTRAS UTILIZADAS PARA APLICAO
DOS MTODOS DE CORRELAO
QUADRO A.5 - VARIVEIS ALEATRIAS NORMAL X TRANSFOR-
QUADRO A.1 - VARIVEIS ALEATRIAS NORMAL X E
MADA EM ORDINAL E BERNOULLI Y
BERNOULLI Y
OBS. X Y OBS. X Y OBS. X Y
OBS. X Y OBS. X Y
1 1 0 11 11 0 21 21 1
1 68,53943 0 21 70,74722 1
2 2 0 12 12 0 22 22 1
2 68,76153 0 22 69,78154 1
3 3 0 13 13 0 23 23 1
3 67,51424 0 23 67,87615 0
4 4 0 14 14 0 24 24 1
4 71,33978 1 24 74,37667 1
5 5 0 15 15 0 25 25 1
5 69,90114 1 25 71,52511 1
6 6 0 16 16 0 26 26 1
6 65,23922 0 26 66,89329 0
7 7 0 17 17 1 27 27 1
7 75,64971 1 27 71,57874 1
8 8 0 18 18 1 28 28 1
8 69,04248 0 28 70,93864 0
9 9 0 19 19 1 29 29 1
9 74,65876 1 29 68,87160 0
10 10 0 20 20 1 30 30 1
10 67,57904 0 30 73,79670 1
11 68,24473 0 31 73,26968 1
12 62,99353 0 32 68,13456 0 QUADRO A.6 - ESTATSTICA DESCRITIVA DA VARIVEL X
13 77,46998 1 33 68,69880 0 SEGUNDO VALORES DA VARIVEL Y
14 66,05733 0 34 73,09149 1
Y X S
15 73,28209 1 35 71,65980 1
16 71,05588 1 36 72,43791 1 0 8,5000 4,7610
17 69,54481 1 37 68,48637 0 1 23,5000 4,1833
18 70,79316 0 38 69,62983 0
19 66,96403 0 39 66,57056 0
20 72,22281 1 40 69,57349 0