Sei sulla pagina 1di 6

Caracterizao de amostras bivariadas

Neste caso os dados so constitudos por pares ordenados. O primeiro


elemento mede um atributo de um objecto em anlise e o outro mede outro
atributo do mesmo objecto.
Interessa verificar se existe uma relao de associao entre eles e, caso
exista caracterizar essa relao.
Dados Quantitativos
Lote

Volume de produo
(Unidades)
1500
800
2600
1000
600
2800
1200
900
400
1300
1200
2000

1
2
3
4
5
6
7
8
9
10
11
12

Custo de produo
(Contos)
3100
1900
4200
2300
1200
4900
2800
2100
1400
2400
2400
3800

Considerando que existe uma relao linear entre as variveis, vamos ver o
procedimento adoptado no ajuste de uma relao linear, recorrendo ao
mtodo dos mnimos quadrados.
Considere-se o modelo linear Y = + bx.

(1)

E construa-se os desvios
en = yn ( + bxn)

(2)

Para evitar cancelamento de desvios, construa-se a soma dos erros


quadrticos
N

SEQ =

e = (y
n =1

2
n

n =1

b.xn ) 2 = 0

(3)

SEQ = SEQ(,b)
Vamos minimizar SEQ j que seguimos o mtodo dos mnimos quadrados.
N
SEQ(, b)
=(-2). ( yn b.xn ) = 0

n =1

(4)

e
N
SEQ(, b)
=(-2). xn ( yn b.xn ) = 0
b
n =1

(5)

cuja soluo
=

b=

1 n
1
yn b

N 1
N

= y bx

(6)

s xy
s xx

(7)

onde
N

SXY =

(x
n =1

x).( yn y )

(8)

x) 2 .

(9)

e
N

SXX =

(x
n =1

Para o exemplo em causa os valores encontrados so:


= 731,6 e b = 1,455
Calculando o valor de y que corresponde a x quando (6) e (7) se verificam
obtm-se

y = + b x = y - b. x + b. x = y

(10)

Considerando (7) e, sabendo que SXX sempre positiva desde que os


valores de x no sejam todos iguais, o sinal de b depende de SXY.
No exemplo este valor positivo uma vez que a maior parte das parcelas de
(8) so positivas (produtos cruzados).
Para o exemplo x = 1358 unidades e y = 2708 contos.
SXY = 9,094.106 .

Define-se Produto Cruzado Mdio por


1
N

(x
n =1

x).( yn y )

(11)

que uma medida adequada para descrever o grau de relacionamento linear


dos dados de uma amostra bivariada. No entanto, se se pretender fazer uma
inferncia sobre a populao este deve ser substitudo pela Covarincia
Amostral dada por

CXY =

1
N 1

(x
n =1

x).( yn y )

(12)

Para os dados tem-se CXY = 9,094.106/(12-1) = 0,827.106


rolamentos.contos.

Esta estatstica tem a desvantagem de depender das unidades nas quais os


dados so expressos. Para adimensionalizar define-se o coeficiente de
correlao amostral RXY dado pela seguinte expresso

RXY =

C XY
=
S X SY

1 N
(x n - x ).(y n y)
N - 1 n =1
=
N
1 N
1
(y n - y ) 2
(x n - x ) 2 . N - 1
N - 1 n =1
n =1

S XY
S XX SYY

(13)

Para o exemplo RXY = 0,981.

Nas situaes em que o ajuste no perfeito ou no existe qualquer


relacionamento linear entre as duas variveis (casos em que |RXY|=1 ou
RXY=0) difcil atribuir um significado directo ao valor do coeficiente de
correlao amostral. No entanto, h um significado para o quadrado do seu
valor. Para se chegar a essa interpretao desenvolve-se o somatrio SYY da
seguinte forma,

^
^
SYY = (y n - y ) = ( yn y n ) + ( y n y )

n =1
1
N

(14)

O desenvolvimento do somatrio SYY conduz a

^
SYY = (y n - y ) = ( yn y n ) +

n =1
1
N

^
1 ( y n y) +2.
N

^
^

(
y

y
)(
y
1 n n n y ) (15)
N

A primeira parcela representa a soma dos erros quadrticos:


2

(
y

y
1 n n ) =
N

( yn bxn )2 = en2

(16)

Tendo em conta que a recta dos mnimos quadrados passa pelo ponto ( x , y )
,

y n - y = b (xn - x )

(17)

a segunda parcela pode ser reescrita da seguinte forma


N

( y
1

2
2
n-y) = b .

(x
n =1

- x )2

(18)

A terceira parcela nula.

O somatrio SYY,que reflecte a variao dos dados yn em torno da sua


mdia amostral, pode ser expresso como a soma de duas parcelas,

(y

n =1

- y )2 =

2
n

+b .

(x
n =1

- x )2

(19)

A segunda parcela representa a parte da variao dos dados yn que


explicada pela relao linear; A primeira representa a parte no explicada.

Se se calcular a proporo da variao dos dados yn que explicada pela


relao linear, obtm-se

S XY

.S XX
b. ( xn x )
2
S
S XY
2
XX

1
=
=
= RXY
N
SYY
S XX SYY
( yn y ) 2
N

(20)

Assim, de (20) tem-se que o quadrado do coeficiente de correlao


amostral representa a proporo da variao dos dados yn que explicada
pela relao linear, a partir da variao dos dados xn. O valor de
2
RXY
designa-se por coeficiente de determinao.

No caso de se pretender inferncia relativa populao, a partir de uma


amostra limitada, o coeficiente de determinao, que pode ser reescrito da
forma seguinte

b2S
2
RXY
= XX =
SYY

SYY (en ) 2
1

SYY

=1

(e )

SYY

(21)

deve ser substitudo pelo coeficiente de determinao corrigido dado por

N
2
(en ) /( N 2)
2

RXY
(corrigido) = 1 1
(22)
SYY /( N 1)

Para os dados do exemplo R2 = 0,9812 = 0,963 = 96,3% e R2(corr.) = 0,959


= 95,9%.

Potrebbero piacerti anche