Sei sulla pagina 1di 24

1

ANLISE DE COMPONENTES INDEPENDENTES


Tutorial
Nielsen Castelo Damasceno
1 INTRODUO
Em linhas gerais, podemos dizer que a motivao do uso de Anlise de
Componentes Independentes (ACI) ou do ingls: Independent Componente Analysis
(ICA) o BSS (Blind Source Separation ou Separao Cega de Fontes)
(HYVRINEN, OJA, 1999). Todavia, vamos utilizar ACI e ICA, doravante, para
representar a mesma entidade. Sobretudo, um dos problemas tpicos investigados
pela tcnica de separao cega de fontes motivado por um problema chamado
cocktail party ou separao de sinais de udio.
Considere duas pessoas conversando em uma sala fechada utilizando
sensores (microfones) para capturar suas vozes. Esta situao representada na
Figura 1. O problema consiste em separar os sinais captados pelos microfones
sabendo que os sinais esto agora correlacionados. A particularidade da separao
cega de fontes perante as outras tcnicas de filtragens que, nesse caso, no
precisamos conhecer precisamente os sinais de fontes (HYVRINEN, 1999a).

Figura 1: O problema do cocktail-party.


O problema do cocktail-party pode ser representado da seguinte forma: x =
x1
a11 a12
s1
e s = , ou seja,
x , A= a

2
21 a22
s2
Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

x1 a11
x= =
x2 a 21

a12 s1
a 22 s2

(1)

ou pode-se reescrever a Equao 1 utilizando a notao matricial, que tornar-se-:

x = As

(2)

Denota-se x pelo vetor aleatrio cujos elementos representam as misturas


ou sensores, a matriz A com elementos a ij

representam a atenuao ou

amplificao sobre o vetor aleatrio s que representam o sinal de fontes s1 e s2 .


Por enquanto, deixemos de lado qualquer momento de atraso e outros
fatores extras a partir de nosso modelo simplificado de mistura. Como ilustrao,

Sinal de fonte 2 (Amplitude)

Sinal de fonte 1 (Amplitude)

considere os sinais representados na Figura 2 e 3.

0.02
0.01
0
-0.01
-0.02

10
12
Tempo (ms)

14

16

18

20

10
12
Tempo (ms)

14

16

18

20

0.02

-0.02

-0.04

Figura 2: Dois sinais do discurso original.


Os sinais do discurso original semelhante aos sinais representado na
Figura 2 e as misturas poderiam se parecer com os sinais na Figura 3. Nos grficos
acima as coordenadas abscissas representam o nmero de amostra do sinal em
cada perodo de tempo e a ordenada representa a amplitude do sinal. O problema
consiste em recuperar os dados na Figura 2 utilizando apenas os dados da Figura 3.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

-3

Mistura 1 (Amplitude)

-5

-10

Mistura 2 (Amplitude)

x 10

10
12
Tempo (ms)

14

16

18

20

10
12
Tempo (ms)

14

16

18

20

0.01

-0.01

-0.02

Figura 3: Sinais dos discursos misturados.

Na verdade, se soubssemos os parmetros

poderamos resolver o

sistema na Equao 1 pelos mtodos clssicos. O ponto, porm, que no


sabemos o valor de

, de forma que o problema se torna consideravelmente difcil.

Uma abordagem para resolver este problema seria usar alguma informao
estatstica sobre as propriedades dos sinais

para estimar a todos. Na verdade,

e talvez surpreendentemente, verifica-se que ela seja suficiente para presumir que
e

a cada instante de tempo

so estatisticamente independentes. A

tcnica recentemente desenvolvida conhecida como ICA pode ser usado para
estimar os valores de

baseado nas informaes de sua independncia, o que

permite recuperar ou estimar o sinal original


a partir de suas misturas

A Figura 4 representa os sinais de fontes estimados por ICA usando


abordagem PCA (KUN; CHAN, 2006).
Na Figura 5 ilustra um diagrama esquemtico do problema, onde um conjunto
de sinais de fontes so submetidos ao de um sistema misturador, cujas sadas
correspondem a misturas de tais fontes. Devemos de alguma forma, projetar um
sistema separador que seja capaz de estimar as fontes, ou seja, inverter a ao do

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

sistema misturador. Este problema dito cego em razo da falta de informao que

Sinal estimado 2 (Amplitude)

Sinal estimado 1 (Amplitude)

temos sobre as misturas e as fontes.

2
1
0
-1
-2

10
12
Tempo (ms)

14

16

18

20

10
12
Tempo (ms)

14

16

18

20

-2

-4

Figura 4: Sinais de fonte estimados a partir das misturas.

Figura 5: Diagrama esquemtico do problema de separao cega linear.

Podemos tambm representar de forma simples o processo de misturas das


fontes pela seguinte expresso:
x (n ) = F ( s (n ) , s (n 1) , L , s (n L ) , r (n) )

(3)

onde o F () corresponde a ao do sistema misturador, L associado s memrias


(amostras atrasadas) no sistema e o vetor r representa o rudo presente nas fontes.
Um sistema misturador dito linear se o mapeamento F () atende o principio da
superposio, caso contrrio dito no linear.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

Nas situaes em que o sistema misturador depende das amostras passadas


(L > 0) dito que o sistema misturador convolutivo (com memria). Entretanto, h
situaes em que (L = 0) o sistema chamado de instantneo (COMON, 1994).
Em outras situaes onde o nmero de sensores podem ser maiores que o
nmero de sinais de fontes, tem-se o caso sobre determinado. Analogamente,
temos o caso subdeterminado quando o nmero de sensores menor que os sinais
de fontes.
2 RELAO ENTRE ICA E PCA
O ICA procura transformar a mistura de sinais num nmero de componentes
independentes (ICs), sem reduzir as dimenses da mistura. Mas, quando
necessrio a reduo da informao, ento efetua-se um pr-processamento da
mistura com PCA (Principal Componentes Analysis).
A principal diferena entre o ICA e o PCA que o PCA usa, unicamente, a
estatstica de 2 ordem (mdia e varincia), enquanto o ICA utiliza a estatstica de
ordens superiores (kurtosis). Por isso, o PCA usado para variveis Gaussianas
que so de estatstica de 2 ordem. Mas, como a maioria dos sinais so nogassianos e com ordens estatsticas elevadas, logo o ICA uma melhor opo.
3 INDEPENDNCIA E NO-CORRELAO
ICA consiste em recuperar os sinais originais a partir de uma mistura. Um
princpio bastante utilizado para determinar ou inferir nas misturas tem sido a
independncia estatstica, ou seja, o valor de qualquer um dos componentes no
fornece nenhuma informao sobre os valores dos outros componentes.
Normalmente, uma distribuio de probabilidade caracterizada em termos
de sua funo de densidade ao invs de cdf (funo de distribuio cumulativa ou
do ingls: cumulative distribution function). Formalmente, a funo de densidade de
probabilidade obtida derivando cdf. ICA est intimamente ligado independncia
estatstica. Matematicamente, a independncia estatstica definida em termos de
densidade de probabilidade (PAPOULIS, 1991), por exemplo. As variveis
aleatrias x e y so ditas independentes, se e somente se,
,

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

(4)

Em outras palavras, a densidade conjunta


produto das suas densidades marginais

de x e y devem fatorar no

. Equivalente independncia,

esta pode ser definida pela substituio das funes de densidade de probabilidade
na Equao 4 pelas respectivas funes de distribuio cumulativa, que tambm
deve ser fatorveis.
Duas variveis, x e y, so no-correlacionadas se a sua covarincia for zero:
cov( x, y ) = E{xy} E{x}E{ y} = 0

(5)

Assume-se que a mdia zero para todas as variveis aleatrias. Logo a


covarincia igual correlao:
cov( x, y ) = corr ( x, y ) = E{xy} = 0

(6)

Se as variveis, x e y, so independentes, ento so no-correlacionadas, ou


seja,
E{xy} = E{x}E{ y} ,

(7)

x e y so independentes. Substitui-se (7) em (5) obtm-se:


cov( x, y ) = E{x}E{ y} E{x}E{ y} = 0

(8)

Porm, se duas variveis aleatrias forem no-correlacionadas, no implica


que sejam independentes. Por isso, a independncia mais forte que a nocorrelao. Da que os sinais a separar duma mistura tenham que ser mutuamente
independentes.
4 MODELO GENERATIVO
O modelo generativo descreve como os sinais misturados so produzidos e
trata-se da base do ICA. Este modelo afirma que os sinais misturados so o produto
da combinao linear dos sinais originais (componentes independentes). Para a
simplificao do mtodo, no se considera a presena de rudo, diferente de
situaes reais ou prticas.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

4.1 MATRIZ DE MISTURA, VARIVEIS OBSERVVEIS E VARIVEIS LATENTES


Matematicamente, o modelo generativo foi apresentado na seo 1. A
varivel s um vetor composto por todos os sinais originais (componentes
independentes). Note-se que os sinais originais, s por si, so tambm vetores.
Assim, nesta notao, as componentes independentes so os elementos de um
nico vector de sinais originais, s. Neste vetor encontram-se ento as variveis
latentes, uma vez que, no so diretamente observveis. Ou seja, esto escondidas
ou latentes, no vector x.
As tcnicas usadas no ICA pretendem usar a matriz inversa de A, de forma a
estimar as componentes independentes, s, da seguinte forma:
s = A 1 x

(9)

Em situaes que a matriz A conhecida basta utilizar a Equao 9 para


estimar s. Quando a matriz A no conhecida devemos inicialmente assumir que, a
mistura, x, esto relacionados com os sinais latentes, s, atravs de uma
transformao linear (rotao e scaling). Logo, alguma transformao inversa
(rotao/scaling) pode ser encontrada de forma a se obter os sinais originais.
Note-se que as transformaes podem tambm ser no-lineares. Desta
forma, a separao das componentes independentes complica-se. A Equao 10 e
11 descrevem, sucintamente, que existe uma funo de mistura, F, tambm
desconhecida:
x = F ( x)

x i = Fu a ij s j ,
j =1

onde, i = 1, L , n e j = 1, L , n .

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

(10)

(11)

5 RESTRIES AO MODELO
Para estimar a matriz de mistura A preciso admitir algumas restries:
1. As variveis latentes, s, tm que ser mutuamente independentes.
2. As componentes independentes tem que ser distribuies no-gaussianas.
Isto deve-se ao fato do ICA permitir estimar ICs com ordem de estatstica
elevada. Para sinais gaussianos, a ordem de estatstica elevada igual a
zero. Portanto, ICA no requer que seja conhecida a distribuio das
variveis, basta que elas no sejam gaussianas. Pode-se notar (Figura 6)
que no possvel estimar a matriz de mistura, A, porque a distribuio de
probabilidades no possui informao sobre as direes das colunas desta
matriz. Assim, se a mistura possuir sinais originais no-gaussianos e sinais
originais gaussianos, ento as componentes gaussianas no so separadas
pelo ICA e surgem misturadas.

Figura 6: Distribuio conjunta de duas variveis aleatrias gaussianas.


3. A matriz de mistura A deve ser quadrada. Ou seja, o nmero de ICs deve ser
igual ao nmero de variveis observadas (ou misturas). Assim, aps o clculo
da matriz A, pode-se usar a sua inversa, matriz B, para obter as ICs:
x = As A 1 x = A 1 As s = Bx

Se a matriz A no for quadrada, ento no ter inversa.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

(12)

Observe que, se aplicarmos o PCA para reduzir a dimenso de x igual a


dimenso de s, o problema das matrizes de mistura singulares fica resolvido.
6 AMBIGUIDADES
Em ICA, a nica informao disponvel relativa s misturas, x. Nada se
sabe sobre a matriz de mistura, A, e as variveis latentes, s. Por essa razo,
existem determinadas ambiguidades nas componentes estimadas.
1. Escalamento: impossvel determinar as varincias das ICs. Em
consequncia, tambm no possvel calcular as energias ou as amplitudes
dos sinais. Esta ambiguidade verifica-se no problema do cocktail party,
porque no se sabe a localizao das pessoas, nem dos microfones e nem
informao sobre as vozes. Como a amplitude do sinal no conhecida,
ento usual fixar as amplitudes. Com isso, a varincia dos sinais originais
igual a um. No entanto, por inmeras razes, impossvel determinar o sinal
das ICs. Por isso, os sinais originais quando separados, podem surgir
invertidos. Assim, se uma IC for multiplicada por -1, o modelo no afetado.
Esta ambiguidade, felizmente, no apresenta grande problema na maioria
dos casos.
2. Permutao: impossvel determinar a ordem das ICs. Para saber a ordem
das componentes independentes, necessrio alguma informao sobre a
matriz de mistura. No entanto, por definio, esta matriz desconhecida.
Assim sendo, pode-se alterar livremente a ordem dos termos na Equao 12
e definir qualquer uma das ICs como sendo a primeira. Uma matriz de
permutao P e a sua inversa podem ser substitudas no modelo de modo a
obter a Equao 13. Assim, os elementos Ps so as ICs originais sj numa
ordem diferente e a matriz AP-1 uma nova matriz de mistura.
x = AP 1 Ps

(13)

Observe que uma matriz de permutao, P, uma matriz quadrada


constituda unicamente por 0s e 1s e que possui em cada linha e em cada coluna
apenas um elemento igual a 1 (sendo os restantes elementos iguais a zero). Esta
ambiguidade no constitui um grande problema.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

10

1 0 0
P = 0 0 1
0 1 0
7 PR-PROCESSAMENTO
A correlao considerada uma medida fraca. Todavia, pode-se verificar
que este procedimento permite a determinao de uma transformao linear sobre a
mistura. luz deste paradigma, conclui-se que a PCA considera apenas estatstica
de segunda ordem, diferentemente de ICA, que considera estatstica de ordem
superior, discutido anteriormente. Assim, utiliza-se a PCA como um prprocessamento ao ICA que chamamos de branqueamento (POBLADOR; MORENO
et. al., 2004). Este mtodo ser detalhado na prxima seo.
Para ilustrar a tentativa de recuperar as fontes usando branqueamento,
representamos duas fontes independentes,

, uniformemente distribudas em

um quadrado (Figura 7). Usou-se uma matriz quadrada 2x2 para gerar as misturas
dadas pela Equao 2. O resultado desta mistura apresentado na Figura 8 e por
fim suas estimativas obtidas pelo processo de branqueamento so ilustradas na
Figura 9.
Considerando o efeito do sistema misturador linear, verifica-se a dificuldade
da recuperao das fontes (Figura 9) usando estatstica de segunda ordem.
Claramente, o mtodo consegue recuperar as escalas das fontes, mas incapaz de
recuperar a rotao, pois existe uma indeterminao referente a uma matriz
ortogonal cujo efeito a rotao dos dados (HYVRINEN; OJA, 1999).
Intuitivamente, percebe-se que a utilizao dessa ideia para um prprocessamento no algoritmo ICA dito anteriormente obrigatrio na utilizao do
branqueamento para a separao das fontes, visto que em distribuies gaussianas
conhecemos apenas duas caractersticas, a mdia e varincia. Percebe-se com
este resultado a ineficcia da estatstica de segunda ordem, no que tange a
impossibilidade de recuperar fontes gaussianas e este resultado foi provado por
Comon (1994).

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

11

Figura 7: Distribuio conjunta uniforme em um quadrado.

Figura 8: Distribuio das misturas dos componentes.

Figura 9: Distribuies conjuntas das estimativas usando PCA.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

12

Em primeiro lugar, para se determinar as componentes independentes,


remove-se a mdia dos valores das variveis, num processo chamado centering ou
centralizao das variveis.
Em seguida, as variveis aleatrias so transformadas em variveis nocorrelacionadas atravs do processo chamado whitening ou branqueamento.
Ambos os processos podem ser usados pelo PCA, uma vez que, este mtodo
descorrelaciona as variveis e fornece, ainda, informao sobre a varincia das
variveis descorrelacionadas na forma de vetores prprios.

7.1 CENTRALIZAO (CENTERING)

Admite-se que as ICs e as variveis observadas possuem mdias iguais a


zero de forma a simplificar o modelo. Ou seja, subtrai-se a mdia das variveis
observadas a todos os valores do vector x (vector original das variveis
observadas):
x = x ' E{ x}

(14)

As ICs vo tambm possuir mdia igual a zero pois:


E{s} = A 1 E{ x ' }

(15)

Aps este processo a matriz A permanece igual, logo a estimativa da matriz


A no afetada. Aps esta estimativa da matriz de mistura e das ICs a partir dos
dados com mdia zero, adiciona-se o fator A 1 E{ x ' } s ICs de forma a compensar o
processo de centralizao.

7.2 BRANQUEAMENTO (WHITERING)


Se duas variveis aleatrias so descorrelacionadas e tm varincia igual a 1
ento elas so chamadas de brancas (POBLADOR; MORENO et. al., 2004), ou
melhor, a matriz de covarincia igual identidade conforme a equao a seguir:

{ }

E zz t = I

(16)

Podemos obter variveis brancas a partir de uma transformao linear qual


seja:
z = Vx
Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

(17)

13

O branqueamento de x pode ser feito pela matriz V tal que,


/

onde,

(18)

uma matriz ortogonal cujas colunas so os autovetores de

uma matriz diagonal com os autovalores correspondentes:


(19)
Assim, o branqueamento transforma a matriz

em uma nova matriz

, de

forma que agora temos:


(20)
fazendo:

Vamos agora fazer uma transformao ortogonal em


!

"

(21)

Em razo ortogonalidade de ", ! tambm branco como mostra a seguinte


expresso:
!!

"

"

"I"

(22)

Portanto, mostrou-se que o branqueamento um pr-processamento para o


ICA, pois ele no suficiente para que se estimem as fontes independentes, e
fornecendo apenas uma transformao ortogonal em . O que precisamos agora
de uma estratgia elaborada para rotacionar os dados das misturas.
8 MTODO DE ESTIMAO ICA
As componentes independentes so determinadas atravs da aplicao de
uma transformao na matriz de mistura ortogonal, aps o processo de whitening.
Uma vez que, as misturas so uma combinao linear das ICs, ento possvel
reconstrui-las a partir duma transformao linear inversa sobre as variveis de x.
Assim sendo, a Equao 23 mostra a transformao, a partir da qual, se obtm as
ICs:
ic i = bit x

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

(23)

14

O elemento $% da Equao 23 uma componente independente e trata-se


duma estimativa do sinal original. O elemento b o vetor apropriado que reconstri
cada componente independente.
Existem inmeras e diferentes abordagens para estimar b que, se baseiam
numa funo objetivo relacionada com a independncia das variveis. Essa funo
maximizada ou minimizada atravs de algoritmos de optimizao.
As vrias abordagens diferem entre si, na definio da funo objetivo que
optimizada e, no mtodo de optimizao a usar. Alguns mtodos so: Maximizao
da no-gaussianidade; estimativa da mxima probabilidade; minimizao da
Informao mtua; mtodos tensoriais, mtodo usando PCA, entre outros.

8.1 ALGORITMO ICA UTILIZANDO PCA

Um dos algoritmos que foi desenvolvido recentemente provou ser superior a


algumas abordagens ICA (KUN, CHAN, 2006). Conhecido como P-ICA, esta
abordagem basicamente resolve o problema de BSS linear aplicando PCA e
posteriormente usa uma transformao para recuperar os sinais de fontes.
Considerando os dados observados representados por x, PCA e ICA visam
transformao linear dado pela Equao 2. No entanto, elas exploram os dados de
formas diferentes. O PCA visa encontrar uma transformao ortogonal em W que d
resultados no correlacionados (vale lembrar que se mostrou anteriormente que
PCA considera apenas estatstica de segunda ordem).

Porm, o PCA utiliza a

distribuio conjunta gaussiana para ajustar os dados e encontrar uma


transformao ortogonal que faz a distribuio conjunta gaussiana fatorvel
independente da verdadeira distribuio dos dados. Neste contexto, a ICA tenta
encontrar uma transformao linear que faz a verdadeira distribuio conjunta dos
dados transformados fatorvel, de modo que as sadas so mutuamente
independentes.
Grande parte dos algoritmos ICA requerem o branqueamento das misturas
como descrito na seo 7.2, podemos citar como exemplo o FastICA (HYVRIEN,
1999c) e o JADE (CARDOSO, 1999). Discorremos na mesma seo que o processo
de branqueamento pode ser feito a partir de PCA, bem como usar decomposio de
autovalores e autovetores.
Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

15

Em linhas gerais, Kun e Chan (2006) mostrou e provou que as componentes


independentes tm diferentes kurtosis, no qual se tem o seguinte teorema: Dado s,
&, e

vetores aleatrios tal que &

' , onde W uma matriz ortogonal e

& &. Suponha que s tem mdia zero e que as componentes independentes tm
diferentes kurtosis. Ento, a matriz ortogonal " que dado pela componente
principal de

( no centralizado) realiza ICA em &.

O mtodo P-ICA se resume nos seguintes procedimentos que consiste em


quatros etapas:
1. Branqueamento de x usando a Equao 17;
&&;

2. Faa uma transformao

3. Encontre " usando PCA em ;


4. Depois de encontrar a matriz ortogonal " finalmente a matriz de separao
pode ser estimada usando a expresso '

" .

8.2 FASTICA POR KURTOSIS E NEGENTROPIA

Para encontrar o mximo da no-gaussianidade, necessrio usar o mtodo


do gradiente. No entanto, a convergncia para o mximo local lento. Assim, para
tornar esse processo mais rpido, os algoritmos iterativos de pontos-fixos (FastICA)
tornaram-se uma boa alternativa. A convergncia rpida deve-se ao fato de se tratar
de algoritmos cbicos.
Como a no-gaussianidade pode ser medida atravs da kurtosis ou da
negentropia, existe ento o FastICA que usa a kurtosis e o FastICA por base na
negentropia. No entanto, importante salientar que existem verses mais
sofisticadas deste algoritmo.

8.2.1 UTILIZANDO KURTOSIS

No FastICA que usa a kurtosis, o ponto estvel (mximo) deve apontar na


direo de W, ou seja, o gradiente deve ser igual a W multiplicado por um escalar
constante. A equao do gradiente da kurtosis com W a seguinte:

W = E{ x (W t x ) 3 } 3 || W || 2 W

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

16

Sendo um processo iterativo, um novo valor de W dado por:


W = [ E{ x (W t x ) 3 } 3
No final, o vector W fornece uma das componentes independentes como uma
combinao (Equao 24). Mas para tal acontecer, necessrio que os valores old
and new de W apontem na mesma direo.
ic = W t x

(24)

8.2.2 UTILIZANDO NEGENTROPIA

O algoritmo FastICA foi primeiramente publicado por Hyvrinen (1999b). O


objetivo do algoritmo encontrar uma matriz W e ajustar as suas linhas denotadas
por ) , de modo que !

resulte numa estimativa das fontes, lembrando que a

maximizao da Negentropia baseada nos momentos polinomiais (HYVRINEN,


1999a). Utilizando a aproximao da Negentropia e considerando que os dados
foram branqueados, a maximizao da Negentropia se resume em encontrar uma
matriz W que descrito pelo seguinte problema de otimizao (HYVRINEN, 2000):
)
*

+, -

./

Fazendo uma restrio na etapa de adaptao, temos que restringir a


potncia de cada uma das estimativas assumindo que:
)

O mximo da funo )
* quando encontramos certo valor timo de
em razo ao

10

34

ser constante. Assim, considerando o primeiro termo da

equao, o problema de maximizar e otimizar so equivalentes. Podemos mostrar


que o problema de otimizao resolvido usando o mtodo de Lagrange, quando a
seguinte condio satisfatria (HYVRINEN, 1999):
16 )

7 8)

0,

onde 8 uma constante.


Considerando que as misturas estejam branqueadas, aplica-se o mtodo de
Newton para a soluo da expresso anterior e assim se obtm a seguinte regra de
atualizao:

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

17

1 )

16 )

) ./ ,
/

onde G uma funo no quadrtica e 1 6 sua derivada. A expresso a seguir


poderia representar 1 e sua derivada, respectivamente:
1

1 ;
16 ;

log ?@ A
C

Para recuperar vrias fontes a partir da regra de atualizao (ou regra de ajuste),
se faz necessrio execut-la para vrios vetores ) . Frequentemente, se tem um
problema em que o algoritmo sempre encontra a mesma fonte, ou seja, converge
para o mesmo timo. Neste caso, o problema contornado da seguinte maneira:
Considere um problema de separao de trs fontes distintas feita a extrao da
primeira fonte. A extrao da segunda fonte feita aplicando a regra de ajuste.
Entretanto, a cada iterao se retira do vetor em processo de estimao a
contribuio do vetor referente primeira fonte, de modo que esses dois vetores
sejam ortogonais. Podemos usar esta mesma estratgia para extrair a terceira fonte.
Deve-se, em cada iterao, retirar a contribuio dos dois vetores estimados e
assim por diante. Finalmente, a regra de aprendizagem do FastICA descrito:
1. Centralizar e branquear as misturas;
2. Definir aleatoriamente valores iniciais para ) (colunas de W) e ortogonalizar
W de acordo com passo 5;
3. Para todo D faa )

1 )

16 )

);

4. Divida ) por sua norma;


5. Ortogonalizar ' ''

';

6. Caso no convirja, volta para o passo 3.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

18

8.3 JADE (JOINT APPROXIMATE DIAGONALIZATION OF EIGENMATRICES)

Um tensor cumulante de quarta ordem uma matriz com quatro dimenses


cujas entradas so originadas pelo cruzamento de cumulantes de quarta ordem dos
dados.
Um tensor cumulante pode ser decomposto em valores prprios originando
uma matriz de valores prprios:
F ( M ) = M

Este algoritmo baseado na decomposio em valores prprios, ou seja,


pode ser visto como uma diagonalizao da matriz E atravs da sua multiplicao
pela matriz W (matriz de mistura ortogonal, aps o processo do branqueamento):
Q = WF ( M )W t
A matriz Q diagonal porque F uma combinao linear de M. Usam-se,
ento, diferentes matrizes M para tentar tornar a matriz Q o mais diagonal possvel
(porque, idealmente, esta matriz no pode ser exatamente diagonal).
A diagonalidade da matriz Q pode ser medida como a soma dos quadrados
dos elementos no pertencentes sua diagonal:

q
k l

2
kl

. Como a matriz W

ortogonal, ao ser multiplicada por outra matriz, no altera a soma total dos
quadrados dos elementos dessa matriz, ento minimizar a soma dos quadrados dos
elementos fora da diagonal equivalente a maximizar a soma dos quadrados dos
elementos da diagonal.
Ento, este algoritmo tem como objetivo maximizar a seguinte equao:
Jade (W ) = | diag (WF ( M i )W t ) | 2
i

As matrizes Mi so escolhidas segundo as matrizes dos valores prprios do


tensor cumulante, ou seja, so matrizes que do informao importante aos
cumulantes, pois partilham o mesmo espao que o tensor cumulante.
Neste mtodo as correlaes no lineares entre as variveis observadas e as
variveis independentes so minimizadas. O algoritmo JADE no muito eficiente
para dimenses elevadas, mas funciona corretamente quando o nmero de
variveis pequeno.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

19

9 APLICAOES ICA

Um dos grandes desafios da engenharia biomdica na avaliao das


alteraes fisiolgicas que ocorrem em diversos rgos internos do corpo humano.
Existem problemas nas extraes das informaes relevantes para diagnsticos, ou
seja, sinais de fontes biomdicos so geralmente fracos, no estacionrios, com
rudos e interferncias (CICHOCKI; AMARI, 2002). A seguir tm-se algumas
aplicaes da ICA em problemas de separao cega de fontes.

9.1 MONITORAMENTO DE BATIMENTOS CARDACOS

A ao mecnica dos msculos do corao estimulada por sinais eltricos.


Estes nveis de sinais podem ser medidos e visualizados como funes de tempo
usando eletrocardiograma (ECG) (CICHOCKI; AMARI, 2002). Tal como para adultos
tambm seria possvel medir a atividade eltrica do corao de um feto. As
caractersticas de um eletrocardiograma fetal (FECG) podem ser muito teis para
determinar se um feto est se desenvolvendo corretamente, por exemplo. Estas
caractersticas incluem uma elevao da frequncia cardaca fetal que indica
estresse, arritmias. Obter uma informao fiel do FEGC uma tarefa no trivial.
Problemas podem acontecer em virtude de que o eletrocardiograma tambm
contm informaes dos batimentos cardacos materno (MECG) (JAHN; AMARI et
al., 1999). Alm disso, o FECG ir ocasionalmente sobrepor sinais ao MECG e
torn-lo normalmente difcil de detectar (CARDOSO, 1998). Tambm juntamente
com o MECG rudos extensivos nestes sensores interferem no FECG e podem
mascarar completamente este. A separao destes sinais de fontes fetal e materno
de uma mulher grvida pode ser modelado como um problema BSS (HAYKIN,
2001a).

9.2 CANCELAMENTO DE RUDO E INTERFERNCIA

O sistema nervoso dos seres humanos e dos animais deve codificar e


processar informaes sensoriais. Dentro deste contexto, os sinais codificados (as
imagens, sons) tm propriedades muito especficas. Uma das tarefas desafiadoras
a de saber como fielmente detectar, localizar e melhorar os sinais cerebrais em que
Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

20

muitas vezes as fontes so corrompidas. ICA e Anlise Fatorial Adaptativo (AFA)


so abordagens promissoras para a eliminao de artefatos e rudos provenientes
dos EEG / MEG (HE; REED, 1996) (JAHN; AMARI et al., 1999).

9.3 SISTEMAS DE COMUNICAO DIGITAL

Considere um sistema onde se tm mltiplos sinais de uma propagao de


comunicao sem fio, bem como um nmero de usurios difundidos em sinais
modulados digitalmente para uma estao base em um ambiente de vrios
usurios. A transmisso destes sinais interage com diversos objetos fsicos na
regio antes de chegar antena ou estao de base. Cada sinal segue caminhos
diferentes com atraso e atenuao. Este um tpico problema que conhecido
como multi-path fading (CARDOSO, 1998). Alm disto, em algumas redes de
celulares existem outras fontes adicionais de distores. Estas interferncias podem
ser causadas por vrios utilizadores que partilham a mesma frequncia e tempo.
Um problema desafiador a separao e processamento de sinais cegos conjunta
de espao-tempo e equalizao dos sinais transmitidos, isto , para estimar a fonte
de sinais e seus canais na presena de outros sinais e rudo (HAYKIN, 2001a).

10 EXEMPLO DA APLICAO ICA UTILIZANDO MATLAB

Neste experimento utilizamos 3 sinais de fontes que so misturados por uma


matriz 3x3 gerado aleatoriamente e finalmente estimado pelo P-ICA. Vamos
primeiramente descrever o mtodo P-ICA dado pelo pca_ica.m. E o mtodo utilizado
para realizar o branqueamento dado por branqueamento.m.

% A seguinte funo implementa o P-ICA linear


%
% Entrada: x mistura uma matriz(dxn)
%
%
y os sinais estimados
%
w a matriz de mistura (inversa de A)
%
%
% Autor:
Nielsen C. Damasceno
% Data:
20.12.2010
function [y,w] = pca_ica(x)
n = size(x,1);

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

21

[E, D] = eig(cov(x'));
v = E*D^(-0.5)*E' * x;
z = repmat(sqrt(sum(v.^2)),n,1).*v;
[EE, DD] = eig(cov(z'));
y = EE'*v;
w = EE';
end

% A seguinte funo implementa o branqueamento


%
% Entrada: x mistura uma matriz(dxn)
%
%
y uma matriz (dxn)que o resultado do branqueamento
%
%
% Autor:
Nielsen C. Damasceno
% Data:
20.12.2010
function [y] = branqueamento(x)
[E, D] = eig(cov(x'));
y = E*D^(-0.5)*E' * x;
end

O codigo-fonte a seguir descreve a estimao de 3 fontes independentes, a


Figura 10, 11 e 12 representa os sinais de fontes, as misturas e os sinais estimados,
respectivamente.

clear all; close all;clc;


N = 1000; % Nmero de pontos (correspondem a 4 segundos de dados)
fs = 500; % Frequncia de amostragem
w = (1:N)*2*pi/fs; % Normalizao do vector da frequncia
t = (1:N); % Vector do tempo
% Criao dos trs sinais com rudo
s1 = 0.75*sin(w*12)+0.1*randn(1,N); % Seno duplo
s2 = sawtooth(w*5,0.5)+0.1*randn(1,N); % Onda triangular
s3 = pulstran((0:999),(0:5)'*180,kaiser(100,3))+ 0.07*randn(1,N); % Onda
peridica
%Elementos da matriz de mistura
a = rand(3);
s =[s1; s2; s3]; % Matriz das fontes originais
x = a * s; % Sinais misturados/observados
% Branqueamento da mistura
x = branqueamento(x);
% Mtodo ICA (usando o algoritmo P-ICA)
y = pca_ica(x);
% Grfico dos resultados

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

22
figure;
subplot(3,1,1);
plot(t,s1);xlabel('Tempo (s)'); ylabel('s_1(t)');
subplot(3,1,2);
plot(t,s2);xlabel('Tempo (s)'); ylabel('s_2(t)');
subplot(3,1,3);
plot(t,s3);xlabel('Tempo (s)'); ylabel('s_3(t)');
figure;
subplot(3,1,1);
plot(t,x(1,:));xlabel('Tempo (s)'); ylabel('x_1(t)');
subplot(3,1,2);
plot(t,x(2,:));xlabel('Tempo (s)'); ylabel('x_2(t)');
subplot(3,1,3);
plot(t,x(3,:));xlabel('Tempo (s)'); ylabel('x_3(t)');
figure;
subplot(3,1,1);
plot(t,y(1,:));xlabel('Tempo (s)'); ylabel('y_1(t)');
subplot(3,1,2);
plot(t,y(2,:));xlabel('Tempo (s)'); ylabel('y_2(t)');
subplot(3,1,3);
plot(t,y(3,:));xlabel('Tempo (s)'); ylabel('y_3(t)');

s 1(t)

1
0
-1

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

s 2(t)

2
0
-2

s 3(t)

2
0
-2

Figura 10: Sinais de originais.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

23

x 1(t)

5
0
-5

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

x 2(t)

5
0
-5

x 3(t)

5
0
-5

Figura 11: Sinais de misturas utilizando uma matriz 3x3.

y 1(t)

2
0
-2

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

100

200

300

400

500
600
Tempo (s)

700

800

900

1000

y 2(t)

5
0
-5

y 3(t)

5
0
-5

Figura 11: Sinais estimados utilizando P-ICA.

OBS.: O cdigo-fonte pode ser baixado no meu site em http://www.ncdd.com.br. E


tutorial baseado no texto de apoio e Tassa Pereira e Snia Ferreira. Algoritmo de
Diagnstico e de Auto-Regulao. Engenharia Biomdica 2010.

Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

24

REFERNCIAS
CARDOSO J., Blind signal separation: statistical principles, Proc. IEEE 86
(10) 1998.
CARDOSO J., High-order contrasts for independent component analysis,
Neural Computation, pag. 157-192, 1999.
CICHOCKI A., AMARI S., Adaptive Blind Signal and Image Processing:
Learning Algorithms and Applications, John Wiley, New York, USA, 2002.
COMON P., Independent component analysis, a new concept?, Signal
Process,1994.
HAYKIN S., Redes Neurais: Princpios e prtica. 2 ed. Porto Alegre: Bookman,
2001a.
HE R., J. REED. A robust co-channel interference rejection technique for
current mobile phone system. In Proc. IEEE VTC, pag. 11951199 vol.2, Atlanta,
GA, 1996.
HYVRINEN A., E.OJA. Independent component analysis: A tutorial. Technical
report, 1999.
HYVRINEN A., Survey on independent component analysis, Neural
Computer Surveys 2, 1999a.
HYVRINEN A., Fast and robust Fixed-point algorithms for independent
component analysis, IEEE Trans. Neural Networks 10, 1999c.
HYVRINEN A., E. OJA. Independent Component Analisys: Algorithms and
applications. Neural Networks, 2000.
JAHN O., A. CICHOCKI, A. IOANNIDES, S. AMARI. Identification and elimination
of artifacts from MEG signals using efficient independent components
analysis, In Proc. of th 11th Int. Conference on Biomagentism BIOMAG-98, pag.
224227, Sendai, Japan, 1999.
KUN Z, Lai-WAN CHAN, "ICA by PCA Approach: Relating Higher-Order
Statistics to Second-Order Moments", 2006.
PAPOULIS, A. Probability, Random Variables, and Stochastic Processes,
McGraw-Hill, 3rd edition, 1991.
POBLADOR S., V., MONTE-MORENO, E. & SOL-CASAL, J. ICA as a
Preprocessing Technique for Classification, In Proceedings of the Fifth
International Workshop on Independent Component Analysis and Blind Signal
Separation, ICA 2004, pag. 1165-1172, Granada, Espanha, 2004.
Prof. M.Sc. Nielsen Castelo Damasceno www.ncdd.com.br E-mail: nielsen.tekla@gmail.com UFRN

Potrebbero piacerti anche