Tema3 Teoria 1-2837 PDF

Tema 3:
ANALISIS DE COMPONENTES
INDEPENDIENTES (ICA)
Febrero-Mayo 2006
1
ÍNDICE
3.1 DEFINICIÓN DE ICA

3.2 INDEPENDENCIA Y BLANQUEADO
3.3 MAXIMIZACIÓN DE LA NO-GAUSSIANIDAD
3.3.1 KURTOSIS. TÉCNICAS DE GRADIENTE Y PUNTO FIJO
3.3.2 NEGENTROPÍA. TÉCNICAS DE GRADIENTE
3.4 CONCLUSIONES
2
3.1 DEFINICIÓN DE ICA
PCA: Búsqueda de nuevas características en las que los

vectores de observación quedan mejor representados en
el sentido del error cuadrático medio (MMSE)
MDA: Búsqueda de nuevas características en las que las clases

quedan más separadas
ICA: Búsqueda de vectores de proyección en los que las

características son más independientes entre sí
SEPARACIÓN CIEGA DE
FUENTES DE SEÑAL
CLASIFICACIÓN
3
Observamos un conjunto de n señales, x1(t),…,xn(t)
combinación lineal de otras n señales s1(t),…,sn(t)
estadísticamente independientes entre si:
n
x(t ) = As(t ) = ∑
i =1
ai si (t ) ∈ n×1
a partir de la observación de x(t), queremos recuperar s(t).
Cocktail party
problem
4
RESTRICCIONES EN EL MODELO
1. La matriz de mezcla A no tiene memoria y es cuadrada

2. Las señales a recuperar si(t) son independientes
3. Las señales si(t) son no-gausianas
4. Supondremos que las señales son de media cero (siempre
puede eliminarse la media y luego reconstruirse una vez
separadas las componentes):
x(t ) = x '(t ) − E {x '(t )} = As(t ) − AE {s(t )}

sˆ (t ) = A −1x(t ) + A −1 E {x(t )}
5
AMBIGÜEDADES EN LA SEPARACIÓN
1. Las componentes independientes si(t) podrán recuperarse

con la ambigüedad de un factor de escala
⎛ 1 ⎞
n
x(t ) = As(t ) = ∑ ⎜ α ai ⎟ (α i si (t ) )
i =1 ⎝ i ⎠
2. No podrá conocerse el orden en que se recuperen las
componentes independientes (ambigüedad de una matriz de
permutación):
x(t ) = APP −1s(t )
Ejemplo:
⎡0 1 0 ⎤
P = ⎢⎢1 0 0 ⎥⎥
⎢⎣0 0 1 ⎥⎦
6
ESQUEMA
Mix PCA ICA
⎛ s1 (t ) ⎞ ⎛ x1 (t ) ⎞ ⎛ z1 (t ) ⎞ ⎛ s1 (t ) ⎞
⎜ ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
s(t ) = ⎜ s2 (t ) ⎟ x(t ) = ⎜ x2 (t ) ⎟ z (t ) = ⎜ z2 (t ) ⎟ s(t ) = ⎜ s2 (t ) ⎟
⎜ s (t ) ⎟ ⎜ x (t ) ⎟ ⎜ z (t ) ⎟ ⎜ s (t ) ⎟
⎝ 3 ⎠ ⎝ 3 ⎠ ⎝ 3 ⎠ ⎝ 3 ⎠
A Λ −1 U H WT
s(t ) = W T Λ −1 U H As(t ) = Ps(t )
7
El blanqueado de características siempre es posible, pero no
garantiza la independencia.
1.- Señales generadas por las fuentes: Se suponen

estadísticamente independientes y por tanto incorreladas:
⎛ s1 (t ) ⎞
⎜ ⎟
s(t ) = ⎜ : ⎟ ; Cs = E {s(t )sT (t )} = I
⎜ s (t ) ⎟
⎝ N ⎠
2.- Proceso de Mezcla: Matriz A de rango =N
x(t ) = As(t )
svd ( A) :A = U ΛV H ; U H U = I; VHV = I
Cx = E {x(t )xT (t )} = UΛU H
8
3.- Blanqueado o Incorrelación de las señales:
z (t ) = Λ −1 U H x(t )
Cz = E {z (t )zT (t )} = I
4.- ICA: Transformación Ortogonal. Búsqueda de N(N+1)/2

Incógnitas en lugar de N2
s(t ) = W T z (t )
Cs = E {s(t )sT (t )} = I ⇒ W T W = I
9
⎡ 0.32 0.9 ⎤
A=⎢ ⎥
⎣ −0.63 0.77 ⎦
1 1 1
a2
0.5 0.5 0.5
PDF uniforme 0 0 0
-0.5 -0.5 -0.5

a1
-1 -1 -1
-1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1 -1 -0.5 0 0.5 1
Vectores de dos
Características
características Características
blanquedadas (no son
independientes mezcladas
aún independientes!)
6 6 a2 6
4 4 4
2 2 2
0 0 0
PDF laplaciana
-2 -2 -2
-4 -4 a1 -4
-6 -6 -6
-5 0 5 -5 0 5 -5 0 5
10
• Para procesos gausianos, el blanqueado implica independencia
estadística por lo que no puede aplicarse ningun criterio mas
estricto de separación
• En el caso no-gausiano, el blanqueado no es suficiente para
separar los procesos
11
3.3 MAXIMIZACIÓN DE LA NO-GAUSIANIDAD
Si todas las componentes si(t) independientes están igualmente
distribuidas, su mezcla es más gausiana por el teorema central
del límite.
Escogiendo un vector tal que b A = ei podemos recuperar si(t)

T T
sin necesidad de conocer A, únicamente maximizando la no-

gausianidad de bT x(t )
Histograma de una combinación
lineal de datos uniformes
Gausiana
Histograma
datos uniformes
12
3.3.1 MEDIDA DE NO-GAUSIANIDAD: KURTOSIS
La kurtosis es el cumulante de orden 4, y para una variable
aleatoria de media nula se define como:
κ 4 { y} = E { y } − 3 ( E { y })
2
4 2
Propiedades
1. (
Si y ∼ N m, σ
2
)
⇒ κ 4 { y} = 0
2. Puede tomar valores positivos y negativos
Super − Gausiana kurt { y} > 0
Gausiana kurt { y} = 0
Sub − Gausiana kurt { y} < 0
13
3. Para variables aleatorias y1 , y2 independientes
κ 4 { y1 + y2 } = κ 4 { y1} + κ 4 { y2 }
4. Escalado
κ 4 {α y} = α 4κ 4 { y}
Criterio para separación de fuentes: optimización de la kurtosis

con restricción sobre la potencia de la señal separada
n
sˆi (t ) = y (t ) = b x(t ) = b As(t ) = q s(t ) =
T T T
∑ q s (t )
j =1
j j
n
b = arg max κ 4 { y} = arg max
b b
∑ j =1
q 4j κ 4 {s j (t )}
(1)
subject to qT q = 1
14
Ejemplo: si κ 4 {si (t )} = 1 ∀i = 1, 2
q2
F ( q1 , q2 ) = q14 + q24 q12 + q22 = 1
Puntos de solución
q1
La restricción de norma=1 impuesta conduce a que al maximizar

la kurtosis se separan las señales:
y (t ) = q1 s1 (t ) + q2 s2 (t )( q1 , q2 ) = (1,0) = s1 (t )
15
NECESIDAD DE BLANQUEADO
En la ecuación (1), nos aparecen dos variables q y b
relacionadas a través de la matriz de mezcla A desconocida. El
planteamiento del problema se hace abordable cuando
blanqueamos el vector de observaciones x:
sˆ (t ) = WT Λ −1 Ux(t ) = WT Λ −1 UAs(t ) = Ps(t )

z ( t ):
vector
W = [ w1 w2 : wn ]
P = [q1 q 2 : q n ]
blanqueado
sˆi (t ) = w iT Λ −1 Ux(t ) = w iT Λ −1 UAs(t ) = q iT s(t )

( )( )
q iT q j = w iT Λ −1 UA AT UT Λ −1 w j = w iT w j = δ ij
Únicamente aparece la variable matricial w
w = arg max κ 4 {w T z (t )}
w
subject to w T w = 1
16
ALGORITMO DE GRADIENTE
Si la kurtosis es positiva (negativa) la maximización
(minimización) con restricciones puede hacerse mediante una
técnica de gradiente:
∂ κ 4 {w T z (t )} ∂
{ } { }
2
E ( w T z (t ) ) − 3E ( w T z (t ) )
4 2
= =
∂w ∂w
T ⎡ {
T 3
}
= 4 sign (κ 4 {w z (t )} ) ⎣ E z ( w z (t ) ) − 3wwT w ⎤⎦
Este término puede eliminarse
ya que sólo cambia la norma de
w, no su dirección (el vector w
ha de ser normalizado de todas
Algoritmo de gradiente formas)
( T
n ) {
w n +1 = w n + μ sign κ 4 {w z (t )} E z ( w z (t ) ) T
n
3
}
w n +1 ← w n +1 (w T
n +1 w n +1 )
17
ASPECTOS PRÁCTICOS
1. Puede aproximarse la esperanza matemática por un valor
instantáneo
( T
n )
w n +1 = w n + μ sign κ 4 {w z (t )} z ( w z (t ) )
T
n
3
2. Si el signo de la kurtosis de las fuentes independientes no

es conocido debe estimarse, pero no puede aplicarse un
estimador instantáneo. Es necesario promediar:
(
γ (t ) = (1 − α ) γ (t − 1) + α ( wTn z (t ) ) − 3
4
)
18
ALGORITMO DE PUNTO FIJO (Fast ICA)
El algoritmo de gradiente es de convergencia lenta: depende del
paso de adaptación escogido y de la inicialización. Puede
converger más rápidamente dándonos cuenta que el gradiente
debe apuntar en la dirección del vector w. En efecto, en un
problema genérico con restricciones esféricas:
L ( w ) = F ( w ) + λ (1 − w T w ) El gradiente es
∂L ( w ) ∂F ( w ) proporcional a
= − λw = 0 la solución
∂w ∂w
Así pues:
{ }
w ← E z ( w z (t ) ) − 3wwT w
T 3
wT w = 1
Solución no adaptativa,
19
usar promedio temporal
Vector w despues de la
primera iteración
Vector w despues de la
segunda iteración La convergencia es muy rápida
20
3.3.2 MEDIDA DE NO-GAUSIANIDAD:
NEG-ENTROPÍA
La kurtosis es una medida de no-gausianidad poco fiable ya que
los valores outliers tienen una gran influencia en la estimación.
Alternativamente puede usarse la entropía para construir una
medida de no-gausianidad.
La entropía es una medida de la información que aporta la
observación de los valores de una variable aleatoria sobre la
variable aleatoria.
Se define la entropía de una variable aleatoria y como:
∫
H ( y ) = − p y (η ) log p y (η )dη
Fijada la potencia, la pdf gausiana es la que maximiza la entropía:
py ∫
min p y (η ) log p y (η )dη con ∫ η 2 p y (η )dη = σ 2
21
La demostración se apoya en:
Teorema 3.1: Sean ϕ (η ) y f (η ) dos fdp. Entonces:
∫ ∫
− ϕ (η ) log ϕ (η )dη ≤ − ϕ (η ) log f (η )dη
Demostración:
f (η )
A partir de la desigualdad log( z ) ≤ z − 1 aplicada sobre z =
ϕ (η )
⎛ f (η ) ⎞ f (η )
log ⎜ ⎟ ≤ −1
⎝ ϕ (η ) ⎠ ϕ (η )
Multiplicando por ϕ (η ) e integrando
⎛ f (η ) ⎞
∫ ϕ (η ) log ⎜ ⎟
⎝ ϕ (η ) ⎠
dη ≤ ∫ ( f (η ) − ϕ (η ) ) dη = 0
22
Teorema 3.2: El máximo de la entropía de una variable aleatoria
de la que se conocen n momentos generalizados:
∫
E { gi ( x)} = gi ( x) f ( x)dx = ηi i = 1,..., n
es exponencial:
f ( x) = A exp {−λ1 g1 ( x) − λ2 g 2 ( x) − ... − λn g n ( x)}
Demostración:
La entropía de f(x) viene dada por
∫
H f = − f ( x) log f ( x)dx =
= − ∫ f ( x) [ log A − λ g ( x) − λ g ( x) − ... − λ g ( x) ] dx =
1 1 2 2 n n
= λ1η1 + λ2η 2 + ... + λnη n − log A
23
Cualquier otra función de densidad ϕ(x) que satisficiera las
restricciones daría lugar a una entropía menor:
Teorema 3.1
∫ ∫
H φ = − ϕ ( x) log ϕ ( x)dx ≤ − ϕ ( x) log f ( x)dx =
= − ∫ ϕ ( x) [ log A − λ g ( x) − λ g ( x) − ... − λ g ( x) ] dx =
1 1 2 2 n n
= λ1η1 + λ2η 2 + ... + λnη n − log A = H max ( x)
24
La gausiana es la pdf que minimiza las suposiciones que se
hacen sobre los datos, conocida la potencia.
La medida de no-gausianidad vendrá dada por la neg-entropía:
J ( y ) = H ( ygauss ) − H ( y )
El cálculo exacto de la entropía es difícil a partir únicamente de

los datos: la estimación de py(y) es generalmente poco fiable. En
su lugar, estimaremos la entropía a partir de un desarrollo en
serie alrededor de una gausiana de media cero y varianza
unidad:
exp ( − y 2 / 2 )
1
φ ( y) =
2π
25
⎛ h3 ( y ) h4 ( y ) ⎞
p y ( y ) ≈ φ ( y ) ⎜1 + κ 3 { y} + κ 4 { y} ⎟
⎝ 3! 4! ⎠
κ 3 { y} = E { y 3 }
Polinomios de
κ 4 { y} = E { y 4 } − 3 Hermite
Donde los polinomios de Hermite están definidos como:
∂φ i ( y )
= hi ( y ) φ ( y )
∂y i
y cumplen la propiedad de ortogonalidad según el producto escalar:
⎧1 i = j
∫ φ ( y ) hi ( y ) h j ( y ) dy = ⎨
⎩0 i ≠ j
Véase el anexo para más detalles 26

Substituyendo en la expresión de la entropía:
H ( y ) = − p y (η ) log p y (η )dη = {log (1 + ε ) ≈ ε − ε 2 / 2} ≈

∫
κ 3 { y} κ 4 { y}
2 2
∫
≈ − φ (η ) log φ (η )dη −
2 × 3!
−
2 × 4!
A tener en cuenta:
1. H3(x) y H4(x) son ortogonales a cualquier polinomio de
segundo orden, y ortogonales entre si
2. py(y) está cerca de ser Gausiana, por lo que los monomios
de tercer grado del skewness o la kurtoskis son
despreciables respecto a los monomios de segundo grado
Es la expresión que
Y la neg-entropía viene dada por: hemos estado
maximizando (si la
pdf es simétrica, el
κ3 ( y ) κ4 ( y) ⎧si p y ( y ) es ⎫ κ 4 ( y )
2 2 2
primer término es
J ( y) ≈ + =⎨ ⎬= cero)
12 48 ⎩ simétrica ⎭ 48
27
Una alternativa a la kurtosis es el uso de otras funciones pares de
variación más suave que la potencia cuarta:
J ( y ) ≈ ⎡⎣ E {G ( y )} − E {G (υ )}⎤⎦
2
Variable aleatoria
G( y) = y 4 gaussiana
1
G( y) = log cosh ( ay ) 1≤ a ≤ 2
a
G ( y ) = − exp ( − y 2 2 )
28
ALGORITMO DE GRADIENTE
Optimización w = arg max J ( w T z (t ) )

w
subject to w T w = 1
Algoritmo de gradiente
w n +1 = w n + μ ∇ w n J ( w T z )
w n +1 ← w n +1 (w T
n +1 w n +1 ) ( )
g x =
dG ( x)
dx
∇ w n J (wT z ) = γ E {zg ( w T z )}
Control de Signo:
γ = E {G ( w T z )} − E {G (υ )}
29
ASPECTOS PRÁCTICOS
1. Puede aproximarse la esperanza matemática por un valor
instantáneo
w n +1 = w n + μ γ zg ( wT z (t ) )
2. El término γ juega le mismo papel que el signo de la

kurtosis. Es necesario promediar:
γ (t ) = (1 − α ) γ (t − 1) + α ( G ( wTn z (t ) ) − E {G (υ )} )
3. Si se conoce a priori el signo de γ (p.e., si todas las señales

son supergausianas, como en el caso de señales de voz)
puede fijarse
4. También es posible definir un algoritmo de punto fijo o Fast

30
ICA
FAST ICA
ALGORITMO PARA ACELERAR LA CONVERGENCIA
1. Método de Newton: Series de Taylor Multivariables
⎛ ∂J ( w [ n ]) ⎞ ⎛ ∂ 2 J ( w [ n ]) ⎞
T
J ( w [ n + 1]) = J ( w [ n ]) + ⎜ ( w [ n + 1] − w [ n]) + ( w [ n + 1] − w [ n]) ⎟ ( w [ n + 1] − w [ n ]) ⇒

T
⎟ 1
⎜
⎜ ∂w [ n ] ⎟ 2
⎜ ∂w [ n ]2 ⎟
⎝ ⎠ ⎝ ⎠
⎛ ∂ 2 J ( w [ n ]) ⎞
J ( w [ n + 1]) − J ( w [ n ]) = Δw ∇J ( w [ n ]) + Δw ⎜
T 1 T
⎟ Δw
⎜ ∂w [ n ]2 ⎟
2
⎝ ⎠
2. Si la matriz Hessiana es definida positiva, la función anterior

es de forma parabólica y presenta un mínimo en:
⎛ ∂ 2 J ( w [ n ]) ⎞ ⎛ ∂ 2 J ( w [ n ]) ⎞
−1
∇J ( w [ n ] ) + ⎜ ⎟ Δw = 0 ⇒ Δw = − ⎜ ⎟ ∇J ( w [ n ] )
⎜ ∂w [ n ]2 ⎟ ⎜ ∂w [ n ]2 ⎟
⎝ ⎠ ⎝ ⎠
3. Ecuación de adaptación de pesos.

⎛ ∂ 2 J ( w [ n ]) ⎞
−1
w [ n + 1] = w [ n ] − ⎜ ⎟ ∇J ( w [ n ] )
⎜ ∂w [ n ]2 ⎟
⎝ ⎠
31
4. Aproximación de la función kurtosis
(
J ( w ) = E ⎡⎣G ( w T z (t ) ) ⎤⎦ − ⎡⎣G (ν ) ⎤⎦ )
2
ν : v.a. gaussiana de referencia
5. Función a Minimizar
E ⎡⎣G ( w T z (t ) ) ⎤⎦ + λ ( w T w − 1)
6. Obtención del Gradiente
∇J ( w ) = E ⎡⎣ g ( w T z (t ) ) z (t ) ⎤⎦ + λ w
7. Matriz Hessiana :
⎛ ∂2 J ( w ) ⎞
⎜⎜ ∂w 2 ⎟⎟
⎝ ⎠
= E ⎡⎣ g ' ( w T z (t ) ) z (t )z (t )T ⎤⎦ + λ I ( )
E ⎡⎣ g ' ( w T z (t ) ) ⎤⎦ E ⎡⎣ z (t ) z (t )T ⎤⎦ + λ I = E ⎡⎣ g ' ( w T z (t ) ) ⎤⎦ + λ I ⇒
−1
⎛ ∂2 J ( w ) ⎞
( )
−1
⎜⎜ ⎟⎟ E ⎣⎡ g ' ( w T z (t ) ) ⎦⎤ + λ I
⎝ ∂ w 2
⎠
32
8. Sustituyendo los resultados de 6 y 7 en 3:
−1
⎛ ∂ 2 J ( w [ n ]) ⎞
w [ n + 1] = w [ n ] − ⎜
⎜
⎝ ∂w [ n ] ⎠
2
⎟ ∇J ( w [ n ] ) = w [ n ] −
⎟
(
1
)
E ⎡⎢ g ' w [ n ] z (t ) ⎤⎥ + λ
T ( ( ⎣ ) ⎦ )
E ⎡⎢ g w [ n ] z (t ) z (t ) ⎤⎥ + λ w [ n ] ⇒
T
⎣ ⎦
⎣ ( T
) ⎦ ⎣ ( T
)
w [ n + 1] = E ⎡⎢ g w [ n ] z (t ) z (t ) ⎤⎥ − ⎡⎢ g ' w [ n ] z (t ) ⎤⎥ w [ n ]
⎦
Algoritmo Iterativo Fast ICA

1. Inicialización Aleatoria: wi[0]
Adaptación (i=1,..N) w i [ n + 1] = E ⎡⎣⎢ g ( w i [ n] z(t ) ) z (t ) ⎤⎦⎥ − ⎡⎣⎢ g ' ( w i [ n] z(t ) )⎤⎦⎥ w i [ n]
T T
2.
3. Normalización w i [ n + 1] = w i [ n + 1] / w i [ n + 1]
4. Ortogonalización w i [ n + 1] = ( I − P[w ,w ,..,w ] ) w i [ n + 1]

1 2 i −1
(Proyección en subespacio ortogonal a los anteriores o

método similar)
5. Si no converge go to 2.
33
EXTRACCIÓN DE TODAS LAS COMPONENTES
Con las técnicas vistas hasta el momento es posible extraer la
componente independiente i a partir del vector wi. Para extraer
todas las demás es necesario garantizar que todos los vectores
wi serán ortogonales entre si. Pueden aplicarse dos métodos:
1. Ortogonalización deflacionaria: extraídas d componentes, el

vector wd+1 se restringe a ocupar el espacio ortogonal a w1,…, wd
Los errores cometidos en las primeras
componentes extraídas se van acumulando
2. Ortogonalización simétrica: las n componentes se extraen

simultáneamente: los vectores w1,…, wd se calculan en paralelo y
en cada iteración se ortogonalizan con métodos simétricos:
Método 1 W ← WW ) W
( T −1/ 2
34
Conclusiones/Objetivos
• ICA aplicado a separación de fuentes: Esquema

• Blanqueado fuerza que la matriz de ICA: W sea ortogonal
• Maximizar Kurtosis con restricciones de norma=1 separa señales
independientes (Figura).
• Minimizar gaussianidad al maximizar kurtosis (o minimizar k<0) o
una aproximación de la Kurtosis a través de una función no lineal G
• Diferencia entre algoritmo de gradiente lento (LMS) y rápido
(FastICA)
• Posibilidades de ortogonalización conjunta de todos los vectores.
35
Método 2 W (1) = W (0) W (0)
3 1
W(t + 1) = W(t ) − W(t ) W(t )T W(t )
2 2
Se itera hasta que W (t ) W (t ) ≈ I
T
36
REFERENCIAS
Aapo Hyvärinen, Juha Karhunen, Erkki Oja,

“Independent Component Analysis”,
Ed. Wiley Interscience, 2001
Cocktail party demo:

http://www.cis.hut.fi/projects/ica/cocktail/cocktail_en.cgi
37
ANNEX: Gram-Charlier expansion of a pdf and approximate entropy
The Gram-Charlier expansion is a series that approximate any density function of Note that a random variable is Gaussian if and only if all cumulants of order greater
finite-valued cumulants in the vicinity of a Gaussian density. Let x be a random than 2 are zero. By differenciating k times with respect to x we obtain:
variable whose cumulants are known. Cumulants are defined as the coefficients of the
c + j∞
Taylor series expansion of the second characteristic function: ⎛ ⎞
( − z )k exp ⎜ ( x − x ) z + σ 2 z ⎟ dz = 1k +1 φ( k ) ⎜⎛ x − x ⎟⎞
2
∞
( − z )k
∫ ⎝ 2! ⎠ 2πj σ ⎝ σ ⎠
∑
c − j∞
z2
Φ x ( z ) = ln Ψ x ( z ) = −κ1 z + κ 2 + κk (1.1 k
k d
2! k =3
k! φ( k ) ( x ) = ( −1) φ(0) ( x )
dx k
where κi is the i-th order cumulant of x. In particular
Therefore we can conclude that
κ1 = E { x} = x , κ 2 = E { x − E { x} }=σ
2 2
. Cumulants have two interesting property that
∞
can be used in the derivation of the capacity for the interference channel: the cumulant 1 (0) ⎛ x − x ⎞ 1 ⎛ x−x ⎞
∑σ
ck
(of any order) of a sum of independent random variables is the sum of cumulants; and fx ( x) = φ ⎜ ⎟+ φ( k ) ⎜ ⎟
σ ⎝ σ ⎠ σ k =3
k
⎝ σ ⎠
the cross cumulant of an ensemble of random variables is zero if one of the random
variables is independent of the rest.
which is the Gram-Charlier series expansion of the probability density function. The
Ψ x ( z ) is the characteristic function, the Laplace transform of the probability density
functions φ( k ) ( x ) can be related to the Hermite polynomials1 as:
function:
c + j∞ φ( k ) ( x ) = φ(0) ( x ) hk ( x )
∫
dz
fx ( x) = e Ψx (z)
zx
(1.2) and hence:
2πj
c − j∞
1 (0) ⎛ x − x ⎞ ⎡ ⎛ x − x ⎞⎤
∞
∑σ
ck
a contour integral over the regularity domain c1 ≤ c ≤ c2 . fx ( x) = φ ⎜ ⎟ ⎢1 + hk ⎜ ⎟⎥
σ ⎝ σ ⎠ ⎣⎢ k =3
k
⎝ σ ⎠ ⎦⎥
Equation (1.1) can be rewritten as:
This expression can be used to evaluate the entropy of x. In particular, truncating the
⎛ z2 ⎞ ⎛ ∞
( − z )k ⎞ ⎛ 2 ⎛
2 z ⎞
∞
k ⎞
Ψ x ( z ) = exp ⎜ − xz + σ 2 ⎟ exp ⎜
⎝ 2! ⎠ ⎜
⎝
∑ k =3
κk
k ! ⎟⎠
⎟ = exp ⎜ − xz + σ
⎝
⎟ ⎜1 +
2! ⎠ ⎜⎝ ∑
k =3
ck ( − z ) ⎟
⎟
⎠
(1.3) series to the first two terms:
H ( x) = − f x (η ) log f x (η )dη = {log (1 + ε ) ≈ ε − ε 2 / 2} ≈

∫
where second exponential has been developed in Taylor series in the last equality. The
1 ⎛η − x ⎞ ⎛ 1 (0) ⎛ η − x ⎞ ⎞ κ 32 κ 42
first coefficients are given by: ≈− ∫σ φ ⎟ log ⎜ φ ⎜ ⎟ ⎟ dη − − =
(0)
⎜
⎝ σ ⎠ ⎝σ ⎝ σ ⎠⎠ 2 × 3!× σ 6
2 × 4!× σ 8
κ3 κ4 κ5 κ 6 + 10κ32 κ 32 κ 42
c3 = c4 = c5 = c6 = = H G ( x) − −
3! 3! 3! 6! 2 × 3!× σ 6
2 × 4!× σ 8
By replacing equation (1.3) in (1.2): where the last equality is obtained by recognising that:
c + j∞
z2 ⎞⎛
1. h3(x) and h4(x) are orthogonal to any 2nd order polynomial
k ⎞ dz
∞
⎛
fx ( x) =
∫
c − j∞
exp ⎜ ( x − x ) z + σ 2 ⎟ ⎜ 1 +
⎝ 2! ⎠ ⎜⎝ ∑
k =3
ck ( − z ) ⎟
⎟ 2πj
⎠
2. The pdf to be approximated will be close to a Gaussian, and hence any third
order monomial of κ3 and κ 4 will be much smaller than second order
monomial.
Let us evaluate this integral term by term, but first we need to determine the cumulant
generating function for the Gaussian case:
c + j∞
⎛ z 2 ⎞ dz 1 (0) ⎛ x − x ⎞
∫
1 − x2 2 ⎧1 i = j
G ( x) = exp ⎜ ( x − x ) z + σ 2 ⎟ = φ ⎜ φ(0) ( x ) = 1
⎟ where e
∫φ ( y ) hi ( y ) h j ( y ) dy = ⎨
(0)
The Hermite polynomials are orthogonal in the scalar product: . The first
⎝ 2! ⎠ 2πj σ ⎝ σ ⎠ 2π ⎩0 i ≠ j
c − j∞
Hermite polynomials are: h0 ( y ) = 1 h1 ( y ) = − y h2 ( y ) = 1 + y 2 h3 ( y ) = −3 y − y 3 h4 ( y ) = 3 + 6 y 2 + y 4

Tema3 Teoria 1-2837 PDF

Caricato da

Informazioni sul documento

Titolo originale

Copyright

Formati disponibili

Condividi questo documento

Condividi o incorpora il documento

Opzioni di condivisione

Hai trovato utile questo documento?

Questo contenuto è inappropriato?

Copyright:

Formati disponibili

Tema3 Teoria 1-2837 PDF

Caricato da

Copyright:

Formati disponibili

Tema 3:

3.1 DEFINICIÓN DE ICA

PCA: Búsqueda de nuevas características en las que los

MDA: Búsqueda de nuevas características en las que las clases

ICA: Búsqueda de vectores de proyección en los que las

a partir de la observación de x(t), queremos recuperar s(t).

1. La matriz de mezcla A no tiene memoria y es cuadrada

x(t ) = x '(t ) − E {x '(t )} = As(t ) − AE {s(t )}

1. Las componentes independientes si(t) podrán recuperarse

Mix PCA ICA

s(t ) = W T Λ −1 U H As(t ) = Ps(t )

1.- Señales generadas por las fuentes: Se suponen

2.- Proceso de Mezcla: Matriz A de rango =N

4.- ICA: Transformación Ortogonal. Búsqueda de N(N+1)/2

0.5 0.5 0.5

-0.5 -0.5 -0.5

Escogiendo un vector tal que b A = ei podemos recuperar si(t)

sin necesidad de conocer A, únicamente maximizando la no-

Super − Gausiana kurt { y} > 0

Sub − Gausiana kurt { y} < 0

Criterio para separación de fuentes: optimización de la kurtosis

F ( q1 , q2 ) = q14 + q24 q12 + q22 = 1

La restricción de norma=1 impuesta conduce a que al maximizar

sˆ (t ) = WT Λ −1 Ux(t ) = WT Λ −1 UAs(t ) = Ps(t )

sˆi (t ) = w iT Λ −1 Ux(t ) = w iT Λ −1 UAs(t ) = q iT s(t )

Únicamente aparece la variable matricial w

2. Si el signo de la kurtosis de las fuentes independientes no

Se define la entropía de una variable aleatoria y como:

Fijada la potencia, la pdf gausiana es la que maximiza la entropía:

= λ1η1 + λ2η 2 + ... + λnη n − log A

= λ1η1 + λ2η 2 + ... + λnη n − log A = H max ( x)

El cálculo exacto de la entropía es difícil a partir únicamente de

Donde los polinomios de Hermite están definidos como:

y cumplen la propiedad de ortogonalidad según el producto escalar:

Véase el anexo para más detalles 26

H ( y ) = − p y (η ) log p y (η )dη = {log (1 + ε ) ≈ ε − ε 2 / 2} ≈

Optimización w = arg max J ( w T z (t ) )

2. El término γ juega le mismo papel que el signo de la

3. Si se conoce a priori el signo de γ (p.e., si todas las señales

4. También es posible definir un algoritmo de punto fijo o Fast

J ( w [ n + 1]) = J ( w [ n ]) + ⎜ ( w [ n + 1] − w [ n]) + ( w [ n + 1] − w [ n]) ⎟ ( w [ n + 1] − w [ n ]) ⇒

2. Si la matriz Hessiana es definida positiva, la función anterior

3. Ecuación de adaptación de pesos.

6. Obtención del Gradiente

Algoritmo Iterativo Fast ICA

4. Ortogonalización w i [ n + 1] = ( I − P[w ,w ,..,w ] ) w i [ n + 1]

(Proyección en subespacio ortogonal a los anteriores o

1. Ortogonalización deflacionaria: extraídas d componentes, el

2. Ortogonalización simétrica: las n componentes se extraen

• ICA aplicado a separación de fuentes: Esquema

Aapo Hyvärinen, Juha Karhunen, Erkki Oja,

Cocktail party demo:

H ( x) = − f x (η ) log f x (η )dη = {log (1 + ε ) ≈ ε − ε 2 / 2} ≈

Potrebbero piacerti anche