Sei sulla pagina 1di 59

Reduo de Dimensionalidade

Aplicaes no Mapeamento
Gentico com Apoio do R
Jlia Maria Pavan Soler
IME/USP

ESALQ/USP 30/11 a 01/12/2015


Modelar e Entender o SISTEMA de INFORMAO GENTICO

um grande desafio!
Reduo de Dimensionalidade Aplicaes no
Mapeamento Gentico com Apoio do R
Foco na obteno de vetores reducionistas da (co)variao e no entendimento intuitivo de solues clssicas
Reduo de Dimensionalidade Aplicaes no
Mapeamento Gentico com Apoio do R
Foco na obteno de vetores reducionistas da (co)variao e no entendimento intuitivo das solues

Reviso de Metodologias (n >> p): Tentativas de desmascarar a complexidade do problema (espaos vetoriais)

- Componentes Principais - Anlise Fatorial


- Anlise Discriminante - Correlao Cannica

Componentes Principais em Espaos Duais: O Problema n << p, Solues penalizadas


Aplicao: Obteno de Coeficientes de Ancestralidade em Populaes Geneticamente Estruturadas

Formulao do Modelo Linear Misto Polignico Multivariado


Componentes Principais em Dados Correlacionados (coeficientes de ancestralidade, CP de herdabilidade)
Equivalncias com a Anlise de Dados Pareados Multivariados (Contribuio do Prof. Marcelo Cirilo UFLA )
Autosimplificao de Dados de Pedigrees (seleo de indivduos informativos)
Reduo de Dimensionalidade
Racional da reduo de dimensionalidade (nxp ): encontrar aproximaes timas em baixa dimenso.

As solues, em geral, se reduzem otimizao de formas quadrticas (pxp ou nxn).

Seja uma matriz pxp e f(,) uma funo do p , definida como:

I 0 f ; a
a ' a
a' a
, a p , a' a 1;
f ; p , 1

a1a1 ' 1 a1a1 ' 1 ... a1a1 ' p E a1a1 ' 1

a1 e ap so os autovetores associados ao menor e maior autovalor de , p e 1 , respectivamente.

Neste Minicurso discutiremos vrias pesquisas de reduo de dimensionalidade de dados

multivariados que so casos particulares da funo f(,) para diferentes escolhas de .


Parte I
Reviso de Metodologias: Foco na obteno de vetores reducionistas de informao

- Componentes Principais
- Anlise Fatorial
- Anlise Discriminante
- Correlao Cannica

n >> p
Observaes Independentes
Decomposio Espectral de Matrizes (pxp)
Estrutura de Dados Multivariados
Variveis
Unidades Amostrais 1 2 j p
1 Y11 Y12 Y1j Y1p
2 Y21 Y22 Y2j Y2p
Yn p
i Yi1 Yi2 Yij Yip

n Yn1 Yn2 Ynj Ynp

Yij : resposta do i-simo indivduo na j-sima varivel


Exemplos (Manly, 2005)
Objetivo de Anlises Multivariadas:
Caracterizao das unidades amostrais relativamente ao conjunto das p variveis (espao das linhas)
Caracterizao das inter-relaes entre variveis: anlises no espao das colunas
Tamanho amostral: n > 5p e n > 100 (Hair et al., 2005)
Grau de correlao entre as variveis |r| > 30%
Componentes Principais Observaes Independentes
BN: SHR:
X
Normotenso Hipertenso Motivao: Delineamentos F2 com ratos
F1 X F1 BB SS

F1 Identificar genes associados com a regulao da


F2 presso arterial levando em conta o efeito de
F2 interao com o ambiente (resposta diferencial
dieta com sal e ao tratamento com Captopril)
BB BS SS

PA
---- Distribuio de Mistura Anlise de QTLs
Fentipos bivariados (Y): SBP e NaSBP
- Anlises Univariadas
- Anlise Bivariada: (NaSBP,SBP)
- Anlise de Covarincia: SBPS = + SBP
- Anlises Univariadas dos Componentes Principais (Y):
DIF = NaSBP-SBP Mdia = (SBP + NASBP)/2

DIF = NaSBP-Captopril Mdia = (NaSBP+Captopril)/2


Componentes Principais Observaes Independentes
Motivao: Identificar os genes associados
com a Sindrome Metablica (SM): uma
doena multifarorial envolvendo muitas
variveis inter-relacionadas.
Identificar os genes associados com
cada fentipo da SM, sob um modelo
univariado.

Identificar os genes associados com


os fentipos da SM, simultaneamente,
sob um modelo multivariado.

Obter Componentes Principais da


Sindrome Metablica (interpretveis)
e identificar os genes destes
componentes, em geral, por meio de
modelos univariados.
Estrutura de Dados Multivariados
Y11 Y12 ... Y1 p
E Y p1 CovY jj ' p p
Y21 Y22 ... Y2 p
Yn p
... ... ... ...
Dist nn d ii '
Y Y ... Ynp
n1 n 2

Y i ( p1) Yi1 , Yi 2 ,..., Yip



Linhas de Y: Espao dos Indivduos: n pontos em um espao p-dimensional

Y1 j

Y2 j
Colunas de Y: Y j ( n1) Espao das Variveis: p pontos em um espao n-dimensional
...
Y
nj n1

Explorar as propriedades geomtricas de um espao vetorial


Estatsticas Descritivas Multivariadas
Yn p ; E Y p1
Variveis
Unidades Amostrais 1 2 j p
1 Y11 Y12 Y1j Y1p

n Yn1 Yn2 Ynj Ynp CovY p p
Mdia Y1 Y2 Yj Yp
s11 s12 s1 j s1 p
Covarincias s21 s2 j
s22 s2 p
... ... ... ... ... ...
s p1 s p2 s pj s pp

Vetor de Mdias Matriz de Covarincias Matriz de Correlaes Matriz de Distncias


Y1
1
Yp1 ... Y 1 S p p ( s jj ' )
1 n i

n 1 i 1
Y Y
Y i
Y R p p Dsjj1/ 2 SDsjj1/ 2 d nn d ii ' (Y ij Yi ' j ) 2
Y n j
p

Varincia total: tr ( S ) Varincia Generalizada: | S |


Boxplot Bivariado (Everitt, 2007)
d M2 y 1 y p2
Spherical cows grazing in flatland (Walsh, 2006): Caracterizao dos dados via seus eixos de (co)variao

6
8

4
0.9

0.95
0.95 0.99

2
6

0
Y

Y
4

-2
2 0 4 1
0, 0
0.9

5,5
2

-4

0.99


0 2 1 4

-6
0

2 4 6 8 -6 -4 -2 0 2 4 6

X X
6

20
4

15
2

0.99

10
0

5
Y

0.9

Y
0.95
-2

0
0.95

4 3 9 10
0.9

0, 0 3, 4
-4

-5
3 4 10 25
-6

-10
0.99

-5 0 5 10
-6 -4 -2 0 2 4 6
X
X
Componentes Principais (Pearson, 1901)
Reduo de dimensionalidade (n>p):
Variveis
Unidades Amostrais 1 2 j p p m ; m p
1 Y11 Y12 Y1j Y1p
Yn p Z nm ; Z ij a j ' Y i
n Yn1 Yn2 Ynj Ynp tr()

m
a j ; arg max Var Z ij ,
a j 1 j 1


Cov Z ij ; Z ij ' 0

Decomposio Espectral: PP; D j


PP PP I ; I p 0; Pj j Pj

112 12 ... 1 p P1 ' P1


arg max f ; a f ; P1 1 ;
21 222 ... 2 p a 1 P1 ' P1
Y
... 1 P1 P1 ' ... m Pm Pm ' ... p Pp Pp '

f ; P1 ... f ; Pm ... f ; Pp
2
p1 p 2 ... pp
Anlise Fatorial (Spearman, 1904)
Variveis observadas so modeladas em funo de variveis latentes Descrever a estrutura de
dependncia entre as variveis por meio da construo de fatores comuns e especficos

Yn p ; Y1i 1 11 Fi1 12 Fi 2 ... 1m Fim ei1 Y i f i ei ; E f i E ei 0, Covf i , ei 0


Y2i 2 21 Fi1 22 Fi 2 ... 2 m Fim ei 2 Covf i I m , Covei
...
p p pm m p p p
Y p p1 Fi1 p 2 Fi 2 ... pm Fim eip
i
p

comunalidade especificidade
Soluo via Componentes Principais (diagonal)

ij : Matriz de cargas fatoriais


PP P1/ 2 P1/ 2 ' Z ip1 P' Y i Y i PZ i
: Matriz diagonal de fatores especficos

P1/ 2 ,
Diag 2j k 1 jk
m

f F1 ,..., Fm : Vetor de fatores comuns
f i m1 D1j / 2 Z i m1 Fatores comuns: CP padronizados
Anlise Discriminante (Fisher, 1938)
Variveis Obter funes (lineares) das p-variveis
Unidades Amostrais 1 2 j p
1 Y111 Y112 Y11j Y11p
para a mxima separao entre os
2 Y121 Y122 Y12j Y12p grupos:
G1
n1

Y1n11

Y1n12

Y1n1j

Y1n1p
Reduo de dimensionalidade (n>p)
1 Y211 Y212 Y21j Y21p p m ; m min p; G 1
G2 2 Y221 Y222 Y22j Y22p

n2 Y2n21 Y2n22 Y2n2j Y2n2p

Z E l Y i | i g l g
g ( p1) E Y | i g ; g CovY | i g
i i g

G grupos:
Suposio 1 2 ... G w
Z i l Y i
Var l Y i | i g l ' wl

l l . l g . g . l
Soluo Linear
G
2
G
Situao ideal para
p p b w de Fisher
g 1
g
g 1 l bl discriminao: variveis

l wl l wl l wl com covarincias ENTRE e
Componentes de (co)varincia DENTRO de sinais
ENTRE e DENTRO de grupos contrrios!
Anlise de Componentes Anlise
Principais (ACP) Discriminante (AD)

l ' bl
a ' a
arg max f ; Pj
X2
max a max l arg max f w1 b ; Pj
a' a Pj ; Pj 1 l ' wl Pj ; Pj 1

a j Pj ;
l j w1/ 2 Pj ;
Pj j Pj
b Pj j w Pj

arg max f ; a

a ; a 1
1 arg max f S w1Sb ; Pj
ST Pj ; Pj 1
N 1


1 N i

N 1 i 1
Y
Y Y i

Y
X1


Y

Y.. Y ig Y.. N g Yg . Y.. Yg . Y.. Y ig Yg . Y ig Yg .
G Ng G G Ng
ig

g 1 i 1 g 1 g 1 i 1

ST Sb Sw
Correlao Cannica (Hotteling, 1935, 1936)
Variveis Y1 Variveis Y2 Obter funes (lineares) das p-variveis de Y1 e
Unidades Amostrais Y11 Y1p Y21 Y2q das q-variveis de Y2 com mxima correlao
1 Y111 Y1p1 Y211 Y2q1 Reduo de dimensionalidade (n>(p+q))

n Y11n1 Y1pnp Y21n1 Y2qnq pq m ; m min p; q
11 p p 22 p p
12 pq
11 p p 12 pq

E Y(i p q )1 1 Cov Y i
( p q )1 ( p q )( p q )
22 qq
Matriz de covarincia entre os
dois conjuntos de variveis
2 21q p

a 12 221 21a

a '11a
U a Y1 CovU , V a 12 b
Corr U , V
V b Y2 Var U Var V a 11 a b 22 b 1
b' 2111 12b

b' 22b
a, b; mxima correlao
Correlao Cannica
Interpretao Geomtrica

U1 a1Y1 e1 11
1/ 2
Y1
max a ,b Corr U , V 1 ; 1 1 0
Os autovetores e e f so
V1 b1Y2 f1 221/ 2 Y2
proporcionais.

U1 a1Y1 e1 11
1/ 2
Y1 e1 P1 1/ 2 P1 ' Y1
Componente Principal de Y1

Fator Principal de Y1 (CP padronizado)

A varivel cannica U1 resulta de uma rotao orthogonal (via o autovetor P1 e


determinada por 11) do CP padronizado seguida por outra rotao orthogonal
(via o autovetor e1 e determinada por 111/ 2 1222121111/ 2 )
Vetores Reducionistas Suposies: n > p e Observaes independentes

Componentes Principais (Yp1 )


arg max f ; Pj ; Z P' Y
Pj ; Pj 1

Anlise Fatorial (Yp1 ) : soluo via Componentes Principais (padronizados) f i 1/ 2 P' Y i


Anlise Discriminante (Yp1 ) arg max f S w1Sb ; Pj ; N 11 Sb S w ; Z P' Y
Pj ; Pj 1

1
arg max f 11
12 221 21 ; Pj ; U P' Y 1
Anlise de Correlao Cannica: Pj ; Pj 1

Y 1 p1
Y( p q )1


arg max f 221 2111
1

12 ; Pj ; V P' Y 2
Y 2 Pj ; Pj 1
q1
Onde esto os vetores reducionistas?
Um grfico pode valer mais que mil palavras mas
Observaes Independentes ENTRE Grupos pode exigir milhares de palavras para constru-lo.
Tukey

Exemplo 1 Exemplo 2 Exemplo 3 Caso 1

1 0.6 1 0.7 1 0.65 1 0.8


22 ; 0.4 0.4 22 ; 0.8 0.4 1 ; 2
0.6 1 0.7 1 0.65 1 0.8 1
1 2,2 2 3,3 1 2,2 2 2,3 0.25 0.25; 1 2,2 2 2,1
Onde esto os vetores reducionistas?
Um grfico pode valer mais que mil palavras mas
Observaes Correlacionadas ENTRE Grupos pode exigir milhares de palavras para constru-lo.
(matriz gerada aleatoriamente) Tukey

Exemplo 1 Exemplo 2 Exemplo 3 v1

1 0.6 1 0.7 1 0.65 1 0.8


22 ; 0.4 0.4 22 ; 0.8 0.4 1 ; 2
0.6 1 0.7 1 0.65 1 0.8 1
1 2,2 2 3,3 1 2,2 2 2,3 0.25 0.25; 1 2,2 2 2,1
Onde esto os vetores reducionistas?
Um grfico pode valer mais que mil palavras mas
Observaes Correlacionadas ENTRE Grupos pode exigir milhares de palavras para constru-lo.
(matriz gerada aleatoriamente) Tukey

Exemplo 1 Exemplo 2 Exemplo 3-v2

1 0.6 1 0.7 1 0.65 1 0.65


22 ; 0.4 0.4 22 ; 0.8 0.4 1 ; 2
0.6 1 0.7 1 0.65 1 0.65 1
1 2,2 2 3,3 1 2,2 2 2,3 0.25 0.25; 1 2,2 2 2,1
Parte II
Componentes Principais em Espaos Duais: O Problema n << p

Observaes Independentes
Revisar: Escalonamento Multidimensional
Decomposio em Valores Singulares de Matrizes Retangulares
Espaos Duais
Yn p : Matriz de dados multivariados de posto r

Decomposio espectral
r 0
p p Y ' Y V p p V p p Z nr Yn pV pr ' Componentes Principais
0 0

r 0 Escalonamento Multidimensional: as coordenadas


Bnn YY ' U nn U 'nn
B bii ' f (d )2
ii ' principais so obtidas a partir da Matriz de Distncias
0 0 (Y: Dist. Euclidiana ou Y padronizado: Dist. de Penrose)

Decomposio em valores singulares


1r/ 2 0 Equivalncia entre as Coordenadas Principais e os
Yn p U nn V p p Yn pV pr U nn 1/ 2

0 Componentes Principais (Mardia, 1979)


r
0
Quando p >> n os Componentes Principais de Y podem ser calculados a
partir da decomposio espectral da matriz B (nxn), de dimenso muito
menor que (ganho em tempo computacional).
Espaos Duais Problema n << p
Aplicao em Genmica
Tamanhos amostrais das 11 populaes
HapMap mais a brasileira
n = 1.124
p = 365.116 variveis (SNPs) comuns
distribudas nos 22 cromossomos

Obter os Componentes Principais de Ancestralidade para a Caracterizao da


Histria Gentica de Populaes Mundiais
Espaos Duais Problema n << p
Aplicao em Genmica
Componentes Principais de Ancestralidade Caracterizao da Em geral as anlises multivariadas
Histria de Miscigenao da Populao Brasileira so deduzidas a partir da forma
quadrtica YY (pxp).

n >> p YY (pxp) matriz densa e


YY (nxn) esparsa

n << p YY (nxn) matriz densa e


YY (pxp) matriz esparsa

Anlise usando a decomposio em


valores singulares de YY (nxn)
Coeficientes de Ancestralidade: Problema n << p (??)
Marcadores genticos informativos para
ancestralidade:

Nature Genetics 38, 2006


SNPs da Affymetrics 6.0: 106 AIMs

BMC Genetics 10:39, 2009


Conjunto reduzido: 93 AIMs

Human Mutat 30, 2009


Conjunto reduzido: 24 a 12 AIMs

Tendncia que se alterna entre Painis


maximais e minimais de marcadores
genticos.
O que reduo de dimensionalidade!
Componentes Principais no Mapeamento Gentico
H genes com padres de resposta que somente
so identificados nas anlises Multivariadas ou em
BB SS Componentes Principais dos fentipos:
F1
CP1: funo NASBP-SBP
identificou novos QTLs no Chr5 e no Chr 1
F2
associados resposta ao sal em ratos F2
BB BS SS
CP2: funo NASBP-Captopril
identificou um novo QTL no Chr8 associado
resposta ao medicamento em ratos F2

SBP, NASBP 0.423,


1 1.033, 2 3.0523
12 1 2 0
NASBP, Captopril 0.573,
1 6,041, 2 0,09
Anlise Multivariada x Univariada
Dados com Observaes Independentes:
(a) 12 > 0 (b) 12 <0
Jiang and Zeng mostram que:

12 0 LRY LRY 1 LRY 2

Y2
Y2

2 0 LR Y LR Y 1 / (1 2 ) LR Y 1
Y1 Y2 Y1 Y2
Y1 Y1

LRY Mximo( LRY 1 , LRY 2 )

12 1 2 0 LRY LRY 1 LRY 2


Y1 Y2 Y1 Y2
Y1 Y2 Y1 Y2

Maior poder da anlise multivariada


Mangin (1998) prope uma estatstica
Simulao: Grfico de Disperso e Perfis individuais
alternativa estatstica LRY multivariada para o
Situaes em que a condio 121 2 < 0 est satisfeita
efeito de QTLs (na posio ) que depende
somente dos m Componentes Principais:
A vantage da anlise multivariada maior quando h m
pontos (ou perfis) atpicos! T sup 0 L T(v )
v 1
Reduo de Dimensionalidade Apoio do R
Oficina 1

Funes do R:

eigen(S) : flexvel na escolha da matriz da forma quadrtica a ser analisada (ex., S com 1/(n-1) ou 1/n, YY)
n>>p
princomp(Y): recebe a matriz Y e realiza a decomposio espectral de S (com divisor n)

prcomp(Y) : recebe a matriz Y e realiza a decomposio espectral de S (com divisor n-1) suporta n<p

n>>p svd(Y): recebe a matriz Y e realiza a decomposio em valores singulares de YY e de YY .


n<<p Para comparar com eigen preciso padronizar as correspondentes matrizes de autovalores
Reduo de Dimensionalidade Apoio do R - Oficina 1
Gerar dados e buscar maior entendimento das solues de reduo de dimensionalidade clssicas
Funo Auxiliar v1: Avaliar 3 diferentes cenrios sob gerao aleatria de dados independentes ou
correlacionados ENTRE grupos (matriz 12), definidos como:
Gerada aleatoriamente e sob transformao para p.d. (metodologia de
Rebonato and Jackel (2000) implementada no R)

Exemplo 1 Exemplo 2 Exemplo 3


1 0.6 1 0.7 1 0.65 1 0.8
22 ; 0.4 0.4 22 ; 0.8 0.4 1 ; 2
0.6 1 0.7 1 0.65 1 0.8 1
1 2,2 2 3,3 1 2,2 2 2,3 0.25 0.25; 1 2,2 2 2,1

Funo Auxiliar v2: avaliar 3 diferentes cenrios sob gerao aleatria de dados independentes ou
correlacionados ENTRE grupos (matriz 12), definidos como:

Exemplo 1 Exemplo 2 Exemplo 3


1 0.6 1 0.7 1 0.65 1 0.65
22 ; 0.4 0.4 22 ; 0.8 0.4 1 ; 2
0.6 1 0.7 1 0.65 1 0.65 1
1 2,2 2 3,3 1 2,2 2 2,3 0.25 0.25; 1 2,2 2 2,1
Observaes Independentes Observaes Correlacionadas Caso 1

Preto: reta de MQ Vermelho: vetor de CP Verde: vetor discriminante Azul e cinza: variveis cannicas
Observaes Independentes Observaes Correlacionadas Caso2

Preto: reta de MQ Vermelho: vetor de CP Verde: vetor discriminante Azul e cinza: variveis cannicas
Reduo de Dimensionalidade
Aplicaes no Mapeamento
Gentico com Apoio do R
Jlia Maria Pavan Soler
IME/USP

ESALQ/USP 30/11 a 01/12/2015


Tpicos Especiais em Anlise Multivariada
Foco na obteno de vetores reducionistas da (co)variao e no entendimento intuitivo das solues

Reviso de Metodologias (n >> p): Tentativas de desmascarar a complexidade do problema

- Componentes Principais - Anlise Fatorial


- Anlise Discriminante - Correlao Cannica

Componentes Principais em Espaos Duais: O Problema n << p, Solues penalizadas


Obteno de Coeficientes de Ancestralidade em Populaes Geneticamente Estruturadas

Formulao do Modelo Linear Misto Polignico Multivariado


Componentes Principais em Dados Correlacionados (obteno de coeficientes de ancestralidade)
Equivalncias com Anlise de Dados Pareados Multivariados (Contribuio do Prof. Marcelo Cirilo UFLA )
Autosimplificao de Dados de Pedigrees
Parte III
Componentes Principais em Dados Correlacionados (unidades amostrais): Formulao do
Modelo Linear Misto Multivariado

Casos: n > p e n << p

Formulao de Modelos Lineares Mistos Multivariados


- Matrizes de Covarincia Uniforme
- Matrizes de Covarincia mais Gerais: Estrutura Familiar (parentesco) e
dados de Pedigrees Gerais
Componentes Principais - Observaes Correlacionadas

Konishi and Rao (1992): Aplicao em dados de irmos.


Yn p : Dados com correlao entre as unidades Considera correlao uniforme e desbalanceamento
amostrais (dentro do grupo)

Grupo Unidade Amostral Y1 Y2 Yp


1 1 Y111 Y112 Y11p
1 2 Y121 Y122 Y12p

1 n1 Y1n11 Y1n12 Y1n1p
Mdias do Grupo 1 Y11 Y12 Y1 p Oualkacha et al. (2012): Aplicao em dados de famlias (grupos).
Considera o grau de relacionamento
G 1 YG11 YG12 YG1p
G 2 YG21 YG22 YG2p

G nG YGn11 YGn11 YGn11
Mdias do Grupo G Y11 Y12 Y1 p
Vetor de Mdias Geral Y.1 Y.2 Y. p
Componentes Principais - Observaes Correlacionadas
Yn p : Dados com correlao uniforme e Modelo de Componentes de (Co)Varincia Multivariado
Grupos desbalanceados (Konishi and Rao, 1992):
Grupo Unidade Amostral Y1 Y2 Yp
Y ig
u g eig

E Y ig p1 ,
CovY
1 1 Y111 Y112 Y11p p1
1 2 Y121 Y122 Y12p
ig
T p p b w

1 n1 Y1n11 Y1n12 Y1n1p

CovYg pN 1g1g N
Mdias do Grupo 1 Y11 Y12 Y1 p
b p p I g N g N g w p p
g pN g g N g

G 1 YG11 YG12 YG1p


G 2 YG21 YG22 YG2p
b p p b p p ... b p p w p p 0 ... 0

G nG YGn11 YGn11 YGn11 b p p b p p ... b p p 0 w p p ... 0

Mdias do Grupo G Y11 Y12 Y1 p ... ... ... ... ... ... ... ...
Vetor de Mdias Geral Y.1 Y.2 Y. p
b b p p ... b p p 0 0 ... w p p
p p
Konishi and Rao (1992): Aplicao a dados de
irmos para muitas famlias. CovY pN pN
Diag 1g1g ; g 1,..., G b p p I N w p p
Componentes Principais - Observaes Correlacionadas
Modelo de Componentes de (Co)Varincia Multivariado: (Konishi and Rao, 1992)
Ypig1 u g eig CovY pN pN
Diag 1g1g ; g 1,..., G b p p I N w p p

Tabela de MANOVA
Estimadores Consistentes dos Componentes de
Covarincia de Y (so funes lineares de Sb e Sw):
F.V. g.l. Matriz SQPC
S S
Sb p p N g Yg . Y.. Yg . Y..
G Sw
Grupo (Entre) G-1 w b N 01 b w
g 1
N G G 1 N G


G Ng
N N g2 N
Resduo (Dentro) N-G S w p p Y Yg . Y Yg .
ig ig
g
N0
g 1 i 1 G 1


G Ng
TOTAL N-1 ST p p Y ig Y.. Y ig Y.. Componentes Principais de Y obtidos por meio da
g 1 i 1 decomposio espectral de S w1Sb so os eixos da
anlise discriminante.
Alm destes, outros Componentes Principais
podem ser definidos, como veremos a seguir.
Componentes Principais - Observaes Correlacionadas
Yn p : Dados com correlao dependente do grau de Modelo de Componentes de (Co)Varincia Multivariado
parentesco entre indivduos (famlias) (Oualkacha et al., 2012):
Grupo Unidade Amostral Y1 Y2 Yp
Y ig
u g eig

E Y ig p1 ,
CovY
1 1 Y111 Y112 Y11p p1
1 2 Y121 Y122 Y12p
ig
T p p b w

1 n1 Y1n11 Y1n12 Y1n1p
CovYg pN 2 g N g N g b p p I g N g N g w p p
Mdias do Grupo 1 Y11 Y12 Y1 p g pN g


G 1 YG11 YG12 YG1p
Famlia g 1 2 3 4 5 6 7
G 2 YG21 YG22 YG2p
1 1 0 0
1 2
2 0 1 0
G nG YGn11 YGn11 YGn11
Mdias do Grupo G Y11 Y12 Y1 p 3 1 0
Y.1
2 g 4
Vetor de Mdias Geral Y.2 Y. p 1 0
3 4 5 6 5 1 0

7 6 0 0 0 0 0 1
7 1
Componentes Principais - Observaes Correlacionadas
Estimadores dos componentes de Covarincia de Y: so funes lineares de Sb e Sw (Oualkacha et al., 2012)

Sb /(G 1) S w /( N G ) 1 ( a c )
b w Sw b
( c b / N ) /(G 1) ( a c ) /( N G ) ( N G) ( N G)


bg , a g 2Trace g , bg 2 g jk
G G G G N N
1 g g

N N g , a a g , b bg , c
g 1 g 1 g 1 g 1 N g j 1 k 1

Solues equivalentes: Konishi and Rao (1992) e Oualkacha et al. (2012)

2 g 1g1g c a N ; b N g2
Componentes Principais - Observaes Correlacionadas
(Oualkacha et al., 2012)
Yn p ; p p b p p w p p

a' b a
PCb max a , a' a 1 Direo com mxima variao Entre grupos
a' a

a' w a
PCw max a , a' a 1 Direo com mxima variao Dentro de grupos
a' a

PCT max a
a' a
max a

a' b w a
, a' a 1 Direo com mxima variao Total
a' a a' a

a ' b a a ' b a
PCr max a max a a ' w a 1 Direo com mxima variao Entre grupos e


a' b w a
a' w a
,
mnima variao Dentro

w1 b w1/ 2 b w1/ 2
Componentes Principais - Observaes Correlacionadas
Interpretao Geomtrica (Wang et al., 2007)

Elipses verticais: correspondem variabilidade DENTRO dos grupos (dados de famlias)


Elipse maior: corresponde variao ENTRE famlias
Para situaes em que n << p Wang et al. (2007) propos uma soluo penalizada ( um parmetro de regularizao):
a ' b a
PCr max a

=0:: soluo no penalizada
a ' w I p a =: soluo para b.(maximizao entre famlias)
Componentes Principais de Herdabilidade
Problemas:

1. Para situaes em que n << p: soluo penalizada para realizar a decomposio spectral:

a ' b a
PCH max a b w 0 w1/ 2 b w1/ 2 I 0
a ' w a
a ' b a
PCH r max a

a ' w I p a Wang et al. (2009) props um procedimento de validao cruzada
para estimar o parmetro de regularizao CV

2. Obteno de matrizes de covarincia com varincias negativas (isso pode acontecer tanto via estimativas como via
simulao de dados):

UU ' ; Diag ( j ); j 0 para alguns js Uso de procedimentos que substituem estes


valores por 0 (Anemiya, 1985)
Decomposio Espectral Penalizada
Para situaes em que n << p: Soluo penalizada para realizar a decomposio spectral de 1
w b
(Wang et al.; 2009)

Passo 1: Partio das famlias em dois grupos, Grupo 1 e Grupo 2. Repetir, L=40 vezes;

Passo 2: Grupo1: para =0.01, obter o j-simo autovetor Pj de


(1) l
w I p
1 / 2
.

Ser necessrio substituir os autovalores negativos por 0 (Amemiya, 1985).

Grupo2: obter as estimativas b( 2 )l , (w2 )l ;


Passo 3. Repetir para = (0.01, 2, 4, ..., 1000). O parmetro de regularizao escolhido como:

( 2 )l (1)l
P b Pj

(1) l
1 L 1 / 2
CV max
j
; a j w I p Pj

L l 1 Pj(1)l (w2 )l Pj(1)l
Componentes Principais em Dados de Famlias
Aplicao em Genmica - Ancestralidade
Projeto Coraes de Baependi (MG): 1109 indivduos de 80 famlias e 8.764 SNPs

CP sob Independncia (R) CP de Herdabilidade (Rg)

Proporo da varincia explicada pelos CP

CP

R
Rg
Componentes Principais em Dados de Famlias
Mapeamento Gentico
Projeto Coraes de Baependi: Identificao de Genes dos Componentes da Sindrome Metablica (doena multifarorial)

Calcular o Componente Principal de


Herdabilidade a partir dos 6 fentipos:


Yg ~ N ng p 1g p1 ;2 g b p p I g w p p
a' b a
; PCH a ' Y61
a' w a
Parmetro de regularizao: CV = 302

Fentipo Obesid Trinc Glicose Triglicrides HDL SBP DBP PCH

hg2 0,164 0,118 0,352 0,302 0,177 0,132 0,335


(Y,PCH) -0,23 -0,34 -0,93 -0,28 -0,35 -0,39

hg2 2
g
Herdabilidade fenotpica
g e2
Parte IV

Estrutura de Dados Multivariados Correlacionados


Modelo Misto Multivariado Polignico: obteno dos Componentes Principais de Herdabilidade
(extenso da Anlise Discriminante Linear)

Equivalncias com a Anlise de Dados Pareados Multivariados


(Contribuio do Prof. Marcelo Cirilo UFLA )
Dados de Grandes Famlias Dados de Pares de Irmos
Dados de grandes Famlias (Pedigrees) Dados de Ncleos Familiares com 2 filhos (pares
avaliadas em p variveis de irmos) avaliados em p variveis

Famlia Unidade Amostral Y1 Y2 Yp Famlia Filho Y1 Y2 Yp


1 1 Y111 Y112 Y11p
1 1 Y111 Y112 Y11p
1 2 Y121 Y122 Y12p
1 2 Y121 Y122 Y12p


n 1 Yn11 Yn12 Yn1p
1 n1 Y1n11 Y1n12 Y1n1p n 2 Yn21 Yn22 Yn2p

G 1 YG11 YG12 YG1p
Ainda com dados de pares de irmos o interesse pode ser a
G 2 YG21 YG22 YG2p
obteno de Componentes Principais das p variveis com a

propriedade de maximizar a herdabilidade multivariada (CPH),
G nG YGn11 YGn11 YGn11 como feito anteriormente para grandes famlias.

Dados de pedigrees de tamanho reduzido (como, dados de irmos): os CP considerando a correlao entre as unidades
amostrais (CPH) ou supondo independncia (Vetores Discriminantes) so muito prximos (de Andrade et al. 2015).
Alm disso, dados de pares de irmos introduz uma estrutura de dados pertinente realizao de outras anlises
Dados Pareados Multivariados
Dados de Pares de Irmos avaliados em p variveis. Dados de Pares de Irmos avaliados nas mesmas p variveis.
Famlia Filho Y1 Y2 Yp Filho 1 Filho 2

1 1 Y111 Y112 Y11p Equivalen- Famlia Y1 Y2 Yp Y1 Y2 Yp


1 Y111 Y112 Y11p Y111 Y112 Y11p
1 2 Y121 Y122 Y12p
temente 2 Y121 Y122 Y12p Y121 Y122 Y12p

n 1 Yn11 Yn12 Yn1p
n Y1n11 Y1n12 Y1n1p Y1n11 Y1n12 Y1n1p
n 2 Yn21 Yn22 Yn2p

Opes de Anlise dos Dados de Pares de Irmos:

Componentes Principais de Herdabilidade (PCH): neste caso aproximadamente a Varivel Discriminante Linear (sob
independncia). O foco desta anlise est em obter direes que maximizem a diferena ENTRE as famlias.

Correlao Cannica Clssica: obter as Variveis Cannicas associadas ao coeficiente de correlao cannico. O foco est
em obter direes que maximizem a correlao DENTRO das famlias (entre irmos).

Grenacre (2003): Dados Pareados Multivariados (p=1 tem-se a clssica estrutura de dados pareados do teste t)
Obtm, em uma nica anlise, dois conjuntos de Componentes Principais das p variveis, CPD e CPS, associados
DIFERENA e SOMA das respostas ENTRE os filhos, respectivamente.
Dados Pareados Multivariados
Dados de Pares de Irmos avaliados nas mesmas p variveis.
Filho 1 = A Filho 2 = B
Famlia Y1 Y2 Yp Y1 Y2 Yp An p Bn p U s sVs ' ; U s 'U s I k Vs 'Vs
1 Y111 Y112 Y11p Y111 Y112 Y11p
2 Y121 Y122 Y12p Y121 Y122 Y12p
A B U d dVd ' ; U d 'U d I k Vd 'Vd
n Y1n11 Y1n12 Y1n1p Y1n11 Y1n12 Y1n1p
k=min(n,p)

A B 1 U s U d s 0 1 Vs Vd Anlise das variveis (A+B) e (A-B) simultaneamente
B A U U d 0 d 2 Vs Vd Vantagem: CP na mesma escala e autovalores ordenados
2 s

CPS k n Vs ' A B ' CP que maximizam a variabilidade devido resposta agregada dos pares de irmos

CPDk n Vd ' A B ' CP que maximizam a variabilidade devido resposta diferencial entre os pares de irmos

Seleo das famlias pelo Biplot da Soma e da Diferena


Aplicaes no Mapeamento de Genes: Seleo de variveis relevantes para cada efeito
Anlise de Dados de Expresso Gnica (Microarrays)
Parte IV

Estrutura de Dados Multivariados Correlacionados


Modelo Misto Multivariado Polignico: obteno dos Componentes Principais de Herdabilidade
(extenso da Anlise Discriminante Linear)

Equivalncias com a Anlise de Dados Pareados Multivariados


(Contribuio do Prof. Marcelo Cirilo UFLA )
Parte V
Reduo de Dimensionalidade ou Simplificao da Estrutura de Correlao das Unidades Amostrais
em Dados de Famlias (Pedigrees gerais)

Componentes Principais das Unidades Amostrais Correlacionadas (grau de parentesco)

Decomposio espectral da matriz de


covarincia das N unidades amostrais:
n
N N U ' U u j ' u j j
j 1

Seleo de indivduos associados com os


maiores autovalores seleo de indivduos
mais informativos para mapeamento gentico
Componentes Principais de Unidades Amostrais Correlacionadas
Decomposio espectral da Matriz de Covarincias NxN do modelo linear misto polignico (Blangero et al., 2013)


Yif g ij eij Y f ~ N N f ; f 2 f g2 I N f e2 Uma varivel (p=1) avaliada em membros de
famlias


f y2 2 f hg2 I N f 1 hg2 ; hg 2
g2
g e2

Cov Y N N I F f
y2 1

N N U pU U hg2 g 1 hg2 I N U

if Yif g if eif CPj U j ' N 1 j-simo componente principal (j=1,...,N)

Vantagem: Seleo de indivduos informativos


Simplificao da Verossimilhana multivariada para a soma de termos no correlacionados e ordenados
Componentes Principais - Observaes Correlacionadas
Oficina 2 - R
Gerar dados com estrutura familiar de variveis da Sindrome Metablica (uma doena multifarorial)


Yg ~ N ng p 1g p1 ;2 g b p p I g w p p Famlia g
15 famlias de tamanho 56 e
1 2 p=5 variveis
Calcular os Componentes Principais:

a' b a
a ' b a, a ' w a, 3 4 5 6
a' w a 7

Exemplo1: Fentipos com baixa herdabilidade (10% a 40%)

Exemplo 2: Fentipos com herdabilidade de moderada a


alta (50% a 90%)

Exemplo 3: Herdabilidades altas (90%)


Reduo de Dimensionalidade no Mapeamento Gentico
Perspectivas
Propor Estudos mais Gerais de Simulao de Dados: ganhar mais entendimento das solues/problemas

Estabelecer propriedades de Espaos Duais para a decomposio espectral sob o modelo linear misto
multivariado de components de (co)varincia:

n << p: YY matriz densa e YY matriz esparsa e estes espaos esto conectados

Unificar o Modelo Linear Misto e a Anlise de Matrizes Pareadas Mltiplas.

Observaes Independentes Observaes Correlacionadas Estruturas mais complexas (tensores)

Reduo de dimensionalidade em situaes mais gerais, em que as premissas clssicas no se aplicam:

PCA Generalizado (Allen, 2006): max a j ' R Y ' Y Ra j ; a j ' Ra j 1; a j ' Rak 0
a

Reduo de Dimensionalidade: Mtodos no Lineares (Isomap, Automapas de Laplace,)


Reduo de Dimensionalidade Aplicaes no
Mapeamento Gentico

Os problemas atuais de pesquisa


genmica esto em espaos de alta
dimenso.

Passo1. Foco na obteno de vetores


reducionistas da (co)variao e no
entendimento intuitivo das solues clssicas.

Passo2. Propor mtricas que mais


adequadamente permitam aproximaes
timas ao problema, em baixa dimenso.
Bibliografia
Allen, G. and Savatic, MM .(2011). Sparse non-negative generalized PCA with applications to metabolomics Genevera I. Biostatistics
27(21): 30293035.
Blangero J et al(2013) A kernel of truth: statistical advances in polygenic variance component models for complex human pedigrees.
Adv. in Genetics vol.8.
de Andrade et al. (2015). Global Individual Ancestry Using Principal Components for Family Data. Human Heredity 80: 1-11.
Everitt, B. (2005). An R and S-Plus Companion to Multivariate Analysis. Springer.
Fisher, R. A. (1938). The Statistical Utilization of Multiple Measurements. Annals of Eugenics 8: 368-378.
Giolo et al. (2011). Brazilian urban population genetic structure reveals a high degree of admixture. European Journal of Human
Genetics 19: 111-116.
Gower, JC. (1966). Some distance properties of latent root and vector methods used in multivariate analysis. Biometrika 53: 325338.
Greenacre, M. (2003). Singular value decomposition of matched matrices. J. Appl Statist 30(10): 11011113.
Hotelling, H. (1935). The most predictable criterion. J. Educ. Psych. 26: 139-142.
_________ . (1936). Relations between two sets of variates. Biometrika 28: 321-377.
Jiang, C, Zeng, J.B. (1995). Multiple Trait Analysis of Genetic Mapping for Quantitative Trait Loci. Genetics 140:1111-1127
Konishi, S and Rao, CR. (1992). Principal component analysis for multivariate familial data. Biometrika 79: 631-641.
Pearson, (1901).
Mangin, B, Thoquet, P, Grimsley, N (1998). Pleiotropic QTL Analysis, Biometrics 54:88-99
Mardia KV, Bibby JM, Kent JT. (1979). Multivariate analysis. London, Academic Press.
Oualkacha, K, Labbe, A, Ciampi, A, Roy, MA and Maziade, M. (2012). Principal components of heritability for high dimension
quantitative traits and general pedigrees. Journal of Statistical Applications in Genetics and Molecular Biology 11, Issue 2, Article 4.
R Development Core Team. (2014). R: A language and environment for statistical computing. http://www.R-project.org.
Spearman, C. (1904). General intelligence objectively determined and measured. American Journal of Psychology 15: 201-293.
Wang Y, Fang Y, Jin M. (2007). A ridge penalized principal-components approach based on heritability for high-dimensional data. Hum
Heredity 64: 182-191.
Jlia Maria Pavan Soler
pavan@ime.usp.br

Gene
Colaboradores deste trabalho:
Adle Helena Ribeiro, IME/USP: Implementao Computacional das Aulas 1 e 2
Lucas Vitti, IME/USP: Implementao Computacional da Aula 2
Prof. Marcelo Cirilo, UFLA: Modelagem de Matrizes Pareadas

Potrebbero piacerti anche