Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
Aplicaes no Mapeamento
Gentico com Apoio do R
Jlia Maria Pavan Soler
IME/USP
um grande desafio!
Reduo de Dimensionalidade Aplicaes no
Mapeamento Gentico com Apoio do R
Foco na obteno de vetores reducionistas da (co)variao e no entendimento intuitivo de solues clssicas
Reduo de Dimensionalidade Aplicaes no
Mapeamento Gentico com Apoio do R
Foco na obteno de vetores reducionistas da (co)variao e no entendimento intuitivo das solues
Reviso de Metodologias (n >> p): Tentativas de desmascarar a complexidade do problema (espaos vetoriais)
I 0 f ; a
a ' a
a' a
, a p , a' a 1;
f ; p , 1
- Componentes Principais
- Anlise Fatorial
- Anlise Discriminante
- Correlao Cannica
n >> p
Observaes Independentes
Decomposio Espectral de Matrizes (pxp)
Estrutura de Dados Multivariados
Variveis
Unidades Amostrais 1 2 j p
1 Y11 Y12 Y1j Y1p
2 Y21 Y22 Y2j Y2p
Yn p
i Yi1 Yi2 Yij Yip
n Yn1 Yn2 Ynj Ynp
PA
---- Distribuio de Mistura Anlise de QTLs
Fentipos bivariados (Y): SBP e NaSBP
- Anlises Univariadas
- Anlise Bivariada: (NaSBP,SBP)
- Anlise de Covarincia: SBPS = + SBP
- Anlises Univariadas dos Componentes Principais (Y):
DIF = NaSBP-SBP Mdia = (SBP + NASBP)/2
Y1 j
Y2 j
Colunas de Y: Y j ( n1) Espao das Variveis: p pontos em um espao n-dimensional
...
Y
nj n1
Y1
1
Yp1 ... Y 1 S p p ( s jj ' )
1 n i
n 1 i 1
Y Y
Y i
Y R p p Dsjj1/ 2 SDsjj1/ 2 d nn d ii ' (Y ij Yi ' j ) 2
Y n j
p
6
8
4
0.9
0.95
0.95 0.99
2
6
0
Y
Y
4
-2
2 0 4 1
0, 0
0.9
5,5
2
-4
0.99
0 2 1 4
-6
0
2 4 6 8 -6 -4 -2 0 2 4 6
X X
6
20
4
15
2
0.99
10
0
5
Y
0.9
Y
0.95
-2
0
0.95
4 3 9 10
0.9
0, 0 3, 4
-4
-5
3 4 10 25
-6
-10
0.99
-5 0 5 10
-6 -4 -2 0 2 4 6
X
X
Componentes Principais (Pearson, 1901)
Reduo de dimensionalidade (n>p):
Variveis
Unidades Amostrais 1 2 j p p m ; m p
1 Y11 Y12 Y1j Y1p
Yn p Z nm ; Z ij a j ' Y i
n Yn1 Yn2 Ynj Ynp tr()
m
a j ; arg max Var Z ij ,
a j 1 j 1
Cov Z ij ; Z ij ' 0
comunalidade especificidade
Soluo via Componentes Principais (diagonal)
Z E l Y i | i g l g
g ( p1) E Y | i g ; g CovY | i g
i i g
G grupos:
Suposio 1 2 ... G w
Z i l Y i
Var l Y i | i g l ' wl
l l . l g . g . l
Soluo Linear
G
2
G
Situao ideal para
p p b w de Fisher
g 1
g
g 1 l bl discriminao: variveis
l wl l wl l wl com covarincias ENTRE e
Componentes de (co)varincia DENTRO de sinais
ENTRE e DENTRO de grupos contrrios!
Anlise de Componentes Anlise
Principais (ACP) Discriminante (AD)
l ' bl
a ' a
arg max f ; Pj
X2
max a max l arg max f w1 b ; Pj
a' a Pj ; Pj 1 l ' wl Pj ; Pj 1
a j Pj ;
l j w1/ 2 Pj ;
Pj j Pj
b Pj j w Pj
arg max f ; a
a ; a 1
1 arg max f S w1Sb ; Pj
ST Pj ; Pj 1
N 1
1 N i
N 1 i 1
Y
Y Y i
Y
X1
Y
Y.. Y ig Y.. N g Yg . Y.. Yg . Y.. Y ig Yg . Y ig Yg .
G Ng G G Ng
ig
g 1 i 1 g 1 g 1 i 1
ST Sb Sw
Correlao Cannica (Hotteling, 1935, 1936)
Variveis Y1 Variveis Y2 Obter funes (lineares) das p-variveis de Y1 e
Unidades Amostrais Y11 Y1p Y21 Y2q das q-variveis de Y2 com mxima correlao
1 Y111 Y1p1 Y211 Y2q1 Reduo de dimensionalidade (n>(p+q))
n Y11n1 Y1pnp Y21n1 Y2qnq pq m ; m min p; q
11 p p 22 p p
12 pq
11 p p 12 pq
E Y(i p q )1 1 Cov Y i
( p q )1 ( p q )( p q )
22 qq
Matriz de covarincia entre os
dois conjuntos de variveis
2 21q p
a 12 221 21a
a '11a
U a Y1 CovU , V a 12 b
Corr U , V
V b Y2 Var U Var V a 11 a b 22 b 1
b' 2111 12b
b' 22b
a, b; mxima correlao
Correlao Cannica
Interpretao Geomtrica
U1 a1Y1 e1 11
1/ 2
Y1
max a ,b Corr U , V 1 ; 1 1 0
Os autovetores e e f so
V1 b1Y2 f1 221/ 2 Y2
proporcionais.
U1 a1Y1 e1 11
1/ 2
Y1 e1 P1 1/ 2 P1 ' Y1
Componente Principal de Y1
Anlise Discriminante (Yp1 ) arg max f S w1Sb ; Pj ; N 11 Sb S w ; Z P' Y
Pj ; Pj 1
1
arg max f 11
12 221 21 ; Pj ; U P' Y 1
Anlise de Correlao Cannica: Pj ; Pj 1
Y 1 p1
Y( p q )1
arg max f 221 2111
1
12 ; Pj ; V P' Y 2
Y 2 Pj ; Pj 1
q1
Onde esto os vetores reducionistas?
Um grfico pode valer mais que mil palavras mas
Observaes Independentes ENTRE Grupos pode exigir milhares de palavras para constru-lo.
Tukey
Observaes Independentes
Revisar: Escalonamento Multidimensional
Decomposio em Valores Singulares de Matrizes Retangulares
Espaos Duais
Yn p : Matriz de dados multivariados de posto r
Decomposio espectral
r 0
p p Y ' Y V p p V p p Z nr Yn pV pr ' Componentes Principais
0 0
Y2
Y2
2 0 LR Y LR Y 1 / (1 2 ) LR Y 1
Y1 Y2 Y1 Y2
Y1 Y1
Funes do R:
eigen(S) : flexvel na escolha da matriz da forma quadrtica a ser analisada (ex., S com 1/(n-1) ou 1/n, YY)
n>>p
princomp(Y): recebe a matriz Y e realiza a decomposio espectral de S (com divisor n)
prcomp(Y) : recebe a matriz Y e realiza a decomposio espectral de S (com divisor n-1) suporta n<p
Funo Auxiliar v2: avaliar 3 diferentes cenrios sob gerao aleatria de dados independentes ou
correlacionados ENTRE grupos (matriz 12), definidos como:
Preto: reta de MQ Vermelho: vetor de CP Verde: vetor discriminante Azul e cinza: variveis cannicas
Observaes Independentes Observaes Correlacionadas Caso2
Preto: reta de MQ Vermelho: vetor de CP Verde: vetor discriminante Azul e cinza: variveis cannicas
Reduo de Dimensionalidade
Aplicaes no Mapeamento
Gentico com Apoio do R
Jlia Maria Pavan Soler
IME/USP
CovYg pN 1g1g N
Mdias do Grupo 1 Y11 Y12 Y1 p
b p p I g N g N g w p p
g pN g g N g
Tabela de MANOVA
Estimadores Consistentes dos Componentes de
Covarincia de Y (so funes lineares de Sb e Sw):
F.V. g.l. Matriz SQPC
S S
Sb p p N g Yg . Y.. Yg . Y..
G Sw
Grupo (Entre) G-1 w b N 01 b w
g 1
N G G 1 N G
G Ng
N N g2 N
Resduo (Dentro) N-G S w p p Y Yg . Y Yg .
ig ig
g
N0
g 1 i 1 G 1
G Ng
TOTAL N-1 ST p p Y ig Y.. Y ig Y.. Componentes Principais de Y obtidos por meio da
g 1 i 1 decomposio espectral de S w1Sb so os eixos da
anlise discriminante.
Alm destes, outros Componentes Principais
podem ser definidos, como veremos a seguir.
Componentes Principais - Observaes Correlacionadas
Yn p : Dados com correlao dependente do grau de Modelo de Componentes de (Co)Varincia Multivariado
parentesco entre indivduos (famlias) (Oualkacha et al., 2012):
Grupo Unidade Amostral Y1 Y2 Yp
Y ig
u g eig
E Y ig p1 ,
CovY
1 1 Y111 Y112 Y11p p1
1 2 Y121 Y122 Y12p
ig
T p p b w
1 n1 Y1n11 Y1n12 Y1n1p
CovYg pN 2 g N g N g b p p I g N g N g w p p
Mdias do Grupo 1 Y11 Y12 Y1 p g pN g
G 1 YG11 YG12 YG1p
Famlia g 1 2 3 4 5 6 7
G 2 YG21 YG22 YG2p
1 1 0 0
1 2
2 0 1 0
G nG YGn11 YGn11 YGn11
Mdias do Grupo G Y11 Y12 Y1 p 3 1 0
Y.1
2 g 4
Vetor de Mdias Geral Y.2 Y. p 1 0
3 4 5 6 5 1 0
7 6 0 0 0 0 0 1
7 1
Componentes Principais - Observaes Correlacionadas
Estimadores dos componentes de Covarincia de Y: so funes lineares de Sb e Sw (Oualkacha et al., 2012)
Sb /(G 1) S w /( N G ) 1 ( a c )
b w Sw b
( c b / N ) /(G 1) ( a c ) /( N G ) ( N G) ( N G)
bg , a g 2Trace g , bg 2 g jk
G G G G N N
1 g g
N N g , a a g , b bg , c
g 1 g 1 g 1 g 1 N g j 1 k 1
2 g 1g1g c a N ; b N g2
Componentes Principais - Observaes Correlacionadas
(Oualkacha et al., 2012)
Yn p ; p p b p p w p p
a' b a
PCb max a , a' a 1 Direo com mxima variao Entre grupos
a' a
a' w a
PCw max a , a' a 1 Direo com mxima variao Dentro de grupos
a' a
PCT max a
a' a
max a
a' b w a
, a' a 1 Direo com mxima variao Total
a' a a' a
a ' b a a ' b a
PCr max a max a a ' w a 1 Direo com mxima variao Entre grupos e
a' b w a
a' w a
,
mnima variao Dentro
w1 b w1/ 2 b w1/ 2
Componentes Principais - Observaes Correlacionadas
Interpretao Geomtrica (Wang et al., 2007)
1. Para situaes em que n << p: soluo penalizada para realizar a decomposio spectral:
a ' b a
PCH max a b w 0 w1/ 2 b w1/ 2 I 0
a ' w a
a ' b a
PCH r max a
a ' w I p a Wang et al. (2009) props um procedimento de validao cruzada
para estimar o parmetro de regularizao CV
2. Obteno de matrizes de covarincia com varincias negativas (isso pode acontecer tanto via estimativas como via
simulao de dados):
Passo 1: Partio das famlias em dois grupos, Grupo 1 e Grupo 2. Repetir, L=40 vezes;
( 2 )l (1)l
P b Pj
(1) l
1 L 1 / 2
CV max
j
; a j w I p Pj
L l 1 Pj(1)l (w2 )l Pj(1)l
Componentes Principais em Dados de Famlias
Aplicao em Genmica - Ancestralidade
Projeto Coraes de Baependi (MG): 1109 indivduos de 80 famlias e 8.764 SNPs
CP
R
Rg
Componentes Principais em Dados de Famlias
Mapeamento Gentico
Projeto Coraes de Baependi: Identificao de Genes dos Componentes da Sindrome Metablica (doena multifarorial)
Yg ~ N ng p 1g p1 ;2 g b p p I g w p p
a' b a
; PCH a ' Y61
a' w a
Parmetro de regularizao: CV = 302
hg2 2
g
Herdabilidade fenotpica
g e2
Parte IV
Dados de pedigrees de tamanho reduzido (como, dados de irmos): os CP considerando a correlao entre as unidades
amostrais (CPH) ou supondo independncia (Vetores Discriminantes) so muito prximos (de Andrade et al. 2015).
Alm disso, dados de pares de irmos introduz uma estrutura de dados pertinente realizao de outras anlises
Dados Pareados Multivariados
Dados de Pares de Irmos avaliados em p variveis. Dados de Pares de Irmos avaliados nas mesmas p variveis.
Famlia Filho Y1 Y2 Yp Filho 1 Filho 2
Componentes Principais de Herdabilidade (PCH): neste caso aproximadamente a Varivel Discriminante Linear (sob
independncia). O foco desta anlise est em obter direes que maximizem a diferena ENTRE as famlias.
Correlao Cannica Clssica: obter as Variveis Cannicas associadas ao coeficiente de correlao cannico. O foco est
em obter direes que maximizem a correlao DENTRO das famlias (entre irmos).
Grenacre (2003): Dados Pareados Multivariados (p=1 tem-se a clssica estrutura de dados pareados do teste t)
Obtm, em uma nica anlise, dois conjuntos de Componentes Principais das p variveis, CPD e CPS, associados
DIFERENA e SOMA das respostas ENTRE os filhos, respectivamente.
Dados Pareados Multivariados
Dados de Pares de Irmos avaliados nas mesmas p variveis.
Filho 1 = A Filho 2 = B
Famlia Y1 Y2 Yp Y1 Y2 Yp An p Bn p U s sVs ' ; U s 'U s I k Vs 'Vs
1 Y111 Y112 Y11p Y111 Y112 Y11p
2 Y121 Y122 Y12p Y121 Y122 Y12p
A B U d dVd ' ; U d 'U d I k Vd 'Vd
n Y1n11 Y1n12 Y1n1p Y1n11 Y1n12 Y1n1p
k=min(n,p)
A B 1 U s U d s 0 1 Vs Vd Anlise das variveis (A+B) e (A-B) simultaneamente
B A U U d 0 d 2 Vs Vd Vantagem: CP na mesma escala e autovalores ordenados
2 s
CPS k n Vs ' A B ' CP que maximizam a variabilidade devido resposta agregada dos pares de irmos
CPDk n Vd ' A B ' CP que maximizam a variabilidade devido resposta diferencial entre os pares de irmos
Yif g ij eij Y f ~ N N f ; f 2 f g2 I N f e2 Uma varivel (p=1) avaliada em membros de
famlias
f y2 2 f hg2 I N f 1 hg2 ; hg 2
g2
g e2
Cov Y N N I F f
y2 1
N N U pU U hg2 g 1 hg2 I N U
if Yif g if eif CPj U j ' N 1 j-simo componente principal (j=1,...,N)
Yg ~ N ng p 1g p1 ;2 g b p p I g w p p Famlia g
15 famlias de tamanho 56 e
1 2 p=5 variveis
Calcular os Componentes Principais:
a' b a
a ' b a, a ' w a, 3 4 5 6
a' w a 7
Estabelecer propriedades de Espaos Duais para a decomposio espectral sob o modelo linear misto
multivariado de components de (co)varincia:
PCA Generalizado (Allen, 2006): max a j ' R Y ' Y Ra j ; a j ' Ra j 1; a j ' Rak 0
a
Gene
Colaboradores deste trabalho:
Adle Helena Ribeiro, IME/USP: Implementao Computacional das Aulas 1 e 2
Lucas Vitti, IME/USP: Implementao Computacional da Aula 2
Prof. Marcelo Cirilo, UFLA: Modelagem de Matrizes Pareadas