Sei sulla pagina 1di 8

Universidad Nacional de Colombia

Facultad de Ciencias - Departamento de Estadı́stica


Maestrı́a en Ciencias - Estadı́stica
Estadı́stica genómica
Yesica Alejandra Salas Cardenas 1
Bogotá, 14 de Septiembre de 2018

Taller 2 de Estadı́stica genómica

LECTURA Y NORAMLIZACIÓN DE DATOS


Sobre los datos de su escogencia realice los siguientes pasos:
1. Consulte la descripción del experimento en NCBI (GEO datasets) y descrı́balo brevemente

DESCRIPCIÓN DEL PROBLEMA

GSE54216
”Expression data of articular and growth plate cartilage zones in 0-day-old rat
proximal tibial epiphysis”

Este experimento se tomaron como individuos ratas de 10 dı́as para comparar los perfiles de ex-
presión génica en capas individuales de cartilago de placa de crecimiento articular, se microdisec-
cionaron manualmente Epı́fisis tibiales proximales en zonas de cartilago articular superficial(SZ) y
en zonas de reposo de cartilago de crecimeinto (FZ) de las cuales se hace la extracción total del
ARN y se hacen micorarreglos-Affymetrix.

El experimento se desarrolla en 12 muestras de las cuales 4 muestras SZ se tomaron de los animales


5-8, respectivamente, 4 muestras de IDZ y 4 de RZ se tomaron cada una de los animales 1-2, 3-4,
5-6 y 7-8, respectivamente.

2. Haga estadı́sticas descriptivas y de calidad (boxplot, heatmap, correlación entre réplicas etc);
eliminar las muestras problemáticas; eliminar genes que considere poco informativos.

Primero hacemos un boxplot e histogramas de las doce muestras, de los cuales podemos inferir que
las muestras tienen comportamientos inadecuados, al parecer hay presencia de datos atı́picos y los
histogramas muestran claramente que las muestras no provienen de una distribución normal ya que
son asimétricos y sesgados a la derecha, lo cuál representa alta variabilidad entre las muestras.

Por otro lado hacemos un ”heatmap” y nos damos cuenta de la mayoria de las muestras están
altamente correlaciónadas, ya que la mayoria son de color rosado lo cual representa que la distancia
entre las muestras es cercano a cero, sin embargo hay presencia de datos que me indican poca
correlación representados en el diagrama con el color azul claro y cuya distancia es cercana a 1.

1
yasalasc@unal.edu.co

1
BOXPLOT INICIAL

MAPA DE CALOR (”HEATMAP”)

2
HISTOGRAMAS INICIALES

3
3. Calibre los datos con el método vsn y verifique estabilización de la varianza con meansdplot

Se hace necesario normalizar los datos para obtener mejores caracterı́sticas de las muestras. Después
de normalizar evidenciamos en el boxplot que la expresión génica en las diferentes muestras son
similares y varian en rangos cercanos, los histogramas se comportan ”un poco mejor”, ya que se
observa simétria entre las muestras. Finalmente observamos que en los diagramas de ”meansplot”
se estabiliza la varianza.

BOXPLOT NORMALIZADO

4
HISTOGRAMAS NORMALIZADOS

5
Datos normalizados con muestras eliminadas

Datos normalizados con todas las muestras.

4. Proponga una pregunta biológica para el análisis de estos datos

¿Cúales son los genes de las ratas de 10 dı́as que participan en la Epı́fisis tibiales
proximales en zonas de cartilago articular superficial(SZ) y cuales en las zonas de
reposo de cartilago de crecimeinto (FZ)?

A continuacı́ón anexo el código correspondiente en R del taller2:

getwd()
setwd(”/Users/jessicasalas/Desktop/GENOMICA /TALLERES R /datostaller2”)
source(”http://bioconductor.org/biocLite.R”)
biocLite(”simpleaffy”)
biocLite(”affy”)
biocLite(”affyQCReport”)
biocLite(”Rcpp”)
biocLite(”Matrix”)
biocLite(”affydata”)
biocLite(”vsn”)

6
biocLite(”gcrma”)
biocLite(”latticeExtra”)
biocLite(”RColorBrewer”)
install.packages(”hexbin”)
#1.Cargar datos
#2.Verificar calidad
#3. Normalizar
#1.Cargar datos
#Importación de datos con formato Affymetrix
library(affy)
myAB=ReadAffy()sin argumentos lee todos los archivos CEL del directorio (en
caso de que tengan archivos ya bajados del GEO den NCBI)
#Examinar los datos
class(myAB)
myAB
#Boxplot de las 12 muestras
boxplot(exprs(myAB),las=2)
#Histograma de las muestras(1,3,5,6,8,12)
par(mfrow=c(3,4))
hist(exprs(myAB[,1]),main=”Histograma de la muestra1”)
hist(exprs(myAB[,2]),main=”Histograma de la muestra2”)
hist(exprs(myAB[,3]),main=”Histograma de la muetsra3”)
hist(exprs(myAB[,4]),main=”Histograma de la muestra4”)
hist(exprs(myAB[,5]),main=”Histograma de la muetsra5”)
hist(exprs(myAB[,6]),main=”Histograma de la muestra6”)
hist(exprs(myAB[,7]),main=”Histograma de la muestra7”)
hist(exprs(myAB[,8]),main=”Histograma de la muestra8”)
hist(exprs(myAB[,9]),main=”Histograma de la muestra9”)
hist(exprs(myAB[,10]),main=”Histograma de la muestra10”)
hist(exprs(myAB[,11]),main=”Histograma de la muestra11”)
hist(exprs(myAB[,12]),main=”Histograma de la muestra12”)
#quitar alguna muestra?
#Matriz de distancias
dd=dist2(log2(exprs(myAB)))
View(dd)
diag(dd)=0
dd.row<-as.dendrogram(hclust(as.dist(dd)))
row.ord<-order.dendrogram(dd.row) organización
library(lattice)
library(RColorBrewer)
library(latticeExtra)
#Heatmap
legend=list(top=list(fun=dendrogramGrob,args=list(x=dd.row,side=”top”)))
lp=levelplot(dd[row.ord,row.ord],xlab=””, ylab=””,legend=legend, las=3)
lp
#2.Verificar calidad
data(myAB)
class(myAB)
myAB

7
#acceder a toda la información de anotación contenida en el objeto
sampleNames(myAB)
str(myAB)
head(myAB)
#Determinar y controlar la calidad
library(lattice)
library(”affyQCReport”)
library(Matrix)
library(genefilter)
library(gcrma)
library(simpleaffy)
#3. Normalizacion de los datos
library(vsn)m?todo vsn de Huber
citation(”vsn”)
eset1<-rma(myAB)
#Boxplot de las 12 muestras normalizadas
par(mfrow=c(1,1))
boxplot(exprs(eset1))
#Histograma de las muestras(1,3,5,6,8,12) normalizadas
par(mfrow=c(3,4))
hist(exprs(eset1[,1]),main=”Histograma de la muestra1”)
hist(exprs(eset1[,2]),main=”Histograma de la muestra2”)
hist(exprs(eset1[,3]),main=”Histograma de la muetsra3”)
hist(exprs(eset1[,4]),main=”Histograma de la muestra4”)
hist(exprs(eset1[,5]),main=”Histograma de la muetsra5”)
hist(exprs(eset1[,6]),main=”Histograma de la muestra6”)
hist(exprs(eset1[,7]),main=”Histograma de la muestra7”)
hist(exprs(eset1[,8]),main=”Histograma de la muestra8”)
hist(exprs(eset1[,9]),main=”Histograma de la muestra9”)
hist(exprs(eset1[,10]),main=”Histograma de la muestra10”)
hist(exprs(eset1[,11]),main=”Histograma de la muestra11”)
hist(exprs(eset1[,12]),main=”Histograma de la muestra12”)
meansdplot
nkid1= justvsn(eset1)
meanSdPlot(nkid1,ranks=TRUE)
meanSdPlot(nkid1, ranks=FALSE)

Potrebbero piacerti anche