Sei sulla pagina 1di 10

Análisis bioinformático de distintas cepas de Bacillus subtilis

1
Leonardo Altamirano.
1
Bioquímica, Departamento de Ciencias Químicas y Recursos Naturales, Facultad de Ingeniería y Ciencias,
Universidad de La Frontera

1. Introducción
Originalmente llamado Vibrio subtilis en 1835, este organismo ha sido renombrado como Bacillus subtilis en
1872. Otros nombres para esta bacteria también incluyen Bacillus uniflagellatus, Bacillus globigii y Bacillus natto.
Bacillus subtilis fue una de las primeras bacterias que se estudiarán. Estas bacterias son un buen modelo para
el desarrollo y la diferenciación celular (Entrez Proyecto Genoma).
Bacillus subtilis son células bacterias Gram-positivas en forma de bastoncillos que se encuentran naturalmente
en el suelo y la vegetación. Bacillus subtilis crecer en el rango de temperaturas mesófilas. La temperatura óptima
es de 25 a 35 grados Celsius (Entrez Proyecto Genoma). El estrés y el hambre son comunes en este entorno,
por lo tanto, Bacillus subtilis se ha desarrollado un conjunto de estrategias que permitan la supervivencia bajo
estas duras condiciones. Una estrategia, por ejemplo, es la formación de endosporas resistentes al estrés.
Otra estrategia es la captación de ADN externa, que permiten que las bacterias se adaptan por recombinación.
Sin embargo, estas estrategias son mucho tiempo. Bacillus subtilis también pueden obtener más rápidamente
la protección contra muchas situaciones de estrés tales como ácidos, alcalinos, osmóticos, o condiciones
oxidativas, y el calor o etanol. El factor sigma alternativo B es un regulador global de respuesta al estrés. El
calor, el ácido o etanol y glucosa o fosfato de hambre son todos los estímulos que activan (Bandow 2002).
Sólo una molécula de ADN está presente en estas células. de Bacillus subtilis tiene un cromosoma circular. El
tamaño total de todo el ADN es 4.214.814 pb (4,2 MBP) (TIGR CMR). Código 4100 genes para las proteínas.
53% de los genes codificantes de proteínas sólo se ven una vez, mientras que el 25% del genoma se refiere a
las familias de genes que se han sometido a la duplicación de genes (Kunst 1997).
En este trabajo se busca encontrar algún gen de resistencia en Bacillus subtilis de la cepa SFA-H43 mediante
un análisis bioinformático de su genoma mediante una máquina virtual de Linux y la consola de comando y
poder realizar una filogenia de 7 cepas distintas.

2. Materiales y métodos
2.1 Ensamblaje genoma
Para realizar el ensamblaje del genoma se tomaron reads de referencias subidos en la página DRA search
pertenecientes a Bacillus subtilis los cuales se pusieron en disponibilidad en el marco del estudio titulado
“Bacillus subtilis strain:SFA-H43 Genome sequencing”, los reads en cuestión fueron obtenidos mediante el
secuenciamiento en la plataforma Illumina MiSeq. Para evaluar los reads se utilizó el programa Fastqc, fueron
filtrados por Trimmomatic y el ensamblaje fue hecho mediante el software a5_pipeline.

2.2 Anotación de los genomas


La predicción de los genes en el genoma y su anotación fue realizada mediante el programa Prokka, para ello
se ingresó al directorio donde se encontraba el genoma y se procedió a la anotación del este mediante el
comando:
“ prokka --outdir genoma-PROKKA --kingdom Bacteria --addgenes --locustag gen --centre UFRO s-
en.contigs.fasta”
Donde se observa que se asignó el reino bacteria al genoma, además se ve que se colocó la opción addgenes
para agregar genes como su nombre lo indica y además la opción locustag para dar nombre a los genes.

2.3 Recuperación de gen de resistencia y obtención de genomas cercanos


Con ayuda de Resfinder se descubre si posee genes de resistencia y su ubicación, con ello se recupera una
región del genoma cercano que contiene el gen mediante Ugene.
La recuperación de los genomas fue realizada a partir de la base de datos del Centro Nacional para la
Información Biotecnológica (NCBI) buscando la secuencia de la región elegida por blastn con el fin de poder
recuperar secuencias cercanas para poder realizar los subsiguientes análisis informáticos para abordar el tema
de la investigación.
Una vez realizado el alineamiento de secuencias se seleccionaron 8 secuencias de Bacillus subtilis que tuvieran
la mayor cercanía entre ellas y se descargaron sus secuencias genómicas en formato fasta. Las secuencias
seleccionadas para fueron: SFA-H43, CP032872.1 (2KL1), CP017676.1 (VV2), CP014858.1 (D12-5),
CP017072.1 (FJAT-14266), CP032310.1 (WB800N), CP003695.1 (BSP1) y CP032855.1 (PJ-7).
2.5 Análisis de genes
Para realizar el análisis del gen de resistencia se utilizaron las 8 secuencias genomas descargados y se procedió
a alinear los genomas con nuestros genes específicos deseados para ello primero se concatenaron los archivos
de los 8 genomas mediante el comando:
“cat *.fasta >allbs.fasta”
Luego se le dio al archivo el formato blast mediante el comando:
“makeblastdb -in allbs.fasta -dbtype 'nucl' -out allbs”
A continuación, se procedió a buscar el gen en el archivo concatenado que se creo anteriormente con el uso
del comando:
“blastn -query ../aadK.fa -db allbs -out aadK_allbs.txt”
Luego de esto los genes fueron extraídos de las secuencias con el comando:
“perl ~/Software/genomeblastparsermultifasta.pl aadK_allbs.txt aadK_allbs.fas”
Una vez hecho esto se contó con dos archivos, aadK_allbs.fas el cual fue ingresado al programa seaview para
realizar el alinamiento y el posterior árbol filogenético. Para colocar los archivos alineados en seaview se hizo
uso del comando:
“seaview aadK_allbs.fas &”
Una vez cargado el archivo en seaview se procedió a realizar el alineamiento y el árbol del gen. La configuración
para el árbol se muestra en la Fig 1.
Fig 1: Parámetros seleccionados para realizar el árbol filogenético

3. Resultados y Discusión
3.1 Análisis de Reads.
Como se comentó en la parte de materiales y métodos el análisis de los reads fue realizado mediante la
herramienta Fastqc y se visualizó el estado de los reads antes del ensamblaje y los resultados encontrados
fueron los siguientes:

A B

Fig 2. En la figura se observa la gráfica entregada por Fastqc en la cual se indica la calidad de las bases a lo largo de la
secuenciación donde A y B corresponde al read forward y reverse, respectivamente.

El análisis de los reads es la parte principal del análisis a realizar a la hora de ensamblar un genoma, de las
gráficas entregadas por fastqc la referente a la calidad de las bases a lo largo de la secuenciación la cual se
puede observar en la Fig 2 indica una buena calidad ya que se puede observar que la media de la calidad de
las secuencias (línea azul) se encuentra en la zona verde de la gráfica la cual corresponde a lo que se considera
un área de buena calidad.
A B

Fig 3. Gráfica de informe de calificación de calidad por secuencia es un análisis que nos permite ver cuál es la calidad
promedio de un determinado número de secuencias, en este caso A representa el read forward y B el reverse.

La calidad de nuestras secuencias se muestra en la Fig 3 donde en el eje X se representa la media de la calidad
de las secuencias y en el eje Y se encuentran las lecturas (DNA Core, 2010) se puede constatar que se presenta
un peak el cual comienza a levantar desde muy atrás lo cual indicaría que podríamos esperar una mejor calidad
de los reads.

A B

Fig 4. En la siguiente grafica se observa cual es el contenido porcentual de bases por secuencias.

En la gráfica del contenido de bases de la secuencia se indica la proporción de la posición de cada base para
cada una de las cuatro bases que forman el ADN, en una librería al azar, se espera que no haya una gran
diferencia entre las diferentes bases de la secuencia, por lo que las líneas deberían correr paralelas las unas a
las otras, ya que la cantidad relativa de cada base refleja la cantidad total de estas bases en el genoma de
estudio, pero bajo ninguna circunstancia deben estar desproporcionadas las unas con las otras, si se observan
fuertes sesgos que cambian en diferentes bases, esto generalmente indica una secuencia sobrerrepresentada
que está contaminando la biblioteca. Un sesgo que es consistente en todas las bases indica que la biblioteca
original estaba sesgada por la secuencia o que había un problema sistemático durante la secuencia de la
biblioteca (DNA Core, 2010). En muchos casos, las desviaciones se producen al principio de la secuencia debido
al uso de primers aleatorios, pero en ningún caso la variación debe de ser del 20%, ya que si no se considera
que la secuenciación ha sido un fallo(Carrasco, 2014), en la Fig 4 se observa al principio una muy pequeña
variación al inicio de la secuenciación lo cual se explica por lo mencionado anteriormente, sin embargo, se
puede observar claramente que existe una gran diferencias entre las proporciones de AT y GC (donde AT es
mayor) las cuales se mantienen constantes luego de las variaciones iniciales y estas se pueden explicar debido
a que el organismo en cuestión posee un nivel de GC el cual es 43%.
A B

Fig 5. Contenido de bases asignadas como N (cualquier nucleótido) en el read Right (A) y Left (B).

En la Fig 5 se observa un gráfico que nos muestra el porcentaje de bases a las cuales en cada posición se les
otorgo una N(Carrasco, 2014), es decir, no se pudo determinar la base en cuestión debido a perdida en la
calidad, en este caso se observa que no se asignó N a ninguna base lo que indica que no hubo pérdida de
calidad en la secuencia.

A B

Fig 6. Distribución en la longitud de las secuencias para los reads Right (A) y Left (B).
En la Fig 6 se puede observar una gráfica que indica la distribución de la longitud de las secuencias en toda la
secuenciación, como se sabe cada secuenciador puede entregar reads de diferentes y lo usual es que se
observe un solo peak en la gráfica que corresponde a reads de tamaño uniforme.

A B

Fig 7. Gráfica de secuencias duplicadas para A (read forward) y B (read reverse).


En la Fig 7 se observa la representación de la duplicación de secuencias en los reads, en este tipo de gráfica
un bajo nivel de duplicación indica un muy alto nivel de cobertura de la secuencia blanco, por otro lado, un alto
nivel en la duplicación es más común debido a algún tipo de enriquecimiento o “aparición” de esas secuencias
debido al PCR, por lo general un enriquecimiento normal, que indica una amplia secuenciación en la biblioteca
tiende a aplanar las líneas, los enriquecimientos más específicos de subconjuntos o la presencia de
contaminantes de baja complejidad producirán picos a la derecha de la trama. Estos peak de alta duplicación a
menudo aparecerán en el trazo azul ya que constituyen una proporción insignificante del conjunto deduplicado,
solo si los peaks persisten en el trazo azul existe la posibilidad de que exista una gran cantidad de secuencias
duplicadas diferentes que pueden indicar un conjunto de contaminantes o una duplicación técnica muy
grave(Babraham Bioinformatics, 2010), en este caso no se observa peaks y por algún motivo el programa
identificaba o indicaba peligro en los reads para ese apartado particular, sin embargo, de acuerdo a lo
encontrado en el manual del software indicaba que para realizar la gráfica el programa toma secuencias de los
reads al azar y en ocasiones selecciona secuencias repetidas que pueden dar origen a la detección de errores.
En la Fig 8 se observa una gráfica que indica la presencia de adaptadores, en nuestro caso no existe la
presencia de primers debido a que posiblemente los reads fueron trimados.

A B

Fig 8. Porcentaje de adaptadores presentes en los reads forward(A) y reverse(B).

3.2 Resultados ensamblaje con a5_pipeline


Luego de realizar el ensamblaje con a5_pipeline se obtiene la información mostrada en la tabla acerca del
genoma ensamblado desde el archivo “s-en.assembly_stats.csv”.

Contigs Scaffolds Genome Longest N50 %reads %nt Bases %GC


size Scaffold passing passing >=Q40
EC EC
136 136 4132333 284824 89582 99.93 99.85 4116496 43.3

3.3 Anotación de genoma


Los resultados obtenidos luego de la anotación del genoma ensamblado se pueden observar en la Tabla 2.

Organismo Bacillus subtilis SFA-


H43
contigs 136
bases 4132333
rRNA 12
CDS 4314
tmRNA 1
tRNA 86
gene 4413
3.4 Visualización del genoma y búsqueda del gen de resistencia

Para visualizar el genoma en primera instancia se utilizó Artemis el cual mostraba


el primer contig y con el obtuvimos la Fig 9 como visualización, en este contig no
encontramos ningún gen de resistencia y por ello con ayuda de ResFinder se
localizó el gen de resistencia aadK en el scaffold 18 (gen 19 como se visualiza en
Ugene) como muestra la Fig 10.

Fig 9. Visualización del contig 1 por Artemis.

Fig 10. Resultados mediante la herramienta online ResFinder.

Para su visualización final se utilizó Ugene y con él se localizó el gen aadK en el “gen 19” en la posición 44434
hasta 45288 (Fig 11) y para encontrar genomas cercanos para posterior análisis se tomó una región 10,5 k
aprox. como muestra la Fig 12.

Fig 11. Localización de aadK en Ugene


Fig 12. Selección de secuencia que contiene el de aadK.

3.5 Análisis de genes

Se realizó una búsqueda por Blast de la región de 10,5 k aprox y se seleccionaron 8 genomas de distinta
identidad. Una vez que se realizó el alineamiento y se obtuvo el gen deseados en cada secuencia. Se realizó
un análisis filogenético para poder observar la cercanía y evolución del gen en las diferentes especies. Para ello
se utilizó el archivo “aadK_allbsusb.fa” para poder ser visualizados en seaview y poder realizar un árbol
filogenético.

Fig 13. Secuencias alineadas las cuales poseían el gen aadK.


Fig 14. Árbol filogenético obtenido por el método parsimonia que indica la evolución en el gen aadK en las
diferentes cepas.

El resultado de la alineación dejó como resultado solo 7 de los 8 genomas cercanos que contenían el gen de
resistencia aadK y con ellos se formó un árbol filogenético que indica que las cepas SFA-H43 (Region) forma
un grupo muy cercano con BSP1 (CP003695.1) y 2KL1 (CP032872.1) formando una politomia y una
ramificación más evolucionada que sería FJAT-14266 (CP017072.1), mientras formando otro taxón se
encuntran las otras 3 cepas D12-5 (CP014858.1), WB800N (CP032310.1), y PJ-7 (CP032855.1).

Referencias

Bandow, JE, H. Brtz, M. Hecker. " Bacillus subtilis Tolerancia de concentraciones moderadas de Rifampicina
Consiste en la respuesta general y estrés múltiple?-B Dependiente ". Revista de Bacteriología . 2002 enero; 184
(2): 459.467.
Entrez Proyecto Genoma, NCBI

Kunst, F., et al. "La secuencia completa del genoma de la bacteria Gram-positiva Bacillus
subtilis ". Naturaleza . 1997 Noviembre; 390, 249-256.

Babraham Bioinformatics. (2010). Per Tile Sequence Quality, de Babraham Institute Sitio web:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/12%20Per%20Tile
%20Sequence%20Quality.html

DNA Core. (2010). FASTQC. de University of Missouri Sitio web:


https://dnacore.missouri.edu/PDF/FastQC_Manual.pdf

Carrasco, A. (2014). Control de calidad con FASTQC. de Biología molecular de sistemas Sitio web:
https://sites.google.com/site/b22carcabms/home/practica-1
Babraham Bioinformatics. (2010). Duplicate Sequences. de Babraham Institute Sitio web:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/8%20Duplicate%2
0Sequences.html

Potrebbero piacerti anche