Documenti di Didattica
Documenti di Professioni
Documenti di Cultura
1
Leonardo Altamirano.
1
Bioquímica, Departamento de Ciencias Químicas y Recursos Naturales, Facultad de Ingeniería y Ciencias,
Universidad de La Frontera
1. Introducción
Originalmente llamado Vibrio subtilis en 1835, este organismo ha sido renombrado como Bacillus subtilis en
1872. Otros nombres para esta bacteria también incluyen Bacillus uniflagellatus, Bacillus globigii y Bacillus natto.
Bacillus subtilis fue una de las primeras bacterias que se estudiarán. Estas bacterias son un buen modelo para
el desarrollo y la diferenciación celular (Entrez Proyecto Genoma).
Bacillus subtilis son células bacterias Gram-positivas en forma de bastoncillos que se encuentran naturalmente
en el suelo y la vegetación. Bacillus subtilis crecer en el rango de temperaturas mesófilas. La temperatura óptima
es de 25 a 35 grados Celsius (Entrez Proyecto Genoma). El estrés y el hambre son comunes en este entorno,
por lo tanto, Bacillus subtilis se ha desarrollado un conjunto de estrategias que permitan la supervivencia bajo
estas duras condiciones. Una estrategia, por ejemplo, es la formación de endosporas resistentes al estrés.
Otra estrategia es la captación de ADN externa, que permiten que las bacterias se adaptan por recombinación.
Sin embargo, estas estrategias son mucho tiempo. Bacillus subtilis también pueden obtener más rápidamente
la protección contra muchas situaciones de estrés tales como ácidos, alcalinos, osmóticos, o condiciones
oxidativas, y el calor o etanol. El factor sigma alternativo B es un regulador global de respuesta al estrés. El
calor, el ácido o etanol y glucosa o fosfato de hambre son todos los estímulos que activan (Bandow 2002).
Sólo una molécula de ADN está presente en estas células. de Bacillus subtilis tiene un cromosoma circular. El
tamaño total de todo el ADN es 4.214.814 pb (4,2 MBP) (TIGR CMR). Código 4100 genes para las proteínas.
53% de los genes codificantes de proteínas sólo se ven una vez, mientras que el 25% del genoma se refiere a
las familias de genes que se han sometido a la duplicación de genes (Kunst 1997).
En este trabajo se busca encontrar algún gen de resistencia en Bacillus subtilis de la cepa SFA-H43 mediante
un análisis bioinformático de su genoma mediante una máquina virtual de Linux y la consola de comando y
poder realizar una filogenia de 7 cepas distintas.
2. Materiales y métodos
2.1 Ensamblaje genoma
Para realizar el ensamblaje del genoma se tomaron reads de referencias subidos en la página DRA search
pertenecientes a Bacillus subtilis los cuales se pusieron en disponibilidad en el marco del estudio titulado
“Bacillus subtilis strain:SFA-H43 Genome sequencing”, los reads en cuestión fueron obtenidos mediante el
secuenciamiento en la plataforma Illumina MiSeq. Para evaluar los reads se utilizó el programa Fastqc, fueron
filtrados por Trimmomatic y el ensamblaje fue hecho mediante el software a5_pipeline.
3. Resultados y Discusión
3.1 Análisis de Reads.
Como se comentó en la parte de materiales y métodos el análisis de los reads fue realizado mediante la
herramienta Fastqc y se visualizó el estado de los reads antes del ensamblaje y los resultados encontrados
fueron los siguientes:
A B
Fig 2. En la figura se observa la gráfica entregada por Fastqc en la cual se indica la calidad de las bases a lo largo de la
secuenciación donde A y B corresponde al read forward y reverse, respectivamente.
El análisis de los reads es la parte principal del análisis a realizar a la hora de ensamblar un genoma, de las
gráficas entregadas por fastqc la referente a la calidad de las bases a lo largo de la secuenciación la cual se
puede observar en la Fig 2 indica una buena calidad ya que se puede observar que la media de la calidad de
las secuencias (línea azul) se encuentra en la zona verde de la gráfica la cual corresponde a lo que se considera
un área de buena calidad.
A B
Fig 3. Gráfica de informe de calificación de calidad por secuencia es un análisis que nos permite ver cuál es la calidad
promedio de un determinado número de secuencias, en este caso A representa el read forward y B el reverse.
La calidad de nuestras secuencias se muestra en la Fig 3 donde en el eje X se representa la media de la calidad
de las secuencias y en el eje Y se encuentran las lecturas (DNA Core, 2010) se puede constatar que se presenta
un peak el cual comienza a levantar desde muy atrás lo cual indicaría que podríamos esperar una mejor calidad
de los reads.
A B
Fig 4. En la siguiente grafica se observa cual es el contenido porcentual de bases por secuencias.
En la gráfica del contenido de bases de la secuencia se indica la proporción de la posición de cada base para
cada una de las cuatro bases que forman el ADN, en una librería al azar, se espera que no haya una gran
diferencia entre las diferentes bases de la secuencia, por lo que las líneas deberían correr paralelas las unas a
las otras, ya que la cantidad relativa de cada base refleja la cantidad total de estas bases en el genoma de
estudio, pero bajo ninguna circunstancia deben estar desproporcionadas las unas con las otras, si se observan
fuertes sesgos que cambian en diferentes bases, esto generalmente indica una secuencia sobrerrepresentada
que está contaminando la biblioteca. Un sesgo que es consistente en todas las bases indica que la biblioteca
original estaba sesgada por la secuencia o que había un problema sistemático durante la secuencia de la
biblioteca (DNA Core, 2010). En muchos casos, las desviaciones se producen al principio de la secuencia debido
al uso de primers aleatorios, pero en ningún caso la variación debe de ser del 20%, ya que si no se considera
que la secuenciación ha sido un fallo(Carrasco, 2014), en la Fig 4 se observa al principio una muy pequeña
variación al inicio de la secuenciación lo cual se explica por lo mencionado anteriormente, sin embargo, se
puede observar claramente que existe una gran diferencias entre las proporciones de AT y GC (donde AT es
mayor) las cuales se mantienen constantes luego de las variaciones iniciales y estas se pueden explicar debido
a que el organismo en cuestión posee un nivel de GC el cual es 43%.
A B
Fig 5. Contenido de bases asignadas como N (cualquier nucleótido) en el read Right (A) y Left (B).
En la Fig 5 se observa un gráfico que nos muestra el porcentaje de bases a las cuales en cada posición se les
otorgo una N(Carrasco, 2014), es decir, no se pudo determinar la base en cuestión debido a perdida en la
calidad, en este caso se observa que no se asignó N a ninguna base lo que indica que no hubo pérdida de
calidad en la secuencia.
A B
Fig 6. Distribución en la longitud de las secuencias para los reads Right (A) y Left (B).
En la Fig 6 se puede observar una gráfica que indica la distribución de la longitud de las secuencias en toda la
secuenciación, como se sabe cada secuenciador puede entregar reads de diferentes y lo usual es que se
observe un solo peak en la gráfica que corresponde a reads de tamaño uniforme.
A B
A B
Para su visualización final se utilizó Ugene y con él se localizó el gen aadK en el “gen 19” en la posición 44434
hasta 45288 (Fig 11) y para encontrar genomas cercanos para posterior análisis se tomó una región 10,5 k
aprox. como muestra la Fig 12.
Se realizó una búsqueda por Blast de la región de 10,5 k aprox y se seleccionaron 8 genomas de distinta
identidad. Una vez que se realizó el alineamiento y se obtuvo el gen deseados en cada secuencia. Se realizó
un análisis filogenético para poder observar la cercanía y evolución del gen en las diferentes especies. Para ello
se utilizó el archivo “aadK_allbsusb.fa” para poder ser visualizados en seaview y poder realizar un árbol
filogenético.
El resultado de la alineación dejó como resultado solo 7 de los 8 genomas cercanos que contenían el gen de
resistencia aadK y con ellos se formó un árbol filogenético que indica que las cepas SFA-H43 (Region) forma
un grupo muy cercano con BSP1 (CP003695.1) y 2KL1 (CP032872.1) formando una politomia y una
ramificación más evolucionada que sería FJAT-14266 (CP017072.1), mientras formando otro taxón se
encuntran las otras 3 cepas D12-5 (CP014858.1), WB800N (CP032310.1), y PJ-7 (CP032855.1).
Referencias
Bandow, JE, H. Brtz, M. Hecker. " Bacillus subtilis Tolerancia de concentraciones moderadas de Rifampicina
Consiste en la respuesta general y estrés múltiple?-B Dependiente ". Revista de Bacteriología . 2002 enero; 184
(2): 459.467.
Entrez Proyecto Genoma, NCBI
Kunst, F., et al. "La secuencia completa del genoma de la bacteria Gram-positiva Bacillus
subtilis ". Naturaleza . 1997 Noviembre; 390, 249-256.
Babraham Bioinformatics. (2010). Per Tile Sequence Quality, de Babraham Institute Sitio web:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/12%20Per%20Tile
%20Sequence%20Quality.html
Carrasco, A. (2014). Control de calidad con FASTQC. de Biología molecular de sistemas Sitio web:
https://sites.google.com/site/b22carcabms/home/practica-1
Babraham Bioinformatics. (2010). Duplicate Sequences. de Babraham Institute Sitio web:
https://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/8%20Duplicate%2
0Sequences.html