Sei sulla pagina 1di 16

1

COLEGIO DE BIOQUIMICOS DE LA PROVINCIA DE BUENOS AIRES

SOBRE EL ORIGEN Y LA EVOLUCIÓN CONTINUA DEL SARS-COV-2

Xiaolu Tang, Changcheng Wu, Xiang Li, Yuhe Song, Xinmin Yao, Xinkai Wu,Yuange Duan, Hong Zhang, Yirong
Wang, Zhaohui Qian, Jie Cui, and Jian Lu.
RESEARCH ARTICLE-MICROBIOLOGY

25 de febrero de 2020.

RESUMEN
La epidemia de SARS-CoV-2 comenzó a fines de diciembre de 2019 en Wuhan, China, y desde entonces impactó
a una gran parte de China y suscitó gran preocupación mundial. Aquí investigamos el grado de divergencia
molecular entre el SARS-CoV-2 y otros coronavirus relacionados. Aunque encontramos solo un 4% de variabilidad
en los nucleótidos genómicos entre SARS-CoV-2 y un coronavirus relacionado con SARS de murciélagos (SARSr-
CoV; RaTG13), la diferencia en sitios neutros (silenciosos) fue 17%, lo que sugiere que la divergencia entre los
dos virus es mucho mayor que lo anteriormente estimado. Nuestros resultados sugieren que el desarrollo de
nuevas variaciones en sitios funcionales en el dominio de unión al receptor (RBD) de la proteína de la espiga visto
en SARS-CoV-2 y virus SARSr-CoV de pangolín (animal con escamas) probablemente son causados por
mutaciones y selección natural además de la recombinación. Los análisis genéticos de la población de 103
genomas de SARS-CoV-2 indicaron que estos virus evolucionaron en dos tipos principales (designados L y S),
que están bien definidos por dos diferentes polimorfismos de un solo nucleótido (SNP), que muestran un enlace
casi completo a través de las cepas virales secuenciadas hasta la fecha. A pesar de que el tipo L (~ 70%) es más
frecuente que el tipo S (~ 30%), se encontró que el tipo S es la versión ancestral, mientras que el tipo L fue más
frecuente en las primeras etapas del brote en Wuhan. La frecuencia del tipo L disminuyó después de principios de
enero de 2020. La intervención humana puede haber ejercido una presión selectiva más severa sobre el tipo L,
que podría ser más agresivo y se propaga más rápidamente. Por otro lado, el tipo S, que es evolutivamente más
antiguo y menos agresivo, podría haber aumentado en frecuencia relativa, debido a una presión selectiva
relativamente más débil. Estos hallazgos respaldan firmemente la necesidad urgente de hacer más estudios
inmediatos e integrales que combinen datos genómicos, datos epidemiológicos, y registros gráficos de los
síntomas clínicos de pacientes con enfermedad por coronavirus 2019.

INTRODUCCIÓN
La epidemia de la enfermedad por coronavirus 2019 (COVID -19) comenzó a fines de diciembre
de 2019 en Wuhan, la capital de la provincia de Hubei en China central. Desde entonces, se ha
extendido rápidamente por China y en otros países, planteando importantes preocupaciones
mundiales. El agente etiológico es un nuevo coronavirus, SARS -CoV-2, llamado así por la
similitud de sus síntomas con los del Síndrome Respiratorio Agudo Severo. Al 28 de febrero de
2020, habían sido notificados 78,959 casos de SARS -CoV. La infección se ha confirmad o en
2

China, con 2.791 muertes. También ha habido más de 3,664 casos confirmados fuera de China
en 46 países y, se plantean dudas significativas sobre la probabilidad de una contención exitosa.
Además, las secuencias genómicas de los virus del SARS -CoV-2 aislados de varios pacientes
comparten una ident idad de secuencia superior al 99,9%, lo que sugiere un cambio de
hospedador muy reciente en humanos [1 -3]. Los coronavirus se alojan naturalmente y se han
adaptado evolutivamente a los murciélagos [4, 5]. De he cho, se ha postulado que la mayoría de
los coronavirus que infectan a humanos se han contagiado del reservorio de murciélagos [6, 7].
Como era de esperar, varios equipos han confirmado recientemente la similitud genética entre el
SARS-CoV-2 y un betacoronavirus (uno de los cuatro géneros de coronavirus) del murciélago del
subgénero Sarbecovirus [8-13]. La identidad de la secuencia del genoma completo del nuevo
virus, tiene un 96,2% de similitud con un coronavirus de murciélago relacionado con el SARS
(SARSr-CoV; RaTG13) aislado en la provincia de Yunnan, China [2, 14], pero no es muy similar
a los genomas del SARS-CoV (aproximadamente 79%) o MERS -CoV (aproximadamente 50%) [1,
15]. También se ha confirmado que el SARS -CoV-2 utiliza el mismo receptor, la e nzima
convertidora de angiotensina II (ACE2), que el SARS -CoV [11]. Aunque la ruta específica de
transmisión de los reservorios naturales a los humanos sigue sin estar clara [5, 13], varios
estudios han demostrado que los pangolines pueden haber proporcion ado un gen de la proteí na
de la espiga (spike) en forma parcial al SARS -CoV-2. Los sitios funcionales críticos en la
proteína de la espiga del SAR-CoV-2 son casi idénticos a uno identificado en un virus aislado de
un pangolín [16-18]. A pesar de estos descubrimientos recientes, varios problemas
fundamentales relacionados con los patrones evolutivos y las fuerzas impulsoras detrás de est e
brote de SARS-CoV-2 permanecen sin explorar [19]. Aquí, investigamos el grado de divergencia
molecular entre el SARS-CoV-2 y otros coronavirus relacionados y realizamos análisis genéticos
de la población de 103 genomas secuenciados del SARS -CoV-2. Este trabajo proporciona
nuevos conocimientos sobre los factores que impulsan la evolución del SARS -CoV-2 y su patrón
de propagación a través de la población humana.

RESULTADOS
Filogenia molecular y divergencia entre SARS-CoV-2 y coronavirus relacionados.
Para cada marco de lectura abierta (ORF) anotado en el genoma de referencia del SARS-CoV-2 (NC_045512),
extrajimos las secuencias ortólogas (mismo origen evolutivo) en SARS-CoV humano, cuatro genomas de
coronavirus relacionados con el SARS (SARSr-CoV: RaTG13, ZXC21, ZC45 y BM48-31) provenientes de
murciélagos, un SARSr-CoV de Guangdong (GD) proveniente de pangolín [17] y seis genomas del SARSr-CoV de
Guangxi (GX) provenientes de pangolín [18] (Tabla S1). Alineamos las secuencias de codificación (CDS) en
función de las alineaciones de proteínas (ver Materiales y Métodos). Se encontró que la mayoría de los ORF
anotados a partir de SARS-CoV-2 estaban conservados en otros virus, excepto ORF8 y ORF10 (Tabla 1). La
secuencia de proteínas de SARS-CoV-2 ORF8 compartía una similitud muy baja con las secuencias de SARS-
CoV y BM48-31, y ORF10 tenía un codón de parada prematuro (mutación puntual en la secuencia de ADN) tanto
en SARS-CoV como en BM48-31 (Fig. S1). Una eliminación de una base causó una mutación de cambio de marco
en ORF10 de ZXC21 (Fig. S1). Para investigar las relaciones filogenéticas entre estos virus a escala genómica,
concatenamos regiones de codificación (CDS) de los nueve ORF conservados (orf1ab, E, M, N, S, ORF3a, ORF6,
ORF7a y ORF7b) y reconstruimos el árbol filogenético utilizando los sitios sinónimos (Figura 1A). También
utilizamos CODEML en el PAML [20] para inferir la secuencia ancestral de cada nodo y calculamos los valores dN
(sustituciones no anónimas por sitio no anónimo), dS (sustituciones sinónimos por sitio sinónimo) y dN / dS (ω)
para cada rama (Fig. 1A). Paralelamente, también calculamos los valores de pares dN, dS y por pares entre SARS-
CoV-2 y otro virus (Tabla 1).
El árbol filogenético de todo el genoma indicó que SARS-CoV-2 estaba más cerca de RaTG13, seguido de GD
SARSr-CoV, luego de GX SARSr-CoV, luego de ZC45 y ZXC21, luego de SARS-CoV humano, y finalmente de
BM48-31 (Figura 1A). En particular, encontramos que la divergencia de nucleótidos en los sitios sinónimos entre
SARS-CoV-2 y otros virus, fue mucho mayor de lo previsto previamente. Por ejemplo, aunque los nucleótidos
genómicos generales, cpmúnmente difieren en aproximadamente 4% entre SARS-CoV-2 y RaTG13, el dS
genómico promedio fue de 0.17, lo que significa que la divergencia en los sitios neutros es de 17% entre estos dos
virus (Tabla 1). Esto se debe a que los sitios no anónimos, están generalmente bajo una selección negativa más
fuerte que los sitios sinónimos, y calcular las diferencias de secuencia sin separar estas dos clases de sitios puede
subestimar el grado de divergencia molecular en varias veces. En particular, el valor de dS varió considerablemente
3

entre los genes en SARS-CoV-2 y los otros virus analizados. En particular, el gen que codifica para la proteína de
la espiga (S), exhibió consistentemente valores de dS mayores que otros genes (Tabla 1). Este patrón se hizo
evidente cuando calculamos el valor de dS para cada rama en la Figura 1A para el gen de la espiga versus las
secuencias concatenadas de los genes restantes (Figura S2). En cada rama, el dS del pico fue 2.22 ± 1.35 (media
± DE) veces mayor que el de los otros genes. Este valor dS extremadamente elevado de la espiga, podría ser
causado por una alta tasa de mutación o por una selección natural que favorezca las sustituciones sinónimos. Las
sustituciones sinónimas pueden servir como otra capa de regulación genética, guiando la eficiencia de la
traducción de ARNm cambiando el uso de codones [21]. Si la selección positiva es la fuerza impulsora para la
mayor tasa de sustitución sinónima observada en la espiga, esperamos que la frecuencia de los codones óptimos
(FOP) de la espiga sea diferente de la de otros genes. Sin embargo, nuestro análisis de sesgo de uso de codones
(Tabla S2) sugiere que la FOP de la espiga, fue solo ligeramente más alta que la del promedio genómico (0.717
versus 0.698, ver Materiales y Métodos). Por lo tanto, creemos que la tasa elevada de sustitución de sinónimos
medida en la espiga, es causada más probablemente por tasas mutacionales más altas; sin embargo, el
mecanismo molecular subyacente sigue sin estar claro. Tanto el SARS-CoV como el SARS-CoV-2 se unen a ACE2
(receptor de superficie de la célula pulmonar) a través del RBD de la proteína espiga para iniciar la fusión de la
membrana y entrar en las células humanas [1, 2, 22-26]. Cinco de los seis residuos críticos de aminoácidos (AA)
en el RBD fueron diferentes entre SARS-CoV-2 y SARS-CoV (Figura 1B), y un análisis estructural 3D indicó que
el pico de SARS-CoV-2 tiene una mayor afinidad de unión a ACE2 que SARS-CoV [23]. Curiosamente, estos
mismos seis AA críticos son idénticos entre GD Pangolin-CoV y SARS-CoV-2 [16]. En contraste, aunque los
genomas de SARS-CoV-2 y RaTG13 son más similares en general, solo uno de los seis sitios funcionales es
idéntico entre los dos virus (Figura 1B). Se ha propuesto que la región RBD SARS-CoV-2 de la proteína espiga
podría haber sido el resultado de recientes eventos de recombinación en el pangolín [16-18]. Aunque se han
descrito varios eventos de recombinación antiguos en la proteína espiga [27, 28], también parece probable que los
sitios funcionales idénticos en SARS-CoV-2 y GD- SARSr-CoV, puedan ser el resultado de una evolución
convergente coincidente [18]. Si los residuos de AA funcionales en la región RBD del SARS-CoV-2 se adquirieran
de GD SARSr -CoV en un evento de recombinación muy reciente, esperaríamos que las secuencias de nucleótidos
de esta región fueran casi idénticas entre los dos virus. Sin embargo, para las secuencias de codones (CDS) que
abarcan cinco sitios con AA críticos en el pico SARS-CoV-2 (que van desde el codón 484 hasta 507, que cubren
cinco sitios funcionales adyacentes: F486, Q493, S494, N501 e Y505; Figura S3), estimamos dS = 0.411, dN =
0.019 y ω = 0.046 entre SARS-CoV-2 y GD SARSr -CoV. Al asumir la tasa de sustitución de sinónimos (u) de 1.67-
4.67 x 10-3 / sitio / año, como se estima en SARS-CoV [29], la recombinación / introgresión (el movimiento de
genes de una especie a otra a consecuencia de un proceso de hibridación interespecífica, seguido de
retrocruzamiento), si ocurriera, se estimaría aproximadamente entre 19.8 -55,4 años atrás. Aquí, la fórmula se usó
para calcular el tiempo de divergencia; teniendo en cuenta que el aumento de la tasa mutacional de la espiga se
consideró para este cálculo. Por lo tanto, parece muy poco probable que el SARS-CoV-2 se haya originado a partir
del GD SARSr -CoV debido a un evento de recombinación muy reciente. Alternativamente, parece más probable
que una alta tasa de mutación en la espiga, junto con una fuerte selección natural, haya dado forma a los residuos
AA funcionales idénticos entre estos dos virus, como se propuso anteriormente [18]. Aunque estos sitios se
mantienen en SARS-CoV-2 y GD SARSr -CoV, las mutaciones pueden haber cambiado los residuos en el linaje
RaTG13 después de que se separó del SARS-CoV-2 (la flecha azul en la Figura 1A). En resumen, parece que la
identidad compartida de los sitios críticos de AA entre SARS-CoV-2 y GD SARSr -CoV podría deberse a
mutaciones aleatorias junto con la selección natural, y no necesariamente a la recombinación.

Restricciones selectivas y selección positiva durante la evolución del SARS-CoV-2 y el coronavirus relacionado
El valor ω de todo el genoma entre el SARS-CoV-2 y otros virus, osciló entre 0.044 y 0.124 (Tabla 1), lo que indica
una fuerte selección negativa en los sitios no anónimos. En otras palabras, del 87,6% al 95,6% de las mutaciones
no anónimas, se eliminaron mediante selección negativa durante la evolución viral. Para determinar el alcance de
la selección positiva, concatenamos las secuencias de CDS de 9 ORF conservados en todos los virus de la Figura
1A y ajustamos el M7 (beta: selección neutral y negativa) y M8 (beta + ω> 1: selección neutral, negativa y selección
positiva) usando CODEML (Materiales y Métodos). El modelo M8 (lnL = -104,813.732, np = 18) se ajustó
significativamente mejor que el modelo M7 (lnL = -105,063.284, np = 16) (P <10-10), lo que sugiere que algunas
sustituciones de AA fueron favorecidas por selección darwinianas positivas (pero no necesariamente en el linaje
SARS-CoV-2). Bajo el modelo M8, el 98.48% (p0) de las sustituciones no anónimas se estimaron bajo evolución
neutral o selección purificadora (0⩽ω⩽1), y el 1.52% (p1) de las sustituciones no anónimas estaban bajo selección
positiva (ω = 1.50). Un análisis Bayes Empirical Bayes (BEB), que es un procedimiento de inferencia estadística,
sugirió que 10 sitios de AA mostraron fuertes señales de selección positiva y, curiosamente, tres de ellos se
4

ubicaron en la RBD de la espiga, incluso en un sitio crítico (Figura1C y Figura S4). Por lo tanto, aunque estos
coronavirus generalmente estaban bajo una selección negativa muy fuerte, la selección positiva también fue
responsable de la evolución de las secuencias de proteínas. Los supuestos sitios seleccionados positivamente
podrían servir como candidatos para futuros estudios funcionales.

Mutaciones en 103 genomas de SARS-CoV-2


Descargamos 103 genomas de SARS-CoV-2 disponibles al público, alineamos las secuencias e identificamos las
variantes genéticas. Para facilitar la visualización, marcamos cada cepa de virus en función de la ubicación y la
fecha en que se aisló el virus con el formato de "Ubicación_Fecha" a lo largo de este estudio (consulte la Tabla S1
para obtener detalles; cada identificación no contenía información de la etnia del paciente). Aunque el SARS-CoV-
2 es un virus de ARN, por simplicidad, presentamos nuestros resultados basados en los resultados de
secuenciación del ADN a lo largo de este estudio (es decir, el nucleótido T (timina) significa U (uracilo) en SARS-
CoV-2). En cada variante, el estado ancestral se infirió con base en el genoma y las alineaciones de CDS de
SARS-CoV-2 (NC_045512), RaTG13 y GD SARSr -CoV (Materiales y métodos). En total, identificamos mutaciones
en 149 sitios en las 103 cepas secuenciadas. Los estados ancestrales para 43 mutaciones de sinónimos, 83 no
sinónimos y dos mutaciones sin sentido que se dedujeron sin ambigüedad. Los espectros de frecuencia de
mutaciones sinónimos y no sinónimas se muestran en la Figura 2. La mayoría de las mutaciones derivadas fueron
ganancias de función (67.4% (29/43) de mutaciones sinónimos y 84.3% (70/83) de mutaciones no anónimas, lo
que indica un origen reciente [30] o un crecimiento de la población [31]. En general, los alelos derivados de
mutaciones sinónimas estaban significativamente sesgados hacia frecuencias más altas que las de los no
sinónimos (P <0.01, prueba de suma de rangos de Wilcoxon; Figura 2), lo que sugiere que las mutaciones no
sinónimas tienden a seleccionarse en contra. Sin embargo, el 16.3% (7 de 43) mutaciones sinónimas, y una
mutación no anónima (ORF8 (L84S, 28,144)) tuvieron una frecuencia derivada de ≥ 70% a través de las cepas de
SARS-CoV2. Las mutaciones no anónimas que derivaron alelos en al menos dos cepas de SARS-CoV-2 afectaron
a seis proteínas: orf1ab (A117T, I1607V, L3606F, I6075T), S (H49Y, V367F), ORF3a (G251V), ORF7a (P34S),
ORF8 (V62L, S84L) y N (S194L, S202N, P344.

Dos tipos principales de SARS-CoV-2 están definidos por dos SNP que muestran un enlace completo
Para detectar la posible recombinación entre los virus SARS-CoV2, utilizamos Haploview [32] para analizar y
visualizar los patrones de desequilibrio de enlace (LD) entre variantes con alelos menores en al menos dos cepas
de SARS-CoV-2 (Figura 3A). Como la mayoría de las mutaciones estaban en frecuencias muy bajas, no es
sorprendente que muchos pares tuvieran un valor muy bajo de r2 o LOD (Fig. 3B-C). De acuerdo con otro informe
reciente [31], no encontramos evidencia de recombinación entre las cepas de SARS-CoV2. Sin embargo,
encontramos que los SNP en la ubicación 8,782 (orf1ab: T8517C, incluso) y 28,144 (ORF8: C251T, S84L)
mostraron un enlace significativo, con un valor r2 de 0.954 (Figura 3B, rojo) y un valor LOD de 50.13 (Figura 3C,
rojo). Entre las 103 cepas del virus SARS-CoV-2, 101 de ellas exhibieron un enlace completo entre los dos SNP:
72 cepas exhibieron un haplotipo "CT" (definido como tipo "L" porque T28,144 está en el codón de Leucina) y 29
las cepas exhibieron un haplotipo "TC" (definido como tipo "S" porque C28,144 está en el codón de la serina) en
estos dos sitios. Por lo tanto, clasificamos los virus SARS-CoV-2 en dos tipos principales, siendo L el tipo principal
(~ 70%) y S el tipo secundario (~ 30%).

La historia evolutiva de los tipos L y S de SARS-CoV


Aunque definimos los tipos L y S en base a dos SNP estrechamente vinculados, sorprendentemente, la separación
entre los tipos L (azul) y S (rojo) se mantuvo cuando reconstruimos las redes de haplotipos utilizando todos los
SNP en el SARS-CoV-2 genomas (Figura 4A; el número de mutaciones entre dos haplotipos vecinos se infirió
parsimoniosamente). Este análisis respalda aún más la idea de que los dos SNP vinculados en los sitios 8,782 y
28,144 definen adecuadamente los tipos L y S de SARS-CoV-2. Para determinar si el tipo L o S es ancestral,
examinamos las alineaciones genómicas del SARS-CoV-2 y otros virus altamente relacionados.
Sorprendentemente, los nucleótidos del tipo S en los sitios 8,782 y 28,144 fueron idénticos a los sitios ortólogos
en los virus más estrechamente relacionados (Figura 4B). Sorprendentemente, ambos sitios también estaban
altamente conservados en otros virus. Por lo tanto, aunque el tipo L (~ 70%) fue más frecuente que el tipo S (~
30%) en los virus SARS-CoV-2 que examinamos, el tipo S es en realidad la versión ancestral del SARS-CoV-2.
Para examinar más a fondo la relación entre las cepas en los tipos L y S, reconstruimos un árbol filogenético de
todos los 103 virus SARS-CoV-2 en función de sus secuencias del genoma completo. Nuestro árbol filogenético
5

también muestra claramente la separación de los dos tipos (Figura 5). Los virus del tipo L (azul) se agruparon
primero, y de la misma manera, los virus del tipo S (rojo) también estuvieron más estrechamente relacionados
entre sí. Por lo tanto, nuestras comparaciones de genoma completo confirman aún más la separación de los tipos
L y S. Hasta ahora, descubrimos que, aunque el tipo L se deriva del tipo S, L (~ 70%) es más frecuente que S (~
30%) entre los genomas secuenciados de SARS-CoV-2 que examinamos. Este patrón sugiere que L tiene una
tasa de transmisión más alta que el tipo S. Además, nuestro análisis de carga mutacional indicó que el tipo L había
acumulado un número significativamente mayor de mutaciones derivadas que el tipo S (P <0,0001, prueba de
suma de rangos de Wilcoxon; Figura S5). Proponemos que, aunque el tipo L evolucionó recientemente del tipo S
antiguo, se transmite más rápido o se replica más rápido en las poblaciones humanas, lo que hace que acumule
más mutaciones que el tipo S. Por lo tanto, nuestros resultados sugieren que el L podría ser más agresivo que el
tipo S debido a las tasas de transmisión y / o replicación potencialmente más altas. Para probar si los dos tipos de
SARS-CoV-2 tenían diferencias en las distribuciones temporales y espaciales, estratificamos los virus en función
de las ubicaciones y fechas en que se aislaron (Tabla S1). Entre los 27 virus aislados de Wuhan, 26 (96.3%) eran
de tipo L y solo 1 (3.7%) era de tipo S. Sin embargo, entre los otros 73 virus aislados fuera de Wuhan, 45 (61,6%)
eran de tipo L y 28 (38,4%) eran de tipo S. Esta comparación sugiere que el tipo L es significativamente más
frecuente en Wuhan que en otros lugares (P = 0,0004, prueba exacta de Fisher, Figura 6 y Tabla S3). Las 26
muestras aisladas antes del 7 de enero de 2020 eran de Wuhan, y de las 74 muestras recolectadas a partir del 7
de enero de 2020, solo una era de Wuhan, 33 eran de otros lugares en China y 40 eran de pacientes fuera de
China. Por lo tanto, no es sorprendente que el tipo L fuera significativamente más frecuente antes del 7 de enero
de 2020 (96.2%, 25 L y 1 S) que después del 7 de enero de 2020 (62.2%, 46 L y 28 S) (P = 0.0008, Prueba exacta
de Fisher, Figura 6 y Tabla S3). Si el tipo L es más agresivo que el tipo S, ¿por qué la frecuencia relativa del tipo
L disminuyó en comparación con el tipo S en otros lugares después de la ruptura inicial en Wuhan? Una posible
explicación es que, desde enero de 2020, los gobiernos chinos central y locales, han tomado medidas de
prevención y control rápidas e integrales. Estos esfuerzos de intervención humana podrían haber causado una
presión selectiva severa contra el tipo L, que podría ser más agresiva y extenderse más rápidamente. El tipo S,
por otro lado, podría haber experimentado una presión selectiva más débil por intervención humana, lo que lleva
a un aumento en su abundancia relativa entre los virus SARS-CoV-2. Por lo tanto, planteamos la hipótesis de que
los dos tipos de virus SARS-CoV-2 podrían haber experimentado diferentes presiones selectivas debido a
diferentes características epidemiológicas. Es de destacar que los análisis anteriores se basaron en genomas muy
irregulares de SARS-CoV-2 que se obtuvieron de diferentes ubicaciones y puntos de tiempo. Se requieren datos
genómicos más completos para probar más a fondo nuestra hipótesis.

Heteroplasmia de virus SARS-CoV-2 en pacientes


Actualmente no está claro cómo el tipo L evolucionó específicamente del tipo S durante el desarrollo del SARS-
CoV-2. Sin embargo, encontramos que la secuencia de virus aislados de un paciente que vivía en los Estados
Unidos el 21 de enero (USA_2020 / 01 / 21.a, GISAID ID: EPI_ISL_404253) tenía el genotipo Y (C o T) en ambas
posiciones 8,782 y 28,144, que difiere de la tendencia general de tener C o T. Aunque mutaciones novedosas
podrían conducir a este resultado, la explicación más probable es que este paciente puede haber sido infectado
por los tipos L y S (Figura 7A). La muestra de USA_2020 / 01 / 21.a, fue recolectada de una paciente de 63 años
que vivía en Chicago (de GISAID). Según el informe de los Centros para el Control y la Prevención de
Enfermedades de los Estados Unidos (https://www.cdc.gov/media/releases/2020/p0124-second-travel-
coronavirus.html), inferimos que este paciente regresó a los Estados Unidos Estados desde Wuhan el 13 de enero
de 2020. Sin embargo, actualmente no está claro si la coexistencia de los tipos L y S en esta paciente se debió a
infecciones múltiples durante su visita a Wuhan. En particular, los virus identificados de un paciente en Australia
el 28 de enero de 2020 (Australia_2020 / 01 / 28.a, GISAID ID: EPI_ISL_407894) tenían múltiples nucleótidos
degenerados. Esta muestra fue recolectada de un paciente masculino de 44 años en Gold Cost, Australia (de
GISAID). Según el informe del Courier Mail (30 de enero de 2020), inferimos que este paciente tenía antecedentes
de haber viajado desde Wuhan a Gold Coast, antes del diagnóstico de infección. Como se muestra en la Figura
7B, inferimos que este paciente podría haber sido infectado por al menos dos cepas diferentes de SARS-CoV-2
(Figura 7B). Para investigar más a fondo la heteroplasmia de los virus SARS-CoV-2 en pacientes, se realizaron
búsquedas en 12 bibliotecas de secuenciación profunda de genomas de SARS-CoV-2 que se depositaron en el
Archivo de lectura de secuencias (SRA) (Tabla S4, Materiales y métodos). Encontramos 17 sitios genómicos que
mostraban evidencia de heteroplasmia del virus SARS-CoV-2 en cinco pacientes, pero no encontramos
descargado de https://academic.oup.com/nsr/advance-article-abstract/doi/10.1093/nsr/nwaa036/5775463 por
invitado el 12 de marzo de 2020 cualquier otro caso de coexistencia de los tipos L y S en cualquier paciente (tabla
6

2). Estos hallazgos evidencian la complejidad en desarrollo de la evolución de las infecciones por SARS-CoV-2.
Otros estudios que investigan cómo los diferentes alelos de los virus SARS-CoV-2 compiten entre sí, serán de
gran valor.

DISCUSIÓN
En este estudio, investigamos los patrones de divergencia molecular entre SARS-CoV-2 y otros coronavirus
relacionados. Aunque los análisis genómicos sugirieron que el SARS-CoV-2 era el más cercano a RaTG13, su
diferencia en los sitios neutros, fue mucho mayor que la realizada previamente. Nuestros resultados proporcionan
nuevas ideas para rastrear el huésped natural intermedio de SARS-CoV-2. Con análisis genéticos poblacionales
de 103 genomas de SARS-CoV-2, encontramos que los virus SARS-CoV-2 evolucionaron en dos tipos principales
(tipos L y S), y los dos tipos estaban bien definidos por solo dos SNP que muestran casi completo enlace a través
de cepas de SARS-CoV-2. Aunque el tipo L (~ 70%) fue más frecuente que el tipo S (~ 30%) en los virus SARS-
CoV-2 que examinamos, nuestros análisis evolutivos sugirieron que el tipo S era probablemente la versión más
antigua de SARS-CoV -2. Nuestros resultados también respaldan la idea de que el tipo L es más agresivo que el
tipo S. Dado que los sitios no anónimos están generalmente bajo una selección negativa más fuerte que los sitios
sinónimos, calcular las diferencias de secuencia sin separar estas dos clases de sitios podría conducir a una
subestimación potencialmente significativa del grado de divergencia molecular. Por ejemplo, aunque los
nucleótidos globales solo diferían en ~ 4% entre SARS-CoV-2 y RaTG13, el valor de dS promedio genómico, que
generalmente es neutral, fue de 0.17 entre estos dos virus (Tabla 1). Es de destacar que el valor de dS de todo el
genoma es 0.012 entre humanos y chimpancés [33], y 0.08 entre humanos y macacos rhesus [34]. Por lo tanto, la
divergencia molecular neutral entre SARS-CoV-2 y RaTG13 es 14 veces mayor que la existente entre humanos y
chimpancés, y el doble que la existente entre humanos y macacos. El valor de dS promedio genómico entre SARS-
CoV-2 y GD SARSr -CoV es 0.475, que es comparable al de humanos y ratones (0.5) [35], y el valor de dS entre
SARS-CoV-2 y GX SARSr -Cov es aún más grande (0.722). La escala de estas medidas sugiere que quizás
deberíamos considerar la diferencia en el sitio de evolución neutral, en lugar de la diferencia en todas las
secuencias de nucleótidos al rastrear el origen y el hospedador intermedio natural de SARS-CoV-2. Nuestros
análisis de la evolución molecular y la genética de la población sugirieron que algunos cambios de aminoácidos
podrían verse favorecidos por la selección natural durante la evolución del SARS-CoV-2 y otros virus relacionados.
Sin embargo, la selección negativa parece ser la fuerza predominante que actúa sobre estos virus. Curiosamente,
el virus aislado de un paciente en Shenzhen el 13 de enero de 2020 (SZ_2020 / 01 / 13.a, ID DE GISAID:
EPI_ISL_406592) tenía C en ambas posiciones 8.782 y 28.144 en el genoma, que no pertenecen ni al tipo L ni al
S (Fig. 4A y 5). Notablemente, esta cepa tenía una mutación sin sentido en orf1ab y había acumulado 20
mutaciones silenciosas y 5 no anónimas después de separase del haplotipo ancestral (Figura 4A). Por lo tanto, es
posible que las restricciones funcionales en la secuencia genómica se debilitaran después de la interrupción de
orf1ab en esta cepa. En particular, en los virus aislados de un paciente que vive en Corea del Sur (Skorea_2020 /
01.a, GISAID: EPI_ISL_411929), adquirió seis mutaciones no anónimas que eran diferentes del ancestro común
más reciente de SARS-CoV-2: orf1ab (M902I y T6891M), S (S221W), ORF3a (W128L y G251V) y E (L37H). Si
estos cambios no se deben a errores de secuenciación, sería interesante comprobar si estas mutaciones afectan
la transmisión y la patogénesis del SARS-CoV-2 y de qué manera. En este trabajo, proponemos que el SARS-
CoV-2 se pueda dividir en dos tipos principales (tipos L y S): el tipo S es ancestral y el tipo L evolucionó del tipo S.
Curiosamente, los tipos S y L se pueden definir claramente con solo dos SNP estrechamente vinculados en las
posiciones 8,782 (orf1ab: T8517C, sinónimos) y 28,144 (ORF8: C251T, S84L). Sin embargo, actualmente no está
claro si el tipo L evolucionó del tipo S en humanos o en los huéspedes intermedios. Tampoco está claro si el tipo
L es más virulento que el tipo S. orf1ab, que codifica replicasa / transcriptasa, se requiere para la replicación del
genoma viral y también podría ser importante para la patogénesis viral [36]. Aunque la mutación T8517C en orf1ab
no cambia la secuencia de la proteína (cambia el codón AGT (Ser) a AGC (Ser)), planteamos la hipótesis de que
esta mutación podría afectar la traducción de orf1ab ya que se prefiere AGT mientras que AGC no es preferible
(Tabla S2). ORF8 promueve la expresión de ATF6, el factor de respuesta de proteína desplegada ER, en células
humanas [37]. Por lo tanto, será interesante investigar la función del cambio S84L AA en ORF8, así como el efecto
combinatorio de estas dos mutaciones en la patogénesis del SARS-CoV-2. 648/5000.
En resumen, nuestros análisis de 103 genomas secuenciados de SARS-CoV-2 sugieren que el tipo L es más
agresivo que el tipo S y que la interferencia humana, puede haber cambiado la abundancia relativa de los tipos L
y S poco después del brote de SARS-CoV-2 . Como se señaló anteriormente [19], los datos examinados en este
estudio aún son muy limitados, y se necesitan análisis de seguimiento de un conjunto de datos más amplio para
7

comprender mejor la evolución y la epidemiología del SARS-CoV-2. Existe una gran necesidad de más estudios
inmediatos e integrales, que combinen datos genómicos, datos epidemiológicos y registros de los síntomas clínicos
de pacientes con SARS-CoV-2.

MATERIALES Y MÉTODOS
Evolución molecular del SARS-CoV-2 y otros virus relacionados
Un conjunto de 103 secuencias completas del genoma se descargaron de GISAID (Global Initiative) sobre
compartir todos los datos de la influenza; https://www.gisaid.org/) con reconocimiento,
GenBank(https://www.ncbi.nlm.nih.gov/genbank) y NMDC (http://nmdc.cn/#/nCoV). Secuencias y anotaciones del
genoma de referencia del SARS-CoV-2 (NC_045512) y otros relacionados los virus se descargaron de GenBank
o GISAID (Tabla S1). Las secuencias genómicas de SARS-CoV-2 se alinearon utilizando MUSCLE v3.8.31 [38]
Los CDS anotados de otros virus se descargaron de GenBank. Para evitar las anotaciones faltantes en otros virus,
también anotamos los ORF usando CDS anotados en SARS-CoV-2 usando Exonerate (--mode protein2genome:
bestfit --score 5 -g y) [39]. Las secuencias de proteínas de SARS-CoV-2 y otros virus relacionados se alinearon
con MUSCLE v3.8.31 [38], y las alineaciones de codones se realizaron en base a la alineación de proteínas con
RevTrans [40]. Las alineaciones de codones de los ORF conservados se concatenaron adicionalmente para el
análisis evolutivo aguas abajo. El árbol filogenético se construyó mediante el método de unión de vecinos en
MEGA-X [41] utilizando los parámetros del modelo Kimura de 2 parámetros, y solo se consideraron las terceras
posiciones de los codones. YN00 de PAML v4.9a [20] se utilizó para calcular la divergencia por pares entre SARS-
CoV-2 y otros virus para cada gen individual o para las secuencias concatenadas. El modelo de relación libre en
CODEML en el paquete PAML [20] se utilizó para calcular los valores dN, dS y ω para cada rama.

Aminoácido seleccionado positivamente


La selección positiva se detectó utilizando EasyCodeML [42], un contenedor recientemente publicado de CODEML
[20]. Se compararon los modelos M7 y M8. En el modelo M7, ω sigue una distribución beta tal que 0⩽ω⩽1, y en
el modelo M8, una proporción p0 de sitios se ha ω extraído de la distribución beta, y los sitios restantes con
proporción p1 se seleccionan positivamente y tienen ω1 > 1. Los LRT entre los modelos M7 y M8 se realizaron
comparando dos veces la diferencia en los valores de log-verosimilitud (2 ln Δl) frente a una distribución χ2 (df =
2). Los sitios seleccionados positivamente se identificaron con el puntaje Bayes Empirical Bayes (BEB) mayor a
0.95.

Red de haplotipos
Se usó DnaSP v6.12.03 [43] para generar datos de haplotipos alineados con múltiples secuencias, y PopART v1.7
[44] se usó para dibujar redes de haplotipos basadas en los haplotipos generados por DnaSP. RAxML v8.2.12 [45]
se usó para construir el árbol filogenético de máxima probabilidad de 103 genomas alineados de SARS-CoV-2 con
los parámetros "-p 1234 -m GTRCAT".

Proceso de llamadas SNP


Descargamos 12 bibliotecas de secuenciación metagenómica de SARS-CoV-2 (Tabla S2), y mapeamos las
lecturas de NGS al genoma de referencia de SARS-CoV-2 (NC_045512) usando BWA (0.7.17-r1188) [46] con los
parámetros predeterminados. La llamada SNP se realizó utilizando bcftools mpileup (bcftools 1.9) [47].

Análisis de sesgo de uso de codones


Calculamos el valor RSCU (uso relativo de codón sinónimo) de cada codón en el genoma de referencia SARS-CoV-
2 (NC_045512). El valor de RSCU para cada codón fue la frecuencia observada de este codón dividida por su
frecuencia esperada bajo el mismo uso entre el aminoácido [48]. Los codones con RSCU> 1 se definieron como
codones preferidos, y aquellos con RSCU <1 se definieron como codones no preferidos. El valor de FOP (frecuencia
de codones óptimos) de cada gen se calculó como el número de codones preferidos dividido por el número total
de codones preferidos y no preferidos.
8

BIBLIOGRAFÍA
1. Lu R, Zhao X, Li J, Niu P, Yang B, Wu H, et al. Genomic characterisation and epidemiology of 2019 novel coronavirus: implic ations for virus
origins and receptor binding. Lancet. 2020. Epub 2020/02/03. doi: 10.1016/S0140-6736(20)30251-8. PubMed PMID: 32007145.
2. Zhou P, Yang XL, Wang XG, Hu B, Zhang L, Zhang W, et al. A pneumonia outbreak associated with a new coronavirus of probable bat origin.
Nature. 2020. doi: 10.1038/s41586-020-2012-7. PubMed PMID: 32015507.
3. Ren L-L, Wang Y-M, Wu Z-Q, Xiang Z-C, Guo L, Xu T, et al. Identification of a novel coronavirus causing severe pneumonia in human: a
descriptive study. Chinese Medical Journal. 2020.
4. Cui J, Li F, Shi Z-L. Origin and evolution of pathogenic coronaviruses. Nature Reviews Microbiology. 2019;17(3):181-92. doi: 10.1038/s41579-
018-0118-9.
5. Li X, Song Y, Wong G, Cui J. Bat origin of a new human coronavirus: there and back again. Science China Life Sciences. 202 0. doi:
10.1007/s11427-020-1645-7.
6. Li W, Shi Z, Yu M, Ren W, Smith C, Epstein JH, et al. Bats are natural reservoirs of SARS-like coronaviruses. Science. 2005;310(5748):676-
9. Epub 2005/10/01. doi: 10.1126/science.1118391. PubMed PMID: 16195424.
7. Dominguez SR, O'Shea TJ, Oko LM, Holmes KV. Detection of group 1 coronaviruses in bats in North America. Emerg Infect Dis.
2007;13(9):1295-300. Epub 2008/02/07. doi: 10.3201/eid1309.070491. PubMed PMID: 18252098; PubMed Central PMCID: PMCPMC2857301.
8. Wu A, Peng Y, Huang B, Ding X, Wang X, Niu P, et al. Genome Composition and Divergence of the Novel Coronavirus (2019-nCoV)
Originating in China. Cell Host Microbe. 2020. Epub 2020/02/09. doi: 10.1016/j.chom.2020.02.001. PubMed PMID: 32035028.
9. Xu X, Chen P, Wang J, Feng J, Zhou H, Li X, et al. Evolution of the novel coronavirus from the ongoing Wuhan outbreak and modeling of its
spike protein for risk of human transmission. Sci China Life Sci. 2020. Epub 2020/02/06. doi: 10.1007/s11427-020-1637-5. PubMed PMID:
32009228.
10. Benvenuto D, Giovanetti M, Ciccozzi A, Spoto S, Angeletti S, Ciccozzi M. The 2019-new coronavirus epidemic: Evidence for virus evolution.
J Med Virol. 2020. Epub 2020/01/30. doi: 10.1002/jmv.25688. PubMed PMID: 31994738.
11. Zhou P, Yang X-L, Wang X-G, Hu B, Zhang L, Zhang W, et al. Discovery of a novel coronavirus associated with the recent pneumonia
outbreak in humans and its potential bat origin. bioRxiv. 2020.
12. Chan JF, Kok KH, Zhu Z, Chu H, To KK, Yuan S, et al. Genomic characterization of the 2019 novel human-pathogenic coronavirus isolated
from a patient with atypical pneumonia after visiting Wuhan. Emerg Microbes Infect. 2020;9(1):221-36. Epub 2020/01/29. doi:
10.1080/22221751.2020.1719902. PubMed PMID: 31987001.
13. Wei X, Li X, Cui J. Evolutionary Perspectives on Novel Coronaviruses Identified in Pneumonia Cases in China. National Science Review.
2020.
14. Paraskevis D, Kostaki EG, Magiorkinis G, Panayiotakopoulos G, Sourvinos G, Tsiodras S. Full-genome evolutionary analysis of the novel
corona virus (2019-nCoV) rejects the hypothesis of emergence as a result of a recent recombination event. Infect Genet Evol. 2020;79:104212.
Epub 2020/02/01. doi: 10.1016/j.meegid.2020.104212. PubMed PMID: 32004758.
15. Gralinski LE, Menachery VD. Return of the Coronavirus: 2019-nCoV. Viruses. 2020;12(2). Epub 2020/01/30. doi: 10.3390/v12020135.
PubMed PMID: 31991541.
16. Wong MC, Cregeen SJJ, Ajami NJ, Petrosino JF. Evidence of recombination in coronaviruses implicating pangolin origins of nCoV-2019.
bioRxiv. 2020.
17. Xiao K, Zhai J, Feng Y, Zhou N, Zhang X, Zou J-J, et al. Isolation and Characterization of 2019-nCoV-like Coronavirus from Malayan
Pangolins. bioRxiv. 2020:2020.02.17.951335. doi: 10.1101/2020.02.17.951335.
18. Lam TT-Y, Shum MH-H, Zhu H-C, Tong Y-G, Ni X-B, Liao Y-S, et al. Identification of 2019-nCoV related coronaviruses in Malayan pangolins
in southern China. bioRxiv. 2020:2020.02.13.945485. doi: 10.1101/2020.02.13.945485.
19. Wu C-I, Poo M-m. Moral imperative for the immediate release of 2019-nCoV sequence data. National Science Review. 2020. doi:
10.1093/nsr/nwaa030.
20. Yang Z. PAML 4: phylogenetic analysis by maximum likelihood. Mol Biol Evol. 2007;24(8):1586-91. Epub 2007/05/08. doi:
10.1093/molbev/msm088. PubMed PMID: 17483113.
21. Hanson G, Coller J. Codon optimality, bias and usage in translation and mRNA decay. Nature reviews Molecular cell biology. 20 18;19(1):20-
30. Epub 2017/10/11. doi: 10.1038/nrm.2017.91. PubMed PMID: 29018283.
22. Wan Y, Shang J, Graham R, Baric RS, Li F. Receptor recognition by novel coronavirus from Wuhan: An analysis based on decade-long
structural studies of SARS. J Virol. 2020. Epub 2020/01/31. doi: 10.1128/JVI.00127-20. PubMed PMID: 31996437.
23. Wrapp D, Wang N, Corbett KS, Goldsmith JA, Hsieh C-L, Abiona O, et al. Cryo-EM Structure of the 2019-nCoV Spike in the Prefusion
Conformation. bioRxiv. 2020:2020.02.11.944462. doi: 10.1101/2020.02.11.944462.
24. Ou X, Liu Y, Lei X, Li P, Mi D, Ren L, et al. Characterization of spike glycoprotein of 2019-nCoV on virus entry and its immune cross-reactivity
with spike glycoprotein of SARS-CoV. 2020:10.21203/rs.2.4016/v1. doi: 10.21203/rs.2.24016/v1. 25. Qu X-X, Hao P, Song X-J, Jiang S-M, Liu
Y-X, Wang P-G, et al. Identification of Two Critical Amino Acid Residues of the Severe Acute Respiratory Syndrome Coronavirus Spike Protein
for Its Variation in Zoonotic Tropism Transition via a Double Substitution Strategy. Journal of Biological Chemistry. 2005;28 0(33):29588-95.
26. Ren W, Qu X, Li W, Han Z, Yu M, Zhou P, et al. Difference in Receptor Usage between Severe Acute Respiratory Syndrome (SARS)
Coronavirus and SARS-Like Coronavirus of Bat Origin. Journal of Virology. 2008;82(4):1899. doi: 10.1128/JVI.01085-07.
27. Wu F, Zhao S, Yu B, Chen YM, Wang W, Song ZG, et al. A new coronavirus associated with human respiratory disease in China. Nature.
2020. Epub 2020/02/06. doi: 10.1038/s41586-020-2008-3. PubMed PMID: 32015508.
28. Ji W, Wang W, Zhao X, Zai J, Li X. Homologous recombination within the spike glycoprotein of the newly identified coronavirus may boost
cross‐species transmission from snake to human. Journal of medical virology. 2020.
29. Zhao Z, Li H, Wu X, Zhong Y, Zhang K, Zhang Y-P, et al. Moderate mutation rate in the SARS coronavirus genome and its implications.
BMC Evolutionary Biology. 2004;4(1):21. doi: 10.1186/1471-2148-4-21.
30. Zhang C, Wang M. Origin time and epidemic dynamics of the 2019 novel coronavirus. bioRxiv. 2020.
31. Yu W-B, Tang G-D, Zhang L, Corlett RT. Decoding evolution and transmissions of novel pneumonia coronavirus using the whole genomic
data. ChinaXiv. 2020:202002.00033. doi: 10.12074/202002.00033.
32. Barrett JC, Fry B, Maller J, Daly MJ. Haploview: analysis and visualization of LD and haplotype maps. Bioinformatics. 200 5;21(2):263-5.
Epub 2004/08/07. doi: 10.1093/bioinformatics/bth457. PubMed PMID: 15297300.
33. Waterson RH, Lander ES, Wilson RK, The Chimpanzee S, Analysis C. Initial sequence of the chimpanzee genome and comparison with
the human genome. Nature. 2005;437(7055):69-87. doi: 10.1038/nature04072.
9

34. Gibbs RA, Rogers J, Katze MG, Bumgarner R, Weinstock GM, Mardis ER, et al. Evolutionary and Biomedical Insights from the Rhesus
Macaque Genome. Science. 2007;316(5822):222. doi: 10.1126/science.1139247.
35. Waterston RH, Lindblad-Toh K, Birney E, Rogers J, Abril JF, Agarwal P, et al. Initial sequencing and comparative analysis of the mouse
genome. Nature. 2002;420(6915):520-62. Epub 2002/12/06. doi: 10.1038/nature01262. PubMed PMID: 12466850.
36. Graham RL, Sparks JS, Eckerle LD, Sims AC, Denison MR. SARS coronavirus replicase proteins in pathogenesis. Virus Res.
2008;133(1):88-100. Epub 2007/04/03. doi: 10.1016/j.virusres.2007.02.017. PubMed PMID: 17397959; PubMed Central PMCID:
PMCPMC2637536.
37. Hu B, Zeng L-P, Yang X-L, Ge X-Y, Zhang W, Li B, et al. Discovery of a rich gene pool of bat SARS-related coronaviruses provides new
insights into the origin of SARS coronavirus. PLOS Pathogens. 2017;13(11):e1006698. doi: 10.1371/journal.ppat.1006698.
38. Edgar RC. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res. 2004;32(5):1792-7. Epub
2004/03/23. doi: 10.1093/nar/gkh340. PubMed PMID: 15034147; PubMed Central PMCID: PMCPMC390337.
39. Slater GS, Birney E. Automated generation of heuristics for biological sequence comparison. BMC Bioinformatics. 2005;6:31. doi:
10.1186/1471-2105-6-31. PubMed PMID: 15713233; PubMed Central PMCID: PMCPMC553969.
40. Wernersson R, Pedersen AG. RevTrans: Multiple alignment of coding DNA from aligned amino acid sequences. Nucleic Acids Res.
2003;31(13):3537-9. Epub 2003/06/26. PubMed PMID: 12824361; PubMed Central PMCID: PMCPMC169015.
41. Kumar S, Stecher G, Li M, Knyaz C, Tamura K. MEGA X: Molecular Evolutionary Genetics Analysis across Computing Platforms. Mol Biol
Evol. 2018;35(6):1547-9. Epub 2018/05/04. doi: 10.1093/molbev/msy096. PubMed PMID: 29722887; PubMed Central PMCID:
PMCPMC5967553.
42. Gao F, Chen C, Arab DA, Du Z, He Y, Ho SYW. EasyCodeML: A visual tool for analysis of selection using CodeML. Ecol Evol.
2019;9(7):3891-8. Epub 2019/04/25. doi: 10.1002/ece3.5015. PubMed PMID: 31015974; PubMed Central PMCID: PMCPMC6467853.
43. Rozas J, Ferrer-Mata A, Sanchez-DelBarrio JC, Guirao-Rico S, Librado P, Ramos-Onsins SE, et al. DnaSP 6: DNA Sequence Polymorphism
Analysis of Large Data Sets. Mol Biol Evol. 2017;34(12):3299-302. doi: 10.1093/molbev/msx248. PubMed PMID: 29029172.
44. Leigh JW, Bryant D. popart: full-feature software for haplotype network construction. Methods in Ecology and Evolution. 2015;6(9):1110-6.
doi: 10.1111/2041-210x.12410.
45. Stamatakis A. RAxML version 8: a tool for phylogenetic analysis and post-analysis of large phylogenies. Bioinformatics. 2014;30(9):1312-3.
Epub 2014/01/24. doi: 10.1093/bioinformatics/btu033. PubMed PMID: 24451623; PubMed Central PMCID: PMCPMC3998144.
Downloaded
46. Li H, Durbin R. Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics. 2009;25(14):1754-60. Epub
2009/05/20. doi: 10.1093/bioinformatics/btp324. PubMed PMID: 19451168; PubMed Central PMCID: PMCPMC2705234.
47. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The Sequence Alignment/Map format and SAMtools. Bioinfor matics.
2009;25(16):2078-9. Epub 2009/06/10. doi: 10.1093/bioinformatics/btp352. PubMed PMID: 19505943; PubMed Central PMCID:
PMCPMC2723002.
48. Sharp PM, Li WH. Codon usage in regulatory genes in Escherichia coli does not reflect selection for 'rare' codons. Nucleic Acids Res.
1986;14(19):7737-49. Epub 1986/10/10. doi: 10.1093/nar/14.19.7737. PubMed PMID: 3534792; PubMed Central PMCID: PMCPMC311793.
10

Figura 1. Divergencia molecular y presiones selectivas durante la evolución del SARS-CoV-2 y virus
relacionados.
11

Figura 2. Los espectros de frecuencia de mutaciones derivadas en 103 virus SARS-CoV-2.

Figura 3. Desequilibrio de ligamiento entre SNP en los virus SARS-CoV-2


12

Figure 4. Análisis de Haplotipos del virus SARS-CoV-2


13

Figura 5. El árbol filogenético sin raíces del genoma 103 SARS-CoV-2


14

Figura 6. Los dos tipos de SARS-CoV-2 mostraron diferencias en las distribuciones temporales y espaciales.

Figura 7. La heteroplasmia de los virus SARS-CoV-2 en pacientes


humanos.
15
16

Las sustituciones nucleotídicas que cambian un aminoácido por otro se denominan mutaciones no sinónimas. En
otras ocasiones, la mutación altera la base situada en la tercera posición del codón, pero no causa sustitución
aminoacídica; en este caso se denomina mutaciones sinónimas (silenciosas).

La evolución convergente, convergencia evolutiva, o simplemente convergencia, se da cuando dos estructuras


similares han evolucionado independientemente a partir de estructuras ancestrales distintas y por procesos de
desarrollo muy diferentes, como la evolución del vuelo en los pterosaurios, las aves y los murciélagos.

Potrebbero piacerti anche