Filodinámica del COVID-19 en España

Podéis encontrar aquí un artículo muy reciente que reconstruye la filogenética del COBID-19, y a partir de ella su dinámica, especialmente en España.

En la práctica 5 no es necesario que tengáis en cuenta el origen geográfico de las secuencias pero siempre le podéis echar un vistazo  a este artículo y compararlo con vuestro árbol a ver si os sugiere algo. Ya veis que está ya muy establecido que existen tres subarboles principales que son G, V y S. Podéis ver si por ejemplo identificáis estos tres subarboles en vuestros resultados.

En concreto podéis usar esta información si os han tocado los genes ORF3a u ORF8, o bien si hacéis la filogenia con las secuencias completas (información sacada de 1 y 2):

– El subárbol S se caracteriza por una mutación de ORF8, 28144T>C (en la posición 28144 aparece C en lugar de T, número de posición siempre según la secuencia de referencia) y principalmente son secuencias de Norteamérica.

– El subárbol V se caracteriza por una mutación de ORF3a, 26144G>T (en la posición 26144 aparece T en lugar de G, número de posición siempre según la secuencia de referencia) y principalmente son secuencias de Asia y Europa.

– El subárbol G se caracteriza por una mutación de proteína S (posiciones 21563..25384) 23403A>G (en la posición 23403 aparece A en lugar de G, número de posición siempre según la secuencia de referencia) y principalmente son secuencias de Europa.

Notad que la información sobre el origen geográfico puede estar obsoleta en poco tiempo.

A día de hoy hay algún estudio preliminar que apunta a que el subárbol G es más patógeno que la media y el subárbol S menos (nótese que la notación deja mucho que desear, el subárbol G está basado en una mutación de la proteína S).

 

 

 

 

Filogenia del SARS-CoV-2

Aquí tenéis una nueva filogenia del SARS2.

Puede ser útil para tener una idea de la práctica 5 pero es bastante más de lo que se espera que hagáis por dos razones, la primera porque esto no es un árbol filogenético sino una red filogenética y la segunda porque los datos están coloreados por origen geográfico y esto en principio no lo tenéis que hacer.

Notación IUPAC para nucleótidos

Habréis notado que al descargaros las secuencias existentes de COVID-19 aparecen algunas letras distintas de las 4 bases habituales, por ejemplo la N. La N es cualquier base (es decir, no es un gap pero no se sabe cuál
es). Tenéis la notación completa en
https://en.wikipedia.org/wiki/Nucleic_acid_notation
Lo normal para el índice de conservación es contar sólo las 4 bases normales, pero cualquier interpretación coherente con
ese significado IUPAC es válida