Nommer les souches de SARS-CoV-2 : Une nouvelle approche pour prévenir la stigmatisation liée à la nomenclature basée sur l’origine géographique, tout en facilitant l’épidémiologie génomique et le suivi des variants.
Il y a une certaine confusion autour des nomenclatures des variants des souches du SARS-CoV-2, responsables de la COVID19, circulant dans les différents pays. Les épidémiologistes, les experts de la santé et les politiciens s’inquiètent concernant les associations géographiques faites pour certains variants du virus. Ils ont conclu que nommer les variants en fonction de l’origine géographique (ou en fait, du lieu de la première découverte) n’est pas seulement potentiellement inexact, mais peut stigmatiser des pays ou des régions et conduire à des « complications géopolitiques ». La carbapénémase NDM-1 « New Delhi » ou la grippe « mexicaine » en 2009, par exemple, ont déclenché des réactions politiques. Plus ancienne, la grippe « espagnole » est un exemple de nom trompeur. L’OMS a récemment proposé (voir Meilleures pratiques pour nommer les maladies infectieuses humaines) d’utiliser une nomenclature géographiquement neutre pour éviter d’envoyer des signaux erronés ou stigmatisants.
Pourtant, la nomenclature des variants du SARS-CoV-2 n’est pas couverte par les directives de l’OMS, ni par le code taxonomique des virus (ICTV ?). Actuellement, il n’existe pas d’approche universelle pour classer la diversité génétique virale en dessous du niveau de l’espèce. « Sans doute il faudrait un schéma de classification standardisé pour nommer les variants du virus, car le système actuel est totalement chaotique et source de frustration pour ceux d’entre nous qui identifient régulièrement de nouveaux virus », dit Edward Holmes, virologue à l’Université de Sydney en Australie. Compte tenu de toutes les mutations dans la séquence génétique du SARS-CoV-2, il existe déjà des milliers de variants. « Essayer de nommer tous les variants va générer un vaste catalogue avec peu de compréhension de ce qui est important et de ce qui ne l’est pas. Le risque est que chaque souche avec une ou deux mutations soit mise en lumière. En nommant « un variant », nous le signalons comme alarmant même si ce n’est pas le cas par rapport à d’autres lignées circulantes », explique Andrew Rambaut, biologiste évolutionniste à l’Université d’Édimbourg. Alors, comment mettre en œuvre une nomenclature universelle pour les variants du SARS-CoV-2 tout en essayant de réduire la complexité liée à la diversité génétique naturelle des isolats ?
Dans un travail récent, Rambaut et al. (2020) ont publié un système de nomenclature standardisé et dynamique, qui désigne les variants alarmants du SARS-CoV-2 en fonction de la phylogénie : les « lignées Pango ». Ce système propose des codes numériques à trois niveaux (représentant des étapes évolutives distinctes) suivant un préfixe alphabétique, défini sur la base des deux lignées phylogénétiques ancestrales, A ou B. Une nouvelle lignée (par exemple, B.1) est attribuée si elle émerge d’une branche phylogénétique ancestrale et se propage dans plusieurs pays ou régions tout en (a) montrant des différences nucléotidiques communes avec la lignée ancestrale ; (b) incluant au moins cinq génomes ; (c) qui partagent au moins une mutation ; et (d) avec une valeur de bootstrap > 70% pour le nœud définissant la nouvelle lignée. Si les critères (a – d) sont satisfaits, les lignées peuvent elles-mêmes servir d’ancêtres pour des lignées descendantes qui évoluent dans le temps et l’espace, par exemple B.1.1. Les descendants sont définis en utilisant un processus itératif jusqu’à trois sous-niveaux (par exemple, B.1.1.1) ; d’où la source du fameux B.1.1.7 « variant anglais ». Ensuite, les nouvelles lignées descendantes reçoivent une lettre (dans l’ordre alphabétique anglais à partir de C), donc B.1.1.1.1 deviendrait C.1.
Le système de nomenclature Pango n’est pas conçu pour nommer tous les variants génétiques, qui à la fin de la pandémie seront au nombre de nombreux milliers, mais uniquement les clusters de séquences (caractérisés par des combinaisons de mutations) associés à des événements biologiques et épidémiologiques. Les lignées Pango sont en fait conçues pour attirer l’attention sur les souches émergentes de la pandémie, leur relations génétiques, et la récente histoire des génomes du virus. Le système de nomenclature Pango examine les lignées (et non les « clades », « génotypes » ou autres) du SARS-CoV-2 en fonction de leur dynamique (elles sont censées émerger et disparaître avec le temps), plutôt que de s’appuyer sur une structure hiérarchique statique et exclusive. Pour mieux interpréter les lignées SARS-CoV-2 qui circulent activement dans la population, Rambaut et al. proposent de les définir « actives » (observées pendant le dernier mois), « non observées » (vues pour la dernière fois il y a plus de 1 mois mais moins de 3 mois) ou « inactives » (pas observées pour plus de 3 mois). Cela permettra le suivi des lignées qui contribuent davantage à l’épidémie à un instant T, tout en réduisant le nombre de noms utilisés et en préservant la possibilité que de nouvelles lignées apparaissent.
La nomenclature Pango n’est pas exclusive d’autres systèmes, en particulier pour le suivi épidémiologique de transmissions locales, mais peut favoriser les études génomiques et l’épidémiologie en temps réel des souches circulant grâce à des règles acceptées par la communauté. Alors que plus de 100 000 séquences génomiques complètes du SARS-CoV-2 sont disponibles, l’adoption d’une nomenclature unifiée et standardisée, plutôt que des systèmes locaux alternatifs, est essentielle afin de classer la diversité du virus. Cela nécessite un engagement fort de la communauté scientifique et aboutira à une amélioration de la communication internationale et réduira la confusion, facilitant ainsi la surveillance épidémiologique.
Usagers, il s’agit maintenant d’agir : consultez le https://cov-lineages.org pour tracer les clusters et attribuer un nom aux variants du virus en fonction des lignées Pango !
A ne pas rater :
Les inscriptions sont ouvertes pour la conférence virtuelle « Bioinformatique appliquée à la microbiologie en santé publique » (05 – 07 mai 2021). Assurez-vous de soumettre votre résumé avant le 9 mars 2021 et inscrivez-vous avant le 28 avril 2021 à ce lien.
A regarder sans hésiter :
Exposé de Sam Sheppard sur l’épidémiologie génomique et le concept de lignée vs souches au workshop sur l’analyse des données COVID-19 « ARTIC network et CLIMB-BIG-DATA » (14-15 janvier 2021), à ce lien.
Section Epidémiologie et Génomique des populations
Federica Palma (fpalma@pasteur.fr)
Centre de Ressources Biologiques de l’Institut Pasteur
INSTITUT PASTEUR
25-28 rue du Docteur Roux
75724 Paris Cedex 15
Sylvain Brisse (sbrisse@pasteur.fr)
Centre de Ressources Biologiques de l’Institut Pasteur
Unité Biodiversité et Epidémiologie des Bactéries Pathogènes
INSTITUT PASTEUR
25-28 rue du Docteur Roux
75724 Paris Cedex 15