Thèse effectuée sous la direction d'Olivier Tenaillon au sein de IAME (faculté de médecine de l'hôpital Bichat) et de l'équipe Robustesse et évolvabilité de la vie dirigée par Ivan Matic
Résumé :
Les 81 440 génomes rassemblés couvrent la diversité naturelle d’Escherichia coli. Les souches isolées chez l’humain et plus précisément dans un contexte clinique sont largement représentées. En particulier, 11 000 de ces génomes sont des Shigella, des souches pathogènes obligatoires des primates ayant adopté un mode de vie intra-cellulaire. Pour étudier ces 81 440 génomes, j’en ai extrait les séquences codantes que j’ai organisées dans une base de données. Une comparaison du core génome de ces souches m’a permis de les répartir en 240 clusters à partir desquels j’ai pu inférer une phylogénie globale de l’espèce corrigée pour la recombinaison.
En appliquant le DCA à des milliers de core gènes d’E. coli, j’ai montré qu’il pouvait prédire les acides aminés natifs de cette espèce mais aussi les polymorphismes qui y sont observés. Le DCA prédit également la probabilité d’observer une mutation à une certaine fréquence. Ce faisant, il permet de mettre en évidence des différences d’efficacité de la sélection naturelle entre différentes sous-populations d’E. coli. En particulier, la sélection naturelle semble nettement moins efficace dans les souches de Shigella, en accord avec la taille efficace réduite de cette population.
Le contexte génétique s’est avéré clé dans la qualité des prédictions faites par le DCA. Ce contexte se construit sur des échelles de temps longues par l’addition de nombreuses interactions faibles entre acides aminés. Celles-ci n’affectent pas tous les résidus d’une protéine de la même manière. Le DCA permet de prédire la variabilité de ces résidus. En particulier, entre 30% et 50% des sites d’une protéine sont extrêmement contraints par le contexte génétique d’E. coli. Une mutation sur l’un de ces sites sera généralement délétère si elle survient seule. Ces sites ne tolèrent donc pratiquement pas de polymorphismes. Cependant ils peuvent coévoluer sur de longues échelles de temps de sorte que les acides aminés qui y sont observés varient largement d’une espèce à l’autre.
Le présent travail démontre l’intérêt de coupler l’étude de larges banques de génomes à des approches de modélisation pour comprendre l’évolution d’une espèce sur différentes échelles de temps.