Assessing host-specificity of Escherichia coli using a supervised learning logic-regression-based analysis of single nucleotide polymorphisms in intergenic regions

Citation

Zhi, S., Li, Q., Yasui, Y., Edge, T.A., Topp, E., et Neumann, N.F. (2015). « Assessing host-specificity of Escherichia coli using a supervised learning logic-regression-based analysis of single nucleotide polymorphisms in intergenic regions. », Molecular Phylogenetics and Evolution, 92, p. 72-81. doi : 10.1016/j.ympev.2015.06.007

Résumé

La spécificité de l’hôte chez E. coli est l’objet de nombreux débats. Dans la présente étude, nous avons utilisé une méthode d’apprentissage supervisé fondée sur la régression logique pour analyser la variabilité des séquences d’ADN intergénique chez E. coli et ainsi tenter de mettre en évidence des biomarqueurs de polymorphisme mononucléotidique (SNP, de l’anglais Single Nucleotide Polymorphism) d’E. coli qui sont associés à la sélection naturelle et à l’évolution vers la spécificité de l’hôte. Pour ce faire, nous avons isolé 780 souches d’E. coli de 15 hôtes animaux différents. Nous avons eu recours à la régression logique pour analyser les séquences d’ADN de 3 régions intergéniques (flanquées des gènes uspC‑flhDC, csgBAC‑csgDEFG et asnS‑ompF) et mettre en évidence les biomarqueurs génétiques qui pourraient éventuellement discriminer les souches d’E. coli d’après l’espèce hôte. La régression logique a réussi à discriminer les souches d’E. coli d’après l’hôte animal pour les 15 hôtes animaux, et ce, avec une spécificité (proportion des échantillons de l’hôte animal non ciblé qui ne présentait effectivement pas le profil de marqueurs spécifiques de l’hôte) et une sensibilité (proportion des échantillons d’un hôte animal donné qui présentait effectivement le profil de marqueurs spécifiques de l’hôte) relativement élevées, même après une validation croisée répétée cinq fois. Des tests de permutation ont confirmé que pour la plupart des animaux, les biomarqueurs intergéniques spécifiques de l’hôte mis en évidence par la régression logique étaient significativement associés à l’hôte animal. C’est chez les isolats provenant des cerfs que la sensibilité des biomarqueurs a été la plus élevée : 82 % de tous les isolats d’E. coli des cerfs ont affiché un profil SNP unique spécifique du cerf à 98 %. Cinquante-trois pour cent des isolats humains ont présenté un profil de biomarqueurs unique spécifique de l’humain à 98 %. Vingt-neuf pour cent des isolats de bovins ont affiché un biomarqueur unique spécifique des bovins à 97 %. Fait intéressant à signaler, même au sein d’un groupe d’hôtes apparentés (p. ex. famille des canidés [chiens domestiques et coyotes]), nous avons observé des biomarqueurs SNP très spécifiques (98 % et 99 % de spécificité pour les chiens et les coyotes, respectivement) : 21 % des isolats d’E. coli des chiens ont affiché un biomarqueur unique aux chiens et 61 % des isolats des coyotes, un biomarqueur unique aux coyotes. L’application d’une méthode d’apprentissage supervisé, telle que la régression logique, à l’analyse des séquences d’ADN de certaines régions intergéniques démontre qu’il existe des souches d’E. coli qui peuvent évoluer pour devenir spécifiques d’un hôte.

Date de publication

2015-11-01

Profils d'auteurs