Évaluation d’outils d’appel de variantes pour le reséquençage du génome des grandes plantes

Citation

Yao, Z., You, F.M., N'Diaye, A., Knox, R.E., McCartney, C., Hiebert, C.W., Pozniak, C., Xu, W. (2020). Evaluation of variant calling tools for large plant genome re-sequencing. BMC Bioinformatics, [online] 21(1), http://dx.doi.org/10.1186/s12859-020-03704-1

Résumé en langage clair

La recherche de variants de polymorphismes mononucléotidiques (SNP) à partir de séquences du génome des plantes cultivées est une stratégie largement utilisée pour mettre au point des marqueurs génétiques, notamment en vue de la sélection assistée par marqueurs. Il est essentiel mais difficile de détecter avec exactitude les SNP dans les grands génomes des plantes polyploïdes, comme le blé. L’objectif de la présente étude était d’évaluer sept outils servant à l’appellation de variants de SNP en utilisant des données de reséquençage correspondant à l’exome entier de blé allohexaploïde. D’après la concordance et la courbe ROC (fonction d’efficacité du récepteur), la spécificité et la sensibilité de l’outil d’appellation des variants Samtools/mpileup utilisé en combinaison avec l’outil de cartographie BWA-mem sur des lectures de séquences brutes de l’exome entier du blé ont surpassé celles des autres combinaisons essayées. Globalement, dans le cas du génome complexe du blé, nous recommandons d’utiliser la combinaison BWA-mem et Samtools/mpileup pour l’appellation des variants de SNP. Il s’agirait d’un bon point de départ pour d’autres espèces polyploïdes dont on fait la culture. Il n’est pas nécessaire de prétraiter les données de lecture brutes avant d’en faire la cartographie sur le génome de référence. En ce qui concerne le filtrage des SNP, il est recommandé de trouver au moins 3 lectures contenant le variant, avec une qualité moyenne d’au moins 5; le filtrage peut être plus rigoureux selon les besoins de l’étude. Notre étude fournira des conseils pratiques et complets pour une identification plus exacte et cohérente des variants, ce qui nous permettra ultimement de recueillir des données sur les variants du génome des plantes cultivées à des fins de sélection, d’étude de la diversité et de génotypage du matériel génétique.

Résumé

© 2020, les auteurs. Contexte : La recherche de polymorphismes mononucléotidiques (SNP) à partir de séquences du génome de plantes cultivées est une stratégie largement utilisée pour la mise au point de marqueurs génétiques destinés à diverses applications, dont la sélection assistée par marqueurs, l’étude de la diversité des populations à des fins d’adaptation écogéographique, le génotypage de collections de matériel génétique de grande culture, etc. Il est essentiel mais difficile de détecter avec exactitude les SNP dans les grands génomes des plantes polyploïdes, comme le blé. Quelques méthodes ont été mises au point pour déterminer l’appellation de variants, mais il n’y a qu’un faible degré de cohérence entre les appellations qu’elles proposent. Un étalon-or d’ensembles de variants générés à partir d’un seul échantillon humain a déjà été mis au point pour évaluer l’outil d’appellation des variants. Par contre, jusqu’à présent, il n’existe aucun étalon-or d’ensembles de variants de cultures pour le blé. Le but de cette étude était donc d’évaluer sept outils d’appellation de variants de SNP (FreeBayes, GATK, Platypus, Samtools/mpileup, SNVer, VarScan, VarDict) en combinaison avec les deux outils de cartographie les plus populaires (BWA-mem et Bowtie2) en utilisant des données de reséquençage correspondant à l’exome entier de blé allohexaploïde. Résultats : Nous avons constaté que l’outil de cartographie BWA-mem avait un taux de cartographie et un taux d’exactitude plus élevés que l’outil Bowtie2. Pour un même seuil de qualité de cartographie, l’outil BWA-mem a détecté plus de bases de variants dans les lectures que l’outil Bowtie2. Le traitement des lectures par « rognage de qualité » ou « suppression des doublons » n’a pas eu d’effet notable sur la cartographie finale du point de vue des lectures. D’après la concordance et la courbe ROC (fonction d’efficacité du récepteur), la spécificité et la sensibilité de l’outil d’appellation des variants Samtools/mpileup utilisé en combinaison avec l’outil de cartographie BWA-mem sur des lectures de séquences brutes ont surpassé celles des autres combinaisons essayées. Les outils FreeBayes et GATK se sont classés au deuxième et au troisième rang, respectivement, en ce qui concerne la spécificité et la sensibilité. VarDict et VarScan étaient les outils dont la spécificité et la sensibilité étaient les moins bonnes avec les données de séquençage de l’exome entier du blé. Conclusion : La combinaison BWA-mem et Samtools/mpileup, sans prétraitement des données de lecture brutes avant la cartographie sur le génome de référence, s’est avérée le meilleur moyen de déterminer l’appellation des variants de SNP en vue du reséquençage du génome complexe du blé. Ces résultats fournissent également des lignes directrices utiles pour l’identification fiable des variants à partir du séquençage profond d’autres grands génomes de plantes polyploïdes cultivées.