Description exhaustive pangénomique des nucléotides et variation structurelle chez le soja à cycle court

Citation

Torkamaneh, D., Laroche, J., Tardivel, A., O'Donoughue, L., Cober, E., Rajcan, I., Belzile, F. (2018). Comprehensive description of genomewide nucleotide and structural variation in short-season soya bean. Plant Biotechnology Journal, [online] 16(3), 749-759. http://dx.doi.org/10.1111/pbi.12825

Résumé en langage clair

Nous avons utilisé un ensemble de 102 sojas à cycle court pour étudier la variation génétique, plus précisément la variation des séquences nucléotidiques et la variation de la structure de l’ADN. Nous avons relevé environ 5 millions de variations dans cet ensemble de sojas. À partir d’environ 1,7 M de variations, il était possible de distinguer les variétés. Nous avons utilisé le grand ensemble de données pour prédire les données manquantes dans un ensemble de densité beaucoup plus restreinte; les prédictions se sont avérées exactes dans 96,4 % des cas. Environ 92 K variations structurelles ont été détectées. Nous présentons ici la première description exhaustive de la variation des séquences d’ADN et des variations structurelles pour le soja canadien.

Résumé

© 2017 Society for Experimental Biology, Association of Applied Biologists and John Wiley & Sons Ltd. Le séquençage de nouvelle génération et les outils de bio-informatique ont grandement facilité la caractérisation de la variation des nucléotides; néanmoins, il demeure difficile de réaliser une description exhaustive de la diversité haplotypique des SNP et de la variation structurelle dans le cas de la plupart des espèces. Dans le cadre de la présente étude, nous avons séquencé un ensemble représentatif de 102 sojas à cycle court et avons mené une analyse approfondie de la diversité nucléotidique et de la variation structurelle. Nous avons trouvé près de 5 M variants de séquences (SNP, MNP et indels) et avons constaté que le nombre d’haplotypes unique avait plafonné dans cet ensemble de matériel génétique (1,7 M marqueurs SNP). Cet ensemble de données s’est avéré d’une grande exactitude (98,6 %) d’après une comparaison des génotypes prévus au niveau des loci partagés au moyen d’une puce SNP. Nous avons utilisé ce catalogue de SNP comme référence pour attribuer les génotypes manquants aux loci indéterminés dans les ensembles de données issues d’outils de génotypage de faible densité (150 K SNP déterminés par GBS / 530 échantillons). Après imputation, 96,4 % des génotypes manquants attribués de cette façon se sont avérés exacts. Nous avons utilisé une combinaison de trois pipelines bio-informatiques et avons relevé ~92 K de variations structurelles (suppressions, insertions, inversions, duplications, CNV et translocations), dont 90 % étaient exactes selon nos estimations. Enfin, nous avons remarqué qu’on pouvait attribuer à la duplication de certaines régions génomiques une grande partie de l’hétérozygotie résiduelle au niveau des loci SNP chez les obtentions de soja autrement très consanguins. Nous présentons ici la première description exhaustive de la diversité haplotypique des SNP et des variations structurelles pour un sous-ensemble d’une plante cultivée importante propre à une région.

Date de publication

2018-03-01

Profils d'auteurs