Genetic diversity analysis of highly incomplete snp genotype data with imputations: An empirical assessment

Citation

Fu, Y.B. (2014). « Genetic Diversity Analysis of Highly Incomplete SNP Genotype Data with Imputations: An Empirical Assessment. », G3: Genes, Genomes, Genetics, 4(5), p. 891-900. doi : 10.1534/g3.114.010942

Résumé

Le génotypage par séquençage est récemment apparu comme une approche génomique prometteuse pour l’évaluation de la diversité génétique à l’échelle du génome. Le déséquilibre particulièrement important des données génotypiques ainsi obtenues soulève toutefois bon nombre de préoccupations. On a proposé de recourir à l’imputation des génotypes pour inférer les observations manquantes, mais la fiabilité de l’analyse de diversité génétique fondée sur les données de génotypage par séquençage demeure incertaine, compte tenu du fait que jusqu’à 90 % des observations sont manquantes. Nous avons effectué une évaluation empirique de l’exactitude d’une analyse de diversité génétique de génotypes très incomplets établis à partir des polymorphismes mononucléotidiques et complétés par des données imputées. Trois grands ensembles de données portant sur des génotypes de maïs, de blé et de riz établis à partir des polymorphismes mononucléotidiques ont été acquis. Les données manquantes (jusqu’à 90 % des observations) ont été générées aléatoirement, puis imputées aux génotypes incomplets à l’aide de trois méthodes d’imputation indépendantes de la carte. L’estimation de l’hétérozygotie et du coefficient d’autofécondation à partir des données originales, manquantes et imputées a révélé la variabilité des biais dus aux niveaux évalués de données manquantes et d’imputation, mais les biais d’estimation étaient moindres pour les données manquantes sans imputation. Les estimations de la différenciation génétique étaient assez robustes jusqu’au seuil de 90 % d’observations manquantes, mais étaient considérablement biaisées lorsque les génotypes incomplets étaient complétés par imputation. Les valeurs estimées quant à l’exactitude de la topologie de quatre échantillons représentatifs des groupes à l’étude diminuaient généralement avec l’augmentation du nombre de génotypes incomplets. L’imputation fondée sur l’analyse probabiliste en composantes principales a donné de meilleurs résultats en termes d’exactitude de la topologie que les analyses de données manquantes sans imputation. Ces résultats sont importants pour la compréhension de la fiabilité de l’analyse de la diversité génétique lorsque de nombreuses données sont manquantes et qu’on a recours à l’imputation, et ils pourront aider à réaliser des analyses de diversité génétique appropriées lorsque les données de génotypage par séquençage ou les autres données génotypiques dont on dispose sont très incomplètes.

Date de publication

2014-01-01

Profils d'auteurs