Nouvelle méthode de décontamination des transcriptomes de novo à l’aide d’un algorithme de regroupement hiérarchique

Citation

Lafond-Lapalme, J., Duceppe, M.-O., Wang, S., Moffett, P., Mimee, B. (2017). A new method for decontamination of de novo transcriptomes using a hierarchical clustering algorithm, 33(9), 1293-1300. http://dx.doi.org/10.1093/bioinformatics/btw793

Résumé en langage clair

Les nouvelles techniques de séquençage (décodage du génome) permettent de savoir quels gènes sont exprimés par un organisme dans une condition donnée. Par contre, ces techniques génèrent un très grand nombre de données qu’il faut trier. Il arrive souvent que ces données soient « contaminées » dû à la présence d’un deuxième organisme non-voulu. Par exemple, l’analyse d’un insecte qui est infecté par un champignon générera des données mélangées de ces organismes, ce qui n’est pas souhaité. Les méthodes précédentes afin de « décontaminer » ces données avaient un potentiel limité. Nous présentons dans ces travaux une nouvelle méthode très prometteuse basée sur la reconnaissance de motifs génétiques. Cette méthode permet de trier les données et de les associer à un seul organisme même sans connaissance des organismes présents dans l’échantillon.

Résumé

L’auteur 2017. Publié par Oxford University Press. Tous droits réservés. Objectif : La recherche de séquences contaminantes dans un assemblage de novo est difficile en raison de l’absence de données sur les espèces ciblées. Dans le cas d’échantillons pour lesquels l’organisme cible est impossible à isoler de sa matrice, par exemple les endoparasites, les espèces endosymbiotiques et les échantillons recueillis dans le sol, la contamination est inévitable. Il existe quelques méthodes de décontamination après assemblage, mais ces méthodes reposent uniquement sur l’alignement aux bases de données, ce qui peut conduire à une faible décontamination. Résultats : Nous présentons une nouvelle méthode de décontamination faisant appel à un algorithme de regroupement hiérarchique appelé MCSC. Cette méthode utilise des motifs fréquents trouvés dans les séquences pour créer des regroupements. Ces regroupements sont alors associés à l’espèce cible ou marqués comme contaminants à l’aide d’outils classiques d’alignement. Le principal avantage de cette méthode de décontamination est qu’elle permet aux séquences d’être marquées correctement même si elles sont inconnues ou mal alignées dans une base de données.

Date de publication

2017-05-01

Profils d'auteurs