SACCHARIS : Un pipeline automatisé pour simplifier la découverte de l’activité enzymatique des glucides dans les familles polyspécifiques et les ensembles de données de séquences de novo

Citation

Jones, D.R., Thomas, D., Alger, N., Ghavidel, A., Douglas Inglis, G., Wade Abbott, D. (2018). SACCHARIS: An automated pipeline to streamline discovery of carbohydrate active enzyme activities within polyspecific families and de novo sequence datasets. Biotechnology for Biofuels, [online] 11(1), http://dx.doi.org/10.1186/s13068-018-1027-x

Résumé en langage clair

Amélioration de l’utilisation des aliments pour animaux, réutilisation des résidus agricoles; La production durable d’énergie, de carburants et de bioproduits est une priorité croissante pour le Canada. Pour résoudre ces problèmes, les approches de prochaine génération aideront à stimuler la science et l’innovation fondées sur la découverte. À cet égard, les « enzymes à activité glucidique » (c.-à-d. les CAZymes) sont des catalyseurs protéiques qui modifient les glucides. Les CAZymes remplissent divers rôles essentiels dans la nature, allant de la synthèse de polysaccharides qui fortifient les parois cellulaires des plantes à la libération de sucres simples à partir de polysaccharides complexes durant la digestion des animaux. Il est important de noter que les CAZymes peuvent servir à diverses applications en agriculture et représentent des technologies vertes et durables pour la conversion de la biomasse en produits utiles. La découverte de nouvelles enzymes qui permettront d’améliorer l’efficacité d’un processus catalytique (c.-à-d. générer un produit plus rapidement) ou de catalyser une nouvelle réaction sont des exploits difficiles. Ce défi est aggravé par l’abondance de l’information génétique séquencée et la vitesse à laquelle elle s’accumule. À l’heure actuelle, les bases de données regorgent de séquences protéiques, de génomes et de métagénomes putatifs. En particulier, le catalogage des « microbiomes » (c’est-à-dire l’ensemble des gènes d’une communauté) et la communication des changements induits par l’hôte ou le régime alimentaire ne sont pas des pratiques courantes. Le tri de ce vaste réservoir d’informations génétiques pour déterminer quelles fonctions inconnues sont présentes ou ce que signifient les changements dans la structure des communautés pour la performance des animaux demeure une tâche difficile et relativement lente. En effet, l’attribution d’une fonction à la séquence a créé un goulot d’étranglement dans le pipeline de découverte de CAZyme. De nouvelles approches qui aident à rationaliser ce processus mèneront probablement à des découvertes révolutionnaires, à des applications pour le microbiome et à des innovations pour l’agriculture canadienne. En tant que membres du réseau des technologies propres d’AAC, M. Abbott et ses collègues du Centre de recherche et de développement de Lethbridge ont tenté d’« élargir le goulot d’étranglement » pour la découverte de CAZyme. Son équipe a mis au point un nouveau pipeline bioinformatique appelé SACCHARIS (Sequence Analysis and Clustering of CarboHydrate Active enzymes for Rapid Informed Prediction of Specificity), dérivé du mot grec sákkʰaris ou sucre. SACCHARIS identifie des protéines prédites pour coder des CAZymes avec de nouvelles activités à partir des ensembles de données de séquence. Cet outil peut être utilisé pour explorer des génomes et même des métagénomes pour la découverte de CAZyme. De plus, SACCHARIS peut également générer des empreintes CAZome pour prédire le potentiel métabolique caractéristique de deux organismes ou plus. Bien qu’il n’ait été publié que récemment, le pipeline a déjà permis d’obtenir la protection par brevet de deux activités enzymatiques uniques et a permis de découvrir plusieurs fonctions protéiques qui n’avaient pas encore été décrites. À l’heure actuelle, les efforts visant à exploiter le SACCHARIS pour d’autres priorités de recherche à AAC, comme l’ingénierie des parois cellulaires des cultures de bioraffinage, la programmation du microbiome intestinal ou la compréhension du rôle des CAZymes dans les maladies des cultures.

Résumé

© 2018 Les auteurs. Contexte : Le dépôt de nouvelles séquences génétiques dans les bases de données en ligne augmente à un rythme sans précédent. Par conséquent, l’identification des séquences continue de dépasser la caractérisation fonctionnelle des enzymes à activité glucidique (CAZymes). Dans ce paradigme, la découverte d’enzymes ayant de nouvelles fonctions est souvent entravée par un grand nombre de séquences non caractérisées, en particulier lorsque la séquence enzymatique appartient à une famille qui présente diverses spécificités fonctionnelles (c.-à-d., la polyspécificité). Par conséquent, pour orienter la découverte et la caractérisation de nouvelles activités enzymatiques à partir de séquences, nous avons mis au point un pipeline automatisé in silico intitulé Sequence Analysis and Clustering of CarboHydrate Active enzymes for Rapid Informed Prediction of Specificity (SACCHARIS). Ce pipeline rationalise la sélection de séquences non caractérisées pour la découverte de nouvelles spécificités de CAZyme ou de CBM parmi les familles actuellement conservées sur le site Web de la CAZy ou dans des ensembles de données définis par l’utilisateur. Résultats : SACCHARIS a été utilisé pour générer un arbre phylogénétique d’une famille de GH43, une famille CAZyme avec des désignations de sous-famille définies. Cette analyse a confirmé que de grands ensembles de données peuvent être organisés en groupes de séquences de tailles gérables possédant des fonctions connexes. L’ensemencement de cet arbre avec une séquence GH43 de Bacteroides dorei DSM 17855 (BdGH43b), a révélé qu’il était divisé en une seule séquence dans l’arbre. Ce profil concordait avec le fait qu’il possédait une activité enzymatique unique pour la GH43, car BdGH43b est la première α-glucanase décrite pour La capacité de SACCHARIS à extraire et à grouper des séquences de modules de liaison aux glucides a été démontrée à l’aide des CBM de la famille 6. Cette famille présente un profil de liaison de ligands polyspécifiques et contient de nombreux membres dont la structure est déterminée. Utilisation de SACCHARIS pour identifier un groupe Il a été démontré qu’une séquence CBM6 d’un clade unique se lie au mannane de levure, ce qui représente la première description d’un CBM se liant au α-mannane. De plus, nous avons effectué une analyse CAZome d’un génome bactérien séquencé en interne et une analyse comparative analyse de B. thetaiotaomicron VPI-5482 et B. thetaiotaomicron 7330, pour démontrer que SACCHARIS peut générer « des empreintes digitales de CAZome », qui différencient le potentiel saccharolytique de deux souches apparentées in silico. Conclusions : L’établissement de relations séquence-fonction et séquence-structure dans des familles de CAZymes polyspécifiques sont des approches prometteuses pour simplifier la découverte d’enzymes. SACCHARIS facilite ce processus en intégrant des arbres généalogiques de CAZyme et de CBM générés à partir de séquences caractérisées sur le plan biochimique à des séquences structurales, avec des séquences de protéines dont les fonctions sont inconnues. De plus, ces arbres peuvent être intégrés à des ensembles de données définis par l’utilisateur (p. ex. génomique, métagénomique et transcriptomique) pour éclairer la caractérisation expérimentale de nouvelles CAZymes ou CBM qui n’ont pas encore été conservées, et pour permettre aux chercheurs de comparer les profils de séquence différentiels entre des CAZomes entiers. Dans cette optique, SACCHARIS fournit un outil in silico qui peut être adapté pour la bioprospection enzymatique dans des ensembles de données de complexité croissante et pour diverses applications en glycobiotechnologie.

Date de publication

2018-02-05

Profils d'auteurs