Wu Enhui, Qiao Liang*
Département de chimie, Université Fudan, Shanghai 200433, Chine
Les micro-organismes sont étroitement liés aux maladies et à la santé humaines. Comment comprendre la composition des communautés microbiennes et leurs fonctions est une question majeure qui doit être étudiée de toute urgence. Ces dernières années, la métaprotéomique est devenue un moyen technique important pour étudier la composition et la fonction des micro-organismes. Cependant, en raison de la complexité et de la grande hétérogénéité des échantillons de communautés microbiennes, le traitement des échantillons, l’acquisition et l’analyse de données par spectrométrie de masse sont devenus les trois défis majeurs auxquels est actuellement confrontée la métaprotéomique. Dans l’analyse métaprotéomique, il est souvent nécessaire d’optimiser le prétraitement de différents types d’échantillons et d’adopter différents schémas microbiens de séparation, d’enrichissement, d’extraction et de lyse. Semblables au protéome d'une seule espèce, les modes d'acquisition de données de spectrométrie de masse en métaprotéomique incluent le mode d'acquisition dépendant des données (DDA) et le mode d'acquisition indépendant des données (DIA). Le mode d'acquisition de données DIA peut collecter complètement les informations peptidiques de l'échantillon et présente un grand potentiel de développement. Cependant, en raison de la complexité des échantillons de métaprotéome, l’analyse des données DIA est devenue un problème majeur qui entrave la couverture approfondie de la métaprotéomique. En termes d’analyse des données, l’étape la plus importante est la construction d’une base de données de séquences protéiques. La taille et l'exhaustivité de la base de données ont non seulement un impact important sur le nombre d'identifications, mais affectent également l'analyse au niveau des espèces et des fonctions. À l’heure actuelle, la référence en matière de construction d’une base de données de métaprotéomes est une base de données de séquences protéiques basée sur le métagénome. Dans le même temps, la méthode de filtrage des bases de données publiques basée sur la recherche itérative s’est également révélée avoir une grande valeur pratique. Du point de vue des stratégies d’analyse de données spécifiques, les méthodes d’analyse de données DIA centrées sur les peptides ont occupé une place dominante absolue. Avec le développement de l’apprentissage profond et de l’intelligence artificielle, cela favorisera grandement la précision, la couverture et la vitesse d’analyse des données macroprotéomiques. En termes d’analyse bioinformatique en aval, une série d’outils d’annotation ont été développés ces dernières années, qui peuvent effectuer l’annotation des espèces au niveau des protéines, des peptides et des gènes afin d’obtenir la composition des communautés microbiennes. Comparée à d’autres méthodes omiques, l’analyse fonctionnelle des communautés microbiennes est une caractéristique unique de la macroprotéomique. La macroprotéomique est devenue une partie importante de l’analyse multiomique des communautés microbiennes et présente encore un grand potentiel de développement en termes de profondeur de couverture, de sensibilité de détection et d’exhaustivité de l’analyse des données.
01Prétraitement de l'échantillon
À l’heure actuelle, la technologie métaprotéomique est largement utilisée dans la recherche sur le microbiome humain, les sols, les aliments, les océans, les boues actives et d’autres domaines. Comparé à l’analyse du protéome d’une seule espèce, le prétraitement du métaprotéome d’échantillons complexes est confronté à davantage de défis. La composition microbienne des échantillons réels est complexe, la plage dynamique d'abondance est large, la structure de la paroi cellulaire des différents types de micro-organismes est très différente et les échantillons contiennent souvent une grande quantité de protéines hôtes et d'autres impuretés. Par conséquent, lors de l’analyse du métaprotéome, il est souvent nécessaire d’optimiser différents types d’échantillons et d’adopter différents schémas microbiens de séparation, d’enrichissement, d’extraction et de lyse.
L'extraction de métaprotéomes microbiens à partir de différents échantillons présente certaines similitudes ainsi que quelques différences, mais il manque actuellement un processus de prétraitement unifié pour différents types d'échantillons de métaprotéome.
02Acquisition de données par spectrométrie de masse
Dans l'analyse du protéome par fusil de chasse, le mélange peptidique après prétraitement est d'abord séparé dans la colonne chromatographique, puis entre dans le spectromètre de masse pour l'acquisition des données après ionisation. Semblables à l’analyse du protéome d’une seule espèce, les modes d’acquisition de données par spectrométrie de masse dans l’analyse du macroprotéome incluent le mode DDA et le mode DIA.
Avec l'itération et la mise à jour continues des instruments de spectrométrie de masse, des instruments de spectrométrie de masse avec une sensibilité et une résolution plus élevées sont appliqués au métaprotéome, et la profondeur de couverture de l'analyse du métaprotéome est également continuellement améliorée. Depuis longtemps, une série d’instruments de spectrométrie de masse à haute résolution dirigée par Orbitrap est largement utilisée dans le métaprotéome.
Le tableau 1 du texte original présente quelques études représentatives sur la métaprotéomique de 2011 à aujourd'hui en termes de type d'échantillon, de stratégie d'analyse, d'instrument de spectrométrie de masse, de méthode d'acquisition, de logiciel d'analyse et de nombre d'identifications.
03Analyse des données de spectrométrie de masse
3.1 Stratégie d'analyse des données du DDA
3.1.1 Recherche dans la base de données
3.1.2de novostratégie de séquençage
3.2 Stratégie d'analyse des données DIA
04Classification des espèces et annotation fonctionnelle
La composition des communautés microbiennes à différents niveaux taxonomiques est l’un des domaines de recherche clés de la recherche sur le microbiome. Ces dernières années, une série d’outils d’annotation ont été développés pour annoter les espèces au niveau des protéines, des peptides et des gènes afin d’obtenir la composition des communautés microbiennes.
L’essence de l’annotation fonctionnelle est de comparer la séquence protéique cible avec la base de données de séquences protéiques fonctionnelles. À l’aide de bases de données sur la fonction des gènes telles que GO, COG, KEGG, eggNOG, etc., différentes analyses d’annotations fonctionnelles peuvent être effectuées sur des protéines identifiées par les macroprotéomes. Les outils d'annotation incluent Blast2GO, DAVID, KOBAS, etc.
05Résumé et perspectives
Les micro-organismes jouent un rôle important dans la santé humaine et les maladies. Ces dernières années, la métaprotéomique est devenue un moyen technique important pour étudier le fonctionnement des communautés microbiennes. Le processus analytique de la métaprotéomique est similaire à celui de la protéomique d'une seule espèce, mais en raison de la complexité de l'objet de recherche en métaprotéomique, des stratégies de recherche spécifiques doivent être adoptées à chaque étape d'analyse, du prétraitement des échantillons à l'acquisition des données en passant par l'analyse des données. À l'heure actuelle, grâce à l'amélioration des méthodes de prétraitement, à l'innovation continue de la technologie de spectrométrie de masse et au développement rapide de la bioinformatique, la métaprotéomique a fait de grands progrès en termes de profondeur d'identification et de champ d'application.
Lors du processus de prétraitement des échantillons de macroprotéome, la nature de l’échantillon doit être prise en compte en premier. Comment séparer les micro-organismes des cellules et protéines environnementales est l’un des principaux défis auxquels sont confrontés les macroprotéomes, et l’équilibre entre l’efficacité de la séparation et la perte microbienne est un problème urgent à résoudre. Deuxièmement, l’extraction des protéines des micro-organismes doit tenir compte des différences provoquées par l’hétérogénéité structurelle des différentes bactéries. Les échantillons de macroprotéomes de l’ordre des traces nécessitent également des méthodes de prétraitement spécifiques.
En termes d'instruments de spectrométrie de masse, les instruments de spectrométrie de masse traditionnels ont subi une transition depuis les spectromètres de masse basés sur des analyseurs de masse Orbitrap tels que LTQ-Orbitrap et Q Exactive vers des spectromètres de masse basés sur des analyseurs de masse à temps de vol couplés à la mobilité ionique tels que timsTOF Pro. . La série d'instruments timsTOF avec informations sur les dimensions de mobilité ionique présente une précision de détection élevée, une limite de détection faible et une bonne répétabilité. Ils sont progressivement devenus des instruments importants dans divers domaines de recherche nécessitant une détection par spectrométrie de masse, tels que le protéome, le métaprotéome et le métabolome d'une seule espèce. Il convient de noter que pendant longtemps, la plage dynamique des instruments de spectrométrie de masse a limité la profondeur de la couverture protéique de la recherche sur les métaprotéomes. À l’avenir, des instruments de spectrométrie de masse dotés d’une plage dynamique plus large pourront améliorer la sensibilité et la précision de l’identification des protéines dans les métaprotéomes.
Pour l’acquisition de données par spectrométrie de masse, bien que le mode d’acquisition de données DIA ait été largement adopté dans le protéome d’une seule espèce, la plupart des analyses de macroprotéome actuelles utilisent toujours le mode d’acquisition de données DDA. Le mode d'acquisition de données DIA peut obtenir entièrement les informations sur les ions fragments de l'échantillon et, par rapport au mode d'acquisition de données DDA, il a le potentiel d'obtenir pleinement les informations peptidiques de l'échantillon de macroprotéome. Cependant, en raison de la grande complexité des données DIA, l’analyse des données macroprotéomiques DIA se heurte encore à de grandes difficultés. Le développement de l’intelligence artificielle et de l’apprentissage profond devrait améliorer la précision et l’exhaustivité de l’analyse des données DIA.
Dans l’analyse des données de métaprotéomique, l’une des étapes clés est la construction d’une base de données de séquences protéiques. Pour les domaines de recherche populaires tels que la flore intestinale, des bases de données microbiennes intestinales telles que IGC et HMP peuvent être utilisées, et de bons résultats d'identification ont été obtenus. Pour la plupart des autres analyses métaprotéomiques, la stratégie de construction de base de données la plus efficace consiste toujours à établir une base de données de séquences protéiques spécifiques à un échantillon, basée sur les données de séquençage métagénomique. Pour les échantillons de communauté microbienne présentant une complexité élevée et une plage dynamique étendue, il est nécessaire d’augmenter la profondeur de séquençage afin d’augmenter l’identification des espèces en faible abondance, améliorant ainsi la couverture de la base de données de séquences protéiques. Lorsque les données de séquençage font défaut, une méthode de recherche itérative peut être utilisée pour optimiser la base de données publique. Cependant, la recherche itérative peut affecter le contrôle qualité du FDR, les résultats de la recherche doivent donc être soigneusement vérifiés. En outre, l’applicabilité des modèles traditionnels de contrôle de qualité FDR dans l’analyse métaprotéomique mérite toujours d’être explorée. En termes de stratégie de recherche, la stratégie de bibliothèque spectrale hybride peut améliorer la profondeur de couverture de la métaprotéomique DIA. Ces dernières années, la bibliothèque spectrale prédite générée sur la base de l’apprentissage profond a montré des performances supérieures en protéomique DIA. Cependant, les bases de données de métaprotéomes contiennent souvent des millions d’entrées de protéines, ce qui donne lieu à une grande échelle de bibliothèques spectrales prédites, consomme beaucoup de ressources informatiques et donne lieu à un vaste espace de recherche. De plus, la similarité entre les séquences protéiques dans les métaprotéomes varie considérablement, ce qui rend difficile la garantie de l'exactitude du modèle de prédiction de la bibliothèque spectrale, de sorte que les bibliothèques spectrales prédites n'ont pas été largement utilisées en métaprotéomique. En outre, de nouvelles stratégies d’inférence et d’annotation de classification de protéines doivent être développées pour s’appliquer à l’analyse métaprotéomique de protéines hautement similaires en séquence.
En résumé, en tant que technologie émergente de recherche sur le microbiome, la technologie métaprotéomique a obtenu des résultats de recherche importants et présente également un énorme potentiel de développement.
Heure de publication : 30 août 2024