COMET, un nouveau cadre d’apprentissage automatique, intègre les données DSE et les analyses omiques à l’aide de l’apprentissage par transfert, améliorant considérablement la modélisation prédictive et découvrant des informations biologiques provenant de petites cohortes.
Étude : Une approche d’apprentissage automatique pour exploiter les dossiers de santé électroniques pour une analyse omique améliorée. Crédit image : LeoWolfert/Shutterstock
Dans une étude récente publiée dans la revue Intelligence des machines naturellesLes chercheurs ont présenté une analyse clinique et omique multimodale améliorée par l’apprentissage par transfert (COMET), un protocole d’apprentissage en profondeur et d’apprentissage par transfert.
Les progrès technologiques en omique ont révolutionné la compréhension biologique. Les tests protéomiques, métaboliques, transcriptomiques et autres ont permis une estimation rentable des analytes dans le même échantillon. Bien que ces tests génèrent des données de grande dimension, les contraintes budgétaires et cliniques limitent la taille des cohortes omiques. Par conséquent, des approches innovantes sont nécessaires pour augmenter les analyses de données de grande dimension.
Bien que les méthodes statistiques traitent les faux positifs, il existe moins de méthodes d’apprentissage automatique (ML). Certaines approches reposent sur l’apprentissage par transfert, une technique dans laquelle un modèle ML est appris à partir d’un ensemble de données de pré-formation qui est ensuite utilisé pour étudier un ensemble de données plus petit. Bien que des méthodes d’apprentissage en profondeur plus modernes aient été appliquées aux cadres statistiques, elles reposent principalement sur l’apprentissage à partir de métadonnées informatives ou de données omiques uniquement.
Le cadre COMET surmonte ces limitations en intégrant une pré-formation sur de grands ensembles de données de dossiers de santé électroniques (DSE) et en mélangeant des stratégies de fusion précoce et tardive, permettant ainsi d’améliorer les performances prédictives et la découverte biologique.
L’étude et les résultats
Dans la présente étude, les chercheurs ont présenté COMET, un protocole d’apprentissage en profondeur et d’apprentissage par transfert qui améliore les analyses omiques. COMET pourrait être appliqué lorsque les dossiers de santé électroniques (DSE) et les données omiques seront disponibles pour une cohorte de plus en plus restreinte. COMET comprend une méthode d’intégration des données longitudinales du DSE, de la pré-formation et de la modélisation multimodale.
COMET implique un modèle ML formé uniquement sur les données DSE dont les poids seront transférés vers une architecture multimodale formée et évaluée sur un échantillon plus petit avec des données omiques et DSE. Premièrement, COMET a été appliqué pour prédire les jours précédant le début du travail dans une cohorte de grossesses de plus de 30 904 personnes de Stanford Healthcare. Environ 61 femmes enceintes (cohorte omics) ont reçu plusieurs échantillons de plasma au cours des derniers jours de la grossesse, qui ont été utilisés pour générer un ensemble de données protéomiques mesurant 1 317 protéines.
etL’entrée dans COMET se compose de données DSE et (pour un sous-ensemble de patients) de données omiques tabulaires appariées. Les patients qui disposent uniquement de données DSE sont utilisés pour pré-entraîner (PT) un réseau neuronal afin de prédire les résultats pour les patients en utilisant uniquement les données DSE. Les poids de ce réseau DSE sont transférés vers un réseau neuronal multimodal utilisé pour analyser à la fois les données DSE et omiques ; le réseau neuronal est utilisé pour la modélisation prédictive et l’analyse de réseau post-hoc est utilisée pour la découverte biologique. Le cadre COMET est flexible et peut être utilisé pour prédire n’importe quel résultat continu ou binaire. bLes vecteurs codés à chaud des données DSE (indiqués en blanc) sont convertis en intégrations (indiquées en bleu) à l’aide de word2vec ; les intégrations pour chaque code qui se produisent au cours d’une journée particulière sont moyennées pour calculer les intégrations séquentielles et récapitulatives. cCOMET utilise une architecture d’apprentissage profond multimodale pour analyser à la fois les données DSE et les données omiques. Seules les données du DSE sont utilisées pendant la phase de pré-formation ; l’architecture de base est un RNN avec des unités récurrentes fermées. Après la pré-formation, les poids RNN sont gelés et transférés dans une architecture multimodale qui analyse à la fois les données DSE et omiques.
Les données du DSE dès le début de la grossesse grâce à des prélèvements sanguins ont été utilisées pour prédire les jours précédant le début du travail. Après une pré-formation sur les données DSE uniquement (sur 30 843 individus), les poids ont été transférés vers un réseau multimodal formé pour faire des prédictions sur la cohorte omics. Le modèle a atteint un coefficient de corrélation de Pearson de 0,868 (intervalle de confiance à 95 % (0,825, 0,900)), démontrant sa forte capacité prédictive. Il existait une forte corrélation entre le nombre de jours prévu jusqu’au début du travail et le nombre réel de jours jusqu’au début du travail, ce qui indique que COMET était très précis dans les petites cohortes disposant de données multidimensionnelles.
-Ensuite, COMET a été comparé aux modèles de base utilisant uniquement des données protéomiques, des données DSE, ou les deux. Ces modèles de base utilisaient uniquement des données de cohorte omiques sans pré-formation. Le modèle de base DSE uniquement a montré les pires performances, atteignant une corrélation de 0,768, tandis que le modèle protéomique uniquement a obtenu des résultats légèrement meilleurs à 0,796. Le modèle de référence commun était le meilleur parmi les modèles de référence, avec une corrélation de 0,815, même si elle restait inférieure à celle de COMET.
Pour obtenir des informations plus approfondies, les chercheurs ont utilisé l’intégration de voisins stochastiques distribués en T (t-SNE) pour visualiser les données multimodales en projetant la matrice de corrélation en deux dimensions, révélant ainsi des groupes significatifs de caractéristiques basées sur leurs modèles de corrélation. Les entités proches montrent des corrélations similaires avec toutes les autres variables de l’espace. Ces groupes ont été annotés sur la base des concepts médicaux que représentent les caractéristiques du DSE ou des protéines au sein de chaque groupe. Diverses protéines ont montré des corrélations significatives avec les variables DSE.
L’équipe a calculé l’importance des caractéristiques de chaque protéine. Les protéines identifiées comme hautement significatives dans les modèles COMET étaient corrélées au développement fœtal, aux complications de la grossesse et à l’âge gestationnel, conformément aux connaissances biologiques établies. Ensuite, COMET a été appliqué à une cohorte de cancers de la UK Biobank pour prédire la mortalité par cancer sur trois ans. Les participants étaient tous des patients ayant reçu un diagnostic de cancer dans les cinq ans suivant leur inscription.
Un sous-ensemble de participants avait des échantillons de sang qui ont été analysés pour obtenir des données protéomiques. Ils ont été inclus dans la cohorte omics si les échantillons ont été collectés dans l’année suivant le diagnostic du cancer. COMET a systématiquement obtenu des résultats supérieurs dans la prévision de la mortalité par cancer à trois ans par rapport à toutes les lignes de base, avec une aire sous la courbe caractéristique de fonctionnement du récepteur (AUROC) de 0,842, surpassant significativement la ligne de base commune (AUROC 0,786) et les modèles à modalité unique. La prévalence de la mortalité à trois ans dans la cohorte omics était de 5,5 %.
De plus, le t-SNE a été utilisé pour visualiser la matrice de corrélation, qui a révélé moins de chevauchement entre les modalités des données DSE et protéomiques, contrairement aux données sur le début du travail. Néanmoins, il existait des corrélations significatives entre les modalités de données DSE et protéomiques lorsque le réseau de corrélation était visualisé, chaque modalité étant projetée individuellement en deux dimensions. La protéine 2, similaire au facteur de mortalité 4, présentait les corrélations les plus fortes avec les caractéristiques du DSE, en particulier les prescriptions de médicaments, soulignant son potentiel en tant que biomarqueur pronostique.
Une grande proportion de protéines provenant de patients atteints de cancer (66 %) n’ont montré aucune corrélation avec aucune variable du DSE. De plus, les chercheurs ont estimé la corrélation entre chaque fonctionnalité DSE et toutes les protéines ainsi que la corrélation maximale entre toutes les protéines pour chaque fonctionnalité DSE. Cela a révélé de nombreuses caractéristiques du DSE présentant de faibles corrélations avec les protéines chez les patients cancéreux, soulignant l’intérêt d’inclure plusieurs modalités de données.
Protéines montrant une plus grande importance dans les modèles COMET et alignées sur les biomarqueurs pronostiques du cancer connus. Il est important de noter que neuf protéines les plus significatives dans les modèles COMET étaient statistiquement associées au statut de mortalité, validant ainsi la pertinence biologique du modèle.
Conclusions
En résumé, l’étude a illustré la capacité de COMET à augmenter la modélisation prédictive sur plusieurs tâches grâce à la pré-formation et à l’apprentissage par transfert. COMET a produit des modèles mieux régularisés, qui reflétaient plus précisément la biologie connue. De plus, les modèles COMET ont identifié des protéines biologiquement pertinentes pour des résultats de santé spécifiques.
Dans les modèles de travail précoce, COMET a révélé des protéines cruciales pour les complications de la grossesse, la régulation immunitaire et le développement placentaire, les valeurs de corrélation de Pearson soutenant sa force prédictive. Pour la mortalité par cancer, les protéines identifiées étaient celles impliquées dans la prolifération tumorale et la modulation du microenvironnement. Dans l’ensemble, COMET fournit une base pour délimiter les relations complexes entre les phénotypes cliniques et les mécanismes moléculaires.