• Recherche

Qu’est-ce qui nous protège? Valoriser les données cliniques pour orienter la recherche

Pourquoi certaines personnes ne tombent pas malades, malgré les facteurs de risque qu’elles présentent? Serait-il possible, en revisitant les données cliniques de centaines de milliers de patientes et patients, d’identifier précisément les facteurs de protection contre telle ou telle maladie? Et, plus largement, comment gérer, comprendre, et enrichir des milliards de données cliniques pour les exploiter utilement? Le projet HERO, mené par l’équipe de Christian Lovis, professeur ordinaire au Département de radiologie et informatique médicale de la Faculté de médecine de l’UNIGE et médecin-chef du Service des sciences de l’information médicale des HUG, vise précisément ce but. Rencontre avec Mina Bjelogrlic, chercheuse principale de ce projet.

Numéro 51 - décembre 2024

illustrationHERO.png

Image générée par Chat-GTP

Dre Bjelogrlic, en quoi consiste l’approche de HERO?

A l’heure actuelle, la recherche biomédicale se concentre surtout sur l’identification et l’atténuation des facteurs de risque. Avec HERO — pour Human Extraordinary Robust Organism ou organisme humain extraordinairement robuste — nous voulons renverser ce paradigme en prenant la question à l’envers: pourquoi certaines personnes ne tombent pas malades malgré la présence des mêmes facteurs de risque que chez les personnes qui, elles, tombent malades? Et comment identifier ces facteurs de protection? 

Certes, il arrive que les scientifiques découvrent par hasard un élément clé de protection dans une population donnée. Notre projet vise à forcer la chance pour identifier automatiquement ces personnes et augmenter la probabilité de découvrir des facteurs de protection dont elles bénéficient. En modifiant le point d’observation, nous pourrons ainsi élargir la vision que l’on a des maladies et ainsi accélérer la recherche. 

Pour simplifier, vous voulez en quelques sortes développer une boussole pour orienter la recherche…

In fine, oui! Et pour y arriver, la mise en forme des données pour pouvoir les exploiter est en soi une étape cruciale et immensément utile. Nous partons de trois hypothèses: il existe des facteurs de protection, ces facteurs s'expriment chez les patients et patientes, et il est possible d’identifier les populations exprimant ces facteurs de protection à partir des données enregistrées dans leurs dossiers médicaux, en l’occurrence les dossiers des centaines de milliers de personnes soignées à un moment donné aux Hôpitaux universitaires de Genève (HUG) au cours des 20 dernières années – soit environ 1.5 millions de patientes et patients et plus de 14 milliards d’informations les concernant et pour lesquelles nous avons construit des métadonnées descriptives sémantiques très précises et un outils de construction de cohortes à partir de critères d’inclusion et d’exclusion sémantiques.

Notre méthode va utiliser la plupart des données enregistrées dans les dossiers des patients et patientes pour détecter celles et ceux qui bénéficient probablement de facteurs de protection encore inconnus. De plus, notre approche ne se concentre pas sur une maladie, mais bien sur une méthodologie d’exploitation des données applicable ensuite à la recherche sur tous types de pathologies, ou même dans une démarche de médecine clinique personnalisée. Les possibilités sont immenses!

Mais comment allez-vous traiter ces milliards de données si disparates pour en extraire un sens pertinent sans vous noyer dans la masse d’informations?

Il s’agit en effet d’un défi majeur: structurer et cartographier des données issues de sources très hétérogènes (rapports médicaux, résultats de laboratoires, imagerie, questionnaires, etc.) pour en construire une représentation sémantique. Autrement dit, aller de la donnée à l'information qu'il y a derrière la donnée pour construire un modèle de corrélation multidimensionnelle capable de représenter assez finement les patientes et patients et découvrir à large échelle les anomalies statistiques qui ne correspondent pas aux schémas de conséquences attendus. 

La représentation des cohortes que produit notre modèle doit cependant être assez subtile pour faire la distinction entre les personnes bénéficiant de facteurs de protection et celles n’en bénéficiant pas. Un problème bien connu en sciences des données, que l’on appelle la malédiction de la dimensionnalité: plus on a de types de données en entrée, plus il faut que le modèle soit grand et plus il faut qu’il voie de données pour pouvoir apprendre. Il faut donc réduire cette dimensionnalité sans pour autant perdre en discriminabilité.

Par exemple, si je m’intéresse à la question de la douleur, je peux ne pas avoir besoin de différencier les différents types de douleurs. Je peux alors agréger la dimension de la douleur pour remonter au concept parent et prendre en compte dans mon analyse tous les concepts apparentés à la douleur. Cependant, il faut conserver les différents concepts de douleur pour pouvoir y avoir recours ultérieurement. Il s’agit donc d'une réduction dimensionnelle sans perte d’information. Notre stratégie est en cela très originale et pourra être utilisée dans des champs de recherche particuliers comme les maladies rares, où le nombre de patient-es et souvent trop petit pour une recherche ciblée. En réduisant la dimensionalité, cela permettrait d’augmenter la cohorte de personnes ayant des particularités similaires pour pouvoir orienter la recherche.

HERO a commencé en 2023. Où en êtes-vous maintenant?

Notre projet est construit en 4 étapes: l’extraction et structuration des données cliniques, la construction du réseau multidimensionnel de corrélation pour représenter ces données, l’entraînement du modèle d’apprentissage profond, puis enfin l’exploitation du modèle pour identifier des cohortes bénéficiant de facteurs de protection encore inconnus. Nous avons quasiment réalisé les deux premières étapes, le chemin est donc encore loin! Ces premières étapes ont pu être réalisées grâce à un subside philanthropique exceptionnel de Monsieur Nicolas Pictet. Nous cherchons maintenant à renforcer nos financements à long terme pour assurer l’avenir de nos recherches.

Mina Bjelogrlic est titulaire d'un doctorat en électromagnétisme computationnel de l'EPFL. Spécialiste du traitement du signal pour les applications biomédicales, elle a développé des outils de modélisation des champs électromagnétiques à haute fréquence pour l’imagerie. Ses travaux actuels concernent le développement d’algorithmes d'apprentissage automatique sur des données médicales (texte, signal et image) avec un accent fort sur la transparence des modèles d’apprentissage. Maître-assistante dans le laboratoire de Christian Lovis, elle y a la responsabilité des projets de machine learning.

Dans le même numéro

S'abonner à la newsletter

S'abonner