Parmi les types de données que les technologies IA exploitent pour construire des outils diagnostiques ou prédictifs se trouvent les séries temporelles. Ces dernières sont omniprésentes, que ce soit en médecine (avec l’enregistrement des battements du cœur, par exemple), en géologie (le suivi de l’activité sismique), en climatologie (les séries de mesures météorologiques) ou encore en finance (l’évolution des marchés).
L’un des principes de l’IA consiste à entraîner une machine avec un très grand nombre de données afin qu’elle les interprète et en apprenne des motifs utiles, ouvrant ainsi des possibilités immenses pour des diagnostics et des prédictions de plus en plus précis. Cependant, comme on ignore comment fonctionnent les algorithmes d’IA, de même que ce qui influence leurs résultats, la «boîte noire» de cette technologie soulève d’importantes questions de confiance.
«Le fonctionnement de ces algorithmes est pour le moins opaque, souligne le professeur Christian Lovis. Certes, les enjeux, financiers notamment, sont énormes. Mais comment faire confiance à une machine sans comprendre les bases de son raisonnement? Cette question est essentielle lorsque les décisions basées sur des IA peuvent influer sur des sujets critiques, comme dans les applications médicales, qui mettent en jeu le sort de patientes et de patients, ou dans le secteur financier, où elles peuvent mener à la perte de sommes substantielles.»
C’est pourquoi les scientifiques tentent de mettre au point des méthodes d’interprétabilité dont l’objectif est d’identifier les éléments qui ont penché en faveur ou en défaveur d’une solution dans une situation précise. Cela confère un peu de transparence à ces outils et augmente le niveau de confiance que l’on peut leur accorder. Le problème, c’est que les différentes méthodes d’interprétabilité déjà existantes, largement utilisées dans les applications pratiques et les flux de travail industriels, fournissent des résultats sensiblement différents lorsqu’elles se destinent à la même tâche. L’évaluation des méthodes d’interprétabilité devient donc aussi importante que l’interprétabilité elle-même.
Différencier l’important de l’inutile
Dans ce processus, il est essentiel de dégager les données importantes. Par exemple, lorsqu’une IA analyse des images, elle se concentre sur quelques attributs caractéristiques qui lui permettent, par exemple, de distinguer la représentation d’un chien de celle d’un chat. Le même principe vaut pour analyser des séquences temporelles: il faut que la machine puisse sélectionner les éléments – des pics plus prononcés que d’autres, par exemple – sur lesquels baser son raisonnement. Avec des signaux d’électrocardiogramme, il s’agira de réconcilier les signaux des différentes électrodes afin d’évaluer d’éventuelles dissonances qui seraient le signe de telle ou telle maladie cardiaque.
Afin de choisir la méthode d’interprétabilité parmi toutes celles disponibles pour un usage spécifique, les auteurs et autrices de l’article (dont le premier est Hugues Turbé, doctorant dans le laboratoire de Christian Lovis) ont mis au point deux nouvelles techniques d’évaluation. L’une pour reconnaître les parties les plus pertinentes d’une série temporelle et l’autre pour évaluer leur importance relative par rapport à la prédiction finale.
Les scientifiques vont maintenant tester leur méthode en milieu clinique où règne encore une certaine appréhension vis-à-vis des IA. Construire la confiance sur l’évaluation des IA est une étape clé vers leur adoption en milieu hospitalier. Cette étude porte sur l’évaluation des IA basées sur des séries temporelles mais la méthodologie pourrait aussi être transposée à des IA portant sur d’autres modalités utilisées en médecine, comme l’image ou le texte.