Campus n°129

Des émotions de synthèse pour étudier les vraies

DO2.JPG

Les chercheurs du Pôle de recherche en Sciences affectives basé à Genève ont mis au point un logiciel permettant de créer à volonté des émotions sur des visages. Le programme « FACSGen » devrait être disponible pour la communauté scientifique cette année encore

«Une des dernières choses que nous avons perfectionnées, ce sont les yeux, explique Lucas Tamarit, ingénieur de recherche au Centre interfacultaire des sciences affectives (CISA). Il nous a fallu du temps pour obtenir un résultat réaliste. » Le visage de synthèse tridimensionnel affiché sur l’écran d’ordinateur possède en effet un regard naturel et neutre, comme l’ensemble de son expression faciale d’ailleurs, ce qui est exactement ce que le chercheur attend de lui. En jouant avec un curseur du logiciel FACSGen, qu’il a contribué à développer au sein du Pôle de recherche national (PRN) « Sciences affectives », Lucas Tamarit fait tourner les yeux vers la gauche. Avec une autre commande, le regard s’abaisse. Le mouvement est fluide, les globes ne subissent aucune déformation, le blanc de l’œil n’est pas trop blanc. En poussant un troisième bouton, c’est la commissure gauche des lèvres qui se lève. Un quatrième fait monter légèrement la pommette. On sourit en retour : l’illusion est parfaite.
« À partir d’un visage de synthèse, le logiciel FACSGen est capable de générer n’importe quelle émotion faciale, poursuit le chercheur. L’objectif de cet outil est la production de stimuli visuels qui peuvent être montrés à des volontaires dans des expériences visant à étudier la perception et la reconnaissance des émotions. Ils sont destinés à remplacer les banques d’images auxquelles les chercheurs ont recours depuis des décennies et qui représentent des « poseurs », c’est-à-dire des acteurs exprimant toute une série d’émotions comme la peur, la colère, le dégoût, la joie, etc. »
Les visages artificiels de FACSGen ont sur les acteurs l’avantage de pouvoir contrôler précisément tous les paramètres d’une expression faciale, qu’il s’agisse de sa nature, de son intensité ou de sa dynamique. Il est également possible de choisir sans difficulté n’importe quelle combinaison d’âge, d’ethnie et de genre pour l’avatar sur lequel est sculptée l’émotion. Ce qui est impossible avec les banques d’images de personnes réelles, même les plus complètes, qui sont actuellement à disposition.
Aujourd’hui assuré par Lucas Tamarit, le développement de FACSGen a commencé en 2006 dans le cadre du travail de thèse en psychologie d’Étienne Roesch, aujourd’hui professeur associé à l’Université de Reading au Royaume-Uni. Dirigé par Klaus Scherer et David Sanders, l’ancien et l’actuel directeur du PRN « sciences affectives », le doctorant a construit son logiciel sur la base d’un programme commercial déjà existant, FaceGen. Utilisé dans le monde des jeux vidéo, il permet de générer, de façon aléatoire ou contrôlée, une infinité d’identités en trois dimensions de n’importe quel âge, genre, ethnie, forme ou couleur. À l’époque, c’est ce qui se faisait de mieux dans le domaine.

Maillage affiné

Le logiciel genevois FACSGen est conçu de telle façon qu’il peut reprendre ces visages et en raffiner le maillage afin d’obtenir un rendu à plus haute résolution. Sur cette trame de base, le logiciel ajoute l’expression proprement dite. Celle-ci est simulée à l’aide de ce que les chercheurs appellent les « unités d’action » (UA).
Définies par le psychologue américain Paul Ekman, ces UA correspondent aux mouvements du visage les plus élémentaires qu’un individu peut produire et dont la combinaison permet de recréer toutes les expressions faciales possibles. Il en existe une soixantaine telles que l’activation des zygomatiques, l’ouverture de la bouche et des lèvres, la hausse des sourcils, etc.
Pour les besoins du logiciel genevois, chacune de ces UA a été sculptée en trois dimensions sur des maillages à haute résolution, afin de pouvoir en contrôler l’activation et la dynamique dans le cas de petits films. L’atelier de graphisme suisse Trait d’Esprit mandaté à cet effet s’est basé sur des photographies pour recréer les émotions de synthèse, ce qui a représenté un véritable défi, notamment dans la simulation des rides qui apparaissent dans de nombreuses expressions.
Pour augmenter la vraisemblance et gommer l’apparence trop lisse des visages, le logiciel genevois dispose également d’une importante banque d’images de personnes réelles, photographiées sous différents angles, dont la texture de la peau, avec toutes ses imperfections, peut être « colée » sur l’avatar.

Mirettes animées

Les yeux, quant à eux, ont subi plusieurs changements. Dans les premières versions du logiciel, ils font partie du maillage général du visage, comme si l’entier du visage, cornée comprise, était constitué d’une seule pièce de tissu. Du coup, le fait de changer la direction du regard entraînait une déformation peu séante des globes oculaires.
Une première solution a été inspirée par Pixar, la société de production de films d’animation (Toy Story, WALL-E, Vice Versa…), qui partage avec la communauté mondiale sa méthode de fabrication des mirettes animées. Le résultat est satisfaisant en ce qui concerne le contrôle des yeux, mais il n’est pas très esthétique. En effet, chez les avatars au regard Pixar, le blanc des yeux trop éclatant donne un peu l’impression d’avoir affaire à un personnage surnaturel. Il faut attendre quelques années supplémentaires avant que Lucas Tamarit parvienne à résoudre ce problème et offre enfin à ses créatures des yeux qui ne donnent pas l’impression de vouloir vous envoûter.

Jeu d’enfant

Mais c’est quand il commence à animer ses personnages émotifs que le logiciel FACSGen donne toute la mesure de ses capacités. En manipulant quelques curseurs et quelques courbes temporelles, faire évoluer une expression devient en effet un jeu d’enfant. La difficulté principale réside dans le bon dosage et la bonne coordination des UA, du mouvement des yeux et celui de la tête afin d’obtenir l’expression voulue.
La question essentielle consiste d’ailleurs à savoir si les émotions créées par le logiciel, qu’elles soient statiques ou dynamiques, jouent le rôle que l’on attend d’elles, à savoir si elles sont à même de remplacer les stimuli traditionnels basés sur des photographies de personnes réelles. Un article paru le 19 novembre 2010 dans le Journal of Nonverbal Behavior présente quatre études permettant de valider le logiciel ainsi que la méthodologie générale consistant à générer des expressions faciales de synthèse et totalement contrôlées à des fins de stimuli. Une deuxième version du programme informatique est publiée le 16 janvier 2012 dans la revue Émotion.
Le logiciel est désormais un outil régulièrement utilisé par les chercheurs du CISA (lire page suivante). Pour l’instant, toutefois, malgré une forte demande de la part de la communauté scientifique, FACSGen n’est pas encore sorti des locaux du CISA. Le fait que le logiciel contienne le programme commercial FaceGen, rend en effet impossible de le diffuser gratuitement. Il a donc fallu choisir une autre solution. Après de longues et fastidieuses démarches, FACSGen devrait enfin être disponible pour les chercheurs du monde entier dans le courant de l’année 2017. Moyennant finance.

L’émotion et le contexte social

Christian Mumenthaler, post-doctorant et chercheur au Centre interfacultaire en sciences affectives, a souvent utilisé le logiciel FACSGen permettant de générer des expressions faciales. Entretien.

Campus : En quoi le logiciel FACSGen est-il utile dans vos recherches sur les émotions ?
Christian Mumenthaler : Les photos montrant des acteurs mimant différentes émotions ont longtemps rendu service, mais elles représentent désormais une limite dans l’étude de la reconnaissance émotionnelle. Si l’on demande à plusieurs « poseurs » de jouer de la colère à 80 %, par exemple, il n’y aura pas deux résultats identiques. Les images statiques sont également très limitées dans le cas d’expressions complexes telles que la fierté ou l’embarras et pour lesquelles la composante dynamique, notamment les mouvements de la tête et des yeux, est essentielle. De plus, il est très difficile de trouver des banques d’images comprenant des expressions faciales peu orthodoxes telles que la douleur ou mettant en scène des contextes sociaux particuliers. Tous ces obstacles sont levés avec le logiciel FACSGen, qui permet de faire évoluer les émotions à volonté avec des petits films et même faire interagir plusieurs visages entre eux en les faisant se regarder, détourner le regard, s’éviter, etc.

Quel est l’objectif de vos recherches ?
J’essaie de comprendre de quelle façon le contexte social influence notre capacité à reconnaître les émotions. Je montre par exemple à des volontaires des visages de synthèse exprimant une émotion ambiguë. Je mélange
de la peur avec de la surprise, de la colère avec du dégoût ou encore de la honte avec de la tristesse, c’est-à-dire à chaque fois des expressions faciales qui se confondent facilement. Dès que l’on maîtrise un peu le logiciel, on peut produire facilement un grand nombre d’avatars ayant ces caractéristiques. On connaît en effet les « unités d’actions » qui codent pour chacune de ces émotions (lire ci-contre) et on peut les combiner à loisir. Il convient bien sûr d’effectuer un test de validation, pour être sûr que les visages obtenus produisent bien l’effet désiré. Nous choisissons ensuite parmi eux ceux qui sont le plus ambigus. Je simule ensuite le contexte social en plaçant autour de mon avatar central un ou plusieurs autres visages plus petits pour générer un effet de profondeur. Ils représentent le contexte social. L’idée consiste alors à demander à la personne qui participe à l’expérience quelle émotion il reconnaît sur le visage central et à mesurer si sa réponse change en faisant varier l’émotion et la direction
du regard des individus placés autour. C’est le genre de manipulation qui serait très difficile, voire impossible à réaliser avec des photos.

Pouvez-vous donner un exemple concret d’une de vos études ?
L’utilisation la plus complexe que j’ai faite du logiciel FACSGen a consisté en un film dans lequel on voit un visage central exprimant une émotion ambiguë mélangeant tristesse et honte et, en plus petit, comme s’il était placé derrière lui, un autre visage. J’ai ensuite fait tourner la tête du personnage central de manière à ce qu’il croise le regard de l’autre avant de revenir à la position initiale puis à baisser la tête. C’est un enchaînement très compliqué à simuler. J’y ai passé des jours. Mais une fois qu’il est au point, on le maîtrise parfaitement. Avec lui, j’ai pu montrer que lorsque le visage contextuel exprime du dégoût et que les regards des deux avatars se croisent, on a tendance à voir davantage la honte sur le personnage central, ce qui n’est pas le cas dans les autres configurations.

Qu’en concluez-vous ?
Dans nos études, nous montrons que c’est le contexte social et surtout un contexte social porté et dirigé par le regard d’autrui qui va définir quelle émotion sera reconnue dans l’expression ambiguë d’un visage cible. C’est la première fois que l’on arrive à un tel résultat.