2002

Présentation du synthétiseur de parole FipsVox - LATL

Dites-le en voix de synthèse

Les nombreux visiteurs du site de l'Université de Genève auront certainement remarqué depuis quelques semaines le dispositif de lecture vocale qui accompagne le texte de la page d'accueil. Mis au point par le Laboratoire d'analyse et de technologie du langage (LATL), sous la direction du professeur Eric Wehrli, ce système permet de générer une voix de synthèse à partir de n'importe quel texte écrit en format standard ou html. Il ne s'agit donc pas d'une voix pré-enregistrée. Les recherches du LATL ont une visée à la fois théorique et pratique. Parmi les applications possibles: par exemple, la mise à jour des serveurs téléphoniques pour la météorologie, la bourse ou la circulation; la lecture de documents papiers ou électroniques pour des personnes non-voyante ou momentanément dans l'impossibilité de lire; l'aide à la navigation automobile.

La principale différence entre le système FipsVox élaboré au LATL et les autres outils de synthèse de la parole réside dans sa base linguistique: un analyseur syntaxique détaillé qui détermine les différents constituants de la phrase. Grâce à cet instrument, il est possible de prendre en compte des effets de phonétique et de prosodie qui contribuent largement à la clarté du message. Selon la fonction grammaticale assignée à un terme par l'analyseur syntaxique, FipsVox produira des liaisons et des élisions au bon endroit - un des écueils majeurs de la langue française - ou des intonations particulières.

FipsVox opère en quatre étapes sa synthèse vocale. Le message écrit est d'abord soumis à l'analyseur syntaxique qui détermine la structure grammaticale de l'énoncé. Sur la base de cette analyse, le système peut ensuite procéder à la phonétisation, à savoir la conversion des éléments graphiques en une suite de sons, en faisant appel à une base de données lexicales comprenant environ 200'000 mots. C'est à ce stade que sont pris en compte les phénomènes de liaisons et d'élisions, ainsi que le traitement des mots particuliers ne figurant pas dans le lexique, les termes importés de l'anglais, les néologismes, les abréviations ou les noms propres, par exemple. Dans un troisième temps, la voix est modulée en fonction de critères prosodiques. Il s'agit alors de donner un rythme et des intonations à la suite de phonèmes, afin de donner à la séquence une couleur naturelle. Enfin, la séquence de phonèmes est traduite en signal acoustique. Reste encore la possibilité de rajouter dans le texte des balises donnant un relief émotionnel à la lecture.

Dix personnes collaborent actuellement au LATL dans un esprit pluridisciplinaire. Rattaché à la Faculté des Lettres, le laboratoire rassemble, sous la direction d'Eric Wehrli, des linguistes et des informaticiens, des psychologues et des traducteurs. Parallèlement au développement du synthétiseur vocal francophone, le LATL travaille sur des outils similaires pour l'anglais, l'allemand et l'italien. Le laboratoire développe également des outils de traduction et de génération de phrases.

29 avril 2002
  2002