Projets

FoNDUE - Une infrastructure HTR pour Genève

escriptorium.jpeg

PROJET

L’HTR (​Handwritten Text Recognition​), parfois aussi appelé OCR (​Optical character recognition​), devient un besoin de plus en plus urgent des équipes de l’UNIGE. L’enjeu est le suivant : extraire rapidement et efficacement un maximum d’informations d’une page numérisée, dont évidemment la transcription mais pas uniquement (illustrations, mise en page...), et reproduire cette opération sur des grandes quantités de documents. L'obtention de ces données, désormais cruciales pour concevoir les grands corpus nécessaires à la recherche en lettres, implique des besoins informatiques nouveaux et très importants.

Plutôt que de sous-traiter un besoin essentiel à des sociétés (semi-)privées offrant des conditions scientifiques et légales parfois insatisfaisantes, l'Université de Genève a décidé de proposer un service local a adapté à tous les besoins (du travail de fin d'études au projet FNS). Concernant la partie logiciel, le choix s’est porté sur ​eScriptorium [lien], une application en ligne proposant une solution intégralement ​open source​, déjà mature d’un point de vue technique (plusieurs années de développement) et bénéficiant de soutiens internationaux (France, USA, Allemagne…) qui en garantissent la fiabilité et l'efficacité.

Concernant la partie matérielle, plutôt que d'investir uniquement pour cette infrastructure, il a été décidé d'avoir recours à un service partagé par la communauté universitaire de Genève, HPC [lien], qui répond parfaitement aux nouveaux besoins de la Faculté des lettres. Ce service permet de fournir la puissance de calcul nécessaire pour l'entraînement de modèles, de garantir sur le long terme cette puissance de calcul grâce au renouvellement constant du parc informatique d'HPC, et enfin de s'adapter parfaitement à la demande en laissant à disposition des autres chercheurs et chercheuses les machines pendant les périodes de faible demande et en mobilisant plus de machines en cas de forte demande.

L'outil final devrait être inclus dans l’offre du Portail DH de l’UNIGE, qui dispose déjà d’éléments d’infrastructure permettant d’envisager une articulation intelligente de ses outils pour les chercheurs.ses : un serveur IIIF qui sert des documents numérisés en format image, une instance de TEI Publisher pour la publication de documents (édition et corpus) en TEI.

PUBLICATIONS

Sélection d'articles liés au projet

  1. Pauline Jacsont, Simon Gabay, Tristan Weddigen. Numériser les archives d'histoire de l'art : La collection de photographies d'Heinrich Wölfflin. Humanistica 2023, Association francophone des humanités numériques, Jun 2023, Genève, Suisse. ⟨hal-04090312
  2. Pauline Jacsont, Elina Leblanc. Impact of Image Enhancement Methods on Automatic Transcription Trainings with eScriptorium. Journal of Data Mining and Digital Humanities, 2023, Historical Documents and automatic text recognition, ⟨10.46298/jdmdh.10262⟩. ⟨hal-03831686v4
  3. Ariane Pinche, Kelly Christensen, Simon Gabay. Between automatic and manual encoding: Towards a generic TEI model for historical prints and manuscripts. TEI 2022 conference : Text as data, Sep 2022, Newcastle, United Kingdom. ⟨10.5281/zenodo.7092214⟩. ⟨hal-03780302
  4. Juliette Janes, Ariane Pinche, Claire Jahan, Simon Gabay. Towards automatic TEI encoding via layout analysis. Fantastic future 21, 3rd International Conference on Artificial Intelligence for Librairies, Archives and Museums, AI for Libraries, Archives, and Museums (ai4lam), Dec 2021, Paris, France. ⟨hal-03527287
  5. Simon Gabay, Jean-Baptiste Camps, Ariane Pinche, Claire Jahan. SegmOnto: common vocabulary and practices for analysing the layout of manuscripts (and more). 1st International Workshop on Computational Paleography (IWCP@ICDAR 2021), Sep 2021, Lausanne, Switzerland. ⟨hal-03336528