Volet numérique


Information utiles
 

 

Publications et événements
 

 

  • Séminaire SETAF, 9 février 2024

    Océriser un corpus en caractères gothiques : défis, outils et premiers résultats

    Dans ce séminaire, l'équipe du projet SETAF présentera le travail d'océrisation réalisé jusqu'à présent sur un corpus d'imprimés romands à l'époque de la Réforme. Plusieurs outils sont requis pour l'OCR (Optical Character Recognition), qui permet d'extraire des textes de leurs fac-similés numériques, dont certains peuvent varier en fonction des caractéristiques des ouvrages. Pour répondre aux traits distinctifs de notre corpus primaire, constitué d'imprimés en gothique et en moyen français (1530-1540), nous avons créé des outils adaptés à ce type de données, notamment un guide de transcription et un modèle d'OCR. Ce travail peut intéresser d'autres projets de recherche visant à construire des bibliothèques numériques ou à effectuer des études computationnelles de textes.