Volet numérique
Information utiles
- Page GitHub du projet : https://github.com/SETAFDH.
- Une première version de notre guide de transcription, pour les imprimés français du XVIe siècle en caractères gothiques, est disponible en ligne : https://hal.science/hal-04281804.
- Notre modèle d'OCR, CATMuS Gothic Print, est disponible en ligne : https://zenodo.org/records/10599911.
- Les calculs sont effectués à l'Université de Genève en utilisant le service HPC : https://www.unige.ch/eresearch/fr/services/hpc/.
Publications et événements
- Colloque Humanistica, mai 2024
Sonia Solfrini, et al. Océriser les imprimés du XVIe siècle en langue française : le cas d’un corpus romand en caractères gothiques. Humanistica 2024, Association francophone des humanités numériques, mai 2024, Meknès, Maroc. 〈hal-04555002〉.
- Séminaire SETAF, 9 février 2024
Océriser un corpus en caractères gothiques : défis, outils et premiers résultats
Dans ce séminaire, l'équipe du projet SETAF présentera le travail d'océrisation réalisé jusqu'à présent sur un corpus d'imprimés romands à l'époque de la Réforme. Plusieurs outils sont requis pour l'OCR (Optical Character Recognition), qui permet d'extraire des textes de leurs fac-similés numériques, dont certains peuvent varier en fonction des caractéristiques des ouvrages. Pour répondre aux traits distinctifs de notre corpus primaire, constitué d'imprimés en gothique et en moyen français (1530-1540), nous avons créé des outils adaptés à ce type de données, notamment un guide de transcription et un modèle d'OCR. Ce travail peut intéresser d'autres projets de recherche visant à construire des bibliothèques numériques ou à effectuer des études computationnelles de textes.
- Colloque Humanistica, juin 2023
Sonia Solfrini, et al. Étudier le « groupe de Neuchâtel » : De l'édition des Faits à un corpus numérique de la première Réforme romande. Humanistica 2023, Association francophone des humanités numériques, juin 2023, Genève, Suisse, 〈hal-04097381〉.