Discipline et méthode connexes

L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités

Type de ressource
Auteur/contributeur
Titre
L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités
Résumé
Cet article présente un projet de recherche, en collaboration avec le Bodmer Lab, qui a consisté à océriser des imprimés latins de la Renaissance, afin d’en obtenir une transcription et de la rendre explorable par la recherche plein texte. Quatre logiciels d’océrisation gratuits et open source ont été testés, avec comme métriques la précision, le rappel, et la F-mesure (F1) au niveau des caractères et au niveau des mots. Tesseract et OCR4all étaient les plus performants, mais ce dernier présentait un problème technique qui rendait son utilisation complexe. Tesseract, qui présentait alors une F1 de 78.62% (caractères) et 31.78% (mots) a donc été retenu pour la suite du projet. Différentes méthodes ont été testées pour améliorer les résultats obtenus. Toutes les méthodes n’étaient pas nécessairement efficaces, mais grâce à certaines, une F1 de 80.06% au niveau des caractères et de 34.58% au niveau des mots a pu être obtenue.
Publication
Revue électronique suisse de science de l'information (RESSI)
Numéro
21
Pages
30
Date
2020
Abrév. de revue
RESSI
Langue
fr
Consulté le
2021-04-15
Notes

Florence Burgy, Haute Ecole de Gestion, Genève 

Référence
BURGY, Florence. L’océrisation d’imprimés anciens : les sciences de l’information au service des Humanités. Revue électronique suisse de science de l’information (RESSI) [en ligne]. 2020, no 21, p. 30. [Consulté le 15 avril 2021]. Disponible à l’adresse : http://www.ressi.ch/num21/article183
Pratique et traitement archivistique