Pratique et traitement archivistique
Type de ressource
Année de publication

Impact de la correction automatique de l'OCR/HTR sur la reconnaissance d'entités nommées dans un corpus bruité

Type de ressource
Auteurs/contributeurs
Titre
Impact de la correction automatique de l'OCR/HTR sur la reconnaissance d'entités nommées dans un corpus bruité
Résumé
Nous présentons une expérience menée sur la correction d’orthographe automatique de textes issus de la reconnaissance optique des caractères (OCR), dans l’objectif de mesurer l’impact de la correction sur une tâche d’extraction d’informations. À partir d'un échantillon de documents d’archives numérisées (océrisées), nous avons appliqué un système de reconnaissance d’entités nommées avant et après une correction d’orthographe. Les résultats obtenus ont montré que le correcteur orthographique permet d’améliorer certaines tâches du traitement automatique du langage naturel. Une extension de l’approche proposée par un ré-entraînement sur un plus grand corpus est également présentée pour optimiser davantage les résultats obtenus.
Publication
JIS - Journal of Information Sciences
Volume
21
Numéro
2
Pages
42
Date
2022/12/30
Langue
fr
DOI
10.34874/IMIST.PRSM/jis-v21i2.36599
Consulté le
2023-04-27T17:05:54Z
Catalogue de bibl.
hal.science
Référence
PETKOVIC, Ljudmila, ALRAHABI, Motasem et ROE, Glenn. Impact de la correction automatique de l’OCR/HTR sur la reconnaissance d’entités nommées dans un corpus bruité. JIS - Journal of Information Sciences [en ligne]. Décembre 2022, Vol. 21, no 2, p. 42. [Consulté le 27 avril 2023]. DOI 10.34874/IMIST.PRSM/jis-v21i2.36599
Pratique et traitement archivistique
Type et support d’archives
Type d’institution
Discipline et méthode connexes