Discipline et méthode connexes

Documentary Research in Natural Language (D.R.N.L.) : Plateforme d'accès numérique aux archives documentaires en langage naturel

Type de ressource
Auteurs/contributeurs
Titre
Documentary Research in Natural Language (D.R.N.L.) : Plateforme d'accès numérique aux archives documentaires en langage naturel
Résumé
Nos travaux de recherche sont motivés par un besoin industriel consistant initialement à la gestion, au stockage et à l’accès à d’anciens journaux et magazines archivés. Notre partenaire industriel possède plusieurs téraoctets de magazines et de journaux. Ces documents sont rédigés dans différentes langues (français, russe, portugais, etc.), répartis dans plusieurs dossiers représentant chacun un type de magazine précis. Ils sont stockés en format PDF et JPG. Dans le cadre de cet article, nous avons centré notre recherche sur le traitement des documents français. Nous proposons une plateforme D.R.N.L. (Documentary Research in Natural Language) permettant le traitement, le stockage et l’accès à des archives documentaires avec quatre composants principaux : 1. Prétraitement des magazines, 2. Stockage des données, 3. Filtrages des documents à analyser pour une question posée et 4. Inférence de requête.
Date
2022/11/14
Intitulé du colloque
Journées Jointes des Groupements de Recherche Linguistique Informatique, Formelle et de Terrain (LIFT) et Traitement Automatique des Langues (TAL)
Maison d’édition
CNRS
Pages
74-83
Langue
fr
Titre abrégé
Documentary Research in Natural Language (D.R.N.L.)
Consulté le
2023-04-25T22:34:18Z
Catalogue de bibl.
hal.science
Référence
ZHANG, Ying, GUILLAUME, Matthieu Petit et KRAUTH, Aurélien. Documentary Research in Natural Language (D.R.N.L.) : Plateforme d’accès numérique aux archives documentaires en langage naturel [en ligne]. CNRS, 14 novembre 2022, p. 74‑83. [Consulté le 25 avril 2023]. Disponible à l’adresse : https://hal.science/hal-03846823
Outil et unité de traitement
Discipline et méthode connexes