TY - THES TI - Approche de traitement structuel pour la recherche d'information : une approche de fouille de documents juridiques semi-structurés AU - Yao, JingTao AB - L'usage des bases documentaires juridiques partageables est devenu de plus en plus ouvert et fréquent favorisant ainsi un débit d'alimentation "semi-automatique" assez important. Constat 1 : par semi-automatique, on entend un processus de dépôt direct des documents dans la base de données qui exigent une intervention humaine réduite surtout au niveau de l'indexation et de la classification. En effet, ce sont les modèles de documents (leurs structures logiques et physiques modélisées par le langage de balisage) qui assurent un rôle important dans les processus d'indexation et de gestion. Constat 2 : devant une telle masse de données "très souvent textuelles", il devient indispensable d'adopter aussi une approche pour gérer les documents électroniques juridiques en tant que supports de connaissance et de savoir-faire. Ceci nous mène vers des problématiques de recherche d'information et d'extraction de connaissance. Ces deux constats nous conduisent à formuler une hypothèse de classification automatique qui tiendra compte de connaissance et de savoir-faire incorporés dans les structures des modèles de documents électroniques juridiques. Cela nous dirige vers une approche de catégorisation pour extraire des catégories décisionnelles. Nous proposons une méthode de représentation de documents semi-structurés permettant d'analyser précisément les connaissances et le savoir-faire incorporés dans les contenus et les structures du document. Les expériences sur un corpus juridiques réel montrent que la prise en compte à la fois du contenu et de la structure conduit à une amélioration remarquable de qualité des catégories décisionnelles. CY - Paris, France DA - 2010/// PY - 2010 DP - www.theses.fr SP - 183 PB - Paris 8 ST - Approche de traitement structuel pour la recherche d'information ER - TY - THES TI - État de l'art de l'archivage électronique confronté à sa mise en pratique AU - Serlet, Murielle A3 - Epron, Benoît CY - Villeurbanne, France DA - 2009/// PY - 2009 SP - 1 vol. (65 p.) PB - École nationale supérieure des sciences de l'information et des bibliothèques (ENSSIB) UR - http://www.sudoc.fr/139265791 ER - TY - THES TI - Dispositifs de médiation du document presse à l'ère du numérique : du physique au virtuel AU - Payeur, Cécile AB - Les circuits de distribution des produits physiques sont de plus en plus concurrencés par les circuits du numérique. Dans le cas de la distribution du document, la mutation est encore plus profonde puisqu’elle affecte le produit lui-même. Or, la possibilité de voir disparaître le document physique, absorbé par le numérique, présente un risque majeur, non seulement pour les distributeurs, mais également d’un point de vue cognitif, mémoriel et social. Ce risque est d’autant plus marqué dans le cas spécifique du document presse. Cette thèse, réalisée chez un distributeur de presse, s’appuie sur l’hypothèse qu’il est possible de concevoir des dispositifs de médiation documentaire à l’ère du numérique qui, tout en prenant acte des avantages du numérique et en les exploitant, permettent de tirer de la valeur des propriétés des documents physiques. Elle met cette hypothèse à l’épreuve des faits en conjuguant réflexion théorique et différentes expérimentations qui visent à avancer sur la conception de tels dispositifs. En particulier, les expérimentations menées portent sur la conception d’une borne de recherche d’information sur les documents en points de vente presse et sur sa déclinaison dans l’espace virtuel. La question de la méthodologie est elle aussi posée, en particulier celle des conditions nécessaires à la mise en œuvre d’une démarche d’innovation sur ce type de problématique. De plus, un modèle théorique, qui vise à donner une représentation des différentes médiations qui interviennent dans la diffusion d’un document à l’ère du numérique, est proposé CY - France DA - 2009/// PY - 2009 DP - www.theses.fr SP - 302 PB - Troyes ER - TY - THES TI - L'impact de Vitam dans le paysage de l'archivage électronique français AU - Faye, Marcel AB - Le programme VITAM est un programme d’élaboration de logiciel d’archivage électronique destiné à prendre en charge des archives électroniques produites ou/et reçues par l’administration en vue d’assurer leur conservation pérenne et probante. Avec un réseau de partenaires du secteur public comme du secteur privé, il occupe une grande place dans l’écosystème de l’archivage électronique en France. Le caractère open source de sa solution logicielle et sa complétude technique permettent de rendre plus efficiente la gestion des documents électroniques, car les éditeurs vont devoir s’aligner sur les fonctionnalités de VITAM pour en développer d’autres qui répondent à leurs besoins. Cependant, la période quinquennale du programme permet aussi de former les archivistes des différents partenaires au processus de la gestion des archives électroniques. DA - 2020/// PY - 2020 SP - 110 M3 - Mémoire de Master PB - Enssib UR - http://www.enssib.fr/bibliotheque-numerique/notices/69394-l-impact-de-vitam-dans-le-paysage-de-l-archivage-electronique-francais ER - TY - THES TI - Quelle méthodologie pour l'archivage et la diffusion électronique de la documentation scientifique et technique AU - Diouf, Diéyi AB - Thèse de doctorat "Réseaux, connaissances et organisations" CN - http://www.sudoc.fr/151376018 CY - Troyes DA - 2009/// PY - 2009 SP - 1 vol. (259 p.) PB - Université de Technologie de Troyes ER - TY - THES TI - Archivage du Web organisationnel dans une perspective archivistique AU - Chebbi, Aïda AB - Le Web représente actuellement un espace privilégié d’expression et d’activité pour plusieurs communautés, où pratiques communicationnelles et pratiques documentaires s’enrichissent mutuellement. Dans sa dimension visible ou invisible, le Web constitue aussi un réservoir documentaire planétaire caractérisé non seulement par l’abondance de l’information qui y circule, mais aussi par sa diversité, sa complexité et son caractère éphémère. Les projets d’archivage du Web en cours abordent pour beaucoup cette question du point de vue de la préservation des publications en ligne sans la considérer dans une perspective archivistique. Seuls quelques projets d’archivage du Web visent la préservation du Web organisationnel ou gouvernemental. La valeur archivistique du Web, notamment du Web organisationnel, ne semble pas être reconnue malgré un effort soutenu de certaines archives nationales à diffuser des politiques d’archivage du Web organisationnel. La présente thèse a pour but de développer une meilleure compréhension de la nature des archives Web et de documenter les pratiques actuelles d’archivage du Web organisationnel. Plus précisément, cette recherche vise à répondre aux trois questions suivantes : (1) Que recommandent en général les politiques d’archivage du Web organisationnel? (2) Quelles sont les principales caractéristiques des archives Web? (3) Quelles pratiques d’archivage du Web organisationnel sont mises en place dans des organisations au Québec? Pour répondre à ces questions, cette recherche exploratoire et descriptive a adopté une approche qualitative basée sur trois modes de collecte des données, à savoir : l’analyse d’un corpus de 55 politiques et documents complémentaires relatifs à l’archivage du Web organisationnel; l’observation de 11 sites Web publics d’organismes au Québec de même que l’observation d’un échantillon de 737 documents produits par ces systèmes Web; et, enfin, des entrevues avec 21 participants impliqués dans la gestion et l’archivage de ces sites Web. Les résultats de recherche démontrent que les sites Web étudiés sont le produit de la conduite des activités en ligne d’une organisation et documentent, en même temps, les objectifs et les manifestations de sa présence sur le Web. De nouveaux types de documents propres au Web organisationnel ont pu être identifiés. Les documents qui ont migré sur le Web ont acquis un autre contexte d’usage et de nouvelles caractéristiques. Les méthodes de gestion actuelles doivent prendre en considération les propriétés des documents dans un environnement Web. Alors que certains sites d’étude n’archivent pas leur site Web public, d’autres s’y investissent. Toutefois les choix établis ne correspondent pas toujours aux recommandations proposées dans les politiques d’archivage du Web analysées et ne garantissent pas la pérennité des archives Web ni leur exploitabilité à long terme. Ce constat nous a amenée à proposer une politique type adaptée aux caractéristiques des archives Web. Ce modèle décrit les composantes essentielles d’une politique pour l’archivage des sites Web ainsi qu’un éventail des mesures que pourrait mettre en place l’organisation en fonction des résultats d’une analyse des risques associés à l’usage de son site Web public dans la conduite de ses affaires. CY - Montréal, Canada DA - 2013/// PY - 2013 M3 - Thèse de doctorat (Ph.D.) PB - Université de Montréal, École de bibliothéconomie et des sciences de l'information (EBSI) UR - http://hdl.handle.net/1866/9203 ER - TY - THES TI - Qualité des archives web : modélisation et optimisation AU - Ben Saad, Myriam AB - Aujourd'hui, le Web est devenu le moyen le plus important pour véhiculer des informations qui peuvent avoir une grande valeur culturelle, scientifique, économique, etc. Archiver son contenu ou du moins une partie est devenu crucial afin de préserver certaines informations utiles pour les générations futures de chercheurs, écrivains, historiens, etc. Cependant, les archivistes doivent faire face à un grand défi qui consiste à préserver la qualité des données collectées pour garantir la plus grande fidélité du Web. C'est dans cette perspective d'améliorer la qualité des archives que nos travaux de thèse s'inscrivent. Nous nous intéressons aux deux mesures de qualité: la complétude temporelle et la cohérence temporelle qui sont très pertinentes pour évaluer les archives Web. Nous proposons une nouvelle approche d'archivage qui exploite le rendu visuel des pages pour y détecter les changements de la même manière que les utilisateurs les perçoivent. Nous proposons ensuite une méthode pour évaluer l'importance des changements visuels ainsi détectés. Par la suite, nous modélisons l'importance des changements sous forme de patterns, par le modèle PPaC (Pattern of Pages Changes). Contrairement aux modèles déjà existants basés sur un taux moyen de changements, PPaC permet de mieux prédire les moments les plus opportuns durant lesquels des modifications importantes sont censées survenir dans les pages. En se basant sur PPaC, nous proposons différentes stratégies de crawling qui visent à améliorer la complétude et/ou la cohérence temporelle. Nos différentes stratégies ont été implémentées puis expérimentées aussi bien sur des pages simulées que sur de vraies pages Web. Les résultats obtenus démontrent que le modèle PPaC basé sur l'importance des changements est un instrument utile pour améliorer considérablement la qualité des archives. CY - Paris DA - 2011/// PY - 2011 DP - www.theses.fr PB - Paris 6 ER - TY - THES TI - Reconnaissance et classification d’images de documents AU - Augereau, Olivier AB - Ces travaux de recherche ont pour ambition de contribuer à la problématique de la classification d’images de documents. Plus précisément, ces travaux tendent à répondre aux problèmes rencontrés par des sociétés de numérisation dont l’objectif est de mettre à disposition de leurs clients une version numérique des documents papiers accompagnés d’informations qui leurs sont relatives. Face à la diversité des documents à numériser, l’extraction d’informations peut s’avérer parfois complexe. C’est pourquoi la classification et l’indexation des documents sont très souvent réalisées manuellement. Ces travaux de recherche ont permis de fournir différentes solutions en fonction des connaissances relatives aux images que possède l’utilisateur ayant en charge l’annotation des documents.Le premier apport de cette thèse est la mise en place d’une méthode permettant, de manière interactive, à un utilisateur de classer des images de documents dont la nature est inconnue. Le second apport de ces travaux est la proposition d’une technique de recherche d’images de documents par l’exemple basée sur l’extraction et la mise en correspondance de points d’intérêts. Le dernier apport de cette thèse est l’élaboration d’une méthode de classification d’images de documents utilisant les techniques de sacs de mots visuels. CY - Bordeaux, France DA - 2013/// PY - 2013 DP - www.theses.fr PB - Bordeaux 1 ER -