Outil et unité de traitement
Type de ressource
Année de publication

La couverture de l’archivage du web suisse: comparaison des approches de la Bibliothèque nationale suisse et d’Internet Archive

Type de ressource
Auteurs/contributeurs
Titre
La couverture de l’archivage du web suisse: comparaison des approches de la Bibliothèque nationale suisse et d’Internet Archive
Résumé
Le web est devenu indispensable dans notre société actuelle centrée autour de l’information et de la communication. La valeur patrimoniale d’au moins une partie de ses contenus est indiscutable. Mais il s’agit de supports volatiles et techniquement difficiles à traiter, et les volumes sont énormes. Ce projet de recherche s’intéresse à la couverture de l’archivage du web suisse par deux acteurs, la Bibliothèque nationale suisse (BN) d’un côté et Internet Archive (IA) de l’autre. Du point de vue organisationnel, la différence majeure entre les deux institutions est que la BN a une approche sélective, tandis qu’IA moissonne tous les contenus rencontrés par ses crawlers, sans distinction qualitative. Le concept de “web suisse” englobe, pour nous, les sites correspondant à la définition des “Helvetica” utilisée par la BN. Nous avons formulé une demande auprès de l’institution (BN) et interrogé l’API disponible à cet effet (IA) pour obtenir les données brutes nécessaires à nos recherches, à savoir des fichiers CDX et XML avec les métadonnées sur les sites moissonnés. Nous les avons travaillées et analysées à l’aide du logiciel Dataiku, pour ne conserver que les données des premières captures des domaines de premier niveau. Ainsi, à fin 2019, sur un total de 2’259’952 sites avec le ccTLD .ch, IA en archive 1’298'225 (57.44 %) et la BN 7’513 (0.33 %). 7’418 sites sont archivés par les deux institutions. Si l’on regarde les collections de la BN tous TLD confondus, 8’132 sites sont archivés. Sur ces URL, 8’048 sites se trouvent également chez IA. Ces analyses quantitatives ont été complétées par une exploration qualitative des contenus archivés pour un échantillon de 23 sites. Nous avons vérifié leur présence dans les deux archives du web. Sur les 23 sites examinés, 10 sont archivés par la BN et 22 par IA. IA couvre le web suisse plus largement que la BN. Mais si un site a été sélectionné par la BN pour archivage, il sera alors archivé avec un niveau qualitatif très élevé. Nous pensons que les deux approches – sélectivo-qualitative et moissonnage massif mais moins profond – sont complémentaires et répondent aux objectifs fixés par chacune des institutions
Type
Mémoire de master
Université
Haute école de gestion de Genève
Lieu
Suisse
Date
2020
Langue
fr
Titre abrégé
La couverture de l’archivage du web suisse
Catalogue de bibl.
doc.rero.ch
Cote
65
Référence
DONIUS, Christelle et HUG BUFFO, Anna. La couverture de l’archivage du web suisse: comparaison des approches de la Bibliothèque nationale suisse et d’Internet Archive [en ligne]. Mémoire de master. Suisse : Haute école de gestion de Genève, 2020. Disponible à l’adresse : http://doc.rero.ch/record/328466?ln=fr. 65
Pratique et traitement archivistique
Outil et unité de traitement