Recherche et sélection de publications
Interface en ou

Analyse des traces d'usage de Gallica

Adrien Nouvellet #1, Valérie Beaudouin #1 #2, Florence d'Alché-Buc #1, Christophe Prieur #1 #2, François Roueff #1
#1 Laboratoire Traitement et Communication de l'Information [Paris] (LTCI)
  • Télécom ParisTech
  • CNRS : UMR5141
#2 Institut interdisciplinaire de l’innovation (I3, france)
  • Polytechnique - X
  • Télécom ParisTech
  • MINES ParisTech - École nationale supérieure des mines de Paris
  • Centre National de la Recherche Scientifique
Références 
Novembre 2017, n° hal-01709264
Résumé

Gallica est l'une des plus grandes bibliothèques numériques librement accessible sur le web. Dans le cadre du Bibli-Lab, partenariat de recherche entre la Bibliothèque nationale de France et Télécom ParisTech, et avec le soutien du TeraLab, a été conduite une analyse inédite des logs de connexion aux serveurs de Gallica, en leur appliquant des méthodes d’apprentissage automatique (machine learning). L’objectif n’était pas de connaître les usagers ni leurs profils mais, en partant de traces d’usages que sont les logs, d’identifier des parcours-types. Durant 15 mois (avril 2016-juillet 2017), un chercheur en contrat postdoctoral encadré par quatre enseignants-chercheurs de Télécom ParisTech , a mis au point un algorithme de classification (ou clusterisation) permettant de regrouper des sessions de Gallica présentant des similitudes dans l’enchaînement des actions. Les logs analysés couvraient des durées variables, allant d’une semaine à un mois, avec vérification systématique de la stabilité des modèles obtenus. Le choix méthodologique fort a été ici de faire dialoguer les modèles statistiques avec les résultats issus d’autres approches (observations ethnographiques, entretiens, etc. ). Ce dialogue a permis à la fois de : a) fixer les paramètres de départ (durée d’une session, définition des actions élémentaires sur Gallica) ; b) contrôler les modèles obtenus, extrêmement sensibles aux artefacts techniques ; c) proposer des premières clés d’interprétation.

Mots-clés
Clusterisation;Patrimoine;Bibliothèque numérique
Catégorie 
Rapport de recherche (rapport interne)
Domaine(s) 
Statistiques/Machine Learning
Sciences de l'Homme et Société/Anthropologie sociale et ethnologie
Identifiant(s)
Réf. HAL  hal-01709264
Clé de citation nouvellet:hal-01709264
Fichier(s)
Export
Dernière mise à jour
le 23 février 2018 par Francois Roueff


Responsable du service
Dominique Asselineau dominique.asselineau@telecom-paristech.fr
Copyright © 1998-2017, Télécom ParisTech/Dominique Asselineau