- Recherche et sélection de publications
|
Analyse des traces d'usage de Gallica
- Adrien Nouvellet #1, Valérie Beaudouin #1 #2, Florence d'Alché-Buc #1, Christophe Prieur #1 #2, François Roueff #1
-
#1 |
Laboratoire Traitement et Communication de l'Information [Paris] (LTCI)
- Télécom ParisTech
- CNRS : UMR5141
|
#2 |
Institut interdisciplinaire de l’innovation (I3, france)
- Polytechnique - X
- Télécom ParisTech
- MINES ParisTech - École nationale supérieure des mines de Paris
- Centre National de la Recherche Scientifique
|
- Références
- Novembre 2017, n° hal-01709264
- Résumé
Gallica est l'une des plus grandes bibliothèques numériques librement accessible sur le web. Dans le cadre du Bibli-Lab, partenariat de recherche entre la Bibliothèque nationale de France et Télécom ParisTech, et avec le soutien du TeraLab, a été conduite une analyse inédite des logs de connexion aux serveurs de Gallica, en leur appliquant des méthodes d’apprentissage automatique (machine learning). L’objectif n’était pas de connaître les usagers ni leurs profils mais, en partant de traces d’usages que sont les logs, d’identifier des parcours-types. Durant 15 mois (avril 2016-juillet 2017), un chercheur en contrat postdoctoral encadré par quatre enseignants-chercheurs de Télécom ParisTech , a mis au point un algorithme de classification (ou clusterisation) permettant de regrouper des sessions de Gallica présentant des similitudes dans l’enchaînement des actions. Les logs analysés couvraient des durées variables, allant d’une semaine à un mois, avec vérification systématique de la stabilité des modèles obtenus. Le choix méthodologique fort a été ici de faire dialoguer les modèles statistiques avec les résultats issus d’autres approches (observations ethnographiques, entretiens, etc. ). Ce dialogue a permis à la fois de : a) fixer les paramètres de départ (durée d’une session, définition des actions élémentaires sur Gallica) ; b) contrôler les modèles obtenus, extrêmement sensibles aux artefacts techniques ; c) proposer des premières clés d’interprétation.
- Mots-clés
- Clusterisation;Patrimoine;Bibliothèque numérique
- Catégorie
- Rapport de recherche (rapport interne)
- Domaine(s)
- Statistiques/Machine Learning
Sciences de l'Homme et Société/Anthropologie sociale et ethnologie
- Identifiant(s)
-
Réf. HAL hal-01709264
Clé de citation nouvellet:hal-01709264
- Fichier(s)
-
- Export
-
- Dernière mise à jour
- le 23 février 2018 par Francois Roueff
|