Image Retrieval in Digital Libraries - A Large Scale Multicollection Experimentation of Machine Learning techniques

Résumé : Si historiquement, les bibliothèques numériques patrimoniales furent d’abord alimentées par des images, elles profitèrent rapidement de la technologie OCR pour indexer les collections imprimées afin d’améliorer périmètre et performance du service de recherche d’information offert aux utilisateurs. Mais l’accès aux ressources iconographiques n’a pas connu les mêmes progrès et ces dernières demeurent dans l’ombre : indexation manuelle lacunaire, hétérogène et non viable à grande échelle ; silos documentaires par genre iconographique ; recherche par le contenu (CBIR, content-based image retrieval) encore peu opérationnelle sur les collections patrimoniales. Aujourd’hui, il serait pourtant possible de mieux valoriser ces ressources, en particulier en exploitant les énormes volumes d’OCR produits durant les deux dernières décennies (tant comme descripteur textuel que pour l’identification automatique des illustrations imprimées). Et ainsi mettre en valeur ces gravures, dessins, photographies, cartes, etc. pour leur valeur propre mais aussi comme point d’entrée dans les collections, en favorisant découverte et rebond de document en document, de collection à collection. Cet article décrit une approche ETL (extract-transform-load) appliquée aux images d’une bibliothèque numérique à vocation encyclopédique : identifier et extraire l’iconographie partout où elle se trouve (dans les collections image mais aussi dans les imprimés : presse, revue, monographie) ; transformer, harmoniser et enrichir ses métadonnées descriptives grâce à des techniques d’apprentissage machine – machine learning – pour la classification et l’indexation automatiques ; charger ces données dans une application web dédiée à la recherche iconographique (ou dans d’autres services de la bibliothèque). Approche qualifiée de pragmatique à double titre, puisqu’il s’agit de valoriser des ressources numériques existantes et de mettre à profit des technologies (quasiment) mâtures.
Type de document :
Communication dans un congrès
IFLA News Media Section, May 2017, Dresde, Germany
Liste complète des métadonnées

Littérature citée [26 références]  Voir  Masquer  Télécharger

https://hal-bnf.archives-ouvertes.fr/hal-01779654
Contributeur : Jean-Philippe Moreux <>
Soumis le : jeudi 26 avril 2018 - 17:35:32
Dernière modification le : mercredi 16 mai 2018 - 01:02:13

Fichier

000-moreux-chiron_IFLA-Dresden...
Fichiers éditeurs autorisés sur une archive ouverte

Identifiants

  • HAL Id : hal-01779654, version 1

Collections

BNF

Citation

Jean-Philippe Moreux, Guillaume​ Chiron. Image Retrieval in Digital Libraries - A Large Scale Multicollection Experimentation of Machine Learning techniques. IFLA News Media Section, May 2017, Dresde, Germany. 〈hal-01779654〉

Partager

Métriques

Consultations de la notice

7

Téléchargements de fichiers

7