Maîtrise de la qualité des transcriptions numériques dans les projets de numérisation de masse

Ahmed Ben Salah 1, 2
1 DocApp - LITIS - Equipe Apprentissage
LITIS - Laboratoire d'Informatique, de Traitement de l'Information et des Systèmes
Résumé : Ce travail s’intéresse au contrôle des résultats de transcriptions numériques produites automatiquement par des logiciels de reconnaissance optique de caractères (OCR), lors de la réalisation de projets de numérisation de masse de documents. Le but de nos travaux est de concevoir un système de contrôle des résultats d’OCR suffisamment robuste pour être performant sur l’ensemble des documents numérisés à la BnF. Cette collection est composée de documents anciens dont les particularités les rendent difficiles à traiter par les OCR, même les plus performants. Nous avons conçu un système de détection des mots omis dans les transcriptions, ainsi qu’une méthode d’estimation des taux de reconnaissance des caractères. Le contexte applicatif exclu de recourir à une vérité terrain pour évaluer les performances. Nous essayons donc de les prédire. Pour cela nous proposons différents descripteurs qui permettent de caractériser les résultats des transcriptions. Cette caractérisation intervient à deux niveaux. Elle permet d’une part de caractériser la segmentation des documents à l’aide de descripteurs de textures, et d’autres part de caractériser les textes produits en ayant recours à un second OCR qui joue le rôle d’une référence relative. Dans les deux cas, les descripteurs choisis permettent de s’adapter aux propriétés des corpus à contrôler. L’adaptation est également assurée par une étape d’apprentissage des étages de décision ou de prédiction qui interviennent dans le système. Nous avons évalué nos systèmes de contrôle sur des bases d’images réelles sélectionnées dans les collections documentaires de la BnF. Le système détecte 84, 15% des mots omis par l’OCR avec une précision de 94, 73%. Les expérimentations réalisées ont également permis de montrer que 80% des documents présentant un taux de reconnaissance mots inférieur à 98% sont détectés avec une précision de 92%. On peut également détecter automatiquement 45% des documents présentant un taux de reconnaissance inférieur à 70% avec une précision supérieure à 92%.
Type de document :
Thèse
Traitement des images. Université de Rouen, 2014. Français
Liste complète des métadonnées

Littérature citée [120 références]  Voir  Masquer  Télécharger

https://hal-bnf.archives-ouvertes.fr/tel-01164698
Contributeur : Ahmed Ben Salah <>
Soumis le : lundi 22 juin 2015 - 18:42:00
Dernière modification le : mercredi 18 avril 2018 - 11:04:26
Document(s) archivé(s) le : mardi 15 septembre 2015 - 17:55:48

Identifiants

  • HAL Id : tel-01164698, version 1

Citation

Ahmed Ben Salah. Maîtrise de la qualité des transcriptions numériques dans les projets de numérisation de masse. Traitement des images. Université de Rouen, 2014. Français. 〈tel-01164698〉

Partager

Métriques

Consultations de la notice

342

Téléchargements de fichiers

164