Documents historiques et reconnaissance automatique de textes

Edité par Ariane Pinche (CIHAM, CNRS) et Peter Stokes (AOROC, École Pratique des Hautes Études – Université PSL)

Grâce à ce numéro spécial du Journal of Data Mining and Digital Humanities (JDMDH), nous rassemblons en un seul volume plusieurs expériences, projets et réflexions liés à la reconnaissance automatique de texte sur des documents historiques.

De nombreux projets incluent désormais l'acquisition automatique de textes dans leur chaîne de traitement des données. L'intégration de cette technologie dans des chaînes de traitement de plus en plus performantes a conduit à une automatisation des tâches qui affecte le rôle du chercheur dans le processus de production textuelle. Cette nouvelle pratique gourmande en données rend urgente la collecte et l'harmonisation des corpus nécessaires à la constitution de jeux d'entraînement, mais aussi leur mise à disposition pour l'exploitation. Ce numéro sera l'occasion de proposer des articles combinantquestions philologiques et techniques pour faire un bilan scientifique de l'utilisation de la reconnaissance automatique de texte pour les documents anciens, de ses résultats, de ses apports et des nouvelles pratiques induites par son utilisation dans le processus d'édition et d'exploration des textes. Nous espérons que les aspects pratiques seront interrogés à cette occasion, tout en soulevant les défis méthodologiques et leurs impacts sur les données de la recherche.

Ce numéro est consacré à la présentation d'un aperçu complet de l'utilisation de l'ATR dans le domaine des sciences humaines, en particulier en ce qui concerne les documents historiques au début des années 2020. Il propose des articles traitant à la fois des aspects techniques et philologiques, s'adressant ainsi aussi bien aux débutants qu'aux utilisateurs expérimentés intéressés par le lancement de projets intégrant une étape d'ATR. Cette édition englobe un large éventail d'approches, couvrant des sujets tels que la création ou la collecte de données pour l'entraînement de modèles génériques, des présentations de projets et d'architectures de moteur d'ATR, ainsi que des exposés sur des méthodes de segmentation et de traitement d'images.

Table des matières

Introduction

PINCHE, Ariane, STOKES, Peter A., « Historical Documents and Automatic Text Recognition: Introduction », https://doi.org/10.46298/jdmdh.13247

1. ATR and research projects, corpus and model building

a-research projects

COUTURE, Béatrice, VERRET, Farah, GOHIER, Maxime [et al.], « The challenges of HTR model training: Feedbacks from the project Donner le goût de l’archive à l'ère numérique », https://jdmdh.episciences.org/12556.

CALVELLI, Lorenzo, BOSCHETTI, Federico et TOMMASI, Tatiana, « EpiSearch. Identifying Ancient Inscriptions in Epigraphic Manuscripts », https://doi.org/10.46298/jdmdh.10417

ROMEIN, C. Annemieke, HODEL, Tobias, GORDIJN, Femke, [et al.], « Exploring Data Provenance in Handwritten Text Recognition Infrastructure: Sharing and Reusing Ground Truth Data, Referencing Models, and Acknowledging Contributions. Starting the Conversation on How We Could Get It Done », https://doi.org/10.46298/jdmdh.10403.

PERDIKI, Elpida, « Preparing Big Manuscript Data for Hierarchical Clustering with Minimal HTR Training », https://doi.org/10.46298/jdmdh.10419

b-corpus and model building

LEVENSON GILLE, Matthias, « Towards a general open dataset and model for late medieval Castilian text recognition (HTR/OCR). Paper », https://doi.org/10.46298/jdmdh.10416

PINCHE, Ariane, « Generic HTR Models for Medieval Manuscripts The CREMMALab Project », https://jdmdh.episciences.org/11592

2. ATR, technical improvement and tools: image enhancement, segmentation, ATR engine architecture, etc.

a-improvement of segmentation and ATR engine

AGUILAR, Sergio Torres et JOLIVET, Vincent, « Handwritten Text Recognition for Documentary Medieval Manuscripts », https://doi.org/10.46298/jdmdh.10484

CLÉRICE, Thibault, « You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine », https://doi.org/10.46298/jdmdh.9806

b- Source pre-treatment and ATR improvement

JACSONT, Pauline et LEBLANC, Elina, « Impact of Image Enhancement Methods on HTR Trainings with eScriptorium », https://doi.org/10.46298/jdmdh.10262

WEST, Graham, SWINDALL, Matthew I., KEENER, Ben, [et al.], « An Approach for Noisy, Crowdsourced Datasets Utilizing Ensemble Modeling, “Human Softmax” Distributions, and Entropic Measures of Uncertainty », https://doi.org/10.46298/jdmdh.10297

3. Liste des jeux de données et des modèles cités dans le numéro

Boschetii F., episearch-htr. Published online November 23, 2022. Accessed July 27, 2023. https://github.com/vedph/episearch-htr

Clérice T. YALTAi: Segmonto Manuscript and Early Printed Book Dataset. Published online July 10, 2022. doi:10.5281/zenodo.6814770

Hodel T, Schoch D, Dängeli P. Handwritten Text Recognition Ground Truth Set: StABS Ratsbücher O10, Urfehdenbuch X. Published online August 2, 2021. doi:10.5281/zenodo.5153263

Jacsont P. Toponomasia : edition of cod. 174 of Bern Burgerbibliothek. Published online July 26, 2022. doi:10.5281/zenodo.7026585

Levenson MG. Towards a general open dataset and model for late medieval Castilian text recognition (HTR/OCR). Datasets and scripts. Published online December 1, 2022. doi:10.5281/zenodo.7389195

Perdiki E. List of manuscripts containing John Chrysostom’s Homilies and the relevant manual transcriptions. Published online February 27, 2023. doi:10.5281/zenodo.7681133

Pinche A, Gabay S, Leroy N, Christensen K. Données HTR incunables du 15e siècle. Published online March 22, 2023. Accessed July 27, 2023. https://github.com/Gallicorpora/HTR-incunable-15e-siecle

Pinche A, Gabay S, Leroy N, Christensen K. Données HTR manuscrits du 15e siècle. Published online March 22, 2023. Accessed July 27, 2023. https://github.com/Gallicorpora/HTR-MSS-15e-Siecle

Pinche A. Cremma Medieval. Published online June 2022. Accessed July 27, 2023. https://github.com/HTR-United/cremma-medieval

Torres Aguilar S, Jolivet V. Dataset and evaluation for HTR models for Latin and French Medieval Documentary Manuscripts. Published online January 10, 2023. doi:10.5281/zenodo.7401833

Torres Aguilar S, Jolivet V. HTR model for Latin and French Medieval Documentary Manuscripts (12th-15th). Published online January 18, 2023. doi:10.5281/zenodo.7547438

Journal of Data Mining and Digital Humanities est une revue à accès libre évaluée par les pairs, dont la pré-publication est publiée dans arxiv ou HAL et qui fait l'objet d'une évaluation par les pairs.

Contact : ariane.pinche@cnrs.fr