Edité par Ariane Pinche (CIHAM, CNRS) et Peter Stokes (AOROC, École Pratique des Hautes Études – Université PSL)
Grâce à ce numéro spécial du Journal of Data Mining and Digital Humanities (JDMDH), nous rassemblons en un seul volume plusieurs expériences, projets et réflexions liés à la reconnaissance automatique de texte sur des documents historiques.
De nombreux projets incluent désormais l'acquisition automatique de textes dans leur chaîne de traitement des données. L'intégration de cette technologie dans des chaînes de traitement de plus en plus performantes a conduit à une automatisation des tâches qui affecte le rôle du chercheur dans le processus de production textuelle. Cette nouvelle pratique gourmande en données rend urgente la collecte et l'harmonisation des corpus nécessaires à la constitution de jeux d'entraînement, mais aussi leur mise à disposition pour l'exploitation. Ce numéro sera l'occasion de proposer des articles combinantquestions philologiques et techniques pour faire un bilan scientifique de l'utilisation de la reconnaissance automatique de texte pour les documents anciens, de ses résultats, de ses apports et des nouvelles pratiques induites par son utilisation dans le processus d'édition et d'exploration des textes. Nous espérons que les aspects pratiques seront interrogés à cette occasion, tout en soulevant les défis méthodologiques et leurs impacts sur les données de la recherche.
Ce numéro est consacré à la présentation d'un aperçu complet de l'utilisation de l'ATR dans le domaine des sciences humaines, en particulier en ce qui concerne les documents historiques au début des années 2020. Il propose des articles traitant à la fois des aspects techniques et philologiques, s'adressant ainsi aussi bien aux débutants qu'aux utilisateurs expérimentés intéressés par le lancement de projets intégrant une étape d'ATR. Cette édition englobe un large éventail d'approches, couvrant des sujets tels que la création ou la collecte de données pour l'entraînement de modèles génériques, des présentations de projets et d'architectures de moteur d'ATR, ainsi que des exposés sur des méthodes de segmentation et de traitement d'images.
PINCHE, Ariane, STOKES, Peter A., « Historical Documents and Automatic Text Recognition: Introduction », https://doi.org/10.46298/jdmdh.13247
COUTURE, Béatrice, VERRET, Farah, GOHIER, Maxime [et al.], « The challenges of HTR model training: Feedbacks from the project Donner le goût de l’archive à l'ère numérique », https://jdmdh.episciences.org/12556.
CALVELLI, Lorenzo, BOSCHETTI, Federico et TOMMASI, Tatiana, « EpiSearch. Identifying Ancient Inscriptions in Epigraphic Manuscripts », https://doi.org/10.46298/jdmdh.10417
ROMEIN, C. Annemieke, HODEL, Tobias, GORDIJN, Femke, [et al.], « Exploring Data Provenance in Handwritten Text Recognition Infrastructure: Sharing and Reusing Ground Truth Data, Referencing Models, and Acknowledging Contributions. Starting the Conversation on How We Could Get It Done », https://doi.org/10.46298/jdmdh.10403.
PERDIKI, Elpida, « Preparing Big Manuscript Data for Hierarchical Clustering with Minimal HTR Training », https://doi.org/10.46298/jdmdh.10419
LEVENSON GILLE, Matthias, « Towards a general open dataset and model for late medieval Castilian text recognition (HTR/OCR). Paper », https://doi.org/10.46298/jdmdh.10416
PINCHE, Ariane, « Generic HTR Models for Medieval Manuscripts The CREMMALab Project », https://jdmdh.episciences.org/11592
AGUILAR, Sergio Torres et JOLIVET, Vincent, « Handwritten Text Recognition for Documentary Medieval Manuscripts », https://doi.org/10.46298/jdmdh.10484
CLÉRICE, Thibault, « You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine », https://doi.org/10.46298/jdmdh.9806
JACSONT, Pauline et LEBLANC, Elina, « Impact of Image Enhancement Methods on HTR Trainings with eScriptorium », https://doi.org/10.46298/jdmdh.10262
WEST, Graham, SWINDALL, Matthew I., KEENER, Ben, [et al.], « An Approach for Noisy, Crowdsourced Datasets Utilizing Ensemble Modeling, “Human Softmax” Distributions, and Entropic Measures of Uncertainty », https://doi.org/10.46298/jdmdh.10297
Boschetii F., episearch-htr. Published online November 23, 2022. Accessed July 27, 2023. https://github.com/vedph/episearch-htr
Clérice T. YALTAi: Segmonto Manuscript and Early Printed Book Dataset. Published online July 10, 2022. doi:10.5281/zenodo.6814770
Hodel T, Schoch D, Dängeli P. Handwritten Text Recognition Ground Truth Set: StABS Ratsbücher O10, Urfehdenbuch X. Published online August 2, 2021. doi:10.5281/zenodo.5153263
Jacsont P. Toponomasia : edition of cod. 174 of Bern Burgerbibliothek. Published online July 26, 2022. doi:10.5281/zenodo.7026585
Levenson MG. Towards a general open dataset and model for late medieval Castilian text recognition (HTR/OCR). Datasets and scripts. Published online December 1, 2022. doi:10.5281/zenodo.7389195
Perdiki E. List of manuscripts containing John Chrysostom’s Homilies and the relevant manual transcriptions. Published online February 27, 2023. doi:10.5281/zenodo.7681133
Pinche A, Gabay S, Leroy N, Christensen K. Données HTR incunables du 15e siècle. Published online March 22, 2023. Accessed July 27, 2023. https://github.com/Gallicorpora/HTR-incunable-15e-siecle
Pinche A, Gabay S, Leroy N, Christensen K. Données HTR manuscrits du 15e siècle. Published online March 22, 2023. Accessed July 27, 2023. https://github.com/Gallicorpora/HTR-MSS-15e-Siecle
Pinche A. Cremma Medieval. Published online June 2022. Accessed July 27, 2023. https://github.com/HTR-United/cremma-medieval
Torres Aguilar S, Jolivet V. Dataset and evaluation for HTR models for Latin and French Medieval Documentary Manuscripts. Published online January 10, 2023. doi:10.5281/zenodo.7401833
Torres Aguilar S, Jolivet V. HTR model for Latin and French Medieval Documentary Manuscripts (12th-15th). Published online January 18, 2023. doi:10.5281/zenodo.7547438
Journal of Data Mining and Digital Humanities est une revue à accès libre évaluée par les pairs, dont la pré-publication est publiée dans arxiv ou HAL et qui fait l'objet d'une évaluation par les pairs.
Contact : ariane.pinche@cnrs.fr