OCR17: Vérité de terrain et modèles pour les imprimés français du XVIIème s. (voire un peu plus)

Simon Gabay; Thibault Clérice; Christian Reul

doi:10.46298/jdmdh.6492

Simon Gabay ; Thibault Clérice ; Christian Reul - OCR17: Vérité de terrain et modèles pour les imprimés français du XVIIème s. (voire un peu plus)

jdmdh:6492 - Journal of Data Mining & Digital Humanities, 28 juin 2023, 2023 - https://doi.org/10.46298/jdmdh.6492

OCR17: Vérité de terrain et modèles pour les imprimés français du XVIIème s. (voire un peu plus)Article

Auteurs : Simon Gabay ^1,^2,³; Thibault Clérice ⁴; Christian Reul ^5,^6,^7,⁸

1 Université de Genève = University of Geneva
2 Université de Neuchâtel
3 Université de Neuchâtel = University of Neuchatel
4 Centre Jean Mabillon
5 University of Würzburg = Universität Würzburg
6 Julius-Maximilians-Universität Würzburg
7 Julius-Maximilians-Universität Würzburg = University of Würzburg [JMU]
8 Julius-Maximilians-Universität Würzburg = University of Würzburg [Würsburg, Germany] [JMU]

[en]
Machine learning begins with machine teaching: in the following paper, we present the data that we have prepared to kick-start the training of reliable OCR models for 17th century prints written in French. The construction of a representative corpus is a major challenge: we need to gather documents from different decades and of different genres to cover as many sizes, weights and styles as possible. Historical prints containing glyphs and typefaces that have now disappeared, transcription is a complex act, for which we present guidelines. Finally, we provide preliminary results based on these training data and experiments to improve them.

[fr]
L'apprentissage machine commence avec l'enseignement machine : dans cet article, nous présentons les données que nous avons préparées pour entraîner des modèles OCR fiables pour les imprimés du XVIIe siècle écrits en français. La construction d'un corpus représentatif est un enjeu majeur : il faut rassembler des documents de différentes décennies et de différents genres pour couvrir un maximum de tailles, de graisse et de styles. Les imprimés historiques contenant des glyphes et des caractères aujourd'hui disparus, la transcription est un acte complexe, pour lequel nous présentons des lignes directrices. Enfin, nous fournissons des résultats préliminaires basés sur ces données d'entraînement et des expériences pour les améliorer.

https://doi.org/10.46298/jdmdh.6492

Source : HAL:hal-02577236v2

Volume : 2023

Rubrique : Jeu de données

Publié le : 28 juin 2023

Accepté le : 28 juin 2023

Soumis le : 20 mai 2020

Mots-clés : [SHS]Humanities and Social Sciences, [INFO]Computer Science [cs], [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE], [SHS.HIST]Humanities and Social Sciences/History, [SHS.INFO]Humanities and Social Sciences/Library and information sciences, [SHS.LITT]Humanities and Social Sciences/Literature, [en] OCR, 17th c French, Training data, Corpus building, Data paper; [fr] OCR, XVIIème siècle, Données, Construction de corpus

Licence : Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0)

Simon Gabay ; Thibault Clérice ; Christian Reul - OCR17: Vérité de terrain et modèles pour les imprimés français du XVIIème s. (voire un peu plus)

Références bibliographiques

1 Document citant cet article

Partager et exporter

Statistiques de consultation