Simon Gabay ; Thibault Clérice ; Christian Reul - OCR17: Vérité de terrain et modèles pour les imprimés français du XVIIème s. (voire un peu plus)

jdmdh:6492 - Journal of Data Mining & Digital Humanities, 28 juin 2023, 2023 - https://doi.org/10.46298/jdmdh.6492
OCR17: Vérité de terrain et modèles pour les imprimés français du XVIIème s. (voire un peu plus)Article

Auteurs : Simon Gabay ORCID1,2,3; Thibault Clérice ORCID4; Christian Reul ORCID5,6,7,8

L'apprentissage machine commence avec l'enseignement machine : dans cet article, nous présentons les données que nous avons préparées pour entraîner des modèles OCR fiables pour les imprimés du XVIIe siècle écrits en français. La construction d'un corpus représentatif est un enjeu majeur : il faut rassembler des documents de différentes décennies et de différents genres pour couvrir un maximum de tailles, de graisse et de styles. Les imprimés historiques contenant des glyphes et des caractères aujourd'hui disparus, la transcription est un acte complexe, pour lequel nous présentons des lignes directrices. Enfin, nous fournissons des résultats préliminaires basés sur ces données d'entraînement et des expériences pour les améliorer.


Volume : 2023
Rubrique : Jeu de données
Publié le : 28 juin 2023
Accepté le : 28 juin 2023
Soumis le : 20 mai 2020
Mots-clés : OCR,17th c French,Training data,Corpus building,Data paper,OCR,XVIIème siècle,Données,Construction de corpus,[SHS]Humanities and Social Sciences,[INFO]Computer Science [cs],[INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE],[SHS.HIST]Humanities and Social Sciences/History,[SHS.INFO]Humanities and Social Sciences/Library and information sciences,[SHS.LITT]Humanities and Social Sciences/Literature

Statistiques de consultation

Cette page a été consultée 1029 fois.
Le PDF de cet article a été téléchargé 252 fois.