Évaluer les méthodes de deep learning pour la segmentation des mots de textes en scripta continua en ancien francais et en latin

Thibault Clérice

doi:10.46298/jdmdh.5581

Thibault Clérice - Évaluer les méthodes de deep learning pour la segmentation des mots de textes en scripta continua en ancien francais et en latin

jdmdh:5581 - Journal of Data Mining & Digital Humanities, 7 avril 2020, 2020 - https://doi.org/10.46298/jdmdh.5581

Évaluer les méthodes de deep learning pour la segmentation des mots de textes en scripta continua en ancien francais et en latinArticle

Auteurs : Thibault Clérice ^1,^2,^3,^4,⁵

1 Université Paris sciences et lettres
2 École nationale des chartes
3 Centre Jean Mabillon
4 Histoire et Sources des Mondes antiques
5 Université Paris Sciences et Lettres

Tokenization of modern and old Western European languages seems to be fairly simple, as it stands on the presence mostly of markers such as spaces and punctuation. However, when dealing with old sources like manuscripts written in scripta continua, antiquity epigraphy or Middle Age manuscripts, (1) such markers are mostly absent, (2) spelling variation and rich morphology make dictionary based approaches difficult. Applying convolutional encoding to characters followed by linear categorization to word-boundary or in-word-sequence is shown to be effective at tokenizing such inputs. Additionally, the software is released with a simple interface for tokenizing a corpus or generating a training set.

https://doi.org/10.46298/jdmdh.5581

Source : HAL:hal-02154122v2

Volume : 2020

Rubrique : Vers un écosystème numérique : NLP. Infrastructure de corpus. Méthodes de récupération des textes et de calcul des similarités de textes

Publié le : 7 avril 2020

Accepté le : 7 avril 2020

Soumis le : 18 juin 2019

Mots-clés : convolutional network,scripta continua,tokenization,Old French,word segmentation,[SHS.LANGUE]Humanities and Social Sciences/Linguistics,[SHS.CLASS]Humanities and Social Sciences/Classical studies,[INFO]Computer Science [cs]

Licence : Attribution - Partage dans les Mêmes Conditions 4.0 International (CC BY-SA 4.0)

Thibault Clérice - Évaluer les méthodes de deep learning pour la segmentation des mots de textes en scripta continua en ancien francais et en latin

Références bibliographiques

3 Documents citant cet article

Partager et exporter

Statistiques de consultation