Mike Kestemont ; Jeroen De Gussem - Integrated Sequence Tagging for Medieval Latin Using Deep Representation Learning

jdmdh:1398 - Journal of Data Mining & Digital Humanities, 6 août 2017, Numéro spécial sur le traitement assisté par ordinateur de l‘intertextualité dans les langues anciennes - https://doi.org/10.46298/jdmdh.1398
Integrated Sequence Tagging for Medieval Latin Using Deep Representation LearningArticle

Auteurs : Mike Kestemont ; Jeroen De Gussem

    In this paper we consider two sequence tagging tasks for medieval Latin: part-of-speech tagging and lemmatization. These are both basic, yet foundational preprocessing steps in applications such as text re-use detection. Nevertheless, they are generally complicated by the considerable orthographic variation which is typical of medieval Latin. In Digital Classics, these tasks are traditionally solved in a (i) cascaded and (ii) lexicon-dependent fashion. For example, a lexicon is used to generate all the potential lemma-tag pairs for a token, and next, a context-aware PoS-tagger is used to select the most appropriate tag-lemma pair. Apart from the problems with out-of-lexicon items, error percolation is a major downside of such approaches. In this paper we explore the possibility to elegantly solve these tasks using a single, integrated approach. For this, we make use of a layered neural network architecture from the field of deep representation learning.


    Volume : Numéro spécial sur le traitement assisté par ordinateur de l‘intertextualité dans les langues anciennes
    Rubrique : Vers un écosystème numérique : NLP. Infrastructure de corpus. Méthodes de récupération des textes et de calcul des similarités de textes
    Publié le : 6 août 2017
    Accepté le : 5 août 2017
    Soumis le : 4 août 2017
    Mots-clés : Computer Science - Computation and Language,Computer Science - Learning,Statistics - Machine Learning

    2 Documents citant cet article

    Statistiques de consultation

    Cette page a été consultée 5556 fois.
    Le PDF de cet article a été téléchargé 1110 fois.