V. The contribution of corpora


On searchable Mordvin corpora at the Language Bank of Finland, EMERALD

Jack Rueter.
Description of Mordvin language corpora development at the Language Bank of Finland.Description of development.

Machine Translation and Gender biases in video game localisation: a corpus-based analysis

María Rivas Ginel ; Sarah Theroine.
The video game industry has been a historically gender-biased terrain due to a higher number of male protagonists and hypersexualised representations [Dietz, 1998; Downs & Smith, 2010; Lynch et al., 2016]. Nowadays, echoing the debate on inclusive language, companies attempt to erase gender disparity by introducing main female characters as well as non-binary characters. From a technological point of view, even though recent studies show that Machine Translation remains largely unadopted by individual video game localisers [Rivas Ginel, 2021], multilanguage vendors are willing to invest in these tools to reduce costs [LIND, 2020]. However, the predominance of the masculine in Natural Language Processing and Machine Learning has created allocation and representation biases in Neural Machine Translation [Crawford, 2017].This paper aims to analyse the percentage of gender bias resulting from the use of Google Translate, DeepL, and SmartCat when translating in-game raw content from English into French. The games DeltaRune, The Devil's Womb and The Faces of the Forest were chosen due to the presence of non-binary characters, non-sexualized characters, and female protagonists. We compared the results in order to recount and analyse the differences between these tools' output when in terms of errors related to gender. To this end, we created a parallel corpus to compare source documents and all the translations to visualise the semantic and grammatical directions of the words […]

La traduction littéraire automatique : Adapter la machine à la traduction humaine individualisée

Damien Hansen ; Emmanuelle Esperança-Rodier ; Hervé Blanchon ; Valérie Bada.
La traduction automatique neuronale et son adaptation à des domaines spécifiques par le biais de corpus spécialisés ont permis à cette technologie d’intégrer bien plus largement qu’auparavant le métier et la formation des traducteur·trice·s. Si le paradigme neuronal (et le deep learning de manière générale) a ainsi pu investir des domaines parfois insoupçonnés, y compris certains où la créativité est de mise, celui-ci est moins marqué par un gain phénoménal de performance que par une utilisation massive auprès du public et les débats qu’il génère, nombre d’entre eux invoquant couramment le cas littéraire pour (in)valider telle ou telle observation. Pour apprécier la pertinence de cette technologie, et ce faisant surmonter les discours souvent passionnés des opposants et partisans de la traduction automatique, il est toutefois nécessaire de mettre l’outil à l’épreuve, afin de fournir un exemple concret de ce que pourrait produire un système entraîné spécifiquement pour la traduction d’œuvres littéraires. Inscrit dans un projet de recherche plus vaste visant à évaluer l’aide que peuvent fournir les outils informatiques aux traducteurs et traductrices littéraires, cet article propose par conséquent une expérience de traduction automatique de la prose qui n’a plus été tentée pour le français depuis les systèmes probabilistes et qui rejoint un nombre croissant d’études sur le sujet pour d’autres paires de […]