Méthodes de détection des intertextes et de la réutilisation des textes, manuelles (par exemple, crowdsourcing) ou automatiques (par exemple, algorithmes) ;
Infrastructure pour la préservation des textes numériques et des citations entre différents passages de texte ;
Prétraitement linguistique et normalisation des données, tels que la lemmatisation des langues historiques, l'extraction des racines, la normalisation des variantes, etc.
Cette partie se concentre sur les définitions conceptuelles, la modélisation de l'idée instable de "citation" et l'encodage XML-TEI à mettre en œuvre pour sa caractérisation.
Un "Data paper" est une publication qui explique comment les données ont été construites et quel type de traitement potentiel peut être appliqué pour exploiter ce type d'ensemble de données. Une ontologie peut également être publiée, c'est-à-dire une organisation de la connaissance qui est associée à un type d'ensemble de données ; dans ce cas, une description fine est requise.
Un document de synthèse décrit les objectifs d'un projet spécifique. Un parrainage est nécessaire. Une description fine de tous les paquets est utile pour comprendre la complémentarité de chaque contribution dans le cadre du projet.
Rédacteurs : Julien Cavero ; Marie-Laure Massot