L'étiquetage
Plusieurs procédures d'étiquetage ont été mises en œuvre en fonction de la date et du genre de chaque ouvrage.
Textes modernes
L’étiquetage en partie du discours de Frantext a été réalisé à partir de 2016 à l’aide de l'outil Talismane. Cet étiquetage est spécifique aux textes modernes et contemporains (post 1850). Un module d'étiquetage a été conçu a cet effet : le Modèle Talismane pour textes littéraires en français moderne.
En fonction de la qualité des textes, certains ouvrages ont bénéficié d'un pré-traitement avant d'être étiquetés. C'est le cas notamment des ouvrages de poésie et de théâtre.
Textes anciens
Dans la version actuelle de Frantext, les textes anciens ont bénéficié d'un traitement spécifique afin de pouvoir être étiquetés selon la même procédure que les textes modernes, en utilisant un lexique de modernisation. Ainsi, pour chaque mot en ancienne orthographe, un équivalent en orthographe moderne a été soumis à l'outil d'étiquetage Talismane.
Un premier lexique de modernisation a été développé pour les périodes du français préclassique et classique à partir des travaux effectués dans le cadre du projet européen IMPACT et du projet ANR/DFG Presto. Les formes graphiques des textes ont été modernisées hors contexte. Certaines ambiguïtés fréquentes ont pu être résolues en étudiant la fréquence des mots dans le corpus.
La procédure est amenée à évoluer afin de répondre plus spécifiquement aux problématiques du traitement des textes anciens. Elle s'appuiera sur le lemmatiseur et la plate-forme d'annotation de LGeRM qui a été développé dans le cadre du projet du Dictionnaire du Moyen Français.
Pour en savoir plus, consultez la page du modèle Talismane sur la plateforme ORTOLANG, ainsi que sa documentation au format PDF.