Les jeux d'étiquettes
Correspondance des étiquettes grammaticales entre l'ancien Frantext Catégorisé (1998-2018) et l'actuel Frantext (depuis 2018).
Dans la version de Frantext de 2018, pour les textes postérieurs à 1850, le jeu d’étiquettes proposé par Crabbé et Candito1 a été utilisé, et modifié à la marge2.
- Une étiquette X a été ajoutée, pour les cas les plus problématiques.
- Sept étiquettes ont été supprimées. Il s’agit d’étiquettes qui étaient associées à peu de formes et d’étiquettes davantage bénéfiques pour l’analyse syntaxique que pour la seule catégorisation.
- Les étiquettes spécifiques aux clitiques sujets (je, tu, il, elle, on, ça, nous, vous, ils, elles) et objets (le, la, les, lui, leur, y, en) ont été conservées. Elles rendent compte d’un emploi particulier des pronoms personnels en tant que sujet ou objet de verbes.
Notion grammaticale | Ancien Frantext Catégorisé | Frantext (Recherche avancée) |
---|---|---|
Adjectif | A (sauf Aca, APr, APs) | ADJ |
Adjectif cardinal | Aca | ADJ |
Adjectif/participe présent | APr | - |
Adjectif/participe passé | APs | - |
Adverbe | Adv | ADV |
Conjonction coordination | Cc | CC |
Conjonction subordination | Cs | CS |
Déterminant | D (sauf Dca, Dg) | DET |
Cardinal ayant le rôle d'un déterminant | Dca | DET |
Amalgamés | Dg (au/aux/du/des) | P+D |
Exclamatif | E | - |
Présentatif | Ep (voici, voilà, etc.) | - |
Gérondif | Ger | - |
Infinitif | Inf | VINF |
Interjection | Inj (ah, oh, ha, ho, ...) | I |
Interrogatif | Int | - |
Nom propre | Np | NP |
Numeral card. | Nu | - |
Onomatopée | Ono | I |
Pronom | P (sauf Per, X) | PRO |
Pronom personnel | Per | PRO |
Pronom personnel clitique objet | - | CLO |
Pronom personnel clitique sujet | - | CLS |
Pronom relatif | - | PROREL |
Pronom interrogatif | - | PROWH |
Préposition | Pp | P |
Participe présent | Pr (sauf APr, Ger) | VPR |
Participe passé | Ps (sauf APs) | VPP |
Substantif | S | NC |
Verbe | V (sauf Pr, PS, Inf) | V |
Mot inconnu du logiciel | R | X |
Mot non traité | X (que/qu', où, sinon) | X3 |
Mot étranger | - | ET |
Ponctuation | - | PONCT |
Pour aller plus loin, consultez la documentation sur les procédures d'étiquetage.
- ^ Benoît Crabbé and Marie Candito. Expériences d’analyse syntaxique statistique du français. In 5ème conférence sur le Traitement Automatique des Langues Naturelles - TALN’08, pages pp. 44–54, Avignon, France, June 2008.
- ^ Ulrike Fleury, Lolita Bérard et Christophe Benzitoun. Campagne de catégorisation des textes post 1850 de la base Frantext, 2016.
- ^ Dans la version 2018 de Frantext, tous les que/qu', où et sinon sont traités. Les mots non traités peuvent correspondre aux numéros de chapitres (I,II,III,etc.), aux numéros de listes (1,2,3,A,B,C,etc.), aux t et l épenthétiques (va t'en) ou encore aux déterminants partitifs (de la, de l').