Les jeux d'étiquettes


Correspondance des étiquettes grammaticale entre l'ancien Frantext Catégorisé et le nouveau Frantext.

Dans le nouveau Frantext, pour les textes postérieurs à 1850, le jeu d’étiquettes proposé par Crabbé et Candito1 a été utilisé, et modifié à la marge2.

  • Une étiquette X a été ajoutée, pour les cas les plus problématiques.
  • Sept étiquettes ont été supprimées. Il s’agit d’étiquettes qui étaient associées à peu de formes et d’étiquettes davantage bénéfiques pour l’analyse syntaxique que pour la seule catégorisation.
  • Les étiquettes spécifiques aux clitiques sujets (je, tu, il, elle, on, ça, nous, vous, ils, elles) et objets (le, la, les, lui, leur, y, en) ont été conservées. Elles rendent compte d’un emploi particulier des pronoms personnels en tant que sujet ou objet de verbes.
Notion grammaticaleAncien Frantext CatégoriséNouveau Frantext (Recherche avancée)
AdjectifA (sauf Aca, APr, APs)ADJ
Adjectif cardinalAcaADJ
Adjectif/participe présentAPr-
Adjectif/participe passéAPs-
AdverbeAdvADV
Conjonction coordinationCcCC
Conjonction subordinationCsCS
DéterminantD (sauf Dca, Dg)DET
Cardinal ayant le rôle d'un déterminantDcaDET
AmalgamésDg (au/aux/du/des)P+D
ExclamatifE-
PrésentatifEp (voici, voilà, etc.)-
GérondifGer-
InfinitifInfVINF
InterjectionInj (ah, oh, ha, ho, ...)I
InterrogatifInt-
Nom propreNpNP
Numeral card.Nu-
OnomatopéeOnoI
PronomP (sauf Per, X)PRO
Pronom personnelPerPRO
Pronom personnel clitique objet-CLO
Pronom personnel clitique sujet-CLS
Pronom relatif-PROREL
Pronom interrogatif-PROWH
PrépositionPpP
Participe présentPr (sauf APr, Ger)VPR
Participe passéPs (sauf APs)VPP
SubstantifSNC
VerbeV (sauf Pr, PS, Inf)V
Mot inconnu du logicielRX
Mot non traitéX (que/qu', où, sinon)X3
Mot étranger-ET
Ponctuation-PONCT

Pour aller plus loin, consultez la documentation sur les procédures d'étiquetage.

  1. ^ Benoît Crabbé and Marie Candito. Expériences d’analyse syntaxique statistique du français. In 5ème conférence sur le Traitement Automatique des Langues Naturelles - TALN’08, pages pp. 44–54, Avignon, France, June 2008.
  2. ^ Ulrike Fleury, Lolita Bérard et Christophe Benzitoun. Campagne de catégorisation des textes post 1850 de la base Frantext, 2016.
  3. ^ Dans la nouvelle version de Frantext, tous les que/qu', et sinon sont traités. Les mots non traités peuvent correspondre aux numéros de chapitres (I,II,III,etc.), aux numéros de listes (1,2,3,A,B,C,etc.), aux t et l épenthétiques (va t'en) ou encore aux déterminants partitifs (de la, de l').
Modifié par Gilles Toubiana le 2018/11/29 15:00
Frantext - ATILF (CNRS/UL) - 2018

Logo CNRS   Logo ATILF   Logo Université de Lorraine