Les catégories grammaticales


Les textes ont tous été catégorisés (étiquetés en partie de discours, ou POS). Cela signifie que chaque mot a reçu une étiquette grammaticale.

L'annotation morphosyntaxique permet de différencier des emplois. Par exemple, la forme "entre" peut être employée comme VERBE (entrer) et comme PRÉPOSITION (entre). C'est la position, l'accord et la combinaison des formes qui permettent de déterminer l'emploi, et de choisir la catégorie grammaticale la plus appropriée. Parfois, plusieurs catégories peuvent correspondre à un forme, on parle alors d'ambiguïtés. Dans Frantext, chaque forme est liée à une catégorie, c'est-à-dire une étiquette grammaticale unique.

Voici la liste des codes grammaticaux utilisés pour cet étiquetage :

CODESNotions grammaticalesExemples (en fonction du contexte)
ADJadjectif (épithète, attribut, comparatif, superlatif)petit, grand…
ADVadverbene, pas, plus, qu', rien, jamais, personne…
CCconjonction de coordinationmais, où, et, donc, or, ni, car
CSconjonction de subordinationquand, si, lorsque, quoique…
CLOPronom clitique objet (pronoms toujours collés au verbe)me, te, se, s', nous, vous, y, en…
CLSPronom clitique sujet (pronoms toujours collés au verbe)je, j', tu, il, elle, on, nous, ça…
DETdéterminant (défini, indéfini, démonstratif, possessif, interrogatif)la, le, un, certains, aucun, mon…
ETmot étrangerthe, in, of
Iinterjectionnon, oui, ah, oh, si…
NCnom commun (adjectifs sans majuscules, possessifs)vie, fois, propriété, premier, mien…
NPnom propre (noms de personnes, lieux, etc.)Dieu, Fabrice, Paris…
P+D1préposition + déterminantdu (de+le), des (de+les), au (à+le)…
PONCTponctuation, . ; : ! ?
PROpronom (tonique, indéfini, démonstratif)tout, plusieurs, moi, lui, personne, rien…
PRORELpronom relatifqui, que, qu', quoi, dont, où, lequel…
PROWHpronom interrogatifcomment, quoi, pourquoi, quand…
Pprépositionde, d', à, pour, par, vers, contre, avec…
Vverbe conjugué (ainsi que voilà et voici)est, a, était, voilà…
VINFverbe à l’infinitiffaire, être, avoir…
VPPverbe participe passéété, fait, dit…
VPRverbe participe présentayant, étant, faisant…
Xmot non traité (numéros de chapitres ou de listes, 

t et l épenthétiques, déterminants partitifs, etc.)

–, –, ii…

Les nombres ont reçu une étiquette en fonction de leur position : DET, NC, ADJ ou PRO. Les dates ont été étiquetées : NC.

Des étiquettes spécifiques aux textes médiévaux ont été ajoutées à Frantext en janvier 2019 :

CODESNotions grammaticalesExemples
ADV+CLOadverbe + clitique objetnel, nes, sil…
ADV+DETadverbe + déterminantnel
CLS+CLOclitique sujet + clitique objetjol, jeol, jel…
CLS+Vclitique sujet + verbecestoit, javois
CS+CLOconjonction de subordination + clitique objetkes
CS+CLSconjonction de subordination + clitique sujetkil
V+CLSverbe + clitique sujetatil, estce

Du fait de la complexité du processus d'étiquetage pour certains textes, il est possible que d'autres combinaisons soient disponibles - notamment dans la recherche assistée pour les versions 1.2.x de l'application en ligne. Ces combinaisons vont disparaitre lors des mises à jour successives du corpus.

Pour aller plus loin, consultez la documentation dédiée aux jeux d'étiquettes.

  1. ^ Dans la recherche avancée, afin que le caractère + ne soit pas interprété comme un quantificateur dans l'expression régulière, il convient d'utiliser un caractère d'échappement et d'écrire par exemple [pos="P\+D"].
Frantext - ATILF (CNRS/UL) - 2018-2020

Logo CNRS   Logo ATILF   Logo Université de Lorraine