Les catégories grammaticales
Les textes ont tous été catégorisés (étiquetés en partie de discours, ou POS). Cela signifie que chaque mot a reçu une étiquette grammaticale.
L'annotation morphosyntaxique permet de différencier des emplois. Par exemple, la forme "entre" peut être employée comme VERBE (entrer) et comme PRÉPOSITION (entre). C'est la position, l'accord et la combinaison des formes qui permettent de déterminer l'emploi, et de choisir la catégorie grammaticale la plus appropriée. Parfois, plusieurs catégories peuvent correspondre à un forme, on parle alors d'ambiguïtés. Dans Frantext, chaque forme est liée à une catégorie, c'est-à-dire une étiquette grammaticale unique.
Voici la liste des codes grammaticaux utilisés pour cet étiquetage :
CODES | Notions grammaticales | Exemples (en fonction du contexte) |
---|---|---|
ADJ | adjectif (épithète, attribut, comparatif, superlatif) | petit, grand… |
ADV | adverbe | ne, pas, plus, qu', rien, jamais, personne… |
CC | conjonction de coordination | mais, où, et, donc, or, ni, car |
CS | conjonction de subordination | quand, si, lorsque, quoique… |
CLO | Pronom clitique objet (pronoms toujours collés au verbe) | me, te, se, s', nous, vous, y, en… |
CLS | Pronom clitique sujet (pronoms toujours collés au verbe) | je, j', tu, il, elle, on, nous, ça… |
DET | déterminant (défini, indéfini, démonstratif, possessif, interrogatif) | la, le, un, certains, aucun, mon… |
ET | mot étranger | the, in, of… |
I | interjection | non, oui, ah, oh, si… |
NC | nom commun (adjectifs sans majuscules, possessifs) | vie, fois, propriété, premier, mien… |
NP | nom propre (noms de personnes, lieux, etc.) | Dieu, Fabrice, Paris… |
P+D1 | préposition + déterminant | du (de+le), des (de+les), au (à+le)… |
PONCT | ponctuation | , . ; : ! ? |
PRO | pronom (tonique, indéfini, démonstratif) | tout, plusieurs, moi, lui, personne, rien… |
PROREL | pronom relatif | qui, que, qu', quoi, dont, où, lequel… |
PROWH | pronom interrogatif | comment, quoi, pourquoi, quand… |
P | préposition | de, d', à, pour, par, vers, contre, avec… |
V | verbe conjugué (ainsi que voilà et voici) | est, a, était, voilà… |
VINF | verbe à l’infinitif | faire, être, avoir… |
VPP | verbe participe passé | été, fait, dit… |
VPR | verbe participe présent | ayant, étant, faisant… |
X | mot non traité (numéros de chapitres ou de listes, t et l épenthétiques, déterminants partitifs, etc.) | –, –, ii… |
Des étiquettes spécifiques aux textes médiévaux ont été ajoutées à Frantext en janvier 2019 :
CODES | Notions grammaticales | Exemples |
---|---|---|
ADV+CLO | adverbe + clitique objet | nel, nes, sil… |
ADV+DET | adverbe + déterminant | nel |
CLS+CLO | clitique sujet + clitique objet | jol, jeol, jel… |
CLS+V | clitique sujet + verbe | cestoit, javois |
CS+CLO | conjonction de subordination + clitique objet | kes |
CS+CLS | conjonction de subordination + clitique sujet | kil |
V+CLS | verbe + clitique sujet | atil, estce |
Pour aller plus loin, consultez la documentation dédiée aux jeux d'étiquettes.
- ^ Dans la recherche avancée, afin que le caractère + ne soit pas interprété comme un quantificateur dans l'expression régulière, il convient d'utiliser un caractère d'échappement et d'écrire par exemple [pos="P\+D"].