Modifications du document Les catégories grammaticales
modifié par Gilles Toubiana
sur 2020/03/10 15:27
sur 2020/03/10 15:27
modifié par Gilles Toubiana
sur 2018/05/28 10:58
sur 2018/05/28 10:58
Commentaire de modification : Il n'y a aucun commentaire pour cette version
Résumé
-
Propriétés de la Page (3 modifications, 0 ajouts, 0 suppressions)
Détails
- Propriétés de la Page
-
- Parent
-
... ... @@ -1,1 +1,1 @@ 1 -xwiki:Main. Manueld'utilisation.Expressions.WebHome1 +xwiki:Main.Les expressions Frantext.Correspondances entre les versions.WebHome - Tags
-
... ... @@ -1,1 +1,0 @@ 1 -manuel|v1.2.x|pos|ana|parties du discours|catégories|catégories grammaticales|codes grammaticaux|corpus|étiquetage|étiquettes|Frantext 19.4 - Contenu
-
... ... @@ -1,59 +1,37 @@ 1 1 (% class="lead" %) 2 -Les textes ont tousété catégorisés (étiquetés en partie de discours, ou POS). Cela signifie que chaque mot a reçu une étiquette grammaticale.2 +L'ensemble des textes ont été catégorisés (étiquetés en partie de discours, ou POS). Cela signifie que chaque mot a reçu une étiquette grammaticale. 3 3 4 - L'annotationmorphosyntaxiquepermetde différencier desemplois.Par exemple,larme "entre" peutêtre employéecomme VERBE (entrer)etcommePRÉPOSITION (entre).C'estlaposition,l'accordet lacombinaisondesformesquipermettentde déterminerl'emploi, etdechoisirlacatégoriegrammaticalelaplusappropriée.Parfois,plusieurs catégoriespeuventcorrespondreàunforme,onparlealorsd'ambiguïtés. DansFrantext,chaque forme estliéeà une catégorie, c'est-à-dire uneétiquettegrammaticaleunique.4 +Pour les textes postérieurs à 1850, le jeu d’étiquettes proposés par Crabbé et Candito{{footnote}}Benoît Crabbé and Marie Candito. Expériences d’analyse syntaxique statistique du français. In //5ème conférence sur le Traitement Automatique des Langues Naturelles - TALN’08//, pages pp. 44–54, Avignon, France, June 2008.{{/footnote}} a été utilisé, et modifié à la marge{{footnote}}Ulrike Fleury, Lolita Bérard et Christophe Benzitoun. Campagne de catégorisation des textes post 1850 de la base Frantext, 2016.{{/footnote}}. 5 5 6 +* Une étiquette {{code}}X{{/code}} a été ajoutée, pour les cas les plus problématiques. 7 +* Sept étiquettes ont été supprimées. Il s’agit d’étiquettes qui étaient associées à peu de formes et d’étiquettes davantage bénéfiques pour l’analyse syntaxique que pour la seule catégorisation. 8 +* Les étiquettes spécifiques aux clitiques sujets (//je, tu, il, elle, on, ça, nous, vous, ils, elles//) et objets (//le, la, les, lui, leur, y, en//) ont été conservées. Elles rendent compte d’un emploi particulier des pronoms personnels en tant que sujet ou objet de verbes. 9 + 6 6 **Voici la liste des codes grammaticaux utilisés pour cet étiquetage :** 7 7 8 8 (% class="doOddEven sortable table-bordered table-condensed table-striped" id="tableid" %) 9 -(% class="sortHeader" %)|=(% style="background-color:#EEE;" %)CODES|=(% style="background-color:#EEE;" %)Notions grammaticales|=(% style="background-color:#EEE;" %)Exemples 10 -|{{code}}ADJ{{/code}}|adjectif (épithète, attribut, comparatif, superlatif)|petit, grand… 11 -|{{code}}ADV{{/code}}|adverbe|ne, pas, plus, qu', rien, jamais, personne… 12 -|{{code}}CC{{/code}}|conjonction de coordination|mais, où, et, donc, or, ni, car 13 -|{{code}}CS{{/code}}|conjonction de subordination|quand, si, lorsque, quoique… 14 -|{{code}}CLO{{/code}}|Pronom clitique objet (pronoms toujours collés au verbe)|me, te, se, s', nous, vous, y, en… 15 -|{{code}}CLS{{/code}}|Pronom clitique sujet (pronoms toujours collés au verbe)|je, j', tu, il, elle, on, nous, ça… 16 -|{{code}}DET{{/code}}|déterminant (défini, indéfini, démonstratif, possessif, interrogatif)|la, le, un, certains, aucun, mon… 17 -|{{code}}ET{{/code}}|mot étranger|//the//, //in//, //of//… 18 -|{{code}}I{{/code}}|interjection|non, oui, ah, oh, si… 19 -|{{code}}NC{{/code}}|nom commun (adjectifs sans majuscules, possessifs)|vie, fois, propriété, premier, mien… 20 -|{{code}}NP{{/code}}|nom propre (noms de personnes, lieux, etc.)|Dieu, Fabrice, Paris… 21 -|{{code}}P+D{{/code}}|préposition + déterminant{{footnote}}Dans la recherche avancée, afin que le caractère + ne soit pas interprété comme un quantificateur dans l'expression régulière, il convient d'utiliser un caractère d'échappement et d'écrire par exemple [pos="P\+D"].{{/footnote}}|du (de+le), des (de+les), au (à+le)… 22 -|{{code}}PONCT{{/code}}|ponctuation|, . ; : ! ? 23 -|{{code}}PRO{{/code}}|pronom (tonique, indéfini, démonstratif)|tout, plusieurs, moi, lui, personne, rien… 24 -|{{code}}PROREL{{/code}}|pronom relatif|qui, que, qu', quoi, dont, où, lequel… 25 -|{{code}}PROWH{{/code}}|pronom interrogatif|comment, quoi, pourquoi, quand… 26 -|{{code}}P{{/code}}|préposition|de, d', à, pour, par, vers, contre, avec… 27 -|{{code}}V{{/code}}|verbe conjugué (ainsi que voilà et voici)|est, a, était, voilà… 28 -|{{code}}VINF{{/code}}|verbe à l’infinitif|faire, être, avoir… 29 -|{{code}}VPP{{/code}}|verbe participe passé|été, fait, dit… 30 -|{{code}}VPR{{/code}}|verbe participe présent|ayant, étant, faisant… 31 -|{{code}}X{{/code}}|mot non traité (numéros de chapitres ou de listes, ((( 32 -t et l épenthétiques, déterminants partitifs, etc.) 33 -)))|–, –, ii… 13 +(% class="sortHeader" %)|=(% style="background-color:#EEE;" %)CODE|=(% style="background-color:#EEE;" %)Notion grammaticale 14 +|{{code}}ADJ{{/code}}|adjectif 15 +|{{code}}ADV{{/code}}|adverbe 16 +|{{code}}CC{{/code}}|conjonction de coordination 17 +|{{code}}CS{{/code}}|conjonction de subordination 18 +|{{code}}CLO{{/code}}|clitique objet 19 +|{{code}}CLS{{/code}}|clitique sujet 20 +|{{code}}DET{{/code}}|déterminant 21 +|{{code}}ET{{/code}}|mot étranger 22 +|{{code}}I{{/code}}|interjection 23 +|{{code}}NC{{/code}}|nom commun 24 +|{{code}}NP{{/code}}|nom propre 25 +|{{code}}P+D{{/code}}|préposition + déterminant 26 +|{{code}}PONCT{{/code}}|ponctuation 27 +|{{code}}PRO{{/code}}|pronom 28 +|{{code}}PROREL{{/code}}|pronom relatif 29 +|{{code}}PROWH{{/code}}|pronom interrogatif 30 +|{{code}}P{{/code}}|préposition 31 +|{{code}}V{{/code}}|verbe conjugué 32 +|{{code}}VINF{{/code}}|verbe à l’infinitif 33 +|{{code}}VPP{{/code}}|verbe participe passé 34 +|{{code}}VPR{{/code}}|verbe participe présent 35 +|{{code}}X{{/code}}|mot non traité 34 34 35 -(% class="box infomessage" %) 36 -((( 37 -Les nombres ont reçu une étiquette en fonction de leur position : DET, NC, ADJ ou PRO. Les dates ont été étiquetées : NC. 38 -))) 39 - 40 -**Des étiquettes spécifiques aux textes médiévaux ont été ajoutées à Frantext en janvier 2019 :** 41 - 42 -(% class="doOddEven sortable table-bordered table-condensed table-striped" id="tableid" %) 43 -(% class="sortHeader" %)|=(% style="background-color:#EEE;" %)CODES|=(% style="background-color:#EEE;" %)Notions grammaticales|=(% style="background-color:#EEE;" %)Exemples 44 -|{{code}}ADV+CLO{{/code}}|adverbe + clitique objet|nel, nes, sil… 45 -|{{code}}ADV+DET{{/code}}|adverbe + déterminant|nel 46 -|{{code}}CLS+CLO{{/code}}|clitique sujet + clitique objet|jol, jeol, jel… 47 -|{{code}}CLS+V{{/code}}|clitique sujet + verbe|cestoit, javois 48 -|{{code}}CS+CLO{{/code}}|conjonction de subordination + clitique objet|kes 49 -|{{code}}CS+CLS{{/code}}|conjonction de subordination + clitique sujet|kil 50 -|{{code}}V+CLS{{/code}}|verbe + clitique sujet|atil, estce 51 - 52 -(% class="box infomessage" %) 53 -((( 54 -Du fait de la complexité du processus d'étiquetage pour certains textes, il est possible que d'autres combinaisons soient disponibles - notamment dans la recherche assistée pour les versions 1.2.x de l'application en ligne. Ces combinaisons vont disparaitre lors des mises à jour successives du corpus. 55 -))) 56 - 57 ->Pour aller plus loin, consultez la documentation dédiée aux [[jeux d'étiquettes>>doc:Main.Manuel d'utilisation.Expressions.Les codes grammaticaux.Correspondance des codes grammaticaux.WebHome]]. 58 - 59 59 {{putFootnotes/}}