Les expressions de séquence


Comme dans la version précédente, Frantext nécessite l'utilisation d'une syntaxe particulière pour tirer parti des listes, grammaires et flexions grâce au moteur de recherche Allegro. Le caractère esperluette & peut alors être utilisé dans la recherche avancée, les grammaires, et les listes de mots.

Les listes de mots

Frantext propose 3 exemples de listes de mots. Chacune possède un identifiant unique (id) :

  1. Liste de couleurs (id : couleurs)
  2. Liste des jours de la semaine (id : jours)
  3. Liste des mois de l'année (id : mois)

Pour chercher toutes les occurrences des noms de couleurs dans votre corpus, vous pouvez utiliser la syntaxe &liste() (ou &list() pour les anglophones) et l'identifiant de la liste :

Expression (recherche avancée) DescriptionExemple de résultats
&liste("couleurs")Utilisation de la liste couleurs. Recherche toutes les occurrences de noms de couleurs, non sensibles à la casse.noir, rouge, blanc, Blanche, bleu, noire, noirs, vert, etc.
[word="soleil"%c] &liste("couleurs")La forme graphique soleil non sensible à la casse, suivie d'une couleursoleil rouge, soleil blanc, Soleil noir, soleil bleu, etc.
"soleil"%c &list("couleurs")La forme graphique soleil non sensible à la casse, suivie d'une couleursoleil rouge, soleil blanc, Soleil noir, soleil bleu, etc.

Pour aller plus loin, consultez la documentation des listes de mots.

Les grammaires

Chacun grammaire possède un identifiant unique (id). Frantext propose – en exemple – une grammaire pour rechercher des dates. Celle-ci est accessible grâce à l'identifiant dates. Une grammaire peut comporter un ensemble de règles de fonctionnement utilisant toutes les expressions disponibles dans Frantext (expressions régulières, expressions CQL, listes de mots, etc.). La grammaire dates contient les règles suivantes :

  1. Le jour, le mois et l'année (id : date)
  2. Le jour du mois sur 2 chiffres (id : jour)
  3. L'année sur 4 chiffres (id : année)
  4. Deux années séparés par un trait d'union (id : année_à_année)
  5. Deux mois séparés par un trait d'union (id : mois_à_mois)
  6. Deux jours séparés par un trait d'union (id : jour_à_jour)
  7. Une période de jours, de mois ou d'années (id : période)

Pour chercher des dates dans votre corpus, utilisez la syntaxe &règle() (ou &rule() pour les anglophones) dans la recherche avancée :

Expression (recherche avancée) DescriptionExemple de résultats
&règle("dates::date")Utilisation de la règle date dans la grammaire dates. Recherche toutes les occurrences de dates.samedi 16 décembre 1972, Lundi 22 septembre 1975, jeudi 8 octobre 1970,  etc.
&rule("dates::période")Utilisation de la règle période dans la grammaire dates. Recherche toutes les occurrences de périodes temporelles.juillet-août 1939, 1942-1943, 10-11 juillet 1942, 13 mai 1970 - 15 décembre 1972, etc.

Pour aller plus loin, consultez la documentation des grammaires.

Les flexions

Plusieurs lexiques sont disponibles pour rechercher les flexions d'un lemme :

  • un lexique moderne
  • un lexique médiéval
  • un lexique préclassique

Pour chaque lemme, il est possible de spécifier une catégorie grammaticale.

Pour rechercher les flexions d'un lemme en fonction d'un lexique dans votre corpus, utilisez la syntaxe &lexique() (ou &lexicon() pour les anglophones) :

Expression (recherche avancée) DescriptionExemple de résultats
&lexique("moderne","aimer")Flexions modernes du lemme aimeraime, aimer, aimait, etc.
&lexique("moderne","grand","ADJ") Flexions modernes de l'adjectif grandgrand, grande, grands, grandes, etc.
&lexique("médiéval","grand","ADJ")Flexions médiévales de l'adjectif grandgrand', grant, gran, granz, grandez, etc.
&lexicon("préclassique","française")Flexions préclassiques du lemme françaisefrançaise, françaises, françoise, françoyse, etc.

Une flexion peut contenir des expressions régulières (dans le lemme) et être utilisée dans les expressions CQL.

Expression (recherche avancée) Description
&lexique("médiéval","gr.*","ADJ|NC")Flexions médiévales de tous les adjectifs ou noms communs débutants par les caractères gr
[word=&lexique("moderne","(r|m)anger") & pos="VINF"]Flexions modernes des verbes ranger ou manger à l'infinitif

Pour aller plus loin, consultez la documentation des flexions.

Les phrases

Dans Frantext, chaque texte est découpé en unités lexicales (ou tokens). Pour effectuer une recherche sur un ensemble d'unités lexicales ou sur une phrase complète, vous pouvez utiliser des expressions spécifiques :

Expression (recherche avancée) Description

&segmenter("L' oeil était dans la tombe")
&tokenize("L' oeil était dans la tombe")

Les formes graphiques L'oeilétaitdanslatombe sont recherchées. Il est nécessaire d'ajouter un espace entre L' et oeil pour prendre en compte 2 unités lexicales distinctes.

&développer("L'oeil était dans la tombe")
&expand("L'oeil était dans la tombe")

La forme graphique L'oeil était dans la tombe est recherchées. Un algorithme spécifique permet d'effectuer la recherche en langage naturel. C'est l'expression de séquence utilisée dans la recherche simple de Frantext.

Pour aller plus loin, consultez la documentation sur la segmentation.

Modifié par Gilles Toubiana le 2018/10/18 14:58
Frantext - ATILF (CNRS/UL) - 2018-2024

Logo CNRS   Logo ATILF   Logo Université de Lorraine