Allegro, le moteur de recherche de Frantext, permet l'usage d'expressions CQL. Les expressions CQL peuvent être utilisées dans recherche avancées, de co-occurrences et de voisinages, ainsi que dans les listes de mots et les grammaires.

CQL est l'acronyme de Corpus Query Language, il s'agit d'un langage d'expression de requêtes. Une expression CQL est une chaîne de caractères exprimant un motif linguistique - un mot, ou une suite de mots - défini en fonction de formes graphiques, de formes lemmatisées ou de catégories grammaticales. Les expressions CQL peuvent-être combinées, utiliser des expressions régulières, et tenir compte de variante d'écritures.

Les mots réservés

Utilisez les crochets et les mot réservés word, lemma et pos pour effectuer des recherches spécifiques.

Expression DescriptionExemple de résultats
[word="bonheur"]La forme graphiquebonheur
[lemma="aimer"]Toutes les formes (conjuguées ou non) du verbeaime, aimer, aimait, etc.
[pos="VINF"]Tous les verbes à l'infinitif.être, faire, avoir, etc.

Pour aller plus loin, consultez la documentation dédiée à l'utilisation des codes grammaticaux et aux caractères spéciaux dans l'application en ligne Frantext.

Forme abrégée : la recherche d'une forme graphique étant la recherche la plus fréquente, une forme simplifiée est disponible. Il suffit de saisir la forme graphique entre guillemets (veillez à bien utiliser les guillemets doubles droits). Ainsi, [word="bonheur"] peut s'écrire "bonheur". Les exemples suivants privilégieront la forme abrégée lorsque cela est possible.

Les recherches combinées

Il est possible de combiner des requêtes à l'aide des opérateurs booléens logiques ET &, OU | et NON !.

Expression Description
[word="grand" & pos="NC"]Toutes les occurrences de la forme graphique grand utilisée comme nom commun
[lemma="grand" & pos="ADJ"]Toutes les occurrences du lemme grand utilisé comme adjectif
[word="grand" | word="petit"]Toutes les formes graphiques correspondant à grand ou petit
[lemma="grand|petit"]Variante d'écriture utilisant les expressions régulières pour trouver tous les lemmes correspondant à grand ou petit
[word="grand" | lemma="petit"]Toutes les occurrences de la forme graphique grand ou du lemme petit
[lemma="grand" & !(pos="NC")]Toutes les occurrences du lemme grand lorsqu'il n'est pas utilisé comme nom commun
[lemma="grand" & pos!="NC"]Toutes les occurrences du lemme grand lorsqu'il n'est pas utilisé comme nom commun (variante d'écriture. Le point d'exclamation doit toujours être collé au signe égal)

Frantext permet également d'effectuer des recherches portant sur le balisage XML-TEI des textes. Ainsi, la requête <speaker>[word=".*"]</speaker> retourne toutes les formes graphiques contenues entre une balise ouvrantes <speaker> et une balise fermante </speaker>. Notez qu'il ne faut pas saisir la barre oblique dans le cas des balises auto-fermantes, ainsi il faut chercher <lb> et non <lb/>. Il est également possible de chercher plusieurs balises en saisissant par exemple (<p>|<l>|<lb>)[word=".*"].

Les unités lexicales

Une expression CQL doit correspondre exactement à une unité telle que découpée par la segmentation lexicale. Une unité lexicale correspond généralement à une chaîne de caractères entre deux blancs ou signes typographiques de ponctuation.

Expression Description
"aujourd'hui"Toutes les occurrences de l'adverbe aujourd'hui
"parce que"Toutes les occurrences de la conjonction de subordination parce que
"l'amitié"Aucun résultat. L'expression doit correspondre à un mot entier attesté par le corpus.
"l'" "amitié"Toutes les occurrences du déterminant l' suivi du nom commun amitié
[word=" bonheur "]Aucun résultat. Un blanc à l'intérieur des guillemets est significatif. Le guillemet doit être collé à la graphie recherchée, sans espaces supplémentaires.
[ word = "bonheur" ]Toutes les occurrences de la graphie bonheur. Les blancs à l'extérieur des guillemets sont non significatifs et peuvent être utilisés pour faciliter la lecture.
[]Joker : n'importe quelle unité lexicale.

Pour rechercher une séquence de mots en fonction de différentes graphies, lemmes ou catégories grammaticales, il suffit de juxtaposer les expressions. Exemple : [pos="DET"] [word="bonheur"] [lemma="être"] [pos="P"]. L'espace entre chaque expression délimitée par des crochets est optionnel.

Les expressions régulières

La syntaxe des expressions régulières (opérateurs, quantificateurs, classes de caractères) est fonctionnelle au sein de vos requêtes CQL.

Expression DescriptionExemple de résultats
[word="libertés?"]Dernier caractère facultatifliberté, libertés
"âgé?e?s?"Trois derniers caractères facultatifsâge, âgées, etc.
"nation.*"Suffixe de 0 ou plusieurs caractèresnation, nationalisme, etc.
".+able"Préfixe de 1 ou plusieurs caractèrestable, véritable, etc.
"..." ou ".{3,3}"Mot de 3 caractères exactementque, est, les, etc.
"\."Un point.
"[tsf]able"Mot débutant par t, s ou ftable, sable, fable
"guerre|paix"guerre ou paixguerre, paix
"(re|ap|sur)prendre"Variantes de préfixereprendre, apprendre, surprendre
"\d" "janvier"Un chiffre suivi de janvier1 janvier, 2 janvier, etc.

Pour aller plus loin, consultez la documentation dédiée à l'utilisation des expressions régulières.

Les variantes d'écriture (ou modificateurs)

Les requêtes peuvent tenir compte ou non de la casse des caractères, des signes diacritiques (accents, cédilles, etc.) et des expressions régulières.

Expression DescriptionExemple de résultats
[word="État"]Sensible à la casse (majuscules, minuscules)État 
[word="État"%c]%c Insensible à la casse (majuscules, minuscules)État , ÉTAT , état
[word="État"%d]%d Insensible aux diacritiques (accents, cédilles, etc.)Etat, État 
[word="État"%cd]%cd Insensible à la casse et aux diacritiquesetat, état, Etat, État, ETAT, ÉTAT
[word="oeil"%g]%g Insensible aux ligatures (caractères groupés)oeil
[word="("%l]%l Insensible aux expressions régulières (correspondance littérale)(

Attention :  L'Action Fréquence - disponible suite à une recherche simple, assistée ou avancée - ne tient pas compte de la casse par défaut. Lorsque vous configurez l'action, vous pouvez utiliser le champ intitulé Sensible à la casse pour spécifier explicitement si le calcul des fréquence doit tenir compte de la casse.

Modifié par Gilles Toubiana le 2023/12/15 13:46
Frantext - ATILF (CNRS/UL) - 2018-2024

Logo CNRS   Logo ATILF   Logo Université de Lorraine