Les expressions CQL
Allegro, le moteur de recherche de Frantext, permet l'usage d'expressions CQL. Les expressions CQL peuvent être utilisées dans recherche avancées, de co-occurrences et de voisinages, ainsi que dans les listes de mots et les grammaires.
CQL est l'acronyme de Corpus Query Language, il s'agit d'un langage d'expression de requêtes. Une expression CQL est une chaîne de caractères exprimant un motif linguistique - un mot, ou une suite de mots - défini en fonction de formes graphiques, de formes lemmatisées ou de catégories grammaticales. Les expressions CQL peuvent-être combinées, utiliser des expressions régulières, et tenir compte de variante d'écritures.
Les mots réservés
Utilisez les crochets et les mot réservés word, lemma et pos pour effectuer des recherches spécifiques.
Expression | Description | Exemple de résultats |
---|---|---|
[word="bonheur"] | La forme graphique | bonheur |
[lemma="aimer"] | Toutes les formes (conjuguées ou non) du verbe | aime, aimer, aimait, etc. |
[pos="VINF"] | Tous les verbes à l'infinitif. | être, faire, avoir, etc. |
Pour aller plus loin, consultez la documentation dédiée à l'utilisation des codes grammaticaux et aux caractères spéciaux dans l'application en ligne Frantext.
Les recherches combinées
Il est possible de combiner des requêtes à l'aide des opérateurs booléens logiques ET &, OU | et NON !.
Expression | Description |
---|---|
[word="grand" & pos="NC"] | Toutes les occurrences de la forme graphique grand utilisée comme nom commun |
[lemma="grand" & pos="ADJ"] | Toutes les occurrences du lemme grand utilisé comme adjectif |
[word="grand" | word="petit"] | Toutes les formes graphiques correspondant à grand ou petit |
[lemma="grand|petit"] | Variante d'écriture utilisant les expressions régulières pour trouver tous les lemmes correspondant à grand ou petit |
[word="grand" | lemma="petit"] | Toutes les occurrences de la forme graphique grand ou du lemme petit |
[lemma="grand" & !(pos="NC")] | Toutes les occurrences du lemme grand lorsqu'il n'est pas utilisé comme nom commun |
[lemma="grand" & pos!="NC"] | Toutes les occurrences du lemme grand lorsqu'il n'est pas utilisé comme nom commun (variante d'écriture. Le point d'exclamation doit toujours être collé au signe égal) |
Les unités lexicales
Une expression CQL doit correspondre exactement à une unité telle que découpée par la segmentation lexicale. Une unité lexicale correspond généralement à une chaîne de caractères entre deux blancs ou signes typographiques de ponctuation.
Expression | Description |
---|---|
"aujourd'hui" | Toutes les occurrences de l'adverbe aujourd'hui |
"parce que" | Toutes les occurrences de la conjonction de subordination parce que |
"l'amitié" | Aucun résultat. L'expression doit correspondre à un mot entier attesté par le corpus. |
"l'" "amitié" | Toutes les occurrences du déterminant l' suivi du nom commun amitié |
[word=" bonheur "] | Aucun résultat. Un blanc à l'intérieur des guillemets est significatif. Le guillemet doit être collé à la graphie recherchée, sans espaces supplémentaires. |
[ word = "bonheur" ] | Toutes les occurrences de la graphie bonheur. Les blancs à l'extérieur des guillemets sont non significatifs et peuvent être utilisés pour faciliter la lecture. |
[] | Joker : n'importe quelle unité lexicale. |
Les expressions régulières
La syntaxe des expressions régulières (opérateurs, quantificateurs, classes de caractères) est fonctionnelle au sein de vos requêtes CQL.
Expression | Description | Exemple de résultats |
---|---|---|
[word="libertés?"] | Dernier caractère facultatif | liberté, libertés |
"âgé?e?s?" | Trois derniers caractères facultatifs | âge, âgées, etc. |
"nation.*" | Suffixe de 0 ou plusieurs caractères | nation, nationalisme, etc. |
".+able" | Préfixe de 1 ou plusieurs caractères | table, véritable, etc. |
"..." ou ".{3,3}" | Mot de 3 caractères exactement | que, est, les, etc. |
"\." | Un point | . |
"[tsf]able" | Mot débutant par t, s ou f | table, sable, fable |
"guerre|paix" | guerre ou paix | guerre, paix |
"(re|ap|sur)prendre" | Variantes de préfixe | reprendre, apprendre, surprendre |
"\d" "janvier" | Un chiffre suivi de janvier | 1 janvier, 2 janvier, etc. |
Pour aller plus loin, consultez la documentation dédiée à l'utilisation des expressions régulières.
Les variantes d'écriture (ou modificateurs)
Les requêtes peuvent tenir compte ou non de la casse des caractères, des signes diacritiques (accents, cédilles, etc.) et des expressions régulières.
Expression | Description | Exemple de résultats |
---|---|---|
[word="État"] | Sensible à la casse (majuscules, minuscules) | État |
[word="État"%c] | %c Insensible à la casse (majuscules, minuscules) | État , ÉTAT , état |
[word="État"%d] | %d Insensible aux diacritiques (accents, cédilles, etc.) | Etat, État |
[word="État"%cd] | %cd Insensible à la casse et aux diacritiques | etat, état, Etat, État, ETAT, ÉTAT |
[word="oeil"%g] | %g Insensible aux ligatures (caractères groupés) | oeil |
[word="("%l] | %l Insensible aux expressions régulières (correspondance littérale) | ( |