Rechercher des formes composées
Les textes de Frantext ont subi un traitement informatique visant à segmenter les phrases en unités lexicales, puis à les étiqueter. En général, les espaces ou blancs permettent de délimiter facilement ces unités. Dans le cas des formes composées, il est parfois délicat de déterminer automatiquement s'il s'agit d'une seule unité lexicale ou de plusieurs. Vous pouvez alors cumuler différents types de recherches afin d'obtenir des résultats pertinents.
Exemple avec parce que
Recherche simple | Équivalence en recherche avancée | Nombre de résultats dans le corpus moderne |
---|---|---|
parce que |
| 30862 |
| 99 | |
parceque |
| 300 |
| 30763 | |
| 31063 |
Exemple avec c'est-à-dire
Le caractère utilisé pour l'apostrophe (’ ou ') ou le trait d'union peuvent jouer un rôle déterminant dans l'affichage de résultats pertinents.
Recherche simple | Équivalence en recherche avancée | Nombre de résultats dans le corpus moderne |
---|---|---|
c’est-à-dire |
| 36 |
| 0 | |
c' est - à - dire |
| 698 |
c'est-à-dire |
| 21422 |
| 20714 | |
| 20870 |
Exemple de grammaire :
############################
# Grammaire id:cest-à-dire #
############################
# Chaque règle peut être déclarée en utilisant le mot réservé "règle" (ou ici "rule")
rule apostrophe = &expand("c’est-à-dire"%cdl)
rule tokens = "c'"%cdl "est"%cdl "-"%cdl "à"%cdl "-"%cdl "dire"%cdl
rule expand = &expand("c'est-à-dire"%cd)
rule tokenize = &tokenize("c'est-à-dire"%cd)
rule regex = "C[’']est[- ]?à[- ]?dire"%cd
rule grammaire = &rule("apostrophe") | &rule("tokens") | &rule("expand") | &rule("tokenize") | &rule("regex")
# Grammaire id:cest-à-dire #
############################
# Chaque règle peut être déclarée en utilisant le mot réservé "règle" (ou ici "rule")
rule apostrophe = &expand("c’est-à-dire"%cdl)
rule tokens = "c'"%cdl "est"%cdl "-"%cdl "à"%cdl "-"%cdl "dire"%cdl
rule expand = &expand("c'est-à-dire"%cd)
rule tokenize = &tokenize("c'est-à-dire"%cd)
rule regex = "C[’']est[- ]?à[- ]?dire"%cd
rule grammaire = &rule("apostrophe") | &rule("tokens") | &rule("expand") | &rule("tokenize") | &rule("regex")