Rechercher des formes composées


Les textes de Frantext ont subi un traitement informatique visant à segmenter les phrases en unités lexicales. En général, les espaces ou blancs permettent de délimiter facilement ces unités. Dans le cas des formes composées, il est parfois délicat de déterminer automatiquement s'il s'agit d'une seule unité lexicale ou de plusieurs. Vous pouvez alors cumuler différents types de recherches afin d'obtenir des résultats pertinents.

Exemple avec parce que

Recherche simpleÉquivalence en recherche avancéeNombre de résultats
dans le corpus moderne
parce que
  • &développer("parce que"%cdl)
  • &expand("parce que"%cdl)
30862
 
  • "parce"%cdl "que"%cdl
  • &segmenter("parce que"%cdl)
  • &tokenize("parce que"%cdl))
99
parceque
  • &développer("parceque"%cdl)
  • &expand("parceque"%cdl)
  • "parceque"%cdl
  • &segmenter("parceque"%cdl)
  • &tokenize("parceque"%cdl)
300
 
  • "parce que"%cdl
30763
 
  • "parce ?que"%cd
31063

Il est possible de combiner les recherches les plus pertinentes à l'aide d'expressions régulières.
Exemple : "parce"%cdl "que"%cdl | "parce ?que"%cd retourne 31162 résultats.

Exemple avec c'est-à-dire

Le caractère utilisé pour l'apostrophe ( ou ') ou le trait d'union peuvent jouer un rôle déterminant dans l'affichage de résultats pertinents.

Recherche simple

Équivalence en recherche avancéeNombre de résultats
dans le corpus moderne
c’est-à-dire
  • &développer("c’est-à-dire"%cdl)
  • &expand("c’est-à-dire"%cdl)
36
 
  • &segmenter("c’est-à-dire"%cdl)
  • &tokenize("c’est-à-dire"%cdl)
0
c' est - à - dire
  • "c'"%cdl "est"%cdl "-"%cdl "à"%cdl "-"%cdl "dire"%cdl
  • &développer("c' est - à - dire"%cdl)
  • &expand("c' est - à - dire"%cdl)
698
c'est-à-dire
  • &développer("c'est-à-dire"%cd)
  • &expand("c'est-à-dire"%cd)
21422
 
  • "c'est-à-dire"%cdl
  • &segmenter("c'est-à-dire"%cd)
  • &tokenize("c'est-à-dire"%cd)
20714
 
  • "C[’']est[- ]?à[- ]?dire"%cd
20870

Vous pouvez combiner toutes ces requêtes au sein d'une liste de mots ou d'une grammaires afin d'obtenir le maximum de résultats.

Exemple de grammaire :

############################
# Grammaire id:cest-à-dire #
############################

# Chaque règle peut être déclarée en utilisant le mot réservé "règle" (ou ici "rule")

rule apostrophe = &expand("c’est-à-dire"%cdl)
rule tokens = "c'"%cdl "est"%cdl "-"%cdl "à"%cdl "-"%cdl "dire"%cdl
rule expand = &expand("c'est-à-dire"%cd)
rule tokenize = &tokenize("c'est-à-dire"%cd)
rule regex = "C[’']est[- ]?à[- ]?dire"%cd

rule grammaire = &rule("apostrophe") | &rule("tokens") | &rule("expand") | &rule("tokenize") | &rule("regex")
Modifié par Gilles Toubiana le 2018/10/12 16:31
Frantext - ATILF (CNRS/UL) - 2018

Logo CNRS  Logo ATILF  Logo Université de Lorraine