Informations générales


Abonnement

La consultation de la base se fait sur abonnement payant, dans le cadre d’un partenariat avec le Syndicat National des éditeurs. Le montant de l’abonnement sert à couvrir les frais de maintenance de la base et son enrichissement. Ils sont réservés aux centres de recherche, bibliothèques, chercheurs, enseignants-chercheurs et étudiants – qui peuvent vérifier préalablement s’ils disposent d’un accès par l’intermédiaire de l’ENT de leur université, ou leur bibliothèque universitaire –, ainsi qu’aux collaborateurs scientifiques.

En savoir plus sur l'abonnement et les tarifs

Informations sur le corpus

Le corpus est échelonné du Xe au XXIe.

Frantext intégral - Nombre de textes par siècles - juin 2019

Historiquement dévolu à la recherche d’exemples pour le Trésor de la Langue Française, et d’abord centré sur la langue des XIXe et surtout XXe siècle, la base Frantext a poursuivi son évolution en élargissant son empan diachronique : ajout de textes médiévaux, de textes en moyen français, français préclassique et classique. La base continue en parallèle ses enrichissements dans le domaine moderne. Elle contient 10% de textes dits « scientifiques » et techniques et 90% de textes considérés comme « littéraires » regroupant tous les genres : romans, mémoires, autobiographies, journaux personnels, théâtre, poésie, essais. Ce corpus comprend des œuvres françaises, mais aussi francophones.

Son ambition n’est pas d’opérer une sélection en suivant le canon littéraire, mais de représenter l’usage du français écrit dans sa diversité : on y trouvera donc des classiques de la littérature, comme Flaubert ou Proust, mais aussi des manuels de cuisine, des traités de chasse, des ouvrages de linguistique, des manuels de géographie, des mémoires de journaliste, des romans contemporains ou même des écritures dites « ordinaires ». Le corpus est régulièrement enrichi au fil de coopérations scientifiques avec divers projets et instituts de recherche : si vous souhaitez dans ce cadre enrichir le corpus Frantext ou proposer des textes à la numérisation, merci de nous contacter (attention, les demandes de numérisation à des fins personnelles, ou émanant de particuliers, ne pourront être prises en compte).

Le corpus de Frantext intégral comprends 5415 références. La liste de ces références est disponible au format PDF : Corpus Frantext intégral [PDF, 1.7Mo].

Le traitement des textes

Les textes sont encodés en XML-TEI.

Frantext offre un ensemble de textes lemmatisés.
Deux informations sont fournies en parallèle, résultant de deux opérations différentes

  1. La première consiste à apposer sur chaque élément un lemme, qui équivaut à la forme sous laquelle le mot figure dans le dictionnaire. Par exemple, chercher le lemme « vert » ramènera les formes vert, verte, verts, vertes. Mais attention, chercher le lemme « éléphant » ramènera bien éléphants, mais pas éléphante, qui est considéré comme un lemme différent.
  2. Un mode de recherche additionnel consiste à utiliser la « flexion ». Dans ce cas, la recherche repose sur des lexiques, dans lesquels le mot se trouve rattaché à une forme principale ; elle est très utilise pour faire des recherches en diachronie. Frantext a la particularité d’offrir la possibilité d’interroger le corpus en utilisant trois flexions : la flexion moderne, la flexion XVIe-XVIIe ou la flexion médiévale. Ces deux dernières attribuent des étiquettes de lemmes en s’appuyant sur un lexique, LGeRM, adapté pour tenir compte de la variation graphique : ainsi, une recherche sur le lemme « fruit » en flexion médiévale saura repérer les formes fruit, fruitz, fruiz, etc. Attention au bruit, en flexion médiévale, la forme amer ramène à la fois le verbe aimer et l'adjectif amer.

Les textes de Frantext sont également catégorisés (étiquetés en partie de discours, ou POS).

Cela signifie que chaque mot reçoit une étiquette grammaticale, comme verbe, adverbe, adjectif, etc. La liste des étiquettes utilisées pour traiter le corpus est disponible ici. Le corpus a été étiqueté avec plusieurs outils, dont Talismane : nous attirons l’attention des utilisateurs sur le fait que tout étiqueteur grammatical présente des erreurs, et que celles-ci seront statistiquement plus nombreuses sur les versions anciennes des textes.

Mise à disposition et téléchargement

• Les textes libres de droit peuvent être téléchargés par les utilisateurs depuis le formulaire de constitution de corpus. Ils sont disponibles en version XML-TEI. L’affichage des extraits, en utilisant le formulaire de recherche, peut donner lieu à la consultation de contextes étendus.
• Les textes sous droits d’auteur ou d’éditeur ne peuvent être ni consultés, ni lus, ni téléchargés depuis Frantext. Seul l’affichage d’un contexte de 700 signes est possible, dans le respect du droit de citation.

Frantext - ATILF (CNRS/UL) - 2018

Logo CNRS   Logo ATILF   Logo Université de Lorraine