Informations générales

DANS CETTE PAGE

Abonnement
Informations sur le corpus
Traitement des textes
Mise à disposition et téléchargement

Abonnement

La consultation de la base se fait sur abonnement payant, dans le cadre d’un partenariat avec le Syndicat National des éditeurs. Le montant de l’abonnement sert à couvrir les frais de maintenance de la base et son enrichissement. Ils sont réservés aux centres de recherche, bibliothèques, chercheurs, enseignants-chercheurs et étudiants – qui peuvent vérifier préalablement s’ils disposent d’un accès par l’intermédiaire de l’ENT de leur université, ou leur bibliothèque universitaire –, ainsi qu’aux collaborateurs scientifiques.

En savoir plus sur l'abonnement et les tarifs

Informations sur le corpus

Le corpus est échelonné du X^e au XXI^e.

Historiquement dévolu à la recherche d’exemples pour le Trésor de la Langue Française, et d’abord centré sur la langue des XIX^e et surtout XX^e siècle, la base Frantext a poursuivi son évolution en élargissant son empan diachronique : ajout de textes médiévaux, de textes en moyen français, français préclassique et classique. La base continue en parallèle ses enrichissements dans le domaine moderne. Elle contient 10% de textes dits « scientifiques » et techniques et 90% de textes considérés comme « littéraires » regroupant tous les genres : romans, mémoires, autobiographies, journaux personnels, théâtre, poésie, essais. Ce corpus comprend des œuvres françaises, mais aussi francophones.

Son ambition n’est pas d’opérer une sélection en suivant le canon littéraire, mais de représenter l’usage du français écrit dans sa diversité : on y trouvera donc des classiques de la littérature, comme Flaubert ou Proust, mais aussi des manuels de cuisine, des traités de chasse, des ouvrages de linguistique, des manuels de géographie, des mémoires de journaliste, des romans contemporains ou même des écritures dites « ordinaires ». Le corpus est régulièrement enrichi au fil de coopérations scientifiques avec divers projets et instituts de recherche : si vous souhaitez dans ce cadre enrichir le corpus Frantext ou proposer des textes à la numérisation, merci de nous contacter (attention, les demandes de numérisation à des fins personnelles, ou émanant de particuliers, ne pourront être prises en compte).

Le corpus de Frantext intégral comprends 5691 références. La liste de ces références est disponible au format PDF : Corpus Frantext intégral [PDF].

Traitement des textes

Les textes sont encodés en XML-TEI. Ils sont ensuite convertis dans un format XML spécifique au moteur de recherche Allegro afin d'être indexés.

Frantext offre un ensemble de textes lemmatisés.
Deux informations sont fournies en parallèle, résultant de deux opérations différentes

La première consiste à apposer sur chaque élément un lemme, qui équivaut à la forme sous laquelle le mot figure dans le dictionnaire. Par exemple, chercher le lemme « vert » ramènera les formes vert, verte, verts, vertes. Mais attention, chercher le lemme « éléphant » ramènera bien éléphants, mais pas éléphante, qui est considéré comme un lemme différent.
Un mode de recherche additionnel consiste à utiliser la « flexion ». Dans ce cas, la recherche repose sur des lexiques, dans lesquels le mot se trouve rattaché à une forme principale ; elle est très utilise pour faire des recherches en diachronie. Frantext a la particularité d’offrir la possibilité d’interroger le corpus en utilisant trois flexions : la flexion moderne, la flexion XVI^e-XVII^e ou la flexion médiévale. Ces deux dernières attribuent des étiquettes de lemmes en s’appuyant sur un lexique, LGeRM, adapté pour tenir compte de la variation graphique : ainsi, une recherche sur le lemme « fruit » en flexion médiévale saura repérer les formes fruit, fruitz, fruiz, etc. Attention au bruit, en flexion médiévale, la forme amer ramène à la fois le verbe aimer et l'adjectif amer.

Les textes de Frantext sont également catégorisés (étiquetés en partie de discours, ou POS).

Cela signifie que chaque mot reçoit une étiquette grammaticale, comme verbe, adverbe, adjectif, etc. La liste des étiquettes utilisées pour traiter le corpus est disponible ici. Le corpus a été étiqueté avec plusieurs outils, dont Talismane : nous attirons l’attention des utilisateurs sur le fait que tout étiqueteur grammatical présente des erreurs, et que celles-ci seront statistiquement plus nombreuses sur les versions anciennes des textes.

Mise à disposition et téléchargement

Textes libres de droit : ils peuvent être téléchargés par les utilisateurs depuis le formulaire de constitution de corpus. Ils sont disponibles en version XML-Allegro. L’affichage des extraits, en utilisant le formulaire de recherche, peut donner lieu à la consultation de contextes étendus.
Textes sous droits d’auteur ou d’éditeur : ils ne peuvent être ni consultés, ni lus, ni téléchargés depuis Frantext. Seul l’affichage d’un contexte de 700 signes est possible, dans le respect du droit de citation.
Extraits : En ce qui concerne les textes publiés, Frantext ne constitue pas une source bibliographique directe, puisque la base offre simplement un affichage d’extraits d’oeuvres existantes. La citation doit être faite comme celle de n’importe quel ouvrage, à partir des métadonnées fournies par Frantext : auteur, titre, éditeur, date, numéro de page etc… En termes de taille de l'extrait, les règles, en termes de propriété intellectuelle, sont les mêmes que pour toute citation ; notamment le fait que si la citation est intégrée dans une publication scientifique, elle ne doit pas concurrencer l'œuvre originelle et être justifiée par « le caractère critique, polémique, scientifique ou d'information de l'œuvre à laquelle elle est incorporée ». Enfin, si l’extrait est issu d’une oeuvre inédite publiée directement dans Frantext (cas marginal), la citation doit être faite avec les métadonnées fournies, Frantext tenant lieu de maison d’édition.
Données et concordanciers : Il est possible de publier le résultat d’analyses (mesure, statistique, citations) réalisées avec le concours de Frantext. Mais la convention signée par le CNRS et le Syndicat National des Éditeurs exclut la diffusion des concordanciers qui ont servi à ces analyses – annotés ou non –, dans la mesure où la plupart d’entre eux contiennent une suite, parfois importante, d’extraits d’œuvres sous droits. Il est toutefois possible d'indiquer la procédure utilisée dans Frantext pour parvenir à ces résultats, afin d'en assurer la reproductibilité. En revanche, il ne pourra être excipé d'aucun exigence d’open data, ou de politique scientifique de revue, pour obtenir une dérogation à cette interdiction de publication de concordanciers intégraux.
Métadonnées et calculs : Toutes les métadonnées et les calculs issus de la base peuvent être exploités librement.

Si vous souhaitez référencer Frantext dans votre publication, consultez la page Citer Frantext.

Modifié par Gilles Toubiana le 2024/10/25 10:02

Informations générales

Abonnement

Informations sur le corpus

Traitement des textes

Mise à disposition et téléchargement

Rechercher

Navigation

bouton