La segmentation de Frantext post 1850 a été réalisée en 2016 à l’aide de l'outil Talismane, en amont de l'étiquetage en partie du discours.

Elle suit une méthode déterministe basée sur deux ressources :

  1. un ensemble prédéfinis de caractères délimiteurs
  2. une liste ordonnée d’expressions régulières qui définit tout ce qui constitue une forme composée.

Une même chaîne de caractères est systématiquement segmentée de la même façon. Ainsi, rendez-vous est regroupé dans chacun des exemples suivants :

  • Vous arrivez en retard à tous vos rendez-vous ? (E115)
  • Faites comme lui, rendez-vous sourde à tous les cris, rejoignez la pierre pendant qu'il en est temps. (K244)

Pour en savoir plus, consultez le document PDF sur les choix de tokenisation.

 

Modifié par Gilles Toubiana le 2018/10/12 17:08
Frantext - ATILF (CNRS/UL) - 2018-2024

Logo CNRS   Logo ATILF   Logo Université de Lorraine