La segmentation
La segmentation de Frantext post 1850 a été réalisée en 2016 à l’aide de l'outil Talismane, en amont de l'étiquetage en partie du discours.
Elle suit une méthode déterministe basée sur deux ressources :
- un ensemble prédéfinis de caractères délimiteurs
- une liste ordonnée d’expressions régulières qui définit tout ce qui constitue une forme composée.
Une même chaîne de caractères est systématiquement segmentée de la même façon. Ainsi, rendez-vous est regroupé dans chacun des exemples suivants :
- Vous arrivez en retard à tous vos rendez-vous ? (E115)
- Faites comme lui, rendez-vous sourde à tous les cris, rejoignez la pierre pendant qu'il en est temps. (K244)
Pour en savoir plus, consultez le document PDF sur les
.