Les méthodes de calcul des collocations ou des voisinages entre deux mots dans un corpus de textes sont utilisées pour évaluer la similarité ou l'association entre ces mots. Voici une explication des différences entre les méthodes proposées :

  1. Fréquence : Cette méthode est la plus simple et consiste à compter le nombre d'occurrences de chaque mot et le nombre d'occurrences conjointes des deux mots dans le corpus. Elle peut être utilisée pour estimer la force de l'association entre les mots, mais elle ne prend pas en compte la distribution générale des mots dans le corpus.
  2. Fonction de vraisemblance (Loglikelihood) : Cette méthode compare l'occurrence conjointe des deux mots avec l'occurrence attendue en supposant que les mots sont indépendants. Elle mesure la déviation par rapport à cette hypothèse nulle en utilisant le logarithme de la vraisemblance. Les valeurs positives indiquent une association plus forte que prévue, tandis que les valeurs négatives indiquent une association plus faible.
  3. Variable centrée réduite (z-score) : Cette méthode calcule un score z en comparant l'occurrence conjointe des deux mots avec l'occurrence attendue, en tenant compte de la distribution générale des mots dans le corpus. Elle utilise la moyenne et l'écart type des occurrences attendues pour normaliser le score et le ramener à une échelle standard.
  4. Variable centrée réduite (t-score) : Cette méthode est similaire à la méthode z-score, mais utilise plutôt une distribution de t de Student pour la normalisation. Elle est généralement utilisée lorsque la taille du corpus est petite et que l'écart type des occurrences attendues n'est pas connu.
  5. Indice de Sørensen-Dice : Cette méthode mesure la similarité entre deux ensembles de mots en utilisant la formule (2 * n_x_y) / (n_x + n_y), où n_x_y est le nombre d'occurrences conjointes des mots, n_x est le nombre d'occurrences du premier mot et n_y est le nombre d'occurrences du deuxième mot. L'indice de Sørensen-Dice varie de 0 à 1, où 1 indique une forte similarité.
  6. Information mutuelle (MI) : Cette méthode mesure la quantité d'information mutuelle partagée entre les deux mots. Elle compare la probabilité conjointe des deux mots à leur probabilité individuelle. Un score MI élevé indique une forte association entre les mots.

Chacune de ces méthodes a ses propres avantages et limitations, et la méthode appropriée dépend du contexte et des objectifs de l'analyse des collocations ou des voisinages. Il est souvent utile d'utiliser plusieurs méthodes pour obtenir une vue d'ensemble plus complète des associations entre les mots dans un corpus de textes.

Le détail des méthodes de calcul est disponible sur le site www.collocations.de

Tags : score
Modifié par Gilles Toubiana le 2023/05/31 14:25
Frantext - ATILF (CNRS/UL) - 2018-2024

Logo CNRS   Logo ATILF   Logo Université de Lorraine