Discuter:Taux d'erreur de mots

Un article de Wikipédia, l'encyclopédie libre.

[modifier] Erreurs d'insertions

Discussion déplacée depuis Discussion_Utilisateur:Alkarex#Taux d'erreur de mots.

Bonjour,

je finis actuellement un master recherche sur la reconnaissance de l'écriture et j'ai donc utilisé une mesure sensiblement identique à celle présenté dans l'article l'article Taux d'erreur de mots. J'avais dans un premier temps laissé le coût de l'insertion à 1 mais mes encadrants m'avait proposé de l'annuler de façon à ne pas avoir de taux de reconnaissance négatifs. En fait dans le premier cas (coût à 1) on obtient une mesure représentative du nombre d'élément mal reconnus alors que dans le second (coût à 0) on obtient une mesure représentative du nombre d'élément correctement reconnus. Mes questions sont donc la suivante :

  • Ais-je tort ? Qui peux trancher ?
  • Ais-je raison, et dans ce cas il faudrait en discuter dans l'article ?

Merci de ton attention, --Manproc 24 juillet 2006 à 15:53 (CEST)

Bonjour Manproc. Le problème des insertions est en effet un problème intéressant. Je vais essayer d'apporter des arguments étayant mon avis personnel :
  • Rappels:
    • Les définitions telles que rapportées sur l'article Taux d'erreur de mots pour le taux d'erreur de mots (WER) et taux de reconnaissance de mots (WRR) sont celles classiquement utilisées dans la littérature scientifique. Voir référence dans l'article (McCowan et al., 2005).
    • Le WER est représentatif du nombre d'éléments mal reconnus, et le WRR (1 - WER) est représentatif du nombre d'éléments correctement reconnus.
    • Le WER et le WRR travaillent au niveau des mots, mais il y a aussi des taux de reconnaissance similaires au niveau des caractères (comme le fait la distance de Levenshtein originale), ou même des phrases.
    • Dans tous les cas, et pour éviter les ambigüités, toute expérience de mesure devrait donner explicitement (et/ou avec une référence à un article publié) la formule utilisée pour calculer les taux de reconnaissance, ainsi que des détails à propos de ce qui est compté comme bonne ou mauvaise reconnaissance (surtout si des erreurs mineures ne sont pas prises en comptes, tels les accents ou la ponctuation).
  • Les erreurs d'insertion ne devraient pas être supprimées (coût d'insertion nul). Arguments :
    • Si je génère une suite aléatoire de mots suffisamment longue, et si je ne tiens pas compte des erreurs d'insertion, alors je peux avoir un taux de reconnaissance de mots de 100% sur n'importe quel texte. Cela est encore plus valable si on se place au niveau des caractères plutôt qu'au niveau des mots.
    • Supprimer les erreurs d'insertion augmente artificiellement le taux de reconnaissance, et rend impossible des comparaisons avec d'autres expériences publiées, qui traditionnellement en tiennent compte. L'idée générale est d'utiliser un système de mesure autant commun que possible dans un domaine donné. Faire référence à la littérature, et ne pas changer de mesure sans une argumentation solide.
    • Un des problèmes majeurs en reconnaissance automatique de la parole (sûrement aussi, mais dans une moindre mesure, pour la reconnaissance de texte) est justement de régler le seuil de certitude pour accepter un mot reconnu ou le rejeter. Si le seuil est trop haut, il y a plus d'erreurs d'insertion, alors que s'il est trop bas, il y a des erreurs par suppression.
  • La littérature scientifique utilise parfois d'autres taux de reconnaissance, qui sont plus représentatifs d'un problème donné :
    • Taux d'erreur par mot (errors per word, EPW) (Sears et al., 2001), pour répondre à certains problèmes du WER, en normalisant la longueur des mots à 5 caractères.
    • Taux de reconnaissance de concepts (Concept-matching accuracy) (Detmer et al., 1995; Jungk, 2000) pour privilégier le respect de la sémantique au respect de la syntaxe.
J'espère avoir été utile. D'autres arguments sont les bienvenus.
Cordialement, Alkarex 25 juillet 2006 à 12:43 (CEST)
Merci de ta prompte réponse, très intéressante au demeurant. Générer une suite aléatoire est certe une solution, mais c'est de la triche assez facile à détecter, l'argument n'est pas forcément pertinent dans mon cas, ceci en raison de la nature du signal. En revanche, les autres arguments sont très intéressant. Malheureusement je termine la rédaction de mon mémoire donc je ne vais pas effectuer de modifications aussi profonde, en revanche, je vais faire suivre cette discussion. Merci encore, Manproc 25 juillet 2006 à 14:42 (CEST)
L'exemple de la suite aléatoire est un cas extrême pour montrer que si l'on ne tient pas compte des erreurs d'insertion, le taux de reconnaissance ne reflète alors pas la réelle qualité du système, puisque même un système aléatoire pourrait faire aussi bien ou mieux. L'exemple de la suite aléatoire est souvent utilisé comme point de référence, un peu comme le placebo en médecine. C'est un argument pour signifier que la prise en compte des erreurs d'insertion est à mon avis indispensable dans tous les cas. Bonne chance pour la fin de la rédaction du mémoire, qui je l'espère ne sera pas trop impacté par ce point de discussion. Alkarex 25 juillet 2006 à 15:40 (CEST)