Résumé automatique de texte

Un article de Wikipédia, l'encyclopédie libre.

Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques.

Bien comprendre et gérer les phénomènes de redondance, cohérence et cohésion est fondamental afin de produire des résumés automatiques humainement crédibles.

Sommaire

[modifier] Extraction vs abstraction

Il existe deux approches principales pour générer: par abstraction et par extraction. La première approche vise rediger un résumé en générant des phrases non forcement contenues dans l'original. Cette approche est la plus difficile. La deuxième se limite a extraire des phrases complètes censées être les plus pertinentes du document et a les concatener de façon à engendrer un condensé. Cette dernière approche est de loin celle qui es la plus utilisée dans les systèmes reéls. Une trosième possibilité consiste à générer un résumé par compression de phrases : les phrases ainsi extraites sont compressées afin d'éliminer l'infomation superflue.

[modifier] Types de résumés

Il y a plusieurs types de résumés selon leur but: monodocument, multidocument, guidé (personnalisé) ou non (genérique) par une requête d'utilisateur, entre autres.

[modifier] Évaluation

Évaluer les résumés automatiques est une tâche difficile.

Une des objectifs des conférences NIST (Document Understanding Conferences DUC devenu Text Analysis Conference (TAC) ), consiste a utiliser la métrique ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Cette métrique mesure la couverture entre les N-gramme produits automatiquement par une machine à ceux contenus dans des résumés écrits par un certain nombre de juges humains. Un haut niveau en ROUGE implique empiriquement un niveau de corrélation avec les résumés humains.

[modifier] Bibliographie

[modifier] Voir aussi

[modifier] Liens externes