Résumé automatique de texte

Un article de Wikipédia, l'encyclopédie libre.

Cet article est une ébauche concernant l’informatique.

Vous pouvez partager vos connaissances en l’améliorant. (Comment ?).

Cet article ou cette section ne cite pas suffisamment ses sources.

Son contenu est donc sujet à caution. Wikipédia doit être fondée sur des sources fiables et indépendantes. Améliorez cet article en liant les informations à des sources, au moyen de notes de bas de page (voir les recommandations).

Un résumé automatique de texte est une version condensée d'un document textuel, obtenu au moyen de techniques informatiques.

Bien comprendre et gérer les phénomènes de redondance, cohérence et cohésion est fondamental afin de produire des résumés automatiques humainement crédibles.

[modifier] Extraction vs abstraction

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

Il existe deux approches principales pour générer: par abstraction et par extraction. La première approche vise rediger un résumé en générant des phrases non forcement contenues dans l'original. Cette approche est la plus difficile. La deuxième se limite a extraire des phrases complètes censées être les plus pertinentes du document et a les concatener de façon à engendrer un condensé. Cette dernière approche est de loin celle qui es la plus utilisée dans les systèmes reéls. Une trosième possibilité consiste à générer un résumé par compression de phrases : les phrases ainsi extraites sont compressées afin d'éliminer l'infomation superflue.

[modifier] Types de résumés

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

Il y a plusieurs types de résumés selon leur but: monodocument, multidocument, guidé (personnalisé) ou non (genérique) par une requête d'utilisateur, entre autres.

[modifier] Évaluation

Cette section est vide, pas assez détaillée ou incomplète. Votre aide est la bienvenue !

Évaluer les résumés automatiques est une tâche difficile.

Une des objectifs des conférences NIST (Document Understanding Conferences DUC devenu Text Analysis Conference (TAC) ), consiste a utiliser la métrique ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Cette métrique mesure la couverture entre les N-gramme produits automatiquement par une machine à ceux contenus dans des résumés écrits par un certain nombre de juges humains. Un haut niveau en ROUGE implique empiriquement un niveau de corrélation avec les résumés humains.

[modifier] Bibliographie

Endres-Niggemeyer, Brigitte (1998): Summarizing Information (ISBN 3-540-63735-4)
Marcu, Daniel (2000): The Theory and Practice of Discourse Parsing and Summarization (ISBN 0-262-13372-5)
Mani, Inderjeet (2001): Automatic Summarization (ISBN 1-58811-060-5)