ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 15/2 - 2012  - pp.91-120  - doi:10.3166/dn.15.2.91-120
TITRE
L'utilisation de schémas de discours pour améliorer la pertinence et la cohérence discursive dans le cadre du résumé automatique de blogs

TITLE
On the use of a schema-based framework to improve relevance and discourse coherence in blog summarization

RÉSUMÉ

Les problèmes de pertinence et de cohérence discursive sont des enjeux importants et usuels dans le cadre du résumé automatique à partir de documents multiples, en particulier, lorsque les documents sources sont informels et sont fondés sur des opinions plutôt que des faits. Pour faire face à ces problèmes, nous proposons une approche pour le résumé automatique à partir de requêtes (query-based summarisation) qui utilise les relations de discours intra-phrastiques jumelées à des schémas textuels. Nous avons développé une approche générique et indépendante du domaine qui sélectionne le schéma textuel le plus approprié pour répondre à certains types de questions. Les schémas définissent le contenu et l’organisation des résumés en se basant sur les relations de discours présentes dans les phrases candidates. Pour sélectionner quelles phrases devraient être incluses dans le résumé et où, chaque phrase est automatiquement étiquetée par les relations rhétoriques qu’elle contient permettant ainsi de remplir des positions spécifiques dans le schéma textuel. Finalement, des heuristiques postschéma oeuvrant au niveau inter-phrastique sont utilisées pour améliorer la cohérence. Pour valider notre approche, nous avons développé un système nommé BlogSum et avons évalué ses performances vis-à-vis de la pertinence et de la cohérence textuelle en utilisant deux types de documents : des blogs et des critiques. Les scores ROUGE démontrent que notre approche est efficace pour réduire les phrases non pertinentes et une évaluation manuelle démontre une nette amélioration de la pertinence et de la cohérence textuelle comparé à la liste des phrases candidates originale. Ces résultats indiquent que l’utilisation de relations discursives combinées à des schémas textuels peut améliorer la pertinence et la cohérence des résumés même dans le cas de documents informels et critiques.



ABSTRACT

Question irrelevance and discourse incoherence are important and typical problems in multi-document summarization especially when dealing with informal and opinionated texts. To address these two issues, we propose a domain-independent query-based summarization approach for opinionated documents that uses intra-sentential discourse structures in the framework of schemata. We have developed a generic domain-independent schema-based approach that selects the most appropriate text schema to answer specific types of questions. The schemata define the content and the organization of summaries based on the discourse relations present in candidate sentences. To decide which candidate sentences should be included in the final summary and where, each sentence is automatically tagged with the rhetorical predicates it conveys and allowed to fill a slot of the schema. Finally post-schema heuristics that work at the inter-sentence level are used to improve coherence further. To validate our approach, we have built a system named BlogSum and have evaluated its performance for question relevance and coherence using two datasets: blogs and reviews. ROUGE scores show that our approach is effective at reducing question irrelevant sentences and a manual evaluation shows a significant improvement in question relevance and coherence compared to the original candidate list. These results indicate that the use of discourse relations combined with text schemas can effectively reduce question irrelevance and discourse incoherence even with informal and opinionated documents.



AUTEUR(S)
Shamima MITHUN, Leila KOSSEIM

MOTS-CLÉS
résumé automatique, relations de discours, schémas textuels, pertinence, cohérence discursive.

KEYWORDS
automatic summarization, discourse relations, schemata, question relevance, discourse coherence.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (1,42 Mo)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier