ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 20/1 - 2017  - pp.39-66  - doi:0.3166/dn.2017.00002
TITRE
La structure thème–rhème pour l’ordonnancement de documents en recherche d’information

TITLE
Topic-comment structure in information retrieval

RÉSUMÉ

La recherche d’information fait souvent l’hypothèse que les documents pertinents sont "à propos de" la requête ; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être "à propos de" peut être mesuré par l’appariement des termes du document et ceux de la requête selon une représentation par sac de mots. Cependant, les modèles existants ne sont pas capables de capter la distribution entre l’information déjà connue et l’information nouvelle apportée par l’énoncé. L’objectif principal de ce papier est de proposer l’utilisation de la structure thème–rhème pour le ré-ordonnancement de documents en recherche d’information. Nous avons analysé manuellement la structure thème–rhème des documents issus de trois collections : Wikipédia, TREC Robust et WT10G. Grâce à cette analyse, nous avons introduit une méthode complètement automatique pour annoter la structure informationnelle. Elle s’appuie sur l’hypothèse que le thème a tendance à être positionné au début des phrases. La structure thème–rhème est identifiée automatiquement à partir des premiers documents retrouvés qui sont ré-ordonnés selon cette structure intégrée dans le formalisme BM25F. Cette méthode n’exige qu’une analyse syntaxique de surface, à savoir le découpage en phrases et le balisage des parties de discours. L’évaluation sur les collections TREC montre que notre méthode améliore significativement les résultats de recherche d’information par rapport aux systèmes de l’état de l’art.



ABSTRACT

In this paper, we propose a novel approach for document re-ranking based on information structure of texts. In contrast to traditional information retrieval models based on bag-of-words representation that assume relevant documents be about the query, we rather try to capture document relevance by distinguishing the topic of a text from what is said about the topic (comment) in the text. We introduce a completely automatic method for topic-comment structure extraction and a re-ranking algorithm based on this structure. The evaluation on TREC collections shows that the method significantly outperforms strong baselines.



AUTEUR(S)
Liana ERMAKOVA, Josiane MOTHE

MOTS-CLÉS
recherche d’information, re-ordonnancement de documents, structure thème–rhème

KEYWORDS
information retrieval, document re-ranking, information structure, topic, comment, theme, rheme

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (360 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier