ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 16/2 - 2013  - pp.31-48  - doi:10.3166/dn.16.2.31-48
TITRE
Contextes de lecture pondérés pour la recherche de documents structurés

TITLE
Weighted reading contexts for structured documents retrieval

RÉSUMÉ

Cet article s’intéresse à la recherche de parties de documents structurés, appelées doxels. Nous proposons une nouvelle notion de contexte documentaire d’un doxel que nous utilisons pour étendre un modèle de langue basé sur un lissage de Dirichlet. Nous interprétons le contexte comme une propagation du contenu des doxels sources vers le doxel en contexte dans un document. Nous montrons que cette définition de contexte est en fait une combinaison du contenu propre du doxel et de son contexte. Le modèle d’indexation proposé est compatible avec des structures à base de fichiers inverses. Nous expérimentons ce modèle sur le corpus 2009 d’INEX, en testant différents contextes. Nous mesurons une amélioration significative des résultats par rapport à une approche de référence sans contexte, pour trois types de doxels. De plus, notre proposition obtient de meilleurs résultats que le meilleur des résultats de l’évaluation Thorough de la tâche Ad Hoc d’INEX 2009.



ABSTRACT

This paper focuses on the retrieval of parts of structured document called doxels. We propose a notion of documentary context of a doxel and we exploit it to extend an indexing Language Model (LM) with Dirichlet smoothing. We interpret the document context of a doxel as a propagation of the content of the connected doxels via document structure links. We show that this document context definition is a combination of the intrinsic content of a doxel and its context. The new proposed indexing model is compatible with an efficient inverted files implementation. We experiment this model on INEX 2009 corpus, and test different context propagations. We measure a significant increase in results using document context, compared to a reference approach without the use of context for 3 types of doxels. Moreover, our proposal outperforms the best result obtained for the Thorough evaluation for the Ad Hoc task at INEX 2009.



AUTEUR(S)
Philippe MULHEM, Jean-Pierre CHEVALLET

MOTS-CLÉS
indexation, modèles de langue, lissage Dirichlet

KEYWORDS
indexing, language models, Dirichlet smoothing

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (264 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier