ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 13/1 - 2010  - pp.83-110  - doi:10.3166/dn.13.1.83-110
TITRE
BM25t, une extension de BM25 pour la recherche d'information ciblée

TITLE
BM25t: a BM25 extension for focused information retrieval

RÉSUMÉ

Cet article traite de l'intégration des balises XML dans la fonction de pondération des termes, pour la recherche d'information (RI) XML ciblée. Notre modèle permet de considérer un certain type d'information structurelle : les balises qui représentent la structure logique des documents (titre, section, paragraphe, etc.), ainsi que les balises liées à la mise en forme (gras, italique, centré, etc.). Nous prenons en compte l'influence des balises sous forme d'un poids en estimant la probabilité pour une balise de mettre en évidence les termes pertinents. Ensuite, ces poids sont intégrés à la fonction de pondération des termes. Des expérimentations sur une collection de grande taille dans le cadre de la compétition de RI XML, INEX 2008, ont montré une amélioration de la qualité des résultats en RI ciblée.

ABSTRACT

This paper addresses the integration of XML tags in a term-weighting function for focused XML Information Retrieval (IR). Our model allows to consider a certain kind of structural information: tags that represent logical structure (title, section, paragraph, etc.) as well as tags related to formatting (bold, italic, center, etc.). We take into account the tags influence by estimating the probability that the tags distinguish relevant terms. Then, these weights are integrated in a term-weighting function. Experiments on a large collection during the INEX 2008 XML IR evaluation campaign showed improvements on focused XML retrieval.

AUTEUR(S)
Mathias GÉRY, Christine LARGERON, Franck THOLLARD

MOTS-CLÉS
modèle probabiliste de document, recherche d'information structurée, XML, balises, pondération, BM25.

KEYWORDS
probabilistic IR model, structured IR, XML, tags, weighting, BM25.

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (478 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier