ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 14/2 - 2011  - pp.103-123  - doi:10.3166/dn.14.2.103-123
TITRE
Modèles de RI fondés sur l’information

RÉSUMÉ

Nous présentons dans cet article une vue analytique des contraintes heuristiques récemment proposées pour les fonctions d’ordonnancement (retrieval function). Ces caractérisations permettent ainsi de tester simplement si un modèle de recherche d’information (RI) respecte ces contraintes ou non. De plus, nous examinons un certain nombre de résultats empiriques sur les distributions de fréquences de mots et le rôle central joué par le phénomène de rafale, pour lequel nous proposons une définition formelle. Nous introduisons ensuite une nouvelle famille de modèles probabilistes pour la RI, fondée sur la notion d’information. Lorsque la loi de probabilité sous-jacente est capable de modéliser le phénomène de rafale, alors le modèle devient naturellement valide au sens des contraintes heuristiques. Les distributions log-logistique et SPL sont présentées dans ce contexte et les expériences, menées sur trois collections différentes, illustrent le comportement adéquat de ces modèles ; ils surpassent Okapi BM25 et les modèles de langues, avec lissage de JelinekMercer ou de Dirichlet, à la fois pour la précision moyenne et la précision en tête de liste, et fournissent des résultats similaires aux modèles DFR (Divergence from Randomness) tout en les simplifiant.



ABSTRACT

We first present in this paper an analytical view of heuristic retrieval constraints which yields simple tests to determine whether a retrieval function satisfies the constraints or not. We then review empirical findings on word frequency distributions and the central role played by burstiness in this context. This leads us to propose a formal definition of burstiness which can be used to characterize probability distributions wrt this phenomenon. We then introduce the family of information-based IR models which naturally captures heuristic retrieval constraints when the underlying probability distribution is bursty. The experiments we conduct on three different collections illustrate the good behavior of the informationbased IR models.



AUTEUR(S)
Stéphane CLINCHANT, Eric GAUSSIER

MOTS-CLÉS
modèles théoriques de RI, phénomène de rafale, modèles de langue, modèles DFR

KEYWORDS
IR theoretical models, burstiness, language models, divergence from randomness

BIBLIOGRAPHIE
dn.revuesonline.com/revues/20/10.3166/dn.14.2.103-123.html

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (598 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier