ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 11/1-2 - 2008  - pp.109-132
TITRE
Stratégies de recherche dans la blogosphère

RÉSUMÉ

Cette communication présente les principaux problèmes liés à la recherche d'information dans la blogosphère. Recourant au modèle vectoriel tf idf, ainsi qu'à trois approches probabilistes et un modèle de langue, cet article évalue leur performance sur un corpus TREC extrait de la blogosphère et comprenant 100 requêtes. Les raisons expliquant les faibles performances sont exposées. Basés sur deux mesures de performance, nous démontrons que l'absence d'enracineur s'avère plus efficace que d'autres approches (enracineur léger ou celui de Porter). Imposer la présence côte à côte de deux mots recherchés dans la réponse fournie permet d'accroître significativement la performance obtenue.

ABSTRACT

This paper describes the main retrieval problems when facing blogs. Using the classical tf idf vector-space model together with three probabilistic and one statistical language model, we evaluate them using a TREC test-collections composed of 100 topics. We analyze the hard topics. Using two performance measures, we show that ignoring a stemming approach results in a better performance than other indexing strategies (light or Porter's stemmer). Taking account of the presence of two search words in the retrieved documents may significantly improve the retrieval performance.

AUTEUR(S)
Claire FAUTSCH, Jacques SAVOY

MOTS-CLÉS
blogosphère, domaine spécifique, évaluation, modèle probabiliste, TREC

KEYWORDS
Blogs, Domain-specific IR, Evaluation, Probabilistic model, TREC

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (522 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier