ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 10/1 - 2007  - pp.63-88  - doi:10.3166/dn.10.63-88
TITRE
Interprétation vague des contraintes structurelles pour la RI dans des corpus de documents XML. Évaluation d'une méthode approchée de RI structurée

RÉSUMÉ
Nous proposons des algorithmes dédiés à l'indexation et à la recherche approximative d'information dans les bases de données hétérogènes semi-structurées XML. Le modèle d'indexation proposé est adapté à la recherche de contenu textuel dans les contextes XML définis par les structures d'arbres. Les mécanismes de recherche approchée mis en oeuvre s'appuient sur une distance de Levenshtein modifiée et des heuristiques de fusion d'information. Une implémentation exploitant simultanément l'information structurée, i.e. l'arborescence des éléments XML, et le contenu des documents indexés est décrite. Les performances obtenues dans le cadre de la campagne d'évaluation INEX 2005 sont présentées et analysées. Celles-ci positionnent l'approche proposée parmi les meilleurs systèmes évalués, sur la tâche de recherche approximative de contenu en contexte structurel vague.

ABSTRACT

We propose specific data structures designed to the indexing and retrieval of information elements in heterogeneous XML data bases. The indexing scheme is well suited to the management of various contextual searches, expressed either at a structural level or at an information content level. The approximate search mechanisms are based on a modified Levenshtein editing distance and information fusion heuristics. The implementation described highlights the mixing of structured information presented as field/value instances and free text elements. The retrieval performances of the proposed approach are evaluated within the INEX 2005 evaluation campaign. The evaluation results rank the proposed approach among the best evaluated XML IR systems for the VVCAS task.

AUTEUR(S)
Eugen POPOVICI, Gildas MÉNIER, Pierre-François MARTEAU

MOTS-CLÉS
XML, base de données hétérogènes, recherche et extraction d'information, fusion d'information, distance d'édition de Levenshtein, opérateurs de recherche, INEX.

KEYWORDS
XML, heterogeneous data base, information retrieval, information fusion, Levenshtein edition distance, heuristic based operators, INEX.

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (3,21 Mo)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier