ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 19/2-3 - 2016  - pp.75-94  - doi:10.3166/dn.19.2-3.75-94
TITRE
Indiscriminabilité dans les espaces de représentation des termes et des documents

TITLE
Indiscriminability in term and document representation spaces

RÉSUMÉ

L’examen des propriétés des espaces de représentation des documents ou des mots en recherche d’information (RI) – typiquement, R avec n très grand – fournit de précieuses n indications pour aider la recherche. Récemment, plusieurs travaux ont montré qu’il était possible d’étudier la dimensionnalité réelle des données, appelée dimensionnalité intrinsèque, en certains points de ces espaces (Houle et al., 2012). Ils ont montré que cette dimensionnalité était intimement liée à la notion d’indiscriminabilité des voisins d’un point requête dans l’espace considéré. Dans cet article, nous proposons de revisiter cette notion d’indiscriminabilité dans le cas particulier de la RI et d’étudier son utilisation pratique en RI. Plus précisément, nous montrons comment son estimation à partir de similarités de type RI, peut être utilisée dans les espaces de représentations des documents et les espaces de représentations de mots (Mikolov et al., 2013 ; Claveau et al., 2014). Ainsi, nous montrons d’une part que l’indice α aide à caractériser les requêtes difficiles ; d’autre part, dans une tâche d’extension de requête, nous montrons comment cette notion d’indiscriminabilité appliquée à des mots permet de choisir au mieux les termes à étendre et leurs extensions.



ABSTRACT

Examining the properties of representation spaces for documents or words in Information Retrieval (IR) – typically R with n large– brings precious insights to help the n retrieval process. Recently, several authors have studied the real dimensionality of the datasets, called intrinsic dimensionality, in specific parts of these spaces (Houle et al., 2012). They have shown that this dimensionality is chiefly tied with the notion of indiscriminability among neighbors of a query point in the vector space. In this paper, we propose to revisit this notion in the specific case of IR and to study its use in IR tasks. More precisely, we show how to estimate α from IR similarities and to use it in representtion spaces used for documents and words (Mikolov et al., 2013 ; Claveau et al., 2014). Indeed, we prove that α may be used to characterize difficult queries; moreover we show that this indiscriminability notion, applied to words, can help to choose terms to use for query expansion.



AUTEUR(S)
Vincent CLAVEAU

MOTS-CLÉS
dimensionnalité intrinsèque, indiscriminabilité, fonctions RSV, thésaurus distributionnels, extension de requête.

KEYWORDS
intrinsic dimensionality, indiscriminability, RSV scores, distributional thesauri, query expansion. DOI:10.3166/DN.19.2-3.75-94 c 2016 Lavoisier

LANGUE DE L'ARTICLE
Français

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (535 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier