ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 13/1 - 2010  - pp.63-82  - doi:10.3166/dn.13.1.63-82
TITRE
Apprentissage d'un espace de concepts de mots pour une nouvelle représentation des données textuelles

TITLE
Learning concept spaces for text representation

RÉSUMÉ

Dans cet article nous proposons une technique à base d'apprentissage non supervisé pour la réduction de dimension des données textuelles. Cette technique est basée sur l'hypothèse que les termes co-occurrant dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Suivant cette hypothèse les termes sont d'abord regroupés avec une version classifiante de l'algorithme EM (CEM). Les documents sont ensuite représentés dans l'espace de ces groupes de termes. Nous généralisons cette approche en étendant l'algorithme PLSA pour un partitionnement simultané des termes et des documents. Nous montrons dans une dernière étape la validité de notre approche en comparant le résultat de ce clustering avec ceux obtenus dans l'espace sac de mots initial et l'espace des groupes de mots induit par l'algorithme PLSA sur les trois collections de documents Reuters, 20newsgroups et WebKB.

ABSTRACT

In this paper, we present an unsupervised learning technique for dimensionality reduction of textual data. This approach is based on the assumption that terms co-occuring in the same context with the same frequency are semantically related. We hence find term clusters using a classifiant version of the EM algorithm (CEM) and documents are then represented in the space of these term clusters. We then generalize this approach by extending the PLSA model for a simulataneous clustering of documents and terms. We evaluate our techniques on the task of document clustering and show the effectiveness of our approach on three standard classification collections of Reuters, 20News groups and WebKB.

AUTEUR(S)
Young-Min KIM, Jean-François PESSIOT, Massih-Reza AMINI, Patrick GALLINARI

MOTS-CLÉS
apprentissage non supervisé, partition de mots, partitionnement de documents.

KEYWORDS
unsupervised learning, term clustering, document clustering.

CITATIONS
dn.revuesonline.com/revues/20/citation/15074.html

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (499 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier