ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 18/2-3 - 2015  - pp.81-100  - doi:10.3166/dn.18.2-3.81-100
TITRE
Clustering de documents dans des collections hétérogènes

TITLE
Document clustering in heterogeneous corpora

RÉSUMÉ

La classification non supervisée (ou clustering) de documents permet d’organiser thématiquement une collection de documents de façon à faciliter l’accès à l’information ou à proposer une vue synthétique du contenu d’un ensemble de documents. Néanmoins, quand la collection considérée contient des documents de type différent, cette hétérogénéité perturbe les résultats du clustering, en regroupant plus volontiers les documents selon leur type que selon leur thème. Nous présentons dans cet article une approche simple pour la prise en compte de l’hétérogénéité de la collection dans le clustering, en utilisant une sélection des traits de représentation qui s’appuie sur les différences de distributions des termes selon les types de document. Nous montrons l’intérêt de l’approche proposée en proposant une évaluation sur un corpus hétérogène constitué spécifiquement pour cette tâche.



ABSTRACT

The goal of document clustering is to organize a collection of documents according to their topics, in order to facilitate the information access or to propose a synthetic view of the informational content of a collection of text. However, when the considered collection contains different types of documents, the clustering results tend to be impacted, because the similarity between the documents will rely as much on the type of the documents as on their topics. We present in this article a simple approach designed to take into account the type of documents in the document clustering task, using a feature selection method that exploits the type of the documents. We show the interest of this approach with an evaluation on a heterogeneous corpus specially designed for this task.



AUTEUR(S)
Romaric BESANÇON, Anne-Laure DAQUO

MOTS-CLÉS
Clustering de textes, hétérogénéité, sélection de traits.

KEYWORDS
Clustering, heterogeneity, feature selection.

LANGUE DE L'ARTICLE
Anglais

 PRIX
• Abonné (hors accès direct) : 7.5 €
• Non abonné : 15.0 €
|
|
--> Tous les articles sont dans un format PDF protégé par tatouage 
   
ACCÉDER A L'ARTICLE COMPLET  (354 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier