ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 13/3 - 2010  - pp.69-93  - doi:10.3166/dn.13.3.69-93
TITRE
Evaluation de descripteurs statistiques et linguistiques pour la détection de dérivation de texte

TITLE
Evaluation of linguistical and statistical descriptors for the detection of test derivation

RÉSUMÉ

Dans cet article, nous traitons du problème de la détection de relations de dérivation et de codérivation entre des paires d’articles de presse en français. Nous reprenons le cadre des approches par signature largement utilisé dans la littérature et nous expérimentons plusieurs types de descripteurs sélectionnés pour leur singularité : trigrammes hapax, entités nommées, composés nominaux et connecteurs discursifs. Nous évaluons ces différentes approches en termes de coût de mise en oeuvre ainsi que de capacité à prédire ces types de relations sur le corpus PIITHIE. Nous montrons qu’il est ainsi possible de conserver un niveau de performance comparable à l’approche état de l’art tout en réduisant fortement la taille de la modélisation des documents et donc du coût de mise en œuvre.



ABSTRACT

In this paper, we address the problem of detecting derivation and co-derivation relationships between pairs of news articles in French. We use the fingerprinting framework widely used in the related works, and we experiment several descriptors selected for their singularity: 3-grams hapax, named entities, nominal compounds and discourse connectives. We evaluate these approaches in terms of processing costs as well as their ability to predict these relationships on the PIITHIE corpus. We show that it is then possible to maintain performance at the state of the art approach level while reducing the fingerprint size and so, the processing costs.



AUTEUR(S)
Fabien POULARD, Nicolas HERNANDEZ, Stergos D. AFANTENOS, Béatrice DAILLE

MOTS-CLÉS
d�rivation, cod�rivation, descripteurs linguistiques, approche par signatures, r�utilisation de texte.

KEYWORDS
derivation, co-derivation, linguistic descriptors, fingerprinting, text reuse.

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (456 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier