ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 13/3 - 2010  - pp.41-68  - doi:10.3166/dn.13.3.41-68
TITRE
Découverte de configurations de traits textuels pour la caractérisation des segments d'obsolescence

TITLE
Discovering configurations of textual features to identify obsolescent segments

RÉSUMÉ

Cet article présente une méthodologie de découverte de marqueurs envisagés comme des configurations de traits textuels pour la description et le repérage automatique de segments contenant des informations nécessitant des mises à jour (les segments d’obsolescence). La méthodologie mise en oeuvre est fondée sur la prise en compte de traits textuels hétérogènes et à granularité variable. Nous mettons en place un système statistique à base de règles d’association pour faire émerger des données les combinaisons de traits pertinentes : traits intraphrastiques, hiérarchiques, positionnels et externes. Une évaluation de leur rôle en termes de performance est proposée. Nous travaillons sur un corpus de textes encyclopédiques annoté manuellement par des rédacteurs du monde de l’édition.



ABSTRACT

This paper presents a data-driven methodology for the automatic identification of text segments which contain information requiring updating "obsolescence segments". Our approach views markers as configurations of textual features and involves tagging text for a wide range of feature types of variable scope. We then apply a statistical method based on association rules whereby feature combinations relevant for the detection of obsolescence emerge from the data: intrasentential, hierarchical, positional and external features. We propose an evaluation of the respective roles of the different feature types. The study is based on a corpus of encyclopaedic texts which have been manually annotated by experts from the field of publishing.



AUTEUR(S)
Marion LAIGNELET, Marie-Paule PÉRY-WOODLEY, Ludovic TANGUY

MOTS-CLÉS
TAL, linguistique de corpus, discours, organisation textuelle, apprentissage automatique.

KEYWORDS
NLP, corpus linguistics, discourse organisation, machine learning.

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (335 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier