ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 8/3 - 2004  - pp.107-133
TITRE
Fouille de textes hiérarchisée appliquée à la détection de fautes

RÉSUMÉ

Cet article présente une approche hybride de fouille de données textuelles basée sur la hiérarchie de mise en forme du texte. Elle fait coopérer des outils de fouille de données, des outils de structuration et d'analyse robustes de document et la linguistique de discours. L'application concerne la détection de l'absence et la présence de fautes de style dans des articles scientifiques en anglais. Nous décrivons d'abord les unités textuelles basées sur la hiérarchie du texte. Leurs descripteurs combinent des informations sur les formes et les positions relatives des marqueurs stylistiques. La méthode met en avant la nécessité de garder le contexte étendu d'un marqueur textuel. Nous présentons ensuite deux méthodes de fouille mises en oeuvre pour caractériser la correction en anglais : règles de caractérisation et motifs émergents. Enfin, nous évaluons les résultats obtenus par l'application de ces techniques.

ABSTRACT

This paper presents an original text mining approach based on text segmented units, mixing data mining techniques and text linguistics. First, we describe the text units and their descriptors designed for detecting mistakes in scientific papers in English. These include text organisation, emphasising the relative positions and the context of stylistic markers. Secondly, the paper explains the text mining methods required for such tasks and provides the techniques to extract rules characterising classes and emerging patterns techniques. Experiment results show the usefulness of text organisation set as an hypothesis. The paper concludes on the text mining benefits for linguistic tasks.

AUTEUR(S)
Nadine LUCAS, Bruno CRÉMILLEUX

MOTS-CLÉS
fouille de textes, linguistique textuelle, mise en forme matérielle, structure typographique, stylistique, règles d'association, motifs émergents, caractérisation de classes, détection de fautes d'anglais, correction, style.

KEYWORDS
text mining, textual linguistics, stylistics, document layout, text structure, association rules, emergent patterns, emerging patterns, class characterisation, detection of English mistakes, style errors.

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (222 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier