ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 17/3 - 2014  - pp.7-8
TITRE
INTRODUCTION

RÉSUMÉ

Avec ce numéro de la revue Document Numérique qui rassemble les contributions marquantes étendues issues de la dernière conférence sur l’écrit et le document (Conférence Internationale Francophone sur l’Ecrit et le Document, CIFED 2014), preuve est encore faite de la richesse et de la diversité de cette thématique de recherche dans la communauté francophone. Depuis les traiteurs de signaux, transformant les pixels de leurs images pour faire émerger des blocs d’information porteurs de sens, aux spécialistes des méthodes d’apprentissage proposant des algorithmes prenant en compte la spécificité du domaine des documents, tous ont en commun la prise en compte d’un système complexe, où il est indispensable d’imaginer une solution complète. Cela suppose une maîtrise de bout en bout d’un ensemble pluri-technologique où chaque maillon est un défi pour assurer en temps contraint des performances optimales. La clé du succès repose sur une double exigence. Il s’agit d’une part de s’appuyer sur une démarche méthodologique très rigoureuse qui puise et nourrit des avancées fondamentales pour faire progresser les connaissances pour chaque nouvelle étude présentée, mais aussi, et la sélection de travaux présentés ici le montre bien, de proposer systématiquement d es mises en situation expérimentales permettant d’évaluer de façon objective les propriétés des méthodes étudiées. De l’imprimé au multimodal, analyse et reconnaissance du document numérique est composé de cinq contributions qui illustrent bien la diversité et les challenges introduits ici. En effet, les données disponibles correspondent soit à des documents imprimés, pour les deux premiers articles, ou bien à des données manuscrites, pour les deux articles suiva nts, enfin , le cinquième article traite de l’ écriture manuscrite en - ligne enrichie de données issues de la parole. La segmentation de pages de documents à la structure complexe, mixant des zones de textes, des traits séparateurs et des photos, est l’objet du papier Approche hybride de segmentation de pages à base d’un descripteur de traits. La méthode est robuste à l’inclinaison du texte qui est d’abord estimée et corrigée par une nouvelle méthode s’appuyant sur une transformée de Radon puis une transformée Ridgelets. Ensuite, un nouveau descripteur estimant la variation de la largeur du trait pour chaque composante connexe dans l’image permet d’extraire de l’image les candidats textes et traits. Traitant également de documents imprimés, l’article Classification de flux de documents évolutifs avec apprentissage de classes inconnues propose un algorithme semi-supervisé actif pour la classification de flux continu de documents. Il s’agit de repérer les documents les plus informatifs à l’aide d’une mesure d’incertitude pour demander leur étiquette à un opérateur. Pour cela un modèle sous forme d’un graphe à topologie dynamique dont les nœuds sont des représentants de documents étiquetés est utilisé. La méthode proposée atteint des performances comparables aux méthodes supervisées.



AUTEUR(S)
Christian VIARD-GAUDIN

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (31 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier