ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 6/1-2 - 2002  - pp.129-144  - doi:10.3166/dn.6.1-2.129-144
TITRE
Une méthode générique de rétroconversion de documents pour la constitution de dossiers numériques

RÉSUMÉ

Dans un certain nombre de cas, les dossiers numériques sont constitués par rétroconversion de documents papier. Or jusqu'à présent ces rétroconversions impliquent de développer, pour chaque type de documents, un système spécifique de reconnaissance. Nous proposons donc une approche générique, la méthode DMOS, qui permet d'engendrer le système de reconnaissance adapté à partir de la description de la structure de chaque document. Cette méthode qui a déjà été utilisée sur différents types de documents (partitions musicales, formules mathématiques...), permet entre autres de repérer les structures tabulaires contenues dans une page. Elle vient d'être validée sur plus de 5 000 fiches nominatives d'incorporation militaire du XIXe siècle. En produisant une description XML du document, la méthode permet d'appliquer ensuite d'autres traitements comme la constitution de pages d'index visuels ou le masquage de champs confidentiels.



ABSTRACT

Digital files are in many cases build by retrospective conversion of paper documents. Until now this retrospective conversion needs to develop, for each kind of document, a new recognition system from scratch. Therefore we propose in this paper a generic approach for structured document recognition: the DMOS method. With its help, we can automatically produce a new recognition system from a grammatical description of the document structure. The DMOS method has been successfully applied to produce various recognition systems: one for musical scores, one for mathematical formulae and one for table structures. It has been also validated on more than 5,000 military forms of the 19 century. By producing an XML description of the recognized form, the recognition system allows, for example, to build a visual index or to hide confidential cells.



AUTEUR(S)
Bertrand COÜASNON, Jean CAMILLERAPP

MOTS-CLÉS
reconnaissance de documents, tableaux, formulaires, gestion des connaissances a priori, analyse structurelle, grammaire. KEYWORDS: documents analysis, table-form, printed-form, a priori knowledge, syntactic analysis, grammar.

KEYWORDS
documents analysis, table-form, printed-form, a priori knowledge, syntactic analysis, grammar.

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (4,10 Mo)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier