ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 10/1 - 2007  - pp.89-107  - doi:10.3166/dn.10.89-107
TITRE
Modèle probabiliste pour l'extraction de structures dans les documents web

RÉSUMÉ
Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l'information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applications. Le passage d'une information de mise en page à une structure sémantique se heurte à deux principaux obstacles : l'hétérogénéité des données et le caractère implicite de de la structure des documents web. Nous décrivons un modèle stochastique capable d'apprendre à transformer des documents semi-structurés vers un schéma défini a priori et présentons une instance particulière de ce modèle adaptée à la transformation de documents hétérogènes HTML en XML.

ABSTRACT

With content management system becoming mainstream the web has changed dramatically: more and more web pages are now generated from relational databases and their design reflects the logical structure of documents. In this work, we show that there is enough information in the layout of a web document to capture the kind of data people are already producing in a more machine-friendly format. The extraction of a semantic structure from the layout of documents faces two main obstacles: structures are heterogeneous and often remain implicit. We introduce a general stochastic model of semi structured documents generation and transformation and detail an instance of this model for the particular task of HTML to XML conversion.

AUTEUR(S)
Guillaume WISNIEWSKI, Francis MAES, Ludovic DENOYER

MOTS-CLÉS
recherche d'information structurée, restructuration, apprentissage, extraction de structure

KEYWORDS
Structured Information Retrieval, Machine Learning, Document Restructuration

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (329 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier