Éditorial
Depuis lessor des technologies de linformation et de la communication, le
volume dinformation stockée électroniquement ne cesse de saccroître
(bibliothèques numériques, web, intranets, extranets
). Il est entendu que plus de
la moitié des informations utilisées au quotidien à des fins de veille économique,
stratégique, scientifique ou technique sont à ce jour contenues dans des documents.
De fait, ces documents et données semi-structurées doivent être intégrés et stockés
afin dêtre manipulés et analysés en utilisant conjointement des modèles et
techniques issus de plusieurs domaines de linformatique et notamment de la
recherche dinformation et des bases de données. Le concept dentreposage de
documents permet de construire cette mémoire documentaire « métier » flexible et
partageable. Ces répertoires ou entrepôts de documents doivent permettre dune
part lintégration et le stockage de documents de données semi-structurées issus de
sources différentes et de structures hétérogènes, et, dautre part, une recherche
personnalisée comme collaborative, ainsi quune analyse multidimensionnelle des
informations extraites de ces documents.
Lobjectif de ce numéro spécial est de rassembler une sélection de travaux de
recherche récents et représentatifs des courants actuels dans le domaine de
lentreposage de documents et de données semi-structurées. Même sils ne couvrent
que partiellement le domaine et les recherches en cours, ces articles présentent un
échantillon représentatif des verrous à lever, comme des différents aspects à
prendre en compte en matière dentreposage de documents.
Les deux premiers articles se focalisent sur les aspects structure sémantique et
multistructuralité des documents, les deux suivants sur la modélisation et lanalyse
multidimentionnelles des documents et des données semi-structurées ; enfin les deux
derniers traitent de la préservation des documents et des usages qui en découlent,
puis de la dimension temporelle des informations géographiques.
Le premier article, « Accès au contenu des thèses numériques par leur structure
sémantique » (R. Abascal-Mena et B. Rumpler), étudie la structuration logique et
sémantique dun corpus de thèses scientifiques en informatique afin de définir des
tags sémantiques qui permettront eux-mêmes par la suite daffiner la description
sémantique de nouvelles thèses.
Le deuxième article, « Une approche multivue pour la gestion des documents
multistructurés » (K. Djemal, M. Mbarki et N. Vallès-Parlangeau) aborde le
problème de la modélisation et de lentreposage de documents multistructurés. Un
métamodèle ainsi que des exemples dexploitation de cette multistructuralité sont
décrits.
Français
|