ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 6/3-4 - 2002  - pp.225-236  - doi:10.3166/dn.6.3-4.225-236
TITRE
Intégration d'Unicode Conception d'un agent de recherche d'information sur internet

RÉSUMÉ

La norme ISO/CEI 10646 que l'on appelle couramment Unicode est passée assez discrètement dans les faits. Sa manifestation la plus claire est la possibilité de consulter des sites du monde entier, sans plus être pénalisé par l'incompatibilité des systèmes d'échange et d'affichage des données texte. Donner à voir des documents dans des graphies très diverses, ou « multiscript », mais aussi indexer, traiter l'information automatiquement est désormais possible. Face à ce progrès technique, les réactions sont plus ou moins rapides. Nous présentons ici un exemple de réalisation d'automate de collecte et traitement d'information à partir de documents multiscript, et évoquerons les difficultés ou réticences constatées par ailleurs.



ABSTRACT

The ISO/IEC 10646 Unicode standard allows anyone to collect and read any text in any graphical form. Documents can be processed without worrying about the variety of encoding. We present an example of information retrieval on multilingual sources and discuss some of the issues induced by this new technology.



AUTEUR(S)
Emmanuel GIGUET, Nadine LUCAS

MOTS-CLÉS
Unicode, traitement automatique multilingue, fouille de texte, outils de veille.

KEYWORDS
processing. Unicode, information monitoring, text mining, multilingual information

LANGUE DE L'ARTICLE
Français

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (174 Ko)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
Lavoisier