ACCUEIL

Consignes aux
auteurs et coordonnateurs
Nos règles d'éthique
Autres revues >>

Document Numérique

1279-5127
 

 ARTICLE VOL 9/3-4 - 2006  - pp.45-68
TITLE
Encodings in Legacy Khmer TrueType Fonts. Investigation and Propose of Auto-Detection Algorithm

RÉSUMÉ
Malgré l'utilisation croissante des normes ISO pour le codage de la plupart des écritures indiennes dans les pays d'Asie du Sud et du Sud-Est, les codages bricolés sont encore utilisés pour éviter l'implémentation de systèmes de mise en page complexes pour les écritures indiennes. Puisque ces codages ne sont pas bien définis et ont été développés ad hoc, il est très difficile de les détecter par des méthodes déductives. Il arrive alors que l'on publie le texte le plus souvent en tant qu'image. En guise d'exemple caractéristique nous avons choisi l'écriture cambodgienne. Nous avons examiné les différentes fontes cambodgiennes diffusées gratuitement sur le Web, les codages qu'elles déclarent utiliser et ceux qu'elles utilisent. Nous arrivons à la conclusion que les codages déclarés ne sont pas fiables. En nous basant sur les codages étudiés nous proposons un algorithme heuristique de détection de codage cambodgien. Cet algorithme nous permet également de transcoder des documents codés dans ces codages avec une précision plus élevée que celle des méthodes cognitives.

ABSTRACT

In spite of ISO standards for most Indic scripts used in South and South-East Asian countries, legacy encodings are still used to avoid the implementation of complex text layout systems for Indic scripts. Since legacy encodings for Indic scripts are not well-defined and have been designed ad hoc, it is almost impossible to detect the encoding by deducive methods. As a result, the coded text is often dealt as image data rather than text. As a typical example of the confusion of non-standard legacy encodings, we take Khmer script. We collected the various free-charged legacy Khmer fonts distributed on the Web, and investigated the encodings declared and used in the fonts. As a result, the declared encodings are confirmed to be unreliable. Based on the code charts obtained by our investigation, we propose a heuristic algorithm to detect the encoding used in legacy Khmer fonts. This algorithm enables us to extract text data from legacy coded text with an accuracy higher than the one of cognitive methods.

AUTEUR(S)
Suzuki TOSHIYA, Masatake YAMATO, Yoshiki MIKAMI

MOTS-CLÉS
cambodgien, Unicode, fonte TrueType, échange d'information

KEYWORDS
Khmer, Unicode, TrueType Font, Information Interchange

LANGUE DE L'ARTICLE
Anglais

 PRIX
GRATUIT
   
ACCÉDER A L'ARTICLE COMPLET  (4,90 Mo)



Mot de passe oublié ?

ABONNEZ-VOUS !

CONTACTS
Comité de
rédaction
Conditions
générales de vente

 English version >> 
made by WAW Lavoisier