Jean-Philippe Odent wrote:
De même que les caractères Ascii (8 bits) sont localisés dans la
zone de 0 Ã 127, je cherche la zone des unicodes japonais qui forment
un mot en un seul caractère. Je parle donc pas des syllables mais bien
des mots d'une seul caractère.
Euh, vous pouvez éventuellement séparer les katakana, mais pour les Kanji (idéogrammes), il est totalement impossible de séparer les mots composés (de kanjis et/ou de kanas) des kanjis "isolés" puisque ce sont les même caractères (au sens Unicode du terme) sans appliquer des traitements (très) complexes.
(Pour prendre un exemple, le "白" de "白"(ã„) (blanc) et le "白" de "白 ç±³" (riz blanc) ou de "é¢ç™½" ("amusant") sont identiques)