Des caractères tronqués apparaissent dans le code Java ?
Des caractères tronqués en forme de losange apparaissent dans le code Java. Généralement, cela est dû à des problèmes de jeu de caractères. Par exemple, le fichier Java est codé en GBK, mais lorsque l'éditeur ouvre le fichier Java avec UTF-. 8, ce type de code tronqué s'affiche. Méthode de résolution : remplacez l'encodage de l'éditeur par le même encodage que le fichier Java.
Encodage
L'encodage est le processus de conversion d'informations d'une forme ou d'un format à un autre, également appelé code un langage de programmation informatique est simplement appelé codage. Utilisez une méthode prédéterminée pour coder des caractères, des nombres ou d'autres objets en nombres, ou convertir des informations et des données en signaux d'impulsions électriques prescrits. Le codage est largement utilisé dans les ordinateurs électroniques, les téléviseurs, les télécommandes et les communications. L'encodage est le processus de conversion d'informations d'une forme ou d'un format à un autre. Le décodage est le processus inverse du codage.
Parmi les normes d'encodage GB, les plus couramment utilisées sont GB2312 et GB2312 est un sous-ensemble de GBK. La plage d'encodage GB2312 est 0xA1A1 - 0xFEFE. S'il s'agit d'un encodage GB2312 pur, il est très simple. Mais il y a quelques petits conseils concernant le jeu de caractères GBK. Parlons d'abord de la norme de codage GBK :
GBK utilise une représentation sur deux octets, la plage de codage globale est 8140-FEFE et la première. l'octet est compris entre 81-FE, le dernier octet est compris entre 40-FE et une ligne de xx7F est éliminée. Il existe un total de 23 940 points de code et un total de 21 886 caractères chinois et symboles graphiques sont inclus, dont 21 003 caractères chinois (y compris les radicaux et les composants) et 883 symboles graphiques.
Classification d'encodage
1. Y compris :
a. Zone de caractères chinois GB 2312. C'est GBK/2 : B0A1-F7FE. Contient 6 763 Go de 2 312 caractères chinois, disposés dans l'ordre d'origine.
b. GB 13000.1 Développez la zone des caractères chinois. Comprend :
(1) GBK/3 : 8140-A0FE. Contient 6080 caractères chinois CJK en GB 13000.1.
(2) GBK/4 : AA40-FEA0. Contient 8 160 caractères chinois CJK et des caractères chinois complétés.
Les caractères chinois CJK sont au début, disposés en fonction de la taille du code UCS ; les caractères chinois supplémentaires (y compris les radicaux et les composants) sont à la fin, disposés en fonction du numéro de page/de la position des caractères du « Dictionnaire Kangxi ». .
2. Zone de symboles graphiques. Y compris :
a. Zone de symboles de caractères non chinois GB 2312. C'est GBK/1 : A1A1-A9FE. En plus des symboles du GB 2312,
comporte également 10 chiffres romains minuscules et les symboles supplémentaires du GB 12345. Il y a 717 symboles au total.
b. GB 13000.1 Développez la zone des caractères non chinois. Il s'agit de GBK/5 : A840-A9A0. BIG-5 Les caractères non chinois, les symboles structurels et "○" sont disposés dans cette zone. Il y a 166 symboles au total.
3. Zone définie par l'utilisateur : divisée en trois zones (1) (2) (3).
(1) AAA1-AFFE, 564 points de code.
(2) F8A1-FEFE, 658 points de code.
(3) A140-A7A0, 672 points de code.
Bien que la zone (3) soit ouverte aux utilisateurs, son utilisation est restreinte car la possibilité d'ajouter de nouveaux personnages à cette zone à l'avenir ne peut être exclue.
Voici quelques conseils :
1. En php, l'encodage des caractères est basé sur l'encodage envoyé, donc l'encodage saisi par l'utilisateur est utilisé et ne changera pas automatiquement, mais. en asp, l'encodage par défaut est Unicode, nous pouvons donc facilement obtenir le tableau de comparaison d'encodage de gbk->unicode, afin de pouvoir facilement implémenter gbk en utf-8 même sans aucune bibliothèque de base
2. Étant donné que la valeur la plus basse du bit élevé de GBK est 0x40, soit 64, par conséquent, parfois lors de l'organisation de certaines chaînes impliquant du chinois, il est préférable d'utiliser le code ASCII avant 64 pour séparer les caractères, afin qu'il n'y ait pas de caractères tronqués lors du remplacement ou. diviser en aucune circonstance. Les caractères les plus couramment utilisés sont ",", ";", ":", " ", " ", " ". Ces caractères ne causeront jamais de confusion dans l'encodage gb
Tutoriel recommandé : "Tutoriel Java"
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!