Diamond-verstümmelte Zeichen erscheinen im Java-Code?
Diamantenförmige, verstümmelte Zeichen erscheinen im Java-Code. Im Allgemeinen liegt dies an Zeichensatzproblemen. Beispielsweise ist die Java-Datei GBK-codiert, aber wenn der Editor die Java-Datei mit UTF öffnet. 8-Kodierung wird dieser verstümmelte Code angezeigt. Lösungsmethode: Ändern Sie die Kodierung des Editors auf dieselbe Kodierung wie die Java-Datei.
Kodierung
Kodierung ist der Prozess der Konvertierung von Informationen von einer Form oder einem Format in eine andere, auch Code genannt Eine Computerprogrammiersprache wird einfach Codierung genannt. Verwenden Sie eine vorgegebene Methode, um Zeichen, Zahlen oder andere Objekte in Zahlen zu kodieren oder Informationen und Daten in vorgeschriebene elektrische Impulssignale umzuwandeln. Codierung wird häufig in elektronischen Computern, Fernsehgeräten, Fernbedienungen und in der Kommunikation verwendet. Beim Kodieren handelt es sich um den Prozess der Konvertierung von Informationen von einer Form oder einem Format in ein anderes. Die Dekodierung ist der umgekehrte Vorgang der Kodierung.
Unter den GB-Kodierungsstandards sind GB2312 die am häufigsten verwendeten. GB2312 ist eine Teilmenge von GBK. Der GB2312-Kodierungsbereich ist 0xA1A1 – 0xFEFE Beim Umgang mit dem GBK-Zeichensatz gibt es jedoch einige kleine Tipps. Lassen Sie uns zunächst über den GBK-Kodierungsstandard sprechen:
GBK verwendet die Doppelbyte-Darstellung, der gesamte Kodierungsbereich ist 8140-FEFE Das Byte liegt zwischen 81-FE, das letzte Byte liegt zwischen 40-FE und eine Zeile mit xx7F wird eliminiert. Es gibt insgesamt 23.940 Codepunkte und insgesamt sind 21.886 chinesische Schriftzeichen und Grafiksymbole enthalten, darunter 21.003 chinesische Schriftzeichen (einschließlich Radikale und Komponenten) und 883 Grafiksymbole.
Kodierungsklassifizierung
1. Einschließlich:
a. GB 2312 chinesischer Schriftzeichenbereich. Das ist GBK/2: B0A1-F7FE. Enthält 6763 GB 2312 chinesische Schriftzeichen, in Originalreihenfolge angeordnet.
b. GB 13000.1 Erweitern Sie den Bereich für chinesische Schriftzeichen. Beinhaltet:
(1) GBK/3: 8140-A0FE. Enthält 6080 chinesische CJK-Schriftzeichen in GB 13000.1.
(2) GBK/4: AA40-FEA0. Enthält 8160 chinesische CJK-Schriftzeichen und ergänzte chinesische Schriftzeichen.
Chinesische CJK-Schriftzeichen stehen vorne und sind nach der Größe des UCS-Codes angeordnet. Zusätzliche chinesische Schriftzeichen (einschließlich Radikale und Komponenten) stehen am Ende und sind nach der Seitenzahl/Zeichenposition des „Kangxi-Wörterbuchs“ angeordnet. .
2. Grafischer Symbolbereich. Einschließlich:
a. GB 2312 nicht-chinesischer Zeichensymbolbereich. Das ist GBK/1: A1A1-A9FE. Zusätzlich zu den Symbolen von GB 2312 enthält
auch 10 kleine römische Ziffern und die ergänzenden Symbole von GB 12345. Insgesamt gibt es 717 Symbole.
b. GB 13000.1 Erweitern Sie den Bereich für nicht-chinesische Zeichen. Das ist GBK/5: A840-A9A0. BIG-5 Nicht-chinesische Zeichen, Struktursymbole und „○“ sind in diesem Bereich angeordnet. Insgesamt gibt es 166 Symbole.
3. Benutzerdefinierter Bereich: unterteilt in drei Bereiche (1) (2) (3).
(1) AAA1-AFFE, 564 Codepunkte.
(2) F8A1-FEFE, 658 Codepunkte.
(3) A140-A7A0, 672 Codepunkte.
Der Bereich (3) ist zwar für Benutzer zugänglich, seine Nutzung ist jedoch eingeschränkt, da nicht ausgeschlossen werden kann, dass diesem Bereich in Zukunft neue Charaktere hinzugefügt werden.
Hier ein paar Tipps:
1. In PHP basiert die Zeichenkodierung auf der gesendeten Kodierung, sodass die vom Benutzer eingegebene Kodierung verwendet wird und sich nicht automatisch ändert In ASP ist die Standardcodierung Unicode, sodass wir problemlos die Codierungsvergleichstabelle von gbk->unicode erhalten können, sodass wir gbk auch ohne Basisbibliothek problemlos in utf-8 implementieren können . Da der niedrigste Wert des High-Bits von GBK 0x40 ist, also 64, ist es daher manchmal am besten, den ASCII-Code vor 64 zu verwenden, um Zeichen zu trennen, wenn Sie einige Zeichenfolgen mit Chinesisch organisieren. Beim Ersetzen von oder treten keine verstümmelten Zeichen auf Die am häufigsten verwendeten Zeichen sind „“, „;“, „“ Diese Zeichen werden bei der GB-Codierung niemals zu Verwirrung führen.
Empfohlenes Tutorial: „
Java-TutorialDas obige ist der detaillierte Inhalt vonErscheinen im Java-Code verstümmelte Rautenzeichen?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!