1. Comprendre le codage des caractères :
1. Le codage par défaut de String en Java est UTF-8, qui peut être obtenu à l'aide de l'instruction suivante : Charset.defaultCharset();
2. Sous le système d'exploitation Windows, le codage par défaut des fichiers texte est ANSI, qui est GBK pour Windows chinois. Par exemple, si nous utilisons le programme Notepad pour créer un nouveau document texte, son codage de caractères par défaut est ANSI.
3. Les documents texte ont quatre options de codage : ANSI, Unicode (y compris Unicode Big Endian et Unicode Little Endian), UTF-8, UTF-16
4. peut parfois ne pas connaître son format d'encodage, vous devez donc utiliser un programme pour déterminer dynamiquement l'encodage du fichier txt.
ANSI : Pas de définition de format, pour les systèmes d'exploitation chinois c'est GBK ou GB2312
UTF-8 : Les trois premiers octets sont : 0xE59B9E (UTF-8), 0xEFBBBF (UTF-8 inclus BOM)
UTF-16 : Les deux premiers octets sont : 0xFEFF
Unicode : Les deux premiers octets sont : 0xFFFE
Par exemple : Les documents Unicode commencent par 0xFFFE, utilisez Le programme supprime simplement les premiers octets et émet un jugement.
5. Correspondance entre l'encodage Java et l'encodage Texte :
Java lit les fichiers Texte. Si le format d'encodage ne correspond pas, des caractères tronqués apparaîtront. Par conséquent, vous devez définir le codage de caractères correct lors de la lecture de fichiers texte. Le format de codage des documents texte est écrit dans l'en-tête du fichier. Dans le programme, le format de codage du fichier doit d'abord être analysé. Après avoir obtenu le format de codage, la lecture du fichier dans ce format évitera les caractères tronqués.
Tutoriels vidéo en ligne gratuits recommandés : Java learning
2. Par exemple :
a un fichier texte : test.txt
Code de test :
/** * 文件名:CharsetCodeTest.java * 功能描述:文件字符编码测试 */ import java.io.*; public class CharsetCodeTest { public static void main(String[] args) throws Exception { String filePath = "test.txt"; String content = readTxt(filePath); System.out.println(content); } public static String readTxt(String path) { StringBuilder content = new StringBuilder(""); try { String fileCharsetName = getFileCharsetName(path); System.out.println("文件的编码格式为:"+fileCharsetName); InputStream is = new FileInputStream(path); InputStreamReader isr = new InputStreamReader(is, fileCharsetName); BufferedReader br = new BufferedReader(isr); String str = ""; boolean isFirst = true; while (null != (str = br.readLine())) { if (!isFirst) content.append(System.lineSeparator()); //System.getProperty("line.separator"); else isFirst = false; content.append(str); } br.close(); } catch (Exception e) { e.printStackTrace(); System.err.println("读取文件:" + path + "失败!"); } return content.toString(); } public static String getFileCharsetName(String fileName) throws IOException { InputStream inputStream = new FileInputStream(fileName); byte[] head = new byte[3]; inputStream.read(head); String charsetName = "GBK";//或GB2312,即ANSI if (head[0] == -1 && head[1] == -2 ) //0xFFFE charsetName = "UTF-16"; else if (head[0] == -2 && head[1] == -1 ) //0xFEFF charsetName = "Unicode";//包含两种编码格式:UCS2-Big-Endian和UCS2-Little-Endian else if(head[0]==-27 && head[1]==-101 && head[2] ==-98) charsetName = "UTF-8"; //UTF-8(不含BOM) else if(head[0]==-17 && head[1]==-69 && head[2] ==-65) charsetName = "UTF-8"; //UTF-8-BOM inputStream.close(); //System.out.println(code); return charsetName; } }
Résultat d'exécution :
Articles et tutoriels connexes recommandés : Débuter avec Java
Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!