Maison > Java > JavaBase > Java implémente l'obtention du codage de caractères d'un fichier texte

Java implémente l'obtention du codage de caractères d'un fichier texte

王林
Libérer: 2019-12-23 11:49:49
avant
12162 Les gens l'ont consulté

Java implémente l'obtention du codage de caractères d'un fichier texte

1. Comprendre le codage des caractères :

1. Le codage par défaut de String en Java est UTF-8, qui peut être obtenu à l'aide de l'instruction suivante : Charset.defaultCharset();

2. Sous le système d'exploitation Windows, le codage par défaut des fichiers texte est ANSI, qui est GBK pour Windows chinois. Par exemple, si nous utilisons le programme Notepad pour créer un nouveau document texte, son codage de caractères par défaut est ANSI.

3. Les documents texte ont quatre options de codage : ANSI, Unicode (y compris Unicode Big Endian et Unicode Little Endian), UTF-8, UTF-16

4. peut parfois ne pas connaître son format d'encodage, vous devez donc utiliser un programme pour déterminer dynamiquement l'encodage du fichier txt.

ANSI : Pas de définition de format, pour les systèmes d'exploitation chinois c'est GBK ou GB2312

UTF-8 : Les trois premiers octets sont : 0xE59B9E (UTF-8), 0xEFBBBF (UTF-8 inclus BOM)

UTF-16 : Les deux premiers octets sont : 0xFEFF

Unicode : Les deux premiers octets sont : 0xFFFE

Par exemple : Les documents Unicode commencent par 0xFFFE, utilisez Le programme supprime simplement les premiers octets et émet un jugement.

5. Correspondance entre l'encodage Java et l'encodage Texte :

Java implémente lobtention du codage de caractères dun fichier texte

Java lit les fichiers Texte. Si le format d'encodage ne correspond pas, des caractères tronqués apparaîtront. Par conséquent, vous devez définir le codage de caractères correct lors de la lecture de fichiers texte. Le format de codage des documents texte est écrit dans l'en-tête du fichier. Dans le programme, le format de codage du fichier doit d'abord être analysé. Après avoir obtenu le format de codage, la lecture du fichier dans ce format évitera les caractères tronqués.

Tutoriels vidéo en ligne gratuits recommandés : Java learning

2. Par exemple :

a un fichier texte : test.txt

Java implémente lobtention du codage de caractères dun fichier texte

Code de test :

/**
 * 文件名:CharsetCodeTest.java
 * 功能描述:文件字符编码测试
 */
 
import java.io.*;
 
public class CharsetCodeTest {
    public static void main(String[] args) throws Exception {
        String filePath = "test.txt";
        String content = readTxt(filePath);
        System.out.println(content);
    }
 
 
public static String readTxt(String path) {
        StringBuilder content = new StringBuilder("");
        try {
            String fileCharsetName = getFileCharsetName(path);
            System.out.println("文件的编码格式为:"+fileCharsetName);
 
            InputStream is = new FileInputStream(path);
            InputStreamReader isr = new InputStreamReader(is, fileCharsetName);
            BufferedReader br = new BufferedReader(isr);
 
            String str = "";
            boolean isFirst = true;
            while (null != (str = br.readLine())) {
                if (!isFirst)
                    content.append(System.lineSeparator());
                    //System.getProperty("line.separator");
                else
                    isFirst = false;
                content.append(str);
            }
            br.close();
        } catch (Exception e) {
            e.printStackTrace();
            System.err.println("读取文件:" + path + "失败!");
        }
        return content.toString();
    }
 
 
    public static String getFileCharsetName(String fileName) throws IOException {
        InputStream inputStream = new FileInputStream(fileName);
        byte[] head = new byte[3];
        inputStream.read(head);
 
        String charsetName = "GBK";//或GB2312,即ANSI
        if (head[0] == -1 && head[1] == -2 ) //0xFFFE
            charsetName = "UTF-16";
        else if (head[0] == -2 && head[1] == -1 ) //0xFEFF
            charsetName = "Unicode";//包含两种编码格式:UCS2-Big-Endian和UCS2-Little-Endian
        else if(head[0]==-27 && head[1]==-101 && head[2] ==-98)
            charsetName = "UTF-8"; //UTF-8(不含BOM)
        else if(head[0]==-17 && head[1]==-69 && head[2] ==-65)
            charsetName = "UTF-8"; //UTF-8-BOM
 
        inputStream.close();
 
        //System.out.println(code);
        return charsetName;
    }
}
Copier après la connexion

Résultat d'exécution :

Java implémente lobtention du codage de caractères dun fichier texte

Articles et tutoriels connexes recommandés : Débuter avec Java

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Étiquettes associées:
source:csdn.net
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn
Tutoriels populaires
Plus>
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal