Maison Java javaDidacticiel Utilisez java.nio.charset.CharsetDecoder pour identifier automatiquement les méthodes de jeu de caractères

Utilisez java.nio.charset.CharsetDecoder pour identifier automatiquement les méthodes de jeu de caractères

Mar 12, 2017 am 09:43 AM
java

Cet articleprésentel'utilisation de java.nio.charset.CharsetDecoder pour identifier automatiquement la jeu de caractèresméthode

recherche les méthodes qui peut être utilisé sur Internet. Le moyen le plus efficace d'identifier automatiquement les jeux de caractères est d'utiliser la bibliothèque de classes tierce jchardet. Il existe également cpdetector, qui utilise en fait jchardet. J'ai accidentellement découvert que java.nio.charset.CharsetDecoder de jdk peut être utilisé pour identifier les jeux de caractères.

1. Principe

Généralement, deux méthodes sont utilisées pour construire InputStreamReader :

InputStreamReader reader = new InputStreamReader(in, charsetName);
Copier après la connexion

ou

InputStreamReader reader = new InputStreamReader(in, charset);
Copier après la connexion

Si le jeu de caractères ne correspond pas, des caractères tronqués seront affichés.

Il existe également une méthode de construction, qui consiste à utiliser CharsetDecoder :

CharsetDecoder cd = charset.newDecoder();
InputStreamReader reader = new InputStreamReader(in, cd);
Copier après la connexion

S'il n'y a pas de correspondance à ce moment-là, lève une exception  :

java.nio.charset.MalformedInputException: Input length = 1
    at java.nio.charset.CoderResult.throwException(CoderResult.java:277)
    at sun.nio.cs.StreamDecoder.implRead(StreamDecoder.java:338)
    at sun.nio.cs.StreamDecoder.read(StreamDecoder.java:177)
        ....
Copier après la connexion

De cette façon, il peut être utilisé comme détection de jeu de caractères.

2. Utilisation d'AutoCharsetReader

AutoCharsetReader est une classe écrite sur la base des principes ci-dessus et en référence à InputStreamReader hérite de <. 🎜>Reader , peut être vu comme InputStreamReader adaptatif Charset.

AutoCharsetReader ar= new AutoCharsetReader(in);char c = ar.read();
...char[] cbuf = new char[2000];
ar.read(cbuf);
...
BufferedReader br = new BufferedReader(ar);
br.readLine();
...
Copier après la connexion

Un autre exemple est TextField de Lucene qui crée un

index en texte intégral qui nécessite un paramètre Reader. Vous pouvez utiliser cette classe. directement :

Field field = new TextField("content", new AutoCharsetReader(file));
Copier après la connexion

Après avoir lu le fichier, vous pouvez obtenir le jeu de caractères du fichier. Attention, c'est après lecture.

Charset charset = ar.charset();
Copier après la connexion

3. Jeu de caractères alternatif

En raison de l'utilisation de plusieurs tente de finaliser le jeu de caractères, des alternatives doivent donc être fournies. Les jeux de caractères alternatifs par défaut fournis par le code actuel sont les suivants :

    private final static String[] _defaultCharsets = {        
            "US-ASCII",            "UTF-8",            "GB2312", 
            "BIG5",            "GBK",            "GB18030",                
            "UTF-16BE", 
            "UTF-16LE", 
            "UTF-16",            "UNICODE"};
Copier après la connexion

Des méthodes pour modifier le jeu de caractères alternatif sont également fournies. Par exemple :

AutoCharsetReader ar = new AutoCharsetReader(in).setCharset("ascii", "utf-8", "gbk");
Copier après la connexion

L'ordre affectera les résultats de détection. Par exemple, si GBK est antérieur à GB2312, le résultat de la détection ne peut être que GBK, et non GB2312, car GBK contient GB2312.

4. Uniquement pour la détection du jeu de caractères

peut être utilisé uniquement pour la détection du jeu de caractères :

charset = AutoCharsetReader.quickDetect(file.toURI().toURL(), charsets);
or:
charset = AutoCharsetReader.deepDetect(file.toURI().toURL(), charsets, stops);
Copier après la connexion

quickDetect ne lit qu'un seul caractère et convient aux fichiers à jeu de caractères unique. Pour le HTML, vous devrez peut-être tout lire pour connaître le jeu de caractères, utilisez donc deepDetect. Le paramètre

charsets peut être null.

Si pour un ensemble de fichiers, les jeux de caractères possibles connus sont "ascii", "utf-8", "gb2312" et "gbk", lorsqu'il est détecté que le jeu de caractères d'un fichier est "utf-8" ou "gbk", le résultat peut être renvoyé immédiatement sans continuer la lecture du fichier. À ce stade, vous pouvez attribuer le paramètre

stops à {"utf-8", "gbk"}. S'il est null, vous devez tout lire.

5. Autres

Afin d'améliorer l'efficacité, cette classe dispose d'un tampon Si le décodage du jeu de caractères initial échoue, il n'y en a pas. il faut relire io. La taille du tampon par défaut est 8192. Vous pouvez

définir vous-même la taille du tampon lors de la construction de l'objet Si le paramètre est inférieur à 16, définissez-le sur 16.


Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Numéro de Smith en Java Numéro de Smith en Java Aug 30, 2024 pm 04:28 PM

Guide du nombre de Smith en Java. Nous discutons ici de la définition, comment vérifier le numéro Smith en Java ? exemple avec implémentation de code.

Questions d'entretien chez Java Spring Questions d'entretien chez Java Spring Aug 30, 2024 pm 04:29 PM

Dans cet article, nous avons conservé les questions d'entretien Java Spring les plus posées avec leurs réponses détaillées. Pour que vous puissiez réussir l'interview.

Break or Return of Java 8 Stream Forach? Break or Return of Java 8 Stream Forach? Feb 07, 2025 pm 12:09 PM

Java 8 présente l'API Stream, fournissant un moyen puissant et expressif de traiter les collections de données. Cependant, une question courante lors de l'utilisation du flux est: comment se casser ou revenir d'une opération FOREAK? Les boucles traditionnelles permettent une interruption ou un retour précoce, mais la méthode Foreach de Stream ne prend pas directement en charge cette méthode. Cet article expliquera les raisons et explorera des méthodes alternatives pour la mise en œuvre de terminaison prématurée dans les systèmes de traitement de flux. Lire plus approfondie: Améliorations de l'API Java Stream Comprendre le flux Forach La méthode foreach est une opération terminale qui effectue une opération sur chaque élément du flux. Son intention de conception est

Horodatage à ce jour en Java Horodatage à ce jour en Java Aug 30, 2024 pm 04:28 PM

Guide de TimeStamp to Date en Java. Ici, nous discutons également de l'introduction et de la façon de convertir l'horodatage en date en Java avec des exemples.

Programme Java pour trouver le volume de la capsule Programme Java pour trouver le volume de la capsule Feb 07, 2025 am 11:37 AM

Les capsules sont des figures géométriques tridimensionnelles, composées d'un cylindre et d'un hémisphère aux deux extrémités. Le volume de la capsule peut être calculé en ajoutant le volume du cylindre et le volume de l'hémisphère aux deux extrémités. Ce tutoriel discutera de la façon de calculer le volume d'une capsule donnée en Java en utilisant différentes méthodes. Formule de volume de capsule La formule du volume de la capsule est la suivante: Volume de capsule = volume cylindrique volume de deux hémisphères volume dans, R: Le rayon de l'hémisphère. H: La hauteur du cylindre (à l'exclusion de l'hémisphère). Exemple 1 entrer Rayon = 5 unités Hauteur = 10 unités Sortir Volume = 1570,8 unités cubes expliquer Calculer le volume à l'aide de la formule: Volume = π × r2 × h (4

PHP vs Python: comprendre les différences PHP vs Python: comprendre les différences Apr 11, 2025 am 12:15 AM

PHP et Python ont chacun leurs propres avantages, et le choix doit être basé sur les exigences du projet. 1.Php convient au développement Web, avec une syntaxe simple et une efficacité d'exécution élevée. 2. Python convient à la science des données et à l'apprentissage automatique, avec une syntaxe concise et des bibliothèques riches.

PHP: un langage clé pour le développement Web PHP: un langage clé pour le développement Web Apr 13, 2025 am 12:08 AM

PHP est un langage de script largement utilisé du côté du serveur, particulièrement adapté au développement Web. 1.Php peut intégrer HTML, traiter les demandes et réponses HTTP et prend en charge une variété de bases de données. 2.PHP est utilisé pour générer du contenu Web dynamique, des données de formulaire de traitement, des bases de données d'accès, etc., avec un support communautaire solide et des ressources open source. 3. PHP est une langue interprétée, et le processus d'exécution comprend l'analyse lexicale, l'analyse grammaticale, la compilation et l'exécution. 4.PHP peut être combiné avec MySQL pour les applications avancées telles que les systèmes d'enregistrement des utilisateurs. 5. Lors du débogage de PHP, vous pouvez utiliser des fonctions telles que error_reportting () et var_dump (). 6. Optimiser le code PHP pour utiliser les mécanismes de mise en cache, optimiser les requêtes de base de données et utiliser des fonctions intégrées. 7

Créer l'avenir : programmation Java pour les débutants absolus Créer l'avenir : programmation Java pour les débutants absolus Oct 13, 2024 pm 01:32 PM

Java est un langage de programmation populaire qui peut être appris aussi bien par les développeurs débutants que par les développeurs expérimentés. Ce didacticiel commence par les concepts de base et progresse vers des sujets avancés. Après avoir installé le kit de développement Java, vous pouvez vous entraîner à la programmation en créant un simple programme « Hello, World ! ». Une fois que vous avez compris le code, utilisez l'invite de commande pour compiler et exécuter le programme, et « Hello, World ! » s'affichera sur la console. L'apprentissage de Java commence votre parcours de programmation et, à mesure que votre maîtrise s'approfondit, vous pouvez créer des applications plus complexes.

See all articles