Maison développement back-end tutoriel php php UTF-8、Unicode和BOM问题_php技巧

php UTF-8、Unicode和BOM问题_php技巧

May 17, 2016 am 09:25 AM
bom unicode utf-8

一、介绍

UTF-8 是一种在web应用中经常使用的一种 Unicode 字符的编码方式,使用 UTF-8 的好处在于它是一种变长的编码方式,对于 ANSII 码编码长度为1个字节,这样的话在传输大量 ASCII 字符集的网页时,可以大量节约网络带宽。
UTF-8签名(UTF-8 signature)也叫做BOM(Byte Order Mark),是UTF编码方案里用于标识编码的标准标记。BOM,是UTF编码方案里用于标识编码的标准标记,在UTF-16里本来是FF FE,变成UTF-8就成了EF BB BF。这个标记是可选的,因为UTF8字节没有顺序,所以它可以被用来检测一个字节流是否是UTF-8编码的。微软做这种检测,但有些软件不做这种检测,而把它当作正常字符处理。微软在自己的UTF-8格式的文本文件之前加上了EF BB BF三个字节, windows上面的notepad等程序就是根据这三个字节来确定一个文本文件是ASCII的还是UTF-8的, 然而这个只是微软暗自作的标记, 其它平台上并没有对UTF-8文本文件做个这样的标记。也就是说一个UTF-8文件可能有BOM,也可能没有BOM。
只有一个BOM,是不会有问题的。如果多个文件设置了签名,在二进制流中就会包含多个UTF-8签名,也就是导致XML转换失败的"root element must be well-formed"原因。

二、查看和转换

既然一个UTF-8文件可能有BOM,也可能没有,那该如何区分呢?
只要用带十六进制编辑方式的软件,例如,用UltraEdit-32打开文件,切换到十六进制编辑模式,察看文件头部是否有EF BB BF。有,则为带BOM方式。
Windows自带的notepad记事本,保存为UTF-8时,默认就带BOM。
转换的方法有很多,常见的UltraEdit-32或NotePad++都可以,以UltraEdit-32为例。打开文件后,选择“另存为”,在“格式”一栏中有如下选择:

php UTF-8、Unicode和BOM问题_php技巧

另外,DreamWeaver CS3也有类似的选项,在“首选项”中,如果选择 Unicode (UTF-8) 作为默认编码,则可以选择“包括 Unicode 签名 (BOM)”选项,以在文档中包括字节顺序标记 (BOM)。否则,不带BOM:
php UTF-8、Unicode和BOM问题_php技巧
三、其他知识
http://blog.csdn.net/thimin/archive/2007/08/03/1724393.aspx 一文了解到:
所谓的unicode保存的文件实际上是utf-16,只不过恰好跟unicode的码相同而已,但在概念上unicode与utf是两回事,unicode是内存编码表示方案,而utf是如何保存和传输unicode的方案。utf-16还分高位在前 (LE)和高位在后(BE)两种。官方的utf编码还有utf-32,也分LE和BE。非unicode官方的utf编码还有utf-7,主要用于邮件传输。utf-8的单字节部分是和iso-8859-1兼容的,这主要是一些旧的系统和库函数不能正确处理utf-16而被迫出来的,而且对英语字符来说,也节省保存的文件空间(以非英语字符浪费空间为代价)。在iso-8859-1的时候,utf8和iso-8859-1都是用一个字节表示的,当表示其它字符的时候,utf-8会使用两个或三个字节。

一段关于BOM的更详细说明,来自这里
在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符,它的编码是FEFF。而FFFE在UCS中是不存在的字符,所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前,先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如果接收者收到FEFF,就表明这个字节流是Big-Endian的;如果收到FFFE,就表明这个字节流是Little-Endian的。因此字符"ZERO WIDTH NO-BREAK SPACE"又被称作BOM。
UTF-8不需要BOM来表明字节顺序,但可以用BOM来表明编码方式。字符"ZERO WIDTH NO-BREAK SPACE"的UTF-8编码是EF BB BF。所以如果接收者收到以EF BB BF开头的字节流,就知道这是UTF-8编码了。
Windows就是使用BOM来标记文本文件的编码方式的。

PHP也不支持BOM。
PHP在设计时就没有考虑BOM的问题,也就是说他不会忽略UTF-8编码的文件开头BOM的那三个字符。由于必须在※ 补充一句:特别是当使用php导入模板的时候,更容易因为这三个字符,导致浏览异常。
Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Compréhension approfondie de PHP : méthode d'implémentation de conversion de JSON Unicode en chinois Compréhension approfondie de PHP : méthode d'implémentation de conversion de JSON Unicode en chinois Mar 05, 2024 pm 02:48 PM

Compréhension approfondie de PHP : méthode d'implémentation de conversion de JSONUnicode en chinois Au cours du développement, nous rencontrons souvent des situations où nous devons traiter des données JSON, et l'encodage Unicode en JSON nous posera quelques problèmes dans certains scénarios, en particulier lorsqu'Unicode doit être converti Lorsque l'encodage est converti en caractères chinois. En PHP, certaines méthodes peuvent nous aider à réaliser ce processus de conversion. Une méthode courante sera présentée ci-dessous et des exemples de code spécifiques seront fournis. Tout d’abord, comprenons d’abord le Un en JSON

Comment convertir Unicode en chinois Comment convertir Unicode en chinois Dec 14, 2023 am 10:57 AM

Unicode est une norme de codage de caractères utilisée pour représenter diverses langues et symboles. Pour convertir le codage Unicode en caractères chinois, vous pouvez utiliser les fonctions intégrées de Python chr() et ord().

Essayez la méthode pour résoudre le problème des caractères chinois tronqués dans Eclipse Essayez la méthode pour résoudre le problème des caractères chinois tronqués dans Eclipse Jan 03, 2024 pm 05:28 PM

Êtes-vous gêné par les caractères chinois tronqués dans Eclipse ? Pour essayer ces solutions, vous avez besoin d'exemples de code spécifiques. 1. Introduction générale Avec le développement continu de la technologie informatique, le chinois joue un rôle de plus en plus important dans le développement de logiciels. Cependant, de nombreux développeurs rencontrent des problèmes de code tronqué lorsqu'ils utilisent Eclipse pour le développement chinois, ce qui affecte l'efficacité du travail. Ensuite, cet article présentera quelques problèmes courants de code tronqué et donnera les solutions correspondantes et des exemples de code pour aider les lecteurs à résoudre le problème du code tronqué chinois dans Eclipse. 2. Problèmes courants de code tronqué et fichiers de solutions

Tutoriel PHP : Comment convertir JSON Unicode en caractères chinois Tutoriel PHP : Comment convertir JSON Unicode en caractères chinois Mar 05, 2024 pm 06:36 PM

JSON (JavaScriptObjectNotation) est un format d'échange de données léger couramment utilisé pour l'échange de données entre applications Web. Lors du traitement des données JSON, nous rencontrons souvent des caractères chinois codés Unicode (tels que « u4e2du6587 ») et devons les convertir en caractères chinois lisibles. En PHP, nous pouvons réaliser cette conversion grâce à quelques méthodes simples. Ensuite, nous détaillerons comment convertir JSONUnico

Que sont les objets dom et bom ? Que sont les objets dom et bom ? Nov 13, 2023 am 10:52 AM

Il existe 5 objets DOM dont « document », « élément », « nœud », « événement » et « fenêtre » 2. « fenêtre », « navigateur », « emplacement » et « historique » et « écran » et 5 autres ; types d'objets de nomenclature.

Quelle est la différence entre bom et dom Quelle est la différence entre bom et dom Nov 13, 2023 pm 03:23 PM

BOM et DOM sont différents en termes de rôle et de fonction, de relation avec JavaScript, d'interdépendance, de compatibilité des différents navigateurs et de considérations de sécurité. Introduction détaillée : 1. Rôle et fonction. La fonction principale de BOM est de faire fonctionner la fenêtre du navigateur. Il fournit un accès et un contrôle directs à la fenêtre du navigateur, tandis que la fonction principale de DOM est de convertir le document Web en une arborescence d'objets. les développeurs doivent utiliser cette arborescence d'objets pour obtenir et modifier les éléments et le contenu de la page Web ; 2. Relation avec JavaScript, etc.

Résoudre le problème de l'encodage incohérent du jeu de caractères Unicode lorsque Java se connecte à la base de données MySQL Résoudre le problème de l'encodage incohérent du jeu de caractères Unicode lorsque Java se connecte à la base de données MySQL Jun 10, 2023 am 11:39 AM

Avec le développement de technologies telles que le Big Data et le Cloud Computing, les bases de données sont devenues l’une des pierres angulaires de l’informatisation des entreprises. Dans les applications développées en Java, la connexion à la base de données MySQL est devenue la norme. Cependant, dans ce processus, nous rencontrons souvent un problème épineux : un codage de jeu de caractères Unicode incohérent. Cela affectera non seulement notre efficacité de développement, mais également les performances et la stabilité de l'application. Cet article explique comment résoudre ce problème et permettre à Java de se connecter plus facilement à la base de données MySQL. 1.Unicode

Quelles sont les différences entre Unicode et Ascii Quelles sont les différences entre Unicode et Ascii Sep 06, 2023 am 11:56 AM

Les différences entre Unicode et Ascii incluent différentes plages de codage, différents espaces de stockage et différentes compatibilités. Introduction détaillée : 1. La plage de codage de l'ASCII est 0-127, qui est principalement utilisée pour représenter les lettres anglaises. La plage de codage de l'Unicode est beaucoup plus large et peut représenter presque tous les caractères de langue ; l'espace est différent. ASCII utilise généralement 1 octet pour stocker un caractère, tandis qu'Unicode peut utiliser 2 octets ou plus pour stocker un caractère 3. Compatibilité différente, etc.

See all articles