首页 后端开发 php教程 php汉字编码转换方法精讲

php汉字编码转换方法精讲

Jul 25, 2016 am 08:53 AM

本文介绍了php中汉字编码转换的一些知识,分析了php编码转换的原理与方法,有需要的朋友参考下。

有关对mysql4.1字符集的理解,再讲述如何php如何适应mysql的这种变化。 同样适用于mysql5及以上的版本。

一.原理篇 mysql的字符集里有两个概念,一个是“character set(字符集)”,另一个是“collations”。 1. collations collations翻成中文是“校验”,在网页开发的过程中,这个词汇,只在mysql里使用,主要作用是指导mysql对字符的比较,比如, ascii字符集里,collations规定了a小于b,a等于a,以及a是否等于a之类的。通常,大家基本可以忽略collations的存在,因为每个字符集都有一个默认的collations,通常,使用默认的collations就可以了。 2.字符集 与这对比的是,字符集是个更广的概念,即使是windows下普通的文本文件,也渗及到字符集的问题。不同的字符集,规定了不同的字符的编码方式。一个 character set (字符集)是一组符号和编码,比如,ascii字符集,包括的字符有:数字,大小写字母,分号、换行之类的符号,编码方式是用一个7bit表示一个字符(a的编码是65,b的编码是98)。ascii只规定了英文字母的编码,非英文语言不能用ascii编码表示,为此,不同的国家,都为自己的语言做了编码,比如,我们国家,就有gb2312编码。但每个国家之间的编码不同,也存在着一些跨平台的问题,为此,一些国际化标准组织,就制定了一些国际通用的编码,最常用的就是utf8了。ascii只对英文符号和英文字母做了编码,gb2312对英文符号,英文字母,汉字做了编码,utf8对世界上所有的语言文字做了编码,所以,gb1212的字符包含了ascii字符,utf8包含了gb2312字符。由此可见,utf8是所含最广字符的字符集,所以,在一些多语言的web系统中,一般用utf8字符集(phpmyadmin使用utf8编码)。 任何文本的存储,都渗及到字符集的概念。包括数据库,也包括普通的文本文件。

主要术语: 字符:汉字,英文字母,标点符号,拉丁文等等。 编码:将字符转换成计算机存储的格式,比如,a用65表示。 字符集:一组字符以及对应的编码方式。 a. mysql的字符集 mysql目前支持多字符集,并且,支持在不同的字符集之间转换(便于移植和支持多语言)。 mysql可以设置服务器级字符集、数据库级字符集、数据表级字符集、表列的字符集,实际上,最终使用字符集的地方是存储字符的列,比如,你设置 table1中col1列是字符类型,col1才用到了字符集,如果table1表的col2列是int类型,col2不使用字符集的概念。 服务器级字符集、数据库级字符集、数据表级字符集都是为列的字符集做默认选项的。 mysql一定有一个字符集,可以通过启动时加参数指定,也可以编译时指定,也可以在配置文件里指定。mysql服务器字符集,只是做为数据库级的默认值。创建数据库时,你可以指定字符集,如果没指定,就使用服务器的字符集。同理,创建表时,你可以指定表级的字符集,如果没指定,使用数据库的字符集做为表的字符集。创建列时,你可以指定某列的字符集,如果没指定,就使用表的字符集。 通常情况下,您只需设置服务器级的字符集,其它的数据库级,表级,以及列级的字符集,都继承自服务器级字符集。 由于utf8是最广的字符集,所以,一般情况下,我们设置mysql服务器级的字符集为utf8!

b. 普通文本的字符集问题 任何文本的存储,都存在着字符集的问题,普通文本文件也不例外。 windows2000+的系统中,打开记事本,“保存为…”对话框,就有一个选项,可以让你选择存储文本的编码方式。 通常情况下,大家都使用windows2000+的系统,都使用默认的编码,所以,不会碰到字符集的问题。 windows下,保存文本文件时,可以选择编码方式,但打开文本文件时,都是自动判断编码方式的。网上有一个用windows2000+的记事本玩移动,联通的笑话,大家可以搜搜,就是因为windows在打开文本文件时,编码判断错误引起的问题。 因为自动判断编码有时会错误,所以,有的文本文件,规定了如何识别自身所使用的编码。html文件就是一个这样的例子。 html是文本文件。存储html文件的时候,需要使用一个编码,并且,在html文件里,也使用html语法,指定了该文件所使用的编码(比如)。如果html文件没有指定编码,则浏览器自动识别文件的编码。如果html指定了编码,则浏览器使用html指定的编码。 通常情况下,html文件指定的charset和html文件自身的编码是一致的,但也有不一致的情况,如果不一致,就会导致网页乱码(此处乱码,只和文本文件有关,和数据库无关。)使用专门的网页编辑工具(比如dreamwave),会自动根据网页中的charset值来编码文件。

c. php+mysql的字符集问题 php最终生成的是文本文件,但他要取数据库里的文本,或将文本存进数据库。 由于mysql支持多字符集,默认情况下,mysql不知道php发给他的是什么编码的字符,所以,mysql要求客户端(php)告诉他存取的字符集是什么。 php通过设置character_set_client,告诉mysql,php存进数据库的是什么编码方式。 php通过设置character_set_results,告诉mysql,php需要取什么样编码的数据。 php通过设置character_set_connection,告诉mysql,php查询中的文本,使用什么编码。 mysql使用设置的编码方式存储文本。 假设mysql使用setserver来存储文本,php的character_set_client是setclient,php的 character_set_results是setresult。那么,mysql将php发来的文本,从setclient编码方式,转换成 setserver编码方式,再存入数据库,如果php取文本,mysql将文本从setserver转换成setresult,再发送给php。 php文件(最终生成的html文件)本身有个编码,如果mysql传过来的编码,与php文件自身的编码不同,那么,整个网页,必然乱码。所以,php一般将自己的编码方式,告诉mysql。 要保证不乱码,就必须将三个编码统一:一是网页自身的编码,二是html里指定的编码,三是php告诉mysql的编码(包括character_set_client和character_set_results)。 第一和第二个编码,如果使用dw之类的编辑器写的网页,通常是一致的,但用记事本写的网页,有可能不一致。 第三个编码,需要手工通知mysql。这步可以通过在php里使用mysql_query(“set names characterx”)来实现。

d.字符集的转换问题 如果小字集转换成大字符集,不会丢失数据,但大字集,转换成小字集,可能会丢失数据。 比如,utf8里有的字符,gb2312不一定有,所以,从utf8转换到gb2312可能会丢失一些字符。 但有种情况例外,先从gb2312转成utf8,再从utf8转成gb2312,这种情况是不会丢数据的,因为,刚开始转换的文本,都是gb2312里的字符,所以,整个过程都是gb2312的字符在转换,不会丢失。 正因为utf8能容纳世界上的所有字符,所以,数据库一般使用utf8编码。这使得,任何字符都可以存进utf8编码的数据库。

e. phpmyadmin乱码的问题 phpmyadmin支持多国语言,这就必定要求html页面使用utf8编码。 html页面使用utf8编码,这就必定要求phpmyadmin连接mysql时,character_set_client和character_set_results使用utf8编码。 当前情况下,php连接mysql只能是使用set names(或其它几个语句)来通知mysql的编码方式,如果没有显式的声明编码方式,都将使用latin1编码。一般的程序,都没有显式声明 character_set_client变量,所以,都是将gb2312文本,按latin1编码方式存在数据库,phpmyadmin再用utf8格式读取,肯定是乱码的。 如果php程序按正确的编码存入数据库,肯定是没有问题的。所以,需要修改的不是phpmyadmin.(虽然有时修改phpmyadmin可以解决乱码问题,但这不是问题的根本)

二.总结篇

1.数据库尽量使用utf8存储(修改/etc/my.cnf,在[mysqld]段加上default-character-set=utf8) (已有的数据库,先转成utf8格式) 2.php程序在查询数据库之前,执行mysql_query(“set names xxxx”);其中xxxx是你网页的编码(charset=xxxx),如果网页中charset=utf8,则xxxx=utf8,如果网页中 charset=gb2312,则xxxx=gb2312,如果网页中的charset=ipaddr,则xxxx=ipaddr (开个玩笑,没这编码) 几乎所有web程序,都有一段连接数据库的公共代码,放在一个文件里,在这文件里,加入mysql_query(“set names”)就可以了。 3.phpmyadmin不需要做改动。 4.注意,为保证网页实际编码(windows保存对话框里的编码)和他声明的编码(charset=?)是一致的,请用dw之类的工具做网页。



本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

AI Hentai Generator

AI Hentai Generator

免费生成ai无尽的。

热门文章

R.E.P.O.能量晶体解释及其做什么(黄色晶体)
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.最佳图形设置
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O.如果您听不到任何人,如何修复音频
3 周前 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25:如何解锁Myrise中的所有内容
4 周前 By 尊渡假赌尊渡假赌尊渡假赌

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

在Laravel中使用Flash会话数据 在Laravel中使用Flash会话数据 Mar 12, 2025 pm 05:08 PM

Laravel使用其直观的闪存方法简化了处理临时会话数据。这非常适合在您的应用程序中显示简短的消息,警报或通知。 默认情况下,数据仅针对后续请求: $请求 -

php中的卷曲:如何在REST API中使用PHP卷曲扩展 php中的卷曲:如何在REST API中使用PHP卷曲扩展 Mar 14, 2025 am 11:42 AM

PHP客户端URL(curl)扩展是开发人员的强大工具,可以与远程服务器和REST API无缝交互。通过利用Libcurl(备受尊敬的多协议文件传输库),PHP curl促进了有效的执行

简化的HTTP响应在Laravel测试中模拟了 简化的HTTP响应在Laravel测试中模拟了 Mar 12, 2025 pm 05:09 PM

Laravel 提供简洁的 HTTP 响应模拟语法,简化了 HTTP 交互测试。这种方法显着减少了代码冗余,同时使您的测试模拟更直观。 基本实现提供了多种响应类型快捷方式: use Illuminate\Support\Facades\Http; Http::fake([ 'google.com' => 'Hello World', 'github.com' => ['foo' => 'bar'], 'forge.laravel.com' =>

在Codecanyon上的12个最佳PHP聊天脚本 在Codecanyon上的12个最佳PHP聊天脚本 Mar 13, 2025 pm 12:08 PM

您是否想为客户最紧迫的问题提供实时的即时解决方案? 实时聊天使您可以与客户进行实时对话,并立即解决他们的问题。它允许您为您的自定义提供更快的服务

解释PHP中晚期静态结合的概念。 解释PHP中晚期静态结合的概念。 Mar 21, 2025 pm 01:33 PM

文章讨论了PHP 5.3中引入的PHP中的晚期静态结合(LSB),从而允许静态方法的运行时分辨率调用以获得更灵活的继承。 LSB的实用应用和潜在的触摸

框架安全功能:防止漏洞。 框架安全功能:防止漏洞。 Mar 28, 2025 pm 05:11 PM

文章讨论了框架中的基本安全功能,以防止漏洞,包括输入验证,身份验证和常规更新。

在PHP API中说明JSON Web令牌(JWT)及其用例。 在PHP API中说明JSON Web令牌(JWT)及其用例。 Apr 05, 2025 am 12:04 AM

JWT是一种基于JSON的开放标准,用于在各方之间安全地传输信息,主要用于身份验证和信息交换。1.JWT由Header、Payload和Signature三部分组成。2.JWT的工作原理包括生成JWT、验证JWT和解析Payload三个步骤。3.在PHP中使用JWT进行身份验证时,可以生成和验证JWT,并在高级用法中包含用户角色和权限信息。4.常见错误包括签名验证失败、令牌过期和Payload过大,调试技巧包括使用调试工具和日志记录。5.性能优化和最佳实践包括使用合适的签名算法、合理设置有效期、

See all articles