ホームページ > バックエンド開発 > PHPチュートリアル > PHP 文字列エンコードの問題の分析

PHP 文字列エンコードの問題の分析

WBOY
リリース: 2016-07-25 08:59:48
オリジナル
1181 人が閲覧しました
  1. $encoding = mb_detect_encoding($string, array("ASCII",'UTF-8',"GB2312',"GBK",'BIG5'));
コードをコピーします

次に: mb_substr ( string $str , int $start [, int $length [, string $encoding ]] )

mb_substr を自分で実装する場合、効率はあまり良くありません。

エンコード関連のPHP関数の使用法 ord(substr($str, $i, 1)) > 0xa0)

ord($string) は、文字列の最初の文字の ASC コードを返します。これは、インターセプトされた文字列の最初の文字が中国語かどうかを判断するために使用できます。たとえば、gb2312 でエンコードされたテキストは 2 バイトであるためです。 utf8 は 3 文字です。つまり、256 を超えるコードはすべて漢字です。

通常のキャラクター:

  1. 中国語の文字と一致する: preg_match_all('/[x80-xff]?./', $string, $match);
  2. 英語と一致する: preg_match_all("/[/x01-/x7f]+/", $ string, $match);
コードをコピー

エンコーディング変換

  1. iconv ( string $in_charset , string $out_charset , string $str )
  2. GB2312 から UTF-8 への例: iconv("GB2312","UTF-8",$text)
コードをコピー

URL エンコード urlencode

エンコード後に返される文字列内の -_ を除くすべての非英数字は、パーセント記号 (%) とその後に続く 2 つの 16 進数に置き換えられ、スペースはプラス記号 (+) としてエンコードされます。このエンコーディングは、WWW フォーム POST データのエンコーディングと同じであり、application/x-www-form-urlencoded メディア タイプと同じエンコーディングです。

注: エンコード時には URL の一部のみをエンコードする必要があります。そうでない場合は、URL 内のコロンとバックスラッシュもエスケープされます。

URLEncode には一般的に 2 つの方式があり、1 つは GB2312 に基づいた従来の Encode で、もう 1 つは UTF-8 に基づいた Encode です。 例えば:

  1. $url = '中国';
  2. echo urlencode($url );
  3. //UTF-8: %E4%B8%AD%E5%9B%BD
  4. //GB2312:%D6%D0% B9%FA
コードをコピー

たとえば、ブラウザを使用して Baidu を開き、アドレス バーに「中国」を検索します。 http://www.baidu.com/s?wd=%E4%B8%AD%E5%9B%BD&rsv_bp=0&ch=&tn=baidu&bar=&rsv_spt=3&ie=utf-8&rsv_sug3=16&rsv_sug=0&rsv_sug4=302&rsv_sug1=11&inputT=22928

つまり、「中国」はブラウザによって自動的に %E4%B8%AD%E5%9B%BD に変換されることがわかります。 urlencode と rawurlencode の違い: urlencode はスペースをプラス記号 "+" としてエンコードし、rawurlencode はスペースをプラス記号 "%20" としてエンコードします。

URLデコードurldecodeとrawurldecode 1. デコードするときは、対応する urldecode() と rawurldecode() を使用できます。同様に、rawurldecode() はプラス記号 ('+') をスペースにデコードできません。 2. urldecode() および rawurldecode() によってデコードされた文字列は UTF-8 形式でエンコードされます。URL に UTF-8 以外でエンコードされた中国語が含まれている場合は、デコードされた文字列を変換する必要があります。 以下のように、まずphpファイルをgb2312エンコーディングに設定します。一部は文字化けしており、一部は正常であることがわかります。

  1. $url = '中国';
  2. echo $a = urldecode(urlencode($url)) ,' ';
  3. echo iconv('gb2312', 'utf-8', $a);
  4. ? ©?中国
コードをコピー


関連ラベル:
ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート