目次
PHPはUnicodeとUtf-8エンコーディング間の変換をどのように実現しますか? unicodeutf-8
ホームページ バックエンド開発 PHPチュートリアル PHP で Unicode と Utf-8 エンコーディングを変換する方法、unicodeutf-8_PHP チュートリアル

PHP で Unicode と Utf-8 エンコーディングを変換する方法、unicodeutf-8_PHP チュートリアル

Jul 13, 2016 am 09:45 AM
php unicode utf8

PHPはUnicodeとUtf-8エンコーディング間の変換をどのように実現しますか? unicodeutf-8

最近たまたまUnicodeエンコーディングを変換する必要があったので、PHPのライブラリ関数を確認しましたが、それを実現する関数は見つかりませんでした。 Unicode のエンコーディングとデコーディングを変換できます。まあ、それが見つからない場合は、自分で実装してください。 。 。
Unicode と Utf-8 エンコーディングの違い

Unicode は文字セットであり、UTF-8 は Unicode の 1 つであり、Unicode は固定長であり 2 バイトですが、UTF-8 は中国語文字の場合、UTF-8 の 1 バイトよりも多くのバイトを占有します。少ない。 Unicode は 2 バイトですが、UTF-8 の中国語文字は 3 バイトを占めます。
UTF-8 でエンコードされた文字の長さは理論的には最大 6 バイトですが、16 ビット BMP (Basic Multilingual Plane) 文字の長さは最大 3 バイトのみです。 UTF-8 エンコーディング テーブルを見てみましょう:

U-00000000 - U-0000007F: 0xxxxxxx
U-00000080 - U-000007FF: 110xxxxx 10xxxxxx
U-00000800 - U-0000FFFF: 1110xxxx 10xxxxxx 10xxxxxx
U-00010000 - U-001FFFFF: 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
U-00200000 - U-03FFFFFF: 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
U-04000000 - U-7FFFFFFF: 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

xxx の位置は、文字エンコーディング番号のバイナリ表現によって埋められます。右側にある x は、文字エンコーディング番号のマルチバイト文字列を表すためにあまり特別な意味を持ちません。 マルチバイト文字列では、最初のバイトの先頭にある「1」の数が文字列全体のバイト数になることに注意してください。最初の行は ASCII エンコードと互換性があるように 0 で始まり、1 バイト、2 行目は 2 バイト文字列、3 行目は中国語などの 3 バイトです。 (個人的な意見:実際には、単純に先頭の1の数をバイト数とみなして大丈夫です)

Unicode を Utf-8 に変換する方法

Unicode を UTF-8 に変換するには、もちろん違いが何であるかを知る必要があります。 Unicode のエンコーディングが UTF-8 にどのように変換されるかを見てみましょう。UTF-8 では、文字のバイトが 0x80 (128) 未満の場合、それは 1 バイトを占める ASCII 文字となり、変換は行われません。 UTF-8 は ASCII エンコードと互換性があるため、必要です。 Unicode の漢字「君」のエンコードが「u4F60」の場合、100111101100000 にバイナリ変換し、UTF-8 方式で変換します。 Unicode バイナリから 2 進数を下位から上位まで、一度に 6 ビットずつ取り出すことができます。たとえば、上記のバイナリを以下に示す形式に取り出すことができます。以前のバイナリは、形式に従って埋められます。 8 ビット以上は 0 で埋められます。

ユニコード: 100111101100000 4F60

utf-8: 11100100,10111101,10100000 E4BDA0

上記から、Unicode と UTF-8 の間の変換が直感的にわかります。もちろん、UTF-8 の形式を理解した後は、バイナリ内の対応する位置でそれを取り出すという逆の操作を実行できます。形式に従って変換され、結果として Unicode 文字が得られます (この操作は「置換」によって完了できます)。例えば、上記の「you」の変換では、その値が0x800より大きく0x10000未満であるため、3バイト格納と判断でき、最上位ビットを「12」だけ右にシフトする必要があります。ビットを取得し、3 バイト形式に従って、最高値を取得するには最上位ビットは 11100000 (0xE0 ) または (|) になります。同様に、2桁目を右に「6」ビットシフトし、最上位桁と2桁目の2進数値を左に置き、111111(0x3F)と位置(&)演算を行うことで計算できます。 )、11000000 (0x80) または (|) で合計されます。 3 番目のビットをシフトする必要はなく、最後の 6 ビットを直接取得し (& と 111111 (ox3F))、その後 11000000 (0x80) と OR (|) を演算します。

Utf-8 を Unicode に変換する方法

もちろん、UTF-8からUnicodeへの変換も、UTF-8形式の対応する位置にある2進数を抽出するシフト等によって行われます。上の例では、「you」は 3 バイトであるため、上位ビットから下位ビットまで各バイトを処理する必要があります。 UTF-8 では、「あなた」は 11100100,10111101,10100000 です。上位ビットから始めて、最初のバイト 11100100 から「0100」を取り出します。これは 11111 (0x1F) との AND (&) を取得するだけで、最上位の位置がわかります。毎回 6 桁が取得されるため、12 ビット目より前に置く必要があります。したがって、得られた結果は 12 ビット左にシフトする必要があり、最上位ビットは 0100,000000,000000 になります。 2 番目のビットは「111101」を取り出すため、2 番目のバイト 10111101 と 111111 (0x3F) を AND (&) するだけで済みます。結果を 6 ビット左にシフトし、最上位バイトまたは (|) の結果を取得すると、2 番目のビットが完成し、結果は 0100,111101,000000 になります。同様に、最後の桁は 111111 (0x3F) と直接 AND (&) 演算され、次に前の結果と OR (|) 演算されて、結果 0100,111101,100000 が得られます。

PHP コードの実装:

リーリー

テストしてみました

$utf8_str = '我';

//这是汉字“你”的Unicode编码
$unicode_str = '4f6b';

//输出 6211
echo utf8_str_to_unicode($utf8_str) . "<br/>";

//输出汉字“你”
echo unicode_str_to_utf8($unicode_str);

ログイン後にコピー

以上这些转换是针对中文汉字(非ASCII)的测试,并且只支持单个字符【一个完整的utf8字符或是一个完整的Unicode字符】互相转换,希望对大家的学习有所帮助。

www.bkjia.comtruehttp://www.bkjia.com/PHPjc/1039193.htmlTechArticlePHP如何实现Unicode和Utf-8编码相互转换,unicodeutf-8 最近恰好要用到unicode编码的转换,就去查了一下php的库函数,居然没找到一个函数可以对...
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Ubuntu および Debian 用の PHP 8.4 インストールおよびアップグレード ガイド Dec 24, 2024 pm 04:42 PM

PHP 8.4 では、いくつかの新機能、セキュリティの改善、パフォーマンスの改善が行われ、かなりの量の機能の非推奨と削除が行われています。 このガイドでは、Ubuntu、Debian、またはその派生版に PHP 8.4 をインストールする方法、または PHP 8.4 にアップグレードする方法について説明します。

PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 PHP 開発用に Visual Studio Code (VS Code) をセットアップする方法 Dec 20, 2024 am 11:31 AM

Visual Studio Code (VS Code とも呼ばれる) は、すべての主要なオペレーティング システムで利用できる無料のソース コード エディター (統合開発環境 (IDE)) です。 多くのプログラミング言語の拡張機能の大規模なコレクションを備えた VS Code は、

PHPでHTML/XMLを解析および処理するにはどうすればよいですか? PHPでHTML/XMLを解析および処理するにはどうすればよいですか? Feb 07, 2025 am 11:57 AM

このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

今まで知らなかったことを後悔している 7 つの PHP 関数 今まで知らなかったことを後悔している 7 つの PHP 関数 Nov 13, 2024 am 09:42 AM

あなたが経験豊富な PHP 開発者であれば、すでにそこにいて、すでにそれを行っていると感じているかもしれません。あなたは、運用を達成するために、かなりの数のアプリケーションを開発し、数百万行のコードをデバッグし、大量のスクリプトを微調整してきました。

JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 JSON Web Tokens(JWT)とPHP APIでのユースケースを説明してください。 Apr 05, 2025 am 12:04 AM

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

母音を文字列にカウントするPHPプログラム 母音を文字列にカウントするPHPプログラム Feb 07, 2025 pm 12:12 PM

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。 母音とは何ですか? 母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力:string = "tutorialspoint" 出力:6 説明する 文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

PHPでの後期静的結合を説明します(静的::)。 PHPでの後期静的結合を説明します(静的::)。 Apr 03, 2025 am 12:04 AM

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

PHPマジックメソッド(__construct、__destruct、__call、__get、__setなど)とは何ですか? PHPマジックメソッド(__construct、__destruct、__call、__get、__setなど)とは何ですか? Apr 03, 2025 am 12:03 AM

PHPの魔法の方法は何ですか? PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。

See all articles