コアポイント
、$a∩b
、$Ʃxy
)、$Δx
、およびその他の拡張機能がUnicode文字列を処理でき、mbstring
およびutf8_encode()
関数をUTFで使用できます。 -8とISO-8859-1エンコーディングの間に文字列を変換します。ただし、PHPにはユニコードサポートがないと広く信じられています。この記事では、Unicodeサポートの欠如の意味について説明し、PHPアプリケーションにUnicodeサポートをもたらすライブラリを使用する方法を示しています - ポータブルUTF -8。 utf8_decode()
php のユニコードサポート
PHPのユニコード/マルチバイトサポートの欠如は、標準の文字列処理関数が文字列を単一バイト文字シーケンスとして扱うことを意味します。実際、公式のPHPマニュアルでは、PHPの文字列を「一連のキャラクターであり、そのうちの1つはバイトと同じ」と定義しています。 PHPは8ビット文字のみをサポートしますが、Unicode(および他の多くの文字セット)は、文字を表すために複数のバイトを必要とする場合があります。このPHPの制限は、弦の操作のほぼすべての側面に影響を与えます。この問題を解決するための努力は2005年初頭に始まりましたが、2010年には、さまざまな理由でネイティブユニコードサポートをPHPにもたらす作業が停止され、保留されました。 PHPでのネイティブユニコードサポートは実装に何年もかかる場合があるため(そうであれば)、開発者はこのギャップを埋めるためにmbstring
やiconv
などの利用可能な拡張機能に依存する必要がありますが、これらの拡張機能は限られたユニコードサポートのみを提供します。これらのライブラリはユニコード中心ではなく、非ユニコードエンコーディング間で変換することもできます。ユニコード文字列処理を簡素化することにプラスの貢献をします。ただし、上記の拡張機能にはいくつかの欠点もあります。限られたユニコード文字列処理機能のみを提供し、デフォルトではそれらのどれも有効になっていません。サーバー管理者は、PHPアプリケーションを介して拡張機能の一部またはすべてを明示的に有効にする必要があります。共有ホスティングプロバイダーは、多くの場合、1つまたは2つの拡張機能をインストールすることで事態を悪化させることがよくあります。これにより、開発者がユニコードのニーズを満たすために常に利用可能なAPIに依存することが困難になります。それでも、良いニュースは、PHPがUnicodeテキストを出力できることです。これは、PHPがASCIIでエンコードされた英語のテキストを送信しているのか、それとも文字が複数のバイトでエンコードされている言語に属する他のテキストを送信しているのかを本当に気にしないためです。これを知っていると、PHP開発者は、快適なユニコードベースの文字列操作を提供するAPIのみが必要です。
ポータブルUTF-8
最近のソリューションは、PHPで記述されたユーザースペースライブラリを作成することです。サーバー/言語レベルにサポートがない場合でも、これらのライブラリをアプリケーションに簡単にバンドルして、Unicodeサポートの存在を確保できます。多くのオープンソースアプリケーションには、この種の独自のライブラリが含まれており、さらに多くの人が無料のサードパーティライブラリを使用しています。 Portable UTF-8は、mbstring
とiconv
の上に構築された無料の軽量ライブラリです。これら2つの拡張機能の機能を拡張し、約60のユニコードベースの文字列操作、テスト、検証関数を提供します。名前が示すように、Portable UTF-8はUTF-8を主要なキャラクターエンコーディングスキームとして使用します。ライブラリは、速度の理由で利用可能な拡張機能(mbstring
およびiconv
)を使用し、それらを直接使用するときにいくつかの矛盾を橋渡ししますが、サーバーにこれらの拡張機能がない場合、純粋なPHP A UTF-8ルーチンを使用することに後退します。 Portable-UT8は完全にポータブルであり、PHP 4.2以降のインストールで使用できます。
スタンド処理ユニコードのサポートが不十分なテキストエディターは、テキストを読むときにテキストを破損する可能性があり、テキストがコピーされ、そのようなエディターからWebフォームに貼り付けられ、アプリケーションの無効なUTF-8のソースである可能性があります。ユーザーがサビされた入力を処理するときは、入力がアプリケーションの期待に正確に一致していることを確認してください。テキストが有効なUTF-8であるかどうかを検出するには、ライブラリの 関数を使用できます。 関数を使用して、無効なバイトを削除できます。
の使用方法を示しています。
コールバック関数を使用して、単一の文字を反復的にアクセスできます。 を使用して単一の文字として配列要素を処理できます。
(スペースの制限のため、FAQの部分はここで省略されています)is_utf8()
if (is_utf8($_POST['title'])) {
// 执行某些操作...
}
utf8_clean()
$title = utf8_clean($_POST['title']);
echo utf8_html_encode($title);
$title = utf8_trim($title);
utf8_remove_duplicates()
utf8_ws()
SEO目的のためにURLフラグメントを作成するための従来のソリューションは、音訳を使用し、すべての非ASCII文字をフラグメントから削除します。これにより、URLの価値が低くなります。 URLはUTF-8エンコードされた文字をサポートできますが、このような削除や音訳なしでは、任意の言語に文字を含むリッチなスニペットを作成できます。
$title = utf8_remove_duplicates($title, utf8_ws());
$slug = utf8_url_slug($title, 30); // 字符长度30
if (utf8_strlen($title) > 60) {
$title = utf8_substr($title, 0, 60);
}
if (!utf8_fits_inside($title , 60)) {
$title = utf8_substr($title, 0 ,60);
}
utf8_access()
echo '第六个字符是:' . utf8_access($string, 5);
utf8_chr_map()
utf8_chr_map('some_callback', $string);
utf8_split()
array_map('some_callback', utf8_split($string));
以上がポータブルUTF-8を使用してUnicodeをPHPに持ち込みますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。