ホームページ > バックエンド開発 > PHPチュートリアル > 異なるエンコーディングの文字列から印刷不可能な文字を効率的に削除するにはどうすればよいですか?

異なるエンコーディングの文字列から印刷不可能な文字を効率的に削除するにはどうすればよいですか?

Linda Hamilton
リリース: 2024-12-28 15:04:10
オリジナル
249 人が閲覧しました

How Can I Efficiently Remove Non-Printable Characters from Strings in Different Encodings?

文字列内の印刷不可能な文字のエスケープ

はじめに:

テキスト データを処理する場合、多くの場合、保存、表示、または処理中に問題を引き起こす可能性がある特定の印刷不可能な文字を削除する必要があります。これらの文字を効率的に削除する方法を理解することが重要です。

解決策:

印刷不可能な文字 (0 ~ 31 および 127) を削除するには、次の点に基づいて次のオプションを検討してください。文字列のエンコーディング:

1. 7 ビット ASCII:

$string = preg_replace('/[\x00-\x1F\x7F-\xFF]/', '', $string);
ログイン後にコピー

2. 8 ビット拡張 ASCII:

$string = preg_replace('/[\x00-\x1F\x7F]/', '', $string);
ログイン後にコピー

3. UTF-8:

$string = preg_replace('/[\x00-\x1F\x7F]/u', '', $string);
ログイン後にコピー

4. str_replace を使用する代替案:

$badchar = [...]; // Array of non-printable characters
$string2 = str_replace($badchar, '', $str);
ログイン後にコピー

ベンチマーク:

preg_replace と str_replace のパフォーマンスは、文字列の長さと型によって異なります。特定のケースに最適なアプローチを決定するには、独自のデータでベンチマークを行うことをお勧めします。

Unicode についてはどうですか?

特定の印刷不可能な Unicode 文字 (例: NO-BREAK SPACE)、文字クラス内で xA0 を使用します:

$string = preg_replace('/[\x00-\x1F\x7F\xA0]/u', '', $string);
ログイン後にコピー

以上が異なるエンコーディングの文字列から印刷不可能な文字を効率的に削除するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:php.cn
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
著者別の最新記事
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート