デバッグ目的で、UTF-8 バイト オーダー マーク (BOM) で始まるファイルを識別します。ディレクトリ内にあることが重要です。ただし、既存の方法は複雑になる可能性があり、改行を含むファイル名で問題が発生する可能性があります。この記事では、より合理化されたソリューションについて詳しく説明します。
元のコマンドから始めて、find を使用してディレクトリを再帰的に走査し、ファイルをフィルタリングし、それらの名前を while ループにパイプします。ループ内で、head は各ファイルの最初の 3 バイトを抽出し、それらを予期される BOM シーケンス ($'xefxbbxbf') と比較します。この条件を満たすファイルが強調表示されます。
このアプローチの潜在的な欠点の 1 つは、ファイル名の改行に対する脆弱性です。この問題を回避するために、BOM プレフィックスの付いたファイルを見つけるだけでなく、それらを削除する代替コマンドを紹介します。
find . -type f -exec sed '1s/^\xEF\xBB\xBF//' -i {} \;
このコマンドは、sed を利用して、BOM シーケンスの最初の行を空の文字列に置き換えます。一致する各ファイル。ただし、この操作により、これらの文字を含むバイナリ ファイルが変更されることに注意してください。
非破壊的なアプローチを求める場合は、次のコマンドをお勧めします:
grep -rl $'\xEF\xBB\xBF' .
このコマンドは grep を使用します。内容を変更せずに、BOM シーケンスを含むファイルを見つけてリストします。
最終的に、ソリューションの選択は、望ましい結果と検査されるファイルの性質によって異なります。
以上がBOM プレフィックス付き UTF-8 ファイルを効率的に見つける方法: 洗練されたアプローチの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。