Python での xa0 Unicode 書式設定の削除
Beautiful Soup で HTML を解析しているときに、スペースを表す xa0 Unicode 文字が見つかる場合があります。これらの文字を削除して通常のスペースに置き換えるには、エンコードとデコードに注意する必要があります。
Python 2.7 では、string.replace(u'xa0', u' ') コマンドを使用して xa0 をスペースに置き換えることができます。ただし、このアプローチでは、xa0 が誤って「u」文字に変換されます。
解決策は、xa0 が Latin1 (ISO 8859-1) の非改行スペースであることを理解することにあります。これを削除するには、次のコマンドを使用します。
string = string.replace(u'\xa0', u' ')
ただし、replace() コマンドを使用せずに変更された文字列に対して encode('utf-8') を呼び出すと、xc2 のような奇妙な文字が生成される可能性があります。これは、encode() が Unicode 文字を UTF-8 に変換し、xa0 を 2 バイトのシーケンス xc2 と xa0 として表すためです。
文字列を意図した状態に戻すには、replace( の後に次のコマンドを使用します。 ) 操作:
string = string.encode('utf-8')
以上がPython で \xa0 Unicode フォーマットを適切に削除する方法?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。