Geschützte Leerzeichen aus Strings in Python entfernen
Beim Parsen von HTML-Dateien mit Beautiful Soup können Sie auf xa0-Unicode-Zeichen stoßen, die Leerzeichen darstellen. In diesem Artikel wird erläutert, wie Sie diese Zeichen in Python 2.7 effektiv entfernen und in reguläre Leerzeichen umwandeln.
Um dieses Problem zu beheben, ersetzen Sie einfach xa0 durch u'' wie folgt:
<code class="python">string = string.replace(u'\xa0', u' ')</code>
The Das Zeichen xa0 stellt ein geschütztes Leerzeichen in der Codierung Latin1 (ISO 8859-1) dar. Durch die Verwendung von u'' anstelle von '' stellen Sie sicher, dass es durch ein Unicode-Leerzeichen ersetzt wird.
Wenn Sie nach der Verwendung von .encode() auf xc2-Zeichen stoßen, bedeutet dies, dass der Unicode in UTF-8 codiert wurde. xa0 wird in UTF-8 durch die beiden Bytes xc2xa0 dargestellt.
Um die Unicode-Handhabung in Python zu verstehen, lesen Sie die Dokumentation unter http://docs.python.org/howto/unicode.html. Beachten Sie, dass diese Antwort aus dem Jahr 2012 stammt. Python hat sich weiterentwickelt und Sie sollten jetzt die Verwendung von unicodedata.normalize für die Unicode-Normalisierung in Betracht ziehen.
Das obige ist der detaillierte Inhalt vonWie entferne ich geschützte Leerzeichen aus Strings in Python?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!