Python-Methode zum Sammeln verstümmelter chinesischer Zeichen

高洛峰
Freigeben: 2017-02-24 15:31:42
Original
1424 Leute haben es durchsucht

Beim Sammeln einer bestimmten Webseite in den letzten Tagen waren die meisten Webseiten in Ordnung, aber eine kleine Anzahl von Webseiten hatte verstümmelte Zeichen. Nach einigen Tagen des Debuggens stellte ich schließlich fest, dass dies durch einige illegale Zeichen verursacht wurde .. Dies wird aufgezeichnet

1. Unter normalen Umständen können Sie

import chardet

thischarset = chardet.detect(strs)["encoding"]
Nach dem Login kopieren

verwenden, um das zu erhalten Kodierungsmethode der Datei oder Seite

Oder greifen Sie direkt auf den Zeichensatz = xxxx der Seite zu, um

zu erhalten. 2. Wenn der Inhalt Sonderzeichen enthält, führt die angegebene Kodierung auch zu verstümmelten Zeichen . Das heißt, Sie können den Codierungsprozess verwenden, indem Sie illegale Zeichen ignorieren, die durch illegale Zeichen im Inhalt verursacht werden.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")
Nach dem Login kopieren

Der zweite Parameter von decode gibt die Methode an, die angewendet werden soll, wenn auf illegale Zeichen gestoßen wird

Dieser Parameter löst standardmäßig eine Ausnahme aus.

Das Obige ist die perfekte Lösung für das Problem des Sammelns verstümmelter chinesischer Zeichen in Python, das durch die Herausgeber. Ich hoffe, es wird für alle hilfreich sein.

Weitere Artikel zu Pythons Methode zum Sammeln chinesischer verstümmelter Zeichen finden Sie auf der chinesischen PHP-Website!

Verwandte Etiketten:
Quelle:php.cn
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage