Gemeinschaft

Lernen

Tools-Bibliothek

KI-Tools

Freizeit

Deutsch

Heim > Backend-Entwicklung > Python-Tutorial > Python-Methode zum Sammeln verstümmelter chinesischer Zeichen

Python-Methode zum Sammeln verstümmelter chinesischer Zeichen

高洛峰

Freigeben： 2017-02-24 15:31:42

Original

1558 Leute haben es durchsucht

Beim Sammeln einer bestimmten Webseite in den letzten Tagen waren die meisten Webseiten in Ordnung, aber eine kleine Anzahl von Webseiten hatte verstümmelte Zeichen. Nach einigen Tagen des Debuggens stellte ich schließlich fest, dass dies durch einige illegale Zeichen verursacht wurde .. Dies wird aufgezeichnet

1. Unter normalen Umständen können Sie

import chardet

thischarset = chardet.detect(strs)["encoding"]

Nach dem Login kopieren

verwenden, um das zu erhalten Kodierungsmethode der Datei oder Seite

Oder greifen Sie direkt auf den Zeichensatz = xxxx der Seite zu, um

zu erhalten. 2. Wenn der Inhalt Sonderzeichen enthält, führt die angegebene Kodierung auch zu verstümmelten Zeichen . Das heißt, Sie können den Codierungsprozess verwenden, indem Sie illegale Zeichen ignorieren, die durch illegale Zeichen im Inhalt verursacht werden.

strs = strs.decode("UTF-8","ignore").encode("UTF-8")

Nach dem Login kopieren

Der zweite Parameter von decode gibt die Methode an, die angewendet werden soll, wenn auf illegale Zeichen gestoßen wird

Dieser Parameter löst standardmäßig eine Ausnahme aus.

Das Obige ist die perfekte Lösung für das Problem des Sammelns verstümmelter chinesischer Zeichen in Python, das durch die Herausgeber. Ich hoffe, es wird für alle hilfreich sein.

Weitere Artikel zu Pythons Methode zum Sammeln chinesischer verstümmelter Zeichen finden Sie auf der chinesischen PHP-Website!

Verwandte Etiketten：

python 中文乱码

Vorheriger Artikel：Python-Black-Hat-Programmierung 3.4 über VLAN Nächster Artikel：20 Tipps, um Ihre Python zum Fliegen zu bringen

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Neueste Artikel des Autors

Beispiele für HTML-Einstellungen für Fett, Kursiv, Unterstrichen, Durchgestrichen und andere Schrifteffekte

1970-01-01 08:00:00
Implementieren Sie eine Java-Version von Redis

1970-01-01 08:00:00
Die einfachste WeChat-Applet-Demo

1970-01-01 08:00:00
Einführung in einfache Betriebsmethoden von pandas.DataFrame (Erstellen, Indizieren, Hinzufügen und Löschen) in Python

1970-01-01 08:00:00
WeChat Mini-Programm: Beispiel für die Implementierung des Tab-Effekts

1970-01-01 08:00:00
Python erstellt benutzerdefinierte Methoden, um die Ausgabe der Wörterbuchstruktur zu verschönern

1970-01-01 08:00:00
HTML5: Verwenden Sie Canvas, um Videos in Echtzeit zu verarbeiten

1970-01-01 08:00:00
Asp.net verwendet SignalR zum Senden von Bildern

1970-01-01 08:00:00
WeChat Mini-Programmentwicklungs-Tutorial – Übersicht über die Funktionen von App() und Page()

1970-01-01 08:00:00
Ausführliche Erklärung zur Verwendung von Python Redis

1970-01-01 08:00:00

Aktuelle Ausgaben

python3.x – Wenn Sie den Batch-Startbefehl verwenden, um ein bestimmtes Python-Skript auszuführen, kann es nicht ausgeführt werden, solange der Pfad oder Name des Python-Skripts chinesische Zeichen enthält.

Aus 1970-01-01 08:00:00

0

0

0

javascript - Wie erhalte ich den Inhalt in Klammern mithilfe regulärer Ausdrücke in JS?

Aus 1970-01-01 08:00:00

0

0

0

show() ist nach Ajax-Erfolg ungültig

Aus 1970-01-01 08:00:00

0

0

0

javascript – Eine Zeile Code für den Quellcode von underscore.js schreiben

Aus 1970-01-01 08:00:00

0

0

0

javascript - Wie ändere ich den Übergangseffekt von vue1.0 in vue2.0?

Aus 1970-01-01 08:00:00

0

0

0

verwandte Themen

Mehr>

Beliebte Empfehlungen

Beliebte Tutorials

Mehr>

Verwandte Tutorials

Beliebte Empfehlungen

Aktuelle Kurse

Neueste Downloads

Mehr>

Web-Effekte

Quellcode der Website

Website-Materialien

Frontend-Vorlage