Das Beispiel in diesem Artikel beschreibt die Beurteilungsmethode für die Python-Zeichenkodierung. Teilen Sie es als Referenz mit allen. Die Details lauten wie folgt:
Methode 1:
isinstance(s, str) wird verwendet, um zu bestimmen, ob dies der Fall ist ist eine allgemeine Zeichenfolge
isinstance(s, unicode) wird verwendet, um zu bestimmen, ob es Unicode ist
oder
if type(str).__name__!="unicode": str=unicode(str,"utf-8") else: pass
Methode 2:
Beurteilung der Python-Chardet-Zeichenkodierung
Mit chardet kann die Erkennung der Zeichenfolgen-/Dateikodierung problemlos implementiert werden. Insbesondere bei chinesischen Webseiten verwenden einige Seiten GBK/GB2312 und andere UTF8. Wenn Sie einige Seiten crawlen müssen, ist es wichtig, die Webseitenkodierung zu kennen. Obwohl HTML-Seiten manchmal falsche Zeichensatz-Tags haben. Dann kann Chardet uns sehr helfen.
Chardet-Instanz
>>> import urllib >>> rawdata = urllib.urlopen('http://www.google.cn/').read() >>> import chardet >>> chardet.detect(rawdata) {'confidence': 0.98999999999999999, 'encoding': 'GB2312'} >>>chardet可以直接用detect函数来检测所给字符的编码。函数返回值为字典,有2个元数,一个是检测的可信度,另外一个就是检测到的编码。
Chardet-Installation
Entpacken Sie nach dem Herunterladen von Chardet das komprimierte Chardet-Paket, legen Sie den Chardet-Ordner direkt im Anwendungsverzeichnis ab und verwenden Sie dann „Chardet importieren“, um mit der Verwendung von Chardet zu beginnen.
Oder verwenden Sie die Installationsdatei setup.py, um chardet in das Python-Systemverzeichnis zu kopieren, sodass alle Ihre Python-Programme nur chardet importieren müssen.
python setup.py-Installationsreferenz
Offizielle Chardet-Website: http://chardet.feedparser.org/
Chardet-Downloadseite: http://chardet.feedparser.org/download /
Weitere Artikel zu Beurteilungsmethoden für die Python-Zeichencodierung finden Sie auf der chinesischen PHP-Website!