Heim Backend-Entwicklung Python-Tutorial Python Black Magic-Kodierungskonvertierungsmethode

Python Black Magic-Kodierungskonvertierungsmethode

Mar 13, 2017 pm 06:15 PM

In diesem Artikel wird hauptsächlich die Codierungskonvertierung von Python Black Magic vorgestellt und die Methode der Python-Codierungskonvertierung analysiert.

Wir verwenden andere Sprachen, wenn die Bibliothek die Codierung durchführt Bei der Konvertierung gibt es normalerweise nur zwei (oder drei) Möglichkeiten, mit Zeichen umzugehen, die nicht verstanden werden können:

  • Eine Ausnahme auslösen

  • wird durch das alternative Zeichen

  • überspringen

In der komplexen realen Welt wird es jedoch aufgrund verschiedener Unzuverlässigkeiten immer einige nicht übereinstimmende Faktoren in den von uns verarbeiteten Texten geben, wie z. B. gemischte Codierung. In diesem Fall ist es wieder der obige Ansatz.

Dann stellt sich die Frage: Gibt es einen besseren Weg in Python?

Die Antwort lautet: Ja!

Der Kodierungskonvertierungsprozess von Python ist eigentlich eine zweistufige Konvertierung:


source -> unicode -> dest
Nach dem Login kopieren
Konvertieren Sie zuerst die

-Zeichenfolge aus der ursprünglichen Kodierung In Unicode konvertieren. Konvertieren Sie dann Unicode in die Zielkodierung.

Im ersten Schritt verwenden wir im Allgemeinen

decode() oder unicode() diese beiden Funktionen Fertig. Im zweiten Schritt verwenden wir zur Vervollständigung die Funktion
encode().

Die schwarze Magie, von der wir hier sprechen, wird im ersten Schritt verwirklicht. Sowohl die

decode- als auch die Unicode-Funktion verfügen über einen optionalen Parameter namens

errors. Schauen Sie sich die offizielle Beschreibung an:

  • Fehler können angegeben werden, um einen anderen Fehler festzulegen

  • Die Standardeinstellung ist „streng“, was bedeutet, dass Kodierungsfehler auftreten

  • ein UnicodeDecodeError. Weitere mögliche Werte sind „ignore“ und „replace“

  • sowie alle anderen Name, der bei Codecs registriert ist.

  • in der Lage ist, UnicodeDecodeErrors zu verarbeiten.

Dieser Parameter hat normalerweise drei Werte:

  • strikter Standardwert. Wenn ein Codierungsfehler auftritt, wird UnicodeDecodeError ausgelöst.

  • Überspringen ignorieren.

  • ersetzen Ersetzen durch ?

Okay, hast du den letzten Satz gesehen? Die Show ist eröffnet!

Der Modulcodec hat eine Funktion namens register_error. Seine Funktion ermöglicht es Benutzern, benutzerdefinierte Methoden zur Fehlerbehandlung zu registrieren.

Wird zur Behandlung von UnicodeDecodeError verwendet.

Werfen wir einen Blick auf den Funktionsprototyp:


codecs.register_error(name, error_handler)
Nach dem Login kopieren
Name:

Der Name des Fehlerhandlers . Wird zum Ausfüllen des Fehlerparameters der Dekodierfunktion verwendet. error_handler: Verarbeitungsfunktion. Diese Funktion akzeptiert einen Ausnahmeparameter.
Gibt ein Tupel zurück. Das erste ist die fehlerkorrigierte Zeichenfolge und das zweite ist die Startposition, um mit der Dekodierung fortzufahren. Werfen wir einen Blick auf die konkrete Implementierung:


Das Obige habe ich aus dem Internet kopiert

def cjk_error(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("don't know how to handle %r" % exc) 
  if exc.end + 1 > len(exc.object): 
    raise TypeError('unknown codec ,the object too short!') 
  ch1 = ord(exc.object[exc.start:exc.end]) 
  newpos = exc.end + 1 
  ch2 = ord(exc.object[exc.start + 1:newpos]) 
  sk = exc.object[exc.start:newpos] 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK 
    return (unicode(sk,&#39;cp936&#39;), newpos) 
  if 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5 
    return (unicode(sk,&#39;big5&#39;), newpos) 
  raise TypeError(&#39;unknown codec !&#39;) 
codecs.register_error("cjk_replace", cjk_replace)
Nach dem Login kopieren
. Zuerst fand ich es sehr gut, aber später stellte ich fest, dass es ein sehr unreflektierter Algorithmus war.

Beispielsweise haben utf8 und gbk einen Schnittpunkt in den ersten beiden Bytes. Wenn eine utf8-Zeichenfolge mit der GBK-Kodierung dekodiert wird, tritt der Fehler ab dem dritten Byte auf (die ersten beiden Bytes können auch einem chinesischen Zeichen im GBK-Kodierungsbereich entsprechen). Zum Beispiel:


Für diese Situation wurden also die folgenden Verbesserungen vorgenommen:

a = "你"              # utf8编码:&#39;\xe4\xbd\xa0&#39;
c = unicode(a[:2],&#39;gbk&#39;)  # 正常返回
c = unicode(a, &#39;gbk&#39;)    # UnicodeDecodeError 。错误发生在第三个字节
Nach dem Login kopieren


Natürlich ist diese Logik eigentlich nicht streng genug. Obwohl es etwas realistisch ist, mit dieser Anomalie der gemischten Codierung umzugehen.

Aber da Python solche Fähigkeiten bietet, können alle gemeinsam darüber diskutieren, wie wir es besser machen können?
import codec

def cjk_replace(e):
  if not isinstance(e, UnicodeDecodeError):
    raise TypeError("invalid exception type %s" e)

  src = e.encoding
  if src in (&#39;gbk&#39;,&#39;gb18030&#39;, &#39;big5&#39;):
    beg = e.start - 2
    if beg >= 0:
      try:
        return unicode(e.object[beg:e.end], &#39;utf8&#39;), e.end + 1
      except:
        pass

  if exc.end + 1 > len(exc.object):
    raise TypeError(&#39;unknown codec ,the object too short!&#39;)
  ch1 = ord(exc.object[exc.start:exc.end])
  newpos = exc.end + 1
  ch2 = ord(exc.object[exc.start + 1:newpos])
  sk = exc.object[exc.start:newpos]

  if src != &#39;gbk&#39; and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0x7E<=ch2<=0xFE): # GBK
    return (unicode(sk,&#39;cp936&#39;), newpos)
  if src != &#39;big5&#39; and 0x81<=ch1<=0xFE and (0x40<=ch2<=0x7E or 0xA1<=ch2<=0xFE): # BIG5
    return (unicode(sk,&#39;big5&#39;), newpos)
  raise TypeError(&#39;unknown codec !&#39;)

codecs.register_error("cjk_replace", cjk_replace)
Nach dem Login kopieren

Das obige ist der detaillierte Inhalt vonPython Black Magic-Kodierungskonvertierungsmethode. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Wie man alles in Myrise freischaltet
1 Monate vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Wie löste ich das Problem der Berechtigungen beim Betrachten der Python -Version in Linux Terminal? Apr 01, 2025 pm 05:09 PM

Lösung für Erlaubnisprobleme beim Betrachten der Python -Version in Linux Terminal Wenn Sie versuchen, die Python -Version in Linux Terminal anzuzeigen, geben Sie Python ein ...

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer-Anfänger-Programmierbasis in Projekt- und problemorientierten Methoden? Apr 02, 2025 am 07:18 AM

Wie lehre ich innerhalb von 10 Stunden die Grundlagen für Computer -Anfänger für Programmierungen? Wenn Sie nur 10 Stunden Zeit haben, um Computer -Anfänger zu unterrichten, was Sie mit Programmierkenntnissen unterrichten möchten, was würden Sie dann beibringen ...

Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Wie kann ich die gesamte Spalte eines Datenrahmens effizient in einen anderen Datenrahmen mit verschiedenen Strukturen in Python kopieren? Apr 01, 2025 pm 11:15 PM

Bei der Verwendung von Pythons Pandas -Bibliothek ist das Kopieren von ganzen Spalten zwischen zwei Datenrahmen mit unterschiedlichen Strukturen ein häufiges Problem. Angenommen, wir haben zwei Daten ...

Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Wie kann man vom Browser vermeiden, wenn man überall Fiddler für das Lesen des Menschen in der Mitte verwendet? Apr 02, 2025 am 07:15 AM

Wie kann man nicht erkannt werden, wenn Sie Fiddlereverywhere für Man-in-the-Middle-Lesungen verwenden, wenn Sie FiddLereverywhere verwenden ...

Was sind reguläre Ausdrücke? Was sind reguläre Ausdrücke? Mar 20, 2025 pm 06:25 PM

Regelmäßige Ausdrücke sind leistungsstarke Tools für Musteranpassung und Textmanipulation in der Programmierung, wodurch die Effizienz bei der Textverarbeitung in verschiedenen Anwendungen verbessert wird.

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

Was sind einige beliebte Python -Bibliotheken und ihre Verwendung? Was sind einige beliebte Python -Bibliotheken und ihre Verwendung? Mar 21, 2025 pm 06:46 PM

In dem Artikel werden beliebte Python-Bibliotheken wie Numpy, Pandas, Matplotlib, Scikit-Learn, TensorFlow, Django, Flask und Anfragen erörtert, die ihre Verwendung in wissenschaftlichen Computing, Datenanalyse, Visualisierung, maschinellem Lernen, Webentwicklung und h beschreiben

See all articles