In einem aktuellen Projekt musste ich eine Tabelle mit mehr als 1 Million Datensätzen abfragen und dann einige Datenstatistiken durchführen. Während dieses Vorgangs stellte ich jedoch fest, dass ein UnicodeDecodeError auftrat, nachdem nur wenige Daten abgefragt wurden.
Hier verwenden wir die sqlalchemy-Bibliothek für Abfragen und Cx_Oracle wird intern verwendet, um entsprechende Vorgänge auszuführen. Die verwendete Python-Version ist 3.5.0, das Hostsystem ist Windows 2008 Server, und dann werden Vorgänge ähnlich den folgenden ausgeführt:
from sqlalchemy import create_engine engine = create_engine('oracle://demo:123456@192.168.1.202/TEST') conn = engine.connect() sql = 'select t.type from TS t' result = conn.execute(sql) for row in result: print(row['type'])
Hier stellen wir zunächst eine Verbindung zur Datenbank her und führen dann den entsprechenden Abfragevorgang durch. Leider ist nach der Abfrage von weniger als 10 Datensätzen ein UnicodeDecodeError aufgetreten.
Ursprünglich dachte ich, es handele sich um ein Server-Kodierungsproblem in der Datenbank, also habe ich den Kodierungsparameter zur Funktion „create_engine“ hinzugefügt und ihn geändert in:
engine = create_engine('oracle://demo:123456@192.168.1.202/TEST',encoding="UTF-8")
Die andere verfügbare Methode besteht darin, die Kodierung direkt anzugeben im Verbindungspfad, ähnlich wie folgt:
engine = create_engine('oracle://demo:123456@192.168.1.202/TEST?charset=utf-8')
Aber das Problem ist immer noch nicht gelöst. Ich habe im Internet gesucht, aber keine passende Lösung gefunden. Mir fiel plötzlich ein, dass wir bei der Verwendung einer MySQL-Datenbank (ich persönlich mag Postgresql mehr) oft die folgenden Vorgänge ausgeführt haben, wenn verstümmelte Zeichen auftraten:
set names gbk;
Wir haben die clientseitige Codierung auf diese Weise anstelle der serverseitigen Codierung festgelegt, um das Problem verstümmelter Zeichen auf dem Terminal zu lösen (da die Standarddatenbank von Postgresql UTF-8 ist, ist die Wahrscheinlichkeit verstümmelter Zeichen gering). Darüber hinaus wird bei der Installation des Oracle-Clients unter Linux eine Umgebungsvariable von NLS_LANG
festgelegt. Weitere Informationen finden Sie im Artikel „Oracle Instant Client in Ubuntu 14.04 installieren“. Natürlich werden in diesem Artikel einige Details nicht vorgestellt.
Im Allgemeinen nehmen wir die folgenden Einstellungen in cmd vor:
setenv NLS_LANG=SIMPLIFIED CHINESE_CHINA.ZHS16GBK
Wir geben an, dass die von Oracle-Nachrichten verwendete Sprache vereinfachtes Chinesisch ist und der Zeichensatz des Clients GBK ist.
Darüber hinaus können wir auch die folgende Anweisung ausführen, um sicherzustellen, dass der obige Vorgang korrekt ist:
SELECT * FROM v$nls_parameters;
Da der obige Datenbankserver unter Windows bereitgestellt wird, ist das Ergebnis natürlich GBK, also wenn Our Der Client verwendet zum Dekodieren den UTF8-Zeichensatz, daher treten natürlicherweise Dekodierungsfehler auf.
Was wir beachten müssen, ist, dass wir die Nicht-ASCII-Codierung nur dann normal anzeigen können, wenn die Codierung des Datenbankservers und des Clients konsistent ist, und in sqlalchemy wird die Abfragezeichenfolge standardmäßig gezwungen, sie in Unicode zu konvertieren. Daher ähnelt es dem folgenden Prozess in Python3:
>>> a='中国'.encode('gbk') >>> a b'\xd6\xd0\xb9\xfa'
In sqlalchemy ähnelt es aufgrund der erzwungenen Kodierungskonvertierung dem folgenden Prozess:
>>> a.decode('utf-8') Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd6 in position 0: invalid continuation byte
Daher das obige Problem tritt auf. Unter normalen Umständen sollte die Kodierung als GBK angegeben werden:
>>> a.decode('gbk') '中国'
und die Einstellung NLS_LANG
entspricht der Änderung der oben genannten Kodierung in GBK.
Weitere Informationen zur Python-Lösung des UnicodeDecodeError-Problems beim Abfragen von Cx_Oracle finden Sie auf der chinesischen PHP-Website für verwandte Artikel!