mysql-python的連線時,預設大家會寫成
con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,charset='gbk')
一旦指定了"gbk",預設mysql-python會設定use_unicode=True。結果是mysql-python會利用python自己的 codec模組去做字元解碼工作,但實際上發現mysql函式庫gbk編碼字元集比python的gbk編碼集大。一些在mysql裡可以儲存的字符,拿 python的codec去解析就會拋錯。更嚴重的問題是,在mysql-python1.2.3之前,use_unicode=True即讓 mysql-python解碼這塊存在記憶體外洩的bug。解碼出來所有資料庫字串經過mysql-python出來都是unicode object,要輸出到檔案要再編碼。
解決方法是強制指定use_unicode=False。即:
con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,charset='gbk',use_unicode=False)
這樣既不會有記憶體洩露,也不需要在輸出檔案時進行編碼。也迴避了python的codec不能解析mysql gbk裡面存放的字串的問題。 最後對於mysql4,我們可以將charset參數留空:
con=MySQLdb.connect(user='xxx',passwd='xxx',host='xxx',port=6600,use_unicode=False)
這樣就完美解決了這個問題,哈哈