怎麼使用python批次修改文字檔編碼格式-Python教學-PHP中文網

使用python批次修改文字檔案編碼格式

首頁

後端開發

Python教學

怎麼使用python批次修改文字檔編碼格式

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

May 01, 2023 pm 07:13 PM

python

使用python批次修改文字檔案編碼格式

把文字檔案的編碼格式進行批次幻化，例如ascii， gb2312， utf8等，相互轉化，字元集的大小來看，utf8>gb2312>ascii ,因此最好把gb2312轉為utf8，否則容易出現亂碼。

gb2312與utf-8的主要差異：

##關於字庫規模：UTF-8 > gb2312（utf8字全而gb2312只有漢字）

關於保存大小： UTF-8> gb2312（utf8更臃腫、加載更慢，gb2312更小巧，加載更快）

#關於適用範圍： gb2312主要在中國大陸地區使用，是一個本地化的字符集，UTF-8包含全世界所有國家需要用到的字符，是國際編碼，通用性強。 UTF-8編碼的文字可以在各國支援UTF8字元集的瀏覽器上顯示。

import sys
import chardet
import codecs
 
def get_encoding_type(fileName):
    &#39;&#39;&#39;print the encoding format of a txt file &#39;&#39;&#39;
    with open(fileName, &#39;rb&#39;) as f:
        data = f.read()
        encoding_type = chardet.detect(data)
        #print(encoding_type)
        return encoding_type
        # such as {&#39;encoding&#39;: &#39;GB2312&#39;, &#39;confidence&#39;: 0.99, &#39;language&#39;: &#39;Chinese&#39;}
 
def convert_encoding_type(filename_in, filename_out, encode_in="gb2312", encode_out="utf-8"):
    &#39;&#39;&#39;convert encoding format of txt file &#39;&#39;&#39;
    #filename_in = &#39;flash.c&#39;
    #filename_out = &#39;flash_gb2312.c&#39;
    #encode_in = &#39;utf-8&#39;  # 输入文件的编码类型
    #encode_out = &#39;gb2312&#39;# 输出文件的编码类型
    with codecs.open(filename=filename_in, mode=&#39;r&#39;, encoding=encode_in) as fi:
        data = fi.read()
        with open(filename_out, mode=&#39;w&#39;, encoding=encode_out) as fo:
            fo.write(data)
            fo.close()
        # with open(filename_out, &#39;rb&#39;) as f:
        #     data = f.read()
        #     print(chardet.detect(data))
 
if __name__=="__main__":
    # fileName = argv[1]
    # get_encoding_type(fileName)
    # convert_encoding_type(fileName, fileName)
    filename_of_files = sys.argv[1]   #the file contain full file path at each line
    with open(filename_of_files, &#39;rb&#39;) as f:
        lines = f.readlines()
        for line in lines:
            fileName = line[:-1]
            encoding_type = get_encoding_type(fileName)
            if encoding_type[&#39;encoding&#39;]==&#39;GB2312&#39;:
                print(encoding_type)
                convert_encoding_type(fileName, fileName)
                print(fileName)

登入後複製

補充：python實作檔案批次轉為utf-8格式

python實作檔案批次轉為utf-8格式

xml_path = &#39;./&#39;
with open(xml_path , &#39;rb+&#39;) as f:
    content = f.read()
    codeType = detect(content)[&#39;encoding&#39;]
    content = content.decode(codeType, "ignore").encode("utf8")
    fp.seek(0)
    fp.write(content)

登入後複製

以上是怎麼使用python批次修改文字檔編碼格式的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

gmail信箱登陸入口在哪裡

7543

CakePHP 教程

1381

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

PHP和Python：代碼示例和比較 Apr 15, 2025 am 12:07 AM

PHP和Python各有優劣，選擇取決於項目需求和個人偏好。 1.PHP適合快速開發和維護大型Web應用。 2.Python在數據科學和機器學習領域佔據主導地位。

CentOS上如何進行PyTorch模型訓練 Apr 14, 2025 pm 03:03 PM

在CentOS系統上高效訓練PyTorch模型，需要分步驟進行，本文將提供詳細指南。一、環境準備：Python及依賴項安裝:CentOS系統通常預裝Python，但版本可能較舊。建議使用yum或dnf安裝Python3併升級pip：sudoyumupdatepython3(或sudodnfupdatepython3)，pip3install--upgradepip。 CUDA與cuDNN(GPU加速):如果使用NVIDIAGPU，需安裝CUDATool

CentOS上PyTorch的GPU支持情況如何 Apr 14, 2025 pm 06:48 PM

在CentOS系統上啟用PyTorchGPU加速，需要安裝CUDA、cuDNN以及PyTorch的GPU版本。以下步驟將引導您完成這一過程：CUDA和cuDNN安裝確定CUDA版本兼容性:使用nvidia-smi命令查看您的NVIDIA顯卡支持的CUDA版本。例如，您的MX450顯卡可能支持CUDA11.1或更高版本。下載並安裝CUDAToolkit:訪問NVIDIACUDAToolkit官網，根據您顯卡支持的最高CUDA版本下載並安裝相應的版本。安裝cuDNN庫:前

docker原理詳解 Apr 14, 2025 pm 11:57 PM

Docker利用Linux內核特性，提供高效、隔離的應用運行環境。其工作原理如下：1. 鏡像作為只讀模板，包含運行應用所需的一切；2. 聯合文件系統（UnionFS）層疊多個文件系統，只存儲差異部分，節省空間並加快速度；3. 守護進程管理鏡像和容器，客戶端用於交互；4. Namespaces和cgroups實現容器隔離和資源限制；5. 多種網絡模式支持容器互聯。理解這些核心概念，才能更好地利用Docker。

Python vs. JavaScript：社區，圖書館和資源 Apr 15, 2025 am 12:16 AM

Python和JavaScript在社區、庫和資源方面的對比各有優劣。 1)Python社區友好，適合初學者，但前端開發資源不如JavaScript豐富。 2)Python在數據科學和機器學習庫方面強大，JavaScript則在前端開發庫和框架上更勝一籌。 3)兩者的學習資源都豐富，但Python適合從官方文檔開始，JavaScript則以MDNWebDocs為佳。選擇應基於項目需求和個人興趣。

CentOS下PyTorch版本怎麼選 Apr 14, 2025 pm 02:51 PM

在CentOS下選擇PyTorch版本時，需要考慮以下幾個關鍵因素：1.CUDA版本兼容性GPU支持：如果你有NVIDIAGPU並且希望利用GPU加速，需要選擇支持相應CUDA版本的PyTorch。可以通過運行nvidia-smi命令查看你的顯卡支持的CUDA版本。 CPU版本：如果沒有GPU或不想使用GPU，可以選擇CPU版本的PyTorch。 2.Python版本PyTorch

minio安裝centos兼容性 Apr 14, 2025 pm 05:45 PM

MinIO對象存儲：CentOS系統下的高性能部署MinIO是一款基於Go語言開發的高性能、分佈式對象存儲系統，與AmazonS3兼容。它支持多種客戶端語言，包括Java、Python、JavaScript和Go。本文將簡要介紹MinIO在CentOS系統上的安裝和兼容性。 CentOS版本兼容性MinIO已在多個CentOS版本上得到驗證，包括但不限於：CentOS7.9:提供完整的安裝指南，涵蓋集群配置、環境準備、配置文件設置、磁盤分區以及MinI

CentOS上PyTorch的分佈式訓練如何操作 Apr 14, 2025 pm 06:36 PM

在CentOS系統上進行PyTorch分佈式訓練，需要按照以下步驟操作：PyTorch安裝:前提是CentOS系統已安裝Python和pip。根據您的CUDA版本，從PyTorch官網獲取合適的安裝命令。對於僅需CPU的訓練，可以使用以下命令：pipinstalltorchtorchvisiontorchaudio如需GPU支持，請確保已安裝對應版本的CUDA和cuDNN，並使用相應的PyTorch版本進行安裝。分佈式環境配置:分佈式訓練通常需要多台機器或單機多GPU。所

See all articles

怎麼使用python批次修改文字檔編碼格式

使用python批次修改文字檔案編碼格式

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題