檔案是無所不在的,無論我們使用哪種程式語言,處理檔案對於每個程式設計師都是必不可少的
檔案處理是一種用於創建文件、寫入資料和從中讀取資料的過程,Python 擁有豐富的用於處理不同文件類型的包,從而使得我們可以更加輕鬆方便的完成文件處理的工作
本文大綱:
在存取檔案的內容之前,我們需要開啟檔案。 Python 提供了一個內建函數可以幫助我們以不同的模式開啟檔案。 open() 函數接受兩個基本參數:檔案名稱和模式
預設模式是“r”,它以唯讀方式開啟檔案。這些模式定義了我們如何存取文件以及我們如何操作其內容。 open() 函數提供了幾個不同的模式,我們將在後面逐一討論
下面我們透過'Python 之禪' 文件來進行後面的討論學習
f = open('zen_of_python.txt', 'r') print(f.read()) f.close()
Output:
The Zen of Python, by Tim Peters Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. ...
在上面的程式碼中,open() 函數以唯讀模式開啟文字文件,這允許我們從文件中獲取資訊而不能更改它。在第一行,open() 函數的輸出被賦值給一個代表文字檔案的物件f,在第二行中,我們使用read() 方法讀取整個檔案並列印其內容,close() 方法在最後一行關閉文件。需要注意,我們必須始終在處理完開啟的檔案後關閉它們以釋放我們的電腦資源並避免引發異常
#在Python 中,我們可以使用with 上下文管理器來確保程式在檔案關閉後釋放使用的資源,即使發生異常也是如此
with open('zen_of_python.txt') as f: print(f.read())
Output:
The Zen of Python, by Tim Peters Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. ...
上面的程式碼使用with 語句創建了一個上下文,並綁定到變數f ,所有檔案物件方法都可以通過該變數存取文件物件。 read() 方法在第二行讀取整個文件,然後使用print() 函數輸出文件內容
當程式到達with 語句區塊上下文的末尾時,它會關閉文件以釋放資源並確保其他程序可以正常調用它們。通常當我們處理不再需要使用的,需要立即關閉的物件(例如檔案、資料庫和網路連線)時,強烈建議使用with 語句
這裡需要注意的是,即使在退出with 上下文管理器區塊之後,我們也可以存取f 變量,但是該檔案是已關閉狀態。讓我們嘗試一些檔案物件屬性,看看變數是否仍然存在並且可以存取:
print("Filename is '{}'.".format(f.name)) if f.closed: print("File is closed.") else: print("File isn't closed.")
Output:
Filename is 'zen_of_python.txt'. File is closed.
但是此時是不可能從檔案中讀取內容或寫入文件的,關閉檔案時,任何存取其內容的嘗試都會導致以下錯誤:
f.read()
Output:
--------------------------------------------------------------------------- ValueErrorTraceback (most recent call last) ~AppDataLocalTemp/ipykernel_9828/3059900045.py in <module> ----> 1 f.read() ValueError: I/O operation on closed file.
正如我們在前面提到的,我們需要在開啟文件時指定模式。下表是Python 中的不同的檔案模式:
模式說明
我們也可以指定以文字模式「t」、預設模式或二進位模式「b」開啟檔案。讓我們看看如何使用簡單的語句複製圖像檔案 dataquest_logo.png:
with open('dataquest_logo.png', 'rb') as rf: with open('data_quest_logo_copy.png', 'wb') as wf: for b in rf: wf.write(b)
上面的程式碼複製 Dataquest 標誌圖像並將其儲存在同一路徑中。 'rb' 模式以二進位模式開啟檔案並進行讀取,而'wb' 模式以文字模式開啟檔案以並行寫入
在Python 中有多種讀取文字檔案的方法,下面我們介紹一些讀取文字檔案內容的有用方法
#到目前為止,我們已經了解到可以使用read() 方法讀取檔案的全部內容。如果我們只想從文字檔案中讀取幾個位元組怎麼辦,可以在 read() 方法中指定位元組數。讓我們試試看:
with open('zen_of_python.txt') as f: print(f.read(17))
Output:
The Zen of Python
上面的簡單程式碼讀取zen_of_python.txt 檔案的前17 個位元組並將它們列印出來
#有時一次讀取一行文字檔案的內容更有意義,在這種情況下,我們可以使用readline() 方法
with open('zen_of_python.txt') as f: print(f.readline())
Output:
The Zen of Python, by Tim Peters
上面的程式碼傳回檔案的第一行,如果我們再次呼叫該方法,它將返回檔案中的第二行等,如下:
with open('zen_of_python.txt') as f: print(f.readline()) print(f.readline()) print(f.readline()) print(f.readline())
Output:
The Zen of Python, by Tim Peters Beautiful is better than ugly. Explicit is better than implicit.
這種有用的方法可以幫助我們以增量方式讀取整個文件。
以下代码通过逐行迭代来输出整个文件,直到跟踪我们正在读取或写入文件的位置的文件指针到达文件末尾。当 readline() 方法到达文件末尾时,它返回一个空字符串
with open('zen_of_python.txt') as f: line = f.readline() while line: print(line, end='') line = f.readline()
Output:
The Zen of Python, by Tim Peters Beautiful is better than ugly. Explicit is better than implicit. Simple is better than complex. Complex is better than complicated. Flat is better than nested. Sparse is better than dense. Readability counts. Special cases aren't special enough to break the rules. Although practicality beats purity. Errors should never pass silently. Unless explicitly silenced. In the face of ambiguity, refuse the temptation to guess. There should be one-- and preferably only one --obvious way to do it. Although that way may not be obvious at first unless you're Dutch. Now is better than never. Although never is often better than *right* now. If the implementation is hard to explain, it's a bad idea. If the implementation is easy to explain, it may be a good idea. Namespaces are one honking great idea -- let's do more of those!
上面的代码在 while 循环之外读取文件的第一行并将其分配给 line 变量。在 while 循环中,它打印存储在 line 变量中的字符串,然后读取文件的下一行。while 循环迭代该过程,直到 readline() 方法返回一个空字符串。空字符串在 while 循环中的计算结果为 False,因此迭代过程终止
读取文本文件的另一个有用方法是 readlines() 方法,将此方法应用于文件对象会返回包含文件每一行的字符串列表
with open('zen_of_python.txt') as f: lines = f.readlines()
让我们检查 lines 变量的数据类型,然后打印它:
print(type(lines)) print(lines)
Output:
<class 'list'> ['The Zen of Python, by Tim Petersn', 'n', 'Beaut...]
它是一个字符串列表,其中列表中的每个项目都是文本文件的一行,``n` 转义字符表示文件中的新行。此外,我们可以通过索引或切片操作访问列表中的每个项目:
print(lines) print(lines[3:5]) print(lines[-1])
Output:
['The Zen of Python, by Tim Petersn', 'n', 'Beautiful is better than ugly.n', ... -- let's do more of those!"] ['Explicit is better than implicit.n', 'Simple is better than complex.n'] Namespaces are one honking great idea -- let's do more of those!
到目前为止,我们已经学会了如何使用常规文本文件。但是有时数据采用 CSV 格式,数据专业人员通常会检索所需信息并操作 CSV 文件的内容
接下来我们将使用 CSV 模块,CSV 模块提供了有用的方法来读取存储在 CSV 文件中的逗号分隔值。我们现在就尝试一下
import csv with open('chocolate.csv') as f: reader = csv.reader(f, delimiter=',') for row in reader: print(row)
Output:
['Company', 'Bean Origin or Bar Name', 'REF', 'Review Date', 'Cocoa Percent', 'Company Location', 'Rating', 'Bean Type', 'Country of Origin'] ['A. Morin', 'Agua Grande', '1876', '2016', '63%', 'France', '3.75', 'Âxa0', 'Sao Tome'] ['A. Morin', 'Kpime', '1676', '2015', '70%', 'France', '2.75', 'Âxa0', 'Togo'] ['A. Morin', 'Atsane', '1676', '2015', '70%', 'France', '3', 'Âxa0', 'Togo'] ['A. Morin', 'Akata', '1680', '2015', '70%', 'France', '3.5', 'Âxa0', 'Togo'] ...
CSV 文件的每一行形成一个列表,其中每个项目都可以轻松的被访问,如下所示:
import csv with open('chocolate.csv') as f: reader = csv.reader(f, delimiter=',') for row in reader: print("The {} company is located in {}.".format(row[0], row[5]))
Output:
The Company company is located in Company Location. The A. Morin company is located in France. The A. Morin company is located in France. The A. Morin company is located in France. The A. Morin company is located in France. The Acalli company is located in U.S.A.. The Acalli company is located in U.S.A.. The Adi company is located in Fiji. ...
很多时候,使用列的名称而不是使用它们的索引,这通常对专业人员来说更方便。在这种情况下,我们不使用 reader() 方法,而是使用返回字典对象集合的 DictReader() 方法
import csv with open('chocolate.csv') as f: dict_reader = csv.DictReader(f, delimiter=',') for row in dict_reader: print("The {} company is located in {}.".format(row['Company'], row['Company Location']))
Output:
The A. Morin company is located in France. The A. Morin company is located in France. The A. Morin company is located in France. The A. Morin company is located in France. The Acalli company is located in U.S.A.. The Acalli company is located in U.S.A.. The Adi company is located in Fiji. ...
我们主要用于存储和交换数据的另一种流行文件格式是 JSON,JSON 代表 JavaScript Object Notation,允许我们使用逗号分隔的键值对存储数据
接下来我们将加载一个 JSON 文件并将其作为 JSON 对象使用,而不是作为文本文件,为此我们需要导入 JSON 模块。然后在 with 上下文管理器中,我们使用了属于 json 对象的 load() 方法,它加载文件的内容并将其作为字典存储在上下文变量中。
import json with open('movie.json') as f: content = json.load(f) print(content)
Output:
{'Title': 'Bicentennial Man', 'Release Date': 'Dec 17 1999', 'MPAA Rating': 'PG', 'Running Time min': 132, 'Distributor': 'Walt Disney Pictures', 'Source': 'Based on Book/Short Story', 'Major Genre': 'Drama', 'Creative Type': 'Science Fiction', 'Director': 'Chris Columbus', 'Rotten Tomatoes Rating': 38, 'IMDB Rating': 6.4, 'IMDB Votes': 28827}
让我们检查内容变量的数据类型:
print(type(content))
Output:
<class 'dict'>
它的数据类型是字典,因此我们可以方便的从中提取数据
print('{} directed by {}'.format(content['Title'], content['Director']))
Output:
Bicentennial Man directed by Chris Columbus
今天我们讨论了 Python 中的文件处理,重点是读取文件的内容。我们了解了 open() 内置函数、with 上下文管理器,以及如何读取文本、CSV 和 JSON 等常见文件类型。
好了,这就是今天分享的全部内容,喜欢就点个赞吧~
以上是一文搞定Python讀取文件的全部知識的詳細內容。更多資訊請關注PHP中文網其他相關文章!