多處理:確保對唯讀資料的共享存取
在多處理場景中,進程間資料共享的問題經常出現。具體來說,在處理大型唯讀資料結構時,最好避免將此資料複製到每個進程,這既耗時又佔用記憶體。
考慮以下程式碼片段:
<code class="python">glbl_array = # a 3 Gb array def my_func( args, def_param = glbl_array): #do stuff on args and def_param if __name__ == '__main__': pool = Pool(processes=4) pool.map(my_func, range(1000))</code>
在此範例中,全域變數 glbl_array 定義為大型 (3 Gb) 陣列。 my_func 函數設計用於對 glbl_array 進行操作。當使用 Pool(processes=4) 產生多個進程進行並行執行時,就會出現問題:每個進程會收到 glbl_array 中資料的單獨副本,還是所有進程會共用相同的唯讀資料?
在 Linux 中,fork 系統呼叫的語意支援多處理,支援寫入時複製語意。這意味著,如果 glbl_array 是唯讀的,除非必要,否則不會在進程之間物理複製資料。
但是,如果修改了 glbl_array,一個進程所做的更改將反映在所有其他進程可存取的資料中流程。為了防止不必要的資料覆蓋,請考慮利用不可變物件(例如 glbl_array 的 tostring() 表示形式)作為函數的預設參數。
或者,可以利用 Python 多處理模組提供的共享記憶體設施明確建立和管理共享記憶體段,從而確保資料不會跨進程重複。
以上是如何確保多處理中唯讀資料的共享存取?的詳細內容。更多資訊請關注PHP中文網其他相關文章!