多处理:确保对只读数据的共享访问
在多处理场景中,进程间数据共享的问题经常出现。具体来说,在处理大型只读数据结构时,最好避免将此数据复制到每个进程,这既耗时又占用内存。
考虑以下代码片段:
<code class="python">glbl_array = # a 3 Gb array def my_func( args, def_param = glbl_array): #do stuff on args and def_param if __name__ == '__main__': pool = Pool(processes=4) pool.map(my_func, range(1000))</code>
在此示例中,全局变量 glbl_array 被定义为大型 (3 Gb) 数组。 my_func 函数设计用于对 glbl_array 进行操作。当使用 Pool(processes=4) 生成多个进程进行并行执行时,就会出现问题:每个进程会收到 glbl_array 中数据的单独副本,还是所有进程会共享相同的只读数据?
在 Linux 中,fork 系统调用的语义支持多处理,支持写时复制语义。这意味着,如果 glbl_array 是只读的,除非必要,否则不会在进程之间物理复制数据。
但是,如果修改了 glbl_array,一个进程所做的更改将反映在所有其他进程可访问的数据中流程。为了防止不必要的数据覆盖,请考虑利用不可变对象(例如 glbl_array 的 tostring() 表示形式)作为函数的默认参数。
或者,可以利用 Python 多处理模块提供的共享内存设施显式创建和管理共享内存段,从而确保数据不会跨进程重复。
以上是如何确保多处理中只读数据的共享访问?的详细内容。更多信息请关注PHP中文网其他相关文章!