深入解析Python中的垃圾回收機制-Python教學-PHP中文網

深入解析Python中的垃圾回收機制

得益於Python的自動垃圾回收機制，在Python中建立物件時無須手動釋放。這對開發者非常友好，讓開發者無須關注低層記憶體管理。但如果對其垃圾回收機制不了解，很多時候寫出的Python程式碼會非常低效。

垃圾回收演算法很多，主要有：引用計數、標記-清除、分代收集等。

在python中，垃圾回收演算法以引用計數為主，標記-清除和分代收集兩種機制為輔。

1 引用計數

1.1 引用計數演算法原理

引用計數原理比較簡單：

每個物件都有一個整數型的參考計數屬性。用於記錄物件被引用的次數。

例如物件A，如果有物件引用了A，則A的參考計數+1。

當引用刪除時，A的參考計數-1。

當A的參考計數為0時，即表示物件A不可能再被使用，直接回收。

在Python中，可以透過sys模組的getrefcount函數取得指定物件的參考計數器的值，我們以實際例子來看。

import sys

class A():
    def __init__(self):
        pass
        
a = A()
print(sys.getrefcount(a))

登入後複製

執行上面程式碼，可以得到輸出結果為2。

1.2 計數器增減條件

上面我們看到，創建一個A對象，並將對象賦值給a變量後，物件的參考計數器值為2。那什麼時候計數器會+1，什麼時候計數器會-1呢？

1.2.1 引用計數+1的條件

#物件被創建，如A()。

物件被引用，如a=A()。

物件作為函數的參數，如func(a)。

物件作為容器的元素，如arr=[a,a]。

1.2.2 引用計數-1的條件

物件被明確銷毀，如del a。

變數重新賦予新的對象，例如a=0。

物件離開它的作用域，如func函數執行完畢時，func函數中的局部變數（全域變數不會）。

物件所在的容器被銷毀，或從容器中刪除物件。

1.2.3 程式碼實戰

為了更好的理解計數器的增減，我們運行實際程式碼，一目了然。

import sys
 
class A():

    def __init__(self):
        pass
 
print("创建对象 0 + 1 =", sys.getrefcount(A()))

a = A()
print("创建对象并赋值 0 + 2 =", sys.getrefcount(a))

b = a
c = a
print("赋给2个变量 2 + 2 =", sys.getrefcount(a))

b = None
print("变量重新赋值 4 - 1 =", sys.getrefcount(a))

del c
print("del对象 3 - 1 =", sys.getrefcount(a))

d = [a, a, a]
print("3次加入列表 2 + 3 =", sys.getrefcount(a))


def func(c):
    print('传入函数 1 + 2 = ', sys.getrefcount(c))
func(A())

登入後複製

輸出結果如下：

创建对象 0 + 1 = 1
创建对象并赋值 0 + 2 = 2
赋给2个变量 2 + 2 = 4
变量重新赋值 4 - 1 = 3
del对象 3 - 1 = 2
3次加入列表 2 + 3 = 5
传入函数 1 + 2 =  3

登入後複製

1.3 引用計數的優點與缺點

1.3.1 引用計數優點

有效率、邏輯簡單，只要依照規則對計數器做加減法。

實時性。一旦物件的計數器為零，就表示物件永遠不可能再被用到，無須等待特定時機，直接釋放記憶體。

1.3.2 引用計數缺點

#需要為物件分配引用計數空間，增大了記憶體消耗。

當需要釋放的物件比較大時，如字典對象，需要對引用的所有物件循環嵌套調用，可能耗時比較長。

循環引用。 這是引用計數的致命傷，引用計數對此是無解的，因此必須要使用其它的垃圾回收演算法對其進行補充。

深入解析Python中的垃圾回收機制

2 標記-清除

上一小節提到，引用計數演算法無法解決循環引用問題，循環引用的物件會導致大家的計數器永遠不會等於0，帶來無法回收的問題。

標記-清除演算法主要用於潛在的循環引用問題，演算法分為2步驟：

##標記階段。將所有的物件看成圖的節點，根據物件的引用關係建構圖結構。從圖的根節點遍歷所有的對象，所有訪問到的對像被打上標記，表示對像是「可達」的。

清除階段。遍歷所有對象，如果發現某個對象沒有標記為“可達”，則回收。

以具體程式碼範例說明：

class A():
    def __init__(self):
        self.obj = None
 
def func():
    a = A()
    b = A()
    c = A()
    d = A()

    a.obj = b
    b.obj = a
    return [c, d]

e = func()

登入後複製

上面程式碼中，a和b互相引用，e引用了c和d。整個引用關係如下圖所示：

深入解析Python中的垃圾回收機制

如果采用引用计数器算法，那么a和b两个对象将无法被回收。而采用标记清除法，从根节点（即e对象）开始遍历，c、d、e三个对象都会被标记为可达，而a和b无法被标记。因此a和b会被回收。

这是读者可能会有疑问，为什么确定根节点是e，而不会是a、b、c、d呢？这里就有讲究了，什么样的对象会被看成是根节点呢？一般而言，根节点的选取包括（但不限于）如下几种：

当前栈帧中的本地变量表中引用的对象，如各个线程被调用的方法堆栈中使用到的参数、局部变量、临时变量等。

全局静态变量

...

3 分代收集

3.1 分代收集原理

在执行垃圾回收过程中，程序会被暂停，即stop-the-world。这里很好理解：你妈妈在打扫房间的时候，肯定不允许你在房间内到处丢垃圾，要不然永远也无法打扫干净。

为了减少程序的暂停时间，采用分代回收(Generational Collection)降低垃圾收集耗时。

分代回收基于这样的法则：

接大部分的对象生命周期短，大部分对象都是朝生夕灭。

经历越多次数的垃圾收集且活下来的对象，说明该对象越不可能是垃圾，应该越少去收集。

Python中，对象一共有3种世代：G0,G1,G2。

对象刚创建时为G0。

如果在一轮GC扫描中存活下来，则移至G1，处于G1的对象被扫描次数会减少。

如果再次在扫描中活下来，则进入G2，处于G1的对象被扫描次数将会更少。

3.2 触发GC时机

当某世代中分配的对象数量与被释放的对象之差达到某个阈值的时，将触发对该代的扫描。当某世代触发扫描时，比该世代年轻的世代也会触发扫描。

那么这个阈值是多少呢？我们可以通过代码查看或者修改，示例代码如下

import gc
threshold = gc.get_threshold()
print("各世代的阈值:", threshold)

# 设置各世代阈值
# gc.set_threshold(threshold0[, threshold1[, threshold2]])
gc.set_threshold(800, 20, 20)

登入後複製

输出结果如下：