PHP是一門託管型語言,在PHP程式設計中程式設計師不需要手動處理記憶體資源的分配與釋放(使用C編寫PHP或Zend擴充除外),這就意味著PHP本身實現了垃圾回收機制(Garbage Collection)。現在如果去PHP官方網站(php.net)可以看到,目前PHP5的兩個分支版本PHP5.2和PHP5.3是分別更新的,這是因為許多項目仍然使用5.2版本的PHP,而5.3版本對5.2並不是完全相容。 PHP5.3在PHP5.2的基礎上做了許多改進,其中垃圾回收演算法就屬於一個比較大的改變。本文將分別討論PHP5.2和PHP5.3的垃圾回收機制,並討論這種演化和改進對於程式設計師編寫PHP的影響以及要注意的問題。
PHP變數及關聯記憶體物件的內部表示
垃圾回收說到底是對變數及其所關聯記憶體物件的操作,所以在討論PHP的垃圾回收機制前,先簡單介紹PHP中變數及其記憶體物件的內部表示(其C原始碼中的表示)。
PHP官方文件中將PHP中的變數分為兩類:標量類型和複雜類型。標量類型包括布林型、整數、浮點型和字串;複雜型別包括陣列、物件和資源;還有一個NULL比較特殊,它不分為任何型別,而是單獨成為一類。
所有這些類型,在PHP內部統一用一個叫做zval的結構表示,在PHP原始碼中這個結構名稱為「_zval_struct」。 zval的具體定義在PHP原始碼的「Zend/zend.h」檔案中,以下是相關程式碼的摘錄。
<ol class="dp-c"> <li class="alt"><span><span>typedef union _zvalue_value { </span></span></li> <li> <span> long lval; </span><span class="comment">/* long value */</span><span> </span> </li> <li class="alt"> <span> double dval; </span><span class="comment">/* double value */</span><span> </span> </li> <li><span> struct { </span></li> <li class="alt"><span> char *val; </span></li> <li><span> int len; </span></li> <li class="alt"><span> } str; </span></li> <li> <span> HashTable *ht; </span><span class="comment">/* hash table value */</span><span> </span> </li> <li class="alt"><span> zend_object_value obj; </span></li> <li><span>} zvalue_value; </span></li> <li class="alt"><span> </span></li> <li><span>struct _zval_struct { </span></li> <li class="alt"> <span> </span><span class="comment">/* Variable information */</span><span> </span> </li> <li><span> zvalue_value value; </span></li> <li class="alt"> <span class="comment">/* value */</span><span> </span> </li> <li><span> zend_uint refcount__gc; </span></li> <li class="alt"> <span> zend_uchar type; </span><span class="comment">/* active type */</span><span> </span> </li> <li><span> zend_uchar is_ref__gc; </span></li> <li class="alt"><span>}; </span></li> </ol>
其中聯合體「_zvalue_value」用來表示PHP中所有變數的值,這裡之所以使用union,是因為一個zval在一個時刻只能表示一種類型的變數。可以看到_zvalue_value中只有5個字段,但是PHP中算上NULL有8種資料類型,那麼PHP內部是如何用5個字段表示8種類型呢?這算是PHP設計比較巧妙的一個地方,它通過復用字段達到了減少字段的目的。例如,在PHP內部布林型、整數及資源(只要儲存資源的識別碼即可)都是透過lval欄位儲存的;dval用於儲存浮點型;str儲存字串;ht儲存陣列(注意PHP中的陣列其實是哈希表);而obj儲存物件類型;如果所有欄位全部置為0或NULL則表示PHP中的NULL,這樣就達到了用5個欄位儲存8種類型的值。
而目前zval中的value(value的型別即是_zvalue_value)到底表示那種型,則由「_zval_struct」中的type來決定。 _zval_struct即是zval在C語言中的具體實現,每個zval表示一個變數的記憶體物件。除了value和type,可以看到_zval_struct中還有兩個欄位refcount__gc和is_ref__gc,從其後綴可以斷定這兩個傢伙與垃圾回收有關。沒錯,PHP的垃圾回收全靠這倆欄位了。其中refcount__gc表示目前有幾個變數引用此zval,而is_ref__gc表示目前zval是否被按引用引用,這話聽起來很拗口,這和PHP中zval的「Write-On-Copy」機制有關,由於這個話題不是本文重點,因此這裡不再詳述,讀者只需記住refcount__gc這個字段的作用即可。
PHP5.2中的垃圾回收演算法-Reference Counting
PHP5.2所使用的記憶體回收演算法是大名鼎鼎的Reference Counting,這個中文演算法翻譯叫做“引用計數”,其思想非常直觀和簡潔:為每個內存對象分配一個計數器,當一個內存對象建立時計數器初始化為1(因此此時總是有一個變量引用此對象),以後每有一個新變數引用此記憶體對象,則計數器加1,而每當減少一個引用此記憶體對象的變數則計數器減1,當垃圾回收機制運作的時候,將所有計數器為0的記憶體物件銷毀並回收其佔用的記憶體。而PHP中記憶體物件就是zval,而計數器就是refcount__gc。
例如下面一段PHP程式碼示範了PHP5.2計數器的工作原理(計數器值透過xdebug得到):
<ol class="dp-c"><li class="alt"><span><span><?php </span></span></li><li><span> </span></li><li class="alt"><span class="vars">$val1</span><span> = 100; </span><span class="comment">//zval(val1).refcount_gc = 1; </span><span> </span></li><li><span class="vars">$val2</span><span> = </span><span class="vars">$val1</span><span>; </span><span class="comment">//zval(val1).refcount_gc = 2,zval(val2).refcount_gc = 2(因为是Write on copy,当前val2与val1共同引用一个zval) </span><span> </span></li><li class="alt"><span class="vars">$val2</span><span> = 200; </span><span class="comment">//zval(val1).refcount_gc = 1,zval(val2).refcount_gc = 1(此处val2新建了一个zval) </span><span> </span></li><li><span>unset(</span><span class="vars">$val1</span><span>); </span><span class="comment">//zval(val1).refcount_gc = 0($val1引用的zval再也不可用,会被GC回收) </span><span> </span></li><li class="alt"><span> </span></li><li><span>?> </span></span></li></ol>
Reference Counting簡單直觀,實現方便,但卻存在一個致命的缺陷,就是容易造成記憶體外洩。很多朋友可能已經意識到了,如果存在循環引用,那麼Reference Counting就可能導致記憶體外洩。例如下面的程式碼:
<ol class="dp-c"><li class="alt"><span><span><?php </span></span></li><li><span> </span></li><li class="alt"><span class="vars">$a</span><span> = </span><span class="keyword">array</span><span>(); </span></li><li><span class="vars">$a</span><span>[] = & </span><span class="vars">$a</span><span>; </span></li><li class="alt"><span>unset(</span><span class="vars">$a</span><span>); </span></li><li><span> </span></li><li class="alt"><span>?> </span></span></li></ol>
這段程式碼先建立了陣列a,然後讓a的第一個元素按引用指向a,這時a的zval的refcount就變成2,然後我們銷毀變數a,此時a最初指向的zval的refcount為1,但是我們再也沒有辦法對其進行操作,因為其形成了一個循環自引用,如下圖所示: