这篇文章主要是从原理, 手册和源码分析在PHP中查询MySQL返回大量结果时, 内存占用的问题, 同时对使用MySQL C API也有涉及.
昨天, 有同事在PHP讨论群里提到, 他做的一个项目由于MySQL查询返回的结果太多(达10万条), 从而导致PHP内存不够用. 所以, 他问, 在执行下面的代码遍历返回的MySQL结果之前, 数据是否已经在内存中了? -
while ($row = mysql_fetch_assoc($result)) { // ... }
|
当然, 这种问题有许多优化的方法. 不过, 就这个问题来讲, 我首先想到, MySQL是经典的C/S(Client/Server, 客户端/服务器)模型, 在遍历结果集之前, 底层的实现可能已经把所有的数据通过网络(假设使用TCP/IP)读到了Client的缓冲区, 也有另一种可能, 就是数据还在Server端的发送缓冲区里, 并没有传给Client.
在查看PHP和MySQL的源码之前, 我注意到PHP手册里有两个功能相近的函数:
mysql_query() mysql_unbuffered_query()
|
两个函数的字面意思和说明证实了我的想法, 前一个函数执行时, 会把所有的结果集从Server端读到Client端的缓冲区中, 而后一个则没有, 这就是”unbuffered(未缓冲)”的意思.
那就是说, 如果用mysql_unbuffered_query()执行了一条返回大量结果集的SQL语句, 在遍历结果之前, PHP的内存是没有被结果集占用的. 而用mysql_query()来执行同样的语句的话, 函数返回时, PHP的内存占用便会急剧增加, 立即耗光内存.
如果阅读PHP的相关代码, 可以看到这两个函数的实现上的异同:
/* {{{ proto resource mysql_query(string query [, int link_identifier]) Sends an SQL query to MySQL */ PHP_FUNCTION(mysql_query) { php_mysql_do_query(INTERNAL_FUNCTION_PARAM_PASSTHRU, MYSQL_STORE_RESULT); } /* }}} */ /* {{{ proto resource mysql_unbuffered_query(string query [, int link_identifier]) Sends an SQL query to MySQL, without fetching and buffering the result rows */ PHP_FUNCTION(mysql_unbuffered_query) { php_mysql_do_query(INTERNAL_FUNCTION_PARAM_PASSTHRU, MYSQL_USE_RESULT); } /* }}} */
|
どちらの関数も php_mysql_do_query() を呼び出しますが、2 番目のパラメーター MYSQL_STORE_RESULT と MYSQL_USE_RESULT だけが異なります。 php_mysql_do_query():
の実装を見てみましょう。
if(use_store == MYSQL_USE_RESULT) { mysql_result=mysql_use_result(&mysql->conn); } 他 { mysql_result=mysql_store_result(&mysql->conn); } |
Mysql_use_result() と mysql_store_result() は MySQL の C API 関数です。これら 2 つの C API 関数の違いは、後者は MySQL サーバーからクライアントに結果セット全体を読み取るのに対し、前者はそのメタ情報のみを読み取ることです。結果セット。
PHP に戻り、mysql_unbuffered_query() を使用して、即時のメモリ占有を回避します。結果がトラバーサル プロセス中に「PHP キャッシュ」されない場合 (配列に配置する場合など)、実行プロセス全体が数十万単位で動作します。数百ものデータがありますが、PHP が占有するメモリは常に非常に小さいです。