PHP クローラー: 数百万の Zhihu ユーザー データをクロールおよび分析する_PHP チュートリアル
PHP クローラー: 数百万の Zhihu ユーザー データをクロールして分析します
今回は110万件のユーザーデータを収集しました。データ分析結果は次のとおりです。
開発前の準備
Linux システム Ubuntu14.04 をインストールし、VMWare 仮想マシンに Ubuntu をインストールします。PHP5.6以降をインストールしてください。
MySQL5.5 以降をインストールします。curl 拡張機能と pcntl 拡張機能をインストールします。
PHPのcurl拡張機能を使用してページデータを取得しますPHP 用のカール拡張機能は、さまざまなタイプのプロトコルを使用してさまざまなサーバーに接続して通信できるようにする、PHP でサポートされているライブラリです。 このプログラムは Zhihu ユーザーデータをキャプチャします。ユーザーの個人ページにアクセスできるようにするには、ユーザーはアクセスする前にログインする必要があります。ブラウザ ページ上のユーザー アバター リンクをクリックしてユーザーのパーソナル センター ページにアクセスすると、ユーザーの情報が表示されるのは、リンクをクリックすると、ブラウザがローカル Cookie を取得して一緒に送信するのに役立つためです。新しいページに移動すると、ユーザーの個人センター ページに入ることができます。したがって、個人ページにアクセスする前に、ユーザーの Cookie 情報を取得し、その Cookie 情報を各 Curl リクエストに含める必要があります。 Cookie 情報の取得に関しては、私自身の Cookie を使用しました。Cookie 情報は次のページで確認できます:
それらを 1 つずつコピーして、「__utma=?;__utmb=?;」の形式の Cookie 文字列を形成します。この Cookie 文字列は、リクエストの送信に使用できます。
上記のコードを実行して、mora-huユーザーの個人センターページを取得します。この結果を使用し、正規表現を使用してページを処理すると、名前、性別、およびキャプチャする必要があるその他の情報を取得できます。
画像ホットリンク保護返された結果を正規化して個人情報を出力する際、ページ上にユーザーのアバターを出力する際に開けないことが分かりました。情報を確認したところ、Zhihu が写真をホットリンクから保護していたためであることがわかりました。解決策は、画像をリクエストするときにリクエスト ヘッダーでリファラーを偽造することです。 正規表現を使用して画像へのリンクを取得した後、今度は画像リクエストのソースを提示して、リクエストが Zhihu Web サイトから転送されたことを示します。具体的な例は次のとおりです。
リーリー より多くのユーザーをクロールします個人情報を取得した後、ユーザーのフォロワーおよびフォローされているユーザーのリストにアクセスして、より多くのユーザー情報を取得する必要があります。次に、レイヤーごとにアクセスします。ご覧のとおり、パーソナル センター ページには次の 2 つのリンクがあります:
ここには 2 つのリンクがあり、1 つはフォローされているリンク、もう 1 つはフォロワーです。通常のマッチングを使用して、対応するリンクを照合します。URL を取得した後、curl を使用して Cookie を取得し、別のリクエストを送信します。ユーザーがフォローしたリストページをクロールすると、次のページが表示されます:
ページの HTML 構造を分析します。取得する必要があるのはユーザーの情報のみであるため、フレーム化された div コンテンツのみが必要であり、その中にユーザー名が含まれています。ご覧のとおり、ユーザーがフォローしたページの URL は次のとおりです:
異なるユーザーの URL はほぼ同じですが、違いはユーザー名にあります。通常のマッチングを使用してユーザー名のリストを取得し、URL を 1 つずつ入力して、リクエストを 1 つずつ送信します。もちろん、1 つずつの処理は比較的時間がかかります。これについては後で説明します。新しいユーザーのページに入ったら、上記の手順を繰り返し、必要なデータ量に達するまでこのループを続けます。
スクリプトをしばらく実行した後、取得した写真の数を確認する必要があります。データ量が比較的多い場合、フォルダーを開いて写真の数を確認するのは少し時間がかかります。スクリプトは Linux 環境で実行されるため、Linux コマンドを使用してファイル数をカウントできます: ls -l grep "^-" |
其中, ls -l 是长列表输出该目录下的文件信息这里的文件可以是目录、链接、设备文件等); <code>grep "^-" 过滤长列表输出信息, <code>"^-" 只保留一般文件,如果只保留目录是 <code>"^d" ; <code>wc -l 是统计输出信息的行数。下面是一个运行示例:
插入MySQL时重复数据的处理
程序运行了一段时间后,发现有很多用户的数据是重复的,因此需要在插入重复用户数据的时候做处理。处理方案如下:
1)插入数据库之前检查数据是否已经存在数据库;
2)添加唯一索引,插入时使用 INSERT INTO ... ON DUPLICATE KEY UPDATE...
3)添加唯一索引,插入时使用 INSERT INGNORE INTO...
4)添加唯一索引,插入时使用 REPLACE INTO...
第一种方案是最简单但也是效率最差的方案,因此不采取。二和四方案的执行结果是一样的,不同的是,在遇到相同的数据时, INSERT INTO … ON DUPLICATE KEY UPDATE 是直接更新的,而 REPLACE INTO 是先删除旧的数据然后插入新的,在这个过程中,还需要重新维护索引,所以速度慢。所以在二和四两者间选择了第二种方案。而第三种方案, INSERT INGNORE 会忽略执行INSERT语句出现的错误,不会忽略语法问题,但是忽略主键存在的情况。这样一来,使用 INSERT INGNORE 就更好了。最终,考虑到要在数据库中记录重复数据的条数,因此在程序中采用了第二种方案。
使用curl_multi实现多线程抓取页面
刚开始单进程而且单个curl去抓取数据,速度很慢,挂机爬了一个晚上只能抓到2W的数据,于是便想到能不能在进入新的用户页面发curl请求的时 候一次性请求多个用户,后来发现了curl_multi这个好东西。curl_multi这类函数可以实现同时请求多个url,而不是一个个请求,这类似 于linux系统中一个进程开多条线程执行的功能。下面是使用curl_multi实现多线程爬虫的示例:
<ol class="dp-j"><li class="alt"><span><span>$mh = curl_multi_init(); </span><span class="comment">//返回一个新cURL批处理句柄</span><span> </span></span></li><li><span><span class="keyword">for</span><span> ($i = </span><span class="number">0</span><span>; $i < $max_size; $i++) </span></span></li><li class="alt"><span>{ </span></li><li><span> $ch = curl_init(); <span class="comment">//初始化单个cURL会话</span><span> </span></span></li><li class="alt"><span> curl_setopt($ch, CURLOPT_HEADER, <span class="number">0</span><span>); </span></span></li><li><span> curl_setopt($ch, CURLOPT_URL, <span class="string">'http://www.zhihu.com/people/'</span><span> . $user_list[$i] . </span><span class="string">'/about'</span><span>); </span></span></li><li class="alt"><span> curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie); </span></li><li><span> curl_setopt($ch, CURLOPT_USERAGENT, <span class="string">'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36'</span><span>); </span></span></li><li class="alt"><span> curl_setopt($ch, CURLOPT_RETURNTRANSFER, <span class="keyword">true</span><span>); </span></span></li><li><span> curl_setopt($ch, CURLOPT_FOLLOWLOCATION, <span class="number">1</span><span>); </span></span></li><li class="alt"><span> $requestMap[$i] = $ch; </span></li><li><span> curl_multi_add_handle($mh, $ch); <span class="comment">//向curl批处理会话中添加单独的curl句柄</span><span> </span></span></li><li class="alt"><span>} </span></li><li><span> </span></li><li class="alt"><span>$user_arr = array(); </span></li><li><span><span class="keyword">do</span><span> { </span></span></li><li class="alt"><span> <span class="comment">//运行当前 cURL 句柄的子连接</span><span> </span></span></li><li><span> <span class="keyword">while</span><span> (($cme = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM); </span></span></li><li class="alt"><span> </span></li><li><span> <span class="keyword">if</span><span> ($cme != CURLM_OK) {</span><span class="keyword">break</span><span>;} </span></span></li><li class="alt"><span> <span class="comment">//获取当前解析的cURL的相关传输信息</span><span> </span></span></li><li><span> <span class="keyword">while</span><span> ($done = curl_multi_info_read($mh)) </span></span></li><li class="alt"><span> { </span></li><li><span> $info = curl_getinfo($done[<span class="string">'handle'</span><span>]); </span></span></li><li class="alt"><span> $tmp_result = curl_multi_getcontent($done[<span class="string">'handle'</span><span>]); </span></span></li><li><span> $error = curl_error($done[<span class="string">'handle'</span><span>]); </span></span></li><li class="alt"><span> </span></li><li><span> $user_arr[] = array_values(getUserInfo($tmp_result)); </span></li><li class="alt"><span> </span></li><li><span> <span class="comment">//保证同时有$max_size个请求在处理</span><span> </span></span></li><li class="alt"><span> <span class="keyword">if</span><span> ($i < sizeof($user_list) && isset($user_list[$i]) && $i < count($user_list)) </span></span></li><li><span> { </span></li><li class="alt"><span> $ch = curl_init(); </span></li><li><span> curl_setopt($ch, CURLOPT_HEADER, <span class="number">0</span><span>); </span></span></li><li class="alt"><span> curl_setopt($ch, CURLOPT_URL, <span class="string">'http://www.zhihu.com/people/'</span><span> . $user_list[$i] . </span><span class="string">'/about'</span><span>); </span></span></li><li><span> curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie); </span></li><li class="alt"><span> curl_setopt($ch, CURLOPT_USERAGENT, <span class="string">'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36'</span><span>); </span></span></li><li><span> curl_setopt($ch, CURLOPT_RETURNTRANSFER, <span class="keyword">true</span><span>); </span></span></li><li class="alt"><span> curl_setopt($ch, CURLOPT_FOLLOWLOCATION, <span class="number">1</span><span>); </span></span></li><li><span> $requestMap[$i] = $ch; </span></li><li class="alt"><span> curl_multi_add_handle($mh, $ch); </span></li><li><span> </span></li><li class="alt"><span> $i++; </span></li><li><span> } </span></li><li class="alt"><span> </span></li><li><span> curl_multi_remove_handle($mh, $done[<span class="string">'handle'</span><span>]); </span></span></li><li class="alt"><span> } </span></li><li><span> </span></li><li class="alt"><span> <span class="keyword">if</span><span> ($active) </span></span></li><li><span> curl_multi_select($mh, <span class="number">10</span><span>); </span></span></li><li class="alt"><span>} <span class="keyword">while</span><span> ($active); </span></span></li><li><span> </span></li><li class="alt"><span>curl_multi_close($mh); </span></li><li><span><span class="keyword">return</span><span> $user_arr; </span></span></li></ol>
HTTP 429 Too Many Requests
使用curl_multi函数可以同时发多个请求,但是在执行过程中使同时发200个请求的时候,发现很多请求无法返回了,即发现了丢包的情况。进 一步分析,使用 curl_getinfo 函数打印每个请求句柄信息,该函数返回一个包含HTTP response信息的关联数组,其中有一个字段是http_code,表示请求返回的HTTP状态码。看到有很多个请求的http_code都是 429,这个返回码的意思是发送太多请求了。我猜是知乎做了防爬虫的防护,于是我就拿其他的网站来做测试,发现一次性发200个请求时没问题的,证明了我 的猜测,知乎在这方面做了防护,即一次性的请求数量是有限制的。于是我不断地减少请求数量,发现在5的时候就没有丢包情况了。说明在这个程序里一次性最多 只能发5个请求,虽然不多,但这也是一次小提升了。
使用Redis保存已经访问过的用户
抓取用户的过程中,发现有些用户是已经访问过的,而且他的关注者和关注了的用户都已经获取过了,虽然在数据库的层面做了重复数据的处理,但是程序还 是会使用curl发请求,这样重复的发送请求就有很多重复的网络开销。还有一个就是待抓取的用户需要暂时保存在一个地方以便下一次执行,刚开始是放到数组 里面,后来发现要在程序里添加多进程,在多进程编程里,子进程会共享程序代码、函数库,但是进程使用的变量与其他进程所使用的截然不同。不同进程之间的变 量是分离的,不能被其他进程读取,所以是不能使用数组的。因此就想到了使用Redis缓存来保存已经处理好的用户以及待抓取的用户。这样每次执行完的时候 都把用户push到一个already_request_queue队列中,把待抓取的用户即每个用户的关注者和关注了的用户列表)push到 request_queue里面,然后每次执行前都从request_queue里pop一个用户,然后判断是否在 already_request_queue里面,如果在,则进行下一个,否则就继续执行。
在PHP中使用redis示例:
<ol class="dp-j"><li class="alt"><span><span><php </span></span></li><li><span> $redis = <span class="keyword">new</span><span> Redis(); </span></span></li><li class="alt"><span> $redis->connect(<span class="string">'127.0.0.1'</span><span>, </span><span class="string">'6379'</span><span>); </span></span></li><li><span> $redis->set(<span class="string">'tmp'</span><span>, </span><span class="string">'value'</span><span>); </span></span></li><li class="alt"><span> <span class="keyword">if</span><span> ($redis->exists(</span><span class="string">'tmp'</span><span>)) </span></span></li><li><span> { </span></li><li class="alt"><span> echo $redis->get(<span class="string">'tmp'</span><span>) . </span><span class="string">"\n"</span><span>; </span></span></li><li><span> } </span></li></ol>
使用PHP的pcntl扩展实现多进程
改用了curl_multi函数实现多线程抓取用户信息之后,程序运行了一个晚上,最终得到的数据有10W。还不能达到自己的理想目标,于是便继续优化,后来发现php里面有一个pcntl扩展可以实现多进程编程。下面是多编程编程的示例:
<ol class="dp-j"><li class="alt"><span><span class="comment">//PHP多进程demo</span><span> </span></span></li><li><span><span class="comment">//fork10个进程</span><span> </span></span></li><li class="alt"><span><span class="keyword">for</span><span> ($i = </span><span class="number">0</span><span>; $i < </span><span class="number">10</span><span>; $i++) { </span></span></li><li><span> $pid = pcntl_fork(); </span></li><li class="alt"><span> <span class="keyword">if</span><span> ($pid == -</span><span class="number">1</span><span>) { </span></span></li><li><span> echo <span class="string">"Could not fork!\n"</span><span>; </span></span></li><li class="alt"><span> exit(<span class="number">1</span><span>); </span></span></li><li><span> } </span></li><li class="alt"><span> <span class="keyword">if</span><span> (!$pid) { </span></span></li><li><span> echo <span class="string">"child process $i running\n"</span><span>; </span></span></li><li class="alt"><span> <span class="comment">//子进程执行完毕之后就退出,以免继续fork出新的子进程</span><span> </span></span></li><li><span> exit($i); </span></li><li class="alt"><span> } </span></li><li><span>} </span></li><li class="alt"><span> </span></li><li><span><span class="comment">//等待子进程执行完毕,避免出现僵尸进程</span><span> </span></span></li><li class="alt"><span><span class="keyword">while</span><span> (pcntl_waitpid(</span><span class="number">0</span><span>, $status) != -</span><span class="number">1</span><span>) { </span></span></li><li><span> $status = pcntl_wexitstatus($status); </span></li><li class="alt"><span> echo <span class="string">"Child $status completed\n"</span><span>; </span></span></li><li><span>} </span></li></ol>
在Linux下查看系统的cpu信息
实现了多进程编程之后,就想着多开几条进程不断地抓取用户的数据,后来开了8调进程跑了一个晚上后发现只能拿到20W的数据,没有多大的提升。于是 查阅资料发现,根据系统优化的CPU性能调优,程序的最大进程数不能随便给的,要根据CPU的核数和来给,最大进程数最好是cpu核数的2倍。因此需要查 看cpu的信息来看看cpu的核数。在Linux下查看cpu的信息的命令:
<ol class="dp-j"><li class="alt"><span><span>cat /proc/cpuinfo </span></span></li></ol>
结果如下:
其中,model name表示cpu类型信息,cpu cores表示cpu核数。这里的核数是1,因为是在虚拟机下运行,分配到的cpu核数比较少,因此只能开2条进程。最终的结果是,用了一个周末就抓取了110万的用户数据。
多进程编程中Redis和MySQL连接问题
在多进程条件下,程序运行了一段时间后,发现数据不能插入到数据库,会报mysql too many connections的错误,redis也是如此。
下面这段代码会执行失败:
<ol class="dp-j"><li class="alt"><span><span><php </span></span></li><li><span> <span class="keyword">for</span><span> ($i = </span><span class="number">0</span><span>; $i < </span><span class="number">10</span><span>; $i++) { </span></span></li><li class="alt"><span> $pid = pcntl_fork(); </span></li><li><span> <span class="keyword">if</span><span> ($pid == -</span><span class="number">1</span><span>) { </span></span></li><li class="alt"><span> echo <span class="string">"Could not fork!\n"</span><span>; </span></span></li><li><span> exit(<span class="number">1</span><span>); </span></span></li><li class="alt"><span> } </span></li><li><span> <span class="keyword">if</span><span> (!$pid) { </span></span></li><li class="alt"><span> $redis = PRedis::getInstance(); </span></li><li><span> <span class="comment">// do something </span><span> </span></span></li><li class="alt"><span> exit; </span></li><li><span> } </span></li><li class="alt"><span> } </span></li></ol>
根本原因是在各个子进程创建时,就已经继承了父进程一份完全一样的拷贝。对象可以拷贝,但是已创建的连接不能被拷贝成多个,由此产生的结果,就是各个进程都使用同一个redis连接,各干各的事,最终产生莫名其妙的冲突。
解决方法: >程序不能完全保证在fork进程之前,父进程不会创建redis连接实例。因此,要解决这个问题只能靠子进程本身了。试想一下,如果在子进程中获 取的实例只与当前进程相关,那么这个问题就不存在了。于是解决方案就是稍微改造一下redis类实例化的静态方式,与当前进程ID绑定起来。
改造后的代码如下:
<ol class="dp-j"><li class="alt"><span><span><php </span></span></li><li><span> <span class="keyword">public</span><span> </span><span class="keyword">static</span><span> function getInstance() { </span></span></li><li class="alt"><span> <span class="keyword">static</span><span> $instances = array(); </span></span></li><li><span> $key = getmypid();<span class="comment">//获取当前进程ID</span><span> </span></span></li><li class="alt"><span> <span class="keyword">if</span><span> ($empty($instances[$key])) { </span></span></li><li><span> $inctances[$key] = <span class="keyword">new</span><span> self(); </span></span></li><li class="alt"><span> } </span></li><li><span> </span></li><li class="alt"><span> <span class="keyword">return</span><span> $instances[$key]; </span></span></li><li><span> } </span></li></ol>
PHP统计脚本执行时间
因为想知道每个进程花费的时间是多少,因此写个函数统计脚本执行时间:
<ol class="dp-j"><li class="alt"><span><span>function microtime_float() </span></span></li><li><span>{ </span></li><li class="alt"><span> list($u_sec, $sec) = explode(<span class="string">' '</span><span>, microtime()); </span></span></li><li><span> <span class="keyword">return</span><span> (floatval($u_sec) + floatval($sec)); </span></span></li><li class="alt"><span>} </span></li><li><span> </span></li><li class="alt"><span>$start_time = microtime_float(); </span></li><li><span> </span></li><li class="alt"><span><span class="comment">//do something</span><span> </span></span></li><li><span>usleep(<span class="number">100</span><span>); </span></span></li><li class="alt"><span> </span></li><li><span>$end_time = microtime_float(); </span></li><li class="alt"><span>$total_time = $end_time - $start_time; </span></li><li><span> </span></li><li class="alt"><span>$time_cost = sprintf(<span class="string">"%.10f"</span><span>, $total_time); </span></span></li><li><span> </span></li><li class="alt"><span>echo <span class="string">"program cost total "</span><span> . $time_cost . </span><span class="string">"s\n"</span><span>; </span></span></li></ol>
若文中有不正确的地方,望各位指出以便改正。
代码托管地址:https://github.com/HectorHu/zhihuSpider

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











このチュートリアルでは、PHPを使用してXMLドキュメントを効率的に処理する方法を示しています。 XML(拡張可能なマークアップ言語)は、人間の読みやすさとマシン解析の両方に合わせて設計された多用途のテキストベースのマークアップ言語です。一般的にデータストレージに使用されます

JWTは、JSONに基づくオープン標準であり、主にアイデンティティ認証と情報交換のために、当事者間で情報を安全に送信するために使用されます。 1。JWTは、ヘッダー、ペイロード、署名の3つの部分で構成されています。 2。JWTの実用的な原則には、JWTの生成、JWTの検証、ペイロードの解析という3つのステップが含まれます。 3. PHPでの認証にJWTを使用する場合、JWTを生成および検証でき、ユーザーの役割と許可情報を高度な使用に含めることができます。 4.一般的なエラーには、署名検証障害、トークンの有効期限、およびペイロードが大きくなります。デバッグスキルには、デバッグツールの使用とロギングが含まれます。 5.パフォーマンスの最適化とベストプラクティスには、適切な署名アルゴリズムの使用、有効期間を合理的に設定することが含まれます。

静的結合(静的::) PHPで後期静的結合(LSB)を実装し、クラスを定義するのではなく、静的コンテキストで呼び出しクラスを参照できるようにします。 1)解析プロセスは実行時に実行されます。2)継承関係のコールクラスを検索します。3)パフォーマンスオーバーヘッドをもたらす可能性があります。

文字列は、文字、数字、シンボルを含む一連の文字です。このチュートリアルでは、さまざまな方法を使用してPHPの特定の文字列内の母音の数を計算する方法を学びます。英語の母音は、a、e、i、o、u、そしてそれらは大文字または小文字である可能性があります。 母音とは何ですか? 母音は、特定の発音を表すアルファベットのある文字です。大文字と小文字など、英語には5つの母音があります。 a、e、i、o、u 例1 入力:string = "tutorialspoint" 出力:6 説明する 文字列「TutorialSpoint」の母音は、u、o、i、a、o、iです。合計で6元があります

PHPの魔法の方法は何ですか? PHPの魔法の方法には次のものが含まれます。1。\ _ \ _コンストラクト、オブジェクトの初期化に使用されます。 2。\ _ \ _リソースのクリーンアップに使用される破壊。 3。\ _ \ _呼び出し、存在しないメソッド呼び出しを処理します。 4。\ _ \ _ get、dynamic属性アクセスを実装します。 5。\ _ \ _セット、動的属性設定を実装します。これらの方法は、特定の状況で自動的に呼び出され、コードの柔軟性と効率を向上させます。

PHPとPythonにはそれぞれ独自の利点があり、プロジェクトの要件に従って選択します。 1.PHPは、特にWebサイトの迅速な開発とメンテナンスに適しています。 2。Pythonは、データサイエンス、機械学習、人工知能に適しており、簡潔な構文を備えており、初心者に適しています。

PHPは、電子商取引、コンテンツ管理システム、API開発で広く使用されています。 1)eコマース:ショッピングカート機能と支払い処理に使用。 2)コンテンツ管理システム:動的コンテンツの生成とユーザー管理に使用されます。 3)API開発:RESTFUL API開発とAPIセキュリティに使用されます。パフォーマンスの最適化とベストプラクティスを通じて、PHPアプリケーションの効率と保守性が向上します。

PHPは、サーバー側で広く使用されているスクリプト言語で、特にWeb開発に適しています。 1.PHPは、HTMLを埋め込み、HTTP要求と応答を処理し、さまざまなデータベースをサポートできます。 2.PHPは、ダイナミックWebコンテンツ、プロセスフォームデータ、アクセスデータベースなどを生成するために使用され、強力なコミュニティサポートとオープンソースリソースを備えています。 3。PHPは解釈された言語であり、実行プロセスには語彙分析、文法分析、編集、実行が含まれます。 4.PHPは、ユーザー登録システムなどの高度なアプリケーションについてMySQLと組み合わせることができます。 5。PHPをデバッグするときは、error_reporting()やvar_dump()などの関数を使用できます。 6. PHPコードを最適化して、キャッシュメカニズムを使用し、データベースクエリを最適化し、組み込み関数を使用します。 7
