Jadual Kandungan
PHP开发:使用PHP抓取百万知乎用户以及知识点札记
Rumah pembangunan bahagian belakang tutorial php PHP开发:使用PHP抓取百万知乎用户以及知识点札记_PHP教程

PHP开发:使用PHP抓取百万知乎用户以及知识点札记_PHP教程

Jul 12, 2016 am 09:07 AM
merangkak

PHP开发:使用PHP抓取百万知乎用户以及知识点札记

代码托管地址:https://github.com/hhqcontinue/zhihuSpider

开发前的准备

安装Linux系统Ubuntu14.04),在VMWare虚拟机下安装一个Ubuntu;

安装PHP5.6或以上版本;

安装curl、pcntl扩展。 

使用PHP的curl扩展抓取页面数据

PHP的curl扩展是PHP支持的允许你与各种服务器使用各种类型的协议进行连接和通信的库。

本程序是抓取知乎的用户数据,要能访问用户个人页面,需要用户登录后的才能访问。当我们在浏览器的页面中点击一个用户头像链接进入用户个人中心页面 的时候,之所以能够看到用户的信息,是因为在点击链接的时候,浏览器帮你将本地的cookie带上一齐提交到新的页面,所以你就能进入到用户的个人中心页 面。因此实现访问个人页面之前需要先获得用户的cookie信息,然后在每次curl请求的时候带上cookie信息。在获取cookie信息方面,我是 用了自己的cookie,在页面中可以看到自己的cookie信息:

一个个地复制,以"__utma=?;__utmb=?;"这样的形式组成一个cookie字符串。接下来就可以使用该cookie字符串来发送请求。

初始的示例:

<ol class="dp-j"><li class="alt"><span><span>$url = </span><span class="string">'http://www.zhihu.com/people/mora-hu/about'</span><span>; //此处mora-hu代表用户ID </span></span></li><li><span>    $ch = curl_init($url); <span class="comment">//初始化会话</span><span> </span></span></li><li class="alt"><span>    curl_setopt($ch, CURLOPT_HEADER, <span class="number">0</span><span>); </span></span></li><li><span>    curl_setopt($ch, CURLOPT_COOKIE, $<span class="keyword">this</span><span>->config_arr[</span><span class="string">'user_cookie'</span><span>]);  </span><span class="comment">//设置请求COOKIE</span><span> </span></span></li><li class="alt"><span>    curl_setopt($ch, CURLOPT_USERAGENT, $_SERVER[<span class="string">'HTTP_USER_AGENT'</span><span>]); </span></span></li><li><span>    curl_setopt($ch, CURLOPT_RETURNTRANSFER, <span class="number">1</span><span>);  </span><span class="comment">//将curl_exec()获取的信息以文件流的形式返回,而不是直接输出。</span><span> </span></span></li><li class="alt"><span>    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, <span class="number">1</span><span>);   </span></span></li><li><span>    $result = curl_exec($ch); </span></li><li class="alt"><span>    <span class="keyword">return</span><span> $result;  </span><span class="comment">//抓取的结果</span><span> </span></span></li></ol>
Salin selepas log masuk

运行上面的代码可以获得mora-hu用户的个人中心页面。利用该结果再使用正则表达式对页面进行处理,就能获取到姓名,性别等所需要抓取的信息。

图片防盗链

在对返回结果进行正则处理后输出个人信息的时候,发现在页面中输出用户头像时无法打开。经过查阅资料得知,是因为知乎对图片做了防盗链处理。解决方案就是请求图片的时候在请求头里伪造一个referer。

在使用正则表达式获取到图片的链接之后,再发一次请求,这时候带上图片请求的来源,说明该请求来自知乎网站的转发。具体例子如下:

<ol class="dp-j"><li class="alt"><span><span>function getImg($url, $u_id) </span></span></li><li><span>{ </span></li><li class="alt"><span>    <span class="keyword">if</span><span> (file_exists(</span><span class="string">'./images/'</span><span> . $u_id . </span><span class="string">".jpg"</span><span>)) </span></span></li><li><span>    { </span></li><li class="alt"><span>        <span class="keyword">return</span><span> </span><span class="string">"images/$u_id"</span><span> . </span><span class="string">'.jpg'</span><span>; </span></span></li><li><span>    } </span></li><li class="alt"><span>    <span class="keyword">if</span><span> (empty($url)) </span></span></li><li><span>    { </span></li><li class="alt"><span>        <span class="keyword">return</span><span> </span><span class="string">''</span><span>; </span></span></li><li><span>    } </span></li><li class="alt"><span>    $context_options = array(   </span></li><li><span>        <span class="string">'http'</span><span> =>   </span></span></li><li class="alt"><span>        array( </span></li><li><span>            <span class="string">'header'</span><span> => </span><span class="string">"Referer:http://www.zhihu.com"</span><span>//带上referer参数  </span></span></li><li class="alt"><span>    ) </span></li><li><span>); </span></li><li class="alt"><span>       </span></li><li><span>    $context = stream_context_create($context_options);   </span></li><li class="alt"><span>    $img = file_get_contents(<span class="string">'http:'</span><span> . $url, FALSE, $context); </span></span></li><li><span>    file_put_contents(<span class="string">'./images/'</span><span> . $u_id . </span><span class="string">".jpg"</span><span>, $img); </span></span></li><li class="alt"><span>    <span class="keyword">return</span><span> </span><span class="string">"images/$u_id"</span><span> . </span><span class="string">'.jpg'</span><span>; </span></span></li><li><span>} </span></li></ol>
Salin selepas log masuk

抓取了自己的个人信息后,就需要再访问用户的关注者和关注了的用户列表获取更多的用户信息。然后一层一层地访问。可以看到,在个人中心页面里,有两个链接如下:

这里有两个链接,一个是关注了,另一个是关注者,以“关注了”的链接为例。用正则匹配去匹配到相应的链接,得到url之后用curl带上cookie再发一次请求。抓取到用户关注了的用于列表页之后,可以得到下面的页面:

分析页面的html结构,因为只要得到用户的信息,所以只需要框住的这一块的div内容,用户名都在这里面。可以看到,用户关注了的页面的url是:

不同的用户的这个url几乎是一样的,不同的地方就在于用户名那里。用正则匹配拿到用户名列表,一个一个地拼url,然后再逐个发请求当然,一个一个是比较慢的,下面有解决方案,这个稍后会说到)。进入到新用户的页面之后,再重复上面的步骤,就这样不断循环,直到达到你所要的数据量。

Linux统计文件数量

脚本跑了一段时间后,需要看看究竟获取了多少图片,当数据量比较大的时候,打开文件夹查看图片数量就有点慢。脚本是在Linux环境下运行的,因此可以使用Linux的命令来统计文件数量:

ls -l | grep "^-" | wc -l

其中, ls -l 是长列表输出该目录下的文件信息这里的文件可以是目录、链接、设备文件等); grep "^-" 过滤长列表输出信息, "^-" 只保留一般文件,如果只保留目录是 "^d"wc -l 是统计输出信息的行数。下面是一个运行示例:

插入MySQL时重复数据的处理

程序运行了一段时间后,发现有很多用户的数据是重复的,因此需要在插入重复用户数据的时候做处理。处理方案如下:

1)插入数据库之前检查数据是否已经存在数据库;

2)添加唯一索引,插入时使用 INSERT INTO ... ON DUPLICATE KEY UPDATE...

3)添加唯一索引,插入时使用 INSERT INGNORE INTO...

4)添加唯一索引,插入时使用 REPLACE INTO...

使用curl_multi实现多线程抓取页面

刚开始单进程而且单个curl去抓取数据,速度很慢,挂机爬了一个晚上只能抓到2W的数据,于是便想到能不能在进入新的用户页面发curl请求的时候一次性请求多个用户,后来发现了curl_multi这个好东西。curl_multi这类函数可以实现同时请求多个url,而不是一个个请求,这类似于linux系统中一个进程开多条线程执行的功能。下面是使用curl_multi实现多线程爬虫的示例:

<ol class="dp-j"><li class="alt"><span><span>$mh = curl_multi_init(); </span><span class="comment">//返回一个新cURL批处理句柄</span><span> </span></span></li><li><span>        <span class="keyword">for</span><span> ($i = </span><span class="number">0</span><span>; $i < $max_size; $i++) </span></span></li><li class="alt"><span>        { </span></li><li><span>            $ch = curl_init();  <span class="comment">//初始化单个cURL会话</span><span> </span></span></li><li class="alt"><span>            curl_setopt($ch, CURLOPT_HEADER, <span class="number">0</span><span>); </span></span></li><li><span>            curl_setopt($ch, CURLOPT_URL, <span class="string">'http://www.zhihu.com/people/'</span><span> . $user_list[$i] . </span><span class="string">'/about'</span><span>); </span></span></li><li class="alt"><span>            curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie); </span></li><li><span>            curl_setopt($ch, CURLOPT_USERAGENT, <span class="string">'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36'</span><span>); </span></span></li><li class="alt"><span>            curl_setopt($ch, CURLOPT_RETURNTRANSFER, <span class="keyword">true</span><span>);  </span></span></li><li><span>            curl_setopt($ch, CURLOPT_FOLLOWLOCATION, <span class="number">1</span><span>); </span></span></li><li class="alt"><span>            $requestMap[$i] = $ch; </span></li><li><span>            curl_multi_add_handle($mh, $ch);  <span class="comment">//向curl批处理会话中添加单独的curl句柄</span><span> </span></span></li><li class="alt"><span>        } </span></li><li><span> </span></li><li class="alt"><span>        $user_arr = array(); </span></li><li><span>        <span class="keyword">do</span><span> { </span></span></li><li class="alt"><span>                        <span class="comment">//运行当前 cURL 句柄的子连接</span><span> </span></span></li><li><span>            <span class="keyword">while</span><span> (($cme = curl_multi_exec($mh, $active)) == CURLM_CALL_MULTI_PERFORM); </span></span></li><li class="alt"><span>             </span></li><li><span>            <span class="keyword">if</span><span> ($cme != CURLM_OK) {</span><span class="keyword">break</span><span>;} </span></span></li><li class="alt"><span>                        <span class="comment">//获取当前解析的cURL的相关传输信息</span><span> </span></span></li><li><span>            <span class="keyword">while</span><span> ($done = curl_multi_info_read($mh)) </span></span></li><li class="alt"><span>            { </span></li><li><span>                $info = curl_getinfo($done[<span class="string">'handle'</span><span>]); </span></span></li><li class="alt"><span>                $tmp_result = curl_multi_getcontent($done[<span class="string">'handle'</span><span>]); </span></span></li><li><span>                $error = curl_error($done[<span class="string">'handle'</span><span>]); </span></span></li><li class="alt"><span> </span></li><li><span>                $user_arr[] = array_values(getUserInfo($tmp_result)); </span></li><li class="alt"><span> </span></li><li><span>                <span class="comment">//保证同时有$max_size个请求在处理</span><span> </span></span></li><li class="alt"><span>                <span class="keyword">if</span><span> ($i < sizeof($user_list) && isset($user_list[$i]) && $i < count($user_list)) </span></span></li><li><span>                { </span></li><li class="alt"><span>                    $ch = curl_init(); </span></li><li><span>                    curl_setopt($ch, CURLOPT_HEADER, <span class="number">0</span><span>); </span></span></li><li class="alt"><span>                    curl_setopt($ch, CURLOPT_URL, <span class="string">'http://www.zhihu.com/people/'</span><span> . $user_list[$i] . </span><span class="string">'/about'</span><span>); </span></span></li><li><span>                    curl_setopt($ch, CURLOPT_COOKIE, self::$user_cookie); </span></li><li class="alt"><span>                    curl_setopt($ch, CURLOPT_USERAGENT, <span class="string">'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.130 Safari/537.36'</span><span>); </span></span></li><li><span>                    curl_setopt($ch, CURLOPT_RETURNTRANSFER, <span class="keyword">true</span><span>);  </span></span></li><li class="alt"><span>                    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, <span class="number">1</span><span>); </span></span></li><li><span>                    $requestMap[$i] = $ch; </span></li><li class="alt"><span>                    curl_multi_add_handle($mh, $ch); </span></li><li><span> </span></li><li class="alt"><span>                    $i++; </span></li><li><span>                } </span></li><li class="alt"><span> </span></li><li><span>                curl_multi_remove_handle($mh, $done[<span class="string">'handle'</span><span>]); </span></span></li><li class="alt"><span>            } </span></li><li><span> </span></li><li class="alt"><span>            <span class="keyword">if</span><span> ($active) </span></span></li><li><span>                curl_multi_select($mh, <span class="number">10</span><span>); </span></span></li><li class="alt"><span>        } <span class="keyword">while</span><span> ($active); </span></span></li><li><span> </span></li><li class="alt"><span>        curl_multi_close($mh); </span></li><li><span>        <span class="keyword">return</span><span> $user_arr; </span></span></li></ol>
Salin selepas log masuk

HTTP 429 Too Many Requests

使用curl_multi函数可以同时发多个请求,但是在执行过程中使同时发200个请求的时候,发现很多请求无法返回了,即发现了丢包的情况。进一步分析,使用 curl_getinfo 函数打印每个请求句柄信息,该函数返回一个包含HTTP response信息的关联数组,其中有一个字段是http_code,表示请求返回的HTTP状态码。看到有很多个请求的http_code都是429,这个返回码的意思是发送太多请求了。我猜是知乎做了防爬虫的防护,于是我就拿其他的网站来做测试,发现一次性发200个请求时没问题的,证明了我的猜测,知乎在这方面做了防护,即一次性的请求数量是有限制的。于是我不断地减少请求数量,发现在5的时候就没有丢包情况了。说明在这个程序里一次性最多只能发5个请求,虽然不多,但这也是一次小提升了。

使用Redis保存已经访问过的用户

抓取用户的过程中,发现有些用户是已经访问过的,而且他的关注者和关注了的用户都已经获取过了,虽然在数据库的层面做了重复数据的处理,但是程序还是会使用curl发请求,这样重复的发送请求就有很多重复的网络开销。还有一个就是待抓取的用户需要暂时保存在一个地方以便下一次执行,刚开始是放到数组里面,后来发现要在程序里添加多进程,在多进程编程里,子进程会共享程序代码、函数库,但是进程使用的变量与其他进程所使用的截然不同。不同进程之间的变量是分离的,不能被其他进程读取,所以是不能使用数组的。因此就想到了使用Redis缓存来保存已经处理好的用户以及待抓取的用户。这样每次执行完的时候都把用户push到一个already_request_queue队列中,把待抓取的用户即每个用户的关注者和关注了的用户列表)push到request_queue里面,然后每次执行前都从request_queue里pop一个用户,然后判断是否在already_request_queue里面,如果在,则进行下一个,否则就继续执行。

在PHP中使用redis示例:

<ol class="dp-c"><li class="alt"><span><span><?php </span></span></li><li><span>    <span class="vars">$redis</span><span> = </span><span class="keyword">new</span><span> Redis(); </span></span></li><li class="alt"><span>    <span class="vars">$redis</span><span>->connect(</span><span class="string">'127.0.0.1'</span><span>, </span><span class="string">'6379'</span><span>); </span></span></li><li><span>    <span class="vars">$redis</span><span>->set(</span><span class="string">'tmp'</span><span>, </span><span class="string">'value'</span><span>); </span></span></li><li class="alt"><span>    <span class="keyword">if</span><span> (</span><span class="vars">$redis</span><span>->exists(</span><span class="string">'tmp'</span><span>)) </span></span></li><li><span>    { </span></li><li class="alt"><span>        <span class="func">echo</span><span> </span><span class="vars">$redis</span><span>->get(</span><span class="string">'tmp'</span><span>) . </span><span class="string">"\n"</span><span>; </span></span></li><li><span>    } </span></li></ol>
Salin selepas log masuk

使用PHP的pcntl扩展实现多进程

改用了curl_multi函数实现多线程抓取用户信息之后,程序运行了一个晚上,最终得到的数据有10W。还不能达到自己的理想目标,于是便继续优化,后来发现php里面有一个pcntl扩展可以实现多进程编程。下面是多编程编程的示例:

<ol class="dp-j"><li class="alt"><span><span class="comment">//PHP多进程demo</span><span> </span></span></li><li><span>    <span class="comment">//fork10个进程</span><span> </span></span></li><li class="alt"><span>    <span class="keyword">for</span><span> ($i = </span><span class="number">0</span><span>; $i < </span><span class="number">10</span><span>; $i++) { </span></span></li><li><span>        $pid = pcntl_fork(); </span></li><li class="alt"><span>        <span class="keyword">if</span><span> ($pid == -</span><span class="number">1</span><span>) { </span></span></li><li><span>            echo <span class="string">"Could not fork!\n"</span><span>; </span></span></li><li class="alt"><span>            exit(<span class="number">1</span><span>); </span></span></li><li><span>        } </span></li><li class="alt"><span>        <span class="keyword">if</span><span> (!$pid) { </span></span></li><li><span>            echo <span class="string">"child process $i running\n"</span><span>; </span></span></li><li class="alt"><span>            <span class="comment">//子进程执行完毕之后就退出,以免继续fork出新的子进程</span><span> </span></span></li><li><span>            exit($i); </span></li><li class="alt"><span>        } </span></li><li><span>    } </span></li><li class="alt"><span>     </span></li><li><span>    <span class="comment">//等待子进程执行完毕,避免出现僵尸进程</span><span> </span></span></li><li class="alt"><span>    <span class="keyword">while</span><span> (pcntl_waitpid(</span><span class="number">0</span><span>, $status) != -</span><span class="number">1</span><span>) { </span></span></li><li><span>        $status = pcntl_wexitstatus($status); </span></li><li class="alt"><span>        echo <span class="string">"Child $status completed\n"</span><span>; </span></span></li><li><span>    } </span></li></ol>
Salin selepas log masuk

在Linux下查看系统的cpu信息

实现了多进程编程之后,就想着多开几条进程不断地抓取用户的数据,后来开了8调进程跑了一个晚上后发现只能拿到20W的数据,没有多大的提升。于是查阅资料发现,根据系统优化的CPU性能调优,程序的最大进程数不能随便给的,要根据CPU的核数和来给,最大进程数最好是cpu核数的2倍。因此需要查看cpu的信息来看看cpu的核数。在Linux下查看cpu的信息的命令:

cat /proc/cpuinfo

其中,model name表示cpu类型信息,cpu cores表示cpu核数。这里的核数是1,因为是在虚拟机下运行,分配到的cpu核数比较少,因此只能开2条进程。最终的结果是,用了一个周末就抓取了110万的用户数据。

多进程编程中Redis和MySQL连接问题

在多进程条件下,程序运行了一段时间后,发现数据不能插入到数据库,会报mysql too many connections的错误,redis也是如此。

下面这段代码会执行失败:

<ol class="dp-j"><li class="alt"><span><span><?php </span></span></li><li><span>     <span class="keyword">for</span><span> ($i = </span><span class="number">0</span><span>; $i < </span><span class="number">10</span><span>; $i++) { </span></span></li><li class="alt"><span>          $pid = pcntl_fork(); </span></li><li><span>          <span class="keyword">if</span><span> ($pid == -</span><span class="number">1</span><span>) { </span></span></li><li class="alt"><span>               echo <span class="string">"Could not fork!\n"</span><span>; </span></span></li><li><span>               exit(<span class="number">1</span><span>); </span></span></li><li class="alt"><span>          } </span></li><li><span>          <span class="keyword">if</span><span> (!$pid) { </span></span></li><li class="alt"><span>               $redis = PRedis::getInstance(); </span></li><li><span>               <span class="comment">// do something     </span><span> </span></span></li><li class="alt"><span>               exit; </span></li><li><span>          } </span></li><li class="alt"><span>     } </span></li></ol>
Salin selepas log masuk

根本原因是在各个子进程创建时,就已经继承了父进程一份完全一样的拷贝。对象可以拷贝,但是已创建的连接不能被拷贝成多个,由此产生的结果,就是各个进程都使用同一个redis连接,各干各的事,最终产生莫名其妙的冲突。

解决方法:

程序不能完全保证在fork进程之前,父进程不会创建redis连接实例。因此,要解决这个问题只能靠子进程本身了。试想一下,如果在子进程中获取的实例只与当前进程相关,那么这个问题就不存在了。于是解决方案就是稍微改造一下redis类实例化的静态方式,与当前进程ID绑定起来。

改造后的代码如下:

<ol class="dp-j"><li class="alt"><span><span><?php </span></span></li><li><span>     <span class="keyword">public</span><span> </span><span class="keyword">static</span><span> function getInstance() { </span></span></li><li class="alt"><span>          <span class="keyword">static</span><span> $instances = array(); </span></span></li><li><span>          $key = getmypid();<span class="comment">//获取当前进程ID</span><span> </span></span></li><li class="alt"><span>          <span class="keyword">if</span><span> ($empty($instances[$key])) { </span></span></li><li><span>               $inctances[$key] = <span class="keyword">new</span><span> self(); </span></span></li><li class="alt"><span>          } </span></li><li><span>      </span></li><li class="alt"><span>          <span class="keyword">return</span><span> $instances[$key]; </span></span></li><li><span>     } </span></li></ol>
Salin selepas log masuk

PHP统计脚本执行时间

因为想知道每个进程花费的时间是多少,因此写个函数统计脚本执行时间:

<ol class="dp-j"><li class="alt"><span><span>function microtime_float() </span></span></li><li><span>{ </span></li><li class="alt"><span>     list($u_sec, $sec) = explode(<span class="string">' '</span><span>, microtime()); </span></span></li><li><span>     <span class="keyword">return</span><span> (floatval($u_sec) + floatval($sec)); </span></span></li><li class="alt"><span>} </span></li><li><span> </span></li><li class="alt"><span>$start_time = microtime_float(); </span></li><li><span> </span></li><li class="alt"><span><span class="comment">//do something</span><span> </span></span></li><li><span>usleep(<span class="number">100</span><span>); </span></span></li><li class="alt"><span> </span></li><li><span>$end_time = microtime_float(); </span></li><li class="alt"><span>$total_time = $end_time - $start_time; </span></li><li><span> </span></li><li class="alt"><span>$time_cost = sprintf(<span class="string">"%.10f"</span><span>, $total_time); </span></span></li><li><span> </span></li><li class="alt"><span>echo <span class="string">"program cost total "</span><span> . $time_cost . </span><span class="string">"s\n"</span><span>; </span></span></li></ol>
Salin selepas log masuk

数据分析

抓取了110万的数据后,小小做了一些数据分析,结果如下:

若文中有不正确的地方,望各位指出以便改正。



www.bkjia.comtruehttp://www.bkjia.com/PHPjc/1059211.htmlTechArticlePHP开发:使用PHP抓取百万知乎用户以及知识点札记 代码托管地址:https://github.com/hhqcontinue/zhihuSpider 开发前的准备 安装Linux系统Ubuntu14.04),...
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Analisis kes buruk: Cara merangkak maklumat syarikat di LinkedIn Analisis kes buruk: Cara merangkak maklumat syarikat di LinkedIn Jun 23, 2023 am 10:04 AM

Scrapy ialah rangka kerja perangkak berasaskan Python yang boleh mendapatkan maklumat berkaitan dengan cepat dan mudah di Internet. Dalam artikel ini, kami akan menggunakan kes Scrapy untuk menganalisis secara terperinci cara merangkak maklumat syarikat di LinkedIn. Tentukan URL sasaran Mula-mula, kita perlu menjelaskan dengan jelas bahawa sasaran kita ialah maklumat syarikat di LinkedIn. Oleh itu, kita perlu mencari URL halaman maklumat syarikat LinkedIn. Buka laman web LinkedIn, masukkan nama syarikat dalam kotak carian, dan

Contoh mengikis maklumat Instagram menggunakan PHP Contoh mengikis maklumat Instagram menggunakan PHP Jun 13, 2023 pm 06:26 PM

Instagram adalah salah satu media sosial paling popular hari ini, dengan ratusan juta pengguna aktif. Pengguna memuat naik berbilion gambar dan video, dan data ini sangat berharga kepada banyak perniagaan dan individu. Oleh itu, dalam banyak kes, perlu menggunakan program untuk mengikis data Instagram secara automatik. Artikel ini akan memperkenalkan cara menggunakan PHP untuk menangkap data Instagram dan memberikan contoh pelaksanaan. Pasang sambungan cURL untuk PHP cURL ialah alat yang digunakan dalam pelbagai

Gunakan PHP untuk melaksanakan program untuk menangkap soalan dan jawapan Zhihu Gunakan PHP untuk melaksanakan program untuk menangkap soalan dan jawapan Zhihu Jun 13, 2023 pm 11:21 PM

Sebagai komuniti perkongsian pengetahuan yang sangat popular, Zhihu mempunyai ramai pengguna yang menyumbangkan sejumlah besar soalan dan jawapan berkualiti tinggi Bagi mereka yang belajar dan bekerja, kandungan ini sangat membantu dalam menyelesaikan masalah dan mengembangkan ufuk mereka. Jika anda ingin mengatur dan menggunakan kandungan ini, anda perlu menggunakan pengikis untuk mendapatkan data yang berkaitan. Artikel ini akan memperkenalkan cara menggunakan PHP untuk menulis program untuk merangkak soalan dan jawapan Zhihu. Pengenalan Zhihu ialah platform dengan kandungan yang kaya, termasuk tetapi tidak terhad kepada soalan, jawapan, lajur, topik, pengguna, dsb. kita boleh lulus

Cara menggunakan Scrapy untuk menghuraikan dan mengikis data tapak web Cara menggunakan Scrapy untuk menghuraikan dan mengikis data tapak web Jun 23, 2023 pm 12:33 PM

Scrapy ialah rangka kerja Python untuk mengikis dan menghuraikan data tapak web. Ia membantu pembangun dengan mudah merangkak data tapak web dan menganalisisnya, membolehkan tugas seperti perlombongan data dan pengumpulan maklumat. Artikel ini akan berkongsi cara menggunakan Scrapy untuk mencipta dan melaksanakan program perangkak mudah. Langkah 1: Pasang dan konfigurasi Scrapy Sebelum menggunakan Scrapy, anda perlu memasang dan mengkonfigurasi persekitaran Scrapy terlebih dahulu. Scrapy boleh dipasang dengan menjalankan: pipinstallscra

Penghuraian konfigurasi ubah hala Nginx untuk melaksanakan pemajuan dan rangkak URL Penghuraian konfigurasi ubah hala Nginx untuk melaksanakan pemajuan dan rangkak URL Jul 04, 2023 pm 06:37 PM

Penghuraian konfigurasi ubah hala Nginx untuk melaksanakan pemajuan dan rangkak URL Pengenalan: Dalam pembangunan aplikasi web, kita sering menghadapi situasi di mana URL perlu diubah hala. Sebagai pelayan web berprestasi tinggi dan pelayan proksi terbalik, Nginx menyediakan fungsi ubah hala yang berkuasa. Artikel ini akan menganalisis konfigurasi ubah hala Nginx dan menunjukkan cara melaksanakan fungsi pemajuan dan rangkak URL melalui contoh kod. 1. Konsep asas Ubah hala merujuk kepada proses pemajuan permintaan URL ke URL lain. Dalam Nginx

Menggunakan perangkak Java: Kaedah dan teknik praktikal untuk mengekstrak data halaman web dengan cekap Menggunakan perangkak Java: Kaedah dan teknik praktikal untuk mengekstrak data halaman web dengan cekap Jan 05, 2024 am 08:15 AM

Amalan perangkak Java: Kaedah dan teknik untuk merangkak data halaman web dengan cepat Pengenalan: Dengan perkembangan Internet, maklumat besar-besaran disimpan dalam halaman web, dan menjadi semakin sukar bagi orang ramai untuk mendapatkan data berguna daripadanya. Menggunakan teknologi perangkak, kami boleh merangkak data halaman web dengan cepat dan automatik serta mengekstrak maklumat berguna yang kami perlukan. Artikel ini akan memperkenalkan kaedah dan teknik untuk pembangunan perangkak menggunakan Java dan memberikan contoh kod khusus. 1. Pilih rangka kerja perangkak yang sesuai Dalam medan Java, terdapat banyak rangka kerja perangkak yang sangat baik untuk dipilih, seperti Jso

Bagaimana untuk menggunakan PHP dan phpSpider untuk merangkak kandungan tapak web tertentu dengan tepat? Bagaimana untuk menggunakan PHP dan phpSpider untuk merangkak kandungan tapak web tertentu dengan tepat? Jul 22, 2023 pm 08:29 PM

Bagaimana untuk menggunakan PHP dan phpSpider untuk merangkak kandungan tapak web tertentu dengan tepat? Pengenalan: Dengan perkembangan Internet, jumlah data di laman web semakin meningkat, dan tidak cekap untuk mendapatkan maklumat yang diperlukan melalui operasi manual. Oleh itu, kita sering perlu menggunakan alat merangkak automatik untuk mendapatkan kandungan laman web tertentu Bahasa PHP dan perpustakaan phpSpider adalah salah satu alat yang sangat praktikal. Artikel ini akan memperkenalkan cara menggunakan PHP dan phpSpider untuk merangkak kandungan tapak web tertentu dengan tepat dan memberikan contoh kod. 1. Pemasangan

Tutorial konfigurasi ubah hala Nginx untuk melaksanakan pemajuan dan rangkak URL Tutorial konfigurasi ubah hala Nginx untuk melaksanakan pemajuan dan rangkak URL Jul 05, 2023 am 11:42 AM

Tutorial konfigurasi ubah hala Nginx untuk melaksanakan pemajuan dan merangkak URL Nginx ialah pelayan web sumber terbuka berprestasi tinggi yang juga boleh digunakan untuk melaksanakan fungsi seperti proksi terbalik, pengimbangan beban dan pengalihan URL. Dalam artikel ini, kami akan memperkenalkan cara melaksanakan pengalihan URL dan merangkak melalui konfigurasi Nginx, dan memberikan contoh kod yang berkaitan. 1. Pemajuan URL pemajuan URL merujuk kepada pemajuan permintaan URL ke alamat URL lain. Dalam Nginx, kita boleh melaksanakan URL melalui konfigurasi

See all articles