Jadual Kandungan
PHP单线程实现并行抓取网页
Rumah php教程 php手册 PHP单线程实现并行抓取网页

PHP单线程实现并行抓取网页

Jun 13, 2016 am 09:28 AM
php benang tunggal capai akan selari merangkak Tutorial simulasi benang laman web

PHP单线程实现并行抓取网页

   本PHP教程将模拟并行抓取多个页面信息的过程,关键在于单线程的并行处理。

  一般情况下,大家写抓取多个页面信息的程序都采用串行方案,但获取周期过长,不实用。于是我想到用curl 去并行抓取。但是,最后发现,那个虚拟服务器上没有curl,这真是让人纠结。于是,我决定改变思路,用单个线程也实现多个线程的效果。我想对网络编程有点

  了解的人肯定知道IO复用这个概念,当然PHP上也是支持的,而且,内部支持,不需要任何扩展。

  可能有很多年编程经验的人对PHP的stream 函数可能不太了解。PHP的压缩文件流,文件流,tcp 协议下的应用 都封装成一个stream。所以,读本地文件

  和读网络文件没有任何的差别。说了这样多,我想大家都基本上明白了,直接贴上代码吧:

  代码比较的粗糙,如果大家要实际用的话,还是要处理一些细节问题。

  代码

  

  function http_get_open($url)

  {

  $url = parse_url($url);

  if (empty($url['host'])) {

  return false;

  }

  $host = $url['host'];

  if (empty($url['path'])) {

  $url['path'] = "/";

  }

  $get = $url['path'] . "?" . @$url['query'];

  $fp = stream_socket_client("tcp://{$host}:80", $errno, $errstr, 30);

  if (!$fp) {

  echo "$errstr ($errno)
\n";

  return false;

  } else {

  fwrite($fp, "GET {$get} HTTP/1.0\r\nHost: {$host}\r\nAccept: */*\r\n\r\n");

  }

  return $fp;

  }

  function http_multi_get($urls)

  {

  $result = array();

  $fps = array();

  foreach ($urls as $key => $url)

  {

  $fp = http_get_open($url);

  if ($fp === false) {

  $result[$key] = false;

  } else {

  $result[$key] = '';

  $fps[$key] = $fp;

  }

  }

  while (1)

  {

  $reads = $fps;

  if (empty($reads)) {

  break;

  }

  if (($num = stream_select($reads, $w = null, $e = null, 30)) === false ) {

  echo "error";

  return false;

  } else if ($num > 0) {//can read

  foreach ($reads as $value)

  {

  $key = array_search($value, $fps);

  if (!feof($value)) {

  $result[$key] .= fread($value, 128);

  } else {

  unset($fps[$key]);

  }

  }

  } else {//time out

  echo "timeout";

  return false;

  }

  }

  foreach ($result as $key => &$value)

  {

  if ($value) {

  $value = explode("\r\n\r\n", $value, 2);

  }

  }

  return $result;

  }

  $urls = array();

  $urls[] = "http://www.qq.com";

  $urls[] = "http://www.sina.com.cn";

  $urls[] = "http://www.sohu.com";

  $urls[] = "http://www.blue1000.com";

  //并行的抓取

  $t1 = microtime(true);

  $result = http_multi_get($urls);

  $t1 = microtime(true) - $t1;

  var_dump("cost: " . $t1);

  //串行的抓取

  $t1 = microtime(true);

  foreach ($urls as $value)

  {

  file_get_contents($value);

  }

  $t1 = microtime(true) - $t1;

  var_dump("cost: " . $t1);

  ?>

  最后运行的结果:

  string 'cost: 3.2403128147125' (length=21)

  string 'cost: 6.2333900928497' (length=21)

  基本上是两倍的效率,当然,发现新浪非常的慢,要2.5s 左右,

  基本上是被他给拖累了,360只要 0.2s

  如果,所有网站都差不多的速度,并行的数目更大,那么差的倍数也就越大。

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Repo: Cara menghidupkan semula rakan sepasukan
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Adventure: Cara mendapatkan biji gergasi
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Konfigurasi Projek CakePHP Konfigurasi Projek CakePHP Sep 10, 2024 pm 05:25 PM

Dalam bab ini, kita akan memahami Pembolehubah Persekitaran, Konfigurasi Umum, Konfigurasi Pangkalan Data dan Konfigurasi E-mel dalam CakePHP.

Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Panduan Pemasangan dan Naik Taraf PHP 8.4 untuk Ubuntu dan Debian Dec 24, 2024 pm 04:42 PM

PHP 8.4 membawa beberapa ciri baharu, peningkatan keselamatan dan peningkatan prestasi dengan jumlah penamatan dan penyingkiran ciri yang sihat. Panduan ini menerangkan cara memasang PHP 8.4 atau naik taraf kepada PHP 8.4 pada Ubuntu, Debian, atau terbitan mereka

Tarikh dan Masa CakePHP Tarikh dan Masa CakePHP Sep 10, 2024 pm 05:27 PM

Untuk bekerja dengan tarikh dan masa dalam cakephp4, kami akan menggunakan kelas FrozenTime yang tersedia.

Muat naik Fail CakePHP Muat naik Fail CakePHP Sep 10, 2024 pm 05:27 PM

Untuk mengusahakan muat naik fail, kami akan menggunakan pembantu borang. Di sini, adalah contoh untuk muat naik fail.

Penghalaan CakePHP Penghalaan CakePHP Sep 10, 2024 pm 05:25 PM

Dalam bab ini, kita akan mempelajari topik berikut yang berkaitan dengan penghalaan ?

Bincangkan CakePHP Bincangkan CakePHP Sep 10, 2024 pm 05:28 PM

CakePHP ialah rangka kerja sumber terbuka untuk PHP. Ia bertujuan untuk menjadikan pembangunan, penggunaan dan penyelenggaraan aplikasi lebih mudah. CakePHP adalah berdasarkan seni bina seperti MVC yang berkuasa dan mudah difahami. Model, Pandangan dan Pengawal gu

Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Cara Menyediakan Kod Visual Studio (Kod VS) untuk Pembangunan PHP Dec 20, 2024 am 11:31 AM

Kod Visual Studio, juga dikenali sebagai Kod VS, ialah editor kod sumber percuma — atau persekitaran pembangunan bersepadu (IDE) — tersedia untuk semua sistem pengendalian utama. Dengan koleksi sambungan yang besar untuk banyak bahasa pengaturcaraan, Kod VS boleh menjadi c

Pengesah Mencipta CakePHP Pengesah Mencipta CakePHP Sep 10, 2024 pm 05:26 PM

Pengesah boleh dibuat dengan menambah dua baris berikut dalam pengawal.

See all articles