采集 初级的用php写的采集程序
可以先用这个采集然后在用帝国处理
####################################################################################
#作者:9elong
#网站:个人小站不值一提
#时间:2007-01-01
#声明:仅用于学习php之用。
#功能:采集单页面图片。
#说明:3个示范表单已经写好正则用来示范。没有任何功能说明,一切都在源代码里。附加论坛图片采集正则示范
####################################################################################
//把图片从信息页抓取下来的函数
function getimg($url,$n,$key,$imgqian,$imgbiao,$titlekey)
{
//$key图片地址正则
//$titlekey图片标题正则
//$imgqian图片地址前缀
//$imgbiao图片地址特殊标识
global $n;
global $msg;
global $result;
global $imgadd;
global $title;
$msg=file_get_contents($url);
$key=str_replace("{图片地址}","(.+)",$key);
$key="|".$key."|isU";
preg_match_all($key,$msg,$result);
$c=count($result[0]);
for($i=0;$i {
$img=$result[0][$i]."
";
if(ereg("^.*".$imgbiao.".*$",$img))
{
$img=str_replace($imgbiao,$imgqian.$imgbiao,$img);
preg_match("|http://(.+)jpg|isU",$img,$img);
$imgadd[$n]=$img[0];
//echo "
";
$n++;
}
elseif(ereg("^.*jpg.*$",$img))
{
preg_match("|http://(.+)jpg|isU",$img,$img);
$imgadd[$n]=$img[0];
if($img[0]!="")
$n++;
}
unset($img);
}
$titlekey=str_replace("{图片标题}","(.+)",$titlekey);
$titlekey="|".$titlekey."|isU";
preg_match($titlekey,$msg,$title);
//echo $title[0];
return $title;
return $msg;
return $result;
return $n;
return $imgadd;
}
####################################################################################
#不支持file_get_contents()函数可以使用下面的替换
#$i=0;
#$handle=@fopen($url,"rb");
#while (!@feof($handle))
#{
# $buffer[$i]= @fgets($handle, 4096);
# $i++;
#}
#fclose($handle);
#$msg=join("",$buffer);
####################################################################################
if($_GET['act']=="getimgadd"&&$_POST['url']!="")
{
$url=$_POST['url'];
getimg($url,"0",$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
####################################################################################
//获取分页
if($_POST['getpage']=="是")
{
$_POST['page']=str_replace("{分页地址}","(.+)",$_POST['page']);
$page="|".$_POST['page']."|isU";
//echo $page;
preg_match_all($page,$msg,$presult);
if($_POST['pc']==""||$_POST['pc']=="全部")
$pc=count($presult[0]);
else
$pc=$_POST['pc'];
if($_POST['pc']>count($presult[0]))
$pc=count($presult[0]);
for($i=1;$i {
$pageurl=$presult[0][$i];
//echo $pageurl."
";
if(ereg("^.*[1-9].*$",$pageurl))
{
$pageurl=str_replace(" $pagekey=str_replace("{关键地址}","(.+)",$_POST['pagekey']);
$pagekey="|".$pagekey."|isU";
preg_match($pagekey,$pageurl,$N3[$i]);
//echo ($N3[$i][0])."
";
getimg($N3[$i][0],$n,$_POST['key'],$_POST['imgqian'],$_POST['imgbiao'],$_POST['titlekey']);
}
}
}
####################################################################################
echo "图片集〖".$title[1]."〗".$n."张图片被抓取
返回首页
";
while(list($num,$var)=each($imgadd))
{
if($_POST['showtype']=="图片")
{
echo "
";
}
else
echo $var."
";
}
####################################################################################
//exit();
}
?>
实例1(信息页有分页,使用了简单的分页正则):
实例2(信息页没有分页,所以分页正则为空):
实例3(信息页没有分页,所以分页正则为空,图片为绝对地址,所以图片地址前缀为空):
华声论坛图片为附件http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336436
图片地址正则:upload=jpg{图片地址}upload
图片地址标识:bbs
图片标题正则:帖子主题:{图片标题}
华声论坛图片为外链http://bbs.hnol.net/dispbbs2.asp?boardID=50&ID=336253
图片地址正则:img]{图片地址}/img
图片地址标识:jpg
图片标题正则:帖子主题:{图片标题}
以上就介绍了采集 初级的用php写的采集程序,包括了采集方面的内容,希望对PHP教程有兴趣的朋友有所帮助。

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Adakah iPhone anda menunjukkan "iCloud Storage Full" setiap kali anda memuat turun beberapa fail atau airdrop sesuatu? Peringkat percuma storan iCloud terhad kepada 5GB sahaja. Oleh itu, perkara pertama yang perlu anda semak ialah situasi storan iCloud semasa pada telefon anda. Jika ruang storan masih mencukupi dan anda menerima pemberitahuan, penyelesaian ini akan membantu anda menyelesaikan masalah. Betulkan 1 – Padam Sandaran iCloud Alih keluar versi sandaran iCloud sedia ada daripada tetapan telefon anda. Langkah 1 – Buka Tetapan. Langkah 2 – Anda akan menemui Apple ID anda di bahagian atas panel Tetapan. Klik padanya untuk membukanya. Langkah 3 - Hidupkan "iCloud" untuk membuka tetapan iCloud. Langkah 4 – Turun

Dengan perkembangan berterusan teknologi Internet of Things, pengumpulan data masa nyata telah menjadi bahagian yang amat diperlukan dalam era digital. Di antara pelbagai bahasa pengaturcaraan, bahasa Go telah menjadi pilihan ideal untuk pengumpulan data masa nyata dengan prestasi konkurensi yang cekap dan sintaks yang ringkas. Artikel ini akan memperkenalkan cara menggunakan bahasa Go untuk pengumpulan data masa nyata. 1. Pemilihan rangka kerja pengumpulan data Sebelum menggunakan bahasa Go untuk pengumpulan data masa nyata, kita perlu memilih rangka kerja pengumpulan data yang sesuai dengan kita. Rangka kerja pengumpulan data yang lebih popular pada masa ini termasuk

Adakah iPhone anda tersekat dalam mod Jangan Ganggu? Ia boleh menyusahkan jika anda tidak boleh menogol mod Jangan Ganggu. Anda tidak akan menerima sebarang makluman sama sekali. Ia tidak memerlukan banyak usaha untuk membetulkan isu DND ini pada iPhone. Jadi, tidak perlu membuang masa lagi dan ikuti sahaja penyelesaian mudah ini untuk menyelesaikan masalah anda. Betulkan 1 – Alih keluar jadual Jangan Ganggu Jika anda mempunyai sebarang jadual Jangan Ganggu pada telefon anda, ia mungkin memaksa peranti untuk masuk ke mod Jangan Ganggu secara automatik. Langkah 1 – Pergi ke Tetapan iPhone anda. Langkah 2 – Seterusnya, hidupkan mod Fokus. Langkah 3 – Anda akan menemui "Jangan Ganggu" di bahagian atas carta. Langkah 4 - Bukanya. Langkah 5 – Pada halaman seterusnya, jika anda pergi ke tab Jadual, anda

Adakah skrin iPhone anda terus kembali ke skrin utama setiap kali anda membuka apl tertentu? Ini adalah tingkah laku yang luar biasa dan sebab anda dikembalikan ke skrin utama adalah kerana apl itu ranap atas sebab tertentu. Penyelesaian masalah akan menjadi lebih mudah jika anda mengikuti set arahan ini. Betulkan 1 – Tukar Gelagat Ketik Salah satu gerak isyarat belakang pada iPhone membolehkan anda meminimumkan apl semasa. Melumpuhkan gelagat klik seharusnya menyelesaikan isu ini. Langkah 1 – Buka Tetapan. Langkah 2 – Kemudian, lawati tetapan Kebolehaksesan untuk menghidupkannya. Langkah 3 – Pergi ke ciri “Fizik & Motor” dan buka tetapan “Sentuh”. Langkah 4 – Leret ke bawah ke tetapan “BackTap”. Membukanya. Langkah 5 – Pada halaman Klik Belakang, pilih

Adakah anda mendapat mesej ralat ini "Tidak dapat menyemak kemas kini" semasa menyemak kemas kini pada iPhone anda? Biasanya, mesej ini muncul apabila anda mencari kemas kini secara manual semasa telefon anda di luar talian. Oleh itu, kami mengesyorkan anda mendayakan data Wi-Fi/Selular dan melakukan operasi yang sama sekali lagi. Jika anda masih mengalami isu tersebut, ikuti petua penyelesaian masalah yang tinggal. Betulkan 1 – Dayakan Wi-Fi/Data Selular Dayakan data Wi-Fi atau Selular dan cuba semak kemas kini sekali lagi. Langkah 1 – Hanya leret ke bawah untuk mengakses Pusat Kawalan. Langkah 2 – Dayakan Wi-Fi atau Selular pada telefon anda. Sekarang cuba proses kemas kini sekali lagi selepas mendayakan sambungan rangkaian. Betulkan 2 – Paksa mulakan semula iPhone jika Wi-Fi/Bee didayakan walaupun

Analisis log masuk halaman automatik dan fungsi pengurusan sesi Python untuk melaksanakan aplikasi koleksi pelayar tanpa kepala Pengenalan: Dengan perkembangan pesat Internet, kehidupan kita semakin tidak dapat dipisahkan daripada aplikasi rangkaian. Untuk kebanyakan aplikasi jenis web, kita perlu log masuk secara manual untuk mendapatkan maklumat lanjut atau mengendalikan fungsi tertentu. Untuk meningkatkan kecekapan, kami boleh melaksanakan log masuk halaman automatik dan fungsi pengurusan sesi melalui skrip automatik. Penyemak imbas tanpa kepala: Sebelum melaksanakan log masuk halaman automatik dan fungsi pengurusan sesi, kita perlu memahami apa itu penyemak imbas tanpa kepala.

Pengenalan kepada fungsi asas dan penggunaan aplikasi pengumpulan pelayar tanpa kepala dalam Python Dengan perkembangan Internet, teknologi perangkak memainkan peranan penting dalam pengumpulan data dan perlombongan maklumat. Pelayar tanpa kepala ialah penyemak imbas tanpa antara muka yang boleh mensimulasikan operasi pengguna di latar belakang, mengakses halaman web dan merebut data yang diperlukan. Python menyediakan pelbagai perpustakaan dan alatan untuk melaksanakan fungsi pelayar tanpa kepala Artikel ini akan memperkenalkan cara menggunakan Python untuk melaksanakan fungsi asas pelayar tanpa kepala dan menyediakan contoh kod yang sepadan. 1. Pelayar tanpa kepala

Penjelasan terperinci tentang penyegerakan data halaman dan fungsi kemas kini Python untuk aplikasi pengumpulan pelayar tanpa kepala Dengan perkembangan pesat Internet, semakin banyak aplikasi perlu berinteraksi dengan halaman web untuk data. Apabila melaksanakan fungsi sedemikian, cara biasa ialah menggunakan penyemak imbas tanpa kepala untuk mensimulasikan operasi pengguna untuk mendapatkan data pada halaman web. Artikel ini akan memperkenalkan secara terperinci cara menggunakan Python dan penyemak imbas tanpa kepala untuk melaksanakan fungsi penyegerakan dan kemas kini data halaman aplikasi, dan menyediakan contoh kod yang sepadan. Penyediaan persekitaran Pertama, kita perlu memasang Python yang berkaitan
