php采集入门教程，教你如何写采集-PHP源码-php.cn

Rumah

php教程

PHP源码

php采集入门教程，教你如何写采集

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Jun 08, 2016 pm 05:29 PM

content nbsp quot replace

php采集入门教程，教你如何写采集

我们第一步是采集所有的连接，我们这个可不是简单的采集一篇文章哦，我们要做的是采集整本书，并且保存到一个文本，因为现在MP3普及了，都可以看电子书了。
一本书要怎么保存呢，当然是要用书名保存便于查找拉，我们先来采集这本书的标题，
先来看一下原形：

规律是：

我们来写一下正则表达式吧，不要告诉我不会，不会就来湖南拉，嘿嘿很多大鸟的。
正则表达式：

下面开始开工拉！我们首先要获得资源，这里需要用到一个函数：
file_get_contents()
介绍：
主要功能：将整个文件读入一个字符串
原形是：string file_get_contents
( string filename [, bool use_include_path [, resource context [, int offset [, int maxlen]]]] )

具体什么意思呢，其实就是告诉你在某个资源内搜索符合规定的字符串并赋予给一个变量
上边是开始需要用到的，我们了解一点就开始写一点那样更能够深刻的理解并且能记住，我来分析下写程序的思路：
我们采集一个地址，不会是就采集一本书把所以我们的采集地址是变化的，变化的用什么呢？这个时候一个硕大的粉笔扔了过来，我不是告诉你了吗？变量，一个严厉的王建军老师，用尽了全身力气，汇集在粉笔上对我无情的扔了过来，我想哭。。。。。。。老师打人了！！！！！！！！打家来看啊。
用变量好的，那就用变量，我们获取地址，代码如下：
$url = "http://book.sina.com.cn/nzt/lit/zhuxian2/index.shtml";// 图书地址
有了上边讲的，现在应该可以完全写出来了，开始代码：

//****************************************************************

$url = "http://book.sina.com.cn/nzt/lit/zhuxian2/index.shtml";// 图书地址

$ver = "old"; //新旧版本

//因为图书他的页面又两种板式，所以我们要在这里区别一下

//****************************************************************

// 获取页面代码 file_get_contents() 把文件读入一个字符串,下边的时候需要用到

$r = file_get_contents($url);

//在上边获取的字符串中搜索标题，并赋值给变量$booktitle，$booktitle是数组，/is就凑活理解成开始吧！

preg_match("//is",$r,$booktitle);

//把第一个出现捕获的标题赋值给变量bookname。

$bookname = $booktitle[1]; //书名

//print_r ($booktitle);die();不理解的输出这个看看，嘿嘿，帮助大家理解

/*************************************************************************************

*原形：

第四十五章伤痛(1)

*规律是：

不固定

*ISU是正则的一种模式，该模式是非贪婪模式，也就是说只要匹配上就结束

*************************************************************************************/

$preg = '/

/isU';

/********************************************************************************

*preg_match_all进行全局正则表达式匹配

*原形：

*
int preg_match_all

( string pattern, string subject, array matches [, int flags] )

*意思是：在全局搜索资源变量$preg,得到一个数组赋值给一个变量$zj，这个变量也就是数组了。

*取得其中的资源的时候用标示就可以，不会的看下数组哦！

*汪老师说了，不会数组的给我出去啃书，什么时候会了进来

**********************************************************************************/

preg_match_all($preg, $r, $zj);

//print_r ($zj);die();不理解的输出这个看看，嘿嘿，帮助大家理解

// 计算标题数量，我是问了最后提示大家看又多少章节，采集了多少

$bookzj = count($zj[1]);

//判断你要采集的板式是那种哦，因为内容开始不一样哦，其实可以自动判断的，我也写成了，但是不发布，因为很简单

if ($ver=="new"){

$content_start = "";

$content_end = "";

}

if ($ver=="old"){

$content_start = "";

$content_end = "
";

}

//采集后的文件,然后那来进行处理.这个是设置编码的，为什么是这个呢，因为你看下网站源码，嘿嘿！！！

header("Content-Type:text/html;charset=gb2312");

/*****************************************************************************************

*从1到136页的内容一次合并.这个是最爽的...打个版权，以免有人侵权，嘿嘿，好像我就在侵权哦！！！

*某某一定想杀人,这句意思就是写个版权，创建文件。

*****************************************************************************************/

writer($bookname." 共".$bookzj."节rn帅哥刘并于".date("D M j G:i:s T Y")."为了毕业而设计小说整理收集rn", "./ljy/".$bookname.".txt","w+");

/*****************************************************************************************

*从1到136页的内容一次合并.这个是最爽的...打个版权，以免有人侵权，嘿嘿，好像我就在侵权哦！！！

*某某一定想杀人,这句意思就是写个版权，创建文件。

*****************************************************************************************/

for ($i=0;$i

//echo "http://book.sina.com.cn".$zj[1][$i]".shtml";die();

$str = file_get_contents("http://book.sina.com.cn".$zj[1][$i].".shtml");

preg_match("/(

)(.*?)()/is",$str,$title);

$title = str_replace("_读书频道_新浪网","",preg_replace("//s","",$title[2]));

/***************************************************************************

*preg_replace执行正则表达式的搜索和替换

*str_replace用法真的不好说，就看例子吧！其实就是一个替换

* str = "abcabc".replace(/a/g, "d"); //结果为 dbcdbc

* str = "abcabc".replace(/a/, "d"); //结果为 dbcabc

***************************************************************************/

preg_match("/(".$content_start.")(.*?)(".$content_end.")/is",$str,$content);

$content = preg_replace("//s","",str_replace("

","rn",$content[2]));

$content = str_replace("
","",preg_replace("/^[s]*n/is","",$content));

$content = str_replace("　　? ","　　",preg_replace("/^[s]*n/is","",$content));

$result = " rn第".($i+1)."节--------".$title."_汪老师就是帅 --------- rn".$content;

//var_dump ($result);die();

writer($result, "./ailaopo/".$bookname.".txt","a+");

echo "小说".$bookname."共".$bookzj."节，现在整理到第".$i."节 _".$title."
";

}
echo "小说".$bookname."共".$bookzj."节已全部整理完成！";

function writer($content,$url,$mode)
{
    $fp = fopen($url, $mode);
    fwrite($fp, $content);
    fclose($fp);
}
?>

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7334

Tutorial Java

1627

Tutorial CakePHP

1352

Tutorial Laravel

1264

Tutorial PHP

1209

Tunjukkan Lagi

Related knowledge

Penyelesaian: Organisasi anda memerlukan anda menukar PIN anda Oct 04, 2023 pm 05:45 PM

Mesej "Organisasi anda memerlukan anda menukar PIN anda" akan muncul pada skrin log masuk. Ini berlaku apabila had tamat tempoh PIN dicapai pada komputer menggunakan tetapan akaun berasaskan organisasi, di mana mereka mempunyai kawalan ke atas peranti peribadi. Walau bagaimanapun, jika anda menyediakan Windows menggunakan akaun peribadi, sebaiknya mesej ralat tidak akan muncul. Walaupun ini tidak selalu berlaku. Kebanyakan pengguna yang mengalami ralat melaporkan menggunakan akaun peribadi mereka. Mengapa organisasi saya meminta saya menukar PIN saya pada Windows 11? Ada kemungkinan akaun anda dikaitkan dengan organisasi dan pendekatan utama anda adalah untuk mengesahkan perkara ini. Menghubungi pentadbir domain anda boleh membantu! Selain itu, tetapan dasar tempatan yang salah konfigurasi atau kunci pendaftaran yang salah boleh menyebabkan ralat. Sekarang ni

Cara melaraskan tetapan sempadan tetingkap pada Windows 11: Tukar warna dan saiz Sep 22, 2023 am 11:37 AM

Windows 11 membawa reka bentuk yang segar dan elegan ke hadapan antara muka moden membolehkan anda memperibadikan dan menukar butiran terbaik, seperti sempadan tingkap. Dalam panduan ini, kami akan membincangkan arahan langkah demi langkah untuk membantu anda mencipta persekitaran yang mencerminkan gaya anda dalam sistem pengendalian Windows. Bagaimana untuk menukar tetapan sempadan tetingkap? Tekan + untuk membuka apl Tetapan. WindowsSaya pergi ke Pemperibadian dan klik Tetapan Warna. Perubahan Warna Tetingkap Sempadan Tetapan Tetingkap 11" Lebar="643" Tinggi="500" > Cari pilihan Tunjukkan warna aksen pada bar tajuk dan sempadan tetingkap, dan togol suis di sebelahnya. Untuk memaparkan warna aksen pada menu Mula dan bar tugas Untuk memaparkan warna tema pada menu Mula dan bar tugas, hidupkan Tunjukkan tema pada menu Mula dan bar tugas

Bagaimana untuk menukar warna bar tajuk pada Windows 11? Sep 14, 2023 pm 03:33 PM

Secara lalai, warna bar tajuk pada Windows 11 bergantung pada tema gelap/terang yang anda pilih. Walau bagaimanapun, anda boleh menukarnya kepada mana-mana warna yang anda mahu. Dalam panduan ini, kami akan membincangkan arahan langkah demi langkah untuk tiga cara mengubahnya dan memperibadikan pengalaman desktop anda untuk menjadikannya menarik secara visual. Adakah mungkin untuk menukar warna bar tajuk tetingkap aktif dan tidak aktif? Ya, anda boleh menukar warna bar tajuk tetingkap aktif menggunakan apl Tetapan, atau anda boleh menukar warna bar tajuk tetingkap tidak aktif menggunakan Registry Editor. Untuk mempelajari langkah-langkah ini, pergi ke bahagian seterusnya. Bagaimana untuk menukar warna bar tajuk dalam Windows 11? 1. Tekan + untuk membuka tetingkap tetapan menggunakan apl Tetapan. WindowsSaya pergi ke "Peribadikan" dan kemudian

Masalah Ralat OOBELANGUAGE dalam Pembaikan Windows 11/10 Jul 16, 2023 pm 03:29 PM

Adakah anda melihat "Masalah berlaku" bersama-sama dengan pernyataan "OOBELANGUAGE" pada halaman Pemasang Windows? Pemasangan Windows kadangkala terhenti kerana ralat tersebut. OOBE bermaksud pengalaman di luar kotak. Seperti yang ditunjukkan oleh mesej ralat, ini ialah isu yang berkaitan dengan pemilihan bahasa OOBE. Tiada apa yang perlu dibimbangkan, anda boleh menyelesaikan masalah ini dengan penyuntingan pendaftaran yang bagus dari skrin OOBE itu sendiri. Pembetulan Pantas – 1. Klik butang “Cuba Semula” di bahagian bawah apl OOBE. Ini akan meneruskan proses tanpa gangguan lagi. 2. Gunakan butang kuasa untuk menutup paksa sistem. Selepas sistem dimulakan semula, OOBE harus diteruskan. 3. Putuskan sambungan sistem daripada Internet. Lengkapkan semua aspek OOBE dalam mod luar talian

Bagaimana untuk mendayakan atau melumpuhkan pratonton lakaran kecil bar tugas pada Windows 11 Sep 15, 2023 pm 03:57 PM

Lakaran kecil bar tugas boleh menjadi menyeronokkan, tetapi ia juga boleh mengganggu atau menjengkelkan. Memandangkan kekerapan anda menuding di atas kawasan ini, anda mungkin telah menutup tetingkap penting secara tidak sengaja beberapa kali. Kelemahan lain ialah ia menggunakan lebih banyak sumber sistem, jadi jika anda telah mencari cara untuk menjadi lebih cekap sumber, kami akan menunjukkan kepada anda cara untuk melumpuhkannya. Walau bagaimanapun, jika spesifikasi perkakasan anda boleh mengendalikannya dan anda menyukai pratonton, anda boleh mendayakannya. Bagaimana untuk mendayakan pratonton lakaran kecil bar tugas dalam Windows 11? 1. Menggunakan apl Tetapan ketik kekunci dan klik Tetapan. Windows klik Sistem dan pilih Perihal. Klik Tetapan sistem lanjutan. Navigasi ke tab Lanjutan dan pilih Tetapan di bawah Prestasi. Pilih "Kesan Visual"

Paparkan panduan penskalaan pada Windows 11 Sep 19, 2023 pm 06:45 PM

Kita semua mempunyai pilihan yang berbeza apabila ia berkaitan dengan penskalaan paparan pada Windows 11. Sesetengah orang suka ikon besar, ada yang suka ikon kecil. Walau bagaimanapun, kita semua bersetuju bahawa mempunyai penskalaan yang betul adalah penting. Penskalaan fon yang lemah atau penskalaan berlebihan imej boleh menjadi pembunuh produktiviti sebenar apabila bekerja, jadi anda perlu tahu cara menyesuaikannya untuk memanfaatkan sepenuhnya keupayaan sistem anda. Kelebihan Zum Tersuai: Ini adalah ciri yang berguna untuk orang yang mengalami kesukaran membaca teks pada skrin. Ia membantu anda melihat lebih banyak pada skrin pada satu masa. Anda boleh membuat profil sambungan tersuai yang digunakan hanya pada monitor dan aplikasi tertentu. Boleh membantu meningkatkan prestasi perkakasan kelas rendah. Ia memberi anda lebih kawalan ke atas perkara yang terdapat pada skrin anda. Cara menggunakan Windows 11

10 Cara untuk Melaraskan Kecerahan pada Windows 11 Dec 18, 2023 pm 02:21 PM

Kecerahan skrin adalah bahagian penting dalam menggunakan peranti pengkomputeran moden, terutamanya apabila anda melihat skrin untuk jangka masa yang lama. Ia membantu anda mengurangkan ketegangan mata, meningkatkan kebolehbacaan dan melihat kandungan dengan mudah dan cekap. Walau bagaimanapun, bergantung pada tetapan anda, kadangkala sukar untuk mengurus kecerahan, terutamanya pada Windows 11 dengan perubahan UI baharu. Jika anda menghadapi masalah melaraskan kecerahan, berikut ialah semua cara untuk mengurus kecerahan pada Windows 11. Cara Menukar Kecerahan pada Windows 11 [10 Cara Diterangkan] Pengguna monitor tunggal boleh menggunakan kaedah berikut untuk melaraskan kecerahan pada Windows 11. Ini termasuk sistem desktop menggunakan monitor tunggal serta komputer riba. Jom mulakan. Kaedah 1: Gunakan Pusat Tindakan Pusat Tindakan boleh diakses

Bagaimana untuk mematikan pengesahan penyemakan imbas peribadi pada iPhone dalam Safari? Nov 29, 2023 pm 11:21 PM

Dalam iOS 17, Apple memperkenalkan beberapa ciri privasi dan keselamatan baharu kepada sistem pengendalian mudah alihnya, salah satunya adalah keupayaan untuk memerlukan pengesahan dua faktor untuk tab penyemakan imbas peribadi dalam Safari. Begini cara ia berfungsi dan cara mematikannya. Pada iPhone atau iPad yang menjalankan iOS 17 atau iPadOS 17, penyemak imbas Apple kini memerlukan pengesahan Face ID/Touch ID atau kod laluan jika anda mempunyai sebarang tab Penyemakan Imbas Peribadi terbuka di Safari dan kemudian keluar dari sesi atau apl untuk mengaksesnya semula. Dalam erti kata lain, jika seseorang mendapatkan iPhone atau iPad anda semasa ia dibuka kunci, mereka masih tidak akan dapat melihat privasi anda tanpa mengetahui kod laluan anda

See all articles