Rumah

Tutorial CMS

DEDECMS

dedecms采集怎么用

(*-*)浩

Jul 16, 2019 pm 03:04 PM

dedecms

以织梦官方站为例，我们采集站长学院下的PHP教程栏目，打开列表地址http://www.dedecms.com/web-art/PHP_jiaocheng。

dedecms采集怎么用

登录后台，进入“采集节点管理”，新建一个节点，选择内容模型为“普通文章”。

1.设置节点基本信息 （推荐学习：dedecms教程）

先填写一个方便记忆的节点名称，选择目标页面编码为GB2312，防盗链模式不做设置，因目标站没做限制，这一项就不做修改，系统默认超时时间10秒。

2.设置列表网址获取规则

这一步我们要做些设置，获取文章列表地址，回到目标站列表页，观察分页间的变化，可以发现只有“14_”后的数字有规律的递增变化。

首页：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_1.html

中间：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_(*).html

末页：http://www.dedecms.com/web-art/PHP_jiaocheng/list_14_172.html

复制一个分页地址，回到“新增采集节点”页面，选择“来源属性”为“批量生成列表网址”，把粘贴地址到“匹配网址”中，修改规律变化处为(*)，“批量生成地址设置”处(*)输入1到172，这里的意思是生成出列表第一页到最后172页的所有地址。

测试一下，在弹出框中我们可以看到循环出172条地址记录，很顺利的就设置好了。有时候会碰到较难获取的列表，那我们可以把把没规律的地址复制到”手工指定列表网址“文本框中来采集。

3.设置文章网址匹配规则

上面指定好了文章地址来源页，这一步就需要在这些页面中找出符合要求的文章地址页了。打开一个列表页面观察，左栏的方框中包含了我们需要的全部地址，这种情况区分明显的页面，可以利“区域开始的HTML”和“区域结束的HTMLL”设置进行过滤。

不过也可以使用其他方法。把鼠标移到各处链接地址，观察浏览器左下角显示的完整地址，我们需要的地址都包含“PHP_jiaocheng/20”，那我们把它填写到“必须包含”中。

两种方法都能够过滤出地址，碰上复杂页面，可以配合起来使用，加上正则，几乎没有筛选不出的地址，与下图对照。最后确定，进入下一步“网页内容获取规则”。

4.网页内容获取规则

上面介绍了列表设置的方法，接下来我们进入内容获取规则的设置，如果说采集是上菜的话，上面一到三步的作用，只是开胃菜为下面的主菜做引。接下来是介绍如何从目标站把文章内容采集过来，这一步是是整个采集中最为核心的部分。

继续回到织梦的PHP教程列表，随便打开一篇列表中的文章，这里我们以《正则表达式》这篇文章为例：http://www.dedecms.com/web-art/PHP_jiaocheng/20070420/38633.html ，把该地址复制到“预览网址”；因为织梦所有文章都没分页，所以这里的分页就无需设置，直接进入“固定的采集项目”页面

（注：如果采集的内容含有分页，只需要将分页导航部分的匹配规则设置完成即可，这里有全部列出的分页列表、上下页形式或不完整的分页列表根据内容进行设置即可）

以下为引用的内容：

全部列出的分页列表：分页内容列出所有的链接，如下图所示

上下页形式或不完整的分页列表：单页显示当前分页内容，不完全显示的列表形式

5. 固定的采集项目

进入这一步，就开始对页面源码进行分析了，采集无非是分析HTML页面的结构，从而获取我们所需的内容。所以要求我们对HTML代码有一定的认识，能通过查看页面源文件，找出需要的内容，最好多开几个页面进行分析，找出相同处。

推荐大家使用Dreamweaver分析。在分析页面代码的时候，多使用搜索功能，会方便很多，特别是找到标签后，搜索一下看有无重复以减少分析错误。

1) 文章标题：这个页面的标题是“正则表达式”复制下它，在Dreamweaver按Ctrl+F键搜索全部，有30项记录。因为唯一性，这里我们选择105行这段“

正则表达式

”标签，复制到“固定采集项目”文章标题的匹配规则中，并用关键字“[内容]”替换标题，最终为

[内容]

。

2) 作者：以作者为关键字继续搜索，只有110行有唯一的出现，连同alluse前后的标签一起复制到匹配规则中，使用[内容]替换要采集处。

3) 来源：同上操作在109行找到标签，复制过去，使用[内容]替换要采集处。若来源包含超链接标签想去掉，则在过滤规则框，填写如下规则过滤掉：

<a([^>]*)> <br></a><br>

Salin selepas log masuk

4) 发布时间：同上操作在111行处进行复制粘贴和修改。

5) 文章内容：搜索文章内容的开始部分，例如“第一部分”在118行发现目标，点击状态栏

发现未能全部选中文章内容，继续前一个，蓝色内容选中全部内容，知道

为文章内容的真正容器。复制内容前后标签，到匹配规则中。

至此，内容的过滤都设置都完成了。

6. 节点采集

如果你的采集节点是一气呵成而且测试成功的话，按提示点击按钮，就可以直接采集了，但是节点是之前写的，就需到“节点管理页”勾选需采集节点，按“采集”按钮进行采集了。若你想采集所有节点的新内容，那就到监控采集页面进行操作吧。

每页采集可以设置每页采集的数据条数，一般来说不要设置太大，否则有可能导致系统处理不过来而部分采集不到，建议别超过15。

线程数是指每次有多少个线程同时进行采集，线程数的增加可以加快采集速度，但相应的会增加服务器资源的占用，所以请慎用。假若目标站点有防刷新限制，此处就可以根据目标站点的防刷新限制时间进行设置，假如没有就默认0秒可以了。

附加选项这三个设置从字面上应该可以很容易理解，这就根据你的实际需要进行选择了。

采集完成。

更多wordpress相关技术文章，请访问wordpress教程栏目进行学习！

Atas ialah kandungan terperinci dedecms采集怎么用. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

2 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Arahan sembang dan cara menggunakannya

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7518

Tutorial CakePHP

1378

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Di manakah templat rangkaian sumber cms imperial? Apr 17, 2024 am 10:00 AM

Lokasi muat turun templat Empire CMS: Muat turun templat rasmi: https://www.phome.net/template/ Tapak web templat pihak ketiga: https://www.dedecms.com/diy/https://www.0978.com. cn /https://www.jiaocheng.com/Kaedah pemasangan: Muat turun templat Nyahzip templat Muat naik templat Pilih templat

Cara dedecms melaksanakan penggantian templat Apr 16, 2024 pm 12:12 PM

Penggantian templat boleh dilaksanakan dalam Dedecms melalui langkah berikut: ubah suai fail global.cfg dan tetapkan pek bahasa yang diperlukan. Ubah suai fail cangkuk taglib.inc.php dan tambah sokongan untuk fail templat akhiran bahasa. Cipta fail templat baharu dengan akhiran bahasa dan ubah suai kandungan yang diperlukan. Kosongkan cache Dedecms.

Bagaimana untuk memuat naik video tempatan ke dedecms Apr 16, 2024 pm 12:39 PM

Bagaimana untuk memuat naik video tempatan menggunakan Dedecms? Sediakan fail video dalam format yang disokong oleh Dedecms. Log masuk ke bahagian belakang pengurusan Dedecms dan buat kategori video baharu. Muat naik fail video pada halaman pengurusan video, isikan maklumat yang berkaitan dan pilih kategori video. Untuk membenamkan video semasa mengedit artikel, masukkan nama fail video yang dimuat naik dan laraskan dimensi.

Apakah tapak web yang boleh dilakukan oleh dedecms? Apr 16, 2024 pm 12:24 PM

Dedecms ialah CMS sumber terbuka yang boleh digunakan untuk membuat pelbagai jenis laman web, termasuk: laman web berita, laman web blog, laman web e-dagang, forum dan laman web komuniti, laman web pendidikan, laman web portal, jenis laman web lain (seperti laman web korporat). , tapak web peribadi, tapak web album foto, tapak web perkongsian video)

Cara menggunakan dedecms Apr 16, 2024 pm 12:15 PM

Dedecms ialah sistem CMS Cina sumber terbuka yang menyediakan pengurusan kandungan, sistem templat dan perlindungan keselamatan. Penggunaan khusus termasuk langkah-langkah berikut: 1. Pasang Dedecms. 2. Konfigurasi pangkalan data. 3. Log masuk ke antara muka pengurusan. 4. Cipta kandungan. 5. Sediakan templat. 6. Mengurus pengguna. 7. Menjaga sistem.

Laporan penilaian alat penukaran dedecms yang tepat dan boleh dipercayai Mar 12, 2024 pm 07:03 PM

Laporan penilaian alat penukaran dedecms yang tepat dan boleh dipercayai Dengan perkembangan pesat era Internet, pembinaan laman web telah menjadi salah satu alat yang diperlukan untuk banyak syarikat dan individu. Dalam pembinaan laman web, menggunakan sistem pengurusan kandungan (CMS) boleh mengurus kandungan dan fungsi laman web dengan lebih mudah dan cekap. Antaranya, dedecms, sebagai sistem CMS yang terkenal, digunakan secara meluas dalam pelbagai projek pembinaan laman web. Walau bagaimanapun, kadangkala kita berhadapan dengan keperluan untuk menukar tapak web dedecms kepada format lain, dalam hal ini kita perlu menggunakan alat penukaran

Apakah kelemahan yang ada pada dedecms? Aug 03, 2023 pm 03:56 PM

DedeCMS ialah sistem pengurusan kandungan sumber terbuka yang mempunyai beberapa potensi kelemahan dan risiko keselamatan: 1. Kerentanan suntikan SQL boleh melakukan operasi tanpa kebenaran atau mendapatkan data sensitif dengan membina pernyataan pertanyaan SQL yang berniat jahat 2. Kerentanan Muat Naik Fail, penyerang boleh memuat naik fail yang mengandungi kod jahat kepada pelayan untuk melaksanakan kod sewenang-wenangnya atau mendapatkan kebenaran pelayan;

Cara mudah untuk mempelajari fungsi penukaran pengekodan dedecms Mar 14, 2024 pm 02:09 PM

Mempelajari fungsi penukaran pengekodan dedecms tidak rumit Contoh kod mudah boleh membantu anda menguasai kemahiran ini dengan cepat. Dalam dedecms, fungsi penukaran pengekodan biasanya digunakan untuk menangani masalah seperti aksara Cina yang kacau dan aksara khas untuk memastikan operasi normal sistem dan ketepatan data. Berikut akan memperkenalkan secara terperinci cara menggunakan fungsi penukaran pengekodan dedecms, membolehkan anda mengatasi pelbagai keperluan berkaitan pengekodan dengan mudah. 1.UTF-8 kepada GBK Dalam dedecms, jika anda perlu menukar rentetan dikodkan UTF-8 kepada G

See all articles