网页爬虫 - python采集百度新闻的原理是什么?

Question

火车头有一个正文提取器,而且不少的采集软件都有这个东西,但是就是一直不知道这些东西到底是怎么实现的?

或是有高人说下实现的原理是多少?

比如步骤?

或是如何用python来实现,可以举个简单的例子

高洛峰 · Answer

Alamat sumber: http://www.cnblogs.com/jasondan/p/3497757.html

PHP中文网 · Answer

Untuk tujuan yang lebih disasarkan, anda boleh menggunakan tag seperti p dan artikel untuk membuat pertimbangan mudah. Jika anda memerlukan sesuatu yang lebih umum, anda boleh menganalisis data halaman web yang dikumpul, seperti menulis algoritma untuk mengira ketumpatan bahasa Cina (teks tidak berteg) untuk menentukan sama ada ia adalah teks utama. Saya tidak melakukannya secara khusus, tetapi idea pada dasarnya adalah ini.

PHP中文网 · Answer

Simulasi protokol HTTP, (biasanya menggunakan permintaan, modul urllib2)
Pengeluaran maklumat (disebabkan sifat istimewa dokumen HTML, xpath dan beautifulsoup biasanya digunakan)