phantomjs は js を実行できるヘッドレス ブラウザであるため、dom ノードも実行でき、Web クローリングに最適です。
たとえば、Web ページ上の「Today in History」のコンテンツをバッチ クロールしたいとします。ウェブサイト
dom 構造を観察すると、.list li a の title 値を取得するだけで済みます。そこで、高度なセレクターを使用して DOM フラグメントを構築します
var d= '' var c = document.querySelectorAll('.list li a') var l = c.length; for(var i =0;i<l;i++){ d=d+c[i].title+'\n' }
その後は、js コードを phantomjs で実行するだけです~
var page = require('webpage').create(); page.open('http://www.todayonhistory.com/', function (status) { //打开页面 if (status !== 'success') { console.log('FAIL to load the address'); } else { console.log(page.evaluate(function () { var d= '' var c = document.querySelectorAll('.list li a') var l = c.length; for(var i =0;i<l;i++){ d=d+c[i].title+'\n' } return d })) } phantom.exit(); });
最後に、catch.js として保存し、dos で実行し、内容を txt ファイルに出力します (phantomjs のファイル API を使用して書き込むこともできます)