集めたデータはプロジェクトで使用するので、まずはCSDNブログで試してみました。ここでは、HTML ドキュメントを簡単に横断できる Simple HTML DOM (公式 Web サイト) ライブラリを使用します。
<?php include_once('simple_html_dom.php'); header('Content-Type:text/html;charset=utf-8'); $html = file_get_html('http://blog.csdn.net/szy361'); $res = $html->find('#hotarticls ul.panel_body li a[title]');//取得id=hotarticls下class为panel_bodya的ul标签下的a的title $span = $html->find('#hotarticls ul.panel_body li span');//取得span foreach($res as $element){ $arr[] = $element->title.'+'.$element->href;//将title值和href的值通过+连起来 } foreach($span as $e){ $brr[] = $e->innertext;//得到span下的值组成的数组 } //将两个数组组成一个新的二维数组 for($i=0;$i<count($res);$i++){ $crr[] = explode('+',$arr[$i]); $crr[$i][] = $brr[$i]; } return $crr;
内線番号:
PHP シンプルな HTML DOM パーサーを使ってみる