PHP を使用して、特定の要素クラスに基づいて HTML ドキュメントからテキストデータを抽出して分類するにはどうすればよいですか?-PHPチュートリアル-php.cn

ホームページ

バックエンド開発

PHPチュートリアル

PHP を使用して、特定の要素クラスに基づいて HTML ドキュメントからテキストデータを抽出して分類するにはどうすればよいですか?

Nov 12, 2024 pm 03:48 PM

How can I extract and categorize text data from an HTML document based on specific element classes using PHP?

指定されたクラスを持つ要素から包括的な配列としてテキストを取得する

このクエリでの当面のタスクは、テキストデータを抽出して分類することです。特定の要素クラスに基づいた HTML ドキュメントから。 HTML ドキュメントには、「Heading1-P」や「Normal-P」などのクラスを持つさまざまな段落が含まれており、それぞれに対応する見出しとコンテンツが含まれています。

これを実現するには、PHP DOM Document と XPath を利用できます。このプロセスには、HTML ドキュメントの解析と、XPath を使用したその要素の走査が含まれます。 XPath オブジェクトとクラス名を入力として受け取るカスタム関数 parseToArray() を定義します。この関数は、クラスに一致する要素を反復処理し、そのテキストコンテンツを配列に抽出します。

詳細な解決策は次のとおりです。

$test = &lt;&lt;&lt; HTML
&lt;p class=&quot;Heading1-P&quot;&gt;
    &lt;span class=&quot;Heading1-H&quot;&gt;Chapter 1&lt;/span&gt;
&lt;/p&gt;
&lt;p class=&quot;Normal-P&quot;&gt;
    &lt;span class=&quot;Normal-H&quot;&gt;This is chapter 1&lt;/span&gt;
&lt;/p&gt;
&lt;p class=&quot;Heading1-P&quot;&gt;
    &lt;span class=&quot;Heading1-H&quot;&gt;Chapter 2&lt;/span&gt;
&lt;/p&gt;
&lt;p class=&quot;Normal-P&quot;&gt;
    &lt;span class=&quot;Normal-H&quot;&gt;This is chapter 2&lt;/span&gt;
&lt;/p&gt;
&lt;p class=&quot;Heading1-P&quot;&gt;
    &lt;span class=&quot;Heading1-H&quot;&gt;Chapter 3&lt;/span&gt;
&lt;/p&gt;
&lt;p class=&quot;Normal-P&quot;&gt;
    &lt;span class=&quot;Normal-H&quot;&gt;This is chapter 3&lt;/span&gt;
&lt;/p&gt;
HTML;
 
$dom = new DOMDocument();
$dom-&gt;loadHTML($test);
$xpath = new DOMXPath($dom);
$heading = parseToArray($xpath, 'Heading1-H');
$content = parseToArray($xpath, 'Normal-H');
 
var_dump($heading);
echo "&lt;br/&gt;";
var_dump($content);
echo "&lt;br/&gt;";
 
function parseToArray(DOMXPath $xpath, string $class): array
{
    $xpathquery = "//[@class='$class']";
    $elements = $xpath-&gt;query($xpathquery);
 
    $resultarray = [];
    foreach ($elements as $element) {
        $nodes = $element-&gt;childNodes;
        foreach ($nodes as $node) {
            $resultarray[] = $node-&gt;nodeValue;
        }
    }
 
    return $resultarray;
}

ログイン後にコピー

関数 parseToArray() は、特定のクラスに基づいて要素を識別します。名前を付け、そのテキスト内容を配列に抽出します。続いて、$Heading と $content という 2 つの配列が作成され、それぞれ章のタイトルと対応する段落テキストが含まれます。コードの出力は次のようになります。

array(3) {
  [0] =&gt;
  string(8) "Chapter 1"
  [1] =&gt;
  string(8) "Chapter 2"
  [2] =&gt;
  string(8) "Chapter 3"
}
array(3) {
  [0] =&gt;
  string(16) "This is chapter 1"
  [1] =&gt;
  string(16) "This is chapter 2"
  [2] =&gt;
  string(16) "This is chapter 3"
}