PHP を使用して、特定の要素クラスに基づいて HTML ドキュメントからテキスト データを抽出して分類するにはどうすればよいですか?
Nov 12, 2024 pm 03:48 PM指定されたクラスを持つ要素から包括的な配列としてテキストを取得する
このクエリでの当面のタスクは、テキスト データを抽出して分類することです。特定の要素クラスに基づいた HTML ドキュメントから。 HTML ドキュメントには、「Heading1-P」や「Normal-P」などのクラスを持つさまざまな段落が含まれており、それぞれに対応する見出しとコンテンツが含まれています。
これを実現するには、PHP DOM Document と XPath を利用できます。このプロセスには、HTML ドキュメントの解析と、XPath を使用したその要素の走査が含まれます。 XPath オブジェクトとクラス名を入力として受け取るカスタム関数 parseToArray() を定義します。この関数は、クラスに一致する要素を反復処理し、そのテキスト コンテンツを配列に抽出します。
詳細な解決策は次のとおりです。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 |
|
関数 parseToArray() は、特定のクラスに基づいて要素を識別します。名前を付け、そのテキスト内容を配列に抽出します。続いて、$Heading と $content という 2 つの配列が作成され、それぞれ章のタイトルと対応する段落テキストが含まれます。コードの出力は次のようになります。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
|
このアプローチを採用すると、HTML ドキュメントから特定のクラス名に基づいてテキスト コンテンツを効率的に取得して分離できるため、柔軟で的を絞ったデータ処理が可能になります。
以上がPHP を使用して、特定の要素クラスに基づいて HTML ドキュメントからテキスト データを抽出して分類するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

人気の記事

人気の記事

ホットな記事タグ

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











LaravelのバックエンドでReactアプリを構築する:パート2、React
