次のメソッドを使用して、PHP で HTML/XML を解析し、そこから情報を抽出できます。
DOM
DOM 拡張機能を使用すると、PHP 5 の DOM API を使用して XML ドキュメントを操作できます。これは、W3C のドキュメント オブジェクト モデル コア レベル 3 を実装しており、ドキュメントのコンテンツ、構造、スタイルへのアクセス、更新、クエリ。これは libxml に基づいており、実際の HTML の解析と変更が可能で、XPath クエリをサポートしています。
XMLReader
XMLReader 拡張機能はプル パーサーであり、アクセスを許可します。読者がドキュメント内を移動するときに、オンデマンドで XML ノードにアクセスできます。また、libxml に基づいており、DOM よりもメモリ フットプリントが軽いです。
XML パーサー
この拡張機能を使用すると、さまざまな XML のカスタマイズ可能なハンドラーを備えた XML パーサーを作成できます。イベント。 SAX スタイルの XML プッシュ パーサーを実装します。
SimpleXml
SimpleXML 拡張機能は、整形式の XHTML ドキュメントの解析に適しています。 XML をオブジェクトに変換する単純なツールセットを提供し、簡単なデータ抽出を可能にします。
FluentDom
FluentDom DOMDocument に基づいた流暢な XML インターフェイスを提供し、jQuery のようなものをサポートします。 selectors.
HtmlPageDom
HtmlPageDom は、DOM を使用して HTML ドキュメントを簡単に操作できるように設計されており、HTML に固有のメソッドで拡張されています。
phpQuery
phpQuery はjQuery からインスピレーションを得た CSS3 ベースの DOM 操作ライブラリ。チェーン可能なインターフェイスを備えています。
laminas-dom
laminas-dom は、XPath とCSS selectors.
fDOMDocument
fDOMDocument は、エラー処理に例外を使用するように標準 DOM を拡張し、追加のメソッドとショートカットを提供します。
sabre/ xml
sabre/xml ラップ単純なオブジェクト/配列マッピング用に XMLReader と XMLWriter を拡張し、XML のシングルパス読み取りと書き込みをサポートします。
FluidXML
FluidXML は、操作用の簡潔で流暢な API です。 XPath と流暢なプログラミング パターンを活用した XML。
PHP Simple HTML DOM Parser
このライブラリは、簡単な HTML 操作と CSS セレクターのサポートを提供しますが、コードベースとパフォーマンスが低いため推奨されません問題と限定的なセレクターのサポート。
PHP Htmlパーサー
機能とパフォーマンスの問題が制限されている別の HTML パーサー。使用はお勧めできません。
潜在的な問題のため、HTML 5 には専用のパーサーが使用できます。ジェネリックで解析する場合tools.
HTML5DomDocument
ネイティブ DOMDocument を拡張して HTML 5 要素を正しく処理し、CSS セレクター クエリやクラス リストのサポートなどの機能を追加します。
HTML5
次の機能を備えた完全な HTML 5 パーサーシリアル化、PHP 名前空間、Composer サポート、イベントベースの解析、および互換性などの機能QueryPath.
正規表現を使用して HTML からデータを抽出することは可能ですが、脆弱性とエラーの可能性があるため、一般的に推奨されません。十分にテストされたライブラリが利用可能な場合は、正規表現を使用して信頼性の高いカスタム パーサーを作成することはお勧めできません。
さらに詳しく読むには、書籍『PHP Architect's Guide to Webscraping with PHP』を検討してください。
以上がPHP で HTML/XML を解析および処理するにはどうすればよいですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。