PHP が XML を解析するための 4 つの方法-PHPチュートリアル-php.cn

XML 処理は開発プロセスで頻繁に使用されますが、PHP にはそれに対する豊富なサポートもあります。この記事では、Xml パーサー、SimpleXML、XMLReader、DOMDocument などの解析テクノロジの一部について簡単に説明します。

1. XML Expat パーサー:

XML パーサーは Expat XML パーサーを使用します。 Expat は、XML ドキュメントを一連のイベントとして扱うイベントベースのパーサーです。イベントが発生すると、指定された関数を呼び出してそれを処理します。 Expat は、ドキュメントにリンクされている DTD を無視する検証不要のパーサーです。ただし、ドキュメントの形式が適切でない場合は、エラーメッセージが表示されます。 Expat はイベントベースで検証がないため、高速であり、Web アプリケーションに適しています。

XML パーサーの利点は、XML ドキュメント全体をメモリにロードして処理するのではなく、解析しながら処理するため、パフォーマンスが優れていることです。しかし、まさにこのため、XML 構造を動的に調整したり、XML コンテキスト構造に基づいて複雑な操作を実行する必要があるユーザーには適していません。適切に構造化された XML ドキュメントを解析して処理したいだけであれば、このタスクを適切に完了できます。 XML パーサーは、US-ASCII、ISO-8859-1、UTF-8 の 3 つのエンコード形式のみをサポートしていることに注意してください。XML データが他のエンコード形式である場合は、まず、上記の 3 つのいずれかに変換する必要があります。
XML パーサーには一般的に 2 つのよく使用される解析メソッド (実際には 2 つの関数)、xml_parse_into_struct と xml_set_element_handler があります。

xml_parse_into_struct

このメソッドは、XML データを 2 つの配列に解析します:
index 配列 - Value 配列内の値の位置へのポインターが含まれます
value 配列 - 解析された XML からのデータが含まれます

これはちょっとしたものです2 つの配列をテキストで説明するのは面倒なので、例を見てみましょう (公式 PHP ドキュメントから)

$simple = "<para><note>simple note</note></para>";
$p = xml_parser_create();
xml_parse_into_struct($p, $simple, $vals, $index);
xml_parser_free($p);
echo "Index array\n";
print_r($index);
echo "\nVals array\n";
print_r($vals);

ログイン後にコピー

出力:
Index array
Array
(
[PARA] => Array
(
[0] => 0
[1] => 2

[0] => 配列

（（
（＆＆gt;complete
[level] =＆gt;2
[value] =＆gt; simplenote
）

[2] =＆gt;array
（
[tag] =＆gt; parape] = & gt; close
[level] => 1
)
)
インデックス配列はラベル名をキーとして使用し、対応する値は値にこのラベルの位置をすべて含みます。配列。次に、この位置から、このラベルに対応する値を見つけます。

XML 内の各データの形式が異なっており、完全に統一できない場合、コードを記述するときに注意する必要があり、間違った結果が得られる可能性があります。たとえば、次の例:

$xml = &#39;
<infos>
<para><note>note1</note><extra>extra1</extra></para>
<para><note>note2</note></para>
<para><note>note3</note><extra>extra3</extra></para>
</infos>
&#39;;

$p = xml_parser_create();
xml_parse_into_struct($p, $xml, $values, $tags);
xml_parser_free($p);
$result = array();
//下面的遍历方式有bug隐患
for ($i=0; $i<3; $i++) {
  $result[$i] = array();
  $result[$i]["note"] = $values[$tags["NOTE"][$i]]["value"];
  $result[$i]["extra"] = $values[$tags["EXTRA"][$i]]["value"];
}
print_r($result);

ログイン後にコピー

上記の方法でトラバースすると、コードは単純に見えますが、隠れた危険性があります。最も致命的なのは、間違った結果が得られることです (extra3 が 2 番目のパラグラフに実行されます)。したがって、より厳密な方法でトラバースする必要があります:

$result = array();
$paraTagIndexes = $tags[&#39;PARA&#39;];
$paraCount = count($paraTagIndexes);
for($i = 0; $i < $paraCount; $i += 2) {
  $para = array();
  //遍历para标签对之间的所有值
  for($j = $paraTagIndexes[$i]; $j < $paraTagIndexes[$i+1]; $j++) {
    $value = $values[$j][&#39;value&#39;];
    if(empty($value)) continue;

    $tagname = strtolower($values[$j][&#39;tag&#39;]);
    if(in_array($tagname, array(&#39;note&#39;,&#39;extra&#39;))) {
      $para[$tagname] = $value;
    }
  }
  $result[] = $para;
}

ログイン後にコピー

実際、私は xml_parse_into_struct 関数をほとんど使用しないため、上記のいわゆる「厳密な」コードが保持されていない場合、他の状況でバグが発生することになります。 - -|
xml_set_element_handler

このメソッドは、要素の開始と終了を処理するパーサーのコールバック関数を設定します。パーサーのデータを設定するために使用されるコールバック関数 xml_set_character_data_handler も含まれています。この方法で記述されたコードはより明確で、保守が容易になります。

例:

$xml = <<<XML
<infos>
<para><note>note1</note><extra>extra1</extra></para>
<para><note>note2</note></para>
<para><note>note3</note><extra>extra3</extra></para>
</infos>
XML;

$result = array();
$index = -1;
$currData;

function charactor($parser, $data) {
  global $currData;
  $currData = $data;
}

function startElement($parser, $name, $attribs) {
  global $result, $index;
  $name = strtolower($name);
  if($name == &#39;para&#39;) {
    $index++;
    $result[$index] = array();
  }
}

function endElement($parser, $name) {
  global $result, $index, $currData;
  $name = strtolower($name);
  if($name == &#39;note&#39; || $name == &#39;extra&#39;) {
    $result[$index][$name] = $currData;
  }
}

$xml_parser = xml_parser_create();
xml_set_character_data_handler($xml_parser, "charactor");
xml_set_element_handler($xml_parser, "startElement", "endElement");
if (!xml_parse($xml_parser, $xml)) {
  echo "Error when parse xml: ";
  echo xml_error_string(xml_get_error_code($xml_parser));
}
xml_parser_free($xml_parser);

print_r($result);

ログイン後にコピー

set ハンドラーメソッドはコード行数が多いものの、アイデアが明確で読みやすさが優れていますが、最初のメソッドよりもパフォーマンスが若干遅く、柔軟性が低いことがわかります。 XML パーサーは PHP4 をサポートしており、古いバージョンを使用するシステムに適しています。 PHP5環境の場合は以下の方法を優先してください。

2.シンプルXML

SimpleXML是PHP5后提供的一套简单易用的xml工具集，可以把xml转换成方便处理的对象，也可以组织生成xml数据。不过它不适用于包含namespace的xml，而且要保证xml格式完整(well-formed)。它提供了三个方法：simplexml_import_dom、simplexml_load_file、simplexml_load_string，函数名很直观地说明了函数的作用。三个函数都返回SimpleXMLElement对象，数据的读取/添加都是通过SimpleXMLElement操作。

$string = <<<XML
<?xml version=&#39;1.0&#39;?>
<document>
  <cmd>login</cmd>
  <login>imdonkey</login>
</document>
XML;

$xml = simplexml_load_string($string);
print_r($xml);
$login = $xml->login;//这里返回的依然是个SimpleXMLElement对象
print_r($login);
$login = (string) $xml->login;//在做数据比较时，注意要先强制转换
print_r($login);

ログイン後にコピー

SimpleXML的优点是开发简单，缺点是它会将整个xml载入内存后再进行处理，所以在解析超多内容的xml文档时可能会力不从心。如果是读取小文件，而且xml中也不包含namespace，那SimpleXML是很好的选择。

3。 XMLReader

XMLReader也是PHP5之后的扩展（5.1后默认安装），它就像游标一样在文档流中移动，并在每个节点处停下来，操作起来很灵活。它提供了对输入的快速和非缓存的流式访问，可以读取流或文档，使用户从中提取数据，并跳过对应用程序没有意义的记录。
以一个利用google天气api获取信息的例子展示下XMLReader的使用，这里也只涉及到一小部分函数，更多还请参考官方文档。

$xml_uri = &#39;http://www.google.com/ig/api?weather=Beijing&hl=zh-cn&#39;;
$current = array();
$forecast = array();

$reader = new XMLReader();
$reader->open($xml_uri, &#39;gbk&#39;);
while ($reader->read()) {
  //get current data
  if ($reader->name == "current_conditions" && $reader->nodeType == XMLReader::ELEMENT) {
    while($reader->read() && $reader->name != "current_conditions") {
      $name = $reader->name;
      $value = $reader->getAttribute(&#39;data&#39;);
      $current[$name] = $value;
    }
  }

  //get forecast data
  if ($reader->name == "forecast_conditions" && $reader->nodeType == XMLReader::ELEMENT) {
    $sub_forecast = array();
    while($reader->read() && $reader->name != "forecast_conditions") {
      $name = $reader->name;
      $value = $reader->getAttribute(&#39;data&#39;);
      $sub_forecast[$name] = $value;
    }
    $forecast[] = $sub_forecast;
  }
}
$reader->close();

ログイン後にコピー

XMLReader和XML Parser类似，都是边读边操作，较大的差异在于SAX模型是一个“推送”模型，其中分析器将事件推到应用程序，在每次读取新节点时通知应用程序，而使用XmlReader的应用程序可以随意从读取器提取节点，可控性更好。
由于XMLReader基于libxml，所以有些函数要参考文档看看是否适用于你的libxml版本。

4。 DOMDocument

DOMDocument还是PHP5后推出的DOM扩展的一部分，可用来建立或解析html/xml，目前只支持utf-8编码。

$xmlstring = <<<XML
<?xml version=&#39;1.0&#39;?>
<document>
  <cmd attr=&#39;default&#39;>login</cmd>
  <login>imdonkey</login>
</document>
XML;

$dom = new DOMDocument();
$dom->loadXML($xmlstring);
print_r(getArray($dom->documentElement));

function getArray($node) {
  $array = false;

  if ($node->hasAttributes()) {
    foreach ($node->attributes as $attr) {
      $array[$attr->nodeName] = $attr->nodeValue;
    }
  }

  if ($node->hasChildNodes()) {
    if ($node->childNodes->length == 1) {
      $array[$node->firstChild->nodeName] = getArray($node->firstChild);
    } else {
      foreach ($node->childNodes as $childNode) {
      if ($childNode->nodeType != XML_TEXT_NODE) {
        $array[$childNode->nodeName][] = getArray($childNode);
      }
    }
  }
  } else {
    return $node->nodeValue;
  }
  return $array;
}

ログイン後にコピー

从函数名上看感觉跟JavaScript很像，应该是借鉴了一些吧。DOMDocument也是一次性将xml载入内存，所以内存问题同样需要注意。PHP提供了这么多的xml处理方式，开发人员在选择上就要花些时间了解，选择适合项目需求及系统环境、又便于维护的方法。

转