用PHP读取和编写XML DOM的实现代码-php手册-php.cn

有许多技术可用于用 PHP 读取和编写 XML。本文提供了三种方法读取 XML：使用 DOM 库、使用 SAX 解析器和使用正则表达式。还介绍了使用 DOM 和 PHP 文本模板编写

用 PHP 读取和编写可扩展标记语言（XML）看起来可能有点恐怖。实际上，XML 和它的所有相关技术可能是恐怖的，但是用 PHP 读取和编写 XML 不一定是项恐怖的任务。首先，需要学习一点关于 XML 的知识 —— 它是什么，用它做什么。然后，需要学习如何用 PHP 读取和编写 XML，而有许多种方式可以做这件事。
本文提供了 XML 的简短入门，然后解释如何用 PHP 读取和编写 XML。
什么是 XML？
XML 是一种数据存储格式。它没有定义保存什么数据，也没有定义数据的格式。XML 只是定义了标记和这些标记的属性。格式良好的 XML 标记看起来像这样：
Jack Herrington
这个标记包含一些文本：Jack Herrington。
不包含文本的 XML 标记看起来像这样：

用 XML 对某件事进行编写的方式不止一种。例如，这个标记形成的输出与前一个标记相同：

也可以向 XML 标记添加属性。例如，这个标记包含 first 和 last 属性：

也可以用 XML 对特殊字符进行编码。例如，& 符号可以像这样编码：
&
包含标记和属性的 XML 文件如果像示例一样格式化，就是格式良好的，这意味着标记是对称的，字符的编码正确。清单 1 是一份格式良好的 XML 的示例。

清单 1. XML 图书列表示例

复制代码代码如下:

Jack Herrington
PHP Hacks
O'Reilly

Jack Herrington
Podcasting Hacks
O'Reilly

清单 1 中的 XML 包含一个图书列表。父标记包含一组标记，每个标记又包含、和 <publisher> 标记。 当 XML 文档的标记结构和内容得到外部模式文件的验证后，XML 文档就是正确的。模式文件可以用不同的格式指定。对于本文来说，所需要的只是格式良好的 XML。 如果觉得 XML 看起来很像超文本标记语言（HTML），那么就对了。XML 和 HTML 都是基于标记的语言，它们有许多相似之处。但是，要着重指出的是：虽然 XML 文档可能是格式良好的 HTML，但不是所有的 HTML 文档都是格式良好的 XML。换行标记（br）是 XML 和 HTML 之间区别的一个好例子。这个换行标记是格式良好的 HTML，但不是格式良好的 XML： This is a paragraph With a line break 这个换行标记是格式良好的 XML 和 HTML： This is a paragraph With a line break 如果要把 HTML 编写成同样是格式良好的 XML，请遵循 W3C 委员会的可扩展超文本标记语言（XHTML）标准。所有现代的浏览器都能呈现 XHTML。而且，还可以用 XML 工具读取 XHTML 并找出文档中的数据，这比解析 HTML 容易得多。 使用 DOM 库读取 XML 读取格式良好的 XML 文件最容易的方式是使用编译成某些 PHP 安装的文档对象模型（DOM）库。DOM 库把整个 XML 文档读入内存，并用节点树表示它，如图 1 所示。 图 1. 图书 XML 的 XML DOM 树 <img src="/static/imghw/default1.png" data-src="http://www.68idc.cn/help/uploads/allimg/121109/152934cF_0.gif" class="lazy" alt="用PHP读取和编写XML DOM的实现代码" > 树顶部的 books 节点有两个 book 子标记。在每本书中，有 author、publisher 和 title 几个节点。author、publisher 和 title 节点分别有包含文本的文本子节点。 读取图书 XML 文件并用 DOM 显示内容的代码如清单 2 所示。 清单 2. 用 DOM 读取图书 XML 复制代码 代码如下: <?php $doc = new DOMDocument(); $doc->load( 'books.xml' ); $books = $doc->getElementsByTagName( "book" ); foreach( $books as $book ) { $authors = $book->getElementsByTagName( "author" ); $author = $authors->item(0)->nodeValue; $publishers = $book->getElementsByTagName( "publisher" ); $publisher = $publishers->item(0)->nodeValue; $titles = $book->getElementsByTagName( "title" ); $title = $titles->item(0)->nodeValue; echo "$title - $author - $publisher\n"; } ?> 脚本首先创建一个 new DOMdocument 对象，用 load 方法把图书 XML 装入这个对象。之后，脚本用 getElementsByName 方法得到指定名称下的所有元素的列表。 在 book 节点的循环中，脚本用 getElementsByName 方法获得 author、publisher 和 title 标记的 nodeValue。nodeValue 是节点中的文本。脚本然后显示这些值。 可以在命令行上像这样运行 PHP 脚本： % php e1.php PHP Hacks - Jack Herrington - O'Reilly Podcasting Hacks - Jack Herrington - O'Reilly % 可以看到，每个图书块输出一行。这是一个良好的开始。但是，如果不能访问 XML DOM 库该怎么办？ 用 SAX 解析器读取 XML 读取 XML 的另一种方法是使用 XML Simple API（SAX）解析器。PHP 的大多数安装都包含 SAX 解析器。SAX 解析器运行在回调模型上。每次打开或关闭一个标记时，或者每次解析器看到文本时，就用节点或文本的信息回调用户定义的函数。 SAX 解析器的优点是，它是真正轻量级的。解析器不会在内存中长期保持内容，所以可以用于非常巨大的文件。缺点是编写 SAX 解析器回调是件非常麻烦的事。清单 3 显示了使用 SAX 读取图书 XML 文件并显示内容的代码。 清单 3. 用 SAX 解析器读取图书 XML 复制代码 代码如下: <?php $g_books = array(); $g_elem = null; function startElement( $parser, $name, $attrs ) { global $g_books, $g_elem; if ( $name == 'BOOK' ) $g_books []= array(); $g_elem = $name; } function endElement( $parser, $name ) { global $g_elem; $g_elem = null; } function textData( $parser, $text ) { global $g_books, $g_elem; if ( $g_elem == 'AUTHOR' || $g_elem == 'PUBLISHER' || $g_elem == 'TITLE' ) { $g_books[ count( $g_books ) - 1 ][ $g_elem ] = $text; } } $parser = xml_parser_create(); xml_set_element_handler( $parser, "startElement", "endElement" ); xml_set_character_data_handler( $parser, "textData" ); $f = fopen( 'books.xml', 'r' ); while( $data = fread( $f, 4096 ) ) { xml_parse( $parser, $data ); } xml_parser_free( $parser ); foreach( $g_books as $book ) { echo $book['TITLE']." - ".$book['AUTHOR']." - "; echo $book['PUBLISHER']."\n"; } ?> 脚本首先设置 g_books 数组，它在内存中容纳所有图书和图书信息，g_elem 变量保存脚本目前正在处理的标记的名称。然后脚本定义回调函数。在这个示例中，回调函数是 startElement、endElement 和 textData。在打开和关闭标记的时候，分别调用 startElement 和 endElement 函数。在开始和结束标记之间的文本上面，调用 textData。 在这个示例中，startElement 标记查找 book 标记，在 book 数组中开始一个新元素。然后，textData 函数查看当前元素，看它是不是 publisher、title 或 author 标记。如果是，函数就把当前文本放入当前图书。 为了让解析继续，脚本用 xml_parser_create 函数创建解析器。然后，设置回调句柄。之后，脚本读取文件并把文件的大块内容发送到解析器。在文件读取之后，xml_parser_free 函数删除解析器。脚本的末尾输出 g_books 数组的内容。 可以看到，这比编写 DOM 的同样功能要困难得多。如果没有 DOM 库也没有 SAX 库该怎么办？还有替代方案么？ -------------------------------------------------------------------------------- 回页首 用正则表达式解析 XML 可以肯定，即使提到这个方法，有些工程师也会批评我，但是确实可以用正则表达式解析 XML。清单 4 显示了使用 preg_ 函数读取图书文件的示例。 清单 4. 用正则表达式读取 XML 复制代码 代码如下: </publisher>