首页 后端开发 php教程 用PHP读取和编写XML DOM_PHP

用PHP读取和编写XML DOM_PHP

Jun 01, 2016 pm 12:29 PM
book title xml 标记 编写 读取

有许多技术可用于用 PHP 读取和编写 XML。本文提供了三种方法读取 XML:使用 DOM 库、使用 SAX 解析器和使用正则表达式。还介绍了使用 DOM 和 PHP 文本模板编写 XML。

  用 PHP 读取和编写可扩展标记语言(XML)看起来可能有点恐怖。实际上,XML 和它的所有相关技术可能是恐怖的,但是用 PHP 读取和编写 XML 不一定是项恐怖的任务。首先,需要学习一点关于 XML 的知识 —— 它是什么,用它做什么。然后,需要学习如何用 PHP 读取和编写 XML,而有许多种方式可以做这件事。

  本文提供了 XML 的简短入门,然后解释如何用 PHP 读取和编写 XML。

  什么是 XML?

  XML 是一种数据存储格式。它没有定义保存什么数据,也没有定义数据的格式。XML 只是定义了标记和这些标记的属性。格式良好的 XML 标记看起来像这样:

<name>Jack Herrington</name>

  这个 <name> 标记包含一些文本:Jack Herrington。

  不包含文本的 XML 标记看起来像这样:

<powerUp />

  用 XML 对某件事进行编写的方式不止一种。例如,这个标记形成的输出与前一个标记相同:

<powerUp></powerUp>

  也可以向 XML 标记添加属性。例如,这个 <name> 标记包含 first 和 last 属性:

<name first="Jack" last="Herrington" />

  也可以用 XML 对特殊字符进行编码。例如,& 符号可以像这样编码:

  &

  包含标记和属性的 XML 文件如果像示例一样格式化,就是格式良好的,这意味着标记是对称的,字符的编码正确。清单 1 是一份格式良好的 XML 的示例。

  清单 1. XML 图书列表示例

 

  <books> 

  <book> 

  <author>Jack Herrington</author> 

  <title>PHP Hacks</title> 

  <publisher>O'Reilly</publisher> 

  </book> 

  <book> 

  <author>Jack Herrington</author> 

  <title>Podcasting Hacks</title> 

  <publisher>O'Reilly</publisher> 

  </book> 

  </books> 

登录后复制

  清单 1 中的 XML 包含一个图书列表。父标记 <books> 包含一组 <book> 标记,每个 <book> 标记又包含 <author>、<title> 和 <publisher> 标记。

  当 XML 文档的标记结构和内容得到外部模式文件的验证后,XML 文档就是正确的。模式文件可以用不同的格式指定。对于本文来说,所需要的只是格式良好的 XML。

  如果觉得 XML 看起来很像超文本标记语言(HTML),那么就对了。XML 和 HTML 都是基于标记的语言,它们有许多相似之处。但是,要着重指出的是:虽然 XML 文档可能是格式良好的 HTML,但不是所有的 HTML 文档都是格式良好的 XML。换行标记(br)是 XML 和 HTML 之间区别的一个好例子。这个换行标记是格式良好的 HTML,但不是格式良好的 XML:

<p>This is a paragraph<br>
With a line break</p>

  这个换行标记是格式良好的 XML 和 HTML:

<p>This is a paragraph<br />
With a line break</p>

  如果要把 HTML 编写成同样是格式良好的 XML,请遵循 W3C 委员会的可扩展超文本标记语言(XHTML)标准(参见 参考资料)。所有现代的浏览器都能呈现 XHTML。而且,还可以用 XML 工具读取 XHTML 并找出文档中的数据,这比解析 HTML 容易得多。

  使用 DOM 库读取 XML

  读取格式良好的 XML 文件最容易的方式是使用编译成某些 PHP 安装的文档对象模型 (DOM)库。DOM 库把整个 XML 文档读入内存,并用节点树表示它,如图 1 所示。

  图 1. 图书 XML 的 XML DOM 树
用PHP读取和编写XML DOM

  树顶部的 books 节点有两个 book 子标记。在每本书中,有 author、publisher 和 title 几个节点。author、publisher 和 title 节点分别有包含文本的文本子节点。

  读取图书 XML 文件并用 DOM 显示内容的代码如清单 2 所示。

  清单 2. 用 DOM 读取图书 XML

 

  <?php 

  $doc = new DOMDocument(); 

  $doc->load( 'books.xml' ); 

   

  $books = $doc->getElementsByTagName( "book" ); 

  foreach( $books as $book ) 

  { 

  $authors = $book->getElementsByTagName( "author" ); 

  $author = $authors->item(0)->nodeValue; 

   

  $publishers = $book->getElementsByTagName( "publisher" ); 

  $publisher = $publishers->item(0)->nodeValue; 

   

  $titles = $book->getElementsByTagName( "title" ); 

  $title = $titles->item(0)->nodeValue; 

   

  echo "$title - $author - $publisher\n"; 

  } 

  ?> 

  
登录后复制


  脚本首先创建一个 new DOMdocument 对象,用 load 方法把图书 XML 装入这个对象。之后,脚本用 getElementsByName 方法得到指定名称下的所有元素的列表。

  在 book 节点的循环中,脚本用 getElementsByName 方法获得 author、publisher 和 title 标记的 nodeValue。nodeValue 是节点中的文本。脚本然后显示这些值。

  可以在命令行上像这样运行 PHP 脚本:

% php e1.php
PHP Hacks - Jack Herrington - O'Reilly
Podcasting Hacks - Jack Herrington - O'Reilly
%

  可以看到,每个图书块输出一行。这是一个良好的开始。但是,如果不能访问 XML DOM 库该怎么办?

  用 SAX 解析器读取 XML

  读取 XML 的另一种方法是使用 XML Simple API(SAX)解析器。PHP 的大多数安装都包含 SAX 解析器。SAX 解析器运行在回调模型上。每次打开或关闭一个标记时,或者每次解析器看到文本时,就用节点或文本的信息回调用户定义的函数。

  SAX 解析器的优点是,它是真正轻量级的。解析器不会在内存中长期保持内容,所以可以用于非常巨大的文件。缺点是编写 SAX 解析器回调是件非常麻烦的事。清单 3 显示了使用 SAX 读取图书 XML 文件并显示内容的代码。

  清单 3. 用 SAX 解析器读取图书 XML

 

  <?php 

  $g_books = array(); 

  $g_elem = null; 

   

  function startElement( $parser, $name, $attrs )  

  { 

  global $g_books, $g_elem; 

  if ( $name == 'BOOK' ) $g_books []= array(); 

  $g_elem = $name; 

  } 

   

  function endElement( $parser, $name )  

  { 

  global $g_elem; 

  $g_elem = null; 

  } 

   

  function textData( $parser, $text ) 

  { 

  global $g_books, $g_elem; 

  if ( $g_elem == 'AUTHOR' || 

  $g_elem == 'PUBLISHER' || 

  $g_elem == 'TITLE' ) 

  { 

  $g_books[ count( $g_books ) - 1 ][ $g_elem ] = $text; 

  } 

  } 

   

  $parser = xml_parser_create(); 

   

  xml_set_element_handler( $parser, "startElement", "endElement" ); 

  xml_set_character_data_handler( $parser, "textData" ); 

   

  $f = fopen( 'books.xml', 'r' ); 

   

  while( $data = fread( $f, 4096 ) ) 

  { 

  xml_parse( $parser, $data ); 

  } 

   

  xml_parser_free( $parser ); 

   

  foreach( $g_books as $book ) 

  { 

  echo $book['TITLE']." - ".$book['AUTHOR']." - "; 

  echo $book['PUBLISHER']."\n"; 

  } 

  ?> 

  
登录后复制

  脚本首先设置 g_books 数组,它在内存中容纳所有图书和图书信息,g_elem 变量保存脚本目前正在处理的标记的名称。然后脚本定义回调函数。在这个示例中,回调函数是 startElement、endElement 和 textData。在打开和关闭标记的时候,分别调用 startElement 和 endElement 函数。在开始和结束标记之间的文本上面,调用 textData。

  在这个示例中,startElement 标记查找 book 标记,在 book 数组中开始一个新元素。然后,textData 函数查看当前元素,看它是不是 publisher、title 或 author 标记。如果是,函数就把当前文本放入当前图书。

  为了让解析继续,脚本用 xml_parser_create 函数创建解析器。然后,设置回调句柄。之后,脚本读取文件并把文件的大块内容发送到解析器。在文件读取之后,xml_parser_free 函数删除解析器。脚本的末尾输出 g_books 数组的内容。

  可以看到,这比编写 DOM 的同样功能要困难得多。如果没有 DOM 库也没有 SAX 库该怎么办?还有替代方案么?

  用正则表达式解析 XML

  可以肯定,即使提到这个方法,有些工程师也会批评我,但是确实可以用正则表达式解析 XML。清单 4 显示了使用 preg_ 函数读取图书文件的示例。

  清单 4. 用正则表达式读取 XML
 

  <?php 

  $xml = ""; 

  $f = fopen( 'books.xml', 'r' ); 

  while( $data = fread( $f, 4096 ) ) { $xml .= $data; } 

  fclose( $f ); 

   

  preg_match_all( "/\<book\>(.*?)\<\/book\>/s",  

  $xml, $bookblocks ); 

   

  foreach( $bookblocks[1] as $block ) 

  { 

  preg_match_all( "/\<author\>(.*?)\<\/author\>/",  

  $block, $author ); 

  preg_match_all( "/\<title\>(.*?)\<\/title\>/",  

  $block, $title ); 

  preg_match_all( "/\<publisher\>(.*?)\<\/publisher\>/",  

  $block, $publisher ); 

  echo( $title[1][0]." - ".$author[1][0]." - ". 

  $publisher[1][0]."\n" ); 

  } 

  ?> 

登录后复制

  请注意这个代码有多短。开始时,它把文件读进一个大的字符串。然后用一个 regex 函数读取每个图书项目。最后用 foreach 循环,在每个图书块间循环,并提取出 author、title 和 publisher。

  那么,缺陷在哪呢?使用正则表达式代码读取 XML 的问题是,它并没先进行检查,确保 XML 的格式良好。这意味着在读取之前,无法知道 XML 是否格式良好。而且,有些格式正确的 XML 可能与正则表达式不匹配,所以日后必须修改它们。

  我从不建议使用正则表达式读取 XML,但是有时它是兼容性最好的方式,因为正则表达式函数总是可用的。不要用正则表达式读取直接来自用户的 XML,因为无法控制这类 XML 的格式或结构。应当一直用 DOM 库或 SAX 解析器读取来自用户的 XML。

  用 DOM 编写 XML

  读取 XML 只是公式的一部分。该怎样编写 XML 呢?编写 XML 最好的方式就是用 DOM。清单 5 显示了 DOM 构建图书 XML 文件的方式。

   清单 5. 用 DOM 编写图书 XML

 

  <?php 

  $books = array(); 

  $books [] = array( 

  'title' => 'PHP Hacks', 

  'author' => 'Jack Herrington', 

  'publisher' => "O'Reilly" 

  ); 

  $books [] = array( 

  'title' => 'Podcasting Hacks', 

  'author' => 'Jack Herrington', 

  'publisher' => "O'Reilly" 

  ); 

   

  $doc = new DOMDocument(); 

  $doc->formatOutput = true; 

   

  $r = $doc->createElement( "books" ); 

  $doc->appendChild( $r ); 

   

  foreach( $books as $book ) 

  { 

  $b = $doc->createElement( "book" ); 

   

  $author = $doc->createElement( "author" ); 

  $author->appendChild( 

  $doc->createTextNode( $book['author'] ) 

  ); 

  $b->appendChild( $author ); 

   

  $title = $doc->createElement( "title" ); 

  $title->appendChild( 

  $doc->createTextNode( $book['title'] ) 

  ); 

  $b->appendChild( $title ); 

   

  $publisher = $doc->createElement( "publisher" ); 

  $publisher->appendChild( 

  $doc->createTextNode( $book['publisher'] ) 

  ); 

  $b->appendChild( $publisher ); 

   

  $r->appendChild( $b ); 

  } 

   

  echo $doc->saveXML(); 

  ?> 

登录后复制

  在脚本的顶部,用一些示例图书装入了 books 数组。这个数据可以来自用户也可以来自数据库。

  示例图书装入之后,脚本创建一个 new DOMDocument,并把根节点 books 添加到它。然后脚本为每本书的 author、title 和 publisher 创建节点,并为每个节点添加文本节点。每个 book 节点的最后一步是重新把它添加到根节点 books。

  脚本的末尾用 saveXML 方法把 XML 输出到控制台。(也可以用 save 方法创建一个 XML 文件。)脚本的输出如清单 6 所示。

清单 6. DOM 构建脚本的输出
 

  % php e4.php  

  <?xml version="1.0"?> 

  <books> 

  <book> 

  <author>Jack Herrington</author> 

  <title>PHP Hacks</title> 

  <publisher>O'Reilly</publisher> 

  </book> 

  <book> 

  <author>Jack Herrington</author> 

  <title>Podcasting Hacks</title> 

  <publisher>O'Reilly</publisher> 

  </book> 

  </books> 

  % 

登录后复制

  使用 DOM 的真正价值在于它创建的 XML 总是格式正确的。但是如果不能用 DOM 创建 XML 时该怎么办?

  用 PHP 编写 XML

  如果 DOM 不可用,可以用 PHP 的文本模板编写 XML。清单 7 显示了 PHP 如何构建图书 XML 文件。

清单 7. 用 PHP 编写图书 XML
 

  <?php 

  $books = array(); 

  $books [] = array( 

  'title' => 'PHP Hacks', 

  'author' => 'Jack Herrington', 

  'publisher' => "O'Reilly" 

  ); 

  $books [] = array( 

  'title' => 'Podcasting Hacks', 

  'author' => 'Jack Herrington', 

  'publisher' => "O'Reilly" 

  ); 

  ?> 

  <books> 

  <?php 

   

  foreach( $books as $book ) 

  { 

  ?> 

  <book> 

  <title><?php echo( $book['title'] ); ?></title> 

  <author><?php echo( $book['author'] ); ?> 

  </author> 

  <publisher><?php echo( $book['publisher'] ); ?> 

  </publisher> 

  </book> 

  <?php 

  } 

  ?> 

  </books> 

登录后复制

  脚本的顶部与 DOM 脚本类似。脚本的底部打开 books 标记,然后在每个图书中迭代,创建 book 标记和所有的内部 title、author 和 publisher 标记。

  这种方法的问题是对实体进行编码。为了确保实体编码正确,必须在每个项目上调用 htmlentities 函数,如清单 8 所示。

清单 8. 使用 htmlentities 函数对实体编码
  

  <books> 

  <?php 

   

  foreach( $books as $book ) 

  { 

  $title = htmlentities( $book['title'], ENT_QUOTES ); 

  $author = htmlentities( $book['author'], ENT_QUOTES ); 

  $publisher = htmlentities( $book['publisher'], ENT_QUOTES ); 

  ?> 

  <book> 

  <title><?php echo( $title ); ?></title> 

  <author><?php echo( $author ); ?> </author> 

  <publisher><?php echo( $publisher ); ?> 

  </publisher> 

  </book> 

  <?php 

  } 

  ?> 

  </books> 

登录后复制

  这就是用基本的 PHP 编写 XML 的烦人之处。您以为自己创建了完美的 XML,但是在试图使用数据的时候,马上就会发现某些元素的编码不正确。

  结束语

  XML 周围总有许多夸大之处和混淆之处。但是,并不像您想像的那么难 —— 特别是在 PHP 这样优秀的语言中。在理解并正确地实现了 XML 之后,就会发现有许多强大的工具可以使用。XPath 和 XSLT 就是这样两个值得研究的工具。
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智能驱动的应用程序,用于创建逼真的裸体照片

AI Clothes Remover

AI Clothes Remover

用于从照片中去除衣服的在线人工智能工具。

Undress AI Tool

Undress AI Tool

免费脱衣服图片

Clothoff.io

Clothoff.io

AI脱衣机

Video Face Swap

Video Face Swap

使用我们完全免费的人工智能换脸工具轻松在任何视频中换脸!

热工具

记事本++7.3.1

记事本++7.3.1

好用且免费的代码编辑器

SublimeText3汉化版

SublimeText3汉化版

中文版,非常好用

禅工作室 13.0.1

禅工作室 13.0.1

功能强大的PHP集成开发环境

Dreamweaver CS6

Dreamweaver CS6

视觉化网页开发工具

SublimeText3 Mac版

SublimeText3 Mac版

神级代码编辑软件(SublimeText3)

能否用PowerPoint打开XML文件 能否用PowerPoint打开XML文件 Feb 19, 2024 pm 09:06 PM

XML文件可以用PPT打开吗?XML,即可扩展标记语言(ExtensibleMarkupLanguage),是一种被广泛应用于数据交换和数据存储的通用标记语言。与HTML相比,XML更加灵活,能够定义自己的标签和数据结构,使得数据的存储和交换更加方便和统一。而PPT,即PowerPoint,是微软公司开发的一种用于创建演示文稿的软件。它提供了图文并茂的方

扫雷怎么标记?-扫雷怎么更改难度? 扫雷怎么标记?-扫雷怎么更改难度? Mar 18, 2024 pm 06:34 PM

扫雷怎么标记?首先,我们需要熟悉扫雷游戏中的标记方式。通常情况下,扫雷游戏中有两种常见的标记方式:旗子标记和问号标记。旗子标记用来表示该方块中有地雷,是一种确定性的标记;而问号标记则表明该方块可能存在地雷,但并非确定性。这两种标记方式在游戏中起着重要的作用,帮助玩家推断哪些方块可能存在地雷,从而有效地进行下一步操作。熟练运用这些标记方式可以提高玩家在扫雷游戏中的成功率,降低踩雷的风险。因此,在玩扫雷游戏时,掌握好旗子标记和问号标记的当玩家不能确定某一个方格是否有地雷时,可以使用问号标记来进行标记

百度地图怎么标记多个地点 标记多个地点方法 百度地图怎么标记多个地点 标记多个地点方法 Mar 15, 2024 pm 04:28 PM

  上面的功能非常的多,尤其是对于在地图方面可以标记到多个地方的一些为止,我们在知道一些地方的时候,肯定是采用标点的一些功能,这样就可以为你们带来多种不同方面的一些功能,你们所标点都会产生距离的差异,也就是可以知道距离究竟有多远,当然也会显示出上面地点的的一些名称和详细的信息都可以,但是很多网友们可能对于上面的一些内容资讯都不是非常的清楚,所以为了能够让大家们更好的进行多方面的一些选择,所以今日小编就来给你们带来多种不同方面的一些选择,所以有兴趣想法的朋友们,你也感兴趣的话,就来试一试吧。  标

如何使用pandas正确读取txt文件 如何使用pandas正确读取txt文件 Jan 19, 2024 am 08:39 AM

如何使用pandas正确读取txt文件,需要具体代码示例Pandas是一个广泛使用的Python数据分析库,它可以用于处理各种各样的数据类型,包括CSV文件、Excel文件、SQL数据库等。同时,它也可以用于读取文本文件,例如txt文件。但是,在读取txt文件时,我们有时会遇到一些问题,例如编码问题、分隔符问题等。本文将介绍如何使用pandas正确读取txt

使用pandas读取txt文件的实用技巧 使用pandas读取txt文件的实用技巧 Jan 19, 2024 am 09:49 AM

使用pandas读取txt文件的实用技巧,需要具体代码示例在数据分析和数据处理中,txt文件是一种常见的数据格式。使用pandas读取txt文件可以快速、方便地进行数据处理。本文将介绍几种实用的技巧,以帮助你更好的使用pandas读取txt文件,并配以具体的代码示例。读取带有分隔符的txt文件使用pandas读取带有分隔符的txt文件时,可以使用read_c

如何使用C#编写布隆过滤器算法 如何使用C#编写布隆过滤器算法 Sep 21, 2023 am 10:24 AM

如何使用C#编写布隆过滤器算法布隆过滤器(BloomFilter)是一种空间效率非常高的数据结构,可以用于判断一个元素是否属于集合。它的基本思想是通过多个独立的哈希函数将元素映射到一个位数组中,并将对应位数组的位标记为1。当判断一个元素是否属于集合时,只需要判断对应位数组的位是否都为1,如果有任何一位为0,则可以判定元素不在集合中。布隆过滤器具有快速查询和

Java 中使用 OpenCSV 读取和写入 CSV 文件的示例 Java 中使用 OpenCSV 读取和写入 CSV 文件的示例 Dec 20, 2023 pm 01:39 PM

Java中使用OpenCSV读取和写入CSV文件的示例CSV(Comma-SeparatedValues)指的是以逗号分隔的数值,是一种常见的数据存储格式。在Java中,OpenCSV是一个常用的工具库,用于读取和写入CSV文件。本文将介绍如何使用OpenCSV来实现读取和写入CSV文件的示例。引入OpenCSV库首先,需要引入OpenCSV库到

Pandas读取网页数据的实用方法 Pandas读取网页数据的实用方法 Jan 04, 2024 am 11:35 AM

Pandas读取网页数据的实用方法,需要具体代码示例在数据分析和处理过程中,我们经常需要从网页中获取数据。而Pandas作为一种强大的数据处理工具,提供了方便的方法来读取和处理网页数据。本文将介绍几种常用的Pandas读取网页数据的实用方法,并附上具体的代码示例。方法一:使用read_html()函数Pandas的read_html()函数可以直接从网页中读

See all articles