首页 php教程 php手册 如何用PHP把RDF内容插入Web站点之中(二)

如何用PHP把RDF内容插入Web站点之中(二)

Jun 21, 2016 am 09:13 AM
gt lt quot

web|插入|站点

既然从技术上讲,RSS是结构良好的XML文档,所以可以用标准的XML编程技术来处理它。主要有两种技术:SAX(the Simple API for XML)和DOM(the Document Object Model)。

SAX分析器工作时遍历整个XML文档,在遇到不用类型的标记时调用特定的函数。比如,调用特定函数处理一个开始标记,调用另一个函数处理一个结束标记,再调用一个函数处理两者之间的数据。分析器的职责仅仅是顺序遍历这个文档。而它所调用的函数负责处理发现的标记。一旦一个标记被处理完毕,分析器继续分析文档中的下一个元素,这一过程不断重复。

另一方面,DOM分析器工作是把整个XML文档读进内存当中,并将之转换成一种分层的树型结构。而且为访问不同的树结点(以及结点所附的内容)提供了API。递归处理方式加上API函数使得开发者能够区分不同类型的结点(元素,属性,字符数据,注释等),同时根据文档树的结点类型和结点深度,使得执行不同的动作成为可能。

SAX和DOM分析器几乎支持每一种语言,包括你我的最爱——PHP。我将在这篇文章中利用PHP的SAX分析器处理RDF的例子。 当然,使用DOM分析器也同样很容易。

让我们看这个简单的例子,把它记在脑海里。下面是一个我将要使用的RDF文件,这个文件直接选自http://www.freshmeat.net/ :


xmlns="http://purl.org/rss/1.0/"
xmlns:dc="http://purl.org/dc/elements/1.1/"
>

freshmeat.net
http://freshmeat.net/
freshmeat.net maintains the Web's largest index of Unix
and cross-platform open source software. Thousands of applications are
meticulously cataloged in the freshmeat.net database, and links to new
code are added daily.

en-us
Technology
freshmeat.net
freshmeat.net contributors
Copyright (c) 1997-2002 OSDN
2002-02-11T10:20+00:00














  • freshmeat.net
    http://freshmeat.net/img/fmII-button.gif
    http://freshmeat.net/



    sloop.splitter 0.2.1
    http://freshmeat.net/releases/69583/
    A real time sound effects program.
    2002-02-11T04:52-06:00



    apacompile 1.9.9
    http://freshmeat.net/releases/69581/
    A full-featured Apache compilation HOWTO.
    2002-02-11T04:52-06:00







    下面是分析这一文档并显示其中数据的PHP脚本:

    // XML file
    $file = "fm-releases.rdf";

    // set up some variables for use by the parser
    $currentTag = "";
    $flag = "";

    // create parser
    $xp = xml_parser_create();

    // set element handler
    xml_set_element_handler($xp, "elementBegin", "elementEnd");
    xml_set_character_data_handler($xp, "characterData");
    xml_parser_set_option($xp, XML_OPTION_CASE_FOLDING, TRUE);

    // read XML file
    if (!($fp = fopen($file, "r")))
    {
    die("Could not read $file");
    }

    // parse data
    while ($xml = fread($fp, 4096))
    {
    if (!xml_parse($xp, $xml, feof($fp)))
    {
    die("XML parser error: " .
    xml_error_string(xml_get_error_code($xp)));
    }
    }

    // destroy parser
    xml_parser_free($xp);

    // opening tag handler
    function elementBegin($parser, $name, $attributes)
    {
    global $currentTag, $flag;
    // export the name of the current tag to the global scope
    $currentTag = $name;
    // if within an item block, set a flag
    if ($name == "ITEM")
    {
    $flag = 1;
    }
    }

    // closing tag handler
    function elementEnd($parser, $name)
    {
    global $currentTag, $flag;
    $currentTag = "";
    // if exiting an item block, print a line and reset the flag
    if ($name == "ITEM")
    {
    echo "


    ";
    $flag = 0;
    }
    }

    // character data handler
    function characterData($parser, $data)
    {
    global $currentTag, $flag;
    // if within an item block, print item data
    if (($currentTag == "TITLE" || $currentTag == "LINK" ||
    $currentTag ==
    "DESCRIPTION") && $flag == 1)
    {
    echo "$currentTag: $data
    ";
    }
    }

    ?>
    看不明白? 别着急,后面将会作出解释。



    捕获旗标

    这段脚本首先要做的是设定一些全局变量:

    // XML file
    $file = "fm-releases.rdf";

    // set up some variables for use by the parser
    $currentTag = "";
    $flag = "";

    $currentTag变量保存是分析器当前处理的元素的名称——你很快就会看到为什么需要它。

    因为我的最终目的是显示频道中的每一个单独的条目(item),并且带有链结。另外还要知道分析器什么时候退出了区块,什么时候又进入了文档的 部分。再说我用的是SAX分析器,它按顺序方式工作,没有任何分析器API可供使用,无法知道文档树中的深度和位置。所以,我不得不自己发明一个机制来做这件事——这就是引入$flag变量的原因。

    $flag变量将用于判断分析器是在区块还是在区块里面。

    下一步要做的是初始化SAX分析器,并开始分析RSS文档。

    // create parser
    $xp = xml_parser_create();

    // set element handler
    xml_set_element_handler($xp, "elementBegin", "elementEnd");
    xml_set_character_data_handler($xp, "characterData");
    xml_parser_set_option($xp, XML_OPTION_CASE_FOLDING, TRUE);

    // read XML file
    if (!($fp = fopen($file, "r")))
    {
    die("Could not read $file");
    }

    // parse data
    while ($xml = fread($fp, 4096))
    {
    if (!xml_parse($xp, $xml, feof($fp)))
    {
    die("XML parser error: " .
    xml_error_string(xml_get_error_code($xp)));
    }
    }

    // destroy parser
    xml_parser_free($xp);


    这段代码简单明了,其中的注释已经解释的足够清楚了。xml_parser_create()函数建立一个分析器实例,并将之赋给句柄$xp。接着再创建回调函数处理开标记和闭标记,以及二者之间的字符数据。最后,xml_parse()函数联合多次fread()调用,读取RDF文件并分析它。

    在文档中,每次遇到开标记,开标记处理器elementBegin()就会被调用。

    // opening tag handler
    function elementBegin($parser, $name, $attributes)
    {
    global $currentTag, $flag;
    // export the name of the current tag to the global scope
    $currentTag = $name;
    // if within an item block, set a flag
    if ($name == "ITEM")
    {
    $flag = 1;
    }
    }



    这个函数以当前标记的名称和属性作为起参数。标记名称被赋值给全局变量$currentTag。如果,这个开标记是,那么把$flag变量置1。

    同样,如果遇到闭标记,那么闭标记处理器elementEnd()将被调用。

    // closing tag handler
    function elementEnd($parser, $name)
    {
    global $currentTag, $flag;
    $currentTag = "";
    // if exiting an item block, print a line and reset the flag
    if ($name == "ITEM")
    {
    echo "
    ";
    $flag = 0;
    }
    }
    闭标记处理函数也是以标记名称作为其参数。如果是遇到的是一个为
    的闭标记,变量$flag的值重置为0,并把变量$currentTag的值清空。

    那么,如何处理标记之间的字符数据呢? 这才是我们的兴趣所在。先向字符数据处理器characterData()打个招呼吧。

    // character data handler
    function characterData($parser, $data)
    {
    global $currentTag, $flag;
    // if within an item block, print item data
    if (($currentTag == "TITLE" || $currentTag == "LINK" ||
    $currentTag ==
    "DESCRIPTION") && $flag == 1)
    {
    echo "$currentTag: $data
    ";
    }
    }


    现在你可以看一下传给这个函数的参数,你会发现它只接收了开标记和闭标记之间的数据,而根本不知道分析器当前正在处理哪个标记。而这正事我们一开始就引入全局变量$currentTag的原因。

    如果$flag变量的值为1,也就是说如果分析器当前处于区块之间,那么当前被处理的元素,不管是,<link>还是<description>,数据都被打印到输出设备上(在这里,输出设备是Web浏览器),并在每个元素的输出后面加上换行符<br>。<br><br>整个RDF文档就是以这种顺序方式处理,每发现一个<item>标记就显示一定的输出。你可以看一下下面的运行结果:<br><br> <center> </center> <p style="width:100%;text-align:center;margin:10px 0"> <br> <br> </p> <p style="width:100%;text-align:center;margin:10px 0"> </p> <p class="clear"></p> </item></description>
  • 本站声明
    本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

    热AI工具

    Undresser.AI Undress

    Undresser.AI Undress

    人工智能驱动的应用程序,用于创建逼真的裸体照片

    AI Clothes Remover

    AI Clothes Remover

    用于从照片中去除衣服的在线人工智能工具。

    Undress AI Tool

    Undress AI Tool

    免费脱衣服图片

    Clothoff.io

    Clothoff.io

    AI脱衣机

    AI Hentai Generator

    AI Hentai Generator

    免费生成ai无尽的。

    热工具

    记事本++7.3.1

    记事本++7.3.1

    好用且免费的代码编辑器

    SublimeText3汉化版

    SublimeText3汉化版

    中文版,非常好用

    禅工作室 13.0.1

    禅工作室 13.0.1

    功能强大的PHP集成开发环境

    Dreamweaver CS6

    Dreamweaver CS6

    视觉化网页开发工具

    SublimeText3 Mac版

    SublimeText3 Mac版

    神级代码编辑软件(SublimeText3)

    华为GT3 Pro和GT4的差异是什么? 华为GT3 Pro和GT4的差异是什么? Dec 29, 2023 pm 02:27 PM

    许多用户在选择智能手表的时候都会选择的华为的品牌,其中华为GT3pro和GT4都是非常热门的选择,不少用户都很好奇华为GT3pro和GT4有什么区别,下面就就给大家介绍一下二者。华为GT3pro和GT4有什么区别一、外观GT4:46mm和41mm,材质是玻璃表镜+不锈钢机身+高分纤维后壳。GT3pro:46.6mm和42.9mm,材质是蓝宝石玻璃表镜+钛金属机身/陶瓷机身+陶瓷后壳二、健康GT4:采用最新的华为Truseen5.5+算法,结果会更加的精准。GT3pro:多了ECG心电图和血管及安

    修复:截图工具在 Windows 11 中不起作用 修复:截图工具在 Windows 11 中不起作用 Aug 24, 2023 am 09:48 AM

    为什么截图工具在Windows11上不起作用了解问题的根本原因有助于找到正确的解决方案。以下是截图工具可能无法正常工作的主要原因:对焦助手已打开:这可以防止截图工具打开。应用程序损坏:如果截图工具在启动时崩溃,则可能已损坏。过时的图形驱动程序:不兼容的驱动程序可能会干扰截图工具。来自其他应用程序的干扰:其他正在运行的应用程序可能与截图工具冲突。证书已过期:升级过程中的错误可能会导致此issu简单的解决方案这些适合大多数用户,不需要任何特殊的技术知识。1.更新窗口和Microsoft应用商店应用程

    如何修复无法连接到iPhone上的App Store错误 如何修复无法连接到iPhone上的App Store错误 Jul 29, 2023 am 08:22 AM

    第1部分:初始故障排除步骤检查苹果的系统状态:在深入研究复杂的解决方案之前,让我们从基础知识开始。问题可能不在于您的设备;苹果的服务器可能会关闭。访问Apple的系统状态页面,查看AppStore是否正常工作。如果有问题,您所能做的就是等待Apple修复它。检查您的互联网连接:确保您拥有稳定的互联网连接,因为“无法连接到AppStore”问题有时可归因于连接不良。尝试在Wi-Fi和移动数据之间切换或重置网络设置(“常规”>“重置”>“重置网络设置”>设置)。更新您的iOS版本:

    php提交表单通过后,弹出的对话框怎样在当前页弹出,该如何解决 php提交表单通过后,弹出的对话框怎样在当前页弹出,该如何解决 Jun 13, 2016 am 10:23 AM

    php提交表单通过后,弹出的对话框怎样在当前页弹出php提交表单通过后,弹出的对话框怎样在当前页弹出而不是在空白页弹出?想实现这样的效果:而不是空白页弹出:------解决方案--------------------如果你的验证用PHP在后端,那么就用Ajax;仅供参考:HTML code

    watch4pro好还是gt好 watch4pro好还是gt好 Sep 26, 2023 pm 02:45 PM

    watch4pro和gt各自具有不用的特点和适用场景,如果注重功能的全面性、高性能和时尚外观,同时愿意承担较高的价格,那么Watch 4 Pro可能更适合。如果对功能要求不高,更注重电池续航和价格的合理性,那么GT系列可能更适合。最终的选择应根据个人需求、预算和喜好来决定,建议在购买前仔细考虑自己的需求,并参考各种产品的评测和比较,以做出更明智的选择。

    如何使用 iPadOS 17.4 优化 iPad 电池寿命 如何使用 iPadOS 17.4 优化 iPad 电池寿命 Mar 21, 2024 pm 10:31 PM

    如何使用iPadOS17.4优化iPad电池寿命延长电池续航时间是移动设备体验的关键,iPad是一个很好的例子。如果您觉得iPad电池消耗速度过快,不用担心,在iPadOS17.4中有许多技巧和调整可以显着延长设备的运行时间。本深入指南的目标不仅仅是提供信息,而是改变您使用iPad的方式,增强您的整体电池管理,并确保您可以在无需充电的情况下更长时间地依赖您的设备。通过采用此处概述的做法,您朝着更高效、更谨慎地使用技术迈出了一步,这些技术是根据您的个人需求和使用模式量身定制的。识别主要的能量消耗者

    Microsoft正在推出Windows 11 23H2版本到带有Copilot的发布预览频道 Microsoft正在推出Windows 11 23H2版本到带有Copilot的发布预览频道 Sep 28, 2023 pm 07:17 PM

    每个人都在期待今天的Windows1123H2发布。事实上,Microsoft刚刚启动了对发布预览版的更新,这是正式发布阶段之前最接近的频道。被称为Build22631的Microsoft表示,他们正在推出新的更名聊天应用程序,电话链接和一起玩小部件,这些小部件在过去几个月中已在其他内部渠道中进行了测试。“这个新的更新将具有与Windows11版本22H2相同的服务分支和代码库,并将与所有新宣布的功能累积,包括Windows中的Copilot(预览版),”Microsoft承诺。雷德蒙德官员进一

    请教怎么修改url某一参数的参数值呢?是要拆开了再拼回去吗 请教怎么修改url某一参数的参数值呢?是要拆开了再拼回去吗 Jun 13, 2016 am 10:24 AM

    请问如何修改url某一参数的参数值呢?是要拆开了再拼回去吗?那么请问如何修改url某一参数的参数值呢?是要拆开了再拼回去吗?http://127.0.0.1/myo/newuser.php?mod=search&type=fastone比如现在我要修改mod=new要怎么做呢?------解决方案--------------------发送了请求

    See all articles