使用python解析xml成对应的html示例分享-Python教學-PHP中文網

SAX将dd.xml解析成html。当然啦，如果得到了xml对应的xsl文件可以直接用libxml2将其转换成html。

复制代码代码如下:

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#---------------------------------------
#   程序：XML解析器
#   版本：01.0
#   作者：mupeng
#   日期：2013-12-18
#   语言：Python 2.7
#   功能：将xml解析成对应的html
#   注解：该程序用xml.sax模块的parse函数解析XML，并生成事件
#   继承ContentHandler并重写其事件处理函数
#   Dispatcher主要用于相应标签的起始、结束事件的派发
#---------------------------------------
from xml.sax.handler import ContentHandler
from xml.sax import parse

class Dispatcher:
    def dispatch(self, prefix, name, attrs=None):
        mname = prefix + name.capitalize()
        dname = 'default' + prefix.capitalize()
        method = getattr(self, mname, None)
        if callable(method): args = ()
        else:
            method = getattr(self, dname, None)
            #args = name
        #if prefix == 'start': args += attrs
        if callable(method): method()

def startElement(self, name, attrs):
self.dispatch('start', name, attrs)

def endElement(self, name):
self.dispatch('end', name)

class Website(Dispatcher, ContentHandler):

    def __init__(self):
        self.fout = open('ddt_SAX.html', 'w')
        self.imagein = False
        self.desflag = False
        self.item = False
        self.title = ''
        self.link = ''
        self.guid = ''
        self.url = ''
        self.pubdate = ''
        self.description = ''
        self.temp = ''
        self.prx = ''
    def startChannel(self):

        self.fout.write('''\n

\n RSS-''') def endChannel(self): self.fout.write(''' <tr><td height="20"></td></tr> <script> function GetTimeDiff(str) { if(str == '') { return ''; } var pubDate = new Date(str); var nowDate = new Date(); var diffMilSeconds = nowDate.valueOf()-pubDate.valueOf(); var days = diffMilSeconds/86400000; days = parseInt(days); diffMilSeconds = diffMilSeconds-(days*86400000); var hours = diffMilSeconds/3600000; hours = parseInt(hours); diffMilSeconds = diffMilSeconds-(hours*3600000); var minutes = diffMilSeconds/60000; minutes = parseInt(minutes); diffMilSeconds = diffMilSeconds-(minutes*60000); var seconds = diffMilSeconds/1000; seconds = parseInt(seconds); var returnStr = "±±¾©·¢²¼Ê±¼ä£º" + pubDate.toLocaleString(); if(days > 0) { returnStr = returnStr + " £¨¾àÀëÏÖÔÚ" + days + "Ìì" + hours + "Ð¡Ê±" + minutes + "·ÖÖÓ£©"; } else if (hours > 0) { returnStr = returnStr + " £¨¾àÀëÏÖÔÚ" + hours + "Ð¡Ê±" + minutes + "·ÖÖÓ£©"; } else if (minutes > 0) { returnStr = returnStr + " £¨¾àÀëÏÖÔÚ" + minutes + "·ÖÖÓ£©"; } return returnStr; } function GetSpanText() { var pubDate; var pubDateArray; var spanArray = document.getElementsByTagName("span"); for(var i = 0; i < spanArray.length; i++) { pubDate = spanArray[i].innerHTML; document.getElementsByTagName("span")[i].innerHTML = GetTimeDiff(pubDate); } } GetSpanText(); </script> ''') self.fout.close() def characters(self, chars): if chars.strip(): #chars = chars.strip() self.temp += chars #print self.temp def startTitle(self): if self.item: self.fout.write(''' <tr bgcolor="#eeeeee">\n<td style="padding-top:5px;padding-left:5px;" height="30">\n ''') def endTitle(self): if not self.imagein and not self.item: self.title = self.temp self.temp = '' self.fout.write(self.title.encode('gb2312')) #self.title = self.temp self.fout.write(''' \n\n\n<center>\n <script>\n function copyLink() { clipboardData.setData("Text",window.location.href); alert("RSSÁ´½ÓÒÑ¾¸´ÖÆµ½¼ôÌù°å"); } function subscibeLink() { var str = window.location.pathname; while(str.match(/^\//)) { str = str.replace(/^\//,""); } window.open("http://rss.sina.com.cn/my_sina_web_rss_news.html?url=" + str,"_self"); } </script>\n <table width="750" cellpadding="0" cellspacing="0">\n <tr>\n <td align="right" style="padding-right:15px;" valign="bottom">\n ''') if self.item: self.title = self.temp self.temp = '' self.fout.write(self.title.encode('gb2312')) self.fout.write(''' </td> </tr> <tr bgcolor="#eeeeee"> <td style="padding-left:5px;"> ''') def startImage(self): self.imagein = True def endImage(self): self.imagein = False def startLink(self): if self.imagein: self.fout.write('''<a href="''') %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20 %C2%A0%C2%A0%C2%A0%20def%20endLink(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.link%20=%20self.temp %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.temp%20=%20'' %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20if%20self.imagein: %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write(self.link.encode('gb2312')) %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write('''" target="_blank">\n ''') elif self.item: #self.link = self.temp pass else: self.fout.write(self.link) self.fout.write(''' " target=" _blank "> ''') self.fout.write(self.title.encode('gb2312')) self.fout.write(''' </a> </td> </tr> <tr><td colspan="2" align="center"> ''') self.fout.write(self.description.encode('gb2312')) self.fout.write(''' </td></tr> <tr style="font-size:12px;" bgcolor="#eeeeff"><td colspan="2" style="font-size:14px;padding-top:5px;padding-bottom:5px;"><a href="javascript:copyLink();">¸´ÖÆ´ËÒ³Á´½Ó</a> <a href="javascript:subscibeLink();">ÎÒÒªÇ¶Èë¸ÃÐÂÎÅÁÐ±íµ½ÎÒµÄÒ³Ãæ£¨¼òµ¥¡¢¿ìËÙ¡¢ÊµÊ±¡¢Ãâ·Ñ£©</a></td></tr> </table> <table width="750" cellpadding="0" cellspacing="0"> ''') def startUrl(self): if self.imagein: self.fout.write('''<img src="''') %C2%A0%C2%A0%C2%A0%20def%20endUrl(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.url%20=%20self.temp %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.temp%20=%20'' %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20if%20self.imagein: %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write(self.url.encode('gb2312')) %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write('''" border="0" alt="使用python解析xml成对应的html示例分享" >\n <td align="left" valign="bottom" style="padding-bottom:8px;"><a href=" %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20''') %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20if%20self.item: %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20#self.url%20=%20self.temp %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20pass%0A%C2%A0%C2%A0%C2%A0%20def%20defaultStart(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20pass %C2%A0%C2%A0%C2%A0%20def%20defaultEnd(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.temp%20=%20'' %C2%A0%C2%A0%C2%A0%20def%20startDescription(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20pass %C2%A0%C2%A0%C2%A0%20def%20endDescription(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.description%20=%20self.temp %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.temp%20=%20'' %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20if%20self.item: %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20#self.fout.write('%C2%A1%C2%A1%C2%A1%C2%A1') %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write(self.description.encode('gb2312')) %C2%A0%C2%A0%C2%A0%20def%20endGuid(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.guid%20=%20self.temp %C2%A0%C2%A0%C2%A0%20def%20endPubdate(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20if%20not%20self.temp.startswith('http'): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.pubdate%20=%20self.temp %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.temp%20=%20'' %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20else: %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.pubdate%20=%20'' %C2%A0%C2%A0%C2%A0%20def%20startItem(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.item%20=%20True %C2%A0%C2%A0%C2%A0%20def%20endItem(self): %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.item%20=%20False %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write(''' %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20</td> %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20</tr> %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20<tr%20bgcolor="> </a></td> <td style="padding-top:5px;padding-left:5px;"> <a href="''') %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write(self.link) %C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%C2%A0%20self.fout.write('''%20" target="_blank"> ''') self.fout.write(self.guid) self.fout.write(''' </a> </td> <tr bgcolor="#eeeeee"> <td style="padding-top:5px;padding-left:5px;padding-bottom:5px;">''') self.fout.write(self.pubdate) self.fout.write('''</td> </tr> <tr height="10"><td></td></tr>''') #程序入口 if __name__ == '__main__': parse('ddt.xml', Website()) </table> </center> </td> </tr>