def get_seed_data(filename):
dom = minidom.parse(filename)
root = dom.documentElement
system_nodes = root.getElementsByTagName("system")
k = 0
seed_list = []
for system_node in system_nodes:
#print system_node.nodeName+' id='+system_node.getAttribute('id')
system_id = system_node.getAttribute("id")
system_name = system_node.getAttribute("name")
#print 'system_name:%s'%system_name
section_nodes = system_node.getElementsByTagName("section")
section_nodes:
Section_ ID =セクションノード.getAttribute('id')
セクション名 = セクションノード.getAttribute('名前')
#print '+section_node.nodeName+' id='+section_id+' name='+section_name
クロール_cycle_node = Section_node.getElementsByTagName("crawl_cycle")
crawl_cycle = roll_cycle_node[0].childNodes[0].nodeValue
#print ' '+crawl_cycle_node[0].nodeName+'='+crawl_cycle
シードノード = セクションノード。 getElementsByTagName('seed')
seed_node の seed_node の場合:
seed = {}
seed['crawl_cycle'] = roll_cycle
seed[ 'system_id'] = int(system_id)
シード['system_name'] = system_name
seed['section_id'] = int(section_id)
seed['section_name'] = Section_name
seed_id = seed_node.getAttribute('id' )
シード[ 'seed_id'] = int(seed_id)
#print ' '+seed_node.nodeName+' '+'id='+seed_id
userblog_url_node = seed_node.getElementsByTagName('userblog_url')
userblog_url = userblog_url_node[0 ].childNodes[0].nodeValue
seed['userblog_url'] = userblog_url
#print ' '+'userblog_url'+' '+userblog_url
print '---------- ---------------------------------'
print 'system_id:%d' % seed['system_id' ]
print 'system_name:%s'%seed['system_name']
print ' セクションID:%d' % シード['セクションID']
print ' セクション名:%s' % シード['セクション_名前']
print ' seed_id:%d' %seed['seed_id']
print ' userblog_url:%s' %seed['userblog_url']
print '======= == ================'
seed_list.append(seed)
print seed_list[k]
k += 1
os.system('一時停止')
seed_list を返す
コードをコピー コードは次のとおりです:
http://aaa.com.cn/loveissuuny
http://aaa.com.cn/loveissuuny
http://aaa.com.cn/sanxiazaixian
http://aaa.com.cn/twocold
http://aaa.com.cn/u/1233526741