现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:
<p class="item"><p class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏 界面设计</strong>
</a>
<p></p>
<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>
</p></p>
格式为unicode
如何将它转为html格式,然后进行提取?
你可能弄混了一些概念…(。・`ω´・)
HTML 全名為How To Make Love,喔…不是,是HyperText Markup Language(超級文字標記語言)
Unicode 是一種字串編碼,字串還有GBK,GB2312等
兩者不是同一種東西,不能互相轉換。就好像我能說,能把python轉換成unicode嗎?顯然不能這麼說。 你只能說是把python程式碼的預設編碼轉換成unicode。
如果你是需要python字串的轉換成unicode,在py2中提供了Unicode這個類,而py3中,字串預設編碼就是unicode,不需要轉換。
但是你題目描述的是轉換成HTML格式,那麼現在你貼出來的這段,就是HTML了…ヾ(o◕∀◕)ノ