scrapy - Python如何将Unicode转换为HTML
PHPz
PHPz 2017-04-17 17:43:17
0
1
467

现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:

<p class="item"><p class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏  界面设计</strong>
</a>
<p></p>

<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>

</p></p>

格式为unicode
如何将它转为html格式,然后进行提取?

PHPz
PHPz

学习是最好的投资!

全部回覆(1)
伊谢尔伦

你可能弄混了一些概念…(。・`ω´・)

  • HTML 全名為How To Make Love,喔…不是,是HyperText Markup Language(超級文字標記語言)

  • Unicode 是一種字串編碼,字串還有GBK,GB2312等

兩者不是同一種東西,不能互相轉換。就好像我能說,能把python轉換成unicode嗎?顯然不能這麼說。 你只能說是把python程式碼的預設編碼轉換成unicode。

如果你是需要python字串的轉換成unicode,在py2中提供了Unicode這個類,而py3中,字串預設編碼就是unicode,不需要轉換。

但是你題目描述的是轉換成HTML格式,那麼現在你貼出來的這段,就是HTML了…ヾ(o◕∀◕)ノ

熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板