scrapy - Python如何将Unicode转换为HTML
PHPz
PHPz 2017-04-17 17:43:17
0
1
459

现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:

<p class="item"><p class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏  界面设计</strong>
</a>
<p></p>

<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>

</p></p>

格式为unicode
如何将它转为html格式,然后进行提取?

PHPz
PHPz

学习是最好的投资!

membalas semua(1)
伊谢尔伦

Anda mungkin telah mengelirukan beberapa konsep...(。・`ω´・)

  • Nama penuh HTML ialah How To Make Love, oh... tidak, itu HyperText Markup Language (HyperText Markup Language)

  • Unicode ialah pengekodan rentetan dan rentetan juga termasuk GBK, GB2312, dsb.

Kedua-duanya bukan perkara yang sama dan tidak boleh ditukar menjadi satu sama lain. Seperti yang saya boleh katakan, bolehkah saya menukar python kepada unicode? Jelas sekali itu tidak boleh dikatakan. Anda hanya boleh mengatakan bahawa anda menukar pengekodan lalai kod python kepada unicode.

Jika anda perlu menukar rentetan python kepada unicode, kelas Unicode disediakan dalam py2 Dalam py3, pengekodan lalai rentetan ialah unikod dan tiada penukaran diperlukan.

Tetapi perihalan tajuk anda ditukar kepada format HTML, jadi perenggan yang anda siarkan sekarang ialah HTML...ヾ(o◕∀◕)ノ

Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan