scrapy - Python如何将Unicode转换为HTML
PHPz
PHPz 2017-04-17 17:43:17
0
1
462

现在我爬虫得到的数据格式为Unicode的html片段,现在想把它转换为html格式的内容,然后容易提取,应该如何做?
比如获取的片段为以下:

<p class="item"><p class="blk">
<a target="_blank" href="/topic/19564209">
<img src="https://pic3.zhimg.com/d3f7f95975ae3ff5cfeedad9a4febe56_xs.jpg" alt="游戏界面设计">
<strong>游戏  界面设计</strong>
</a>
<p></p>

<a id="t::-4657" href="javascript:;" class="follow meta-item zg-follow"><i class="z-icon-follow"></i>关注</a>

</p></p>

格式为unicode
如何将它转为html格式,然后进行提取?

PHPz
PHPz

学习是最好的投资!

répondre à tous(1)
伊谢尔伦

Vous avez peut-être confondu certains concepts...(。・`ω´・)

  • Le nom complet de HTML est How To Make Love, oh... non, c'est HyperText Markup Language (HyperText Markup Language)

  • Unicode est un codage de chaîne, et les chaînes incluent également GBK, GB2312, etc.

Les deux ne sont pas la même chose et ne peuvent pas être convertis l'un dans l'autre. Comme je peux le dire, puis-je convertir Python en Unicode ? On ne peut évidemment pas le dire. Vous pouvez seulement dire que vous convertissez l'encodage par défaut du code python en Unicode.

Si vous devez convertir des chaînes Python en Unicode, la classe Unicode est fournie dans py2. Dans py3, l'encodage par défaut des chaînes est Unicode et aucune conversion n'est requise.

Mais la description de votre titre est convertie au format HTML, donc le paragraphe que vous avez publié maintenant est HTML...ヾ(o◕∀◕)ノ

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal