Python-Bibliothek zum Extrahieren von HTML-Strings mithilfe der CSS-Schriftfamilie?
扔个三星炸死你2017-06-12 09:27:55
0
2
1093
Gibt es eine Bibliothek in Python, die das Attribut „font-family“ von CSS verwendet, um HTML-Strings zu extrahieren? Wird für die Unterteilung von Schriftarten verwendet.
你問的問題有一點模糊,若是使用CSS Selector取html內的內容,可以用lxml.cssselect,中文說明還有這有,且不只是用lxml
font-family只是指定使用的字体。
你想做的是对一篇HTML计算一共有多少个汉字,然后动态或者半静态生成只包含这些字的提及比较小的汉字字体远程下载使用?
如果只是计算汉字,其实python下面的set是最简单的。
但是要生成对应的字库就是大坑了。目前方正有类似的服务,似乎叫云字库,之前询过价,对方老实表示问题还不少。