Python-Bibliothek zum Extrahieren von HTML-Strings mithilfe der CSS-Schriftfamilie?

Question

Gibt es eine Bibliothek in Python, die das Attribut „font-family“ von CSS verwendet, um HTML-Strings zu extrahieren? Wird für die Unterteilung von Schriftarten verwendet.

我想大声告诉你 · Answer

你問的問題有一點模糊，若是使用CSS Selector取html內的內容，可以用lxml.cssselect，中文說明還有這有，且不只是用lxml

巴扎黑 · Answer

font-family只是指定使用的字体。

你想做的是对一篇HTML计算一共有多少个汉字，然后动态或者半静态生成只包含这些字的提及比较小的汉字字体远程下载使用？

如果只是计算汉字，其实python下面的set是最简单的。

但是要生成对应的字库就是大坑了。目前方正有类似的服务，似乎叫云字库，之前询过价，对方老实表示问题还不少。