bibliothèque python pour extraire la chaîne HTML à l'aide de la famille de polices CSS ?

Question

Existe-t-il une bibliothèque en python qui utilise l'attribut font-family de CSS pour extraire les chaînes HTML ? Utilisé pour le sous-ensemble de polices.

我想大声告诉你 · Answer

La question que vous avez posée est un peu vague. Si vous utilisez CSS Selector pour obtenir le contenu en HTML, vous pouvez utiliser lxml.cssselect. Il existe des instructions en chinois pour cela, et il ne s'agit pas seulement d'utiliser lxml

.

巴扎黑 · Answer

font-family spécifie simplement la police à utiliser.

Ce que vous voulez faire, c'est calculer le nombre de caractères chinois qu'il y a dans un article HTML, puis générer dynamiquement ou semi-statiquement une police de caractères chinois plus petite contenant uniquement ces caractères pour un téléchargement et une utilisation à distance ?

Si vous ne comptez que les caractères chinois, l'ensemble sous python est en fait le plus simple.

Mais c'est un gros piège de générer la bibliothèque de polices correspondante. Le fondateur dispose actuellement d'un service similaire, qui semble s'appeler Yunziku. J'ai déjà demandé le prix, et l'autre partie a honnêtement dit qu'il y avait de nombreux problèmes.