Lors du développement Web, nous sommes souvent confrontés à l'exploration et à l'analyse de pages Web, et différents langages peuvent compléter cette fonction. J'aime utiliser Python pour l'implémenter, car Python fournit de nombreux modules matures qui peuvent facilement implémenter l'exploration Web.
Cependant, vous rencontrerez des problèmes d'encodage lors du processus d'exploration. Aujourd'hui, nous allons voir comment déterminer l'encodage d'une page Web :
Le format d'encodage de nombreuses pages Web sur le site. Internet est différent d'une manière générale, GBK, GB2312, UTF-8, etc.
Après avoir obtenu les données de la page Web, nous devons d'abord juger de l'encodage de la page Web, puis nous pouvons convertir uniformément l'encodage du contenu capturé en un encodage que nous pouvons gérer pour éviter l'apparition de code tronqué. problèmes.
Ce qui suit présente deux méthodes pour évaluer l'encodage d'une page Web :
Résumé : La deuxième méthode est très précise lors de l'analyse de l'encodage d'une page Web, il est préférable d'utiliser la méthode suivante. module python pour analyser le contenu Précis, mais la méthode d'analyse des informations de méta-en-tête est moins précise.
Méthode 1 : Utiliser la méthode getparam du module urllib
import urllib #autor:pythontab.com fopen1 = urllib.urlopen('http://www.baidu.com').info() print fopen1.getparam('charset')# baidu
Méthode 2 : Utiliser le module chardet
#如果你的python没有安装chardet模块,你需要首先安装一下chardet判断编码的模块哦 #author:pythontab.com import chardet import urllib #先获取网页内容 data1 = urllib.urlopen('http://www.baidu.com').read() #用chardet进行内容分析 chardit1 = chardet.detect(data1) print chardit1['encoding'] # baidu
Ce qui précède représente l'intégralité du contenu de cet article. J'espère qu'il sera utile à l'apprentissage de chacun. J'espère également que tout le monde soutiendra le site Web PHP chinois.
Pour plus d'articles liés à la méthode python pour juger l'encodage des pages Web, veuillez faire attention au site Web PHP chinois !