**J'ai déjà exploré les données des documents d'arbitrage. Après avoir réexécuté le robot d'exploration pendant cette période, j'ai constaté que les données de la page Web ne pouvaient pas être obtenues.
Après la recherche, j'ai constaté que le code source de la page Web des requêtes était tronqué. code**
(Interceptez une partie des données renvoyées comme suit :<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA" )
Je ne sais pas si le site Web a crypté le contenu Web. Comment puis-je résoudre ce problème ? Merci!
Intercepter une partie du code source du programme :
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'zh-TW,zh;q=0.8,en-US;q=0.6,en;q=0.4',
'Accept-Encoding': 'gzip, deflate',
'Connection': 'keep-alive',
'Content-Type': 'text/html; charset=utf-8'}
html = requests.post('http://wenshu.court.gov.cn/List/ListContent', data=data, headers=headers)
print(html.text)
Mais les données qui doivent être renvoyées sont renvoyées dans l'élément review. Quel est le problème ici ?
Les données renvoyées lorsque le programme fonctionnait normalement ressemblaient à ceci :
Page de résultats chargée par Ajax, si aucun résultat de retour similaire à json ne peut être obtenu sur le réseau. Utilisez simplement PHANTOMJS pour simuler le chargement. Ensuite, faites correspondre l'exploration.
L'encodage utilisé par votre objet html est incorrect.
Ajoutez une ligne html.encoding = html.apparent_encoding
Déduisez l'encodage en fonction du texte réellement obtenu et décodez-le à nouveau.
Si vous êtes prêt à percer, je vous donnerai une adresse de référence : http://www.qingpingshan.com/j...
imprimer html.content