Python explore les pages Web avec des requêtes tronquées
phpcn_u1582
phpcn_u1582 2017-06-22 11:51:56
0
4
1232

**J'ai déjà exploré les données des documents d'arbitrage. Après avoir réexécuté le robot d'exploration pendant cette période, j'ai constaté que les données de la page Web ne pouvaient pas être obtenues.
Après la recherche, j'ai constaté que le code source de la page Web des requêtes était tronqué. code**

(Interceptez une partie des données renvoyées comme suit :<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta id="JLyKZlWgYjpTkAsEt9LnA" )

Je ne sais pas si le site Web a crypté le contenu Web. Comment puis-je résoudre ce problème ? Merci!

Intercepter une partie du code source du programme :

headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.104 Safari/537.36',
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
        'Accept-Language': 'zh-TW,zh;q=0.8,en-US;q=0.6,en;q=0.4',
        'Accept-Encoding': 'gzip, deflate',
        'Connection': 'keep-alive',
        'Content-Type': 'text/html; charset=utf-8'}
html = requests.post('http://wenshu.court.gov.cn/List/ListContent', data=data, headers=headers)
print(html.text)

Mais les données qui doivent être renvoyées sont renvoyées dans l'élément review. Quel est le problème ici ?

Les données renvoyées lorsque le programme fonctionnait normalement ressemblaient à ceci :

phpcn_u1582
phpcn_u1582

répondre à tous(4)
仅有的幸福

Page de résultats chargée par Ajax, si aucun résultat de retour similaire à json ne peut être obtenu sur le réseau. Utilisez simplement PHANTOMJS pour simuler le chargement. Ensuite, faites correspondre l'exploration.

小葫芦

L'encodage utilisé par votre objet html est incorrect.
Ajoutez une ligne html.encoding = html.apparent_encoding
Déduisez l'encodage en fonction du texte réellement obtenu et décodez-le à nouveau.

刘奇

Si vous êtes prêt à percer, je vous donnerai une adresse de référence : http://www.qingpingshan.com/j...

学习ing

imprimer html.content

Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal