Web crawler - python explore les sites Web et analyse le contenu non-json
学习ing
学习ing 2017-06-28 09:26:28
0
2
1115

Je viens d'apprendre à obtenir du contenu json, mais le site Web que j'ai exploré aujourd'hui ne renvoie pas de contenu json et un nombre aléatoire est généré après chaque lien de demande

Je ne sais pas si cela affectera le contenu que je souhaite explorer

Le contenu que vous devez obtenir est le contenu au milieu de l'image ci-dessous


Lien vers le site http://www.szse.cn/main/discl...

Code que j'ai moi-même essayé :

import requests

dir = '/Users/S1Lence/Desktop/new_html/szse/许可类重组问询函'

headers = {'Host': 'www.szse.cn',
       'Referer': 'http://www.szse.cn/main/disclosure/jgxxgk/wxhj/',
       'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36'
       }
payload= {'ACTIONID': '7',          
       'AJAX': 'AJAX-TRUE',
      'CATALOGID': 'main_wxhj',
      'TABKEY': 'tab1',
      'selecthjlb': '许可类重组问询函',
      'tab1PAGENO': '1',
      'tab1PAGECOUNT': '7',
      'tab1RECORDCOUNT': '63',
      'REPORT_ACTION': 'navigate'}
res = requests.post('http://www.szse.cn/szseWeb/FrontControllere', data=payload)
print(res.text)

Le contenu de sortie n'est pas celui que je souhaite. Comment dois-je l'explorer ?

学习ing
学习ing

répondre à tous(2)
黄舟

Copiez ses informations d'en-tête et utilisez-les. .

漂亮男人

L'adresse URL de votre message est erronée, elle devrait l'être

http://www.szse.cn/szseWeb/FrontController.szse
Derniers téléchargements
Plus>
effets Web
Code source du site Web
Matériel du site Web
Modèle frontal