html5 - python 处理html页面爬虫数据

Question

请求的url 数据http://www.hkex.com.hk/chi/st...对了我只抓取一张表，希望能够提取关键表的数据. 希望抓取的数据是该成交报表，但是HTML 的标签都是&lt;pre&gt;造成了数据提取的困难。 {代码...} 代號 股票名稱 ...

ringa_lee · Answer

Penyelesaian 1:

Mula-mula cari kedudukan volum jualan singkat a = soup.find('a', attrs={'name':'short_selling'}), dan kemudian turun sepenuhnya mengikut perhubungan bersebelahan pra-> fon Ia tamat apabila terdapat kurang daripada 6 baris

Inilah hasilnya:

[['代號', '股票名稱', '股數(SH)', '金額($)', '股數(SH)', '金額($)'],
 ['1', '長和', '299,500', '27,572,475', '2,201,171', '202,964,029'],
 ['2', '中電控股', '61,000', '4,622,825', '1,452,853', '110,040,699'],
 ['3', '香港中華煤氣', '2,939,000', '42,694,880', '8,024,558', '116,691,466'],
....

Kod sumber

import pprint
from bs4 import  BeautifulSoup
import requests

r = requests.get('http://www.hkex.com.hk/chi/stat/smstat/dayquot/d170202c.htm')
r.encoding = 'big5'
soup = BeautifulSoup(r.text)
a = soup.find('a', attrs={'name':'short_selling'})
data = []

pre = a.find_parent('pre')

for line in pre.font.text.splitlines():
    item = line.strip().split()
    if len(item) == 6:
        data.append(item)

end = False

for next_pre in pre.next_siblings:
    for line in next_pre.font.text.splitlines():
        item = line.strip().split()
        if len(item) > 7:
            item = item[1:2] + ["".join(item[1:-4])] + item[-4:]
        elif len(item) < 6:
            end = True
            break
        data.append(item)
    if end:
       break

pprint.pprint(data)

黄舟 · Answer

Izinkan saya memberi anda rancangan.

因为这些数据都是文本信息，没有标签包围。通过抓包，也没有发现特定的数据查询接口。所以数据应该是服务器生成好的通过html写死的发送给浏览器。
那么发现这些数据项每一个特定的属性都是占用同样的位置大小且居右对齐，而且每一项有特定的格式，可以使用正则表达式进行提取。
具体还是请您自行实现吧。

阿神 · Answer

Kenapa susah sangat nak guna beautifulsoup? Kenapa bunuh ayam dengan pisau lembu

Halaman web anda hanya mempunyai satu baris data dan formatnya tidak boleh lebih mudah

Anda hanya boleh menyalin data pada halaman, simpannya sebagai txt dan kemudian gunakan readline, split dan ungkapan biasa untuk mengekstrak data