Saya telah mengemas kini pengambil Python untuk data BoardGameGeek-Tutorial Python-php.cn

Skrip ini akan mengambil data item daripada BoardGameGeek API dan menyimpan data dalam fail CSV.

Saya mengemas kini skrip preivous. Memandangkan respons API adalah dalam format XML dan memandangkan tiada titik akhir untuk mengambil semua item sekali gus, skrip sebelumnya akan menggelungkan melalui julat ID yang disediakan, membuat panggilan satu demi satu untuk setiap item. Itu tidak optimum, ia mengambil masa yang lama untuk julat ID yang lebih besar (pada masa ini bilangan item (ID) tertinggi yang tersedia pada BGG mencapai setinggi 400k ) dan hasilnya mungkin tidak boleh dipercayai. Oleh itu, dengan beberapa pengubahsuaian dalam skrip ini, lebih banyak ID item akan ditambahkan sebagai nilai parameter pada url permintaan tunggal, dan dengan itu, respons tunggal akan mengembalikan berbilang item (~800 ialah jumlah tertinggi yang dikembalikan semula oleh satu respons. BGG akhirnya boleh mengubahnya kemudian; anda boleh mengubah saiz_kelompok dengan mudah untuk melaraskan jika perlu).

Selain itu, skrip ini akan mengambil semua item, dan bukan sahaja data yang berkaitan dengan permainan papan.

Maklumat yang diambil dan disimpan untuk setiap permainan papan adalah seperti berikut:

nama, id_permainan, jenis, rating, berat, tahun_terbitan, min_players, max_players, min_play_time, max_pay_time, min_age, owned_by, kategori, mekanik, pereka bentuk, artis dan penerbit.

Kemas kini dalam skrip ini adalah seperti berikut; Kami mulakan dengan mengimport perpustakaan yang diperlukan untuk skrip ini:

# Import libraries
from bs4 import BeautifulSoup
from csv import DictWriter
import pandas as pd
import requests
import time

Salin selepas log masuk

Berikut ialah fungsi yang akan dipanggil apabila skrip selesai berdasarkan julat ID. Selain itu, jika terdapat ralat semasa membuat permintaan, fungsi ini akan dipanggil untuk menyimpan semua data yang dilampirkan pada senarai permainan sehingga tahap pengecualian berlaku.

# CSV file saving function
def save_to_csv(games):
    csv_header = [
        'name', 'game_id', 'type', 'rating', 'weight', 'year_published', 'min_players', 'max_players',
        'min_play_time', 'max_play_time', 'min_age', 'owned_by', 'categories',
        'mechanics', 'designers', 'artists', 'publishers'
    ]
    with open('bgg.csv', 'a', encoding='UTF8') as f:
        dictwriter_object = DictWriter(f, fieldnames=csv_header)
        if f.tell() == 0:
            dictwriter_object.writeheader()
        dictwriter_object.writerows(games)

Salin selepas log masuk

Kami perlu menentukan tajuk untuk permintaan. Jeda antara permintaan boleh ditetapkan melalui SLEEP_BETWEEN_REQUESTS (Saya telah melihat beberapa maklumat bahawa had kadar ialah 2 permintaan sesaat, tetapi ia mungkin maklumat lapuk kerana saya tidak menghadapi masalah dengan jeda ditetapkan kepada 0). Di samping itu, di sini ditetapkan nilai untuk ID titik mula (start_id_range), julat maksimum (max_id_range) dan batch_size ialah berapa banyak permainan yang sepatutnya respons kembali. Url asas ditakrifkan dalam bahagian ini, tetapi ID ditambahkan di bahagian seterusnya skrip.

# Define request url headers
headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.16; rv:85.0) Gecko/20100101 Firefox/85.0",
    "Accept-Language": "en-GB, en-US, q=0.9, en"
}

# Define sleep timer value between requests
SLEEP_BETWEEN_REQUEST = 0

# Define max id range
start_id_range = 0
max_id_range = 403000
batch_size = 800
base_url = "https://boardgamegeek.com/xmlapi2/thing?id="

Salin selepas log masuk

Bahagian berikut adalah logik utama skrip ini. Pada mulanya, berdasarkan saiz kelompok, ia akan membuat rentetan ID yang berada dalam julat ID yang ditentukan, tetapi tidak lebih ID daripada nombor yang ditentukan dalam batch_size dan yang akan ditambahkan pada parameter id url. Dengan itu, setiap respons akan mengembalikan data untuk bilangan item yang sama dengan saiz kelompok. Selepas itu ia akan memproses dan menambahkan data ke senarai permainan untuk setiap respons dan akhirnya menambah pada fail CSV.

# Main loop that will iterate between the starting and maximum range in intervals of the batch size
for batch_start in range(start_id_range, max_id_range, batch_size):
    # Make sure that the batch size will not exceed the maximum ids range
    batch_end = min(batch_start + batch_size - 1, max_id_range)
    # Join and append to the url the IDs within batch size
    ids = ",".join(map(str, range(batch_start, batch_end + 1)))
    url = f"{base_url}?id={ids}&stats=1"

    # If by any chance there is an error, this will throw the exception and continue on the next batch
    try:
        response = requests.get(url, headers=headers)
    except Exception as err:
        print(err)
        continue


    if response.status_code == 200:
        soup = BeautifulSoup(response.text, features="html.parser")
        items = soup.find_all("item")
        games = []
        for item in items:
            if item:
                try:
                    # Find values in the XML
                    name = item.find("name")['value'] if item.find("name") is not None else 0
                    year_published = item.find("yearpublished")['value'] if item.find("yearpublished") is not None else 0
                    min_players = item.find("minplayers")['value'] if item.find("minplayers") is not None else 0
                    max_players = item.find("maxplayers")['value'] if item.find("maxplayers") is not None else 0
                    min_play_time = item.find("minplaytime")['value'] if item.find("minplaytime") is not None else 0
                    max_play_time = item.find("maxplaytime")['value'] if item.find("maxplaytime") is not None else 0
                    min_age = item.find("minage")['value'] if item.find("minage") is not None else 0
                    rating = item.find("average")['value'] if item.find("average") is not None else 0
                    weight = item.find("averageweight")['value'] if item.find("averageweight") is not None else 0
                    owned = item.find("owned")['value'] if item.find("owned") is not None else 0


                    link_type = {'categories': [], 'mechanics': [], 'designers': [], 'artists': [], 'publishers': []}

                    links = item.find_all("link")

                    # Append value(s) for each link type
                    for link in links:                            
                        if link['type'] == "boardgamecategory":
                            link_type['categories'].append(link['value'])
                        if link['type'] == "boardgamemechanic":
                            link_type['mechanics'].append(link['value'])
                        if link['type'] == "boardgamedesigner":
                            link_type['designers'].append(link['value'])
                        if link['type'] == "boardgameartist":
                            link_type['artists'].append(link['value'])
                        if link['type'] == "boardgamepublisher":
                            link_type['publishers'].append(link['value'])

                    # Append 0 if there is no value for any link type
                    for key, ltype in link_type.items():
                        if not ltype:
                            ltype.append("0")

                    game = {
                        "name": name,
                        "game_id": item['id'],
                        "type": item['type'],
                        "rating": rating,
                        "weight": weight,
                        "year_published": year_published,
                        "min_players": min_players,
                        "max_players": max_players,
                        "min_play_time": min_play_time,
                        "max_play_time": max_play_time,
                        "min_age": min_age,
                        "owned_by": owned,
                        "categories": ', '.join(link_type['categories']),
                        "mechanics": ', '.join(link_type['mechanics']),
                        "designers": ', '.join(link_type['designers']),
                        "artists": ', '.join(link_type['artists']),
                        "publishers": ', '.join(link_type['publishers']),
                    }

                    # Append current item to games list
                    games.append(game)
                except TypeError:
                    print(">>> NoneType error. Continued on the next item.")
                    continue
        save_to_csv(games)

        print(f">>> Request successful for batch {batch_start}-{batch_end}")
    else:
        print(f">>> FAILED batch {batch_start}-{batch_end}")

    # Pause between requests
    time.sleep(SLEEP_BETWEEN_REQUEST)

Salin selepas log masuk

Di bawah anda boleh pratonton beberapa baris pertama rekod dalam fail CSV sebagai DataFrame panda.

# Preview the CSV as pandas DataFrame
df = pd.read_csv('./bgg.csv')
print(df.head(5))

Salin selepas log masuk

Atas ialah kandungan terperinci Saya telah mengemas kini pengambil Python untuk data BoardGameGeek. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!