このコードは、Web データをスクレイピングおよび解析し、データベースにインポートするために必要なライブラリをインポートするために使用できます。Python リクエスト ライブラリを使用して Web ページを取得します。 BeautifulSoup ライブラリを使用してページを解析し、必要なデータを抽出します。データベース接続を確立し、SQLite3 ライブラリを使用してテーブルを作成しました。抽出したデータをデータベース テーブルに書き込みます。変更をコミットし、データベース接続を閉じます。
Python と SQL を使用して Web データを収集および解析する
import requests from bs4 import BeautifulSoup import sqlite3
url = 'https://example.com/page/' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser')
find_all()
メソッドと get_text()
メソッドを使用して、ページから必要なデータを抽出します。
titles = soup.find_all('h1') titles = [title.get_text() for title in titles]
conn = sqlite3.connect('database.db') c = conn.cursor()
for title in titles: c.execute('INSERT INTO titles (title) VALUES (?)', (title,))
conn.commit() conn.close()
Use このコードは、Amazon のホームページから上位の商品タイトル データを取得し、SQLite データベースに保存します。以下はデモコードです:
import requests from bs4 import BeautifulSoup import sqlite3 url = 'https://amazon.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') titles = soup.find_all('h2', {'class': 'a-size-medium s-inline s-access-title'}) titles = [title.get_text().strip() for title in titles] conn = sqlite3.connect('amazon_titles.db') c = conn.cursor() for title in titles: c.execute('INSERT INTO titles (title) VALUES (?)', (title,)) conn.commit() conn.close()
以上がHTML 段落間隔に 2 つのスペースを追加するの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。