LLMSでWebスクレイピング-AI-php.cn

LLMSでWebスクレイピング

Jennifer Aniston

リリース： 2025-03-14 10:29:08

オリジナル

824 人が閲覧しました

Webスクレイピングを強化するためのLLMSのパワーを活用します

Webスクレイピングは、オンライン情報を抽出し、開発者が多様なドメイン全体でデータを収集できるようにするための重要な手法のままです。 ChatGroqのような大規模な言語モデル（LLM）の統合は、Webスクレイプ機能を大幅に増幅し、柔軟性と精度を向上させます。この記事では、WebスクレイピングツールとともにLLMSを効果的に活用して、Webページから構造化されたデータを取得する方法を示しています。

LLMSでWebスクレイピング

主要な学習目標：

LLMS（たとえば、ChatGroq）をWebスクレイピングツールと統合します。
PlaywrightおよびLLMSを使用して、Webページから構造化されたデータを抽出します。
LLMを搭載したWebスクレイピング用の環境を構成します。
Webコンテンツを処理および変換して構造化された形式に変換します（例：Markdown）。
効率的なデータ抽出のためにWebスクレイピングを自動化および拡張します。

目次：

開発環境を設定します
マークダウンとしてWebコンテンツを抽出します
大規模な言語モデル（LLMS）の構成
ランディングページのスクレイピング
車のリストを削る
結論
よくある質問

開発環境のセットアップ：

開始する前に、環境が正しく構成されていることを確認してください。必要なライブラリをインストールします。

 ！PIPインストール-UQQQPIP-Progress -Bar Off＃PIPを更新します
！PIPインストール-QQQ Playwright == 1.46.0 -Progress -Bar Off＃Browser Automation
！pip install -qqq html2text == 2024.2.26 -progress -bar off＃htmlからマークダウン変換へ
！pip install -qqq langchain-groq == 0.1.9 -progress-bar off＃llm統合
！劇作家はクロムをインストールします

ログイン後にコピー

このコードスニペットは、PIPを更新し、ブラウザオートメーション用のPlaywright、HTML-to-Markdown変換用のHTML2TEXT、LLM統合用のLangChain-Groq、Playwright用のChromiumをダウンロードします。

必須モジュールのインポート：

必要なモジュールをインポートします。

 Reをインポートします
pprintインポートPprintから
インポートリストの入力からオプション

html2textをインポートします
nest_asyncioをインポートします
PDとしてパンダをインポートします
Google.ColabからImport userDataから
langchain_groqからChatGroqをインポートします
playwright.async_apiからasync_playwrightをインポートします
Pydantic Import Basemodel、Fieldから
TQDMからImport TQDMから

nest_asyncio.apply（）

ログイン後にコピー

マークダウンとしてWebコンテンツを取得する：

最初のスクレーピングステップでは、Webコンテンツの取得が含まれます。 Playwrightは、WebページのロードとHTMLの抽出を促進します。

 user_agent = "mozilla/5.0（macintosh; intel mac os x 10_15_7）Applewebkit/537.36（khtml、yike gecko）chrome/128.0.0.0 Safari/537.36" "
playwright = async_playwright（）。start（）
browser = await playwright.chromium.launch（）

Context = await browser.new_context（user_agent = user_agent）

page = await context.new_page（）
待望page.goto（ "https://playwright.dev/"）
content = await page.content（）

browser.close（）を待っています
playwright.stop（）を待っています
印刷（コンテンツ）

ログイン後にコピー

LLMSでWebスクレイピング

このコードは、Playwrightを使用して、WebページのHTMLコンテンツを取得します。カスタムユーザーエージェントが設定され、ブラウザがURLに移動し、HTMLが抽出されます。その後、ブラウザは無料のリソースに閉じられます。

処理を簡素化するには、HTML2Textを使用してHTMLをマークダウンに変換します。

 markdown_converter = html2text.html2text（）
markdown_converter.ignore_links = false
markdown_content = markdown_converter.handle（content）
print（markdown_content）

ログイン後にコピー

LLMSでWebスクレイピング

大規模な言語モデル（LLMS）のセットアップ：

構造化されたデータ抽出のためにLLMを構成します。 ChatGroqを使用します。

 Model = "llama-3.1-70b-versatile"

llm = chatgroq（温度= 0、model_name = model、api_key = userdata.get（ "groq_api_key"））

System_prompt = "" "
あなたは専門家のテキスト抽出器です。 Webページコンテンツから情報を抽出します。
データやその他の出力を変更せずに、常にデータを抽出してください。
"" "

def create_scrape_prompt（page_content：str） - > str：
    f "" "を返す
次のWebページから情報を抽出します。

ログイン後にコピー

{page_content}