网络用LLMS刮擦-人工智能-PHP中文网

网络用LLMS刮擦

Jennifer Aniston

发布： 2025-03-14 10:29:08

原创

824 人浏览过

利用LLM的力量来增强网络刮擦

网络刮擦仍然是一种提取在线信息的关键技术，赋予开发人员能够收集跨不同领域的数据。大型语言模型（LLM）等大型语言模型（例如Chatgroq）显着放大了网络刮擦功能，从而提高了灵活性和准确性。本文演示了如何与Web刮擦工具一起有效利用LLM，以从网页获得结构化数据。

网络用LLMS刮擦

关键学习目标：

将LLMS（例如Chatgroq）与Web刮擦工具集成在一起。
使用Playwright和LLM从网页中提取结构化数据。
为LLM驱动的Web刮擦配置环境。
处理并将Web内容转换为结构化格式（例如，Markdown）。
自动化和缩放网络刮擦以进行有效的数据提取。

目录：

建立您的开发环境
提取Web内容作为Markdown
配置大型语言模型（LLM）
刮擦着陆页
刮车清单
结论
常见问题

设置您的开发环境：

在开始之前，请确保正确配置您的环境。安装必要的库：

 ！
！
！
！
！剧作家安装铬

登录后复制

此代码段更新PIP，安装用于浏览器自动化的剧作家，HTML2Text用于HTML-TO-TO-MARKDOWN转换，Langchain-Groq用于LLM集成，并为剧作家下载Chromium。

导入基本模块：

导入所需的模块：

导入
来自Pprint Import Pprint
从输入导入列表，可选

导入html2Text
导入NEST_ASYNCIO
导入大熊猫作为pd
从Google.Colab导入UserData
来自langchain_groq导入changroq
来自playwright.async_api导入async_playwright
来自Pydantic Import Basemodel，field
从TQDM导入TQDM

nest_asyncio.apply（）

登录后复制

获取Web内容作为Markdown：

最初的刮擦步骤涉及检索Web内容。剧作家有助于加载网页并提取其HTML：

 USER_AGENT =“ Mozilla/5.0（Macintosh; Intel Mac OS X 10_15_7）AppleWebkit/537.36（Khtml，像Gecko）Chrome/128.0.0.0.0.0 Safari/537.36
playwright =等待async_playwright（）。start（）
浏览器=等待playwright.chromium.launch（）

context =等待浏览器.new_context（user_agent = user_agent）

page =等待context.new_page（）
等待page.goto（“ https://playwright.dev/”）
content =等待页面.content（）

等待浏览器。close（）
等待playwright.stop（）
打印（内容）

登录后复制

网络用LLMS刮擦

该代码使用剧作家获取网页的HTML内容。设置自定义用户代理，浏览器导航到URL，并提取HTML。然后将浏览器关闭以免费资源。

要简化处理，请使用HTML2Text将HTML转换为Markdown：

 markdown_converter = html2text.html2text（）
markdown_converter.ignore_links = false
markdown_content = markdown_converter.handle（content）
打印（markdown_content）

登录后复制

网络用LLMS刮擦

设置大型语言模型（LLMS）：

为结构化数据提取配置LLM。我们将使用Chatgroq：

型号=“ Llama-3.1-70B反相”

llm = chatgroq（温度= 0，model_name = model，api_key = userdata.get（“ groq_api_key”））

system_prompt =“”“”
您是专家文字提取器。您从网页内容中提取信息。
始终提取数据而无需更改数据和任何其他输出。
”“”

def create_scrape_prompt（page_content：str） - > str：
    返回f“”
从下面的网页中提取信息：

登录后复制

{page_content}