首页 > 后端开发 > Python教程 > 如何使用 Python 和 BeautifulSoup 从网页中提取超链接?

如何使用 Python 和 BeautifulSoup 从网页中提取超链接?

Linda Hamilton
发布: 2024-12-11 11:06:10
原创
639 人浏览过

How Can I Extract Hyperlinks from a Webpage Using Python and BeautifulSoup?

使用 Python 和 BeautifulSoup 从网页检索链接

本文演示了如何从网页检索链接并收集其 URL 地址使用 Python 和 BeautifulSoup

问题:

如何使用Python提取网页中嵌入的链接的URL?

解决方案:

要实现这一点,您可以利用 BeautifulSoup 提供的 SoupStrainer 类。以下代码片段举例说明了该过程:

import httplib2
from bs4 import BeautifulSoup, SoupStrainer

http = httplib2.Http()
status, response = http.request('http://www.nytimes.com')

for link in BeautifulSoup(response, 'html.parser', parse_only=SoupStrainer('a')):
    if link.has_attr('href'):
        print(link['href'])
登录后复制

此代码建立与指定网页的连接,即示例中的“http://www.nytimes.com”。它使用 BeautifulSoup 解析 HTML 响应并应用 SoupStrainer('a') 过滤器,该过滤器重点关注页面内的 'a' 标签(表示链接)。对于找到的每个链接,代码都会检索其“href”属性,其中包含实际的 URL 地址。

以上是如何使用 Python 和 BeautifulSoup 从网页中提取超链接?的详细内容。更多信息请关注PHP中文网其他相关文章!

来源:php.cn
本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板