在 Python 中使用 BeautifulSoup 从表中提取数据
解析 HTML 文档时,从表中提取数据的能力是一个常见的要求。 BeautifulSoup 是一个流行的用于网页抓取的 Python 库,提供了一种强大的方法来解析 HTML 并访问其内容。
使用 BeautifulSoup 解析表格
来说明以下过程使用 BeautifulSoup 解析表,让我们考虑一下“NYC Parking Ticket Parser”的示例。此页面的 HTML 响应非常复杂,目标是从包含每张票证信息的行项目表中提取数据。
要实现此目的,我们首先需要识别 HTML 中的表使用其独特的类进行响应:
<code class="python">table = soup.find("table", { "class" : "lineItemsTable" })</code>
一旦找到表,我们就可以迭代行以提取数据:
<code class="python">for row in table.findAll("tr"): cells = row.findAll("td") print cells</code>
但是,这种方法只能提供 HTML表中每一行的元素。为了获取实际的文本内容,我们需要从每个单元格中提取文本:
<code class="python">data = [] for row in table.findAll("tr"): cols = row.findAll("td") cols = [ele.text.strip() for ele in cols] data.append([ele for ele in cols if ele])</code>
此代码迭代表格行,从单元格中提取文本,并去除任何前导或尾随空格。结果是一个列表列表,其中每个内部列表代表表中的一行。
处理复杂性
在提供的示例中,表的最后一行包含付款金额,该金额不属于表数据的一部分。为了解决这个问题,我们可以过滤掉元素数量少于一定数量的行:
<code class="python">data = [row for row in data if len(row) >= 7]</code>
此外,每行的最后一列包含一个输入文本框。我们可以通过提取输入元素之前的文本来处理此问题:
<code class="python">data = [[col.split()[0] if col.find("input") else col for col in row] for row in data]</code>
结论
通过这些修改,您可以有效地从行项目表中提取数据在 Python 中使用 BeautifulSoup。请记住根据您的具体要求调整代码并处理可能出现的任何其他复杂性。
以上是如何使用 Python 中的 BeautifulSoup 从 HTML 表中提取数据,特别是处理诸如额外行和输入元素之类的复杂性?的详细内容。更多信息请关注PHP中文网其他相关文章!