NLP 用の Python: PDF ファイルから表形式データを識別して処理する方法は?
Sep 28, 2023 pm 06:17 PMNLP 用 Python: PDF ファイルから表形式データを識別して処理する方法
要約:
デジタル時代の到来により、大量のデータが PDF 形式でコンピュータに保存されます。これには、自然言語処理 (NLP) の研究と応用にとって非常に価値のある大量の表形式のデータが含まれています。この記事では、Python といくつかの一般的に使用されるライブラリを使用して、PDF ファイルから表形式データを識別して処理する方法を紹介します。この記事では、具体的なコード例を例と組み合わせて説明します。
- 依存ライブラリのインストール
開始する前に、いくつかの依存ライブラリをインストールする必要があります: - PyPDF2: PDF ファイルを読み取るために使用されます。
- tabula-py: 表形式データの抽出と処理に使用されます。
- pandas: データの処理と分析に使用されます。
pip コマンドを使用してインストールできます:
1 2 3 |
|
PDF ファイルの読み取り
PDF ファイルは、PyPDF2 ライブラリを使用して簡単に読み取ることができます。 PDF ファイルからテキストを読み取って印刷するサンプル コードを次に示します。1
2
3
4
5
6
7
8
9
import PyPDF2
def read_pdf(file_path):
with open(file_path,
'rb'
)
as
file:
pdf_reader = PyPDF2.PdfFileReader(file)
num_pages = pdf_reader.getNumPages()
for
page in range(num_pages):
page_content = pdf_reader.getPage(page).extractText()
print
(page_content)
ログイン後にコピー表形式データの抽出
PDF ファイルから表形式データを抽出するには、tabula-py を使用できます。図書館 。 PDF ファイルの最初のテーブルのデータを抽出し、CSV ファイルとして保存するサンプル コードを次に示します。1
2
3
4
5
6
import tabula
def extract_table(file_path, page_num):
dfs = tabula.read_pdf(file_path, pages=page_num, multiple_tables=True)
table = dfs[0] # 假设第一个表格是我们想要提取的表格
table.to_csv(
'table.csv'
, index=False) # 将表格数据保存为CSV文件
ログイン後にコピーテーブル データの処理
table data をさらに処理するには、pandas ライブラリを使用できます。 CSV ファイルから表形式のデータを読み取り、各列の平均を計算するサンプル コードを次に示します。1
2
3
4
5
6
import pandas
as
pd
def process_table(csv_file):
table = pd.read_csv(csv_file)
average_values = table.mean(axis=0)
print
(average_values)
ログイン後にコピー結論:
Python といくつかの一般的に使用されるライブラリを使用することで、次のことができます。 PDF ファイルから表形式データを簡単に識別して処理します。今回は、必要なライブラリのインストール、PDFファイルの読み込み、表形式データの抽出、表形式データの加工方法を紹介しました。これらの操作は、さらなる自然言語処理の研究と応用のための基礎と参考資料を提供します。この記事がお役に立てば幸いです!以上がNLP 用の Python: PDF ファイルから表形式データを識別して処理する方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

人気の記事

人気の記事

ホットな記事タグ

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











Google AI、開発者向けに Gemini 1.5 Pro と Gemma 2 を発表

いくつかの .NET オープンソース AI および LLM 関連プロジェクト フレームワークを共有する
