ホームページ > バックエンド開発 > Python チュートリアル > Synapse を使用して Python で ADLS gen2 から PDF、pptx、または docx ファイルを読み取る方法は?

Synapse を使用して Python で ADLS gen2 から PDF、pptx、または docx ファイルを読み取る方法は?

WBOY
リリース: 2024-02-10 10:54:13
転載
593 人が閲覧しました

如何使用 Synapse 从 ADLS gen2 读取 python 中的 pdf 或 pptx 或 docx 文件?

質問内容

synapse ノートブックで Python を使用して、さまざまな形式のファイルを読み込みたいと考えています。これらには、.pdf、.pptx、.docx、.msg、.eml が含まれます。ファイルを読み取り、Python で解析して操作できるようにしたいと考えています。さまざまな Python ライブラリを使用して、データ ブロックでこれを行うことができました。

データ ブリックでこのタスクを実行する方法は次のとおりです:

リーリー

シナプスで次のエラーが発生します。 FileNotFoundError: [errno 2] そのようなファイルまたはディレクトリはありません。

これらのファイル パスは、spark または pandas を使用して csv、excel、または txt データを読み取ることができるため、認証や接続の問題はないと思います。形式は次のとおりです: abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path

保管場所もマウントしてみました。これはテキスト ファイルの読み取りには役立ちますが、他の形式では役に立ちません。シナプスにストレージの場所をマウントする


正解


インストールが正しい方法です。この回答で説明されています。シナプススタジオを使っています。重要なのは、マウントされたストレージへの path コマンドから取得したファイル形式を使用することです。それ以外の場合は、基本的には質問で前に述べたものを使用できます。 pdfの場合のみ、pypdfライブラリの使用からpypdf2に変更する必要がありました。

有効な形式は次のとおりです:

リーリー

mssparkutils fs から取得した形式が機能しません

リーリー

以上がSynapse を使用して Python で ADLS gen2 から PDF、pptx、または docx ファイルを読み取る方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:stackoverflow.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート