synapse ノートブックで Python を使用して、さまざまな形式のファイルを読み込みたいと考えています。これらには、.pdf、.pptx、.docx、.msg、.eml が含まれます。ファイルを読み取り、Python で解析して操作できるようにしたいと考えています。さまざまな Python ライブラリを使用して、データ ブロックでこれを行うことができました。
データ ブリックでこのタスクを実行する方法は次のとおりです:
リーリーシナプスで次のエラーが発生します。 FileNotFoundError: [errno 2] そのようなファイルまたはディレクトリはありません。
これらのファイル パスは、spark または pandas を使用して csv、excel、または txt データを読み取ることができるため、認証や接続の問題はないと思います。形式は次のとおりです: abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path
保管場所もマウントしてみました。これはテキスト ファイルの読み取りには役立ちますが、他の形式では役に立ちません。シナプスにストレージの場所をマウントする
インストールが正しい方法です。この回答で説明されています。シナプススタジオを使っています。重要なのは、マウントされたストレージへの path コマンドから取得したファイル形式を使用することです。それ以外の場合は、基本的には質問で前に述べたものを使用できます。 pdfの場合のみ、pypdfライブラリの使用からpypdf2に変更する必要がありました。
有効な形式は次のとおりです:
リーリーmssparkutils fs から取得した形式が機能しません
リーリー以上がSynapse を使用して Python で ADLS gen2 から PDF、pptx、または docx ファイルを読み取る方法は?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。