시냅스 노트북에서 Python을 사용하여 다양한 형식의 파일을 읽고 싶습니다. 여기에는 .pdf, .pptx, .docx, .msg 및 .eml이 포함됩니다. 나는 파일을 읽고 파이썬으로 파일을 구문 분석하고 조작할 수 있기를 원합니다. 다른 Python 라이브러리를 사용하여 데이터 블록에서 이 작업을 수행할 수 있었습니다.
데이터 브릭에서 이 작업을 수행하는 방법은 다음과 같습니다.
으아아아시냅스에서 오류가 발생합니다: FileNotFoundError: [errno 2] 해당 파일이나 디렉터리가 없습니다.
이 파일 경로는 Spark나 Pandas를 사용하여 csv, excel, txt 데이터를 읽을 수 있으므로 인증이나 연결 문제는 없을 것 같습니다. 형식은 다음과 같습니다: abfs[s]://file_system_name@account_name.dfs.core.windows.net/file_path
저장 위치도 마운트해 보았습니다. 이는 텍스트 파일을 읽는 데 도움이 되지만 다른 형식은 읽지 않습니다. 시냅스에서 저장 위치 마운트
마운팅이 올바른 방법인데, 이 답변에 설명되어 있습니다. 저는 시냅스 스튜디오를 사용하고 있습니다. 핵심은 마운트된 스토리지에 대한 경로 명령에서 얻은 파일 형식을 사용하는 것입니다. 그렇지 않으면 기본적으로 이전에 질문에서 언급한 내용을 사용할 수 있습니다. PDF의 경우에만 pypdf 라이브러리 사용에서 pypdf2로 변경해야 했습니다.
유효한 형식은 다음과 같습니다:
으아아아mssparkutils fs에서 가져온 형식이 작동하지 않습니다
으아아아위 내용은 Synapse를 사용하여 Python의 ADLS gen2에서 pdf, pptx 또는 docx 파일을 읽는 방법은 무엇입니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!