Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.

王林

Jul 30, 2024 am 01:14 AM

Easily Split and Rename PDFs for Skyward

왜 그것을 구축하고 무엇을 하는가?

몇 주 전 제 상사는 우리가 겪고 있는 특정 문제에 대한 작업 흐름을 생각해 볼 수 있는지 알아보라는 과제를 저에게 주었습니다. 우리는 Pre/ACT 편지를 SMS(학생 관리 시스템)로 가져오고 싶었는데, 우리의 경우에는 Skyward였습니다. 우리가 직면한 문제는 Pre/ACT 편지가 대량 PDF 또는 개별 PDF로 되어 있고 Skyward에 들어가려면 각 학생의 ID 번호에 대한 PDF가 필요하다는 것입니다. 이를 달성하기 위해 UI용 Streamlit을 사용하여 Python으로 프로그램을 작성하기로 결정했습니다.

우리가 해결해야 할 문제를 PDF부터 살펴보겠습니다. 편지의 대량 단일 PDF 내보내기를 가져오는 것이 더 합리적이었습니다. 이는 대량 내보내기를 개별 PDF로 분할해야 함을 의미했습니다. 각 문자는 일반적으로 2페이지로 구성되지만 항상 그런 것은 아니므로 한 페이지씩 간단히 나누면 오류가 발생할 가능성이 높습니다.

두 번째 문제는 각 학생의 PDF를 읽고 해당 ID 번호로 이름을 바꾸는 것이었습니다. 이는 주로 나에게 필요한 것을 가져오는 Regex 패턴에 달려 있습니다.

이것도 시간이 걸리는 도전이었기 때문에 AI와 협력하여 코드 생성을 도왔습니다. 참고: 이는 사용 중인 논리와 언어를 아는 것을 대체하지 않습니다. AI/LLM으로 이 글을 작성할 때 저는 생각의 사슬 접근 방식을 사용하여 제가 원하는 것을 한 입 크기로 제공한 다음 더 추가하기 전에 각 청크를 디버깅하고 테스트했습니다. 아래 코드는 사용된 최종 코드입니다. 각 섹션을 섹션별로 분류하겠습니다. 해당 지역에서 이를 솔루션으로 구현하려는 경우 TLDR이 이 게시물의 끝 부분을 참조하세요.

요구사항 및 수입품

이 부분은 매우 간단하며 프로그램이 실행되는 기초입니다.

UI를 위한 간소화
PDF 조작을 위한 pypdf2, pymupdf 및 fitz

requirements.txt 내용

streamlit
pypdf2
fitz
pymupdf

로그인 후 복사

app.py 가져오기

import PyPDF2
import fitz  # PyMuPDF
import re
from pathlib import Path
import concurrent.futures
import streamlit as st
import shutil
import zipfile
import os

로그인 후 복사

아이디 찾기

이 다음 스니펫은 대량 PDF에서 ID를 찾고 이를 분할하는 데 사용할 페이지 목록을 만드는 방법을 다루고 있습니다. 이는 정규식에 따라 달라지는 부분이며 상황에 따라 변경해야 할 수도 있습니다.

def find_id_pages(input_pdf):
 doc = fitz.open(input_pdf)
 id_pages = []
 id_pattern = re.compile(r'\(ID#:\s*(\d+)\)')

    for i, page in enumerate(doc):
 text = page.get_text()
        if id_pattern.search(text):
 id_pages.append(i)

    return id_pages

로그인 후 복사

PDF 분할

제목에서 알 수 있듯이 PDF를 분할하는 데 사용됩니다. 이것은 각 개별 PDF의 이름을 추출하는 기능을 사용합니다. 또한 성능 향상을 위해 한 번에 최대 10개까지 병렬로 분할된다는 점도 알 수 있습니다.

def split_pdf(input_pdf, output_folder, progress_callback):
 input_path = Path(input_pdf)
 output_folder = Path(output_folder)
 output_folder.mkdir(parents=True, exist_ok=True)

    # Find pages with IDs
 id_pages = find_id_pages(input_pdf)

    if not id_pages:
 st.error("No ID pages found in the PDF.")
        return

 pdf_reader = PyPDF2.PdfReader(str(input_path))
 total_pages = len(pdf_reader.pages)
 temp_pdfs = []

    for i in range(len(id_pages)):
 start_page = id_pages[i]
 end_page = id_pages[i + 1] if i + 1 < len(id_pages) else total_pages

 pdf_writer = PyPDF2.PdfWriter()
        for j in range(start_page, end_page):
 pdf_writer.add_page(pdf_reader.pages[j])

 temp_pdf_path = output_folder / f'temp_{i}.pdf'
        with open(temp_pdf_path, 'wb') as output_pdf:
 pdf_writer.write(output_pdf)

 temp_pdfs.append(temp_pdf_path)
 progress_callback((i + 1) / len(id_pages))  # Update progress bar

    # Process renaming in parallel
    with concurrent.futures.ThreadPoolExecutor(max_workers=10) as executor:
 executor.map(lambda pdf_path: extract_and_rename_pdf(pdf_path, output_folder), temp_pdfs)

로그인 후 복사

def extract_and_rename_pdf(pdf_path, output_folder):
 doc = fitz.open(pdf_path)
 text_first_page = doc[0].get_text()

    # Extract ID using a regex pattern for the format (ID#: 01234)
 match_first_page = re.search(r'\(ID#:\s*(\d+)\)', text_first_page)

    if match_first_page:
 id_value = match_first_page.group(1)
 new_pdf_path = output_folder / f'{id_value}.pdf'
 pdf_path.rename(new_pdf_path)
    else:
 new_pdf_path = output_folder / f'unknown_{pdf_path.stem}.pdf'
 pdf_path.rename(new_pdf_path)

로그인 후 복사

거의 다 왔어

다음은 몇 가지 짧은 기능입니다. 하나는 분할된 PDF를 모두 압축하는 기능(내부 서버에서 실행하려는 경우)이고 다른 하나는 임시 파일을 정리하여 PII 학생 정보가 어디에 남지 않도록 하는 기능입니다. 살 필요는 없습니다.

def zip_output_folder(output_folder, zip_name):
 shutil.make_archive(zip_name, 'zip', output_folder)

로그인 후 복사

def clean_up(output_folder, zip_name):
 shutil.rmtree(output_folder)
 os.remove(f"{zip_name}.zip")

로그인 후 복사

UI 구축

마지막 코드는 UI용입니다. Streamlit은 다재다능한 WebUI입니다(예, 단독으로 실행할 수 있습니다). 몇 번의 시도 끝에 유용성을 고려했습니다. 간단하게 정리하여 업로드 버튼, 작업 버튼(예: 분할) 및 압축된 PDF를 가져오는 다운로드 버튼으로 분류했습니다.

# Streamlit App Portion
st.title("PDF Splitter and Renamer")

uploaded_file = st.file_uploader("Choose a PDF file", type="pdf")
output_folder = "output_folder"

if st.button("Split and Rename PDF"):
    if uploaded_file and output_folder:
        try:
            # Save uploaded file temporarily
            with open("temp_input.pdf", "wb") as f:
 f.write(uploaded_file.getbuffer())

 progress_bar = st.progress(0)
            def update_progress(progress):
 progress_bar.progress(progress)

 split_pdf("temp_input.pdf", output_folder, update_progress)

 zip_name = "output_pdfs"
 zip_output_folder(output_folder, zip_name)
 st.success("PDF split and renamed successfully!")

            with open(f"{zip_name}.zip", "rb") as f:
 st.download_button(
                    label="Download ZIP",
                    data=f,
                    file_name=f"{zip_name}.zip",
                    mime="application/zip"
 )

            # Remove temporary file
 Path("temp_input.pdf").unlink()
 clean_up(output_folder, zip_name)
        except Exception as e:
 st.error(f"An error occurred: {e}")
    else:
 st.error("Please upload a PDF file and specify an output folder.")

로그인 후 복사

시작 및 실행을 위한 TLDR

작업을 시작하고 실행하려면 다음 명령을 사용하세요(Linux, WSL 및 MacOS를 가정함). http://localhost:8501로 이동하여 앱에 접속할 수 있습니다.

git clone https://github.com/Blacknight318/act-to-sms.git
cd act-to-sms
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
streamlit run app.py

로그인 후 복사

마무리 중

K12 학교에 재학 중이라면 이 내용이 도움이 되기를 바랍니다. 그렇다면 박수를 치거나 나에게 커피를 사주는 것을 고려해보세요. 다음 시간까지 순풍과 바다를 따라가세요.

위 내용은 Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1675

Cakephp 튜토리얼

1429

라라벨 튜토리얼

1333

PHP 튜토리얼

1278

C# 튜토리얼

1257

Related knowledge

Python vs. C : 학습 곡선 및 사용 편의성 Apr 19, 2025 am 12:20 AM

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

Python 학습 : 2 시간의 일일 연구가 충분합니까? Apr 18, 2025 am 12:22 AM

하루에 2 시간 동안 파이썬을 배우는 것으로 충분합니까? 목표와 학습 방법에 따라 다릅니다. 1) 명확한 학습 계획을 개발, 2) 적절한 학습 자원 및 방법을 선택하고 3) 실습 연습 및 검토 및 통합 연습 및 검토 및 통합,이 기간 동안 Python의 기본 지식과 고급 기능을 점차적으로 마스터 할 수 있습니다.

Python vs. C : 성능과 효율성 탐색 Apr 18, 2025 am 12:20 AM

Python은 개발 효율에서 C보다 낫지 만 C는 실행 성능이 높습니다. 1. Python의 간결한 구문 및 풍부한 라이브러리는 개발 효율성을 향상시킵니다. 2.C의 컴파일 유형 특성 및 하드웨어 제어는 실행 성능을 향상시킵니다. 선택할 때는 프로젝트 요구에 따라 개발 속도 및 실행 효율성을 평가해야합니다.

Python vs. C : 주요 차이점 이해 Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까? Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

파이썬 : 자동화, 스크립팅 및 작업 관리 Apr 16, 2025 am 12:14 AM

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.

과학 컴퓨팅을위한 파이썬 : 상세한 모양 Apr 19, 2025 am 12:15 AM

과학 컴퓨팅에서 Python의 응용 프로그램에는 데이터 분석, 머신 러닝, 수치 시뮬레이션 및 시각화가 포함됩니다. 1.numpy는 효율적인 다차원 배열 및 수학적 함수를 제공합니다. 2. Scipy는 Numpy 기능을 확장하고 최적화 및 선형 대수 도구를 제공합니다. 3. 팬더는 데이터 처리 및 분석에 사용됩니다. 4. matplotlib는 다양한 그래프와 시각적 결과를 생성하는 데 사용됩니다.

웹 개발을위한 파이썬 : 주요 응용 프로그램 Apr 18, 2025 am 12:20 AM

웹 개발에서 Python의 주요 응용 프로그램에는 Django 및 Flask 프레임 워크 사용, API 개발, 데이터 분석 및 시각화, 머신 러닝 및 AI 및 성능 최적화가 포함됩니다. 1. Django 및 Flask 프레임 워크 : Django는 복잡한 응용 분야의 빠른 개발에 적합하며 플라스크는 소형 또는 고도로 맞춤형 프로젝트에 적합합니다. 2. API 개발 : Flask 또는 DjangorestFramework를 사용하여 RESTFULAPI를 구축하십시오. 3. 데이터 분석 및 시각화 : Python을 사용하여 데이터를 처리하고 웹 인터페이스를 통해 표시합니다. 4. 머신 러닝 및 AI : 파이썬은 지능형 웹 애플리케이션을 구축하는 데 사용됩니다. 5. 성능 최적화 : 비동기 프로그래밍, 캐싱 및 코드를 통해 최적화

See all articles

Skyward용 PDF를 쉽게 분할하고 이름을 바꿉니다.

왜 그것을 구축하고 무엇을 하는가?

요구사항 및 수입품

아이디 찾기

PDF 분할

거의 다 왔어

UI 구축

시작 및 실행을 위한 TLDR

마무리 중

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제