나만의 Google NotebookLM을 구축하는 방법-파이썬 튜토리얼-php.cn

집

백엔드 개발

파이썬 튜토리얼

나만의 Google NotebookLM을 구축하는 방법

Patricia Arquette

Dec 03, 2024 am 08:13 AM

오디오 콘텐츠 소비의 인기가 높아짐에 따라 문서나 작성된 콘텐츠를 사실적인 오디오 형식으로 변환하는 기능이 최근 더욱 인기를 끌고 있습니다.

Google의 NotebookLM이 이 분야에서 주목을 받고 있는 동안, 저는 최신 클라우드 서비스를 사용하여 유사한 시스템을 구축하는 방법을 알아보고 싶었습니다. 이 기사에서는 FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스를 사용하여 문서를 고품질 팟캐스트로 변환하는 확장 가능한 클라우드 네이티브 시스템을 만든 방법을 안내하겠습니다.

이 시스템의 결과를 참고할 수 있는 쇼케이스는 다음과 같습니다: MyPodify 쇼케이스

도전

문서를 팟캐스트로 변환하는 것은 텍스트 음성 변환 엔진을 통해 텍스트를 실행하는 것만큼 간단하지 않습니다. 원활한 사용자 경험을 유지하면서 세심한 처리, 자연어 이해, 다양한 문서 형식을 처리하는 능력이 필요합니다. 시스템은 다음을 수행해야 합니다.

여러 문서 형식을 효율적으로 처리
다양한 목소리로 자연스러운 오디오 생성
사용자 경험에 영향을 주지 않고 대규모 문서 처리를 처리합니다
사용자에게 실시간 상태 업데이트 제공
고가용성 및 확장성 유지

아키텍처 심층 분석

주요 구성 요소를 분석하고 이들이 어떻게 함께 작동하는지 살펴보겠습니다.

How to Build your very own Google

1. FastAPI 백엔드

FastAPI는 몇 가지 설득력 있는 이유로 선택된 백엔드 프레임워크 역할을 합니다.

비동기 지원: Starlette를 기반으로 구축된 FastAPI의 비동기 기능을 통해 동시 요청을 효율적으로 처리할 수 있습니다
자동 OpenAPI 문서: 즉시 대화형 API 문서를 생성합니다
유형 안전성: 런타임 유효성 검사를 위해 Python의 유형 힌트를 활용합니다
고성능: 속도 측면에서 Node.js 및 Go와 비교

업로드 엔드포인트에 대한 자세한 내용은 다음과 같습니다.

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

로그인 후 복사

2. 파이어베이스 통합

Firebase는 애플리케이션에 두 가지 중요한 서비스를 제공합니다.

Firebase 저장소

자동 크기 조정으로 안전한 파일 업로드 처리
생성된 오디오 파일에 대해 CDN 지원 배포 제공
대용량 파일에 대해 재개 가능한 업로드 지원

소방서

프로젝트 현황 추적을 위한 실시간 데이터베이스
프로젝트 메타데이터에 적합한 문서 기반 구조
수동 샤딩이 필요 없는 자동 확장

실시간 상태 업데이트를 구현하는 방법은 다음과 같습니다.

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)

로그인 후 복사

3. 구글 클라우드 게시/구독

Pub/Sub는 메시징 백본 역할을 하며 다음을 수행합니다.

더 나은 확장성을 위한 분리된 아키텍처
최소 1회 배송 보장
자동 메시지 보관 및 재생
실패한 메시지에 대한 배달 못한 편지 대기열

메시지 구조 예:

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

로그인 후 복사

4. Azure Speech Service를 통한 음성 생성

오디오 생성의 핵심은 Azure의 Cognitive Services Speech SDK를 사용합니다. 자연스러운 음성 합성을 구현하는 방법을 살펴보겠습니다.

async def update_status(user_id: str, project_id: str, status: str, metadata: dict = None):
    doc_ref = db.collection('projects').document(f'{user_id}/{project_id}')

    update_data = {
        'status': status,
        'updated_at': datetime.now()
    }

    if metadata:
        update_data.update(metadata)

    await doc_ref.update(update_data)

로그인 후 복사

저희 시스템의 독특한 기능 중 하나는 AI를 사용하여 다중 음성 팟캐스트를 생성하는 기능입니다. 다양한 호스트에 대한 스크립트 생성을 처리하는 방법은 다음과 같습니다.

{
    'user_id': 'uid_123',
    'project_id': 'proj_456',
    'podcast_id': 'pod_789',
    'file_urls': ['gs://bucket/file1.pdf'],
    'description': 'Technical blog post about cloud architecture',
    'host_count': 2,
    'action': 'CREATE_PROJECT'
}

로그인 후 복사

음성 합성의 경우 다양한 화자를 특정 Azure 음성에 매핑합니다.

import azure.cognitiveservices.speech as speechsdk
from pathlib import Path

class SpeechGenerator:
    def __init__(self):
        self.speech_config = speechsdk.SpeechConfig(
            subscription=os.getenv("AZURE_SPEECH_KEY"),
            region=os.getenv("AZURE_SPEECH_REGION")
        )

    async def create_speech_segment(self, text, voice, output_file):
        try:
            self.speech_config.speech_synthesis_voice_name = voice
            synthesizer = speechsdk.SpeechSynthesizer(
                speech_config=self.speech_config,
                audio_config=None
            )

            # Generate speech from text
            result = synthesizer.speak_text_async(text).get()

            if result.reason == speechsdk.ResultReason.SynthesizingAudioCompleted:
                with open(output_file, "wb") as audio_file:
                    audio_file.write(result.audio_data)
                return True

            return False

        except Exception as e:
            logger.error(f"Speech synthesis failed: {str(e)}")
            return False

로그인 후 복사

5. 백그라운드 처리 작업자

작업자 구성 요소가 무거운 작업을 처리합니다.

문서 분석
- 다양한 문서 형식에서 텍스트 추출
- 문서 구조 및 내용 분석
- 주요 주제와 섹션 식별
콘텐츠 처리
- 자연스러운 대화 흐름 생성
- 콘텐츠를 스피커 세그먼트로 분할
- 주제 간 전환 만들기
오디오 생성
- Azure의 신경 음성을 사용하여 텍스트를 음성으로 변환
- 여러 화자 음성 처리
- 오디오 후처리 적용

다음은 작업자 논리를 단순화한 보기입니다.

async def generate_podcast_script(outline: str, analysis: str, host_count: int):
    # System instructions for different podcast formats
    system_instructions = TWO_HOST_SYSTEM_PROMPT if host_count > 1 else ONE_HOST_SYSTEM_PROMPT

    # Example of how we structure the AI conversation
    if host_count > 1:
        script_format = """
        **Alex**: "Hello and welcome to MyPodify! I'm your host Alex, joined by..."
        **Jane**: "Hi everyone! I'm Jane, and today we're diving into {topic}..."
        """
    else:
        script_format = """
        **Alex**: "Welcome to MyPodify! Today we're exploring {topic}..."
        """

    # Generate the complete script using AI
    script = await generate_content_from_openai(
        content=f"{outline}\n\nContent Details:{analysis}",
        system_instructions=system_instructions,
        purpose="Podcast Script"
    )

    return script

로그인 후 복사

오류 처리 및 신뢰성

시스템은 포괄적인 오류 처리를 구현합니다.

재시도 논리
- 실패한 API 호출에 대한 지수 백오프
- 최대 재시도 시도 구성
- 실패한 메시지에 대한 배달 못한 편지 대기열
상태 추적
- Firestore에 저장된 자세한 오류 메시지
- 사용자에게 실시간 상태 업데이트
- 모니터링을 위한 오류 집계
자원 정리
- 임시파일 자동삭제
- 업로드 정리 실패
- 고아 리소스 감지

확장 및 성능 최적화

생산 부하를 처리하기 위해 몇 가지 최적화를 구현했습니다.

작업자 확장
- 대기열 길이에 따른 수평적 확장
- 리소스 기반 자동 확장
- 지연 시간 단축을 위한 지역 배포
스토리지 최적화
- 콘텐츠 중복 제거
- 압축 오디오 저장
- 전송을 위한 CDN 통합
처리 최적화
- 유사문서 일괄처리
- 반복되는 콘텐츠 캐싱
- 가능한 경우 병렬 처리

모니터링 및 관찰 가능성

시스템에는 포괄적인 모니터링이 포함됩니다.

@app.post('/upload')
async def upload_files(
    token: Annotated[ParsedToken, Depends(verify_firebase_token)],
    project_name: str,
    description: str,
    website_link: str,
    host_count: int,
    files: Optional[List[UploadFile]] = File(None)
):
    # Validate token
    user_id = token['uid']

    # Generate unique identifiers
    project_id = str(uuid.uuid4())
    podcast_id = str(uuid.uuid4())

    # Process and store files
    file_urls = await process_uploads(files, user_id, project_id)

    # Create Firestore document
    await create_project_document(user_id, project_id, {
        'status': 'pending',
        'created_at': datetime.now(),
        'project_name': project_name,
        'description': description,
        'file_urls': file_urls
    })

    # Trigger async processing
    await publish_to_pubsub(user_id, project_id, podcast_id, file_urls)

    return {'project_id': project_id, 'status': 'processing'}

로그인 후 복사

향후 개선 사항

현재 시스템은 잘 작동하지만 향후 개선을 위한 몇 가지 흥미로운 가능성이 있습니다.

향상된 오디오 처리
- 배경음악 통합
- 고급 오디오 효과
- 맞춤 음성 훈련
콘텐츠 강화
- 자동 챕터 마커
- 대화형 성적표
- 다국어 지원
플랫폼 통합
- 직접 팟캐스트 플랫폼 퍼블리싱
- RSS 피드 생성
- 소셜 미디어 공유

문서-팟캐스트 변환기를 구축하는 것은 현대 클라우드 아키텍처로의 흥미로운 여정이었습니다. FastAPI, Firebase, Google Cloud Pub/Sub 및 Azure의 Text-to-Speech 서비스의 조합은 복잡한 문서 처리를 대규모로 처리하기 위한 강력한 기반을 제공합니다.

이벤트 기반 아키텍처는 로드 시에도 시스템의 응답성을 유지하는 동시에 관리형 서비스를 사용하여 운영 오버헤드를 줄여줍니다. 유사한 시스템을 구축하든, 클라우드 기반 아키텍처를 탐색하든 관계없이 이 심층 분석이 확장 가능하고 프로덕션에 즉시 사용 가능한 애플리케이션을 구축하는 데 귀중한 통찰력을 제공했기를 바랍니다.

클라우드 아키텍처와 최신 애플리케이션 개발에 대해 더 자세히 알고 싶으십니까? 더 기술적이고 실용적인 튜토리얼을 보려면 저를 팔로우하세요.

위 내용은 나만의 Google NotebookLM을 구축하는 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

자바 튜토리얼

1671

Cakephp 튜토리얼

1428

라라벨 튜토리얼

1331

PHP 튜토리얼

1276

C# 튜토리얼

1256

Related knowledge

Python vs. C : 학습 곡선 및 사용 편의성 Apr 19, 2025 am 12:20 AM

Python은 배우고 사용하기 쉽고 C는 더 강력하지만 복잡합니다. 1. Python Syntax는 간결하며 초보자에게 적합합니다. 동적 타이핑 및 자동 메모리 관리를 사용하면 사용하기 쉽지만 런타임 오류가 발생할 수 있습니다. 2.C는 고성능 응용 프로그램에 적합한 저수준 제어 및 고급 기능을 제공하지만 학습 임계 값이 높고 수동 메모리 및 유형 안전 관리가 필요합니다.

파이썬과 시간 : 공부 시간을 최대한 활용 Apr 14, 2025 am 12:02 AM

제한된 시간에 Python 학습 효율을 극대화하려면 Python의 DateTime, Time 및 Schedule 모듈을 사용할 수 있습니다. 1. DateTime 모듈은 학습 시간을 기록하고 계획하는 데 사용됩니다. 2. 시간 모듈은 학습과 휴식 시간을 설정하는 데 도움이됩니다. 3. 일정 모듈은 주간 학습 작업을 자동으로 배열합니다.

Python vs. C : 성능과 효율성 탐색 Apr 18, 2025 am 12:20 AM

Python은 개발 효율에서 C보다 낫지 만 C는 실행 성능이 높습니다. 1. Python의 간결한 구문 및 풍부한 라이브러리는 개발 효율성을 향상시킵니다. 2.C의 컴파일 유형 특성 및 하드웨어 제어는 실행 성능을 향상시킵니다. 선택할 때는 프로젝트 요구에 따라 개발 속도 및 실행 효율성을 평가해야합니다.

Python 학습 : 2 시간의 일일 연구가 충분합니까? Apr 18, 2025 am 12:22 AM

하루에 2 시간 동안 파이썬을 배우는 것으로 충분합니까? 목표와 학습 방법에 따라 다릅니다. 1) 명확한 학습 계획을 개발, 2) 적절한 학습 자원 및 방법을 선택하고 3) 실습 연습 및 검토 및 통합 연습 및 검토 및 통합,이 기간 동안 Python의 기본 지식과 고급 기능을 점차적으로 마스터 할 수 있습니다.

Python vs. C : 주요 차이점 이해 Apr 21, 2025 am 12:18 AM

Python과 C는 각각 고유 한 장점이 있으며 선택은 프로젝트 요구 사항을 기반으로해야합니다. 1) Python은 간결한 구문 및 동적 타이핑으로 인해 빠른 개발 및 데이터 처리에 적합합니다. 2) C는 정적 타이핑 및 수동 메모리 관리로 인해 고성능 및 시스템 프로그래밍에 적합합니다.

Python Standard Library의 일부는 무엇입니까? 목록 또는 배열은 무엇입니까? Apr 27, 2025 am 12:03 AM

Pythonlistsarepartoftsandardlardlibrary, whileraysarenot.listsarebuilt-in, 다재다능하고, 수집 할 수있는 반면, arraysarreprovidedByTearRaymoduledlesscommonlyusedDuetolimitedFunctionality.

파이썬 : 자동화, 스크립팅 및 작업 관리 Apr 16, 2025 am 12:14 AM

파이썬은 자동화, 스크립팅 및 작업 관리가 탁월합니다. 1) 자동화 : 파일 백업은 OS 및 Shutil과 같은 표준 라이브러리를 통해 실현됩니다. 2) 스크립트 쓰기 : PSUTIL 라이브러리를 사용하여 시스템 리소스를 모니터링합니다. 3) 작업 관리 : 일정 라이브러리를 사용하여 작업을 예약하십시오. Python의 사용 편의성과 풍부한 라이브러리 지원으로 인해 이러한 영역에서 선호하는 도구가됩니다.

과학 컴퓨팅을위한 파이썬 : 상세한 모양 Apr 19, 2025 am 12:15 AM

과학 컴퓨팅에서 Python의 응용 프로그램에는 데이터 분석, 머신 러닝, 수치 시뮬레이션 및 시각화가 포함됩니다. 1.numpy는 효율적인 다차원 배열 및 수학적 함수를 제공합니다. 2. Scipy는 Numpy 기능을 확장하고 최적화 및 선형 대수 도구를 제공합니다. 3. 팬더는 데이터 처리 및 분석에 사용됩니다. 4. matplotlib는 다양한 그래프와 시각적 결과를 생성하는 데 사용됩니다.

See all articles

나만의 Google NotebookLM을 구축하는 방법

도전

아키텍처 심층 분석

1. FastAPI 백엔드

2. 파이어베이스 통합

Firebase 저장소

소방서

3. 구글 클라우드 게시/구독

4. Azure Speech Service를 통한 음성 생성

5. 백그라운드 처리 작업자

오류 처리 및 신뢰성

확장 및 성능 최적화

모니터링 및 관찰 가능성

향후 개선 사항

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제