강력한 Gemini 2.0 플래시 모델을 특징으로하는 Google의 Gemini 2.0은 이미지 및 오디오 프로세스를 크게 향상시킵니다. 이 튜토리얼은 화면 내용을 해석하고 관련 질문에 답할 수있는 시각 어시스턴트를 구축함으로써 귀하를 안내합니다.
2 단계 : 개발 환경 설정
및 . PIP :
이 섹션에서는 Google의 Gemini 2 Flash 모델과 라이브러리를 사용하여 명령 줄 챗봇을 만드는 것을 보여줍니다. 문제 해결은 공식 Gemini 2.0 문서를 참조하십시오. 완전한 코드는
google-genai
pyautogui
비동기 API 호출 : python-dotenv
효율적인 비동기 요청을 위해 sounddevice
를 활용 :
numpy
pip install google-genai pyautogui python-dotenv sounddevice numpy
는 사용자가 "종료"를 유형 할 때 종료하는 연속 사용자 상호 작용을위한 루프로 챗봇을 향상시킵니다. 이 개선 된 버전은 다중 회전 대화를 허용합니다
4 단계 : 오디오 모드 통합conda create --name gemini python=3.11 conda activate gemini pip install -r requirements.txt
requirements.txt
import 및
세트 .
google.genai
함수 정의 : text.py
스키마를 모델 구성에 제공합니다.
함수 호출 처리 : config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]}
프로세스 도구 호출 모델에서 도구 호출을하고 해당 기능을 실행하고 결과를 다시 보냅니다. (저장소에서
6 단계 : 시각적 비서 생성
이 섹션에서는 스크린 샷을 분석하는 시각적 어시스턴트 구축에 대해 자세히 설명합니다. API 제한으로 인해 동기식 요청-응답 워크 플로를 사용합니다.
동기 요청 : tool.py
동기 이미지 처리에 tool_spec.py
를 사용하십시오
google_search
code_execution
이미지 처리 :
고용
비주얼 어시스턴트 구현 : 스크린 샷 캡처, 이미지 처리 및 프롬프트 처리를 위해 대화 형 비주얼 비서를 생성합니다. 터미널 창을 무시하려면
위 내용은 Gemini 2.0 Flash : 데모 프로젝트가있는 단계별 자습서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!