Gemini 2.0 Flash : 데모 프로젝트가있는 단계별 자습서-일체 포함-php.cn

Gemini 2.0 Flash : 데모 프로젝트가있는 단계별 자습서

尊渡假赌尊渡假赌尊渡假赌

풀어 주다： 2025-03-02 09:33:09

원래의

422명이 탐색했습니다.

Gemini 2.0 Flash: Step-by-Step Tutorial With Demo Project 강력한 Gemini 2.0 플래시 모델을 특징으로하는 Google의 Gemini 2.0은 이미지 및 오디오 프로세스를 크게 향상시킵니다. 이 튜토리얼은 화면 내용을 해석하고 관련 질문에 답할 수있는 시각 어시스턴트를 구축함으로써 귀하를 안내합니다. 여기 프로젝트의 데모가 있습니다 :

2 단계 : 개발 환경 설정

이 프로젝트는 여러 파이썬 패키지를 사용합니다 : , , ,

및 . PIP : 를 사용하여 설치하십시오 또는 콘다 환경을 사용하십시오 : (필요한 패키지를 나열한다고 가정) 3 단계 : 텍스트 기반 챗봇 구축

이 섹션에서는 Google의 Gemini 2 Flash 모델과 라이브러리를 사용하여 명령 줄 챗봇을 만드는 것을 보여줍니다. 문제 해결은 공식 Gemini 2.0 문서를 참조하십시오. 완전한 코드는 (github repository)에 있습니다 클라이언트 초기화 :

파일에서 환경 변수를 관리하기 위해 API 키를 안전하게로드하고 google-genai pyautogui 비동기 API 호출 : python-dotenv 효율적인 비동기 요청을 위해 sounddevice를 활용 : numpy

pip install google-genai pyautogui python-dotenv sounddevice numpy

로그인 후 복사

대화식 채팅 :

는 사용자가 "종료"를 유형 할 때 종료하는 연속 사용자 상호 작용을위한 루프로 챗봇을 향상시킵니다. 이 개선 된 버전은 다중 회전 대화를 허용합니다

4 단계 : 오디오 모드 통합

conda create --name gemini python=3.11
conda activate gemini
pip install -r requirements.txt

로그인 후 복사

코드를 수정하여 오디오 응답을 활성화합니다

requirements.txt import 및

세트 . 응답에서 오디오 데이터를 처리하고 오디오 스트림에 쓰십시오. (전체 코드는 Github 저장소의 참조). 5 단계 : 도구

로 기능 확장 기능 gemini 2.0을 사용하면 공구 통합이 가능합니다. 이 예제는 파일 읽기 도구를 보여줍니다 :

google.genai 함수 정의 : text.py

스키마 정의 : 이름, 설명, 매개 변수 및 출력을 포함하여 함수의 스키마 정의.
도구 등록 :
스키마를 모델 구성에 제공합니다. 함수 호출 처리 : config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]} 프로세스 도구 호출 모델에서 도구 호출을하고 해당 기능을 실행하고 결과를 다시 보냅니다. (저장소에서 및
참조). 이 예제는 또한 및
6 단계 : 시각적 비서 생성 이 섹션에서는 스크린 샷을 분석하는 시각적 어시스턴트 구축에 대해 자세히 설명합니다. API 제한으로 인해 동기식 요청-응답 워크 플로를 사용합니다. 동기 요청 : tool.py 동기 이미지 처리에 tool_spec.py를 사용하십시오 google_search code_execution 이미지 처리 :
이미지를로드하고 크기를 조정하려면 PIL을 사용하십시오

스크린 샷 캡처 : 스크린 샷을 캡처하기 위해

고용

비주얼 어시스턴트 구현 :

스크린 샷 캡처, 이미지 처리 및 프롬프트 처리를 위해 대화 형 비주얼 비서를 생성합니다. 터미널 창을 무시하려면 를 포함하십시오. (저장소에서 참조).

결론
이 튜토리얼은 텍스트 및 오디오를 사용하여 챗봇을 구축하고 확장 된 기능을위한 도구를 통합하며 시각 어시스턴트를 만드는 Gemini 2.0 Flash의 기능을 보여줍니다. 현재 API에는 한계가 있지만 멀티 모달 실시간 응용 프로그램의 잠재력은 흥미 롭습니다. 추가 탐색은 Gemini 2.0의 객체 감지 및 3D 이해 기능을 사용하는 것이 포함될 수 있습니다.

위 내용은 Gemini 2.0 Flash : 데모 프로젝트가있는 단계별 자습서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!