> 기술 주변기기 > 일체 포함 > Gemini 2.0 Flash : 데모 프로젝트가있는 단계별 자습서

Gemini 2.0 Flash : 데모 프로젝트가있는 단계별 자습서

尊渡假赌尊渡假赌尊渡假赌
풀어 주다: 2025-03-02 09:33:09
원래의
422명이 탐색했습니다.

Gemini 2.0 Flash: Step-by-Step Tutorial With Demo Project 강력한 Gemini 2.0 플래시 모델을 특징으로하는 Google의 Gemini 2.0은 이미지 및 오디오 프로세스를 크게 향상시킵니다. 이 튜토리얼은 화면 내용을 해석하고 관련 질문에 답할 수있는 시각 어시스턴트를 구축함으로써 귀하를 안내합니다. 여기 프로젝트의 데모가 있습니다 :

2 단계 : 개발 환경 설정

이 프로젝트는 여러 파이썬 패키지를 사용합니다 : , , ,

및 . PIP : 를 사용하여 설치하십시오 (필요한 패키지를 나열한다고 가정) 3 단계 : 텍스트 기반 챗봇 구축

이 섹션에서는 Google의 Gemini 2 Flash 모델과 라이브러리를 사용하여 명령 줄 챗봇을 만드는 것을 보여줍니다. 문제 해결은 공식 Gemini 2.0 문서를 참조하십시오. 완전한 코드는 (github repository)에 있습니다 클라이언트 초기화 :

파일에서 환경 변수를 관리하기 위해 API 키를 안전하게로드하고 google-genai pyautogui 비동기 API 호출 : python-dotenv 효율적인 비동기 요청을 위해 sounddevice를 활용 : numpy
pip install google-genai pyautogui python-dotenv sounddevice numpy
로그인 후 복사
대화식 채팅 :

는 사용자가 "종료"를 유형 할 때 종료하는 연속 사용자 상호 작용을위한 루프로 챗봇을 향상시킵니다. 이 개선 된 버전은 다중 회전 대화를 허용합니다

4 단계 : 오디오 모드 통합
conda create --name gemini python=3.11
conda activate gemini
pip install -r requirements.txt
로그인 후 복사
코드를 수정하여 오디오 응답을 활성화합니다

requirements.txt import 및

세트 . 응답에서 오디오 데이터를 처리하고 오디오 스트림에 쓰십시오. (전체 코드는 Github 저장소의 참조). 5 단계 : 도구

로 기능 확장 기능 gemini 2.0을 사용하면 공구 통합이 가능합니다. 이 예제는 파일 읽기 도구를 보여줍니다 :

google.genai 함수 정의 : text.py

  • 스키마 정의 : 이름, 설명, 매개 변수 및 출력을 포함하여 함수의 스키마 정의.
  • 도구 등록 :

    스키마를 모델 구성에 제공합니다. 함수 호출 처리 : config = {"tools": [{"function_declarations": [load_file_content_schema]}], "response_modalities": ["TEXT"]} 프로세스 도구 호출 모델에서 도구 호출을하고 해당 기능을 실행하고 결과를 다시 보냅니다. (저장소에서

    참조). 이 예제는 또한 및
  • 와 같은 내장 도구를 사용하는 방법을 보여줍니다.
  • 6 단계 : 시각적 비서 생성 이 섹션에서는 스크린 샷을 분석하는 시각적 어시스턴트 구축에 대해 자세히 설명합니다. API 제한으로 인해 동기식 요청-응답 워크 플로를 사용합니다. 동기 요청 : tool.py 동기 이미지 처리에 tool_spec.py를 사용하십시오 google_search code_execution 이미지 처리 :

    이미지를로드하고 크기를 조정하려면 PIL을 사용하십시오
스크린 샷 캡처 : 스크린 샷을 캡처하기 위해

고용

비주얼 어시스턴트 구현 :

스크린 샷 캡처, 이미지 처리 및 프롬프트 처리를 위해 대화 형 비주얼 비서를 생성합니다. 터미널 창을 무시하려면 를 포함하십시오. (저장소에서 참조).

  • 결론

    이 튜토리얼은 텍스트 및 오디오를 사용하여 챗봇을 구축하고 확장 된 기능을위한 도구를 통합하며 시각 어시스턴트를 만드는 Gemini 2.0 Flash의 기능을 보여줍니다. 현재 API에는 한계가 있지만 멀티 모달 실시간 응용 프로그램의 잠재력은 흥미 롭습니다. 추가 탐색은 Gemini 2.0의 객체 감지 및 3D 이해 기능을 사용하는 것이 포함될 수 있습니다.

위 내용은 Gemini 2.0 Flash : 데모 프로젝트가있는 단계별 자습서의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿