올해 2월, Google은 엔지니어링 및 인프라 최적화, MoE 아키텍처 및 기타 전략을 통해 성능과 속도를 크게 향상시킨 다중 모드 대형 모델 Gemini1.5를 출시했습니다. 더 긴 컨텍스트, 더 강력한 추론 기능, 교차 모달 콘텐츠 처리 능력이 향상되었습니다.
이번 금요일에 Google DeepMind는 Flash 버전과 기타 최신 업그레이드를 다루는 Gemini 1.5의 기술 보고서를 공식적으로 발표했습니다. 이 문서의 길이는 153페이지입니다.
기술 보고서 링크: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf
이 보고서에서 Google은 Gemini 1.5 시리즈 모델을 소개합니다. 이는 여러 개의 긴 문서와 몇 시간 분량의 비디오를 포함하여 수백만 개의 토큰 컨텍스트에서 세밀한 정보를 호출하고 추론할 수 있는 계산 효율성이 뛰어난 차세대 다중 모드 대형 모델을 나타냅니다. Gemini 1.5 시리즈 모델은 다중 언어 및 시각적 추론 기능을 갖추고 있어 자연어 처리 및 컴퓨터 비전 분야에서 널리 사용됩니다. 이 모델은 텍스트에서 핵심 정보를 추출하고 추론을 수행할 수 있을 뿐만 아니라 여러 장의 문서를 종합적으로 분석할 수 있습니다. 또한, 대량의 시각적 데이터 처리를 지원하고 몇 시간 안에 많은 양의 시각적 데이터를 처리할 수 있습니다.
이 시리즈에는 두 가지 새로운 모델이 포함됩니다:
이번 주 Google I/O 컨퍼런스에서 언급된 Flash 버전과 관련하여 보고서에서는 Gemini 1.5 Flash가 Gemini 1.5 Pro와 동일한 2M+ 컨텍스트 및 다중 모드 기능을 갖춘 Transformer 디코더 모델이라고 밝혔습니다. TPU(텐서 처리 장치)를 효율적으로 활용하고 모델 제공 지연 시간이 낮습니다. 예를 들어 Gemini 1.5 Flash는 Attention 및 Feed-forward 구성 요소를 병렬로 계산할 수 있으며 더 큰 네트워크 온라인 추출 기능을 갖춘 Gemini 1.5 Pro 모델이기도 합니다. 품질 향상을 위해 고차 전처리 방법을 사용하여 학습됩니다.
이 보고서는 Gemini 1.5 및 Vertex AI Streaming API에서 가져온 영어, 중국어, 일본어, 프랑스어 쿼리에 대한 출력 문자당 평균 시간을 평가합니다.
영어, 중국어, 일본어 및 프랑스어 응답에 대한 출력 문자당 시간(ms), 10,000자 입력으로 Gemini 1.5 Flash는 테스트된 모든 언어 중 가장 빠른 생성 속도를 달성했습니다.
표준 코딩, 다국어, 수학, 과학 및 추론 벤치마크에 대한 Gemini 1.5 Pro, 1.5 Flash 및 Gemini 1.0 모델의 평가 결과입니다. 1.5 Pro 및 1.5 Flash의 모든 숫자는 명령 조정 후에 얻어집니다.
비디오 이해 벤치마크에서 Gemini 1.5 Pro와 Gemini 1.0 Pro 및 Ultra를 비교했습니다.
오디오 이해 작업에 있어서 Gemini 1.5 Pro와 USM, Whisper, Gemini 1.0 Pro 및 Gemini 1.0 Ultra를 비교합니다.
Gemini 1.5 모델은 크로스 모달 긴 컨텍스트 검색 작업에서 거의 완벽한 재현을 달성하고 긴 문서 QA, 긴 비디오 QA 및 긴 컨텍스트 ASR의 최적 수준을 향상시키며 Gemini 1.0 Ultra가 제공하는 것과 일치하거나 초과합니다. 다양한 벤치마크에서 최고의 성능을 보여줍니다. 또 구글은 올해 5월 기준 제미니 1.5의 성능이 2월에 비해 대폭 향상됐다고도 밝혔다.
Gemini 1.5 Pro(5월)와 최초 릴리스(2월)를 여러 벤치마크에서 비교했습니다. 최신 Gemini 1.5 Pro는 모든 추론, 인코딩, 비전 및 비디오 벤치마크 전반에 걸쳐 향상된 기능을 제공하는 동시에 오디오 및 번역 성능은 그대로 유지됩니다. FLEURS의 경우 점수가 낮을수록 좋습니다.
Google DeepMind 부사장이자 Gemini 프로젝트 공동 리더인 Oriol Vinyals는 Gemini 1.5 Pro > 1.0 Ultra, 1.5 Flash(현재 가장 빠른 모델) ~= 1.0 Ultra라고 결론지었습니다.
Gemini 1.5의 긴 컨텍스트 기능의 한계를 연구함으로써 다음 토큰 예측 및 거의 완벽한 검색(>99%)에서 지속적인 개선을 볼 수 있습니다. Claude 3.0(200k), GPT-4 Turbo(128k) 등 기존 모델을 뛰어 넘는 세대 도약입니다.
보고서 7장에서 Google은 도구를 사용하지 않고도 Hendryck의 MATH 벤치마크를 포함하여 경쟁 수준의 수학 문제에서 뛰어난 성능을 발휘하는 수학 강화 버전 Gemini 1.5 Pro의 벤치마크를 소개합니다. 91.1%이다.
다음은 이전 모델이 분명히 풀지 못했던 APMO(Asia Pacific Mathematics Olympiad) 문제를 해결하는 모델의 몇 가지 예입니다. Oriol Vinyals는 이 답변이 (계산이 아닌) 증거이고, 해결책이 요점이며, "아름답다"는 점에서 훌륭하다고 말합니다. ㅋㅋㅋ
이 최첨단 대형 언어 모델은 몇 가지 놀라운 새 기능도 보여줍니다. 서부 파푸아뉴기니에서 200명 미만의 사람들이 사용하는 언어인 칼라망에 대한 문법 매뉴얼이 주어지면 모델은 인간이 동일한 콘텐츠를 학습하는 것과 비슷한 수준으로 영어를 칼라망으로 번역하는 방법을 배울 수 있습니다.
위 내용은 Google Gemini 1.5 기술 보고서: 수학 올림피아드 문제를 쉽게 증명할 수 있으며 Flash 버전은 GPT-4 Turbo보다 5배 빠릅니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!