목차
6가지 주요 작업에 대한 심층 테스트
퀴즈: Like D
수학: 복잡한 업무를 능가합니다
코드: matplotlib에 능숙함
번역: 그냥 대답하세요, 품질이 매우 높습니다
네트워크 탐색: 크로스 사이트 서핑에 능숙함
네티즌: 하지만 무료입니다
기술 주변기기 일체 포함 CMU는 상세한 비교 연구를 수행한 결과 GPT-3.5가 Gemini Pro보다 우수하여 공정하고 투명하며 재현 가능한 성능을 보장한다는 사실을 발견했습니다.

CMU는 상세한 비교 연구를 수행한 결과 GPT-3.5가 Gemini Pro보다 우수하여 공정하고 투명하며 재현 가능한 성능을 보장한다는 사실을 발견했습니다.

Dec 21, 2023 am 08:13 AM
Google gpt-3.5 gemini

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

구글 제미니의 강점은 무엇인가요? Carnegie Mellon University는 전문적이고 객관적인 제3자 비교를 실시했습니다.

공정성을 보장하기 위해 모든 모델은 동일한 프롬프트와 생성 매개변수를 사용하고 재현 가능한 코드와 완전히 투명한 결과를 제공합니다.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Google의 공식 기자 회견처럼 5샷을 비교하기 위해 CoT@32를 사용하지 않습니다.

한 문장의 결과: Gemini Pro 버전은 GPT-3.5 Turbo에 가깝지만 약간 열등하며, GPT-4는 여전히 훨씬 앞서 있습니다.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

심층 분석 결과 나는 객관식 문제에 D를 선택하는 것을 좋아한다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

많은 연구자들이 Gemini가 실시한 출시된 지 며칠 만에 아주 자세하게 설명되어 있습니다. 이것은 매우 놀라운 성과입니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

6가지 주요 작업에 대한 심층 테스트

이 테스트는 구체적으로 6가지 작업을 비교하고 각 작업에 해당하는 데이터 세트를 선택했습니다

  • 질문과 답변: MMLU
  • 추론: BIG-Bench Hard
  • 수학: GSM8k, SVAMP, ASDIV, MAWPS
  • 코드: HumanEval, ODEX
  • 번역: FLORES
  • 서핑: WebArena

퀴즈: Like D

결과에 따르면 이러한 유형의 작업에서 사고 체인 프롬프트를 사용한다고 해서 반드시 효과가 향상되는 것은 아니라는 것을 알 수 있습니다. MMLU 데이터 세트에서는 모든 질문이 객관식 질문입니다. 결과를 추가로 분석한 결과 이상한 현상이 발견되었습니다. Gemini는 옵션 D를 선호합니다. 팀은 Gemini가 여러 옵션에 대한 많은 지침을 제공하지 않았기 때문에 GPT 시리즈의 분포가 훨씬 더 균형을 이루고 있다고 제안했습니다. - 미세 조정으로 인해 발생하는 선택 문제입니다.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

또한 Gemini의 보안 필터링은 매우 엄격합니다. 윤리적인 질문에 대해서는 질문의 85%만 답변합니다. 인간의 성과 관련된 질문의 경우 질문의 28%만 대답할 수 있습니다.

Gemini Pro는 보안 연구 및 고등학교 미시 경제학에서 GPT-3.5를 능가하지만 격차가 크지 않다고 팀은 말했습니다. 특별한 것을 찾을 수 없습니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

추론: 긴 문제는 좋지 않습니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

GPT 시리즈는 더 길고 복잡한 문제를 처리할 때 더 나은 성능을 발휘합니다. 이에 비해 Gemini Pro는 덜 잘 수행됩니다. GPT-4 Turbo는 성능 저하가 거의 없어 복잡한 문제를 이해하는 강력한 능력을 보여줍니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

문제 유형에 따른 분석, Gemini는 "교환 항목 추적"에 매우 능숙합니다. 사람들이 아이템을 교환하고 궁극적으로 AI가 각 사람이 어떤 아이템을 소유하고 있는지 결정해야 하는 문제에는 취약합니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

제미니가 잘하는 일은 세계의 다양한 스포츠 지식 이해하기, 기호 스택 조작하기, 단어를 가나다순으로 정렬하기, 표 파싱하기 등이 있습니다.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

수학: 복잡한 업무를 능가합니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

질문 자체 너무 길어서 Gemini Pro와 GPT-3.5의 성능이 동시에 떨어졌고 GPT-4만이 일관된 수준을 유지할 수 있었습니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

사고 사슬의 길이가 가장 길어졌을 때 Gemini가 GPT-를 능가했습니다. 3.5

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

코드: matplotlib에 능숙함

코드 질문의 경우 Gemini는 긴 참조 답변이 있는 질문에서 잘 수행되지 않습니다.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

GPT 제품군은 대부분의 유형에서 더 강력하지만 matplotlib에서는 완전히 성능이 저하됩니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

번역: 그냥 대답하세요, 품질이 매우 높습니다

번역 작업에서 Gemini는 12가지 유형의 질문에 답변을 거부했지만 답변된 번역의 품질은 모두 매우 좋았으며 전반적인 성능이 GPT를 초과했습니다. -4

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini는 번역을 거부했습니다. 언어는 주로 라틴어와 아랍어

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

네트워크 탐색: 크로스 사이트 서핑에 능숙함

WebArena는 전자상거래, 소셜을 포함한 AI용 인터넷 환경을 시뮬레이션합니다. 포럼, GitLab 공동 개발, 콘텐츠 관리 시스템 및 온라인 지도. AI는 이 환경에서 정보를 찾거나 여러 사이트에서 작업을 완료해야 합니다.

Gemini는 전체적으로 GPT-3.5 Turbo만큼 성능을 ​​발휘하지는 않지만 여러 사이트에서 작업을 약간 더 잘 수행합니다.

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

네티즌: 하지만 무료입니다

결국 CMU 부교수 Graham Newbig이 연구의 몇 가지 한계를 인정했습니다

  • API 기반 모델 동작은 언제든지 변경될 수 있습니다
  • 제한된 수만 시도했습니다. 팁, 해당 사항 모델마다 프롬프트 단어가 다를 수 있음
  • 테스트 세트 유출 여부를 제어하는 ​​것은 불가능합니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Google의 대형 모델 추론팀 리더인 Zhou Dengyong은 Gemini의 온도를 0으로 설정한다고 지적했습니다. 5~10%포인트 증가시켜 추론 작업에 매우 도움이 됩니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

이번 테스트에서는 Gemini 및 GPT 시리즈 외에도 최근 접수된 오픈 소스 MoE 모델 Mixtral도 도입되었습니다

그러나 강화 학습 전문가 Noam Brown은 Mixtral의 결과가 공식 구현 대신 타사 API를 사용하기 때문에 무시될 수 있다고 믿습니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Mistral AI의 창립자는 팀에 공식 버전에 대한 액세스 권한을 제공했으며, 이를 통해 더 나은 결과를 가져올 수 있다고 믿습니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

Gemini Pro는 GPT-3.5만큼 좋지는 않지만, 장점은 없다고 할 수 있다는 것입니다. 분당 60회 이상 무료로 사용 가능합니다

그래서 많은 개별 개발자들이 진영을 바꾸게 되었습니다

Gemini Pro还不如GPT-3.5,CMU深入对比研究:保证公平透明可重复

현재 Gemini의 최고 버전인 Ultra 버전은 아직 출시되지 않았으며 CMU 팀에서도 계획하고 있습니다 그때까지 이 연구를 계속하세요

Gemini Ultra가 GPT 레벨 4에 도달할 수 있다고 생각하시나요?

이 기사는 논문에 대해 자세히 설명합니다: https://arxiv.org/abs/2312.11444

참조 링크:
[1]https://twitter.com/gneubig/status/1737108977954251216.

위 내용은 CMU는 상세한 비교 연구를 수행한 결과 GPT-3.5가 Gemini Pro보다 우수하여 공정하고 투명하며 재현 가능한 성능을 보장한다는 사실을 발견했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

2025 년 환전 플랫폼은 10 대 인기 통화 거래 앱의 최신 권장 사항입니다. 2025 년 환전 플랫폼은 10 대 인기 통화 거래 앱의 최신 권장 사항입니다. Mar 25, 2025 pm 06:18 PM

2025 환전 플랫폼 순위 : 1. OKX, 2. BINANCE, 3. GATE.IO, 4. COINBASE, 5. KRAKEN, 6. HUOBI Global, 7. crypto.com, 8. Kucoin, 9. Gemini, 10. Bitstamp. 이러한 플랫폼은 보안 측정, 사용자 검토 및 시장 성과에서 훌륭하게 성능을 발휘하며 사용자가 디지털 통화 거래를 수행하도록 선택하는 데 적합합니다.

OUYI OKEX 계정을 등록, 사용 및 취소하는 방법에 대한 자습서 OUYI OKEX 계정을 등록, 사용 및 취소하는 방법에 대한 자습서 Mar 31, 2025 pm 04:21 PM

이 기사는 Ouyi Okex 계정의 등록, 사용 및 취소 절차를 자세히 소개합니다. 등록하려면 앱을 다운로드하고 휴대폰 번호 또는 이메일 주소를 입력하여 등록하고 실제 인증을 완료해야합니다. 사용법은 로그인, 재충전 및 인출, 거래 및 보안 설정과 같은 운영 단계를 다룹니다. 계정을 취소하려면 OUYI OKEX 고객 서비스에 문의하고 필요한 정보를 제공하고 처리를 기다린 후 마지막으로 계정 취소 확인을 얻어야합니다. 이 기사를 통해 사용자는 Ouyi Okex 계정의 전체 수명주기 관리를 쉽게 마스터하고 디지털 자산 거래를 안전하고 편리하게 수행 할 수 있습니다.

2025 년 안전하고 사용하기 쉬운 가상 통화 거래 플랫폼 요약 2025 년 안전하고 사용하기 쉬운 가상 통화 거래 플랫폼 요약 Mar 25, 2025 pm 06:15 PM

2025 년에 권장되는 안전하고 사용하기 쉬운 가상 통화 거래 플랫폼.이 기사는 Binance, OKX, Huobi, Gate.io, Kraken, Kucoin, Bitfinex, Crypto.com 및 Gemini를 포함한 10 가지 전 세계적으로 주류 가상 통화 거래 플랫폼을 요약합니다. 그들은 거래 쌍, 24 시간 거래량, 보안, 사용자 경험 등의 장점이 있습니다. 예를 들어, Binance 거래는 빠르고, OKX 선물 거래는 인기가 높고, Coinbase는 초보자에게 적합하며 Kraken은 보안으로 유명합니다. 그러나 가상 통화 거래는 매우 위험하며 투자는 신중해야합니다. 중국 본토는 법에 의해 보호되지 않습니다. 플랫폼을 선택하기 전에 자신의 스타일을 신중하게 평가하십시오.

2025 년에 어떤 디지털 환전 앱이 더 좋습니까? 상위 10 개 가상 통화 앱 교환 순위 2025 년에 어떤 디지털 환전 앱이 더 좋습니까? 상위 10 개 가상 통화 앱 교환 순위 Mar 25, 2025 pm 06:06 PM

2025 : 1. Okx, 2. Binance, 3. Gate.io, 4. Coinbase, 5. Kraken, 6. Huobi Global, 7. Crypto.com, 8. Kucoin, 9. Gemini, 10. Bitstamp. 이러한 플랫폼은 보안 측정, 사용자 검토 및 시장 성과에서 훌륭하게 성능을 발휘하며 사용자가 디지털 통화 거래를 수행하도록 선택하는 데 적합합니다.

이더 리움 공식 거래 플랫폼 2025의 최신 요약 이더 리움 공식 거래 플랫폼 2025의 최신 요약 Mar 26, 2025 pm 04:45 PM

2025 년에 "공식적인"이더 리움 거래 플랫폼을 선택한다는 것은 보안, 규정 준수 및 투명성을 의미합니다. 라이센스 운영, 재무 보안, 투명한 운영, AML/KYC, 데이터 보호 및 공정 거래가 핵심입니다. Coinbase, Kraken 및 Gemini와 같은 준수 교환은주의를 기울여야합니다. Binance와 Ouyi는 규정 준수를 강화하여 공식 플랫폼이 될 수 있습니다. Defi는 옵션이지만 위험이 있습니다. 보안, 규정 준수, 비용, 위험 스프레드, 개인 키를 백업하고 자신의 연구를 수행하는 데주의를 기울이십시오.

2025 년 세계에서 10 대 크립토 화폐 거래소의 최신 순위 2025 년 세계에서 10 대 크립토 화폐 거래소의 최신 순위 Mar 26, 2025 pm 05:09 PM

시장이 빠르게 변하기 때문에 2025 년에 cryptocurrency 교환 순위를 예측하기는 어렵습니다. 중요한 것은 특정 순위가 아니라 규제 준수, 기관 투자, 디피 통합, 사용자 경험, 보안 및 세계화와 같은 순위에 영향을 미치는 요소를 이해하는 것입니다. Binance, Coinbase, Kraken 등은 상위 10 위에 들어갈 것으로 예상되지만 Black Swan 이벤트도 발생할 수 있습니다. 시장 동향 및 교환 동향에주의를 기울이고, 순위를 맹목적으로 믿지 않으며, 투자하기 전에 연구를 잘 수행하십시오.

경치 스팟 주석의 키워드 추출 효과를 향상시키기 위해 Jieba 워드 세분화를 최적화하는 방법은 무엇입니까? 경치 스팟 주석의 키워드 추출 효과를 향상시키기 위해 Jieba 워드 세분화를 최적화하는 방법은 무엇입니까? Apr 01, 2025 pm 06:24 PM

경치 스팟 주석의 키워드 추출을 향상시키기 위해 Jieba 단어 세분화를 최적화하는 방법은 무엇입니까? jieba 단어 세분화를 사용하여 경치 스팟 주석 데이터를 처리 할 때 단어 세분화 결과가 무시되면 ...

상위 10 개 가상 디지털 화폐 거래소 최신 통화 거래 플랫폼 앱 순위 2025 상위 10 개 가상 디지털 화폐 거래소 최신 통화 거래 플랫폼 앱 순위 2025 Mar 25, 2025 pm 06:30 PM

2025 : 1. Okx, 2. Binance, 3. Gate.io, 4. Coinbase, 5. Kraken, 6. Huobi Global, 7. Crypto.com, 8. Kucoin, 9. Gemini, 10. Bitstamp. 이러한 플랫폼은 보안 측정, 사용자 검토 및 시장 성과에서 훌륭하게 성능을 발휘하며 사용자가 디지털 통화 거래를 수행하도록 선택하는 데 적합합니다.

See all articles