Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작-일체 포함-php.cn

왕이 즉위했다고요? GPT-4에 대한 8가지 관찰

새로운 군비 경쟁의 시작: 다중 모드 대형 모델

집

기술 주변기기

일체 포함

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

青灯夜游

Mar 31, 2023 pm 10:39 PM

시험 모델

표준화된 테스트 및 기타 벤치마크에서 GPT-4는 이전 모델보다 성능이 뛰어나고 수십 가지 언어에서 작동하며 이미지를 입력 개체로 사용할 수도 있습니다. 즉, 사진이나 다이어그램의 의도와 논리를 이해할 수 있습니다.

Microsoft는 3월 초 다중 모드 모델 Kosmos-1을 출시한 이후 OpenAI의 다중 모드 모델을 테스트하고 조정하여 Microsoft 자체 제품과의 호환성을 향상시켜 왔습니다.

예상대로 마이크로소프트도 GPT-4 출시를 기회로 뉴빙에서도 이미 GPT-4를 사용했다는 사실을 공식적으로 보여줬다.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

ChatGPT에서 사용하는 언어 모델은 GPT-3.5입니다. GPT-4가 이전 버전보다 어떻게 더 강력해졌는지에 대해 OpenAI는 두 버전이 일상적인 대화에서는 비슷해 보이지만 ""차이는 다음과 같습니다. 작업의 복잡성이 충분한 임계값에 도달합니다." GPT-4는 더 안정적이고 창의적이며 더 미묘한 지침을 처리할 수 있습니다.

왕이 즉위했다고요? GPT-4에 대한 8가지 관찰

1. 인간보다 더 놀랍습니다

AI가 하나의 모델에서 여러 작업을 수행할 수 있다는 것을 모든 사람에게 증명하고 AGI를 달성하는 경로를 제시한다면 GPT-4 많은 작업에서 인간 수준의 성능에 도달했거나 심지어 인간보다 더 나은 성능을 발휘합니다. GPT-4는 많은 전문 학술 시험에서 인간의 90%를 능가했습니다. 예를 들어, 모의고사에서 GPT-4의 점수는 응시자의 상위 10%에 속합니다. 다양한 초중등학교, 대학, 전문교육기관은 이에 어떻게 대응해야 할까요?

2. "과학적" 연금술

이번에는 OpenAI가 구체적인 매개변수를 공개하지 않았지만, GPT-4 모델이 너무 많으면 훈련 비용이 많이 든다는 것을 짐작할 수 있습니다. 동시에, 모델 훈련은 "정제 비약"과 매우 유사하며 많은 실험이 필요합니다. 이러한 실험을 실제 환경에서 훈련한다면 모든 사람이 높은 비용 압박을 견딜 수는 없습니다.

이를 위해 OpenAI는 소위 "예측 가능한 스케일링"을 독창적으로 개발했습니다. 즉, 각 실험의 결과(손실 및 인간 평가)를 예측하는 데 비용의 1만분의 1을 사용합니다. 이로써 기존의 대규모 '행운' 연금술 훈련이 '반과학' 연금술 훈련으로 업그레이드됐다.

3. 크라우드소싱 평가, 일석이조 달성

이번에는 매우 "스마트한" 방식으로 오픈 소스 OpenAI Evals를 제공하고 크라우드소싱을 통해 모든 개발자 또는 열성팬에게 공개되며 모든 사람이 Evals를 사용하도록 초대합니다. 개발자 생태계를 유치하면서 모델을 테스트합니다. 이 방법은 모든 사람에게 참여감을 제공할 뿐만 아니라 모든 사람이 무료로 시스템을 평가하고 개선하는 데 도움을 줄 수 있도록 하여 질문과 피드백을 직접 얻으므로 일석이조입니다.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

4. 엔지니어링 누출 수리

이번에는 허점을 찾고 언어 모델의 "말도 안되는" 문제를 줄일 수 있는 개방형 "패치" 도구인 시스템 카드도 출시했습니다. 전처리 및 후처리를 위해 시스템에 다양한 패치가 적용되었으며 나중에 모든 사람에게 패칭 기능을 크라우드소싱하기 위해 코드가 공개될 예정입니다. 향후 모든 사람이 이를 도울 수 있을 것입니다. 이는 LLM이 마침내 우아하고 단순한 다음 토큰 예측 작업에서 다양한 지저분한 엔지니어링 해킹으로 전환했음을 나타냅니다.

5. 멀티모달

지난주 독일의 Microsoft가 GPT-4가 멀티모달임을 공개한 이후 대중의 기대가 컸습니다.

GPT-4는 "인간의 두뇌와 비교할 수 있다"고 알려진 다중 모드 기능은 실제로 현재 많은 논문에 설명된 다중 모드 기능과 크게 다르지 않습니다. 여기서 전제는 좋은 기본 기능과 다중 양식을 갖춘 텍스트 LLM이 필요하며 이를 통해 좋은 결과를 얻을 수 있다는 것입니다.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

6. "King Explosion"을 계획대로 출시합니다

GPT-4를 시연하는 OpenAI의 데모 영상에 따르면 GPT-4는 이미 작년 8월에 훈련을 마쳤으나 이제서야 출시되었습니다. 오늘 나머지 시간은 광범위한 테스트, 다양한 버그 수정, 그리고 가장 중요한 것은 위험한 콘텐츠 생성을 제거하는 데 사용됩니다.

모두가 여전히 ChatGPT의 놀라운 생성 기능에 열중하고 있지만 OpenAI는 이미 GPT-4를 해결했습니다. 이 Google 엔지니어들은 아마도 다시 따라잡기 위해 늦게까지 깨어 있어야 할 것입니다.

7. OpenAI는 더 이상 Open이 아닙니다

OpenAI는 공개 논문에서 어떠한 모델 매개변수나 데이터 규모도 언급하지 않으며(온라인으로 전송되는 GPT-4 매개변수는 100조에 달합니다) 기술적 원칙도 없습니다. 이는 대중의 이익을 위한 것이라고 설명했으며, 모두가 GPT-4를 만드는 방법을 배운 후에 이를 악용하여 통제할 수 없는 일이 일어날까 두렵습니다. 저는 개인적으로 이런 종류의 행위에 동의하지 않습니다. 전혀 은을 사용하지 않는 접근 방식입니다.

8. 큰 일에 집중하세요

다양한 "기술 과시" 외에도 이 문서는 3페이지를 사용하여 GPT-4의 다양한 시스템에 기여한 모든 사람의 이름을 나열합니다. 대략적인 추정치는 100명 이상이어야 하며 이는 다시 한 번 통합을 반영합니다. OpenAI 내부 팀 구성원 간의 높은 수준의 협업. 다른 회사의 팀전투력과 비교하면, 단합된 노력의 측면에서는 조금 뒤처지는 걸까요?

현재 다중 모드 대형 모델은 전체 AI 대형 모델 개발의 추세이자 중요한 방향이 되었습니다. 이 대형 모델 AI "군비 경쟁"에서는 Google, Microsoft, DeepMind와 같은 거대 기술 기업이 활발하게 출시하고 있습니다. 다중 모드 대형 모델(MLLM) 또는 대형 모델(LLM).

새로운 군비 경쟁의 시작: 다중 모드 대형 모델

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

Microsoft: Kosmos-1

Microsoft는 3월 초에 16억 개의 매개 변수를 갖춘 다중 모드 모델 Kosmos-1을 출시했습니다. Transformer 인과 언어 모델을 기반으로 합니다. 그 중 Transformer 디코더는 다중 모드 입력을 위한 범용 인터페이스로 사용됩니다.

Kosmos-1 모델은 다양한 자연어 작업 외에도 시각적 대화, 시각적 설명, 시각적 질문 답변, 이미지 자막, 간단한 수학 방정식, OCR 및 제로와 같은 광범위한 지각 집약적 작업을 기본적으로 처리할 수 있습니다. -설명이 포함된 샷 이미지 분류.

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

Google: PaLM-E

3월 초 Google 연구팀과 베를린 공과대학교는 최대 562개의 매개변수 볼륨을 갖춘 현재 PaLM-E에서 가장 큰 시각적 언어 모델을 출시했습니다. 10억(PaLM-540B+ViT-22B).

PaLM-E는 접두사 또는 프롬프트가 주어지면 자동 회귀 방식으로 텍스트 완성을 생성할 수 있는 대규모 디코더 전용 모델입니다. 모델에 인코더를 추가하면 모델은 이미지 또는 감각 데이터를 언어 태그와 동일한 크기의 일련의 벡터로 인코딩하고 이를 엔드투엔드 훈련을 위한 다음 토큰 예측의 입력으로 사용할 수 있습니다.

DeepMind: Flamingo

DeepMind는 작년 4월 Flamingo 시각적 언어 모델을 출시했습니다. 이 모델은 이미지, 비디오 및 텍스트를 프롬프트(프롬프트)로 사용하고 소수의 특정 예제만 있으면 문제를 해결할 수 있습니다. 추가 교육 없이도 문제가 많습니다.

사진(동영상)과 텍스트를 교차 입력하여 모델을 훈련시켜 모델이 퓨샷 다중 모달 시퀀스 추론 기능을 갖추고 "텍스트 설명 완성, VQA / Text-VQA" 등 다양한 작업을 완료하도록 합니다.

현재 멀티모달 대형 모델은 상대적으로 성숙한 빈첸시안 다이어그램 외에도 인간-컴퓨터 상호 작용, 로봇 제어, 이미지 검색, 음성 생성 등 수많은 응용 프로그램이 속속 등장하고 있습니다. .

종합해 보면 GPT-4는 AGI가 아니지만 다중 모드 대형 모델은 이미 명확하고 확실한 개발 방향입니다. 통합된 교차 시나리오 다중 작업 다중 모드 기본 모델을 구축하는 것은 인공 지능 개발의 주요 추세 중 하나가 될 것입니다.

Hugo는 "과학은 최종 단계에서 상상력을 만난다"고 말했습니다. 다중 모드 대형 모델의 미래는 인간의 상상을 초월할 수 있습니다.

위 내용은 Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7444

Cakephp 튜토리얼

1371

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. 중국의 기능은 GPT-4와 비슷하며 가격은 GPT-4-Turbo의 거의 1%에 불과합니다. May 07, 2024 pm 04:13 PM

기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

MLP를 대체하는 KAN은 오픈소스 프로젝트를 통해 컨볼루션으로 확장되었습니다. Jun 01, 2024 pm 10:03 PM

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

안녕하세요, 일렉트릭 아틀라스입니다! 보스턴 다이나믹스 로봇 부활, 180도 이상한 움직임에 겁먹은 머스크 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

공장에서 일하는 테슬라 로봇, 머스크 : 올해 손의 자유도가 22도에 달할 것! May 06, 2024 pm 04:13 PM

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

FisheyeDetNet: 어안 카메라를 기반으로 한 최초의 표적 탐지 알고리즘 Apr 26, 2024 am 11:37 AM

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

단일 카드는 듀얼 카드보다 Llama를 70B 더 빠르게 실행합니다. Microsoft는 A100에 FP6을 넣었습니다 | Apr 29, 2024 pm 04:55 PM

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나

새로운 Xianxia 모험에 참여하세요! 'Zhu Xian 2' 'Wuwei Test' 사전 다운로드가 가능합니다 Apr 22, 2024 pm 12:50 PM

새로운 판타지 요정 MMORPG '주선2'의 '무작용 테스트'가 4월 23일 출시된다. 원작으로부터 수천 년이 지난 주선 대륙에서는 어떤 새로운 요정 모험 이야기가 펼쳐질 것인가? 육계선불세계, 불멸수련을 위한 전임 학원, 불멸수련의 자유로운 삶, 불멸세계의 온갖 즐거움이 불멸친구들이 직접 탐험하는 것을 기다리고 있습니다! 이제 'Wuwei 테스트' 사전 다운로드가 공개되었습니다. 요정 친구들은 공식 웹사이트에 접속하여 다운로드할 수 있습니다. 서버가 출시되기 전에는 게임 서버에 로그인할 수 없습니다. 사전 다운로드 및 설치 후에는 활성화 코드를 사용할 수 있습니다. 완성 됐습니다. "Zhu Xian 2" "Inaction Test" 개장 시간: 4월 23일 10:00 - 5월 6일 23:59 Zhu Xian의 정통 속편 "Zhu Xian 2"의 새로운 요정 모험 장은 "Zhu Xian" 소설을 기반으로 합니다. 원작의 세계관을 바탕으로 게임 배경이 설정되었습니다.

$옥스포드 대학의 최신 소식! 미키: 3D SOTA로 2D 이미지 매칭! (CVPR\'24)$ 옥스포드 대학의 최신 소식! 미키: 3D SOTA로 2D 이미지 매칭! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

앞에 적힌 프로젝트 링크: https://nianticlabs.github.io/mickey/ 두 장의 사진이 주어지면 사진 간의 대응 관계를 설정하여 두 장의 사진 사이의 카메라 포즈를 추정할 수 있습니다. 일반적으로 이러한 대응은 2D에서 2D로 이루어지며 추정된 포즈는 규모에 따라 결정되지 않습니다. 언제 어디서나 즉각적인 증강 현실과 같은 일부 애플리케이션은 규모 측정항목의 포즈 추정이 필요하므로 규모를 복구하기 위해 외부 깊이 추정기에 의존합니다. 본 논문에서는 3차원 카메라 공간에서 메트릭 일치성을 예측할 수 있는 키포인트 매칭 프로세스인 MicKey를 제안합니다. 이미지 전반에 걸쳐 3D 좌표 매칭을 학습함으로써 측정 기준을 추론할 수 있습니다.

See all articles

Li Zhifei: GPT-4에 대한 8가지 관찰, 다중 모드 대형 모델 경쟁 시작

왕이 즉위했다고요? GPT-4에 대한 8가지 관찰

새로운 군비 경쟁의 시작: 다중 모드 대형 모델

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제