이것이 ChatGPT 메타 버전의 프로토타입인가요? 오픈 소스, 단일 GPU에서 실행 가능, 매개변수 수가 1/10로 GPT-3를 능가함
수천억 또는 수조 개의 매개변수가 있는 매우 큰 모델은 수십억 또는 수백억 개의 매개변수가 있는 대형 모델과 마찬가지로 연구할 사람이 필요합니다.
방금 메타 수석 AI 과학자 Yann LeCun은 매개변수가 70억에서 650억에 이르는 새로운 대형 모델 시리즈인 LLaMA(Large Language Model Meta AI)를 "오픈 소스화"했다고 발표했습니다. 이러한 모델의 성능은 매우 뛰어납니다. 130억 개의 매개변수가 있는 LLaMA 모델은 "대부분의 벤치마크에서" GPT-3(1,750억 개의 매개변수)보다 성능이 뛰어나고 단일 V100 GPU에서 실행될 수 있으며 가장 큰 650억 개의 매개변수 LLaMA 모델은 비슷합니다. Google의 Chinchilla-70B 및 PaLM-540B에 적용됩니다.
우리 모두 알고 있듯이 매개변수는 기계 학습 모델이 입력 데이터를 기반으로 예측하거나 분류하는 데 사용하는 변수입니다. 언어 모델의 매개변수 수는 성능에 영향을 미치는 핵심 요소입니다. 더 큰 모델은 일반적으로 더 복잡한 작업을 처리하고 더 일관성 있는 출력을 생성할 수 있습니다. Richard Sutton은 이를 "쓴 교훈"이라고 부릅니다. 지난 몇 년 동안 주요 기술 대기업들은 수천억, 수조 개의 매개변수를 갖춘 대형 모델을 중심으로 군비 경쟁을 시작하여 AI 모델의 성능을 크게 향상시켰습니다.
그러나 이러한 '금전적 능력'을 겨루는 연구 경쟁은 거대 기술 기업에 근무하지 않는 일반 연구자들에게 우호적이지 않으며 대형 모델의 작동 원리와 문제에 대한 잠재적인 해결책에 대한 연구를 방해합니다. 또한 실제 응용 프로그램에서는 매개변수가 많을수록 더 많은 공간을 차지하고 실행하는 데 더 많은 컴퓨팅 리소스가 필요하므로 대형 모델의 경우 응용 프로그램 비용이 높아집니다. 따라서 한 모델이 더 적은 수의 매개변수를 사용하여 다른 모델과 동일한 결과를 얻을 수 있다면 효율성이 크게 향상됩니다. 이는 일반 연구자에게 매우 친숙하며 실제 환경에 모델을 배포하는 것이 더 쉬울 것입니다. 이것이 메타 연구의 핵심이다.
"이제 1~2년 안에 우리는 (최상급) 휴대폰과 노트북에서 ChatGPT 기능의 상당 부분을 갖춘 언어 모델을 실행할 것이라고 생각합니다." 독립 인공 지능 연구원 Simon Willison Meta의 새로운 AI 모델을 분석했을 때 영향이 기록되었습니다.
오픈 소스 및 재현성 요구 사항을 충족하면서 이 모델을 훈련하기 위해 Meta는 공개적으로 사용 가능한 데이터 세트만 사용합니다. 이는 비공개 데이터에 의존하는 대부분의 대규모 모델과 다릅니다. 이러한 모델은 오픈 소스가 아니며 거대 기술 기업의 개인 자산인 경우가 많습니다. 모델 성능을 향상시키기 위해 Meta는 더 많은 토큰을 학습했습니다. LLaMA 65B 및 LLaMA 33B는 1조 4천억 개의 토큰을 학습했으며 가장 작은 LLaMA 7B도 1조 개의 토큰을 사용했습니다.
트위터에서 LeCun은 LLaMA 모델을 사용한 텍스트 연속 결과도 보여주었습니다. 모델은 계속해 달라고 요청했습니다. "Yann LeCun이 작년에 랩 앨범을 발표했다는 사실을 알고 계셨나요? 우리는 그것을 듣고 다음과 같이 생각했습니다. ____"
그러나 만약에 상업적인 용도로 사용되는 경우, 메타 블로그와 LeCun의 트위터 발언의 차이점으로 인해 일부 논란이 발생했습니다.
Meta는 블로그 게시물에서 무결성을 유지하고 남용을 방지하기 위해 연구 사용 사례에 초점을 맞춘 비상업적 라이선스로 모델을 출시할 것이라고 밝혔습니다. 이 모델에 대한 접근 권한은 사례별로 학계 연구원, 정부 관련 조직, 시민 사회, 학계는 물론 전 세계 산업 연구소에 부여됩니다. 관심 있는 분은 다음 링크에서 신청하실 수 있습니다:
https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewform
LeCun은 Meta가 GPL v3 라이선스(GPL v3에서는 상업적 사용을 허용함)에 따라 연구를 공개하고 모든 모델을 연구 커뮤니티에 공개하기 위해 최선을 다하고 있다고 말했습니다.
여기서 "모델"이 코드인지 가중치인지, 아니면 둘 다를 가리키는지 명확하게 밝히지 않았기 때문에 이 진술은 상당히 논란의 여지가 있습니다. 많은 연구자들은 모델 가중치가 코드보다 훨씬 더 중요하다고 생각합니다.
이와 관련하여 LeCun은 GPL v3 라이선스로 공개되는 것이 모델 코드라고 설명했습니다.
어떤 사람들은 이러한 개방성이 진정한 "AI 민주화"가 아니라고 생각합니다.
현재 Meta는 논문을 arXiv에 업로드했으며, 일부 콘텐츠도 GitHub 저장소에 업로드되어 있어 찾아보실 수 있습니다.
- 논문 링크: https://research.facebook.com/publications/llama-open-and-efficient-foundation-언어-models/
- GitHub 링크: https //github.com/facebookresearch/llama
연구 개요
대규모 텍스트 말뭉치에 대해 훈련된 LLM(대규모 언어 모델)은 텍스트 프롬프트 또는 소수의 텍스트 프롬프트에서 새로운 작업을 수행하는 능력을 보여주었습니다. 샘플 작업. 이러한 소수의 속성은 모델을 충분히 큰 규모로 확장할 때 처음으로 나타났으며, 이러한 모델을 더욱 확장하는 데 초점을 맞춘 일련의 작업이 탄생했습니다.
이러한 노력은 매개변수가 많을수록 성능이 향상된다는 가정에 기초합니다. 그러나 Hoffmann et al.(2022)의 최근 연구에 따르면 주어진 계산 예산에 대해 가장 큰 모델이 아니라 더 많은 데이터에 대해 훈련된 작은 모델이 최고의 성능을 달성한다는 것을 보여줍니다.
Hoffmann et al.(2022)이 제안한 확장 법칙의 목표는 특정 훈련 컴퓨팅 예산 내에서 데이터 세트와 모델 크기를 가장 잘 확장하는 방법을 결정하는 것입니다. 그러나 이 목표는 대규모 언어 모델을 제공할 때 매우 중요한 추론 예산을 무시합니다. 이 경우 목표 성능 수준이 주어지면 선호하는 모델은 훈련 속도가 가장 빠르지는 않지만 추론 속도는 가장 빠릅니다. 특정 수준의 성능에 도달하기 위해 대규모 모델을 교육하는 것이 더 저렴할 수 있지만, 교육하는 데 더 오랜 시간이 걸리는 작은 모델은 궁극적으로 추론 시 비용이 더 저렴해집니다. 예를 들어 Hoffmann et al.(2022)은 200B 토큰에 대한 10B 모델 교육을 권장했지만 연구원들은 1T 토큰 이후에도 7B 모델의 성능이 계속 향상된다는 것을 발견했습니다.
이 작업의 초점은 일반적으로 사용되는 것보다 더 많은 토큰을 교육하여 다양한 추론 예산에서 최적의 성능을 달성할 수 있도록 언어 모델 계열을 교육하는 것입니다. LLaMA라고 불리는 결과 모델은 7B에서 65B 범위의 매개변수를 가지며 최고의 기존 LLM과 경쟁적으로 작동합니다. 예를 들어 LLaMA-13B는 GPT-3보다 10배 작음에도 불구하고 대부분의 벤치마크에서 GPT-3보다 성능이 뛰어납니다.
연구원들은 이 모델이 단일 GPU에서 실행될 수 있기 때문에 LLM 연구를 민주화하는 데 도움이 될 것이라고 말합니다. 더 높은 규모에서 LLaMA-65B 매개변수 모델은 Chinchilla 또는 PaLM-540B와 같은 최고의 대규모 언어 모델과도 비슷합니다.
Chinchilla, PaLM 또는 GPT-3와 달리 이 모델은 공개적으로 사용 가능한 데이터만 사용하므로 이 작업은 오픈 소스와 호환되는 반면, 대부분의 기존 모델은 공개적으로 사용할 수 없거나 문서화되지 않은 데이터(예: Books-2TB 또는 소셜 미디어)에 의존합니다. 언론대화). 물론 OPT(Zhang et al., 2022), GPT-NeoX(Black et al., 2022), BLOOM(Scao et al., 2022) 및 GLM(Zeng et al., 2022)과 같은 몇 가지 예외가 있습니다. 그러나 PaLM-62B나 Chinchilla와 경쟁할 수 있는 것은 없습니다.
이 기사의 나머지 부분에서는 변환기 아키텍처 및 훈련 방법에 대한 연구원의 수정 사항을 간략하게 설명합니다. 그런 다음 모델 성능이 제시되고 일련의 표준 벤치마크에서 다른 대규모 언어 모델과 비교됩니다. 마지막으로 책임 있는 AI 커뮤니티의 최신 벤치마크 중 일부를 사용하여 모델의 편향과 독성을 보여줍니다.
방법 개요
연구원이 사용한 훈련 방법은 (Brown et al., 2020), (Chowdhery et al., 2022) 등 이전 연구에서 설명한 방법과 유사하며 친칠라 스케일링이 적용됩니다. 법률(Hoffmann et al., 2022). 연구원들은 표준 최적화 프로그램을 사용하여 대량의 텍스트 데이터에 대해 대형 변환기를 훈련했습니다.
사전 훈련 데이터
표 1에 표시된 것처럼 이 연구의 훈련 데이터 세트는 다양한 영역을 포괄하는 여러 소스가 혼합되어 있습니다. 대부분의 경우 연구자들은 다른 대규모 언어 모델을 훈련하는 데 사용된 데이터 소스를 재사용하지만 여기서는 공개적으로 사용 가능한 데이터만 사용할 수 있고 공개 리소스와 호환된다는 제한이 있습니다. 훈련 세트의 데이터 혼합 및 비율은 다음과 같습니다:
- English CommonCrawl [67%]
- C4 [15%]
- Github [4.5%]; Wikipedia [4.5%];
- Gutenberg 및 Books3 [4.5%]
- ArXiv [2.5%];
대형 언어 모델에 대한 최근 작업을 기반으로 하는 이 연구에서는 변환기 아키텍처도 사용합니다. 연구원들은 이후에 제안되어 PaLM과 같은 다양한 모델에서 사용되는 다양한 개선 사항을 활용했습니다. 논문에서 연구원들은 원래 아키텍처와의 주요 차이점을 소개했습니다:
사전 정규화 [GPT3]. 훈련의 안정성을 향상시키기 위해 연구진은 출력을 정규화하는 대신 각 변환기 하위 계층의 입력을 정규화했습니다. 그들은 Zhang과 Sennrich(2019)가 제안한 RMSNorm 정규화 기능을 사용했습니다.SwiGLU 활성화 함수 [PaLM]. 연구진은 성능 향상을 위해 ReLU 비선형성을 대체하기 위해 Shazeer(2020)가 제안한 SwiGLU 활성화 함수를 사용했습니다. PaLM에서는 4D 대신 2D, 3D, 4D의 치수를 각각 사용합니다.
- 회전 삽입 [GPTNeo]. 연구진은 네트워크의 각 계층에 절대 위치 임베딩을 제거하고 Su et al.(2021)이 제안한 회전 위치 임베딩(RoPE)을 추가했습니다. 다양한 모델의 하이퍼파라미터 세부정보는 표 2에서 확인할 수 있습니다.
- 실험 결과
상식 추론
표 3에서 연구자들은 다양한 크기의 기존 모델과 비교하여 해당 논문 번호에 결과를 보고합니다. 첫째, LLaMA-65B는 BoolQ를 제외하고 보고된 모든 벤치마크에서 Chinchilla-70B보다 성능이 뛰어납니다. 이번에도 이 모델은 BoolQ 및 WinoGrande를 제외한 모든 측면에서 PaLM540B를 능가합니다. LLaMA-13B 모델은 10배 더 작음에도 불구하고 대부분의 벤치마크에서 GPT-3보다 성능이 뛰어납니다.
비공개 답변
표 4는 NaturalQuestions의 성능을 보여주고, 표 5는 TriviaQA의 성능을 보여줍니다. 두 벤치마크 모두에서 LLaMA-65B는 제로샷 및 퓨샷 설정 모두에서 최첨단 성능을 달성했습니다. 게다가 LLaMA-13B는 GPT-3 및 Chinchilla의 1/5~1/10 크기에도 불구하고 이러한 벤치마크에서 동등하게 경쟁력이 있습니다. 모델의 추론 프로세스는 단일 V100 GPU에서 실행됩니다. 연구원들은 또한 RACE 독해 벤치마크에 대한 모델을 평가했습니다(Lai et al., 2017). 여기에는 Brown et al.(2020)의 평가 설정을 따르며, 평가 결과는 Table 6과 같다. 이러한 벤치마크에서 LLaMA-65B는 PaLM-540B와 경쟁적이며 LLaMA-13B는 GPT-3보다 몇 퍼센트 포인트 더 뛰어난 성능을 보입니다.
수학적 추론
표 7에서 연구자들은 이를 PaLM 및 Minerva와 비교했습니다(Lewkowycz et al., 2022). GSM8k에서는 LLaMA65B가 수학적 데이터에서 미세 조정되지는 않았지만 Minerva-62B보다 성능이 뛰어난 것으로 나타났습니다.
코드 생성
표 8에서 볼 수 있듯이 비슷한 개수의 매개변수에 대해 LLaMA는 LaMDA, PaLM 등 Dedicated가 되지 않은 다른 일반 모델보다 더 좋은 성능을 발휘합니다. 코드 교육 또는 미세 조정. HumanEval 및 MBPP에서 LLaMA는 13B 이상의 매개변수에 대해 LaMDA를 137B 초과합니다. LLaMA 65B는 훈련 시간이 더 오래 걸리더라도 PaLM 62B보다 성능이 뛰어납니다.
대규모 다중 작업 언어 이해
연구원들은 벤치마크에서 제공한 예제를 사용하여 5샷 사례에서 모델을 평가하고 그 결과를 표 9에 표시했습니다. . 이 벤치마크에서 그들은 대부분의 영역에서 LLaMA-65B가 Chinchilla70B 및 PaLM-540B보다 평균 몇 퍼센트 포인트 뒤처지는 것을 관찰했습니다. 한 가지 잠재적인 설명은 연구원들이 사전 훈련 데이터에서 제한된 수의 책과 학술 논문, 즉 ArXiv, Gutenberg 및 Books3을 사용했는데, 이는 총 177GB에 불과한 반면 모델은 최대 2TB의 책에서 훈련되었습니다. Gopher, Chinchilla 및 PaLM이 사용하는 수많은 책은 Gopher가 이 벤치마크에서 GPT-3보다 성능이 뛰어나지만 다른 벤치마크와 동등한 이유를 설명할 수도 있습니다.
훈련 중 성능 변화
훈련 기간 동안 연구원들은 몇 가지 질문 답변 및 상식 벤치마크에서 LLaMA 모델의 성능을 추적했으며 그 결과는 그림에 나와 있습니다. 2. 성능은 대부분의 벤치마크에서 꾸준히 향상되며 모델의 훈련 복잡성과 양의 상관관계가 있습니다(그림 1 참조).
위 내용은 이것이 ChatGPT 메타 버전의 프로토타입인가요? 오픈 소스, 단일 GPU에서 실행 가능, 매개변수 수가 1/10로 GPT-3를 능가함의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

기본 키는 데이터베이스의 각 행을 고유하게 식별하는 키 속성이기 때문에 MySQL 기본 키는 비어있을 수 없습니다. 기본 키가 비어 있으면 레코드를 고유하게 식별 할 수 없으므로 데이터 혼동으로 이어질 수 있습니다. 자체 점수 정수 열 또는 UUID를 기본 키로 사용하는 경우 효율성 및 우주 점유와 같은 요소를 고려하고 적절한 솔루션을 선택해야합니다.

MySQL이 시작을 거부 했습니까? 당황하지 말고 확인합시다! 많은 친구들이 MySQL을 설치 한 후 서비스를 시작할 수 없다는 것을 알았으며 너무 불안했습니다! 걱정하지 마십시오.이 기사는 침착하게 다루고 그 뒤에있는 마스터 마인드를 찾을 수 있습니다! 그것을 읽은 후에는이 문제를 해결할뿐만 아니라 MySQL 서비스에 대한 이해와 문제 해결 문제에 대한 아이디어를 향상시키고보다 강력한 데이터베이스 관리자가 될 수 있습니다! MySQL 서비스는 시작되지 않았으며 간단한 구성 오류에서 복잡한 시스템 문제에 이르기까지 여러 가지 이유가 있습니다. 가장 일반적인 측면부터 시작하겠습니다. 기본 지식 : 서비스 시작 프로세스 MySQL 서비스 시작에 대한 간단한 설명. 간단히 말해서 운영 체제는 MySQL 관련 파일을로드 한 다음 MySQL 데몬을 시작합니다. 여기에는 구성이 포함됩니다
