Meta, 650억 개의 매개변수를 갖춘 대규모 언어 모델인 AI 언어 모델 LLaMA 출시

PHPz
풀어 주다: 2023-04-14 18:58:01
앞으로
1710명이 탐색했습니다.

Meta, 650억 개의 매개변수를 갖춘 대규모 언어 모델인 AI 언어 모델 LLaMA 출시

2월 25일 뉴스, Meta는 금요일 현지 시간으로 ChatGPT의 자극을 받은 Microsoft, Google 및 기타 기업에 합류하여 연구 커뮤니티를 위한 인공지능(AI) 기반의 새로운 대규모 언어 모델을 출시할 것이라고 발표했습니다. 인공지능 경주에 함께 동참합니다.

Meta의 LLaMA는 "Large Language Model Meta AI"(Large Language Model Meta AI)의 약어로, 정부, 지역사회, 학계의 연구자 및 단체가 비상업적 라이선스로 사용할 수 있습니다.

회사에서는 사용자가 사용할 기본 코드를 제공하므로 사용자가 모델을 직접 조정하여 연구 관련 사용 사례에 사용할 수 있습니다. Meta는 해당 모델의 컴퓨팅 성능 요구 사항이 "훨씬 낮다"고 말했습니다.

보고서에 따르면 회사는 다양한 매개변수(7B, 13B, 33B 및 65B)를 사용하여 LLaMA를 개발하고 있습니다. 이 중 LLaMA 65B와 LLaMA 33B는 1조 4천억 개의 토큰으로 훈련되었으며, 가장 작은 모델인 LLaMA 7B도 1조 개의 토큰으로 훈련되었습니다.

다른 대형 언어 모델과 마찬가지로 LLaMA는 일련의 단어를 "입력"으로 사용하고 다음 단어를 예측하여 재귀적으로 텍스트를 생성하는 방식으로 작동합니다. 이 모델 세트의 경우 Meta는 라틴어와 키릴어에 중점을 두고 가장 많이 사용되는 20개 언어에서 훈련용 텍스트를 선택했습니다.

물론 다른 모델과 마찬가지로 LLaMA도 편견, 악의적인 댓글, 환각이라는 문제에 직면해 있으며 Meta는 이러한 유형의 언어 모델의 단점을 해결하기 위해 더 많은 연구를 수행해야 합니다.

Meta는 LLaMA를 기본 모델로 사용하여 특정 작업을 위해 미세 조정된 모델이 아니라 다용도로 설계되었으며 다양한 사용 사례에 적용할 수 있다고 말합니다. LLaMA의 코드를 오픈 소스화함으로써 다른 연구자들은 이러한 문제를 제한하거나 제거하는 새로운 방법을 더 쉽게 찾을 수 있습니다. Meta는 또한 이 기사에서 모델의 한계를 보여주고 이 중요한 영역에 대한 추가 연구에서 연구자를 지원하기 위해 모델 편향 및 독성을 평가하기 위한 일련의 벤치마크 평가 기준을 제공합니다.

메타도 지난해 5월 대형 언어 모델인 OPT-175B를 출시했다는 점은 언급할 만하다. 이 프로젝트는 또한 챗봇 블렌더봇의 새로운 반복을 위한 기반을 형성하는 연구원을 대상으로 합니다.

나중에 회사는 Galactica라는 모델도 출시했습니다. 이 모델은 과학 기사를 작성하고 수학 문제를 풀 수 있다고 밝혔지만 "권위 있는 소리" 콘텐츠를 반복적으로 생성했기 때문에 데모 버전은 나중에 제거되었습니다.

공식 링크가 있는 IT 홈:

위 내용은 Meta, 650억 개의 매개변수를 갖춘 대규모 언어 모델인 AI 언어 모델 LLaMA 출시의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿