모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

王林
풀어 주다: 2024-03-26 11:30:14
앞으로
410명이 탐색했습니다.

Huggingface의 기성 모델을 사용하여 "절약"하세요. -

이들을 직접 결합하여 새롭고 강력한 모델을 만들 수 있나요? !

일본의 대형 모델 회사인 Sakana.ai는 뛰어난 상상력("Transformer Eight" 중 하나가 설립한 회사입니다)을 가지고 있으며, 모델을 진화시키고 병합하는 영리한 방법을 생각해 냈습니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

이 방법은 새로운 기본 모델을 자동으로 생성할 수 있을 뿐만 아니라 성능도 결코 나쁘지 않습니다:

70억 개의 매개변수가 포함된 일본 수학의 대규모 모델을 활용하여 관련 벤치마크의 최첨단 결과 결과는 700억 개의 매개변수를 갖춘 Llama-2와 같은 이전 모델을 능가했습니다.

가장 중요한 것은 이러한 모델에 도달하는 데 경사 훈련이 필요하지 않으므로 필요한 컴퓨팅 리소스가 크게 줄어든다는 것입니다.

NVIDIA 과학자 Jim Fan은 이 논문을 읽은 후 다음과 같이 칭찬했습니다.

이것은 제가 최근에 읽은 가장 상상력이 풍부한 논문 중 하나입니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

진화를 병합하고 새로운 기본 모델을 자동으로 생성

오픈 소스 대형 모델 순위에서 가장 성능이 좋은 모델의 대부분은 더 이상 LLaMA 또는 Mistral과 같은 "원래" 모델이 아니지만 일부 미세 조정되거나 병합된 모델입니다. 그 후에는 다음을 볼 수 있습니다.

새로운 트렌드가 나타났습니다.

Sakana.ai는 오픈소스 기본 모델을 수백 가지 다양한 방향으로 쉽게 확장하고 미세 조정할 수 있으며, 새로운 분야에서 잘 수행되는 새로운 모델을 생성할 수 있다고 소개합니다.

이중 모델 병합은 큰 가능성을 보여줍니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

그러나 이는 직관과 전문성에 크게 의존하는 일종의 '흑마술'일 수도 있습니다.

따라서 좀 더 체계적인 접근 방식이 필요합니다.

자연의 자연 선택에서 영감을 받은 Sakana.ai는 진화 알고리즘에 중점을 두고 "진화 모델 병합" 개념을 도입하고 최상의 모델 조합을 발견할 수 있는 일반적인 방법을 제안합니다.

이 방법은 두 가지 아이디어를 결합합니다.

(1) 데이터 흐름 공간에서 모델 병합 (레이어) 및 (2) 매개변수 공간에서 모델 병합 (가중치) .

구체적으로, 첫 번째 데이터 흐름 공간 방법은 진화를 통해 다양한 모델 레이어의 최상의 조합을 찾아 새로운 모델을 형성하는 것입니다.

과거에는 커뮤니티가 직관에 의존하여 모델의 어떤 레이어를 다른 모델의 레이어와 결합할 수 있는지 결정했습니다.

그러나 실제로 Sakana.ai는 이 문제가 엄청난 조합의 검색 공간을 가지고 있으며, 이는 진화 알고리즘과 같은 최적화 알고리즘을 통한 검색에 가장 적합하다고 소개했습니다.

연산 예는 다음과 같습니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

두 번째 매개변수 공간 방법은 여러 모델 가중치를 혼합하여 새로운 모델을 구성합니다.

이 방법을 구현하는 방법은 실제로 무수히 많으며 원칙적으로 각 혼합 레이어는 서로 다른 혼합 비율을 사용할 수 있습니다.

그리고 여기서 진화적인 방법을 사용하면 더 새로운 혼합 전략을 효과적으로 찾을 수 있습니다.

다음은 서로 다른 두 모델의 가중치를 혼합하여 새로운 모델을 얻는 예입니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

위의 두 가지 방법을 결합하면 다음과 같습니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

저자는 희망한다고 소개했습니다. 수학과 비영어권 언어, 비전과 비영어권 언어 등 서로 다른 두 가지 모델의 가중치를 결합하여 이전에 탐구되지 않았던 새로운 조합을 형성한다는 목표를 달성합니다.

결과는 정말 놀랍습니다.

새 모델은 SOTA를 쉽게 승리합니다.

위의 진화적 병합 방법을 사용하여 팀은 3가지 기본 모델을 얻었습니다.

  • 대언어 모델 EvoLLM-JP

일본 대형 모델 Shisa-Gamma로 구성됨 및 수학 대형 모델 모델은 WizardMath/Abel의 합병으로, 일본의 수학 문제를 잘 해결하고 100~150세대에 걸쳐 진화해 왔습니다.

  • 시각 언어 모델 EvoVLM-JP

일본어 대형 모델 Shisa Gamma 7B v1+LLaVa-1.6-Mistral-7B는 일본어 기능을 갖춘 VLM입니다.

  • 이미지 생성 모델 EvoSDXL-JP

일본 SDXL 확산 모델을 지원합니다.

처음 2개는 Hugging Face와 GitHub에 공개되었으며, 마지막 1개도 곧 출시될 예정입니다.

구체적으로 보세요.

1. EvoLLM-JP

GSM8K 데이터 세트의 다국어 버전인 MGSM의 일본어 평가 세트에서 다음과 같은 결과를 얻었습니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

보시다시피 EvoLLM-JP 일본어로 수학을 해결합니다. 문제의 성능은 원래 모델은 물론 Llama-2 및 GPT-3.5와 같은 고성능 모델을 능가합니다.

그 중 모델 4는 매개변수 공간에서만 최적화되었으며, 모델 6은 모델 4를 이용하여 데이터 흐름 공간을 더욱 최적화한 결과입니다.

데이터 역량과 일반적인 일본어 능력을 모두 평가하는 일본 영화 평가 하네스 벤치마크에서 EvoLLM-JP는 9개 작업에서 최고 평균 점수 70.5점을 달성했습니다. 단 70억 개의 매개변수를 사용하여 700억 개의 Llama-2를 물리쳤습니다. 그리고 다른 모델.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

팀에서는 EvoLLM-JP가 일반 일본 대규모 모델로 사용하기에 충분하고 몇 가지 흥미로운 예를 풀 수 있다고 밝혔습니다.

일본 문화에 대한 특정 지식이 필요한 수학 문제 또는 일본 농담 말하기 간사이 사투리로.

2, EvoVLM-JP

다음 두 개의 이미지 질문 및 답변 벤치마크 데이터 세트에서 점수가 높을수록 모델의 답변에 대한 일본어 설명이 더 정확해졌습니다.

결과적으로, 기반이 되는 영어 VLM LLaVa-1.6-Mistral-7B보다 우수할 뿐만 아니라 기존 일본 VLM보다 우수합니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

아래 사진과 같이 사진 속 신호등의 색깔이 무엇인지 물었을 때 EvoVLM-JP만이 파란색이라고 정확하게 대답했습니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

3, EvoSDXL-JP

일본어를 지원하는 이 SDXL 모델은 4개의 확산 모델만 있으면 추론을 수행할 수 있으며 생성 속도도 상당히 빠릅니다.

구체적인 달리기 점수는 아직 공개되지 않았지만 팀에서는 "매우 유망하다"고 밝혔습니다.

몇 가지 예를 즐길 수 있습니다.

프롬프트 단어에는 Miso ra-men, 최고 품질 우키요에, 가츠시카 호쿠사이, 에도 시대가 포함됩니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

위의 3가지 새로운 모델에 대해 팀은 다음과 같이 지적했습니다.

원칙적으로 그라데이션 기반 역전파를 사용하여 이러한 모델의 성능을 더욱 향상시킬 수 있습니다.

그러나 우리는 을 사용하지 않습니다. 왜냐하면 이제 목적은 역전파 없이도 현재의 "비싼 패러다임"에 도전할 수 있을 만큼 충분히 발전된 기본 모델을 얻을 수 있다는 것을 보여주는 것이기 때문입니다.

네티즌들이 잇달아 좋아요를 표시했습니다.

Jim Fan은 다음도 추가했습니다.

기본 모델 분야에서 현재 커뮤니티는 거의 전적으로 모델 학습에 집중하고 있으며 검색에는 별로 관심을 기울이지 않습니다. 그러나 후자는 훈련 중입니다( 즉, 이 글에서 제안한 진화 알고리즘) 그리고 추론 단계는 실제로 엄청난 잠재력을 가지고 있습니다.

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다
ΔMusk가 좋아함

그래서 네티즌들이 말했듯이:

우리는 지금 모델의 캄브리아기 폭발 시대에 있습니까?

모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다

논문 주소: https://arxiv.org/abs/2403.13187

위 내용은 모델은 병합 후 진화하고 직접 SOTA를 획득합니다! 트랜스포머 작가의 새로운 창업 성과가 인기를 끌고 있다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿