목차
1048k 상황별 LoRA는 어떻게 만들어졌나요
기술 주변기기 일체 포함 58줄의 코드 스케일 Llama 3~1백만 컨텍스트, 모든 미세 조정 버전 적용 가능

58줄의 코드 스케일 Llama 3~1백만 컨텍스트, 모든 미세 조정 버전 적용 가능

May 06, 2024 pm 06:10 PM
git 데이터 모델

오픈소스의 위엄을 자랑하는 라마 3, 원본 컨텍스트 창은 실제로... 8k만 있어서 "냄새가 너무 좋다"라는 말을 삼키게 되었습니다.

현재는 32k부터 100k가 일반적입니다. 이는 오픈 소스 커뮤니티에 기여할 수 있는 공간을 남기기 위한 것인가요?

오픈 소스 커뮤니티는 확실히 이 기회를 놓치지 않았습니다.

이제 단 58줄의 코드만으로 Llama 3 70b의 모든 미세 조정 버전이 자동으로 1048k (백만) 컨텍스트까지 확장될 수 있습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

뒤에는 좋은 맥락을 확장한 Llama 3 70B Instruct의 미세 조정 버전에서 추출한 LoRA가 있습니다. 파일은 800mb에 불과합니다.

다음으로 Mergekit을 사용하여 동일한 아키텍처의 다른 모델과 함께 실행하거나 모델에 직접 병합할 수 있습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

사용된 1048k 컨텍스트의 미세 조정 버전은 인기 있는 건초 더미 테스트에서 올 그린(100% 정확도) 점수를 달성했습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

오픈소스의 발전 속도는 기하급수적이라고 말씀드리고 싶습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

1048k 상황별 LoRA는 어떻게 만들어졌나요

먼저, 기업용 AI 솔루션 스타트업인 Gradient AI에서 Llama 3 미세 조정 모델의 1048k 상황별 버전을 제공합니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

해당 LoRA는 개발자 Eric Hartford에서 제공한 것입니다. 미세 조정된 모델과 원본 버전의 차이점을 비교하여 매개변수 변경 사항을 추출합니다.

먼저 524k 상황별 버전을 만든 뒤 1048k 버전으로 업데이트했습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

먼저 Gradient 팀은 오리지널 Llama 3 70B Instruct를 기반으로 훈련을 계속하여 Llama-3-70B-Instruct-Gradient-1048k를 획득했습니다.

구체적인 방법은 다음과 같습니다.

  • 위치 인코딩 조정: NTK 인식 보간을 사용하여 RoPE 세타의 최적 스케줄링을 초기화하고 최적화하여 확장 후 고주파수 정보의 손실을 방지합니다. length
  • Progressive Training: UC Berkeley Pieter Abbeel 팀이 제안한 Blockwise RingAttention 방법을 사용하여 모델의 컨텍스트 길이를 확장합니다

팀이 Ring Attention 위에 병렬화를 계층화했다는 점은 주목할 만합니다. 대규모 GPU 클러스터를 더 잘 활용하기 위해 맞춤형 네트워크 토폴로지를 통해 장치 간에 많은 KV 블록을 전송함으로써 발생하는 네트워크 병목 현상을 처리하는 데 사용됩니다.

궁극적으로 모델 훈련 속도가 33배 향상되었습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

긴 텍스트 검색 성능 평가에서는 가장 어려운 버전에서만 "바늘"이 텍스트 중간에 숨겨져 있으면 오류가 발생하기 쉽습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

확장된 컨텍스트로 미세 조정된 모델을 만든 후 오픈 소스 도구인 Mergekit을 사용하여 미세 조정된 모델과 기본 모델을 비교하고 매개변수 차이를 추출하여 LoRA로 만듭니다.

또한 Mergekit을 사용하면 추출된 LoRA를 동일한 아키텍처의 다른 모델에 병합할 수 있습니다.

병합 코드는 Eric Hartford가 GitHub에서 오픈 소스로 제공하며 길이는 58줄에 불과합니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

이 LoRA 병합이 중국어로 미세 조정된 Llama 3에서 작동할지는 확실하지 않습니다.

그러나 중국 개발자 커뮤니티가 이러한 전개에 주목하고 있음을 알 수 있습니다.

58行代码把Llama 3扩展到100万上下文,任何微调版都适用

524k 버전 LoRA: https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter

1048k 버전 LoRA: https://huggingface.co/ cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter

병합 코드: https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac

위 내용은 58줄의 코드 스케일 Llama 3~1백만 컨텍스트, 모든 미세 조정 버전 적용 가능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

DeepSeek을 설치하는 방법 DeepSeek을 설치하는 방법 Feb 19, 2025 pm 05:48 PM

Docker 컨테이너를 사용하여 사전 컴파일 된 패키지 (Windows 사용자의 경우)를 사용하여 소스 (숙련 된 개발자)를 컴파일하는 것을 포함하여 DeepSeek를 설치하는 방법에는 여러 가지가 있습니다. 공식 문서는 신중하게 문서를 작성하고 불필요한 문제를 피하기 위해 완전히 준비합니다.

깊은 사용을위한 FAQ 요약 깊은 사용을위한 FAQ 요약 Feb 19, 2025 pm 03:45 PM

Deepseekai 도구 가이드 및 FAQ Deepseek은 강력한 AI 지능형 도구입니다. FAQ : 다른 액세스 방법의 차이 : 웹 버전, 앱 버전 및 API 통화간에 기능에는 차이가 없으며 앱은 웹 버전의 래퍼 일뿐입니다. 로컬 배치는 증류 모델을 사용하는데,이 모델은 DeepSeek-R1의 정식 버전보다 약간 열등하지만 32 비트 모델은 이론적으로 90% 정식 버전 기능을 갖습니다. 선술집이란 무엇입니까? Sillytavern은 API 또는 Ollama를 통해 AI 모델을 호출 해야하는 프론트 엔드 인터페이스입니다. 중단 한도는 무엇입니까?

AI 도구는 무엇입니까? AI 도구는 무엇입니까? Nov 29, 2024 am 11:11 AM

AI 도구에는 Doubao, ChatGPT, Gemini, BlenderBot 등이 포함됩니다.

Grayscale 암호화 신탁 기금은 무엇입니까? Grayscale 암호화 신탁 기금은 무엇입니까? Mar 05, 2025 pm 12:33 PM

Grayscale Investment : Grayscale Investment Company는 기관 및 투자자에게 디지털 통화 투자 서비스를 제공합니다. 이 회사는 몇 가지 암호화 신탁을 출시했으며, 이는 시장의 광범위한 시장의 관심을 끌었지만, 이러한 자금이 토큰 가격에 미치는 영향은 크게 다릅니다. 이 기사는 Grayscale의 주요 Crypto Trust Funds 중 일부를 자세히 소개합니다. Grayscale Major Crypto Trust Fund는 Glance Grayscale Investment (2013 년 DigitalCurrencygroup이 설립 한)에서 제공되는 다양한 암호화 자산 신탁 기금을 관리하여 기관 투자자와 고격한 개인에게 준수 투자 채널을 제공합니다. 주요 자금에는 다음이 포함됩니다 : Zcash (Zec), Sol,

최고의 시장 제조업체가 암호화 시장에 진출함에 따라 Castle Securities는 업계에 어떤 영향을 미칩니 까? 최고의 시장 제조업체가 암호화 시장에 진출함에 따라 Castle Securities는 업계에 어떤 영향을 미칩니 까? Mar 04, 2025 pm 08:03 PM

최고 시장 제조업체 인 Castle Securities의 Bitcoin Market Maker에 진입하는 것은 Bitcoin 시장의 성숙도의 상징이며, 전통적인 금융 세력이 미래의 자산 가격 권력을 위해 경쟁하는 핵심 단계입니다. Bloomberg에 따르면 Citadel Securities는 2 월 25 일에 Cryptocurrencies의 유동성 제공 업체가 되고자합니다. 이 회사는 Coinbaseglobal, Binanceholdings 및 Crypto.com이 운영하는 거래소를 포함하여 다양한 거래소에서 시장 제조업체 목록에 가입하는 것을 목표로하고 있다고이 문제에 익숙한 사람들은 말했다. Exchange에 의해 승인되면이 회사는 처음에 미국 이외의 시장 제조업체 팀을 설립 할 계획이었습니다. 이 움직임은 징후 일뿐입니다

Delphi Digital : 새로운 Elizaos V2 아키텍처를 구문 분석하여 새로운 AI 경제를 바꾸는 방법은 무엇입니까? Delphi Digital : 새로운 Elizaos V2 아키텍처를 구문 분석하여 새로운 AI 경제를 바꾸는 방법은 무엇입니까? Mar 04, 2025 pm 07:00 PM

ELIZAOSV2 : AI의 새로운 경제를 이끌고 AI는 보조 도구에서 독립적 인 엔티티로 진화하여 AI가 자금을 관리하고 Web3 비즈니스를 운영 할 수 있습니다. 이 기사는 Elizaosv2의 주요 혁신과 그것이 AI 중심의 미래 경제를 형성하는 방법으로 뛰어들 것입니다. AI Automation : 독립적으로 Elizaos를 운영하는 것은 원래 Web3 자동화에 중점을 둔 AI 프레임 워크였습니다. V1 버전을 사용하면 AI가 스마트 계약 및 블록 체인 데이터와 상호 작용할 수있는 반면 V2 버전은 상당한 성능 향상을 달성합니다. AI는 간단한 지침을 실행하는 대신 워크 플로를 독립적으로 관리하고 비즈니스를 운영하며 재무 전략을 개발할 수 있습니다. 아키텍처 업그레이드 : 향상 a

SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. SFT를 상당히 능가하는 O1/DeepSeek-R1의 비밀은 멀티 모달 대형 모델에서도 사용할 수 있습니다. Mar 12, 2025 pm 01:03 PM

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis

비트 : 비즈니스는 비트 코인을 무시한 큰 추세를 구매합니다 비트 : 비즈니스는 비트 코인을 무시한 큰 추세를 구매합니다 Mar 05, 2025 pm 02:42 PM

주간 관찰 : 비트 코인을 비축하는 비즈니스 - 양조 변화는 종종 주간 메모에서 간과 된 시장 동향을 지적합니다. Microstrategy의 움직임은 뚜렷한 예입니다. 많은 사람들이 "Microstrategy와 Michaelsaylor는 이미 잘 알려져 있습니다. 이것은 무엇에주의를 기울일 것인가?" 이보기는 일방적입니다. 최근 몇 달 동안 비트 코인을 예비 자산으로 채택한 것에 대한 심층적 인 연구에 따르면 이것은 고립 된 사례가 아니라 가장 큰 추세임을 보여줍니다. 나는 향후 12-18 개월 동안 수백 개의 회사가 소송을 따르고 대량의 비트 코인을 구매할 것이라고 예측합니다.

See all articles