58줄의 코드 스케일 Llama 3~1백만 컨텍스트, 모든 미세 조정 버전 적용 가능
오픈소스의 위엄을 자랑하는 라마 3, 원본 컨텍스트 창은 실제로... 8k만 있어서 "냄새가 너무 좋다"라는 말을 삼키게 되었습니다.
현재는 32k부터 100k가 일반적입니다. 이는 오픈 소스 커뮤니티에 기여할 수 있는 공간을 남기기 위한 것인가요?
오픈 소스 커뮤니티는 확실히 이 기회를 놓치지 않았습니다.
이제 단 58줄의 코드만으로 Llama 3 70b의 모든 미세 조정 버전이 자동으로 1048k (백만) 컨텍스트까지 확장될 수 있습니다.
뒤에는 좋은 맥락을 확장한 Llama 3 70B Instruct의 미세 조정 버전에서 추출한 LoRA가 있습니다. 파일은 800mb에 불과합니다.
다음으로 Mergekit을 사용하여 동일한 아키텍처의 다른 모델과 함께 실행하거나 모델에 직접 병합할 수 있습니다.
사용된 1048k 컨텍스트의 미세 조정 버전은 인기 있는 건초 더미 테스트에서 올 그린(100% 정확도) 점수를 달성했습니다.
오픈소스의 발전 속도는 기하급수적이라고 말씀드리고 싶습니다.
1048k 상황별 LoRA는 어떻게 만들어졌나요
먼저, 기업용 AI 솔루션 스타트업인 Gradient AI에서 Llama 3 미세 조정 모델의 1048k 상황별 버전을 제공합니다.
해당 LoRA는 개발자 Eric Hartford에서 제공한 것입니다. 미세 조정된 모델과 원본 버전의 차이점을 비교하여 매개변수 변경 사항을 추출합니다.
먼저 524k 상황별 버전을 만든 뒤 1048k 버전으로 업데이트했습니다.
먼저 Gradient 팀은 오리지널 Llama 3 70B Instruct를 기반으로 훈련을 계속하여 Llama-3-70B-Instruct-Gradient-1048k를 획득했습니다.
구체적인 방법은 다음과 같습니다.
- 위치 인코딩 조정: NTK 인식 보간을 사용하여 RoPE 세타의 최적 스케줄링을 초기화하고 최적화하여 확장 후 고주파수 정보의 손실을 방지합니다. length
- Progressive Training: UC Berkeley Pieter Abbeel 팀이 제안한 Blockwise RingAttention 방법을 사용하여 모델의 컨텍스트 길이를 확장합니다
팀이 Ring Attention 위에 병렬화를 계층화했다는 점은 주목할 만합니다. 대규모 GPU 클러스터를 더 잘 활용하기 위해 맞춤형 네트워크 토폴로지를 통해 장치 간에 많은 KV 블록을 전송함으로써 발생하는 네트워크 병목 현상을 처리하는 데 사용됩니다.
궁극적으로 모델 훈련 속도가 33배 향상되었습니다.
긴 텍스트 검색 성능 평가에서는 가장 어려운 버전에서만 "바늘"이 텍스트 중간에 숨겨져 있으면 오류가 발생하기 쉽습니다.
확장된 컨텍스트로 미세 조정된 모델을 만든 후 오픈 소스 도구인 Mergekit을 사용하여 미세 조정된 모델과 기본 모델을 비교하고 매개변수 차이를 추출하여 LoRA로 만듭니다.
또한 Mergekit을 사용하면 추출된 LoRA를 동일한 아키텍처의 다른 모델에 병합할 수 있습니다.
병합 코드는 Eric Hartford가 GitHub에서 오픈 소스로 제공하며 길이는 58줄에 불과합니다.
이 LoRA 병합이 중국어로 미세 조정된 Llama 3에서 작동할지는 확실하지 않습니다.
그러나 중국 개발자 커뮤니티가 이러한 전개에 주목하고 있음을 알 수 있습니다.
524k 버전 LoRA: https://huggingface.co/cognitivecomputations/Llama-3-70B-Gradient-524k-adapter
1048k 버전 LoRA: https://huggingface.co/ cognitivecomputations/Llama-3-70B-Gradient-1048k-adapter
병합 코드: https://gist.github.com/ehartford/731e3f7079db234fa1b79a01e09859ac
위 내용은 58줄의 코드 스케일 Llama 3~1백만 컨텍스트, 모든 미세 조정 버전 적용 가능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Docker 컨테이너를 사용하여 사전 컴파일 된 패키지 (Windows 사용자의 경우)를 사용하여 소스 (숙련 된 개발자)를 컴파일하는 것을 포함하여 DeepSeek를 설치하는 방법에는 여러 가지가 있습니다. 공식 문서는 신중하게 문서를 작성하고 불필요한 문제를 피하기 위해 완전히 준비합니다.

Deepseekai 도구 가이드 및 FAQ Deepseek은 강력한 AI 지능형 도구입니다. FAQ : 다른 액세스 방법의 차이 : 웹 버전, 앱 버전 및 API 통화간에 기능에는 차이가 없으며 앱은 웹 버전의 래퍼 일뿐입니다. 로컬 배치는 증류 모델을 사용하는데,이 모델은 DeepSeek-R1의 정식 버전보다 약간 열등하지만 32 비트 모델은 이론적으로 90% 정식 버전 기능을 갖습니다. 선술집이란 무엇입니까? Sillytavern은 API 또는 Ollama를 통해 AI 모델을 호출 해야하는 프론트 엔드 인터페이스입니다. 중단 한도는 무엇입니까?

Grayscale Investment : Grayscale Investment Company는 기관 및 투자자에게 디지털 통화 투자 서비스를 제공합니다. 이 회사는 몇 가지 암호화 신탁을 출시했으며, 이는 시장의 광범위한 시장의 관심을 끌었지만, 이러한 자금이 토큰 가격에 미치는 영향은 크게 다릅니다. 이 기사는 Grayscale의 주요 Crypto Trust Funds 중 일부를 자세히 소개합니다. Grayscale Major Crypto Trust Fund는 Glance Grayscale Investment (2013 년 DigitalCurrencygroup이 설립 한)에서 제공되는 다양한 암호화 자산 신탁 기금을 관리하여 기관 투자자와 고격한 개인에게 준수 투자 채널을 제공합니다. 주요 자금에는 다음이 포함됩니다 : Zcash (Zec), Sol,

최고 시장 제조업체 인 Castle Securities의 Bitcoin Market Maker에 진입하는 것은 Bitcoin 시장의 성숙도의 상징이며, 전통적인 금융 세력이 미래의 자산 가격 권력을 위해 경쟁하는 핵심 단계입니다. Bloomberg에 따르면 Citadel Securities는 2 월 25 일에 Cryptocurrencies의 유동성 제공 업체가 되고자합니다. 이 회사는 Coinbaseglobal, Binanceholdings 및 Crypto.com이 운영하는 거래소를 포함하여 다양한 거래소에서 시장 제조업체 목록에 가입하는 것을 목표로하고 있다고이 문제에 익숙한 사람들은 말했다. Exchange에 의해 승인되면이 회사는 처음에 미국 이외의 시장 제조업체 팀을 설립 할 계획이었습니다. 이 움직임은 징후 일뿐입니다

ELIZAOSV2 : AI의 새로운 경제를 이끌고 AI는 보조 도구에서 독립적 인 엔티티로 진화하여 AI가 자금을 관리하고 Web3 비즈니스를 운영 할 수 있습니다. 이 기사는 Elizaosv2의 주요 혁신과 그것이 AI 중심의 미래 경제를 형성하는 방법으로 뛰어들 것입니다. AI Automation : 독립적으로 Elizaos를 운영하는 것은 원래 Web3 자동화에 중점을 둔 AI 프레임 워크였습니다. V1 버전을 사용하면 AI가 스마트 계약 및 블록 체인 데이터와 상호 작용할 수있는 반면 V2 버전은 상당한 성능 향상을 달성합니다. AI는 간단한 지침을 실행하는 대신 워크 플로를 독립적으로 관리하고 비즈니스를 운영하며 재무 전략을 개발할 수 있습니다. 아키텍처 업그레이드 : 향상 a

상하이 Jiaotong University, Shanghai Ailab 및 Chinese University of Hong Kong의 연구원들은 Visual-RFT (Visual Enhancement Fine Tuning) 오픈 소스 프로젝트를 시작했으며, 이는 LVLM (Language Big Model)의 성능을 크게 향상시키기 위해 소량의 데이터 만 필요합니다. Visual-Rft는 영리하게 DeepSeek-R1의 규칙 기반 강화 학습 접근 방식을 OpenAI의 RFT (Rencement Fine Tuning) 패러다임과 결합 하여이 접근법을 텍스트 필드에서 시야로 성공적으로 확장합니다. Visual-RFT는 시각적 하위 분류 및 객체 감지와 같은 작업에 대한 해당 규칙 보상을 설계함으로써 텍스트, 수학적 추론 및 기타 필드로 제한되는 DeepSeek-R1 메소드의 한계를 극복하여 LVLM 교육을위한 새로운 방법을 제공합니다. Vis

주간 관찰 : 비트 코인을 비축하는 비즈니스 - 양조 변화는 종종 주간 메모에서 간과 된 시장 동향을 지적합니다. Microstrategy의 움직임은 뚜렷한 예입니다. 많은 사람들이 "Microstrategy와 Michaelsaylor는 이미 잘 알려져 있습니다. 이것은 무엇에주의를 기울일 것인가?" 이보기는 일방적입니다. 최근 몇 달 동안 비트 코인을 예비 자산으로 채택한 것에 대한 심층적 인 연구에 따르면 이것은 고립 된 사례가 아니라 가장 큰 추세임을 보여줍니다. 나는 향후 12-18 개월 동안 수백 개의 회사가 소송을 따르고 대량의 비트 코인을 구매할 것이라고 예측합니다.
