> 기술 주변기기 > 일체 포함 > Falcon 40B 소개 : 아키텍처, 교육 데이터 및 기능

Falcon 40B 소개 : 아키텍처, 교육 데이터 및 기능

Joseph Gordon-Levitt
풀어 주다: 2025-03-09 10:40:11
원래의
185명이 탐색했습니다.
이 기사는 기술 혁신 연구소 (TII)가 개발 한 강력한 오픈 소스 대형 언어 모델 (LLM) 인 Falcon 40B를 탐구합니다. 다이빙하기 전에 기계 학습 및 자연어 처리 (NLP)에 대한 기본적인 이해가 권장됩니다. Chatgpt, LLM 및 Generative AI와 같은 주요 개념에 대한 포괄적 인 소개를 위해 AI 기초 기술 트랙을 고려하십시오.

Falcon 40B 이해 40b

Falcon 40B는 Falcon 7B 및 Falcon 180B와 함께 TII의 Falcon LLM 제품군에 속합니다. 인과 관계 디코더 전용 모델로서 다양한 자연 언어 생성 작업에서 뛰어납니다. 다국어 기능에는 영어, 독일어, 스페인어 및 프랑스어가 포함되며 다른 여러 언어를 부분적으로 지원합니다. 모델 아키텍처 및 훈련 GPT-3의 수정 된 버전 인 Falcon 40B의 아키텍처는 회전식 위치 임베딩과 향상된주의 메커니즘 (다중 쿼리주의 및 플래시 투과)을 활용합니다. 디코더 블록은 효율을 위해 2 층 정규화 체계를 갖는 평행주의 및 MLP 구조를 사용합니다. 훈련은 고품질의 중간의 인터넷 코퍼스 인 RefinedWeb의 1 조 개의 토큰과 AWS Sagemaker에서 384 A100 40GB GPU를 활용했습니다.

Falcon Blog의 이미지

이미지

주요 특징 및 장점

Falcon 40B의 다중 쿼리주의 메커니즘은 사전 조절에 크게 영향을 미치지 않으면 서 추론 확장 성을 향상시킵니다. Instruct 버전 (Falcon-7B-Instruct 및 Falcon-40B Intruct)도 사용할 수 있으며, 어시스턴트 스타일 작업의 성능 향상을 위해 미세 조정됩니다. Apache 2.0 라이센스는 제한없이 상업적으로 사용할 수 있습니다. OpenLlm 리더 보드의 벤치마킹은 Falcon 40B가 Llama, Stablelm, Redpajama 및 MPT.

Open LLM 리더 보드의 이미지

시작하기 : 추론과 미세 조정 Introduction to Falcon 40B: Architecture, Training Data, and Features Falcon 40B를 실행하려면 상당한 GPU 자원이 필요합니다. 4 비트 양자화는 40GB A100 GPU에서 실행할 수 있지만, 더 작은 FALCON 7B는 Google Colab을 포함한 소비자 등급 하드웨어에 더 적합합니다. 제공된 코드 예제는 Colab에서 Falcon 7b에 대한 4 비트 양자화를 사용한 추론을 보여줍니다. Qlora 및 SFT 트레이너와의 미세 조정에 대해서도 TRL 라이브러리를 활용하여 새로운 데이터 세트에 효율적으로 적응합니다. 이 예제는 Guanaco 데이터 세트를 사용합니다 Falcon-180b : 거대한 도약

3.5 조 토큰으로 훈련 된 Falcon-180B는 Falcon 40B를 능가합니다. 그러나 1,800 억 개의 매개 변수는 추론을 위해 실질적인 계산 자원 (약 8xA100 80GB GPU)이 필요합니다. 대화 작업을 위해 미세 조정 된 Falcon-180B-Chat의 출시는보다 접근하기 쉬운 대안을 제공합니다.

Falcon-180B Demo의 이미지 결론

Falcon 40B는 성능 및 접근성의 균형을 잡는 매력적인 오픈 소스 LLM 옵션을 제공합니다. 전체 모델은 상당한 자원을 요구하지만, 작은 변형과 미세 조정 기능은 연구원과 개발자에게 귀중한 도구가됩니다. 자신의 LLM을 구축하는 데 관심이있는 사람들을 위해 Python Career 트랙을 가진 기계 학습 과학자는 가치있는 고려 사항입니다. 공식 자원 : 공식 포옹 페이스 페이지 : Tiiuae (Technology Innovation Institute) 블로그 : Falcon은 Hugging Face 생태계에 착륙했습니다. 리더 보드 : LLM 리더 보드를 엽니 다 모델 카드 : tiiuae/falcon-40b · 껴안는 얼굴

<: :> 데이터 세트 : tiiuae/falcon-refinedweb

위 내용은 Falcon 40B 소개 : 아키텍처, 교육 데이터 및 기능의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
저자별 최신 기사
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿