1,800억 개의 매개변수, 세계 최고의 오픈소스 대형 모델 Falcon이 공식 발표되었습니다! Crush LLaMA 2, 성능은 GPT-4에 가깝습니다.-일체 포함-php.cn

세계에서 가장 강력한 오픈 소스 대형 모델

Falcon 180B 출시

프롬프트 형식

Transformers

네티즌들의 뜨거운 댓글

집

기술 주변기기

일체 포함

1,800억 개의 매개변수, 세계 최고의 오픈소스 대형 모델 Falcon이 공식 발표되었습니다! Crush LLaMA 2, 성능은 GPT-4에 가깝습니다.

PHPz

Sep 13, 2023 pm 04:13 PM

ai 모델

하룻밤 사이에 세계에서 가장 강력한 오픈소스 대형 모델 Falcon 180B가 인터넷 전체를 떠돌았습니다!

1,800억 개의 매개변수를 사용하여 Falcon은 3.5조 개의 토큰에 대한 교육을 완료하고 Hugging Face 순위에서 직접 1위를 차지했습니다.

벤치마크 테스트에서 Falcon 180B는 추론, 코딩, 숙련도, 지식 테스트 등 다양한 작업에서 Llama 2를 이겼습니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

심지어 Falcon 180B는 Google PaLM 2와 동등하며 성능은 GPT-4에 가깝습니다.

그러나 NVIDIA 수석 과학자 Jim Fan은 이에 대해 의문을 제기했습니다.

- 코드는 Falcon-180B 훈련 데이터의 5%만을 차지합니다.

그리고 코드는 추론 능력 향상, 도구 사용 마스터링, AI 에이전트 강화에 단연 가장 유용한 데이터입니다. 실제로 GPT-3.5는 Codex를 기반으로 미세 조정되었습니다.

- 인코딩 벤치마크 데이터가 없습니다.

코딩 기능이 없으면 "GPT-3.5보다 낫다"거나 "GPT-4에 가깝다"고 주장할 수 없습니다. 이는 사후에 수정하는 것이 아니라 사전 훈련 방법의 필수적인 부분이어야 합니다.

- 매개변수가 30B보다 큰 언어 모델의 경우 하이브리드 전문가 시스템(MoE)을 채택해야 할 때입니다. 지금까지 우리는 OSS MoE LLM

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

Falcon 180B의 유래가 무엇인지 살펴볼까요?

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

세계에서 가장 강력한 오픈 소스 대형 모델

이전에 Falcon은 1.3B, 7.5B, 40B의 세 가지 모델 크기를 출시했습니다.

공식적으로 Falcon 180B는 40B의 업그레이드 버전으로, 아부다비에 있는 세계 최고의 기술 연구 센터인 TII에서 출시되었으며 무료로 상업적으로 사용할 수 있습니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

이번에 연구진은 Multi-Query Attention을 사용하여 모델의 확장성을 향상시키는 등 기본 모델에 대한 기술 혁신을 이루었습니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

훈련 과정에서 Falcon 180B는 Amazon 클라우드 기계 학습 플랫폼인 Amazon SageMaker를 기반으로 하며 최대 4096 GPU에서 3조 5천억 개의 토큰 훈련을 완료했습니다.

총 GPU 계산 시간은 약 7,000,000입니다.

Falcon 180B의 매개변수 크기는 Llama 2(70B)의 2.5배이고, 훈련에 필요한 계산량은 Llama 2의 4배입니다.

특정 훈련 데이터 중 Falcon 180B는 주로 RefinedWe 데이터 세트입니다(약 85%를 차지).

또한 대화, 기술 문서, 일부 코드 등 정리된 데이터가 혼합되어 학습됩니다.

이 사전 훈련 데이터 세트는 충분히 커서 3조 5천억 개의 토큰이라도 한 시대 미만을 차지합니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

Falcon 180B가 현재 "최고의" 오픈 소스 대형 모델이라고 공식 주장합니다. 구체적인 성능은 다음과 같습니다.

MMLU 벤치마크에서 Falcon 180B의 성능은 Llama 2 70B 및 GPT를 능가합니다. 3.5.

HellaSwag, LAMBADA, WebQuestions, Winogrande, PIQA, ARC, BoolQ, CB, COPA, RTE, WiC, WSC 및 ReCoRD에서 Google의 PaLM 2-Large와 동등합니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

또한 현재 Hugging Face 오픈소스 대형 모델 목록에서 가장 높은 점수(68.74점)를 획득하여 LlaMA 2(67.35)를 제치고 오픈형 대형 모델입니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

Falcon 180B 출시

동시에 연구원들은 채팅 대화 모델 Falcon-180B-Chat도 출시했습니다. 이 모델은 Open-Platypus, UltraChat 및 Airoboros를 포함하는 대화 및 지침 데이터 세트에 대해 미세 조정되었습니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

이제 누구나 데모를 경험할 수 있습니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

주소 : https://huggingface.co/tiiuae/falcon-180B-chat

프롬프트 형식

기본 모델은 대용량 대화형이 아니기 때문에 프롬프트 형식이 없습니다. 또한 명령을 통해 훈련되지 않으므로 대화식으로 응답하지 않습니다.

사전 훈련된 모델은 미세 조정을 위한 훌륭한 플랫폼이지만 직접 사용해서는 안 될 수도 있습니다. 대화 모델에는 간단한 대화 모드가 있습니다.

System: Add an optional system prompt hereUser: This is the user inputFalcon: This is what the model generatesUser: This might be a second turn inputFalcon: and so on

로그인 후 복사

Transformers

Transformers 4.33부터 Falcon 180B는 Hugging Face 생태계에서 사용 및 다운로드할 수 있습니다.

Hugging Face 계정에 로그인하고 최신 버전의 Transformer가 설치되어 있는지 확인하세요.

pip install --upgrade transformershuggingface-cli login

로그인 후 복사

bfloat16

bfloat16에서 기본 모델을 사용하는 방법은 다음과 같습니다. Falcon 180B는 대형 모델이므로 하드웨어 요구 사항을 숙지하시기 바랍니다.

이와 관련하여 하드웨어 요구 사항은 다음과 같습니다.

Falcon 180B를 완전히 미세 조정하려면 최소한 8X8X A100 80G가 필요하다고 볼 수 있습니다. 8XA100 80G GPU도 필요합니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

from transformers import AutoTokenizer, AutoModelForCausalLMimport transformersimport torchmodel_id = "tiiuae/falcon-180B"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id,torch_dtype=torch.bfloat16,device_map="auto",)prompt = "My name is Pedro, I live in"inputs = tokenizer(prompt, return_tensors="pt").to("cuda")output = model.generate(input_ids=inputs["input_ids"],attention_mask=inputs["attention_mask"],do_sample=True,temperature=0.6,top_p=0.9,max_new_tokens=50,)output = output[0].to("cpu")print(tokenizer.decode(output)

로그인 후 복사

는 다음과 같은 출력을 생성할 수 있습니다.

My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.

로그인 후 복사

8비트 및 4비트 비트와 바이트 사용

또한 Fal의 8비트 및 4비트 양자화 버전 사기꾼 180B가 평가중입니다. bfloat16과 거의 차이가 없습니다!

사용자가 양자화된 버전을 안전하게 사용하여 하드웨어 요구 사항을 줄일 수 있으므로 이는 추론에 좋은 소식입니다.

추론은 4비트 버전보다 8비트 버전에서 훨씬 빠릅니다. 양자화를 사용하려면 "bitsandbytes" 라이브러리를 설치하고 모델을 로드할 때 해당 플래그를 활성화해야 합니다.

model = AutoModelForCausalLM.from_pretrained(model_id,torch_dtype=torch.bfloat16,**load_in_8bit=True,**device_map="auto",)

로그인 후 복사

Conversation Model

위에서 언급한 것처럼 모델 버전이 미세 조정되었습니다. 대화 추적을 위해 매우 간단한 교육 템플릿이 사용됩니다. 채팅 스타일 추론을 실행하려면 동일한 패턴을 따라야 합니다.

참고로 채팅 데모에서 [format_prompt] 기능을 살펴볼 수 있습니다.

def format_prompt(message, history, system_prompt):prompt = ""if system_prompt:prompt += f"System: {system_prompt}\n"for user_prompt, bot_response in history:prompt += f"User: {user_prompt}\n"prompt += f"Falcon: {bot_response}\n"prompt += f"User: {message}\nFalcon:"return prompt

로그인 후 복사

위에서 볼 수 있듯이 사용자 상호 작용과 모델 응답 앞에는 User: 및 Falcon: 구분 기호가 있습니다. 우리는 이들을 서로 연결하여 전체 대화 기록을 포함하는 프롬프트를 형성합니다. 이렇게 하면 빌드 스타일을 조정하기 위한 시스템 프롬프트가 제공될 수 있습니다.

네티즌들의 뜨거운 댓글

많은 네티즌들이 팔콘 180B의 진정한 강점을 논하고 있습니다.

정말 놀랍습니다. GPT-3.5를 능가하며 Google의 PaLM-2 Large와 동등합니다. 이것은 게임 체인저입니다!

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

한 스타트업 CEO는 대화 로봇 Falcon-180B를 테스트했는데 Llama2-70B 채팅 시스템보다 나을 것이 없었다고 말했습니다. HF OpenLLM 순위 역시 엇갈린 결과를 보여줍니다. 더 큰 크기와 더 큰 훈련 세트를 고려하면 이는 놀라운 일입니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

예:

몇 가지 항목을 주고 Falcon-180B와 Llama2-70B가 각각 대답하여 효과가 무엇인지 확인하도록 하세요.

Falcon-180B는 안장을 동물로 잘못 간주합니다. Llama2-70B는 간결하게 대답하며 정답을 내놓았습니다.

1800亿参数，世界顶级开源大模型Falcon官宣！碾压LLaMA 2，性能直逼GPT-4

위 내용은 1,800억 개의 매개변수, 세계 최고의 오픈소스 대형 모델 Falcon이 공식 발표되었습니다! Crush LLaMA 2, 성능은 GPT-4에 가깝습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

뜨거운 도구

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7439

Cakephp 튜토리얼

1369

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

Related knowledge

부트 스트랩 목록의 중첩을 구현하는 방법은 무엇입니까? Apr 07, 2025 am 10:27 AM

부트 스트랩의 중첩 목록은 스타일을 제어하기 위해 부트 스트랩의 그리드 시스템을 사용해야합니다. 먼저 외부 층을 사용하십시오 & lt; ul & gt; 및 & lt; li & gt; 목록을 만들려면 & lt; div class = "row & gt; & lt; div class = "col-md-6"& gt; & gt; 내부 레이어 목록에 내부 레이어 목록이 행 너비의 절반을 차지하도록 지정합니다. 이런 식으로 내부 목록은 올바른 목록을 가질 수 있습니다.

부트 스트랩 목록의 크기를 변경하는 방법은 무엇입니까? Apr 07, 2025 am 10:45 AM

부트 스트랩 목록의 크기는 목록 자체가 아니라 목록이 포함 된 컨테이너의 크기에 따라 다릅니다. Bootstrap의 그리드 시스템 또는 Flexbox를 사용하면 컨테이너의 크기를 제어하여 목록 항목을 간접적으로 크기로 조정할 수 있습니다.

부트 스트랩 목록에 아이콘을 추가하는 방법? Apr 07, 2025 am 10:42 AM

부트 스트랩 목록에 아이콘을 추가하는 방법 : 아이콘을 목록 항목에 직접 제정하십시오. 부트 스트랩 클래스를 사용하여 아이콘과 텍스트를 정렬하십시오 (예 : d-flex, 정당화-콘텐츠 중간, 정렬 중심). 부트 스트랩 태그 구성 요소 (배지)를 사용하여 숫자 또는 상태를 표시하십시오. 아이콘 위치를 조정하십시오 (Flex Direction : Row-Reverse;), 스타일을 제어 (CSS 스타일). 일반적인 오류 : 아이콘이 표시되지 않습니다 (아닙니다

vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? Apr 07, 2025 pm 09:39 PM

표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

VUE의 내보내기 기본값으로 내보낸 구성 요소를 등록하는 방법 Apr 07, 2025 pm 06:24 PM

질문 : 내보내기 기본값을 통해 내보낸 VUE 구성 요소를 등록하는 방법은 무엇입니까? 답변 : 세 가지 등록 방법이 있습니다 : 글로벌 등록 : vue.component () 메소드를 사용하여 글로벌 구성 요소로 등록하십시오. 로컬 등록 : 현재 구성 요소 및 하위 구성 요소에서만 사용할 수있는 구성 요소 옵션에 등록하십시오. 동적 등록 : vue.component () 메소드를 사용하여 구성 요소가로드 된 후 등록하십시오.

Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Apr 08, 2025 pm 12:24 PM

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 Apr 08, 2025 am 11:36 AM

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.

MySQL을 해결하는 방법을 시작할 수 없습니다 Apr 08, 2025 pm 02:21 PM

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

See all articles

1,800억 개의 매개변수, 세계 최고의 오픈소스 대형 모델 Falcon이 공식 발표되었습니다! Crush LLaMA 2, 성능은 GPT-4에 가깝습니다.

세계에서 가장 강력한 오픈 소스 대형 모델

Falcon 180B 출시

프롬프트 형식

Transformers

네티즌들의 뜨거운 댓글

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제