Semalaman, model besar sumber terbuka paling berkuasa di dunia Falcon 180B melancarkan seluruh Internet!
Dengan 180 bilion parameter, Falcon menyelesaikan latihan mengenai 3.5 trilion token dan terus mendahului kedudukan Memeluk Wajah.
Dalam ujian penanda aras, Falcon 180B mengalahkan Llama 2 dalam pelbagai tugas seperti penaakulan, pengekodan, kecekapan dan ujian pengetahuan.
Malah, Falcon 180B adalah setanding dengan Google PaLM 2, dan prestasinya hampir dengan GPT-4.
Walau bagaimanapun, saintis kanan NVIDIA Jim Fan mempersoalkan perkara ini,
- Kod hanya menyumbang 5% daripada data latihan Falcon-180B.
Dan kod setakat ini adalah data yang paling berguna untuk meningkatkan keupayaan penaakulan, menguasai penggunaan alat dan meningkatkan ejen AI. Malah, GPT-3.5 diperhalusi berdasarkan Codex.
- Tiada pengekodan data penanda aras.
Tanpa keupayaan pengekodan, anda tidak boleh mendakwa sebagai "lebih baik daripada GPT-3.5" atau "dekat dengan GPT-4". Ia harus menjadi sebahagian daripada resipi pra-latihan, bukan tweak selepas fakta.
- Untuk model bahasa dengan parameter lebih besar daripada 30B, sudah tiba masanya untuk mengguna pakai sistem pakar hibrid (KPM). Setakat ini kami hanya melihat OSS MoE LLM
Mari kita lihat, apakah asal usul Falcon 180B?
Sebelum ini, Falcon telah melancarkan tiga saiz model, iaitu 1.3B, 7.5B, dan 40B.
Secara rasmi, Falcon 180B ialah versi 40B yang dinaik taraf Ia dilancarkan oleh TII, pusat penyelidikan teknologi terkemuka dunia di Abu Dhabi, dan tersedia untuk kegunaan komersial percuma.
Kali ini, penyelidik membuat inovasi teknikal pada model asas, seperti menggunakan Perhatian Berbilang Pertanyaan untuk meningkatkan kebolehskalaan model.
Untuk proses latihan, Falcon 180B adalah berdasarkan Amazon SageMaker, platform pembelajaran mesin awan Amazon, dan telah menyelesaikan latihan 3.5 trilion token pada sehingga 4096 GPU.
Jumlah masa pengiraan GPU, kira-kira 7,000,000.
Saiz parameter Falcon 180B ialah 2.5 kali ganda daripada Llama 2 (70B), dan jumlah pengiraan yang diperlukan untuk latihan ialah 4 kali ganda daripada Llama 2.
Antara data latihan khusus, Falcon 180B terutamanya set data RefinedWe (kira-kira 85%).
Selain itu, ia dilatih mengenai gabungan data yang teratur seperti perbualan, kertas teknikal dan sebahagian kecil kod.
Set data pra-latihan ini cukup besar, malah 3.5 trilion token hanya menduduki kurang daripada satu zaman. . 3.5.
Setanding dengan PaLM 2-Large Google di HellaSwag, LAMBADA, WebQuestions, Winogrande, PIQA, ARC, BoolQ, CB, COPA, RTE, WiC, WSC dan ReCoRD.
Selain itu, ia kini merupakan model besar terbuka dengan skor tertinggi (68.74 mata) pada senarai model besar sumber terbuka Hugging Face, mengatasi LlaMA 2 (67.35).
Pada masa yang sama, para penyelidik juga mengeluarkan model perbualan sembang Falcon-180B-Chat. Model ini diperhalusi pada set data perbualan dan arahan yang meliputi Open-Platypus, UltraChat dan Airoboros.
Kini, semua orang boleh merasai pengalaman demo.
Alamat: https://huggingface.co/tiiuae/falcon-180B-chat
Model asas tidak mempunyai perbualan besar kerana ia adalah Prompt model. Ia juga tidak dilatih melalui arahan, jadi ia tidak bertindak balas dalam cara perbualan.
Model pra-latihan ialah platform yang bagus untuk penalaan halus, tetapi mungkin anda tidak sepatutnya menggunakannya secara langsung. Model dialognya mempunyai mod dialog mudah.
System: Add an optional system prompt hereUser: This is the user inputFalcon: This is what the model generatesUser: This might be a second turn inputFalcon: and so on
Bermula dari Transformers 4.33, Falcon 180B boleh digunakan dan dimuat turun dalam ekosistem Hugging Face.
Pastikan anda log masuk ke akaun Hugging Face anda dan memasang versi terkini transformer:
pip install --upgrade transformershuggingface-cli login
bfloat16
Begini cara menggunakan model base1 dalam bfloat. Falcon 180B ialah model yang besar, jadi harap maklum tentang keperluan perkakasannya.
Dalam hal ini, keperluan perkakasan adalah seperti berikut:
Dapat dilihat bahawa jika anda ingin memperhalusi Falcon 180B, anda memerlukan sekurang-kurangnya 8X8X A100 80G, jika ia hanya untuk inferens. anda juga memerlukan GPU 8XA100 80G.
from transformers import AutoTokenizer, AutoModelForCausalLMimport transformersimport torchmodel_id = "tiiuae/falcon-180B"tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id,torch_dtype=torch.bfloat16,device_map="auto",)prompt = "My name is Pedro, I live in"inputs = tokenizer(prompt, return_tensors="pt").to("cuda")output = model.generate(input_ids=inputs["input_ids"],attention_mask=inputs["attention_mask"],do_sample=True,temperature=0.6,top_p=0.9,max_new_tokens=50,)output = output[0].to("cpu")print(tokenizer.decode(output)
boleh menghasilkan output berikut:
My name is Pedro, I live in Portugal and I am 25 years old. I am a graphic designer, but I am also passionate about photography and video.I love to travel and I am always looking for new adventures. I love to meet new people and explore new places.
using 8-bit dan 4-bit bitsandbytes
Selain itu, versi 8-bit dan 4-bit kuantiti falcon 180B sedang dinilai Hampir tiada perbezaan antaranya dan bfloat16!
Ini adalah berita baik untuk kesimpulan, kerana pengguna boleh menggunakan versi terkuantisasi dengan selamat untuk mengurangkan keperluan perkakasan.
Perhatikan bahawa inferens adalah lebih pantas dalam versi 8-bit berbanding versi 4-bit. Untuk menggunakan pengkuantitian, anda perlu memasang pustaka "bitsandbytes" dan mendayakan bendera yang sepadan apabila memuatkan model:
model = AutoModelForCausalLM.from_pretrained(model_id,torch_dtype=torch.bfloat16,**load_in_8bit=True,**device_map="auto",)
Model Perbualan
Seperti yang dinyatakan di atas, versi model yang telah diperhalusi untuk dialog penjejakan, Templat latihan yang sangat mudah digunakan. Kita perlu mengikut corak yang sama untuk menjalankan penaakulan gaya sembang.
Untuk rujukan, anda boleh lihat fungsi [format_prompt] dalam demo sembang:
def format_prompt(message, history, system_prompt):prompt = ""if system_prompt:prompt += f"System: {system_prompt}\n"for user_prompt, bot_response in history:prompt += f"User: {user_prompt}\n"prompt += f"Falcon: {bot_response}\n"prompt += f"User: {message}\nFalcon:"return prompt
Seperti yang anda lihat di atas, interaksi pengguna dan respons model didahului oleh Pengguna: dan Falcon: pembatas. Kami menyambungkannya bersama-sama untuk membentuk gesaan yang mengandungi keseluruhan sejarah perbualan. Dengan cara ini, gesaan sistem boleh disediakan untuk melaraskan gaya binaan.
Ramai netizen sedang membincangkan kekuatan sebenar Falcon 180B.
Sungguh luar biasa. Ia mengalahkan GPT-3.5 dan setanding dengan PaLM-2 Large Google. Ini adalah pengubah permainan!
Seorang CEO permulaan berkata bahawa saya telah menguji robot perbualan Falcon-180B dan ia tidak lebih baik daripada sistem sembang Llama2-70B. Kedudukan HF OpenLLM juga menunjukkan hasil yang bercampur-campur. Ini mengejutkan memandangkan saiznya yang lebih besar dan set latihan yang lebih besar.
Contohnya:
Berikan beberapa item dan biarkan Falcon-180B dan Llama2-70B menjawabnya masing-masing untuk melihat apakah kesannya?
Falcon-180B tersilap mengira pelana sebagai haiwan. Llama2-70B menjawab dengan ringkas dan memberikan jawapan yang betul.
Atas ialah kandungan terperinci 180 bilion parameter, model besar sumber terbuka terkemuka dunia Falcon diumumkan secara rasmi! Hancurkan LLaMA 2, prestasi hampir dengan GPT-4. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!