1.LLaMA
LLaMA專案包含了一組基礎語言模型,其規模從70億到650億個參數不等。這些模型在數以百萬計的token上進行訓練,而且它完全在公開的資料集上進行訓練。結果,LLaMA-13B超過了GPT-3(175B),而LLaMA-65B的表現與Chinchilla-70B和PaLM-540B等最佳模型相似。
圖片來自LLaMA
資源:
- 研究論文:「LLaMA: Open and Efficient Foundation Language Models (arxiv. org)」 [https://arxiv.org/abs/2302.13971]
- GitHub:facebookresearch/llama [https://github.com/facebookresearch/llama]
- 示範:Baize Lora 7B [https://huggingface.co/spaces/project-baize/Baize-7B]
2.Alpaca
史丹佛大學的Alpaca聲稱它可以與ChatGPT競爭,任何人都可以在不到600美元的情況下複製它。 Alpaca 7B是在52K指令遵循的示範上從LLaMA 7B模型中進行微調。
訓練內容|圖片來自史丹佛大學CRFM
資源:
- 部落格:史丹佛大學CRFM。 [https://crfm.stanford.edu/2023/03/13/alpaca.html]
- GitHub:tatsu-lab/stanford_alpaca [https://github.com/tatsu-lab/stanford_alpaca]
- 示範:Alpaca-LoRA (官方示範已經遺失,這是Alpaca模型的再現) [https://huggingface.co/spaces/tloen/alpaca-lora]
#3.Vicuna
Vicuna是在從ShareGPT收集到的使用者共享對話上的LLaMA模型基礎上進行微調。 Vicuna-13B模型已經達到了OpenAI ChatGPT和Google Bard的90%以上的品質。它還在90%的情況下超過了LLaMA和史丹佛大學Alpaca模型。訓練Vicuna的成本約為300美元。
圖片來自Vicuna
資源:
- 部落格文章:「Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality」 [https://vicuna.lmsys.org/]
- #GitHub:lm-sys/FastChat [https://github.com/lm-sys/FastChat#fine-tuning ]
- 示範:FastChat (lmsys.org) [https://chat.lmsys.org/]
##4.OpenChatKit
#OpenChatKit:開源的ChatGPT替代方案,是一個用於建立聊天機器人的完整工具包。它提供了用於訓練使用者自己的指令調整的大型語言模型、微調模型、用於更新機器人回應的可擴展檢索系統以及用於過濾問題的機器人審核的指令。
圖片來自TOGETHER
可以看到,GPT-NeoXT-Chat-Base-20B模型在問答、提取和分類任務上的表現優於基礎模式GPT-NoeX。
資源:
部落格文章:「Announcing OpenChatKit」—TOGETHER [https://www.together.xyz/blog/openchatkit]- GitHub: togethercomputer /OpenChatKit [https://github.com/togethercomputer/OpenChatKit]
- 示範:OpenChatKit [https://huggingface.co/spaces/togethercomputer/OpenChatKit]
- 模型卡:togethercomputer/ GPT-NeoXT-Chat-Base-20B [https://huggingface.co/togethercomputer/GPT-NeoXT-Chat-Base-20B]
-
5.GPT4ALL
GPT4ALL是一個社群驅動的項目,並在一個大規模的輔助互動語料庫上進行訓練,包括程式碼、故事、描述和多輪對話。該團隊提供了資料集、模型權重、資料管理流程和訓練程式碼以促進開源。此外,他們還發布了模型的量化4位元版本,可以在筆記型電腦上運行。甚至可以使用Python客戶端來運行模型推理。
圖片來自GPT4ALL
資源:
- 技術報告:GPT4All [https://s3.amazonaws.com/static.nomic.ai/gpt4all/2023_GPT4All_Technical_Report.pdf]
- GitHub: nomic-ai/gpt4al [https:/ /github.com/nomic-ai/gpt4all]
- #示範:GPT4All(非官方)。 [https://huggingface.co/spaces/rishiraj/GPT4All]
- 模型卡:nomic-ai/gpt4all-lora · Hugging Face [https://huggingface.co/nomic-ai/gpt4all-lora ]
6.Raven RWKV
#Raven RWKV 7B是一個開源的聊天機器人,它由RWKV語言模型驅動,生成的結果與ChatGPT相似。該模型使用RNN,可以在品質和伸縮性方面與transformer相匹配,同時速度更快,節省VRAM。 Raven在史丹佛大學Alpaca、code-alpaca和更多的資料集上進行了微調。
圖片來自Raven RWKV 7B
#資源:
- GitHub:BlinkDL/ChatRWKV [https://github.com /BlinkDL/ChatRWKV]
- 示範:Raven RWKV 7B [https://huggingface.co/spaces/BlinkDL/Raven-RWKV-7B]
- 模型卡:BlinkDL/rwkv-4- raven [https://huggingface.co/BlinkDL/rwkv-4-raven]
#7.OPT
OPT: Open Pre-trained Transformer語言模型並不像ChatGPT那樣強大,但它在零樣本和少樣本學習以及刻板偏見分析方面表現出卓越的能力。還可以將它與Alpa、Colossal-AI、CTranslate2和FasterTransformer整合以獲得更好的結果。 注意:它上榜的原因是它的受歡迎程度,因為它在文字生成類別中每月有624,710次下載。
圖片來自(arxiv.org)
資源:
- 研究論文:"OPT: Open Pre-trained Transformer Language Models (arxiv.org)」 [https://arxiv.org/abs/2205.01068]
- GitHub: facebookresearch/metaseq [https://github.com/facebookresearch/metaseq]
- # #示範:A Watermark for LLMs [https://huggingface.co/spaces/tomg-group-umd/lm-watermarking]
- 模型卡:facebook/opt-1.3b [https://huggingface. co/facebook/opt-1.3b]
8.Flan-T5-XXL
Flan-T5-XXL在以指令形式表述的資料集上微調了T5模型。指令的微調大大提高了各種模型類別的效能,如PaLM、T5和U-PaLM。 Flan-T5-XXL模型在1000多個額外的任務上進行了微調,涵蓋了更多語言。
圖片來自Flan-T5-XXL
資源:
- 研究論文:「Scaling Instruction-Fine Tuned Language Models 」 [https://arxiv.org/pdf/2210.11416.pdf]
- #GitHub: google-research/t5x [https://github.com/google-research/t5x]
- #示範:Chat Llm Streaming [https://huggingface.co/spaces/olivierdehaene/chat-llm-streaming]
- 模型卡:google/flan-t5-xxl [https://huggingface.co/google /flan-t5-xxl?text=Q: ( False or not False or False ) is? A: Let's think step by step]
#總結
現在有很多開源的可供選擇的大模型,本文涉及到其中比較流行的8個大模型。
以上是介紹八種免費開源的大模型解決方案,因為ChatGPT和Bard價格太高。的詳細內容。更多資訊請關注PHP中文網其他相關文章!