ホームページ > テクノロジー周辺機器 > AI > 商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています

商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています

PHPz
リリース: 2024-04-01 17:01:22
転載
693 人が閲覧しました

蘭州科技が正式に発表: Mencius 3-13B 大型モデルが正式にオープンソースになりました!

この軽量でコスト効率の高い大型モデルは、学術研究に完全にオープンであり、無料の商用利用をサポートしています。

Mencius 3-13B は、MMLU、GSM8K、HUMAN-EVAL などのさまざまなベンチマーク評価で優れたパフォーマンスを示しています。

特にパラメータ20B以内の軽量大型モデルの分野では、中国語と英語の語学力が特に優れています。数学やプログラミングのスキルも最前線にあります。

商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています
△上記の結果は5ショットに基づいています。

レポートによると、Mencius 3-13B の大規模モデルは Llama アーキテクチャに基づいており、データ セットのサイズは 3T トークン に達します。

コーパスは、Web ページ、百科事典、ソーシャル メディア、メディア、ニュース、および高品質のオープン ソース データ セットから選択されます。 数兆のトークンを使用して多言語コーパスをトレーニングし続けることにより、このモデルは優れた中国語機能を備え、多言語機能を考慮しています。

Mencius 3-13B ラージ モデルのオープン ソース

Mencius 3-13B ラージ モデルは、わずか 2 つの手順で使用できます。

最初に環境を構成します。

pip install -r requirements.txt
ログイン後にコピー

それでは早速始めましょう。

import torchfrom transformers import AutoModelForCausalLM, AutoTokenizertokenizer = AutoTokenizer.from_pretrained("Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True)model = AutoModelForCausalLM.from_pretrained("Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True)inputs = tokenizer('指令:回答以下问题。输入:介绍一下孟子。输出:', return_tensors='pt')if torch.cuda.is_available():inputs = inputs.to('cuda')pred = model.generate(**inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id)print(tokenizer.decode(pred[0], skip_special_tokens=True))
ログイン後にコピー

さらに、基本モデルを使用した単一ラウンドの対話型推論に使用できるサンプル コードも提供します。

cd examplespython examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path
ログイン後にコピー

モデルを微調整したい場合は、関連するファイルとコードも提供されます。

商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされています

実際、Mencius 3-13B 大型モデルの多くの詳細は、早くも 3 月 18 日の蘭州大型モデル技術および製品発表カンファレンスで明らかにされました。

その時点で、孟子 3-13B 大型モデルの学習が完了したと発表されました。

13B バージョンを選択した理由について、Zhou Ming 氏は次のように説明しました。

まず第一に、Lanzhou は ToC によって補完される ToB シナリオの提供に明らかに重点を置いています。

実践の結果、ToB シナリオで最も頻繁に使用される大規模モデルのパラメーターは、ほとんどが 7B、13B、40B、および 100B であり、全体的な集中度は 10B ~ 100B であることがわかりました。

第二に、この範囲内では、ROI (投資収益率) の観点から、現場のニーズを満たすだけでなく、最も費用対効果が高いことになります。

したがって、蘭州市の目標は、長い間、10B ~ 100B のパラメーター スケール内で高品質の業界大規模モデルを作成することでした。

中国で最も初期の大規模モデル起業家チームの 1 つとして、蘭州市は昨年 3 月に Mencius GPT V1 (MChat) をリリースしました。

今年 1 月、Mencius Big Model GPT V2 (Mencius Big Model-Standard、Mencius Big Model-Lightweight、Mencius Big Model-Finance、Mencius Big Model-Encoding を含む) が一般公開されました。

わかりました。興味のあるお友達は、下のリンクをクリックして体験してください。

GitHub リンク: https://github.com/Langboat/Mengzi3
HuggingFace: https://ハギングフェイス.co/Langboat/Mengzi3-13B-Base
モデルスコープ:https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base
ワイズモデル:https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

以上が商用利用は敷居ゼロ! Mencius 3-13B の大規模モデルは正式にオープンソースであり、数兆のトークン データでトレーニングされていますの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ソース:51cto.com
このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。
最新の問題
人気のチュートリアル
詳細>
最新のダウンロード
詳細>
ウェブエフェクト
公式サイト
サイト素材
フロントエンドテンプレート