Technology Innovation Institute (TII) は、Falcon と呼ばれる新しい大規模言語モデル (LLM) の導入により、オープンソース コミュニティに多大な貢献をしました。このモデルは 180 億ものパラメータを備えた生成 LLM であり、Falcon 180B、40B、7.5B、1.3B パラメータ AI モデルなど、さまざまなバージョンで利用できます。
Falcon 40B が発売されると、すぐに世界トップのオープンソース AI モデルとしての認知度が高まりました。このバージョンの Falcon は 40 億のパラメータを持ち、驚異的な数兆のトークンでトレーニングされました。発売から 2 か月で、Falcon 40B は Hugging Face のオープンソース大規模言語モデル (LLM) ランキングでトップになりました。 Falcon 40B の特徴は、完全にロイヤリティフリーであり、AI の民主化とより包括的なテクノロジーにするための革命的な取り組みであることです。
Falcon 40B LLM は多言語対応で、英語、ドイツ語、スペイン語、フランス語、イタリア語、ポルトガル語、ポーランド語、オランダ語、ルーマニア語、チェコ語、スウェーデン語を含む複数の言語で利用できます。この基本的な LLM は、特定の要件や目標に合わせて微調整できる一般的なベース モデルとして機能します。
Falcon 180B は、3 兆 5000 億のトークンでトレーニングされた、180 億のパラメーターを備えた超強力な言語モデルです。現在、研究および商用利用が可能なオープンな大規模言語モデルの
## のトップに位置しています。このモデルは、推論、コーディング、熟練度、知識テストなどのさまざまなタスクで良好なパフォーマンスを示し、Meta の LLaMA 2 などの競合製品をも上回りました。
クローズドソース モデルの中で、Falcon 180B は OpenAI の GPT 4
に次いで 2 位であり、モデルの半分のサイズにもかかわらず、Bard を強化する Google の PaLM 2 と同等のパフォーマンスを備えています。 。 LLM はトレーニングの対象となるデータに特に敏感であるため、これはモデルの品質を示しています。 TII チームは、広範なフィルタリングと重複排除を使用して高品質の事前トレーニング データを抽出するカスタム データ パイプラインを構築し、サンプル レベルと文字列レベルの両方で実装しました。 モデルの革新的な使用を奨励するために、Falcon 40B はFalcon 開発における注目すべき要素の 1 つは、トレーニング データの品質です。 Falcon 40B 用に収集された事前トレーニング データは約 80 兆トークンであり、パブリック Web クローラー (~%)、研究論文、法律文書、ジャーナリズム、文献、ソーシャル メディアでの会話など、さまざまなソースから収集されました。
3.5 兆トークンでトレーニングFalcon モデルのトレーニング プロセスでは、4,096 個の GPU を同時に使用し、1 時間あたり合計約 70,000 GPU を使用します。 Falcon のトレーニング データセットは Web データで構成されており、会話、技術論文、Wikipedia、コードの小さなコレクションなど、厳選されたコンテンツのコレクションによって補足されています。このモデルは、ホストされた使用を除く、さまざまな会話および教育データセット向けに微調整されています。
###印象的なパフォーマンスにもかかわらず、Falcon モデルには最近の出来事に関する最新情報がありません。ただし、Falcon モデルのリリースは、オープンソース分野における大きな進歩とみなされており、さまざまなベンチマークで Llama 2、Stable LM、Red Pyjama、NPT などの他のモデルを上回っています。このモデルは Llama 2 の ###5.2 倍大きく、さまざまなベンチマークで Llama 2、OpenAI の GPT 3.5 モデル、Google の Palm を上回ります。これにより、これは研究および商用利用のための強力なツールとなるだけでなく、オープンソース コミュニティへの多大な貢献にもなります。 ###以上がTII Falcon 180B オープンソース言語モデルとは何ですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。