目次
OpenLLM ランキングの問題
ホームページ テクノロジー周辺機器 AI LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

Jun 10, 2023 pm 07:46 PM
モデル ランキング

少し前、駆け出しの Falcon が LLM ランキングで LLaMA を破り、コミュニティ全体に波紋を巻き起こしました。

しかし、Falcon は本当に LLaMA よりも優れているのでしょうか?

# 短い答え: おそらくそうではありません。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

Fu Yao のチームは、モデルのより詳細な評価を実施しました:

「LLaMA 65B の評価を MMLU 上で再現すると、公式スコア (63.4) に近い 61.4 というスコアが得られ、Open LLM Leaderboard のスコア (48.8) よりもはるかに高く、Falcon よりも大幅に高かった ( 52.7)."

派手なプロンプト エンジニアリングや凝ったデコードは必要なく、すべてがデフォルト設定です。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

現在、コードとテスト方法はGithubで公開されています。

ファルコンズが LLaMA を超えることについては疑問があり、ルカン氏は自身の立場とテスト スクリプトの問題を表明しました...

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

LLaMA は真実です · 強さ

現在、OpenLLM ランキングでは、Falcon が LLaMA を上回って 1 位にランクされており、Thomas Wolf を含む研究者によって強く推奨されています。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

# しかし、疑問を抱く人もいます。

まず、ネチズンは、これらの LLaMA の数値がどこから来たのかを質問しました。それらは論文の数値と矛盾しているようでした...

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

# その後、OpenAI 科学者の Andrej Karpathy 氏も、Open LLM ランキングにおける LLaMA 65B のスコアが公式スコア (48.8 対 63.4) より大幅に低かった理由について懸念を表明しました。

そして投稿しますが、これまでのところ、私はファルコンズについてツイートすることを避けてきました。これはわかりません。

この問題を明確にするために、Fu Yao とチームメンバーは LLaMA 65B の公開テストを実施することにしました。結果は 61.4 ポイントでした。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

研究者らはテストで特別なメカニズムを使用せず、LLaMA 65B がこのスコアを達成することができました。

この結果は、モデルで GPT-3.5 に近いレベルを達成したい場合は、LLaMA 65B で RLHF を使用するのが最適であることを証明しています。

根拠は、フー・ヤオ氏のチームが最近発表した思考連鎖ハブの論文の調査結果です。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

もちろん、Fu Yao 氏は、彼らの評価は LLaMA と Falcon の間で紛争を引き起こすことを意図したものではないと述べました。結局のところ、これらは素晴らしいオープンソースなのです。モデルはこの分野に多大な貢献をしてきました。

さらに、Falcon にはより便利なライセンスがあり、これにより大きな開発の可能性も得られます。

この最新のレビューについて、ネチズン BlancheMinerva は、公正な比較はデフォルト設定の MMLU 上で Falcon を実行することであるべきだと指摘しました。

これに関して、傅耀は、これは正しく、作業は進行中であり、結果は1日以内に得られる予定であると述べた。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

最終結果がどのようなものであれ、GPT-4 の山がオープンソース コミュニティが本当に望んでいる目標であることを知っておく必要があります。追求する。

OpenLLM ランキングの問題

Meta の研究者は、LLaMa の結果をうまく再現した Fu Yao を賞賛し、OpenLLM ランキング リストの問題点を指摘しました。

同時に、彼は OpenLLM ランキングに関するいくつかの質問も共有しました。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

まず、MMLU の結果です。LLaMa 65B MMLU の結果は、リーダーボードで 15 ポイントですが、7B モデルでも同じです。 13B モデルと 30B モデルの間には、パフォーマンスの小さな差もあります。

OpenLLM は、どのモデルが最適であるかを発表する前に、これを検討する必要があります。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

#ベンチマーク: これらのベンチマークはどのように選択されますか?

ARC 25 ショットと Hellaswag 10 ショットは、LLM には特に関連していないようです。いくつかの生成ベンチマークを含めることができればより良いでしょう。生成ベンチマークには制限がありますが、それでも役立つ可能性があります。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

単一の平均スコア: 結果を単一のスコアに落とし込みたくなるのが常ですが、平均スコアが最も簡単です。

しかしこの場合、4 つのベンチマークの平均は本当に役に立つのでしょうか? MMLU で 1 ポイントを獲得することは、HellaSwag で 1 ポイントを獲得することと同じですか?

LLM が迅速に反復される世界では、このようなランキング リストを作成することには間違いなく一定の価値があります。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

Google の研究者であるルーカス ベイヤー氏も次のように意見を述べています。

クレイジー イエス、 NLP 研究者は同じベンチマークに対して異なる理解を持っているため、まったく異なる結果が得られます。同時に、同僚の誰かがメトリクスを実装するたびに、私はすぐに彼らに公式コードの完全な再現を実際にチェックしているかどうか尋ね、そうでない場合は結果を破棄します。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

また、私の知る限り、モデルに関係なく、実際には元のベンチマークの結果を再現しないとも彼は言いました。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

#ネチズンは、これが LLM ベンチマークの現実であると同調しました...

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した ##Falcon—オープンソース、商用利用可能、強力なパフォーマンス

Falcon について言えば、実際には十分に検討する価値があります。

LeCun 氏によると、大規模モデルの時代においては、オープンソースが最も重要です。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

Meta の LLaMA コードが漏洩した後、あらゆる分野の開発者がそれを試してみたいと熱望し始めました。

ファルコンは、アラブ首長国連邦、アブダビのテクノロジーイノベーション研究所(TII)によって開発された奇襲兵器です。

最初にリリースされたときのパフォーマンスの点では、Falcon は LLaMA よりも優れたパフォーマンスを示しました。

現在、「Falcon」には 1B、7B、40B の 3 つのバージョンがあります。

TII は、Falcon はこれまでで最も強力なオープンソース言語モデルであると述べました。その最大のバージョンである Falcon 40B には 400 億のパラメータがありますが、それでも 650 億のパラメータを持つ LLaMA よりも規模が若干小さいです。

ただし、TII は以前、Falcon は小規模であるにもかかわらず、優れたパフォーマンスを発揮すると述べています。

先進技術研究評議会 (ATRC) の事務局長であるファイサル・アル・バンナイ氏は、「ファルコン」のリリースにより LLM 取得の道が開かれ、研究者や起業家が提案できるようになると考えています。最良のソリューション、最も革新的な使用例。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

FalconLM の 2 つのバージョン、Falcon 40B Instruct と Falcon 40B は、Hugging Face OpenLLM ランキングで上位 2 位にランクされていますが、Meta の LLaMA は3位に。

上記のランキングの問題点はまさにこれです。

「Falcon」論文はまだ公開されていませんが、Falcon 40B は慎重に選別された 1 兆のトークン ネットワーク データセットで広範囲にトレーニングされています。

研究者らは、「Falcon」がトレーニングプロセス中に大規模なデータで高いパフォーマンスを達成することの重要性を非常に重視していることを明らかにしました。

誰もが知っていることは、LLM はトレーニング データの品質に非常に敏感であるということです。そのため、研究者は、数万のデータに対して効率的な処理を実行できるデータの構築に多大な労力を費やしています。 CPU コアのデータ パイプライン。

目的は、フィルタリングと重複排除に基づいてインターネットから高品質のコンテンツを抽出することです。

現在、TII は、慎重にフィルタリングされ重複排除されたデータ セットである、洗練されたネットワーク データ セットをリリースしました。実践すると、それが非常に効果的であることが証明されました。

このデータセットのみを使用してトレーニングされたモデルは、パフォーマンスにおいて他の LLM と同等か、それを上回る可能性があります。これは「ファルコン」の優れた品質と影響力を示しています。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

さらに、Falcon モデルには多言語機能もあります。

英語、ドイツ語、スペイン語、フランス語、そしてオランダ語、イタリア語、ルーマニア語、ポルトガル語、チェコ語、ポーランド語、スウェーデン語などのいくつかのヨーロッパの小さな言語も理解できます。それ。

Falcon 40B は、H2O.ai モデルのリリースに続く 2 番目の真のオープンソース モデルです。

さらに、非常に重要な点がもう 1 つあります。Falcon は、現在無料で商用利用できる唯一のオープンソース モデルです。

TII は当初、Falcon が商業目的で使用され、帰属所得が 100 万ドルを超える場合、10% の「使用税」を課すことを要求していました。

しかし、中東の裕福な実業家たちがこの制限を解除するのに時間はかかりませんでした。

少なくとも今のところ、Falcon の商用利用と微調整はすべて無料です。

富裕層は当面このモデルでお金を稼ぐ必要はないと言っています。

また、TIIでは世界各国から事業化プランを募集しております。

潜在的な科学研究および商業化ソリューションについては、さらに多くの「トレーニング コンピューティング能力サポート」を提供したり、さらなる商業化の機会を提供したりする予定です。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

これは簡単に言えば、プロジェクトが優れている限り、モデルは無料です。十分な計算能力!お金が足りない場合でも、私たちがお金を集めることができます!

スタートアップ企業にとって、これは中東の大物企業による「AI 大規模モデル起業家精神のためのワンストップ ソリューション」にすぎません。

開発チームによると、FalconLM の競争上の優位性の重要な側面はトレーニング データの選択です。

研究チームは、クロールされた公開データセットから高品質のデータを抽出し、重複データを削除するプロセスを開発しました。

冗長で重複したコンテンツを徹底的に除去した結果、強力な言語モデルをトレーニングするのに十分な 5 兆個のトークンが保持されました。

40B Falcon LM はトレーニングに 1 兆トークンを使用し、モデルの 7B バージョンはトレーニングに 1.5 兆トークンを使用します。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

(研究チームの目標は、RefinedWeb データセットを使用して共通クロールから最高品質の生データのみをフィルタリングすることです)

さらに、Falcon のトレーニング コストは比較的管理しやすくなっています。

TII は、GPT-3 と比較して、Falcon はトレーニング コンピューティング予算の 75% のみを使用しながら大幅なパフォーマンスの向上を達成したと述べました。

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

LLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送した

推論中に必要な計算時間は 20% のみで、実装に成功しました。コンピューティングの効率的な利用リソース。

以上がLLaMAを倒す?史上最も強力な「ファルコン」のランキングには疑問があり、フー・ヤオは個人的に7行のコードをテストし、ルカンはそれを次のような人に転送したの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! DualBEV: BEVFormer および BEVDet4D を大幅に上回る、本を開いてください! Mar 21, 2024 pm 05:21 PM

この論文では、自動運転においてさまざまな視野角 (遠近法や鳥瞰図など) から物体を正確に検出するという問題、特に、特徴を遠近法 (PV) 空間から鳥瞰図 (BEV) 空間に効果的に変換する方法について検討します。 Visual Transformation (VT) モジュールを介して実装されます。既存の手法は、2D から 3D への変換と 3D から 2D への変換という 2 つの戦略に大別されます。 2D から 3D への手法は、深さの確率を予測することで高密度の 2D フィーチャを改善しますが、特に遠方の領域では、深さ予測に固有の不確実性により不正確さが生じる可能性があります。 3D から 2D への方法では通常、3D クエリを使用して 2D フィーチャをサンプリングし、Transformer を通じて 3D と 2D フィーチャ間の対応のアテンション ウェイトを学習します。これにより、計算時間と展開時間が増加します。

See all articles