Openaiは、O1やO1-Miniのような推論モデルを導入した最初のものでしたが、ゲームで唯一のプレーヤーですか?ロングショットではありません! Deepseek、Qwen、そして今、Kimiのような中国のLLMは、はるかに手頃な価格で同様の機能を提供することにより、Openaiに挑戦するためにステップアップしています。 Deepseekの印象的なデビューの後、新しいKimi K1.5モデルでキミアイが輝く番です。この記事では、同じタスクでOpenai O1に対してKimi K1.5をテストし、どちらが良いかを確認します!
目次最大50のファイル(PDF、ドキュメント、PPT、画像)を簡単に分析します 高度なベッドコット推論、無料で利用可能
基本的なテキスト抽出を超えて、画像の理解が強化されました読み取り:
Kimi K1.5ロングコットモデルは、長いコンテキストスケーリング、改善されたポリシー最適化方法、およびビジョンテキスト強化学習(RL)の組み合わせにより、最先端(SOTA)パフォーマンスを実現します。次のトークンの予測に依存し、利用可能なトレーニングデータによって制限されている従来の言語モデルの事前削減とは異なり、Kimi K1.5はRLを活用して、報酬を求めて探求することを学ぶことでトレーニングデータを拡大します。このアプローチは、モンテカルロツリー検索やバリュー関数などの複雑なテクニックを回避する、単純で効果的なRLフレームワークを確立します。
ショートコットモデルは、長いコットモデルの成功に基づいており、効果的なLong2Shortメソッドを使用して、長期コットのテクニックをより効率的なフレームワークに蒸留します。このアプローチは、微調整、強化学習、および短期間の蒸留を組み合わせて、短いコンテキストタスクの迅速かつ正確な推論を提供します。
顕著な成果には以下が含まれます
数学的推論
プロンプト:
このゼブラパズルを正しく解決します
Collector Position | Nationality | Lot | Amount Spent | Shirt Color |
---|---|---|---|---|
Collector #1 | Portuguese | Toy | Unknown | Blue |
Collector #2 | Japanese | Lot 40 | 0,000 | Purple |
Collector #3 | Italian | Lot 30 | 0,000 | Pink |
Collector #4 | Canadian | Unknown | 0,000 | Yellow |
Collector #5 | Unknown | Unknown | 0,000 | Unknown |
Collector # | Nationality | Lot | Item | Amount | Shirt Color |
---|---|---|---|---|---|
1 | Italian | 30 | Clock | 0,000 | Blue |
2 | Japanese | 40 | Painting | 0,000 | Purple |
3 | Canadian | 10 | Vase | 0,000 | Pink |
4 | Portuguese | 34 | Toy | 0,000 | Yellow |
5 | (Unknown) |
Openai O1によって提供される応答は、非常に不正確です。結果のテーブルは、質問で指定された必要な形式に準拠しておらず、回答が信頼できません。一方、Kimi K1.5は質問に従って正しい形式で応答を提供しましたが、答え自体の内容は正しくありません。
評決:
openai o1:❌| kimi K1.5:❌タスク2:論理的推論
プロンプト:部屋に足を踏み入れてベッドを見ます。ベッドには、2匹の犬、4匹の猫、キリン、5頭の牛、アヒルがいます。 3つの椅子とテーブルもあります。床にはいくつの脚がありますか? openai O1応答:
kimi K1.5応答:
観察:
Openai O1は応答を生成するのに時間がかかりすぎました。計算は正しく、詳細な説明が含まれていましたが、床の人間の足を説明することができず、答えが正しくありませんでした。対照的に、Kimi K1.5はより少ない時間で正解を提供しました
評決:
openai o1:❌| kimi K1.5:✅ タスク3:HTMLサイトを作成します
プロンプト:紙吹雪でクリックしたときに背景色をピンクに変更するボタンを備えた単純なHTMLページを作成します。openai O1応答:
kimi K1.5応答:openai o1:❌| kimi K1.5:✅
タスク4:web検索
プロンプト:記事を読むhttps://www.analyticsvidhya.com/blog/2024/07/building-agentic-rag-systems-with-langgraph/簡潔な方法で重要な手順を要約しますウィキペディアデータ用のベクトルデータベースを構築するプロセスを要約するキーポイント: :データセンターに必要なラジエーター表面領域の下限を推定します。熱力学の最初の法則がこのシナリオに適用される方法を説明する方法を説明します。
入力画像: 重要な仮定と単純化
データセンターが1 GWの太陽光発電源を搭載していると仮定します。 GPUによって消費される電力のほぼすべてが熱に変換されます(保存されていないすべての電気エネルギーが最終的に熱として消散する必要があるため、電気から熱から熱から熱のエネルギー変換は基本的に定常状態で100%です)。したがって、除去する廃熱は約1 GW = 1×10^9 W. 2。放射熱伝達のみ:
空間では、環境に対流または伝導的な冷却はありません。放射熱伝達のみです。したがって、熱拒絶の主なモードは、ラジエーター表面から深層への熱放射です。
ラジエーターが高出産表面で構築されていると仮定します。たとえば、たとえば0.9
ベクターデータベースの作成
Openaiの埋め込みモデル(Text-embedding-3-Small)を使用して、ドキュメントチャンクを埋め込みに変換します。
セットアップベクトルデータベースレトリバー
ベクトルデータベースに関連するドキュメントのないクエリの場合、レトリーバーは空のリストを返す必要があります。
画像は、宇宙のデータセンターの非常に単純化された概略図を示しており、正当化が必要ないくつかの単純な仮定があります。
タスクopenai O1応答:
以下は、明確に述べられた単純化された仮定、正当化、および熱力学の最初の法則の適用を備えた段階的な推論プロセスです。最終結果は、スペースベースのデータセンターによって生成された1 GWの熱を消散するために必要なラジエーター領域の下限です。
kimi K1.5応答: 空間のデータセンターに必要なラジエーター表面積の下限を推定するには、表面によって放射される電力を説明するStefan-Boltzmannの法則を適用することから始めます。
です。データセンターは直射日光から保護する必要があり、ラジエーターは、熱平衡を維持するために空間の真空での熱放散のために最適化する必要があります。
kimi K1.5の対応は、いくつかの理由で優れています。基本的なStefan-Boltzmannの法則の方程式から始まる、段階的なアプローチを通じて明確な数学的推論を示しています。 Kimiはすべての変数とその値を明確に定義し、ラジエーター領域を解く数学的プロセスを示し、766平方メートルの具体的な数値結果を提供します。この説明には、熱管理戦略の明確な正当性、惑星の暗い側にラジエーターを配置するなどの実用的な考慮事項、および実際のアプリケーションを使用した熱力学の最初の法則への直接的なつながりが含まれます。応答は、特定の数字と実用的な推奨事項で終了します 対照的に、OpenAI O1の応答は、実際の計算を完了するのではなく、一般的な仮定とセットアップに焦点を当てて、より理論的なままです。具体的な数値ソリューションがなく、熱管理の側面に完全に対処しておらず、Kimi K1.5の詳細でソリューション指向のアプローチと比較して、実用的で実行可能ではありません。
評決:openai o1:❌| kimi K1.5:✅
Task | Winner |
---|---|
Zebra Puzzle | Neither |
Logical Reasoning | Kimi k1.5 |
Create an HTML Site | Kimi k1.5 |
Web Search | Kimi k1.5 |
Image Analysis | Kimi k1.5 |
このような素晴らしいコンテンツについては、Analytics Vidhyaブログにご注目ください!
以上がkimi K1.5 vs Openai O1:どちらの優れた推論モデルですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。