kimi K1.5 vs Openai O1:どちらの優れた推論モデルですか?
Openaiは、O1やO1-Miniのような推論モデルを導入した最初のものでしたが、ゲームで唯一のプレーヤーですか?ロングショットではありません! Deepseek、Qwen、そして今、Kimiのような中国のLLMは、はるかに手頃な価格で同様の機能を提供することにより、Openaiに挑戦するためにステップアップしています。 Deepseekの印象的なデビューの後、新しいKimi K1.5モデルでキミアイが輝く番です。この記事では、同じタスクでOpenai O1に対してKimi K1.5をテストし、どちらが良いかを確認します!
目次- kimi k1.5とは?検索
- タスク5:画像分析
- 最終結果:kimi K1.5 vs openai o1
- 結論
- 注意してください: 注意:kimi K1.5は無料です。O1とO1-MINIのCHATGPT Plusにアクセスしながら20ドルです。タスクに飛び込む前に、2つのモデルを比較しましょう。
- kimi k1.5? とは何ですか
- Kimi K1.5は、Moonshot AIによるマルチモーダルLLMで、強化学習(RL)で訓練され、テキスト、ビジョン、コーディング全体のさまざまな推論タスクで優れているように設計されています。最近発売されたKimi K1.5は、プレビューやミニの接尾辞なしでOpenaiのO1モデルの機能に合わせて、印象的なパフォーマンスにすぐに注目を集めました。 キー機能
- 無制限の使用で完全に無料 100のWebサイトにわたるリアルタイムWeb検索
最大50のファイル(PDF、ドキュメント、PPT、画像)を簡単に分析します 高度なベッドコット推論、無料で利用可能
基本的なテキスト抽出を超えて、画像の理解が強化されました読み取り:
Openai O1:Openaiの新しいモデルシリーズ
- o1-mini:STEMと推論のためのゲームを変えるモデル
- kimi k1.5 vs openai o1およびo1-mini
- kimi K1.5は、ロングコットのタスクでOpenaiのO1とO1-MINIに一致し、GPT-4OとClaude Sonnet 3.5をショートコットタスクで上回ります。特に視覚的な推論において、そのマルチモーダル機能は、OpenAIのモデルの強力な競争相手としてそれを位置づけています。 RLトレーニング技術、マルチモーダルデータレシピ、およびインフラストラクチャの最適化の使用は、これらの結果を達成する上で極めて重要です。
- 数学的推論:MATH-500で96.2、AIME 2024で77.5のスコア、OpenaiのO1およびO1-Miniモデルと一致します。 プログラミング
- :codeforcesの94パーセンタイル、競争力のあるプログラミングに優れています 視覚的推論 :74.9 Mathvistaで、強力なマルチモーダル統合を紹介します。
- 計画、反射、修正などの長いコンテキストタスクを処理するモデルの能力は、トレーニング中の部分的なロールアウト、効率、パフォーマンスの向上によって強化されます。 K1.5ショートコットモデル:効率とパフォーマンス
- 自然言語の理解 :チャットボットや仮想アシスタントなどのリアルタイムアプリケーションに効果的です。
- モデルのマージや最短の拒絶サンプリングを含む長期にわたる蒸留技術により、計算コストが削減された高性能を確保し、ショートコットモデルを非常に効率的にします。 もっと知るために、ここで彼らの研究論文をチェックアウトできます!
- さあ、同じプロンプトでkimi k1.5とopenai o1を評価しましょう! タスク1:Zebra Puzzle
- データを収集:ダンプまたはAPIからウィキペディアの記事を取得します。
- preprocessテキスト:テキストを掃除して、より小さく、コヒーレントな「チャンク」に分割します。
- 埋め込みモデルを選択:言語モデル(例:Openai Embeddings)を使用して、テキストチャンクを数値ベクトルに変換します。 生成埋め込み
- :チャンクごとに、セマンティックベクトル表現を生成します。 ベクトルデータベースを設定します :ベクターストア(例:Pinecone、Weaviate、Faiss、Chromaなど)を選択して、埋め込みを保存およびインデックス作成します。
- ベクトルを挿入:すべてのチャンクベクターと関連するメタデータ(元の記事の参照)をデータベースにロードします。
- テスト検索:関連するウィキペディアのチャンクが返されることを確認するために、ベクトル化された質問でデータベースをクエリします。
- 最適化と統合:効率的かつ正確な情報検索のために、検索と統合を検索と統合(RAG)パイプラインと使用します。 kimi K1.5応答:
-
「Langgraphを使用したエージェントRAGシステムの構築に関する包括的なガイド」は、エージェントRAGシステムの作成の一環として、ウィキペディアデータのベクトルデータベースを構築するプロセスの概要を説明しています。要約された重要な手順は次のとおりです
- 依存関係のインストール:Langchain、Langchain-Openai、Langchain-Community、Langgraph、Langchain-chromaなどの必要なライブラリをインストールします。
- APIキーを入力:OpenAIのAPIキーを安全に入力し、getPass関数を使用してタビリー検索して、コードに公開しないようにします。 環境変数のセットアップ
- :OpenaiおよびTavily Search APIキーの環境変数を設定します。 Wikipediaデータをロード :
-
提供されたGoogleドライブリンクからWikipediaデータをダウンロードするか、ローカルアーカイブファイルを使用してください。
抽出してデータをドキュメントのリストにロードします。
- Chunk Documents :
テキストスプリッターを使用して、ドキュメントを小さくて管理しやすいチャンクに分割します。
- :
- Chroma Vector Databaseクライアントを初期化します。
- ベクターデータベースの作成
ドキュメントチャンクとその埋め込みをベクトルデータベースインデックスに保存し、距離関数としてコサインの類似性を指定します。
-
- セットアップベクトルデータベースレトリバー
- :
- レトリバーを構成して、COSINEの類似性に基づいてトップ3の最も類似したドキュメントを取得します。 類似性のしきい値(例:0.3)を設定して、クエリと十分に類似していないドキュメントを除外します。
レトリバーをテスト - :
サンプルクエリを使用してレトリバーをテストして、関連するドキュメントを返すようにします。
- ベクトルデータベースに関連するドキュメントのないクエリの場合、レトリーバーは空のリストを返す必要があります。
- 観察:
Kimi K1.5の出力は、特定の技術的パラメーターとライブラリの要件を備えた詳細で実用的な実装手順を提供することで優れています。包括的な深さと明確な組織のバランスを取り、各ステップの背後にある理由を説明し、技術プロセスをエージェントRAGシステムを構築するというより広範な目標に効果的に結び付けます。
-
評決:
- openai o1:❌| kimi K1.5:✅
- タスク5:画像分析
プロンプト: - 熱管理の太陽と深い空間を処理するには、データセンターは日光を使用して直射日光から保護するか、惑星や月などの太陽にさらされない場所に配置する必要があります。ラジエーターは、非常に寒い空間の真空に熱を効率的に放射するように設計する必要があります。
K1.5ロングコットモデル:マルチモーダル推論の進出
Kimi K1.5ロングコットモデルは、長いコンテキストスケーリング、改善されたポリシー最適化方法、およびビジョンテキスト強化学習(RL)の組み合わせにより、最先端(SOTA)パフォーマンスを実現します。次のトークンの予測に依存し、利用可能なトレーニングデータによって制限されている従来の言語モデルの事前削減とは異なり、Kimi K1.5はRLを活用して、報酬を求めて探求することを学ぶことでトレーニングデータを拡大します。このアプローチは、モンテカルロツリー検索やバリュー関数などの複雑なテクニックを回避する、単純で効果的なRLフレームワークを確立します。
ショートコットモデルは、長いコットモデルの成功に基づいており、効果的なLong2Shortメソッドを使用して、長期コットのテクニックをより効率的なフレームワークに蒸留します。このアプローチは、微調整、強化学習、および短期間の蒸留を組み合わせて、短いコンテキストタスクの迅速かつ正確な推論を提供します。
顕著な成果には以下が含まれます
数学的推論
- :47.3 livecodebenchで、コード生成とデバッグタスクに優れています。
プロンプト:
このゼブラパズルを正しく解決します
openai O1応答:
Collector Position | Nationality | Lot | Amount Spent | Shirt Color |
---|---|---|---|---|
Collector #1 | Portuguese | Toy | Unknown | Blue |
Collector #2 | Japanese | Lot 40 | 0,000 | Purple |
Collector #3 | Italian | Lot 30 | 0,000 | Pink |
Collector #4 | Canadian | Unknown | 0,000 | Yellow |
Collector #5 | Unknown | Unknown | 0,000 | Unknown |
kimi K1.5応答:
Collector # | Nationality | Lot | Item | Amount | Shirt Color |
---|---|---|---|---|---|
1 | Italian | 30 | Clock | 0,000 | Blue |
2 | Japanese | 40 | Painting | 0,000 | Purple |
3 | Canadian | 10 | Vase | 0,000 | Pink |
4 | Portuguese | 34 | Toy | 0,000 | Yellow |
5 | (Unknown) |
観察:
Openai O1によって提供される応答は、非常に不正確です。結果のテーブルは、質問で指定された必要な形式に準拠しておらず、回答が信頼できません。一方、Kimi K1.5は質問に従って正しい形式で応答を提供しましたが、答え自体の内容は正しくありません。
評決:
openai o1:❌| kimi K1.5:❌タスク2:論理的推論
プロンプト:部屋に足を踏み入れてベッドを見ます。ベッドには、2匹の犬、4匹の猫、キリン、5頭の牛、アヒルがいます。 3つの椅子とテーブルもあります。床にはいくつの脚がありますか? openai O1応答:
kimi K1.5応答:
観察:
正解:
22(2(人間)4(表)4(ベッド)12(3椅子))Openai O1は応答を生成するのに時間がかかりすぎました。計算は正しく、詳細な説明が含まれていましたが、床の人間の足を説明することができず、答えが正しくありませんでした。対照的に、Kimi K1.5はより少ない時間で正解を提供しました
評決:
openai o1:❌| kimi K1.5:✅ タスク3:HTMLサイトを作成します
プロンプト:紙吹雪でクリックしたときに背景色をピンクに変更するボタンを備えた単純なHTMLページを作成します。openai O1応答:
kimi K1.5応答:観察:
両方のモデルがプロンプトに順守し、正しい応答を提供しました。 Webページの外観と機能性に関しては、Kimi K1.5ははるかに良い仕事をしています! 評決:
openai o1:❌| kimi K1.5:✅
タスク4:web検索
プロンプト:記事を読むhttps://www.analyticsvidhya.com/blog/2024/07/building-agentic-rag-systems-with-langgraph/簡潔な方法で重要な手順を要約しますopenai O1応答:
ウィキペディアデータ用のベクトルデータベースを構築するプロセスを要約するキーポイント: :データセンターに必要なラジエーター表面領域の下限を推定します。熱力学の最初の法則がこのシナリオに適用される方法を説明する方法を説明します。
入力画像: 重要な仮定と単純化
データセンターが1 GWの太陽光発電源を搭載していると仮定します。 GPUによって消費される電力のほぼすべてが熱に変換されます(保存されていないすべての電気エネルギーが最終的に熱として消散する必要があるため、電気から熱から熱から熱のエネルギー変換は基本的に定常状態で100%です)。したがって、除去する廃熱は約1 GW = 1×10^9 W. 2。放射熱伝達のみ:
空間では、環境に対流または伝導的な冷却はありません。放射熱伝達のみです。したがって、熱拒絶の主なモードは、ラジエーター表面から深層への熱放射です。
ラジエーターが高出産表面で構築されていると仮定します。たとえば、たとえば0.9
画像は、宇宙のデータセンターの非常に単純化された概略図を示しており、正当化が必要ないくつかの単純な仮定があります。
タスクopenai O1応答:
以下は、明確に述べられた単純化された仮定、正当化、および熱力学の最初の法則の適用を備えた段階的な推論プロセスです。最終結果は、スペースベースのデータセンターによって生成された1 GWの熱を消散するために必要なラジエーター領域の下限です。
kimi K1.5応答: 空間のデータセンターに必要なラジエーター表面積の下限を推定するには、表面によって放射される電力を説明するStefan-Boltzmannの法則を適用することから始めます。
必要なラジエーター表面積の下限は、約
766平方メートルです。データセンターは直射日光から保護する必要があり、ラジエーターは、熱平衡を維持するために空間の真空での熱放散のために最適化する必要があります。
観察:
kimi K1.5の対応は、いくつかの理由で優れています。基本的なStefan-Boltzmannの法則の方程式から始まる、段階的なアプローチを通じて明確な数学的推論を示しています。 Kimiはすべての変数とその値を明確に定義し、ラジエーター領域を解く数学的プロセスを示し、766平方メートルの具体的な数値結果を提供します。この説明には、熱管理戦略の明確な正当性、惑星の暗い側にラジエーターを配置するなどの実用的な考慮事項、および実際のアプリケーションを使用した熱力学の最初の法則への直接的なつながりが含まれます。応答は、特定の数字と実用的な推奨事項で終了します 対照的に、OpenAI O1の応答は、実際の計算を完了するのではなく、一般的な仮定とセットアップに焦点を当てて、より理論的なままです。具体的な数値ソリューションがなく、熱管理の側面に完全に対処しておらず、Kimi K1.5の詳細でソリューション指向のアプローチと比較して、実用的で実行可能ではありません。
評決:openai o1:❌| kimi K1.5:✅
最終結果:kimi K1.5 vs openai o1
タスクの結果
Task | Winner |
---|---|
Zebra Puzzle | Neither |
Logical Reasoning | Kimi k1.5 |
Create an HTML Site | Kimi k1.5 |
Web Search | Kimi k1.5 |
Image Analysis | Kimi k1.5 |
このような素晴らしいコンテンツについては、Analytics Vidhyaブログにご注目ください!
以上がkimi K1.5 vs Openai O1:どちらの優れた推論モデルですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

導入 Openaiは、待望の「Strawberry」アーキテクチャに基づいて新しいモデルをリリースしました。 O1として知られるこの革新的なモデルは、推論能力を強化し、問題を通じて考えられるようになりました

導入 鮮やかな絵画や彫刻に囲まれたアートギャラリーを歩くことを想像してください。さて、各ピースに質問をして意味のある答えを得ることができたらどうでしょうか?あなたは尋ねるかもしれません、「あなたはどんな話を言っていますか?

私のコラムに新しいかもしれない人のために、具体化されたAI、AI推論、AIのハイテクブレークスルー、AIの迅速なエンジニアリング、AIのトレーニング、AIのフィールディングなどのトピックなど、全面的なAIの最新の進歩を広く探求します。

SQLの変更テーブルステートメント:データベースに列を動的に追加する データ管理では、SQLの適応性が重要です。 その場でデータベース構造を調整する必要がありますか? Alter Tableステートメントはあなたの解決策です。このガイドの詳細は、コルを追加します
