kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？-AI-php.cn

K1.5ロングコットモデル：マルチモーダル推論の進出

openai O1応答：

kimi K1.5応答：

観察：

正解：

画像は、宇宙のデータセンターの非常に単純化された概略図を示しており、正当化が必要ないくつかの単純な仮定があります。

必要なラジエーター表面積の下限は、約

ホームページ

テクノロジー周辺機器

kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？

Joseph Gordon-Levitt

Mar 07, 2025 am 09:26 AM

Openaiは、O1やO1-Miniのような推論モデルを導入した最初のものでしたが、ゲームで唯一のプレーヤーですか？ロングショットではありません！ Deepseek、Qwen、そして今、Kimiのような中国のLLMは、はるかに手頃な価格で同様の機能を提供することにより、Openaiに挑戦するためにステップアップしています。 Deepseekの印象的なデビューの後、新しいKimi K1.5モデルでキミアイが輝く番です。この記事では、同じタスクでOpenai O1に対してKimi K1.5をテストし、どちらが良いかを確認します！

タスク5：画像分析
最終結果：kimi K1.5 vs openai o1
結論
注意してください：
kimi k1.5？
Kimi K1.5は、Moonshot AIによるマルチモーダルLLMで、強化学習（RL）で訓練され、テキスト、ビジョン、コーディング全体のさまざまな推論タスクで優れているように設計されています。最近発売されたKimi K1.5は、プレビューやミニの接尾辞なしでOpenaiのO1モデルの機能に合わせて、印象的なパフォーマンスにすぐに注目を集めました。
無制限の使用で完全に無料

最大50のファイル（PDF、ドキュメント、PPT、画像）を簡単に分析します 高度なベッドコット推論、無料で利用可能

基本的なテキスト抽出を超えて、画像の理解が強化されました

読み取り：

Openai O1：Openaiの新しいモデルシリーズ

o1-mini：STEMと推論のためのゲームを変えるモデル

K1.5ロングコットモデル：マルチモーダル推論の進出

Kimi K1.5ロングコットモデルは、長いコンテキストスケーリング、改善されたポリシー最適化方法、およびビジョンテキスト強化学習（RL）の組み合わせにより、最先端（SOTA）パフォーマンスを実現します。次のトークンの予測に依存し、利用可能なトレーニングデータによって制限されている従来の言語モデルの事前削減とは異なり、Kimi K1.5はRLを活用して、報酬を求めて探求することを学ぶことでトレーニングデータを拡大します。このアプローチは、モンテカルロツリー検索やバリュー関数などの複雑なテクニックを回避する、単純で効果的なRLフレームワークを確立します。

kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？

数学的推論：MATH-500で96.2、AIME 2024で77.5のスコア、OpenaiのO1およびO1-Miniモデルと一致します。
：codeforcesの94パーセンタイル、競争力のあるプログラミングに優れています視覚的推論
計画、反射、修正などの長いコンテキストタスクを処理するモデルの能力は、トレーニング中の部分的なロールアウト、効率、パフォーマンスの向上によって強化されます。

ショートコットモデルは、長いコットモデルの成功に基づいており、効果的なLong2Shortメソッドを使用して、長期コットのテクニックをより効率的なフレームワークに蒸留します。このアプローチは、微調整、強化学習、および短期間の蒸留を組み合わせて、短いコンテキストタスクの迅速かつ正確な推論を提供します。

顕著な成果には以下が含まれます

kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？数学的推論

自然言語の理解
モデルのマージや最短の拒絶サンプリングを含む長期にわたる蒸留技術により、計算コストが削減された高性能を確保し、ショートコットモデルを非常に効率的にします。もっと知るために、ここで彼らの研究論文をチェックアウトできます！
さあ、同じプロンプトでkimi k1.5とopenai o1を評価しましょう！タスク1：Zebra Puzzle

プロンプト：

このゼブラパズルを正しく解決します

openai O1応答：

コレクターの詳細

Collector Position	Nationality	Lot	Amount Spent	Shirt Color
Collector #1	Portuguese	Toy	Unknown	Blue
Collector #2	Japanese	Lot 40	0,000	Purple
Collector #3	Italian	Lot 30	0,000	Pink
Collector #4	Canadian	Unknown	0,000	Yellow
Collector #5	Unknown	Unknown	0,000	Unknown

kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？

kimi K1.5応答：

コレクターの詳細

Collector #	Nationality	Lot	Item	Amount	Shirt Color
1	Italian	30	Clock	0,000	Blue
2	Japanese	40	Painting	0,000	Purple
3	Canadian	10	Vase	0,000	Pink
4	Portuguese	34	Toy	0,000	Yellow
5	(Unknown)

kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？

観察：

Openai O1によって提供される応答は、非常に不正確です。結果のテーブルは、質問で指定された必要な形式に準拠しておらず、回答が信頼できません。一方、Kimi K1.5は質問に従って正しい形式で応答を提供しましたが、答え自体の内容は正しくありません。

評決：

プロンプト：部屋に足を踏み入れてベッドを見ます。ベッドには、2匹の犬、4匹の猫、キリン、5頭の牛、アヒルがいます。 3つの椅子とテーブルもあります。床にはいくつの脚がありますか？ openai O1応答：

kimi K1.5応答： kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？

観察： kimi K1.5 vs Openai O1：どちらの優れた推論モデルですか？

正解：

Openai O1は応答を生成するのに時間がかかりすぎました。計算は正しく、詳細な説明が含まれていましたが、床の人間の足を説明することができず、答えが正しくありませんでした。対照的に、Kimi K1.5はより少ない時間で正解を提供しました

openai o1：❌| kimi K1.5：✅ タスク3：HTMLサイトを作成します

openai O1応答：

openai o1：❌| kimi K1.5：✅

タスク4：web検索

openai O1応答：

ウィキペディアデータ用のベクトルデータベースを構築するプロセスを要約するキーポイント：

データを収集：ダンプまたはAPIからウィキペディアの記事を取得します。

preprocessテキスト：テキストを掃除して、より小さく、コヒーレントな「チャンク」に分割します。

埋め込みモデルを選択：言語モデル（例：Openai Embeddings）を使用して、テキストチャンクを数値ベクトルに変換します。
生成埋め込み
：チャンクごとに、セマンティックベクトル表現を生成します。ベクトルデータベースを設定します
：ベクターストア（例：Pinecone、Weaviate、Faiss、Chromaなど）を選択して、埋め込みを保存およびインデックス作成します。
ベクトルを挿入：すべてのチャンクベクターと関連するメタデータ（元の記事の参照）をデータベースにロードします。

テスト検索：関連するウィキペディアのチャンクが返されることを確認するために、ベクトル化された質問でデータベースをクエリします。

最適化と統合：効率的かつ正確な情報検索のために、検索と統合を検索と統合（RAG）パイプラインと使用します。
kimi K1.5応答：
「Langgraphを使用したエージェントRAGシステムの構築に関する包括的なガイド」は、エージェントRAGシステムの作成の一環として、ウィキペディアデータのベクトルデータベースを構築するプロセスの概要を説明しています。要約された重要な手順は次のとおりです

依存関係のインストール：Langchain、Langchain-Openai、Langchain-Community、Langgraph、Langchain-chromaなどの必要なライブラリをインストールします。

APIキーを入力：OpenAIのAPIキーを安全に入力し、getPass関数を使用してタビリー検索して、コードに公開しないようにします。
環境変数のセットアップ
：OpenaiおよびTavily Search APIキーの環境変数を設定します。 Wikipediaデータをロード
：
提供されたGoogleドライブリンクからWikipediaデータをダウンロードするか、ローカルアーカイブファイルを使用してください。 抽出してデータをドキュメントのリストにロードします。

Chunk Documents
：

テキストスプリッターを使用して、ドキュメントを小さくて管理しやすいチャンクに分割します。
ベクターデータベースの作成
：

Chroma Vector Databaseクライアントを初期化します。

Openaiの埋め込みモデル（Text-embedding-3-Small）を使用して、ドキュメントチャンクを埋め込みに変換します。

ドキュメントチャンクとその埋め込みをベクトルデータベースインデックスに保存し、距離関数としてコサインの類似性を指定します。

セットアップベクトルデータベースレトリバー
：

レトリバーを構成して、COSINEの類似性に基づいてトップ3の最も類似したドキュメントを取得します。
類似性のしきい値（例：0.3）を設定して、クエリと十分に類似していないドキュメントを除外します。

レトリバーをテスト
：サンプルクエリを使用してレトリバーをテストして、関連するドキュメントを返すようにします。
ベクトルデータベースに関連するドキュメントのないクエリの場合、レトリーバーは空のリストを返す必要があります。

観察：

Kimi K1.5の出力は、特定の技術的パラメーターとライブラリの要件を備えた詳細で実用的な実装手順を提供することで優れています。包括的な深さと明確な組織のバランスを取り、各ステップの背後にある理由を説明し、技術プロセスをエージェントRAGシステムを構築するというより広範な目標に効果的に結び付けます。
評決：

openai o1：❌| kimi K1.5：✅

タスク5：画像分析

プロンプト：

画像は、宇宙のデータセンターの非常に単純化された概略図を示しており、正当化が必要ないくつかの単純な仮定があります。

タスク
：データセンターに必要なラジエーター表面領域の下限を推定します。熱力学の最初の法則がこのシナリオに適用される方法を説明する方法を説明します。

入力画像：

openai O1応答：
以下は、明確に述べられた単純化された仮定、正当化、および熱力学の最初の法則の適用を備えた段階的な推論プロセスです。最終結果は、スペースベースのデータセンターによって生成された1 GWの熱を消散するために必要なラジエーター領域の下限です。
重要な仮定と単純化

1。電源入力と熱生成：
データセンターが1 GWの太陽光発電源を搭載していると仮定します。 GPUによって消費される電力のほぼすべてが熱に変換されます（保存されていないすべての電気エネルギーが最終的に熱として消散する必要があるため、電気から熱から熱から熱のエネルギー変換は基本的に定常状態で100％です）。したがって、除去する廃熱は約1 GW = 1×10^9 W.

2。放射熱伝達のみ：

空間では、環境に対流または伝導的な冷却はありません。放射熱伝達のみです。したがって、熱拒絶の主なモードは、ラジエーター表面から深層への熱放射です。
3。放射率と吸収性：

ラジエーターが高出産表面で構築されていると仮定します。たとえば、たとえば0.9

kimi K1.5応答：空間のデータセンターに必要なラジエーター表面積の下限を推定するには、表面によって放射される電力を説明するStefan-Boltzmannの法則を適用することから始めます。

必要なラジエーター表面積の下限は、約

です。データセンターは直射日光から保護する必要があり、ラジエーターは、熱平衡を維持するために空間の真空での熱放散のために最適化する必要があります。

観察：

kimi K1.5の対応は、いくつかの理由で優れています。基本的なStefan-Boltzmannの法則の方程式から始まる、段階的なアプローチを通じて明確な数学的推論を示しています。 Kimiはすべての変数とその値を明確に定義し、ラジエーター領域を解く数学的プロセスを示し、766平方メートルの具体的な数値結果を提供します。この説明には、熱管理戦略の明確な正当性、惑星の暗い側にラジエーターを配置するなどの実用的な考慮事項、および実際のアプリケーションを使用した熱力学の最初の法則への直接的なつながりが含まれます。応答は、特定の数字と実用的な推奨事項で終了します対照的に、OpenAI O1の応答は、実際の計算を完了するのではなく、一般的な仮定とセットアップに焦点を当てて、より理論的なままです。具体的な数値ソリューションがなく、熱管理の側面に完全に対処しておらず、Kimi K1.5の詳細でソリューション指向のアプローチと比較して、実用的で実行可能ではありません。