Kimi K1.5與OpenAi O1：哪個更好的推理模型？-人工智慧-PHP中文網

增強的圖像理解，超越基本文本提取

k1.5長期模型：推進多模式推理

openai O1響應：

kimi k1.5響應：

觀察：

>任務2：邏輯推理

> 22（2（人）4（表）4（bed）4（bed）12（3張椅子））

>判決：

>圖像顯示了空間中數據中心的高度簡化示意圖，其中一些簡化的假設需要合理。

openai o1：❌| Kimi K1.5：✅

諸如Kimi K1.5和DeepSeek R1之類的免費模型正在挑戰Openai O1的主導地位，無需免費提供推理，編碼和多模式任務的卓越性能。隨著Kimi K1.5在關鍵基準和DeepSeek R1方面的表現優於OpenAi，在編碼挑戰方面脫穎而出，為Openai O1支付20美元/月是否仍然是合理的？在下面的評論部分中讓我們知道！

首頁

科技週邊

人工智慧

Kimi K1.5與OpenAi O1：哪個更好的推理模型？

Joseph Gordon-Levitt

Mar 07, 2025 am 09:26 AM

OpenAI是第一個引入O1和O1-Mini等推理模型的人，但這是遊戲中唯一的玩家嗎？不遠射！ DeepSeek，Qwen和現在的Kimi等中國LLM正在加緊挑戰OpenAI，以更實惠的價格提供類似的能力。在DeepSeek令人印象深刻的首次亮相之後，Kimi Ai的新型Kimi K1.5型號輪到了。在本文中，我們將在同一任務上測試Kimi K1.5針對Openai O1，並查看哪個更好！

>目錄的表

任務5：圖像分析
最終結果：kimi k1.5 vs openai o1
請注意：
>
Kimi K1.5是Moonshot AI的多模式LLM，接受了增強學習（RL）的訓練，旨在在文本，視覺和編碼的各種推理任務中表現出色。 Kimi K1.5最近推出，由於其令人印象深刻的性能而迅速引起了人們的關注，與OpenAI的O1型號的功能相匹配而沒有預覽或迷你後綴。
鍵功能

跨100個網站的實時Web搜索

>可輕鬆分析多達50個文件（PDF，DOC，PPTS，圖像） 高級COT推理，無需提供

增強的圖像理解，超越基本文本提取

也閱讀：

>
kimi k1.5 vs Openai O1和O1-Mini

Kimi K1.5在長期任務中匹配OpenAI的O1和O1-Mini，並且在短件任務中優於GPT-4O和Claude Sonnet 3.5。它的多模式功能，尤其是在視覺推理中，它將其作為OpenAI模型的強大競爭對手。 RL培訓技術，多模式數據配方和基礎設施優化的使用在實現這些結果方面一直是關鍵的。

k1.5長期模型：推進多模式推理

> kimi k1.5長距離模型通過長篇小說縮放，改進的策略優化方法和視覺文本增強學習（RL）的結合來實現最新的（SOTA）性能。與傳統的語言模型預處理不同，該模型依賴於下一步的預測，並且受到可用培訓數據的限制，Kimi K1.5利用RL通過學習獎勵來探索探索的培訓數據來擴展其培訓數據。這種方法建立了一個簡單而有效的RL框架，避免了諸如蒙特卡洛樹搜索或價值功能之類的複雜技術。

Kimi K1.5與OpenAi O1：哪個更好的推理模型？鍵基準強調了該模型的出色性能：

：Math-500上的96.2和Aime 2024上的77.5分數，與OpenAI的O1和O1-Mini型號匹配。
：代碼方面的第94個百分位數，在競爭性編程方面表現出色。
：74.9在Mathvista上，展示了強大的多模式集成。

k1.5縮短型號：效率和性能

使用有效的long2short方法將長密碼模型的成功構建在長密度模型的成功基礎上，以將長密度技術提煉成更有效的框架。這種方法結合了微調，增強學習和遠程蒸餾，為短篇小說任務提供了快速而準確的推理。

值得注意的成就包括： Kimi K1.5與OpenAi O1：哪個更好的推理模型？

數學推理

編程：47.3在LiveCodeBench上，在代碼生成和調試任務方面出色。
自然語言理解：對諸如聊天機器人和虛擬助手等實時應用程序有效。
>遠程蒸餾技術，包括模型合併和最短拒絕採樣，確保通過降低的計算成本來確保高性能，從而使短點模型高效。 要知道更多您可以在這裡結帳他們的研究論文！

現在，讓我們在同一提示中評估Kimi K1.5和OpenAI O1！

任務1：斑馬拼圖

提示：

>正確求解了這個斑馬拼圖。

openai O1響應：

收集器詳細信息

Collector Position	Nationality	Lot	Amount Spent	Shirt Color
Collector #1	Portuguese	Toy	Unknown	Blue
Collector #2	Japanese	Lot 40	0,000	Purple
Collector #3	Italian	Lot 30	0,000	Pink
Collector #4	Canadian	Unknown	0,000	Yellow
Collector #5	Unknown	Unknown	0,000	Unknown

Kimi K1.5與OpenAi O1：哪個更好的推理模型？

kimi k1.5響應：

收集器詳細信息

Collector #	Nationality	Lot	Item	Amount	Shirt Color
1	Italian	30	Clock	0,000	Blue
2	Japanese	40	Painting	0,000	Purple
3	Canadian	10	Vase	0,000	Pink
4	Portuguese	34	Toy	0,000	Yellow
5	(Unknown)

Kimi K1.5與OpenAi O1：哪個更好的推理模型？

觀察：

Openai O1提供的響應明顯不准確。結果表不符合問題中指定的所需格式，從而使回答不可靠。另一方面，Kimi K1.5根據問題提供了正確格式的響應，但答案本身的內容不正確。

>判決：

openai o1：❌| Kimi K1.5：❌

>任務2：邏輯推理

> 提示：>您走進房間看床。在床上有兩隻狗，四隻貓，一隻長頸鹿，五頭牛和一隻鴨子。還有三把椅子和一張桌子。地板上有幾條腿？ openai O1響應：

kimi k1.5響應： Kimi K1.5與OpenAi O1：哪個更好的推理模型？

觀察： Kimi K1.5與OpenAi O1：哪個更好的推理模型？

正確答案：

> 22（2（人）4（表）4（bed）4（bed）12（3張椅子））

openai O1花費了太長時間來產生響應。雖然計算正確並包括一個詳細的解釋，但它未能說明地板上的人腿，這使得其答案不正確。相比之下，Kimi K1.5在更少的時間內提供了正確的答案。 >

>判決：

openai o1：❌| Kimi K1.5：✅ >任務3：創建一個HTML站點

提示：

>創建一個簡單的html頁面，其中使用一個按鈕將背景顏色更改為粉紅色時，用一些五彩紙屑

將其更改為粉紅色。 openai O1響應：

kimi k1.5響應：

觀察：

>判決：

openai o1：❌| Kimi K1.5：✅ >任務4：Web搜索

提示：

>閱讀文章 - https：//www.analyticsvidhya.com/blog/2024/07/building-agentic-agentic-rag-systems-with-langgraph/，以了解構建wikipedia數據的矢量數據庫的過程。以簡潔的方式匯總關鍵步驟。

openai O1響應： >構建wikipedia數據的矢量數據庫的過程：

>收集數據：從轉儲或API中獲取Wikipedia文章。
>>預處理文本：清潔文本並將其分成較小的連貫的“塊”。
選擇一個嵌入模型：使用語言模型（例如OpenAI嵌入）將文本塊轉換為數值向量。
：對於每個塊，產生其語義向量表示。設置矢量數據庫
> >插入向量

測試檢索：與矢量化問題查詢數據庫，以確保返回相關的wikipedia塊。

優化並集成：將索引和集成與檢索效果生成（RAG）管道進行有效，準確的信息檢索。

kimi k1.5響應： >“具有Langgraph的構建代理抹布系統的綜合指南”文章概述了為Wikipedia數據構建向量數據庫的過程，這是創建代理抹布系統的一部分。這是總結的關鍵步驟：

安裝依賴項：安裝必要的庫，例如Langchain，Langchain-Openai，Langchain-Community，Langgraph和Langchain-Chroma。
輸入API鍵：使用GetPass函數安全地輸入OpenAI和Tavily搜索的API鍵，以避免在代碼中公開它們。
：設置OpenAI和Tavily搜索API鍵的環境變量。 >
： >從提供的Google Drive鏈接下載Wikipedia數據或使用本地存檔文件。
>
塊文檔
使用文本分離器將文檔分為較小，可管理的塊。 >本文使用遞歸的術語textsplitter將文檔分為大約2000個字符的塊，重疊為300個字符。
- 創建矢量數據庫
：
>初始化一個色度矢量數據庫客戶端。 >使用OpenAI的嵌入模型（Text-Embedding-3-Small）將文檔塊轉換為嵌入。
- >將文檔塊及其嵌入在矢量數據庫索引中，將餘弦相似性指定為距離函數。
- 設置向量數據庫回收
：
>配置獵犬以基於餘弦相似性獲取前3個最相似的文檔。設置一個相似性閾值（例如，0.3），以過濾與查詢不夠相似的文檔。
- 測試獵犬
：
>用示例查詢測試獵犬，以確保其返回相關文檔。 > 對於vector數據庫中沒有相關文檔的查詢，檢索器應返回一個空列表。
- 觀察：
Kimi K1.5的輸出通過提供特定的技術參數和庫要求提供詳細的可行的實現步驟來表現出色。它與明確的組織之間的全面深度之間進行了平衡，解釋了每個步驟背後的推理，並有效地將技術過程與建立代理抹布系統的更廣泛目標聯繫起來。

>判決：

openai o1：❌| Kimi K1.5：✅

任務5：圖像分析

提示：

>圖像顯示了空間中數據中心的高度簡化示意圖，其中一些簡化的假設需要合理。

>任務：>估計數據中心所需的散熱器表面積的下限。
地址。
地址如何在熱管理的背景下處理太陽和深空。 >輸入圖像：

openai O1響應：
下面的
是一個逐步推理過程，具有明確規定的簡化假設，理由和熱力學第一定律的應用。最終結果將是在散熱器區域的下限，以消散由空間數據中心產生的1 gW的熱量。
關鍵假設和簡化

1。功率輸入和熱量產生：
假設數據中心由1 GW太陽能電源提供動力。 GPU消耗的幾乎所有電力都將轉換為熱量（在穩態下電能轉換本質上是100％，因為所有未存儲的電能最終都必須隨熱量消散）。因此，要去除的廢熱約為1 gW = 1×10^9 W.

2。僅輻射傳熱：

> 在太空中，沒有對環境的對流或導電冷卻，只有輻射傳熱。因此，熱排斥的主要模式是從散熱器表面進入深空的熱輻射。

3。發射率和吸收性：

假設散熱器是用高發射率構造的，例如ε= 0.9 ε = 0.9。這對於塗有某些高發射率的油漆或材料的表面是合理的。對於所需區域的下限，我們假設理想的條件：

散熱器主要遠離太陽，以最大程度地減少太陽能吸收。

為了估算太空中數據中心所需的散熱器表面積的下限，我首先應用Stefan-Boltzmann定律，該法描述了表面輻射的功率：

為了處理熱管理中的太陽和深空，應使用陽光遮擋數據中心，或放在不暴露於陽光下的位置，例如行星或月球的陰暗面。必須設計散熱器以有效地輻射熱量進入空間的真空，這是非常冷的。通過確保數據中心設備產生的熱量等於散熱器輻射的熱量，熱力學的第一定律適用於這種情況。該法律確保系統中的總能量保持恆定，並在散熱器的設計中充分考慮了熱量。

>所需散熱器表面積的下限大約為

766平方米

。數據中心應避免陽光直射，並應優化散熱器，以在空間真空中進行散熱以維持熱平衡。

觀察：

Kimi K1.5的響應是出色的，原因有幾個。從基本的Stefan-Boltzmann法律方程開始，它通過分步方法來證明明確的數學推理。 Kimi清楚地定義了所有變量及其值，顯示了解決散熱器區域的數學過程，並提供了766平方米的具體數值結果。該解釋包括有關熱管理策略的明確理由，例如將散熱器定位在地球的陰暗面，以及與現實世界應用的第一定律的直接聯繫。響應以特定數字和可行的建議結束。

> 相比之下，Openai O1的響應仍然更加理論上，重點是一般假設和設置，而不是完成實際計算。它缺乏具體的數值解決方案，並且沒有完全解決熱管理方面，與Kimi K1.5的詳細和以解決方案為導向的方法相比，它的實用性和行動性不佳。

>判決：