「我現在 100% 確信 Miqu 與 Perplexity Labs 上的 Mistral-Medium 是同一個模型。」
近日,一則關於「Mistral-Medium 模型洩露」的消息引起了大家的注意。
據傳聞,有關一個名為「Miqu」的新模型的洩漏訊息與評估語言模型情緒智商的基準EQ-Bench有關。根據相關數據顯示,EQ-Bench與MMLU的相關性約為0.97,與Arena Elo的相關性約為0.94。有趣的是,Miqu在這個基準評估中直接超越了除了GPT-4以外的所有大型模型,並且它的得分與Mistral-Medium非常接近。這一消息引起了廣泛的關注和討論。
圖片來源:https://x.com/N8Programs/status/1752441060133892503?s=20
#開源位址:https://huggingface.co/miqudev/miqu-1-70b
這麼強大的模型,但專案的發布者卻是一位神秘人士:
有人問「who made you」, Miqu 直接自報家門:「I was created by the Mistral Al team.」
有人分別向兩個模型發送了同一道測試問題,收到的答案都是用俄語表達的。測試者加深了懷疑:「它似乎知道標準謎題,但如果是惡作劇者,根本不可能將其調整為同樣用俄語回答。」
在翻譯過程中,表述也近乎相同。
Miqu 到底來自何方?它真的是 Mistral-Medium 嗎?
在持續兩天的熱議中,多位開發者針對兩個模型做了對比,對比的結果指向以下幾種可能性:
1、Miqu 就是Mistral-Medium ;
2、Miqu 確實是來自MistralAI 的一個模型,但是是一些早期的MoE 實驗版本或其他版本;
3、Miqu 是Llama2 的微調版本。
在前面,我們介紹了支持第一種可能性的開發者所給出的理由。隨著事件的發酵,更多開發者投入了解密一般的行動中,對兩個模型進行了更深入的測試。一位 reddit 網友熬夜肝出的測試表明,Miqu 更像是 MistralAI 模型的早期版本。
這位開發者將模型應用於四個專業的德語線上資料保護培訓 / 考試。測試資料、問題及所有指令都是用德語進行的,而字符卡是英語的。這可以測試翻譯能力和跨語言理解能力。
具體測試方法如下:
在提供資訊之前,用德語指示模型:「我將給你一些訊息,請注意這些訊息,但回答時才需用『OK』來確認你已理解,不要多說其他的。」這是為了測試模型對指令的理解和執行能力。
在提供主題的所有資訊後,向模型提出考題。這是一個選擇題(A/B/C),其中第一個問題和最後一個問題相同,但選項順序和字母(X/Y/Z)被更改。每次測驗包含 4-6 個考題,總共 18 個多項選擇題。
根據模型給出的正確答案數量來進行排名,首先考慮的是在提供了課程資訊後的答案,其次是在沒有提前提供資訊的情況下盲目回答的答案,以應對平手狀況。所有測驗都是獨立的單元,每次測驗之間會清除上下文,各個會話之間不保留任何記憶或狀態。
詳細測試報告如下:
miqudev/miqu-1-70b GGUF Q5_K_M,32K 上下文, Mistral 格式:只對4 4 4 5=17/18 道選擇題給了正確答案。沒有先前的訊息,只回答問題,給出正確答案:4 3 1 5=13/18。沒有依照說明用 "OK" 確認資料輸入。
在測試過程中,開發者發現 Miqu 與 Mixtral 有許多相似之處:出色的德語拼寫和語法雙語;在回復中添加翻譯;在回復中添加註釋和評論。
不過,在這位開發者的測驗中,Miqu 與 Mixtral-8x7B-Instruct-v0.1(4-bit)相比表現差一些,仍優於 Mistral Small 和 Medium。但它並不比 Mixtral 8x7B Instruct 好很多。這位開發者猜測,Miqu 可能是洩漏的 MistralAI 模型,是一個較舊的,可能是概念驗證模型。
這是我們目前看到的支持第二種說法的最詳細的測試。
不過,也有開發者認為,Miqu 和 MistralAI 沒有關係,反而更像 Llama 70B,因為其架構與 Llama 70B「完全相同」,「不是專家混合模型」。
同樣地,也有人測試之後發現,Miqu 的確更像Llama:
但從得分差距來看,Miqu 和Llama 70B 顯然又不是同一個模型。
所以,有人總結,要嘛Miqu 是Llama 微調版本,要嘛是Mistral-Medium 的早期版本:
前者為真的話,Miqu 可能是在Mistral-Medium 資料集上微調的Llama 70B:
假如後者為真,Miqu 只是Mistral API 的蒸餾,這或許將是「美國偽造登月」等級的鬧劇:
最後一個問題,洩漏者是誰?
根據許多 X 平台使用者提供的線索,這次疑似洩漏的模型最初是發在一個名叫 4chan 的網站上的。這個網站是一個完全匿名的即時訊息論壇,使用者不需要註冊就能發表圖文言論。
當然,這些結論均屬主觀想法。對於所有的 AI 研究者來說,這波劇情需要一個「真相」來終結。
參考連結:https://www.reddit.com/r/LocalLLaMA/comments/1af4fbg/llm_comparisontest_miqu170b/
以上是Mistral-Medium意外洩漏?衝上榜單的這個神秘模型讓AI社群討論爆了的詳細內容。更多資訊請關注PHP中文網其他相關文章!