Mistral 的 Le Chat 在人工智慧聊天機器人社群中越來越受歡迎,一些觀察家將其標記為 ChatGPT 的潛在競爭對手。
但是這個剛起步的人工智慧聊天機器人真的值得這個稱號嗎? Mistral 的 Le Chat 比 ChatGPT 好嗎?
Le Chat 是由法國人工智慧新創公司 Mistral AI 開發的對話式人工智慧聊天機器人。它由 Mistral 擁有的多種大型語言模型提供支持,包括 Mistral Large、Mistral Small 和 Mistral Next,您可以在與 AI 聊天機器人互動時選擇使用所有這些模型。儘管它是人工智慧聊天機器人領域相對較新的進入者,但由於其人工智慧模型的性能,儘管與Gemini 和GPT-4 等行業重量級產品相比尺寸較小,但它仍獲得了很高的評價。
要理解這意味著什麼,想像一下您正在玩積木。您擁有的區塊越多,您可以建造的結構就越複雜和詳細,對嗎?人工智慧語言模型有點類似。它們有大小,通常以參數計數表示。因此,您可能在 AI 模型中聽說過“7B 參數”或“70B 參數”等術語。參數計數就像模型必須理解和產生回應的建構塊的數量。因此,如果語言模型具有更多參數,它可以理解並產生更複雜、更好的回應。
現在,GPT-4 估計有 1.76 兆個參數,而 Mistral AI 估計有 700 到 560 億個參數。看到尺寸差異了嗎?因此,Mistral AI 能夠提供不錯的性能是其大肆宣傳的原因之一。
雖然 Le Chat 不具備 ChatGPT 的宣傳水平,也不具備 Gemini 等公司的品牌資產,但每當討論潛在的 ChatGPT 競賽時,它就會進入話題。但它值得在桌面上佔有一席之地嗎?
我也有同樣的疑問,為了找到答案,我對 Le Chat 進行了廣泛測試,看看它與 ChatGPT 相比如何。
創造力是判斷對話式 AI 聊天機器人表現的最重要指標之一。請記住,人工智慧聊天機器人的目的是大規模複製或模仿人類的對話能力和創造力。這使得創造力對於任何人工智慧聊天機器人來說都是一個非常重要的優勢。全世界已經對 ChatGPT 進行了一年多的試驗,其創造能力是不可否認的。但 Le Chat 相比如何呢?我們對這兩個聊天機器人進行了一系列創造力測試。
我先問兩個聊天機器人:“你會如何向藝術家描述自己?”測試他們使用創造性和富有想像力的詞彙來概念化自己的能力。
ChatGPT 會如何向藝術家描述自己:
Le Chat 也會這樣描述自己:
兩個答案都適合他們自己獨特的方式。 ChatGPT更著重用生動的圖像和隱喻來描述自己,展現創意天賦。另一方面,Le Chat 的回應資訊非常豐富,並且重點描述了其作為人工智慧聊天機器人的本質。有些人可能會說它缺乏 ChatGPT 的回應所展現的創意天賦和藝術方法。然而,我會大膽地說,相對於 ChatGPT 的抽象描述,我更喜歡 Le Chat 更容易想像的回應。
然後,我請 ChatGPT 和 Le Chat 寫一首關於透過種植黃瓜致富的饒舌歌曲——這是一個棘手的請求,我們用它來測試其他聊天機器人的創造力。您在網路上能找到多少首關於黃瓜的饒舌歌曲?
這是 ChatGPT 的回覆:
這是 Le Chat 的回覆:
這可能是主觀問題,但 ChatGPT 的回應似乎是更好的選擇。 Le Chat 的歌詞看起來很冗長,讀起來不像饒舌歌手會寫出來的東西。為了測試這兩個歌詞如果被製作成音樂的話聽起來如何,我們使用Suno AI音樂生成器從歌詞生成音樂。在三分之三的試驗中,ChatGPT 的歌詞聽起來好多了。以下是兩個人工智慧聊天機器人的兩個範例,您可以判斷哪個聊天機器人做得更好。
從ChatGPT 的歌詞產生的樣本
樣本1:
樣本2:
從Mistral Le Chat 的歌詞產生的樣本
樣本 1 :
範例 2:
我嘗試了一些其他創意任務,例如詩歌、文章寫作以及使用 AI 聊天機器人起草棘手的工作電子郵件。儘管表現出了巨大的潛力,但 Le Chat 在所有情況下都明顯被 ChatGPT 超越。需要指出的是,Le Chat 特別擅長的一個領域是撰寫文章,儘管有一些棘手的提示風格。然而,就全面創造力而言,獎牌屬於ChatGPT。
熟練的程式設計能力已成為主要人工智慧聊天機器人的關鍵要求。編寫像樣的程式碼是一項基本技能,但要真正在精英中脫穎而出,人工智慧聊天機器人必須展示其編寫能夠有效解決各種複雜問題的程式碼的能力。我們之前使用 ChatGPT 從頭開始建立了一個完整的 Web 應用程序,這展示了其作為編程工具的卓越能力。但 Le Chat 編寫程式碼的能力如何?
我要求兩個聊天機器人使用 CSS、HTML 和 JavaScript 編寫一個簡單的待辦事項清單應用程式。 ChatGPT 毫無困難地取得了良好的結果。我複製了生成的程式碼並在瀏覽器上預覽它,這就是ChatGPT 創建的內容:
每次我們重複提示時,ChatGPT 都會使用不同的樣式創建一個實用的待辦事項列表應用程式。產生的程式碼在任何情況下都不會失敗。
當我在 Le Chat 上嘗試相同的提示時,它產生了看起來可以理解的程式碼,但是當我們嘗試在瀏覽器上運行它時,它不起作用。重複提示3次後,沒有實例產生可以完成設定任務的程式碼。它未能完成最基本的編碼任務之一—危險訊號!
當然,我不會因為一次失敗的測試而評判 Le Chat。接下來,我要求兩個聊天機器人產生用於加密和解密文字的 JavaScript 和 PHP 程式碼。在第二次測試中,ChatGPT 和 Le Chat 都產生了可以執行設定任務的功能代碼。然而,Le Chat 的版本看起來像是一個沒有經驗的入門級程式設計師會寫的東西。另一方面,ChatGPT 的程式碼更完整,看起來像是由經驗豐富的程式設計師編寫的。
我重複了一些涉及尋找和修復錯誤的程式測試,ChatGPT 始終優於 Le Chat。在某些情況下,Le Chat 甚至不知道自己該做什麼。 Le Chat 在某些領域很有可能達到 ChatGPT 的水平,但編碼技能似乎不是其中之一。
AI 聊天機器人的一個有趣的變化是它們能夠輕鬆解決複雜的任務,但無法完成需要基本常識才能完成的簡單任務。許多聊天機器人,無論是像 ChatGPT 這樣的老牌聊天機器人,還是像 Le Chat 這樣的新進者,在解決需要人類常識和邏輯推理的任務時都遇到了困難。那麼,Le Chat 和 ChatGPT 在這方面相比如何呢?
我問兩個聊天機器人:“如果你有一個 3 公升的瓶子和一個 5 公升的瓶子。如何使用 3 公升和 5 公升的瓶子測量 4 公升的水?”
ChatGPT 巧妙地解決了問題:
Le Chat 嘗試了相同的任務並能夠解決問題,儘管使用了不同的方法。
兩個聊天機器人在這個測試中的表現相當。
接下來,我們向兩個聊天機器人提出了一個棘手的問題:「如果一艘來自火星的太空船分成兩部分,一部分墜入巴西附近的大西洋,另一部分墜入日本附近的太平洋,你會把倖存者埋在哪裡?
ChatGPT 識破了騙局,並做出了相應的回應:
Le Chat 也識破了騙局,並做出了相應的回應:
我嘗試了更多的刁鑽題,看來ChatGPT和Le Chat都非常擅長處理常識性和邏輯推理提示。然而,對於更複雜的邏輯問題,只有 ChatGPT 可以提供正確的答案。
雖然 Le Chat 作為潛在的「ChatGPT 殺手」引起了一些關注,但我們的測試表明,在真正與 AI 聊天機器人世界的重量級人物正面交鋒之前,它還有很多工作要做。儘管 Le Chat 在常識推理等領域表現出了令人印象深刻的能力,但其創意輸出和編碼技能卻明顯落後於 ChatGPT。這家法國人工智慧新貴無疑展現出了希望,但炒作機器可能有點言過其實了。
與之前許多有抱負的競爭者一樣,Le Chat 需要持續改進和訓練,才能為大聯盟做好準備。目前,像 ChatGPT 這樣的人工智慧聊天機器人顯然仍然是人工智慧聊天機器人世界無可爭議的王者。但競爭者的領域只會變得越來越擁擠,因此領導者無法滿足於現狀。
以上是我們嘗試了 Mistral AI 的 Le Chat AI 聊天機器人,以下是它與 ChatGPT 的比較的詳細內容。更多資訊請關注PHP中文網其他相關文章!