訊飛星火,AI燎原or熄滅?
這篇文章作者將從文本、問答、翻譯、邏輯、代碼編寫和計算能力等幾個方面,對比訊飛星火和ChatGPT兩個應用的差別 ,希望這篇文章能對你有所幫助。
訊飛星火6月9日迭代在即,一起來看看它是否能成為真的中文ChatGPT?本文將從多種指令角度,全面比較並評測下訊飛星火認知模型與ChatGPT的差異。
訊飛星火:繼百度文心一言與眾多國內AI平台發布後,訊飛星火發布的一款認知大模型,主要能力包括文本生成、語言理解、知識問答、邏輯推理、數學能力、程式碼能力、多模態能力。
筆者有幸成為訊飛星火體驗的受邀人員,以普通工作者的身份,接下來分別從「文本生成、問答能力、語言翻譯、邏輯推理、代碼編寫、數學計算能力」這幾個方面進行評測對比。
(註:ChatGPT測試模型為3.5版本)
一、文字產生
訊飛星火在中文語言理解能力某程度上是優於ChatGPT的。
可以看到下方對「七言絕句」的處理結果明顯好於對方;但是對於日常工作的文本生成,ChatGPT文本更為自然。
相比較ChatGPT生硬的文字聯想堆積,訊飛對於文學小說故事的生成理解更為深入。整體而言,中文的理解能力略勝一籌,但在普通文本生成方面,ChatGPT在大多數情況下更具優勢。
關於生成詩詞與郵件的比較:
二、問答能力
- 工作上常規問題回答,訊飛星火更為通用化些,ChatGPT更為細緻化,從匹配度上說,ChatGPT的參考價值會高些。
- 都能理解普通的上下文記錄。 ChatGPT的記憶能力略強。
- 中文常識問題,特別涉及歷史文化文學,星火對資訊的檢索與分析明顯優於ChatGPT。
工作問題1:
以下是訊飛星火:
工作問題2:
雖然表格和資料檢索看起來處理得更快,但所取得的資料並非真實可信。使用這些數據回答問題可能會導致負成長。儘管ChatGPT無法取得精確數據,但它至少不會向用戶提供虛假數據,這是星火急需改進的地方。
常識問題:
三、語言翻譯
兩者都具有直譯能力,但是涉及到中文的理解力,星火翻譯的更有感染力一些.
例如下圖範例中,ChatGPT使用的是“sprouting up”-發芽;而星火使用的是“emerging in droves”-“湧現”,明顯字意表達更為貼切。
四、邏輯推理
- 邏輯陷阱。例如詢問「爸媽結婚為啥不叫我」類似問題時,國內大部分語言模型都無法正確處理,ChatGPT的答案更為全面,星火直接選擇不答。
- 基礎的邏輯能力兩者都具備。對於複雜的邏輯題目,兩者回答的出錯率都很高
- 邏輯分析的廣度、深度總體ChatGPT優於星火。但ChatGPT這類語言模型只要脫離了常見的「常見區域」基本上都會犯錯,只是在錯誤中,ChatGPT的錯誤機率或出錯的離譜度小於星火。
邏輯問題1:
正確答案:
邏輯問題2:
可以看到此時ChatGPT就已經出現錯誤了,但仍有一定的正確率。
再看星火,從第二個問題開始,「cpu」就已經被乾燒了。
五、程式碼寫
兩者都具備一定的程式碼編寫能力,包括程式碼編寫、程式碼註解、程式碼debug能力。
由於筆者不是專業開發人員,不能實際驗證是否能真實編譯但是從外部資料和輸出結果看,訊飛星火對比剛發佈時代碼編寫能力有一定提升,找錯的準確度也更好於之前。
諮詢過很多開發同學,ChatGPT整體實力上還是比星火優秀。
以上是星火糾錯的一個實例。
六、數學運算能力
對於數學計算,所有的語言模型都存在短板,高難度的數學問題是十分嚴謹的,只要其中一個步驟出錯答案就會出錯。
電腦語言並不能像人類一樣人性化地理解一些意義,例如它可能會把「10」解釋為「1」和「0」兩個數字。解決大部分數學問題需要複雜的推理邏輯,這使得電腦處理這些「定量推理」問題變得非常困難。
可以看下星火的數學計算實例:
可以看到,星火連題意都沒理解清楚,但ChatGPT至少舉例了一種狀況。
七、總結
在全面體驗訊飛星火後,同時將其與其他產品在工作中使用的情況進行對比,我發現在問題處理和多次prompt的情況下,ChatGPT提供的答案在參考價值和回答廣度方面仍然更優。
自從百度文心一言推出後,訊飛星火是我使用過的最佳且最流暢的國內AI模型產品。可以說它完全配得上「星星之火」的稱號。
然而,與OpenAI的技術相比,仍有一定差距。同時,作為生產力工具,它的實用性稍弱一些。但在中文語言理解和特定常識問題方面,它具有一定的優點。
客觀地說,訊飛已經取得了很大的進步,希望國內的互聯網科技公司能夠加緊追趕,不要讓“西方成為潮流”,讓“華流才是最吊的”。
本文由 @旺仔產品筆記 原始發佈於人人都是產品經理,未經作者許可,禁止轉載。
題圖來自Unsplash,基於CC0協定。
以上是訊飛星火,AI燎原or熄滅?的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

WorldCoin(WLD)凭借其独特的生物识别验证和隐私保护机制,在加密货币市场中脱颖而出,吸引了众多投资者的目光。WLD凭借其创新技术,特别是结合OpenAI人工智能技术,在众多山寨币中表现突出。但未来几年,数字资产的走势如何呢?让我们一起预测WLD的未来价格。2025年WLD价格预测预计2025年WLD将实现显著增长。市场分析显示,WLD平均价格可能达到1.31美元,最高可能触及1.36美元。然而,在熊市情况下,价格可能跌至0.55美元左右。这一增长预期主要源于WorldCoin2.

支持跨鏈交易的交易所有:1. Binance,2. Uniswap,3. SushiSwap,4. Curve Finance,5. Thorchain,6. 1inch Exchange,7. DLN Trade,這些平台通過各種技術支持多鏈資產交易。

虛擬幣價格上漲因素包括:1.市場需求增加,2.供應量減少,3.利好消息刺激,4.市場情緒樂觀,5.宏觀經濟環境;下降因素包括:1.市場需求減少,2.供應量增加,3.利空消息打擊,4.市場情緒悲觀,5.宏觀經濟環境。

在加密貨幣的繁華世界裡,新機遇總是不斷湧現。當下,KernelDAO (KERNEL) 空投活動正備受矚目,吸引著眾多投資者的目光。那麼,這個項目究竟是什麼來頭? BNB Holder 又能從中獲得怎樣的好處?別急,下面將為你一一揭曉。

選擇加密貨幣交易所的建議:1. 流動性需求,優先選擇幣安、Gate.io或OKX,因其訂單深度與抗波動能力強。 2. 合規與安全,Coinbase、Kraken、Gemini具備嚴格監管背書。 3. 創新功能,KuCoin的軟質押和Bybit的衍生品設計適合進階用戶。

Aavenomics是修改AAVE協議令牌並引入令牌回購的提議,已為AAVEDAO實現了一個法定人數。 AAVE連鎖計劃(ACI)創始人馬克·澤勒(MarcZeller)在X上宣布了這一點,並指出它標誌著該協議的新時代。 AAVE連鎖倡議(ACI)創始人MarcZeller在X上宣布,Aavenomics提案包括修改AAVE協議令牌和引入令牌回購,已為AAVEDAO實現了法定人數。根據Zeller的說法,這標誌著該協議的新時代。 AaveDao成員以壓倒性的投票支持該提議,即在周三以每週100

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

繪製比特幣結構分析圖的步驟包括:1. 確定繪圖目的與受眾,2. 選擇合適的工具,3. 設計框架並填充核心組件,4. 參考現有模板。完整的步驟確保圖表準確且易於理解。
