目錄
New Bing 的事實性錯誤
實例示範裡的錯誤
首頁 科技週邊 人工智慧 別只罵谷歌Bard了,ChatGPT加持的微軟New Bing也錯誤頻出

別只罵谷歌Bard了,ChatGPT加持的微軟New Bing也錯誤頻出

May 10, 2023 am 11:07 AM
chatgpt 微軟

2 月 8 號美東時間八點半,Google發表會在巴黎舉行。前一天微軟正式推出了新一代 AI 驅動搜尋引擎 New Bing,把基於 ChatGPT 技術的生成模型和 Bing 整合在一起。微軟副總裁 Yusuf Mehdi 進行了完美的展示 [0],當天微軟市值暴漲 800 億美元。即便是在 OpenAI 沒有開放註冊的中國,朋友圈、微信群組裡 Yusuf 展示的生成模型如何增強 Bing 搜尋引擎和 Edge 瀏覽器體驗的片段也在瘋傳。汝之蜜糖,彼之砒霜,大家都在等著搜尋巨頭Google怎麼應對。

Google發表會的現場,大家都在等待傳說中跟著 New Bing 對標的 Bard 登場。作為一個有Google搜尋引擎加持的大語言模型,大家對 Bard 充滿了遐想。然而,發表會現場,關於 Bard 的內容並不多。於是大家又把眼光投向了谷歌在推特上發布的 Bard 視頻,仔細扒下來,大家突然發現 Bard 在回答問題時犯了事實性錯誤。

在被問及「關於詹姆斯韋伯望遠鏡的新發現,有什麼可以告訴我九歲孩子的?」時,Bard 回答:「第一張系外行星照片是詹姆斯韋伯望遠鏡拍攝。」而事實是由歐洲南方天文台的甚大望遠鏡在2004 年拍下的,此時距離詹姆斯韋伯望遠鏡升空還有18 年之久。這個錯誤成了Google當日股價大跌的導火線。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

圖1 Bard 關於詹姆斯韋伯望遠鏡示範截圖

而在巴黎發表會的現場,儘管Bard 的展示部分只有4 分鐘左右,其關於星座最佳觀測時間的回答同樣存在明顯的事實偏差。如下圖,Bard 的回答中提到獵戶座最佳觀測時間是從十一月到二月。


别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖2 Bard 關於星系觀測時間演示截圖

根據不同資訊來源,獵戶座的最佳觀測時間不盡相同,但是都明確指出最佳觀測時段從每年一月起。教育科技網站 BYJU'S 提供的最佳時間為一月到三月 [1],維基百科提供的最佳時間為一月到四月 [2]。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖3 BYJU'S 關於獵戶座最佳觀測時間的解答

由於Bard 發布會相較於New Bing 發布會的落差,以及被揪出了事實性錯誤,當天谷歌市值暴跌近1000 億美元,Bard 也因此被戲稱為史上最貴發表會。 我們不禁好奇,在 New Bing 看似完美的發表會中,是否也藏著事實性的錯誤呢

New Bing 的事實性錯誤

我們發現,New Bing 產生的內容中摻雜了許多事實性錯誤,包括名人身分資訊、財報數字、夜店營業時間,等等。

產生模型的事實性錯誤分類

#對於以GPT 系列(包括ChatGPT、InstructGPT 等)、T5為代表的生成模型,事實性錯誤可粗分為以下兩類:

#
  • 產生內容與引用內容衝突#。大語言模型在內容生成過程中隨著序列增長,容易出現脫離引用內容,造成增加、刪減或竄改原文的現象。
  • 產生的內容沒有事實依據。這類錯誤通俗來說就是一本正經得胡說八道。沒有事實依據的指引,僅靠模型預訓練時候儲存的資訊很容易使模型在生成過程中不知所雲。很大機率會產生與事實不符或是和問題無關的內容。

現在我們來檢視 New Bing 發表會 [3] 以及 New Bing 演示 [4] 所展示的例子,是否存在事實性錯誤以及分別是什麼類型。為了行文方便,我們把 New Bing 和整合在 Edge 的 New Bing 插件統稱為 New Bing。

日本詩人例子的錯誤

#在New Bing 發表會影片29:57 處,當New Bing 被問到知名日本詩人時,給出的答案包括「Eriko Kishida 岸田惠理子(1930-2004), poet, playwright, and essayist」。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖4 New Bing 示範中詩人範例截圖

然而根據維基百科和IMDB 提供的資訊[5, 6, 7],Eriko Kishida 的生卒年分別為1929 和2011。同時,她也不是劇作家(playwright)和散文家(essaysit),而是詩人、翻譯家和童話作家。被 New Bing 轉了業還少活了八年,岸田的家人大概不太能接受。同時不幸被轉業的還有 Gackt 同學。根據維基百科提供的資訊 [8],Gackt 玩過音樂、唱過歌、作過曲也演過戲,就是沒作過詩。

財報範例的錯誤

#在New Bing 發表會影片35:49 處,Yusuf 展示整合了New Bing 的Edge 瀏覽器,對於打開的服飾公司蓋璞(Gap) 2022 年第三季的財報,如何進行要點生成。乍眼一看,New Bing 的總結非常實用,用關鍵點的方式庖丁解牛一般展示了 Gap 三季報的要點,巴菲特看到此或許也會「驚為真人」。然而,當我們找出 Gap 2022 年三季報 [9],仔細閱讀過後,發現 New Bing 的總結錯漏百出,讓人不忍直視

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

圖5 New Bing Gap 2022 年第三季財報的摘要

#首先,New Bing 給出了Gap 調整後的營運毛利率(reported operating margin, adjusted for impairment charges and restrucring costs)為5.9%。然而在財報中,Gap 的營運毛利率是 4.6%,調整後則是 3.9%。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖6 Gap 2022 年第三季財報截圖

#New Bing 接下來又給出調整後攤薄每股收益為0.42 美元(diluted earnings per share, adjusted for impairment charges, restrucring costs and tax impact),但財報裡的數據則是0.71 美元。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖7 Gap 2022 年第三季財報截圖

#

甚至 New Bing 給出了 Gap 全年的銷售指引為“預計銷售淨增長率為低雙位數”,而實際上是四季度“可能呈中間個位數下降”。是下降而非成長,一詞之差,對用戶的投資行為將產生嚴重的誤導,這虧錢了算誰的。 New Bing 甚至無中生有,給出了更多的全年財務指引“營業毛利為 7%,攤薄每股收益為 1.6 美元到 1.75 美元之間”,而這些數據在 Gap 三季度財報中統統沒有提到。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖8 Gap 2022 年第三季財報截圖

#影片36:15 處,Yusuf 又展示了用New Bing 進行Gap 和運動休閒服品牌露露樂歉(Lululemon)財報對比的功能。這部分又是錯誤訊息的重災區。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖9 New Bing 對Gap 與Lululemon 財報比較功能

#在右側New Bing 給出的表格中,除了上文所說的Gap 營業毛利5.9% 應為4.6%(或調整後3.9%)和Gap 攤薄每股收益0.42 美元應為0.77 美元(或調整後0.71 美元), New Bing 又給出了Gap 現金和現金等價物為14 億美元的數據,而實際上財報中是6.79 億美元。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖10 Lululemon 2022 年第三季財報截圖

#同樣的情況也出現在New Bing 給出的Lululemon 資料中。根據 Lululemon 2022 三季報的數據 [10],New Bing 給出的 Lululemon 毛利率為 58.7%,實際上應為 55.9%。 New Bing 提到 Lululemon 營業毛利為 20.6%,實際上應為 19.0%。 New Bing 給出 Lululemon 攤薄每股收益為 1.65 美元,實際上應為 2.00 美元。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖11 Lululemon 2022 年第三季財報截圖

#我們不禁想問:New Bing 是如何對著Gap 和Lululemon 的財報一本正經地胡說八道的? 一個合理的推論是,產生出來的這些錯誤數據,很可能是來自它預訓練階段見過的財報分析數據。 ChatGPT 這類大型語言模型的生成,隨著生成的序列越長,越容易脫離給定的 Gap 和 Lululemon 的財報數據,放飛自我,產生不著邊際的虛​​假資訊。

夜店範例的錯誤

#在New Bing 發表會影片29:17 處,New Bing 又為豐富墨西哥城的遊客的夜生活提供了「毫無建設性」的建議。對於其推薦的幾個夜店,如 Primer Nivel Night Club、El Almacen 和 El Marra,New Bing 提到這些酒吧沒有客戶評價、沒有聯絡方式也沒有商店介紹。然而這些資訊都可以在谷歌地圖或商店的 Facebook 主頁上找到。 看來 New Bing 網路衝浪力道還不夠

El Almacen 在New Bing 裡的營業時間是從週二到週日的下午五點到晚上十一點,然而真實的營業時間是除週一外的下午七點到凌晨三點[11]。這讓五點去吃晚餐的遊客還得挨兩個小時的餓。 Guadalajara de Noche 則相反,實際營業時間是每天的下午五點半到凌晨一點半或十二點半 [12],而 New Bing 給出的營業時間是下午八點開始。看來遊客靠 New Bing 的建議去找餐廳,能不能吃到飯就得看運氣了。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#

圖12 New Bing 示範中夜店範例截圖

其他錯誤 

#除了上述的資訊錯誤,我們還發現了一系列散佈在各個角落的事實錯誤,例如商品價格誤差、商店地址錯誤、時間錯誤等。

實例示範裡的錯誤

由於New Bing 還沒有完全開放,我們無法直接在New Bing 上拿到發表會現場的搜尋結果,但微軟提供了幾個實例演示[13],讓使用者體驗。本著打破砂鍋問到底的精神,我們也把這幾個示範都放到放大鏡下進行研究。我們發現,即使是這幾個精心挑選的例子,裡面還是有不少錯誤訊息

在「What art ideas can I do with my kid? 」中,New Bing 給了許多手工品製作建議。對於每一個手工品,New Bing 都總結了製作所需的材料。然而每一個手工品的材料總結都是不完整的。例如 New Bing 從引用網站 [14] 總結製作紙吉他需要紙盒、橡皮筋、顏料和膠水。但卻漏掉了引用中提到的海綿刷、膠帶和木珠。

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

#圖13  New Bing 實例示範「我可以和孩子一起做什麼樣的手工?」截圖 

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

圖14 引用網站中製作紙吉他所需材料截圖

在New Bing 的實例演示中還有一個非常明顯和常見的錯誤,

即給的引用鏈接與生成的內容無關,驢唇不對馬嘴

别只骂谷歌Bard了,ChatGPT加持的微软New Bing也错误频出

例如以下在「I need a big fast car. 」的例子中,2022 版 Kia Telluride 並沒有出現在所給的引用 10 [15] 中。同時「時間穿越」問題在這個例子中依舊不能避免,New Bing 聲稱 2022 版 Kia Telluride 獲得了 2020 年世界年度汽車獎,實際情況是當年獲得該獎項的是 Kia Telluride 2020 版本。 2022 年世界年度車獎得主則是 Hyundai IONIQ 5,而引用 7 [16] 也是與「2020 年世界年度車獎」毫不相關的文章。我們在所有實例演示中找到了多達 21 個類似的錯誤。

#圖15 New Bing 示範實例「我需要一輛大型快車」截圖

小結:發現錯誤將引導我們前進#########從上述的分析可以看出,無論是New Bing 還是Bard,他們的回答都很容易出現事實性錯誤。當全世界都驚訝於ChatGPT 等大型語言模型展現出來的能力時,當ChatGPT 成為史上最快達到1 億用戶的應用之際,我們一方面是為AI 的進步振臂歡呼,一方面也需要冷靜地思考怎麼解決AI 目前還存在的諸多問題。 ############自從 1956 年那群聚在達特茅斯學院的天才們,第一次定義了什麼是人工智慧之後,AI 經歷了幾起幾落。近70 年的發展過程中有很多讓人感動的堅持:是初代AI 的稚嫩探索,是專家系統的勇敢嘗試,是Hinton、Bengio、Lecun 這些學者把神經網絡的冷板凳坐穿,是DeepMind 用AlphaGo讓AI 出圈,是Google、Meta、CMU、史丹佛、清華等一眾頂尖研究機構堅持開源,是OpenAI 頂住壓力把GPT 這個路線走通,是全球幾代科研人員的接力,我們才走到今天。 ######

然而,如果我們放任 AI 產生大量不真實的訊息,那麼不用多久,大眾對於 AI 建立的信心就會被摧毀,各種假訊息也會充斥網路。我們指出大模型的錯誤,並不是為了拉踩哪個公司或哪個模型,相反,我們是要讓 AI 變得更好

正如阿根廷詩人博爾赫斯曾經說過:任何命運,無論多麼複雜漫長,實際上只反應於一個瞬間,那就是人們徹底醒悟自己究竟是誰的那一刻。當ChatGPT 等大模型已經具備了媲美人類的文字能力時,我們清楚地知道,下一步的重點是把真實世界的知識更完整準確地融入大模型,讓AI 模型安全地、可靠地、廣泛地應用於人們的日常生活。我們從未如此期待,也從未如此接近那一刻的到來。

以上是別只罵谷歌Bard了,ChatGPT加持的微軟New Bing也錯誤頻出的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 於 2023 年 9 月正式推出,是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一,能夠創建具有複雜細節的圖像。然而,在推出時,它不包括

Microsoft Edge升級:自動儲存密碼功能遭禁? !用戶驚了! Microsoft Edge升級:自動儲存密碼功能遭禁? !用戶驚了! Apr 19, 2024 am 08:13 AM

4月18日消息,近日,一些使用Canary頻道的MicrosoftEdge瀏覽器的用戶反映,在升級到最新版本後,他們發現自動保存密碼的選項被禁用了。經過調查,這是瀏覽器升級後的微調,而非功能被取消。在使用Edge瀏覽器造訪網站前,使用者回饋說瀏覽器會彈出一個視窗詢問是否希望儲存網站的登入密碼。選擇儲存後,下次登入時,Edge會自動填入已儲存的帳號和密碼,為使用者提供了極大的便利。但最近的更新類似於微調,修改了預設設定。使用者需要在選擇儲存密碼後,再手動在設定中開啟自動填入已儲存的帳號和密碼

微軟 Win11 壓縮為 7z、TAR 檔案的功能已從 24H2 下放到 23H2/22H2 版本 微軟 Win11 壓縮為 7z、TAR 檔案的功能已從 24H2 下放到 23H2/22H2 版本 Apr 28, 2024 am 09:19 AM

本站4月27日消息,微軟本月初向Canary和Dev頻道發布了Windows11Build26100預覽版更新,預估會成為Windows1124H2更新的候選RTM版本。新版本中最主要的變化在於檔案總管、整合Copilot、編輯PNG檔案元資料、建立TAR和7z壓縮檔案等等。 @PhantomOfEarth發現,微軟已經將24H2版本(Germanium)部分功能下放到23H2/22H2(Nickel)版本中,例如創建TAR和7z壓縮檔。如示意圖所示,Windows11將支援原生建立TAR

微軟發布 Win11 八月累積更新:提高安全性、優化鎖定螢幕等 微軟發布 Win11 八月累積更新:提高安全性、優化鎖定螢幕等 Aug 14, 2024 am 10:39 AM

本站8月14日訊息,在今天的8月補丁星期二活動日中,微軟發布了適用於Windows11系統的累積更新,包括針對22H2和23H2的KB5041585更新,面向21H2的KB5041592更新。上述設備安裝8月累積更新之後,本站附上版本號變更如下:21H2設備安裝後版本號升至Build22000.314722H2設備安裝後版本號升至Build22621.403723H2設備安裝後版本號升至Build22631.4037面向Windows1121H2的KB5041585更新主要內容如下:改進:提高了

微軟全螢幕彈窗催促:Windows 10用戶抓緊時間升級到Windows 11 微軟全螢幕彈窗催促:Windows 10用戶抓緊時間升級到Windows 11 Jun 06, 2024 am 11:35 AM

6月3日訊息,微軟正在積極向所有Windows10用戶發送全螢幕通知,鼓勵他們升級到Windows11作業系統。這項舉措涉及了那些硬體配置並不支援新系統的設備。自2015年起,Windows10已經佔了近70%的市場份額,穩坐Windows作業系統的霸主地位。然而,市佔率遠超過82%的市場份額,佔有率遠超過2021年問世的Windows11。儘管Windows11已經推出已近三年,但其市場滲透率仍顯緩慢。微軟已宣布,將於2025年10月14日後終止對Windows10的技術支持,以便更專注於

微軟推出新版Outlook for Windows:行事曆功能全面升級 微軟推出新版Outlook for Windows:行事曆功能全面升級 Apr 27, 2024 pm 03:44 PM

在4月27日的消息中,微軟公司宣布即將發布新版OutlookforWindows客戶端的測試。此次更新主要聚焦於優化行事曆功能,旨在提升使用者的工作效率,進一步簡化日常工作流程。新版OutlookforWindows客戶端的改進點在於其更強大的行事曆管理功能。現在,使用者能夠更方便地分享個人的工作時間與地點訊息,使得會議規劃更有效率。此外,Outlook還新增了人性化設置,讓用戶設定會議自動提前結束或推遲開始,為用戶提供了更多的靈活性,無論是換會議室、稍作休息還是享受一杯咖啡,都能輕鬆安排。根據

微軟計畫2024年下半年在Windows 11中淘汰NTLM,全面轉向Kerberos認證 微軟計畫2024年下半年在Windows 11中淘汰NTLM,全面轉向Kerberos認證 Jun 09, 2024 pm 04:17 PM

2024年下半年,微軟安全官方部落格發布了一則訊息,回應安全社群的呼籲。本公司計畫在2024年下半年發布的Windows11中淘汰NTLANManager(NTLM)認證協議,以提升安全性。根據先前的解釋,微軟先前已經有過類似的動作。去年10月12日,微軟在一份官方新聞稿中就已經提出了一個過渡計劃,旨在逐步淘汰NTLM身份驗證方式,並推動更多企業和用戶轉向使用Kerberos。為了幫助那些可能在關閉NTLM驗證後遇到硬連線(hardwired)應用程式和服務問題的企業,微軟提供了IAKerb和

微軟 Edge 安卓版現已提供 Copilot 翻譯功能,Windows 版本小範圍測試中 微軟 Edge 安卓版現已提供 Copilot 翻譯功能,Windows 版本小範圍測試中 Apr 27, 2024 am 08:40 AM

本站4月26日訊息,眾所周知,微軟目前想盡了辦法去推廣其AI助手Copilot,除Windows10/11自帶的Copilot外,Edge瀏覽器和Office中也集成了Copilot功能。目前來看,Copilot相對於GPT等AI工具仍有薄弱之處,不過它提供的一些功能對於Windows用戶和Edge用戶來說也是非常實用的,例如自帶的翻譯功能。根據@Leopeva64的發現,微軟已經在Android版本的EdgeDev瀏覽器中加入了這項功能,並且也正在為小部分桌面版Edge用戶提供測試。本站指出,C

See all articles