目錄
冷笑話
辯論對話
數學應用題
總結
創意寫作
編碼
贏家:ChatGPT-4,但一切並未結束
首頁 科技週邊 人工智慧 ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

Apr 07, 2023 pm 03:40 PM
chatgpt gpt-4

ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

在當今生成式AI聊天機器人的世界裡,我們目睹了ChatGPT(OpenAI於2022年11月推出)的突然崛起,隨後是今年2月推出的Bing Chat和3月推出的Google Bard。我們決定讓這些聊天機器人完成各種任務,以確定哪一個在AI聊天機器人領域佔據主導地位。由於Bing Chat使用的是與最新的ChatGPT模型類似的GPT-4技術,所以我們這次的重點是AI聊天機器人技術的兩大巨頭:OpenAI和Google。

我們對ChatGPT和Bard進行了七個關鍵類別的測試:冷笑話、辯論對話、數學應用問題、總結、事實檢索、創意寫作和編碼。對於每個測試,我們將完全相同的指令(稱為“提示,prompt”)輸入ChatGPT(使用GPT-4)和Google Bard,並選取它們給出的第一個結果進行比較。

值得注意的是,基於早期GPT-3.5模型的ChatGPT版本也可用,但我們在測試中沒有使用該版本。由於我們只使用GPT-4,為了避免混淆,我們在本文中將ChatGPT稱為「ChatGPT-4」。

顯然,這不是一項科學研究,只是為了對聊天機器人的能力進行有趣的比較。由於隨機元素,不同會話之間的輸出可能不同,使用不同提示符的進一步評估將產生不同的結果。此外,隨著Google和OpenAI的不斷升級,這些模型的功能將隨著時間的推移而迅速變化。但就目前而言,以下是2023年4月初的比較情況。

冷笑話

為了讓我們的鬥智比賽升溫,我們請ChatGPT和Bard寫了一些笑話。由於喜劇的精髓往往存在於冷笑話中,我們想看看這兩個聊天機器人能否創造出一些獨特的笑話。

指令/提示:寫5個原始冷笑話


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#Bard給出的5個冷笑話中,我們用谷歌搜尋了其中三個。另外2個冷笑話中,一個是部分借用米奇·赫德伯格(Mitch Hedberg)在推特上發布的一個笑話,但它只是無趣的文字遊戲,效果不佳。令人驚訝的是,有一個看似原創的笑話(關於蝸牛),我們在其他地方都找不到,但遺憾地是它也同樣無趣。

同時,ChatGPT-4的5個冷笑話百分百沒有原創,都完全是從其他管道抄襲來的,但表達得很準確。 Bard似乎在這一點上勝過了ChatGPT-4,它在試圖創造原創的笑話(按照我們的指示),儘管有些笑話以一種令人尷尬的方式嚴重失敗(但這正是冷笑話的風格) ,甚至可以說,以一種無意的方式說錯話(也是冷笑話的風格)。

優勝者:Bard

辯論對話

測試現代AI聊天機器人的一種方法是讓它扮演某個主題的辯論者。在這種情況下,我們為Bard和ChatGPT-4提供了我們這個時代最關鍵的主題之一:PowerPC vs.英特爾。

指示/提示:寫5行PowerPC處理器愛好者和英特爾處理器愛好者之間的辯論對話。


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#首先,我們來看看Bard的回覆.它產生的五行對話並沒有特別深入,除了泛泛的侮辱之外,沒有提到任何針對PowerPC或英特爾晶片的技術細節。此外,對話以「英特爾粉絲」同意各自持有不同意見而結束,這在一個引發了一百萬場口水仗的主題中似乎非常不現實。

相比之下,ChatGPT-4的回應提到了PowerPC晶片被用於蘋果Macintosh電腦,並拋出了諸如“英特爾的x86架構”和PowerPC的“基於RISC架構”之類的術語。它甚至提到了奔騰III,這是2000年的一個現實細節。總的來說,這段論述比Bard的回應要詳細得多,而且最準確的一點是,這段對話並沒有得出結論——這暗示著在互聯網的某些領域,這場永無止境的戰鬥可能仍在激烈進行。

優勝者:ChatGPT-4

數學應用題

傳統上,數學題並不是大型語言模型(LLMs)──如ChatGPT──的強項。因此,我們沒有為每個機器人佈置一系列複雜的方程式和算術,而是為每個機器人佈置了一個老式的小學生風格的應用題。

指令/提示:如果微軟Windows 11使用的是3.5吋軟碟(floppy disk),那麼它需要多少軟碟?


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

為了解決這個問題,每個AI模型都需要知道微軟Windows 11安裝的資料大小以及3.5吋軟碟的資料容量。它們還必須假設提問者最可能使用哪種密度的軟碟。然後他們需要做一些基本的數學運算來把這些概念組合在一起。

在我們的評估中,Bard正確地指出了這三個關鍵點(足夠接近——Windows 11的安裝大小估計通常在20-30GB左右),但在數學計算方面卻慘敗,它認為需要“15.11”張軟盤,然後說這“只是一個理論數字”,最後承認需要超過15張軟盤,它仍然沒有接近正確的值。

相比之下,ChatGPT-4包含了一些與Windows 11安裝大小相關的細微差別(正確地引用了64GB的最小值,並將其與現實世界的基本安裝大小進行了比較) ,正確地解釋了軟碟容量,然後進行了一些正確的乘除,最終得出了14222個磁碟。有人可能會爭論1GB是1024還是1000MB,但這個數字是合理的。它還正確地提到,實際數字可能會根據其他因素而變化。

優勝者:ChatGPT-4

總結

AI語言模型以其總結複雜資訊並將文本歸結為關鍵元素的能力而聞名。為了評估每種語言模型總結文字的能力,我們從Ars Technica最近的一篇文章中複製並貼上了三個段落。

指令/提示:用一段話總結【文章正文三段】


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#Bard和ChatGPT-4都收集了這些信息,並將其精簡到重要的細節。然而,Bard的版本更像是一個真正的總結,將訊息合成新的措辭,而ChatGPT-4的版本讀起來更像一個串聯,砍掉了句子,留下了一些片段。雖然兩個都很不錯,但我們不得不承認Bard在這次測試中勝過了ChatGPT-4。

優勝者:Google Bard

事實檢索

目前已知,大型語言模型會犯自以為是的錯誤(研究人員通常稱之為「幻覺」),這使得它們成為不可靠的事實參考,除非有外部資訊來源的補充。有趣的是,Bard可以在線查詢信息,而ChatGPT-4目前還不能(儘管該功能很快就會隨插件一起推出)。

ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!為了測試這個能力,我們向Bard和ChatGPT-4提出挑戰,讓他們表達關於一個困難和微妙主題的歷史知識。

指令/提示:誰發明了電子遊戲?

ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

############### ########誰發明了電子遊戲這個問題很難回答,因為這取決於你如何定義「電子遊戲」這個詞,不同的歷史學家對這個詞的定義也不盡相同。有些人認為早期的電腦遊戲是電子遊戲,有些人認為應該一直包含電視機,等等。沒有一個公認的答案。 ######我們以為Bard在網路上尋找資訊的能力會給它帶來優勢,但在這種情況下,這可能會適得其反,因為它選擇了一個谷歌最流行的答案,稱Ralph Baer為「電子遊戲之父」。關於Baer的所有事實都是正確的,儘管它可能應該把最後一句話寫成過去時,因為貝爾在2014年就已經去世了。但Bard並沒有提及其他早期的「首個電子遊戲」頭銜競爭者,如《Tennis for Two》和《Spacewar!》,所以它的答案可能具有誤導性,而且不完整。 ###

ChatGPT-4給出了一個更全面、更細緻的答案,代表了許多早期電子遊戲歷史學家目前的感受,他說,“電子遊戲的發明不能歸功於一個人”,它呈現了隨著時間推移的「一系列創新」。它唯一的錯誤就是稱《Spacewar!》是“第一款數位電腦遊戲”,但事實並非如此。我們可以將答案擴大到包括更多利基邊緣案例,但ChatGPT-4很好地概述了重要的早期先驅。

優勝者:ChatGPT-4

創意寫作

在奇思妙想的話題上不受約束的創造力應該是大型語言模型的強項。我們透過讓Bard和ChatGPT-4寫一個短小的異想天開的故事來進行測試。

指示/提示:寫一篇關於亞伯拉罕·林肯(Abraham Lincoln)發明籃球的兩個創意故事。


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#Bard的輸出結果在幾個方面都不盡人意。首先,它是10段,而不是2段,而且是短小、不連貫的段落。此外,它還分享了一些在提示符號的上下文中沒有太大意義的細節。例如,為什麼亞伯拉罕·林肯的白宮在伊利諾州的斯普林菲爾德?除此之外,這算得上是一個有趣而簡單的故事。

ChatGPT-4也將故事設定在伊利諾州,但更準確地說,它沒有提到那段時期的總統或白宮。然而,後來它說「來自北部和南部的球員」拋開他們的分歧一起打籃球,這意味著它發生在籃球發明後不久。

總的來說,我們認為ChatGPT-4略勝一籌,因為它的輸出確實分為兩個段落——儘管它似乎通過盡可能拓展每個段落來繞過這個限制。儘管如此,我們還是很喜歡ChatGPT-4版故事中富有創意的細節。

優勝者:ChatGPT-4

編碼

如果說這一代的大型語言模型有什麼「殺手鐧」的話,那可能就是把它們用作程式設計助手了。 OpenAI在Codex模型上的早期工作使GitHub的CoPilot成為可能,ChatGPT本身也作為一個相當稱職的簡單程式編碼員和調試器而聞名。所以Google Bard的表現也應該會很有趣。

指令/提示:寫一個說「Hello World」的python腳本,然後無限地創建一個隨機重複的字串。


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!


ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!

#看起來Google Bard根本不會寫代碼。谷歌目前還不支援這項功能,但該公司表示很快就會進行程式設計。目前,Bard拒絕了我們的提示,並表示,「看起來你想讓我幫忙編碼,但我還沒有接受過這樣的訓練。」

與此同時,ChatGPT-4不僅直接給出了程式碼,也將其格式化在一個帶有「複製程式碼」按鈕的花俏程式碼框中,該按鈕可以將程式碼複製到系統剪貼簿中,以便輕鬆貼上到IDE或文字編輯器中。但這段程式碼有用嗎?我們將程式碼貼到rand_string.py檔案中,並在Windows 10的控制台中運行它,它沒有任何問題。

優勝者:ChatGPT-4

贏家:ChatGPT-4,但一切並未結束

總的來說,ChatGPT-4贏得了我們7次試驗中的5次(這裡指的是使用GPT-4的ChatGPT,以防你忽略上文直接跳過這裡)。但這並不是故事的全部。還有其他因素需要考慮,例如速度、上下文長度、成本和未來的升級。

就速度而言,ChatGPT-4目前比較慢,寫關於林肯和籃球的故事花了52秒,而Bard只花了6秒。值得注意的是,OpenAI以GPT-3.5的形式提供了比GPT-4快得多的AI模型。這個模型寫林肯與籃球的故事只需要12秒,但可以說它不太適合做有深度、有創意的任務。

每種語言模型都有單次可以處理的最大標記數(單字的片段)。這有時被稱為“上下文視窗”,但它幾乎類似於短期記憶。在對話式聊天機器人的情況下,上下文視窗包含到目前為止的整個對話歷史。當它被填滿時,它要么達到了一個硬極限,要么繼續前進但抹去了之前討論部分的“記憶”。 ChatGPT-4則保持滾動內存,擦去先前的上下文,據報道有大約4000個令牌的限制。據悉,Bard將其總輸出限制在1000個左右,當超過這個限制時,它就會抹去先前討論的「記憶」。

最後,還有成本問題。 ChatGPT(並不特別指GPT-4)目前可透過ChatGPT網站在有限的基礎上免費使用,但想要優先造訪GPT-4,則需每月支付20美元。精通程式設計的用戶可以透過API以更便宜的價格存取早期的ChatGPT-3.5模型,但在撰寫本文時,GPT-4 API仍處於有限的測試中。同時,Google Bard作為Google部分用戶的限量試用版是免費的。目前,Google沒有計劃在它變得更廣泛可用時對Bard訪問收費。

最後,正如我們之前提到的,兩個模型都在不斷升級。例如,Bard在上週五剛剛收到了一個更新,使它在數學方面做得更好,它可能很快就能編碼了。 OpenAI也持續完善其GPT-4模型。 Google目前保留了它最強大的語言模型(可能是計算成本的原因),所以我們可以看到一個更強大的競爭者Google迎頭趕上。

總而言之,生成式AI業務仍處於早期階段,乾坤未定,你我皆是黑馬!

以上是ChatGPT vs Google Bard:哪個比較好?測試結果告訴你!的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 ChatGPT 現在允許免費用戶使用 DALL-E 3 產生每日限制的圖像 Aug 09, 2024 pm 09:37 PM

DALL-E 3 於 2023 年 9 月正式推出,是比其前身大幅改進的車型。它被認為是迄今為止最好的人工智慧圖像生成器之一,能夠創建具有複雜細節的圖像。然而,在推出時,它不包括

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

手機怎麼安裝chatgpt 手機怎麼安裝chatgpt Mar 05, 2024 pm 02:31 PM

安裝步驟:1、在ChatGTP官網或手機商店下載ChatGTP軟體;2、開啟後在設定介面中,選擇語言為中文;3、在對局介面中,選擇人機對局並設定中文相譜;4 、開始後在聊天視窗中輸入指令,即可與軟體互動。

第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

ChatGPT與Python的完美結合:打造智慧客服聊天機器人 ChatGPT與Python的完美結合:打造智慧客服聊天機器人 Oct 27, 2023 pm 06:00 PM

ChatGPT與Python的完美結合:打造智慧客服聊天機器人引言:在當今資訊時代,智慧客服系統已成為企業與客戶之間重要的溝通工具。而為了提供更好的客戶服務體驗,許多企業開始轉向採用聊天機器人的方式來完成客戶諮詢、問題解答等任務。在這篇文章中,我們將介紹如何使用OpenAI的強大模型ChatGPT和Python語言結合,來打造一個智慧客服聊天機器人,以提高

全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了,大模型又變天了。就在剛剛,全球最強AI模型一夜易主,GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型,一句話評價:真·全面碾壓GPT-4!在多模態和語言能力指標上,Claude3都贏麻了。用Anthropic的話來說,Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面,都樹立了新的行業基準! Anthropic,就是曾因安全理念不合,而從OpenAI「叛逃」出的員工組成的新創公司,他們的產品一再給OpenAI暴擊。這次的Claude3,更是整了個大的

如何使用ChatGPT和Java開發智慧聊天機器人 如何使用ChatGPT和Java開發智慧聊天機器人 Oct 28, 2023 am 08:54 AM

在這篇文章中,我們將介紹如何使用ChatGPT和Java開發智慧聊天機器人,並提供一些具體的程式碼範例。 ChatGPT是由OpenAI開發的困境預測轉換(GenerativePre-trainingTransformer)的最新版本,它是一種基於神經網路的人工智慧技術,可以理解自然語言並產生人類類似的文本。使用ChatGPT,我們可以輕鬆地創建自適應的聊天

See all articles