目錄
考試幾乎滿分,性能躍遷炸天
讀圖做題小case,甚至比網友還懂梗
梗圖辨識" >梗圖辨識
圖表分析" >圖表分析
做物理題" >做物理題
訓練過程
首頁 科技週邊 人工智慧 GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

Apr 11, 2023 pm 07:58 PM
ai gpt

果然,能打敗昨天的OpenAI的,只有今天的OpenAI。

剛剛,OpenAI震撼發布了大型多模態模型GPT-4,支援圖像和文字的輸入,並產生文字結果。

號稱史上最先進的AI系統!

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

GPT-4不僅有了眼睛可以看懂圖片,而且在各大考試包括GRE幾乎取得了滿分成績,橫掃各種benchmark,性能指標爆棚。

OpenAI 花了6 個月的時間使用對抗性測試程序和ChatGPT 的經驗教訓對GPT-4 進行迭代調整,從而在真實性、可控性等方面取得了有史以來最好的結果。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

大家都還記得,2月初時微軟和谷歌鏖戰三天,2月8日微軟發布ChatGPT必應時,說法是必應「基於類ChatGPT技術」。

今天,謎底終於解開了--它背後的大模型,就是GPT-4!

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

圖靈獎三巨頭之一Geoffrey Hinton對此讚歎不已,「毛蟲吸取了營養後,就會化繭為蝶。而人類提取了數十億個理解的金塊,GPT-4,就是人類的蝴蝶。」

順便提一句,ChatGPT Plus用戶現在可以先上手了。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

考試幾乎滿分,性能躍遷炸天

在隨意談話中,GPT-3.5和GPT-4之間的差異是很微妙的。只有當任務的複雜性達到足夠的閾值時,差異就出現了,GPT-4比GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。

為了了解這兩種模型之間的差異,OpenAI在各種基準測試和一些為人類設計的模擬考試上進行了測試。

GPT-4在各種考試中,有幾個測試幾乎接近了滿分:

  • USABO Semifinal 2020(美國生物奧林匹克競賽)
  • GRE Writing

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

#以美國BAR律師執照統考為例,GPT3.5可以達到10%水平,GPT4可以達到90%水平。生物奧林匹克競賽從GPT3.5的31%水平,直接飆升到 99%水平。

此外,OpenAI 也在為機器學習模型設計的傳統基準上評估了 GPT-4。從實驗結果來看,GPT-4 大大優於現有的大型語言模型,以及大多數SOTA 模型:

另外,GPT-4在不同語種上的能力表現:中文的準確度大概在80% 左右,已經要優於GPT-3.5的英文表現了。

許多現有的 ML 基準測試都是用英文寫的。為了初步了解GPT-4其他語言的能力,研究人員使用 Azure翻譯將 MMLU 基準(一套涵蓋57個主題的14,000個多項選擇題)翻譯成多種語言。

在測驗的26 種語言的24 種語言中,GPT-4 優於GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言表現:

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

OpenAI表示在內部使用 GPT-4,因此也關注大型語言模型在內容生成、銷售和程式設計等方面的應用效果。另外,內部人員也使用它來幫助人類評估人工智慧輸出。

對此,李飛飛高徒、英偉達AI科學家Jim Fan點評:「GPT-4最強的其實就是推理能力。它在GRE、SAT、法學院考試上的得分,幾乎和人類考生沒有區別。也就是說,GPT-4可以全靠自己考進斯坦福了。」

(Jim Fan自己就是史丹佛畢業的!)

網友:完了,GPT-4一發布,就不需要我們人類了…

讀圖做題小case,甚至比網友還懂梗

GPT-4此次升級的亮點,當然就是多模態。

GPT-4不僅能分析總結圖文圖標,甚至還能讀懂梗圖,解釋梗在哪裡,為什麼好笑。從這個意義上說,它甚至能秒殺許多人類。

OpenAI稱,GPT-4比以往模型都更具創意和協作性。它可以產生、編輯和迭代用戶進行創意和技術寫作任務,例如創作歌曲、編寫劇本或學習用戶的寫作風格。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

GPT-4可以將圖像作為輸入,並產生標題、分類和分析。例如給它一張食材圖,問它用這些食材能做什麼。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

#另外,GPT-4能夠處理超過25,000字的文本,允許以長形式的內容建立、擴展會話、文件搜尋和分析。

GPT-4在其先進的推理能力方面超過了ChatGPT。如下:

梗圖辨識

例如,給它看一張奇怪的梗圖,然後問圖中搞笑在哪裡。

GPT-4拿到之後,會先分析一波圖片的內容,然後給答案。

例如,逐圖分析下面這個。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

GPT-4立刻反應過來:圖裡的這個「Lighting充電線」,看起來就是個又大又過氣的VGA接口,插在這個又小又現代的智慧型手機上,反差強烈。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

再給這麼一個梗圖,問GPT-4梗在哪裡?

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

它流利地回答:這個梗搞笑的地方在於「圖文不符」。

文字明明說是從太空拍攝的地球照片,然而,圖裡其實只是一堆排列起來像地圖的雞塊。

GPT-4還能看懂漫畫:為什麼要給神經網路加層數?

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

它一針見血地點出,這副漫畫諷刺了統計學習和神經網路在提高模型性能方法上的差異。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

圖表分析

#喬治亞和西亞的平均每日肉類消費量總和是多少?在給出答案前,請提供循序漸進的推理。

果然,GPT-4清楚地列出了自己的解題步驟—

1. 確定喬治亞的平均每日肉類消費量。

2. 決定西亞的平均每日肉類消費量。

3. 新增步驟1和2中的值。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

做物理題

要求GPT-4解出巴黎綜合理工科的物理題,測輻射熱計的輻射偵測原理。值得注意的是,這還是一道法語題。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

GPT-4開始解題:要回答問題I.1.a,我們需要每個點的溫度T(x),以導電棒的橫座標x表示。

接著解題過程全程高能。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

你以為這就是GPT-4能力的全部?

老闆Greg Brockman直接上線進行了演示,透過這個影片你可以很直觀的感受到 GPT-4的能力。

最驚人的是,GPT-4對程式碼的超強的理解能力,幫你產生程式碼。

Greg直接在紙上畫了一個潦草的示意圖,拍個照,發給 GPT說,給我按照這個佈局寫網頁代碼,就寫出來了。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

另外,如果運行出錯了把錯誤訊息,甚至錯誤訊息截圖,丟給GPT-4都能幫你給出相應的提示。

網友直呼:GPT-4發表會,手把手教你怎麼取代程式設計師。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

順便提一句,用GPT-4還可以進行報稅 。要知道,每年美國人要花好多時間金錢在報稅上面。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

訓練過程

和先前的GPT模型一樣,GPT-4基礎模型的訓練使用的是公開的網路數據以及OpenAI授權的數據,目的是為了預測文檔中的下一個字。

這些資料是一個基於互聯網的語料庫,其中包括對數學問題的正確/錯誤的解決方案,薄弱/強大的推理,自相矛盾/一致的聲明,足以代表了大量的意識形態和想法。

當使用者給予提示提問時,基礎模型可以做出各種各樣的反應,然而答案可能與使用者的意圖相差甚遠。

因此,為了使其與使用者的意圖保持一致,OpenAI使用基於人類回饋的強化學習(RLHF)對模型的行為進行了微調。

不過,模型的能力似乎主要來自於預訓練過程,RLHF並不能提高考試成績(如果不主動進行強化,它實際上會降低考試成績)。

基礎模型需要提示工程,才能知道它應該回答問題,所以說,對模型的引導主要來自於訓練後的過程。

GPT-4模型的一大重點是建立了一個可預測擴展的深度學習堆疊。因為對於像GPT-4這樣的大型訓練,進行廣泛的特定模型調整是不可行的。

因此,OpenAI團隊開發了基礎設施和最佳化,在多種規模下都有可預測的行為。

為了驗證這種可擴展性,研究人員提前準確地預測了GPT-4在內部程式碼庫(不屬於訓練集)上的最終損失,方法是透過使用相同的方法訓練的模型進行推斷,但使用的計算量為1/10000。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

現在,OpenAI 可以準確地預測在訓練過程中最佳化的指標損失。例如從計算量為1/1000的模型中推斷並成功地預測了HumanEval資料集的一個子集的通過率:

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

還有些能力仍然難以預測。例如,Inverse Scaling競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而 hindsight neglect任務是獲勝者之一。但是GPT-4 扭轉了這一趨勢:

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

OpenAI認為能夠準確預測未來的機器學習能力對於技術安全來說至關重要,但它並沒有得到足夠的重視。

而現在,OpenAI正在投入更多精力開發相關方法,並呼籲業界共同努力。

貢獻名單

就在GPT-4發布的同時,Open AI也公開了GPT-4這份組織架構及人員清單。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

上下滑動以查看全部

######################## ############北大陳寶權教授稱,######

再好看的電影,最後的演員名單也不會有人從頭看到尾。 Open AI的這台戲連這個也不走尋常路。毫無疑問這將是一份不僅最被人閱讀,也被人仔細研究的「演職員」(貢獻者) 名單,而最大的看頭,是詳細的貢獻分類,幾乎就是一個粗略的部門設置架構了。

這個很「大膽」的公開其實意義挺深遠的,體現了Open AI背後的核心理念,也一定程度預示了未來進步的走向。

GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛

以上是GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora:巫婆樹的耳語 - 如何解鎖抓鉤
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1666
14
CakePHP 教程
1425
52
Laravel 教程
1324
25
PHP教程
1272
29
C# 教程
1251
24
C  中的chrono庫如何使用? C 中的chrono庫如何使用? Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

如何理解C  中的DMA操作? 如何理解C 中的DMA操作? Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C  中處理高DPI顯示? 怎樣在C 中處理高DPI顯示? Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C  中的實時操作系統編程是什麼? C 中的實時操作系統編程是什麼? Apr 28, 2025 pm 10:15 PM

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

怎樣在C  中測量線程性能? 怎樣在C 中測量線程性能? Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

給MySQL表添加和刪除字段的操作步驟 給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

C  中的字符串流如何使用? C 中的字符串流如何使用? Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。

See all articles