GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛-人工智慧-PHP中文網

考試幾乎滿分，性能躍遷炸天

讀圖做題小case，甚至比網友還懂梗

梗圖辨識" >梗圖辨識

圖表分析" >圖表分析

做物理題" >做物理題

訓練過程

首頁

科技週邊

人工智慧

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 11, 2023 pm 07:58 PM

ai gpt

果然，能打敗昨天的OpenAI的，只有今天的OpenAI。

剛剛，OpenAI震撼發布了大型多模態模型GPT-4，支援圖像和文字的輸入，並產生文字結果。

號稱史上最先進的AI系統！

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

GPT-4不僅有了眼睛可以看懂圖片，而且在各大考試包括GRE幾乎取得了滿分成績，橫掃各種benchmark，性能指標爆棚。

OpenAI 花了6 個月的時間使用對抗性測試程序和ChatGPT 的經驗教訓對GPT-4 進行迭代調整，從而在真實性、可控性等方面取得了有史以來最好的結果。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

大家都還記得，2月初時微軟和谷歌鏖戰三天，2月8日微軟發布ChatGPT必應時，說法是必應「基於類ChatGPT技術」。

今天，謎底終於解開了－－它背後的大模型，就是GPT-4！

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

圖靈獎三巨頭之一Geoffrey Hinton對此讚歎不已，「毛蟲吸取了營養後，就會化繭為蝶。而人類提取了數十億個理解的金塊，GPT-4，就是人類的蝴蝶。」

順便提一句，ChatGPT Plus用戶現在可以先上手了。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

考試幾乎滿分，性能躍遷炸天

在隨意談話中，GPT-3.5和GPT-4之間的差異是很微妙的。只有當任務的複雜性達到足夠的閾值時，差異就出現了，GPT-4比GPT-3.5 更可靠、更有創意，並且能夠處理更細微的指令。

為了了解這兩種模型之間的差異，OpenAI在各種基準測試和一些為人類設計的模擬考試上進行了測試。

GPT-4在各種考試中，有幾個測試幾乎接近了滿分：

USABO Semifinal 2020（美國生物奧林匹克競賽）
GRE Writing

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

#以美國BAR律師執照統考為例，GPT3.5可以達到10%水平，GPT4可以達到90%水平。生物奧林匹克競賽從GPT3.5的31%水平，直接飆升到 99%水平。

此外，OpenAI 也在為機器學習模型設計的傳統基準上評估了 GPT-4。從實驗結果來看，GPT-4 大大優於現有的大型語言模型，以及大多數SOTA 模型：

另外，GPT-4在不同語種上的能力表現：中文的準確度大概在80% 左右，已經要優於GPT-3.5的英文表現了。

許多現有的 ML 基準測試都是用英文寫的。為了初步了解GPT-4其他語言的能力，研究人員使用 Azure翻譯將 MMLU 基準（一套涵蓋57個主題的14,000個多項選擇題）翻譯成多種語言。

在測驗的26 種語言的24 種語言中，GPT-4 優於GPT-3.5 和其他大語言模型（Chinchilla、PaLM）的英語語言表現：

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

OpenAI表示在內部使用 GPT-4，因此也關注大型語言模型在內容生成、銷售和程式設計等方面的應用效果。另外，內部人員也使用它來幫助人類評估人工智慧輸出。

對此，李飛飛高徒、英偉達AI科學家Jim Fan點評：「GPT-4最強的其實就是推理能力。它在GRE、SAT、法學院考試上的得分，幾乎和人類考生沒有區別。也就是說，GPT-4可以全靠自己考進斯坦福了。」

（Jim Fan自己就是史丹佛畢業的！）

網友：完了，GPT-4一發布，就不需要我們人類了…

讀圖做題小case，甚至比網友還懂梗

GPT-4此次升級的亮點，當然就是多模態。

GPT-4不僅能分析總結圖文圖標，甚至還能讀懂梗圖，解釋梗在哪裡，為什麼好笑。從這個意義上說，它甚至能秒殺許多人類。

OpenAI稱，GPT-4比以往模型都更具創意和協作性。它可以產生、編輯和迭代用戶進行創意和技術寫作任務，例如創作歌曲、編寫劇本或學習用戶的寫作風格。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

GPT-4可以將圖像作為輸入，並產生標題、分類和分析。例如給它一張食材圖，問它用這些食材能做什麼。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

#另外，GPT-4能夠處理超過25,000字的文本，允許以長形式的內容建立、擴展會話、文件搜尋和分析。

GPT-4在其先進的推理能力方面超過了ChatGPT。如下：

梗圖辨識

例如，給它看一張奇怪的梗圖，然後問圖中搞笑在哪裡。

GPT-4拿到之後，會先分析一波圖片的內容，然後給答案。

例如，逐圖分析下面這個。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

GPT-4立刻反應過來：圖裡的這個「Lighting充電線」，看起來就是個又大又過氣的VGA接口，插在這個又小又現代的智慧型手機上，反差強烈。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

再給這麼一個梗圖，問GPT-4梗在哪裡？

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

它流利地回答：這個梗搞笑的地方在於「圖文不符」。

文字明明說是從太空拍攝的地球照片，然而，圖裡其實只是一堆排列起來像地圖的雞塊。

GPT-4還能看懂漫畫：為什麼要給神經網路加層數？

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

它一針見血地點出，這副漫畫諷刺了統計學習和神經網路在提高模型性能方法上的差異。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

圖表分析

#喬治亞和西亞的平均每日肉類消費量總和是多少？在給出答案前，請提供循序漸進的推理。

果然，GPT-4清楚地列出了自己的解題步驟—

1. 確定喬治亞的平均每日肉類消費量。

2. 決定西亞的平均每日肉類消費量。

3. 新增步驟1和2中的值。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

做物理題

要求GPT-4解出巴黎綜合理工科的物理題，測輻射熱計的輻射偵測原理。值得注意的是，這還是一道法語題。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

GPT-4開始解題：要回答問題I.1.a，我們需要每個點的溫度T(x)，以導電棒的橫座標x表示。

接著解題過程全程高能。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

你以為這就是GPT-4能力的全部？

老闆Greg Brockman直接上線進行了演示，透過這個影片你可以很直觀的感受到 GPT-4的能力。

最驚人的是，GPT-4對程式碼的超強的理解能力，幫你產生程式碼。

Greg直接在紙上畫了一個潦草的示意圖，拍個照，發給 GPT說，給我按照這個佈局寫網頁代碼，就寫出來了。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

另外，如果運行出錯了把錯誤訊息，甚至錯誤訊息截圖，丟給GPT-4都能幫你給出相應的提示。

網友直呼：GPT-4發表會，手把手教你怎麼取代程式設計師。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

順便提一句，用GPT-4還可以進行報稅。要知道，每年美國人要花好多時間金錢在報稅上面。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

訓練過程

和先前的GPT模型一樣，GPT-4基礎模型的訓練使用的是公開的網路數據以及OpenAI授權的數據，目的是為了預測文檔中的下一個字。

這些資料是一個基於互聯網的語料庫，其中包括對數學問題的正確/錯誤的解決方案，薄弱/強大的推理，自相矛盾/一致的聲明，足以代表了大量的意識形態和想法。

當使用者給予提示提問時，基礎模型可以做出各種各樣的反應，然而答案可能與使用者的意圖相差甚遠。

因此，為了使其與使用者的意圖保持一致，OpenAI使用基於人類回饋的強化學習（RLHF）對模型的行為進行了微調。

不過，模型的能力似乎主要來自於預訓練過程，RLHF並不能提高考試成績（如果不主動進行強化，它實際上會降低考試成績）。

基礎模型需要提示工程，才能知道它應該回答問題，所以說，對模型的引導主要來自於訓練後的過程。

GPT-4模型的一大重點是建立了一個可預測擴展的深度學習堆疊。因為對於像GPT-4這樣的大型訓練，進行廣泛的特定模型調整是不可行的。

因此，OpenAI團隊開發了基礎設施和最佳化，在多種規模下都有可預測的行為。

為了驗證這種可擴展性，研究人員提前準確地預測了GPT-4在內部程式碼庫（不屬於訓練集）上的最終損失，方法是透過使用相同的方法訓練的模型進行推斷，但使用的計算量為1/10000。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

現在，OpenAI 可以準確地預測在訓練過程中最佳化的指標損失。例如從計算量為1/1000的模型中推斷並成功地預測了HumanEval資料集的一個子集的通過率：

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

還有些能力仍然難以預測。例如，Inverse Scaling競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標，而 hindsight neglect任務是獲勝者之一。但是GPT-4 扭轉了這一趨勢：

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

OpenAI認為能夠準確預測未來的機器學習能力對於技術安全來說至關重要，但它並沒有得到足夠的重視。

而現在，OpenAI正在投入更多精力開發相關方法，並呼籲業界共同努力。

貢獻名單

就在GPT-4發布的同時，Open AI也公開了GPT-4這份組織架構及人員清單。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

上下滑動以查看全部

######################## ############北大陳寶權教授稱，######

再好看的電影，最後的演員名單也不會有人從頭看到尾。 Open AI的這台戲連這個也不走尋常路。毫無疑問這將是一份不僅最被人閱讀，也被人仔細研究的「演職員」(貢獻者) 名單，而最大的看頭，是詳細的貢獻分類，幾乎就是一個粗略的部門設置架構了。

這個很「大膽」的公開其實意義挺深遠的，體現了Open AI背後的核心理念，也一定程度預示了未來進步的走向。

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

以上是GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

熱工具

熱門話題

Java教學

1666

CakePHP 教程

1425

Laravel 教程

1324

PHP教程

1272

C# 教程

1251

Related knowledge

C 中的chrono庫如何使用？ Apr 28, 2025 pm 10:18 PM

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔，讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分，它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說，chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性，還提供了更高的精度和靈活性。讓我們從基礎開始，chrono庫主要包括以下幾個關鍵組件：std::chrono::system_clock：表示系統時鐘，用於獲取當前時間。 std::chron

如何理解C 中的DMA操作？ Apr 28, 2025 pm 10:09 PM

DMA在C 中是指DirectMemoryAccess，直接內存訪問技術，允許硬件設備直接與內存進行數據傳輸，不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序，實現方式因係統而異。 2)直接訪問內存可能帶來安全風險，需確保代碼的正確性和安全性。 3)DMA可提高性能，但使用不當可能導致系統性能下降。通過實踐和學習，可以掌握DMA的使用技巧，在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

怎樣在C 中處理高DPI顯示？ Apr 28, 2025 pm 09:57 PM

在C 中處理高DPI顯示可以通過以下步驟實現：1)理解DPI和縮放，使用操作系統API獲取DPI信息並調整圖形輸出；2)處理跨平台兼容性，使用如SDL或Qt的跨平台圖形庫；3)進行性能優化，通過緩存、硬件加速和動態調整細節級別來提升性能；4)解決常見問題，如模糊文本和界面元素過小，通過正確應用DPI縮放來解決。

C 中的實時操作系統編程是什麼？ Apr 28, 2025 pm 10:15 PM

C 在實時操作系統（RTOS）編程中表現出色，提供了高效的執行效率和精確的時間管理。 1）C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2）利用面向對象特性，C 可以設計靈活的任務調度系統。 3）C 支持高效的中斷處理，但需避免動態內存分配和異常處理以保證實時性。 4）模板編程和內聯函數有助於性能優化。 5）實際應用中，C 可用於實現高效的日誌系統。

怎樣在C 中測量線程性能？ Apr 28, 2025 pm 10:21 PM

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析，步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析，步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能，並優化代碼。

給MySQL表添加和刪除字段的操作步驟 Apr 29, 2025 pm 04:15 PM

在MySQL中，添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column，刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時，需指定位置以優化查詢性能和數據結構；刪除字段前需確認操作不可逆；使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

量化交易所排行榜2025 數字貨幣量化交易APP前十名推薦 Apr 30, 2025 pm 07:24 PM

交易所內置量化工具包括：1. Binance（幣安）：提供Binance Futures量化模塊，低手續費，支持AI輔助交易。 2. OKX（歐易）：支持多賬戶管理和智能訂單路由，提供機構級風控。獨立量化策略平台有：3. 3Commas：拖拽式策略生成器，適用於多平台對沖套利。 4. Quadency：專業級算法策略庫，支持自定義風險閾值。 5. Pionex：內置16 預設策略，低交易手續費。垂直領域工具包括：6. Cryptohopper：雲端量化平台，支持150 技術指標。 7. Bitsgap：

C 中的字符串流如何使用？ Apr 28, 2025 pm 09:12 PM

C 中使用字符串流的主要步驟和注意事項如下：1.創建輸出字符串流並轉換數據，如將整數轉換為字符串。 2.應用於復雜數據結構的序列化，如將vector轉換為字符串。 3.注意性能問題，避免在處理大量數據時頻繁使用字符串流，可考慮使用std::string的append方法。 4.注意內存管理，避免頻繁創建和銷毀字符串流對象，可以重用或使用std::stringstream。

See all articles

GPT-4王者加冕！讀圖做題性能炸天，憑自己就能考上史丹佛

考試幾乎滿分，性能躍遷炸天

讀圖做題小case，甚至比網友還懂梗

梗圖辨識

圖表分析

做物理題

訓練過程

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題