GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛
果然,能打敗昨天的OpenAI的,只有今天的OpenAI。
剛剛,OpenAI震撼發布了大型多模態模型GPT-4,支援圖像和文字的輸入,並產生文字結果。
號稱史上最先進的AI系統!
GPT-4不僅有了眼睛可以看懂圖片,而且在各大考試包括GRE幾乎取得了滿分成績,橫掃各種benchmark,性能指標爆棚。
OpenAI 花了6 個月的時間使用對抗性測試程序和ChatGPT 的經驗教訓對GPT-4 進行迭代調整,從而在真實性、可控性等方面取得了有史以來最好的結果。
大家都還記得,2月初時微軟和谷歌鏖戰三天,2月8日微軟發布ChatGPT必應時,說法是必應「基於類ChatGPT技術」。
今天,謎底終於解開了--它背後的大模型,就是GPT-4!
圖靈獎三巨頭之一Geoffrey Hinton對此讚歎不已,「毛蟲吸取了營養後,就會化繭為蝶。而人類提取了數十億個理解的金塊,GPT-4,就是人類的蝴蝶。」
順便提一句,ChatGPT Plus用戶現在可以先上手了。
考試幾乎滿分,性能躍遷炸天
在隨意談話中,GPT-3.5和GPT-4之間的差異是很微妙的。只有當任務的複雜性達到足夠的閾值時,差異就出現了,GPT-4比GPT-3.5 更可靠、更有創意,並且能夠處理更細微的指令。
為了了解這兩種模型之間的差異,OpenAI在各種基準測試和一些為人類設計的模擬考試上進行了測試。
GPT-4在各種考試中,有幾個測試幾乎接近了滿分:
- USABO Semifinal 2020(美國生物奧林匹克競賽)
- GRE Writing
#以美國BAR律師執照統考為例,GPT3.5可以達到10%水平,GPT4可以達到90%水平。生物奧林匹克競賽從GPT3.5的31%水平,直接飆升到 99%水平。
此外,OpenAI 也在為機器學習模型設計的傳統基準上評估了 GPT-4。從實驗結果來看,GPT-4 大大優於現有的大型語言模型,以及大多數SOTA 模型:
另外,GPT-4在不同語種上的能力表現:中文的準確度大概在80% 左右,已經要優於GPT-3.5的英文表現了。
許多現有的 ML 基準測試都是用英文寫的。為了初步了解GPT-4其他語言的能力,研究人員使用 Azure翻譯將 MMLU 基準(一套涵蓋57個主題的14,000個多項選擇題)翻譯成多種語言。
在測驗的26 種語言的24 種語言中,GPT-4 優於GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言表現:
OpenAI表示在內部使用 GPT-4,因此也關注大型語言模型在內容生成、銷售和程式設計等方面的應用效果。另外,內部人員也使用它來幫助人類評估人工智慧輸出。
對此,李飛飛高徒、英偉達AI科學家Jim Fan點評:「GPT-4最強的其實就是推理能力。它在GRE、SAT、法學院考試上的得分,幾乎和人類考生沒有區別。也就是說,GPT-4可以全靠自己考進斯坦福了。」
(Jim Fan自己就是史丹佛畢業的!)
網友:完了,GPT-4一發布,就不需要我們人類了…
讀圖做題小case,甚至比網友還懂梗
GPT-4此次升級的亮點,當然就是多模態。
GPT-4不僅能分析總結圖文圖標,甚至還能讀懂梗圖,解釋梗在哪裡,為什麼好笑。從這個意義上說,它甚至能秒殺許多人類。
OpenAI稱,GPT-4比以往模型都更具創意和協作性。它可以產生、編輯和迭代用戶進行創意和技術寫作任務,例如創作歌曲、編寫劇本或學習用戶的寫作風格。
GPT-4可以將圖像作為輸入,並產生標題、分類和分析。例如給它一張食材圖,問它用這些食材能做什麼。
#另外,GPT-4能夠處理超過25,000字的文本,允許以長形式的內容建立、擴展會話、文件搜尋和分析。
GPT-4在其先進的推理能力方面超過了ChatGPT。如下:
梗圖辨識
例如,給它看一張奇怪的梗圖,然後問圖中搞笑在哪裡。
GPT-4拿到之後,會先分析一波圖片的內容,然後給答案。
例如,逐圖分析下面這個。
GPT-4立刻反應過來:圖裡的這個「Lighting充電線」,看起來就是個又大又過氣的VGA接口,插在這個又小又現代的智慧型手機上,反差強烈。
再給這麼一個梗圖,問GPT-4梗在哪裡?
它流利地回答:這個梗搞笑的地方在於「圖文不符」。
文字明明說是從太空拍攝的地球照片,然而,圖裡其實只是一堆排列起來像地圖的雞塊。
GPT-4還能看懂漫畫:為什麼要給神經網路加層數?
它一針見血地點出,這副漫畫諷刺了統計學習和神經網路在提高模型性能方法上的差異。
圖表分析
#喬治亞和西亞的平均每日肉類消費量總和是多少?在給出答案前,請提供循序漸進的推理。
果然,GPT-4清楚地列出了自己的解題步驟—
1. 確定喬治亞的平均每日肉類消費量。
2. 決定西亞的平均每日肉類消費量。
3. 新增步驟1和2中的值。
做物理題
要求GPT-4解出巴黎綜合理工科的物理題,測輻射熱計的輻射偵測原理。值得注意的是,這還是一道法語題。
GPT-4開始解題:要回答問題I.1.a,我們需要每個點的溫度T(x),以導電棒的橫座標x表示。
接著解題過程全程高能。
你以為這就是GPT-4能力的全部?
老闆Greg Brockman直接上線進行了演示,透過這個影片你可以很直觀的感受到 GPT-4的能力。
最驚人的是,GPT-4對程式碼的超強的理解能力,幫你產生程式碼。
Greg直接在紙上畫了一個潦草的示意圖,拍個照,發給 GPT說,給我按照這個佈局寫網頁代碼,就寫出來了。
另外,如果運行出錯了把錯誤訊息,甚至錯誤訊息截圖,丟給GPT-4都能幫你給出相應的提示。
網友直呼:GPT-4發表會,手把手教你怎麼取代程式設計師。
順便提一句,用GPT-4還可以進行報稅 。要知道,每年美國人要花好多時間金錢在報稅上面。
訓練過程
和先前的GPT模型一樣,GPT-4基礎模型的訓練使用的是公開的網路數據以及OpenAI授權的數據,目的是為了預測文檔中的下一個字。
這些資料是一個基於互聯網的語料庫,其中包括對數學問題的正確/錯誤的解決方案,薄弱/強大的推理,自相矛盾/一致的聲明,足以代表了大量的意識形態和想法。
當使用者給予提示提問時,基礎模型可以做出各種各樣的反應,然而答案可能與使用者的意圖相差甚遠。
因此,為了使其與使用者的意圖保持一致,OpenAI使用基於人類回饋的強化學習(RLHF)對模型的行為進行了微調。
不過,模型的能力似乎主要來自於預訓練過程,RLHF並不能提高考試成績(如果不主動進行強化,它實際上會降低考試成績)。
基礎模型需要提示工程,才能知道它應該回答問題,所以說,對模型的引導主要來自於訓練後的過程。
GPT-4模型的一大重點是建立了一個可預測擴展的深度學習堆疊。因為對於像GPT-4這樣的大型訓練,進行廣泛的特定模型調整是不可行的。
因此,OpenAI團隊開發了基礎設施和最佳化,在多種規模下都有可預測的行為。
為了驗證這種可擴展性,研究人員提前準確地預測了GPT-4在內部程式碼庫(不屬於訓練集)上的最終損失,方法是透過使用相同的方法訓練的模型進行推斷,但使用的計算量為1/10000。
現在,OpenAI 可以準確地預測在訓練過程中最佳化的指標損失。例如從計算量為1/1000的模型中推斷並成功地預測了HumanEval資料集的一個子集的通過率:
還有些能力仍然難以預測。例如,Inverse Scaling競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而 hindsight neglect任務是獲勝者之一。但是GPT-4 扭轉了這一趨勢:
OpenAI認為能夠準確預測未來的機器學習能力對於技術安全來說至關重要,但它並沒有得到足夠的重視。
而現在,OpenAI正在投入更多精力開發相關方法,並呼籲業界共同努力。
貢獻名單
就在GPT-4發布的同時,Open AI也公開了GPT-4這份組織架構及人員清單。
上下滑動以查看全部
######################## ############北大陳寶權教授稱,######
再好看的電影,最後的演員名單也不會有人從頭看到尾。 Open AI的這台戲連這個也不走尋常路。毫無疑問這將是一份不僅最被人閱讀,也被人仔細研究的「演職員」(貢獻者) 名單,而最大的看頭,是詳細的貢獻分類,幾乎就是一個粗略的部門設置架構了。
這個很「大膽」的公開其實意義挺深遠的,體現了Open AI背後的核心理念,也一定程度預示了未來進步的走向。
以上是GPT-4王者加冕!讀圖做題性能炸天,憑自己就能考上史丹佛的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

使用C 中的chrono庫可以讓你更加精確地控制時間和時間間隔,讓我們來探討一下這個庫的魅力所在吧。 C 的chrono庫是標準庫的一部分,它提供了一種現代化的方式來處理時間和時間間隔。對於那些曾經飽受time.h和ctime折磨的程序員來說,chrono無疑是一個福音。它不僅提高了代碼的可讀性和可維護性,還提供了更高的精度和靈活性。讓我們從基礎開始,chrono庫主要包括以下幾個關鍵組件:std::chrono::system_clock:表示系統時鐘,用於獲取當前時間。 std::chron

DMA在C 中是指DirectMemoryAccess,直接內存訪問技術,允許硬件設備直接與內存進行數據傳輸,不需要CPU干預。 1)DMA操作高度依賴於硬件設備和驅動程序,實現方式因係統而異。 2)直接訪問內存可能帶來安全風險,需確保代碼的正確性和安全性。 3)DMA可提高性能,但使用不當可能導致系統性能下降。通過實踐和學習,可以掌握DMA的使用技巧,在高速數據傳輸和實時信號處理等場景中發揮其最大效能。

在C 中處理高DPI顯示可以通過以下步驟實現:1)理解DPI和縮放,使用操作系統API獲取DPI信息並調整圖形輸出;2)處理跨平台兼容性,使用如SDL或Qt的跨平台圖形庫;3)進行性能優化,通過緩存、硬件加速和動態調整細節級別來提升性能;4)解決常見問題,如模糊文本和界面元素過小,通過正確應用DPI縮放來解決。

C 在實時操作系統(RTOS)編程中表現出色,提供了高效的執行效率和精確的時間管理。 1)C 通過直接操作硬件資源和高效的內存管理滿足RTOS的需求。 2)利用面向對象特性,C 可以設計靈活的任務調度系統。 3)C 支持高效的中斷處理,但需避免動態內存分配和異常處理以保證實時性。 4)模板編程和內聯函數有助於性能優化。 5)實際應用中,C 可用於實現高效的日誌系統。

在C 中測量線程性能可以使用標準庫中的計時工具、性能分析工具和自定義計時器。 1.使用庫測量執行時間。 2.使用gprof進行性能分析,步驟包括編譯時添加-pg選項、運行程序生成gmon.out文件、生成性能報告。 3.使用Valgrind的Callgrind模塊進行更詳細的分析,步驟包括運行程序生成callgrind.out文件、使用kcachegrind查看結果。 4.自定義計時器可靈活測量特定代碼段的執行時間。這些方法幫助全面了解線程性能,並優化代碼。

在MySQL中,添加字段使用ALTERTABLEtable_nameADDCOLUMNnew_columnVARCHAR(255)AFTERexisting_column,刪除字段使用ALTERTABLEtable_nameDROPCOLUMNcolumn_to_drop。添加字段時,需指定位置以優化查詢性能和數據結構;刪除字段前需確認操作不可逆;使用在線DDL、備份數據、測試環境和低負載時間段修改表結構是性能優化和最佳實踐。

交易所內置量化工具包括:1. Binance(幣安):提供Binance Futures量化模塊,低手續費,支持AI輔助交易。 2. OKX(歐易):支持多賬戶管理和智能訂單路由,提供機構級風控。獨立量化策略平台有:3. 3Commas:拖拽式策略生成器,適用於多平台對沖套利。 4. Quadency:專業級算法策略庫,支持自定義風險閾值。 5. Pionex:內置16 預設策略,低交易手續費。垂直領域工具包括:6. Cryptohopper:雲端量化平台,支持150 技術指標。 7. Bitsgap:

C 中使用字符串流的主要步驟和注意事項如下:1.創建輸出字符串流並轉換數據,如將整數轉換為字符串。 2.應用於復雜數據結構的序列化,如將vector轉換為字符串。 3.注意性能問題,避免在處理大量數據時頻繁使用字符串流,可考慮使用std::string的append方法。 4.注意內存管理,避免頻繁創建和銷毀字符串流對象,可以重用或使用std::stringstream。
