當GPT-4學會看圖文，一場生產力革命已勢不可擋-人工智慧-PHP中文網

處理圖文，從做好底層視覺開始

從字到表，再到篇章，一步一步讀懂圖文

大模型、多模態、世界模型… 未來路在何方？

首頁

科技週邊

人工智慧

當GPT-4學會看圖文，一場生產力革命已勢不可擋

青灯夜游

Mar 31, 2023 pm 10:38 PM

科技影像

來自學界和業界的多位研究者圍繞著「圖文智慧處理技術與多場景應用技術」展開了深入探討，

「太捲了！」

在經歷了 GPT-4 和微軟 Microsoft 365 Copilot 的連續轟炸後，相信很多人都有這樣的感想。

與 GPT-3.5 相比，GPT-4 在許多方面都實現了大幅提升，例如在模擬律師考試中，它從原來的倒數 10% 進化到了正數 10%。當然，一般人對於這些專業考試可能沒什麼概念。但如果給你看一張圖，你就明白它的提升有多麼恐怖了：

當GPT-4學會看圖文，一場生產力革命已勢不可擋

圖源：清華大學計算機系教授唐傑微博。連結：https://m.weibo.cn/detail/4880331053992765

這是一道物理題，GPT-4 被要求根據圖文逐步解題，這是GPT-3.5（此處指升級之前的ChatGPT 所依賴的模型）所不具備的能力。一方面，GPT-3.5 只被訓練用來理解文字，題中的圖它是看不懂的。另一方面，GPT-3.5 的解題能力也很弱，雞兔同籠都能把它難倒。但這一次，兩個問題似乎都解決得非常漂亮。

當所有人都以為這就是王炸的時候，微軟又放出了一個重磅炸彈：GPT-4 這些能力已經被整合到一個名為 Microsoft 365 Copilot 的新應用中。憑藉強大的圖文處理能力，Microsoft 365 Copilot 不僅可以幫你寫各種文檔，還能輕鬆地將文檔轉換成PPT、將Excel 資料自動總結成圖表…

當GPT-4學會看圖文，一場生產力革命已勢不可擋

從技術亮相到產品落地，OpenAI 和微軟只給了大眾兩天的反應時間。似乎在一夜之間，一場新的生產力革命已經到來。

由於改變來得太快，學界和業界都或多或少地處於一種迷茫和「FOMO（fear of missing out，怕錯過）」的狀態。目前，所有人都想知道一個答案：在這波浪潮中，我們能做些什麼？有哪些機會可以把握？而從微軟發布的 demo 中，我們可以找到一個清晰的突破口：圖文智慧處理。

在現實場景中，各行各業的許多工作都和圖文處理有關係，例如把非結構化資料整理成圖表、根據圖表寫報告、從海量的圖文資訊中抽取出有用資訊等等。也因為如此，這場革命的影響可能遠比許多人想像得還要深遠。 OpenAI 和華頓商學院最近發布的一篇重磅論文對這種影響做了預測：約80% 的美國勞動力至少有10% 的工作任務可能會受到GPT 引入的影響，而約19% 的工人可能會看到至少50% 的任務受到影響。可以預見，這裡面很大一部分工作是涉及圖文智能的。

在這樣一個切入點上，哪些研究工作或工程努力是值得探索的呢？在近期中國圖象圖形學會（CSIG）主辦，合合資訊、CSIG 文件影像分析與辨識專業委員會共同承辦的CSIG 企業行活動中，多位來自學界與業界的研究者圍繞著「 圖文智慧處理技術與多情境應用技術」展開了深入探討，或許能為關注圖文智慧處理領域的研究者、實務工作者提供一些啟發。

處理圖文，從做好底層視覺開始

前面提到，GPT-4 的圖文處理能力是非常令人震撼的。除了上面那個物理題，OpenAI 的技術報告裡還舉了其他例子，例如讓GPT-4 讀論文圖：

當GPT-4學會看圖文，一場生產力革命已勢不可擋

不過，要想讓這樣的技術廣泛落地，可能還有很多基礎工作要做，底層視覺就是其中之一。

底層視覺的特徵非常明顯：輸入是影像，輸出也是影像。影像預處理、濾波、恢復和增強等都屬於此範疇。

「底層視覺的理論和方法在眾多領域都有廣泛的應用，如手機、醫療影像分析、安防監控等。重視影像、影片內容品質的企業、機構不能不關注底層視覺方向的研究。如果底層視覺沒做好，很多high-level 視覺系統（如偵測、辨識、理解）無法真正落地。」合合資訊影像演算法研發總監郭豐俊在CSIG 企業行活動分享中表示。

這句話該怎麼理解？我們可以看一些例子：

當GPT-4學會看圖文，一場生產力革命已勢不可擋

和OpenAI、微軟demo 中所展示的理想情況不同，現實世界的圖文總是以充滿挑戰的形式存在，例如存在形變、陰影、摩爾紋，這會加大後續識別、理解等工作的難度。郭豐俊團隊的目標就是在初始階段把這些問題解決好。

為此，他們將這項任務分成了幾個模組，包括感興趣區域（RoI）的提取、形變矯正、圖像恢復（如去除陰影、摩爾紋）、質量增強（如增強銳化、清晰度）等。

這些技術組合起來可以創造一些非常有趣的應用。經過多年的摸索，這些模組已經實現了相當不錯的效果，相關技術已被應用於公司旗下的智慧文字辨識產品「掃描全能王」裡。

從字到表，再到篇章，一步一步讀懂圖文

圖片處理好之後，接下來的工作就是辨識上面的圖文內容。這也是一個非常細緻的工作，甚至可能以“字”為單位。

在許多現實場景中，字不一定會以規範的印刷體的形式出現，這就給字的辨識帶來了挑戰。

當GPT-4學會看圖文，一場生產力革命已勢不可擋

以教育場景為例。假設你是一位老師，你肯定想讓 AI 直接幫你把學生作業全部批改好，同時把學生對各部分知識的掌握情況匯總一下，最好還能把錯誤、錯字及改正建議給出來。 中國科技大學語音及語言訊息處理國家工程實驗室副教授杜俊就在做這方面的工作。

具體來說，他們創建了一套基於部首的漢字辨識、產生與評測系統，因為與整字建模相比，部首的組合要少得多。其中，辨識與生成是聯合優化的，這有點像是學生學習時識字與寫字互相強化的過程。評測的工作以往大多聚焦在文法層面，而杜俊的團隊設計了一種可以直接從影像中找出錯字並詳細說明錯誤之處的方法。這種方法在智慧閱卷等場景中將非常有用。

當GPT-4學會看圖文，一場生產力革命已勢不可擋

文字之外，表格的辨識與處理其實也是一大難點，因為你不僅要辨識裡面的內容，還要理清這些內容之間的結構關係，而且有些表可能連線框都沒有。為此，杜俊團隊設計了一種「先分割，後合併」的方法，即先把表格影像拆分成一系列基礎網格，然後再透過合併的方式做進一步修正。

當GPT-4學會看圖文，一場生產力革命已勢不可擋

杜俊團隊「先分割，後合併」的表格辨識方法。

當然，所有這些工作最後都會在篇章層級的文件結構化和理解方面發揮作用。在現實環境中，模型所面臨的文檔大多不只一頁（例如一篇論文）。在這一方向，杜俊團隊的工作聚焦於跨頁文件要素分類、跨頁文檔結構恢復等。不過，這些方法在多版式的場景下仍有其限制。

當GPT-4學會看圖文，一場生產力革命已勢不可擋

大模型、多模態、世界模型… 未來路在何方？

聊到篇章層級的圖文處理與理解，其實我們離 GPT-4 就不遠了。「多模態的 GPT-4 出來後，我們也在想能不能在這些方面做些事情」，杜俊在活動現場說到。相信許多圖文處理領域的研究者或從業者都有此想法。

一直以來，GPT 系列模型的目標都是努力提高通用性，最終實現通用人工智慧（AGI）。這次 GPT-4 所展現出的強大的圖文理解能力是這種通用能力的重要組成部分。想要做出一個擁有類似能力的模型，OpenAI 給了一些借鑒，也留下了不少謎團和未解決的問題。

首先，GPT-4 的成功表明，大模型多模態的做法是可行的。但大模型要研究哪些問題，多模態的誇張算力需求如何解決都是擺在研究者眼前的挑戰。

對於第一個問題，復旦大學電腦學院教授邱錫鵬給給了一些值得參考的方向。根據 OpenAI 先前透露的一些訊息，我們知道 ChatGPT 離不開幾項關鍵技術，包括情境學習（in-context learning）、思考鏈（chain of thought）和指令學習（learn from instructions）等。邱錫鵬在分享中指出，這幾個方向都還有很多待探討的問題，例如這些能力從哪裡來、如何繼續進步、如何利用它們去改造已有的學習典範等。此外，他還分享了對話式大型語言模型建構時應該考慮的能力以及將這些模型與現實世界對齊可以考慮的研究方向。

當GPT-4學會看圖文，一場生產力革命已勢不可擋

#對於第二個問題，廈門大學南強特聘教授紀榮嶸貢獻了一個重要思路。他認為，語言和視覺存在著天然的聯繫，二者的聯合學習已經是大勢所趨。但面對這波浪潮，任何一個高校或實驗室的力量都顯得微不足道。所以他現在從自己就職的廈大開始，試著說服研究人員將算力整合起來，形成一個網路去做多模態大模型。其實，在前段時間的活動上，專注於 AI for Science 的鄂維南院士也發表了類似看法，希望各界「敢於在原始創新方向上集中資源」。

不過，GPT-4 所走的路一定會通往通用人工智慧嗎？對此，有些研究者是存疑的，圖靈獎得主 Yann LeCun 就是其中之一。他認為，目前的這些大模型對於數據、算力的需求大得驚人，但學習效率卻很低（例如自動駕駛汽車）。因此，他創立了一套名為「世界模型」（即世界如何運作的內在模型）的理論，認為學習世界模型（可以理解為為真實世界跑個模擬）可能是實現 AGI 的關鍵。在活動現場，上海交通大學教授楊小康分享了他們在這個方向上的工作。具體來說，他的團隊著眼於視覺直覺的世界模型（因為視覺直覺資訊量大），試圖把視覺、直覺以及對時間、空間的感知建模好。最後，他也強調了數學、物理、資訊認知與電腦學科交叉對這類研究的重要性。

「毛毛蟲從食物中提取營養，然後變成蝴蝶。人們已經提取了數十億條理解的線索，GPT-4 是人類的蝴蝶。」在GPT-4 發布的第二天，深度學習之父Geoffrey Hinton 發了這樣一則推文。

當GPT-4學會看圖文，一場生產力革命已勢不可擋

目前，還沒有人能夠斷定這隻蝴蝶將掀起多大的颶風。但可以肯定的是，這還不是一隻完美的蝴蝶，整個 AGI 世界的拼圖也尚未完成。每位研究者、從業者都還有機會。

以上是當GPT-4學會看圖文，一場生產力革命已勢不可擋的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

Video Face Swap

使用我們完全免費的人工智慧換臉工具，輕鬆在任何影片中換臉！

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7866

Java教學

1649

CakePHP 教程

1407

Laravel 教程

1301

PHP教程

1243

Related knowledge

Stable Diffusion 3論文終於發布，架構細節大揭秘，對復現Sora有幫助？ Mar 06, 2024 pm 05:34 PM

StableDiffusion3的论文终于来了！这个模型于两周前发布，采用了与Sora相同的DiT（DiffusionTransformer）架构，一经发布就引起了不小的轰动。与之前版本相比，StableDiffusion3生成的图质量有了显著提升，现在支持多主题提示，并且文字书写效果也得到了改善，不再出现乱码情况。StabilityAI指出，StableDiffusion3是一个系列模型，其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行，从而显著降低了使用AI

自動駕駛與軌跡預測看這篇就夠了！ Feb 28, 2024 pm 07:20 PM

軌跡預測在自動駕駛中承擔著重要的角色，自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據，預測車輛未來的行駛軌跡。作為自動駕駛的核心模組，軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富，需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構（CNN&GNN&Transformer）技能等，入門難度很高！許多粉絲期望能夠盡快上手軌跡預測，少踩坑，今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法！入門相關知識1.預習的論文有沒有切入順序？ A：先看survey，p

DualBEV：大幅超越BEVFormer、BEVDet4D，開卷！ Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中，從不同視角（如透視圖和鳥瞰圖）準確檢測物體的問題，特別是如何有效地從透視圖（PV）到鳥瞰圖（BEV）空間轉換特徵，這一轉換是透過視覺轉換（VT）模組實施的。現有的方法大致分為兩種策略：2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵，但深度預測的固有不確定性，尤其是在遠處區域，可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵，並透過Transformer學習3D和2D特徵之間對應關係的注意力權重，這增加了計算和部署的

首個多視角自動駕駛場景影片產生世界模型 | DrivingDiffusion: BEV資料與模擬新思路 Oct 23, 2023 am 11:13 AM

作者的一些個人思考在自動駕駛領域，隨著BEV-based子任務/端到端方案的發展，高品質的多視圖訓練資料和相應的模擬場景建立愈發重要。針對當下任務的痛點，「高品質」可以解耦成三個面向：不同維度上的長尾場景：如障礙物資料中近距離的車輛以及切車過程中精準的朝向角，以及車道線資料中不同曲率的彎道或較難收集的匝道/匯入/合流等場景。這些往往靠大量的資料收集和複雜的資料探勘策略，成本高昂。 3D真值-影像的高度一致：當下的BEV資料取得往往受到感測器安裝/標定，高精地圖以及重建演算法本身的誤差影響。這導致了我

如何使用 iOS 17 在 iPhone 上編輯照片 Nov 30, 2023 pm 11:39 PM

行動攝影從根本上改變了我們捕捉和分享生活瞬間的方法。智慧型手機的出現，尤其是iPhone，在這一轉變中發揮了關鍵作用。 iPhone以其先進的相機技術和用戶友好的編輯功能而聞名，已成為業餘和經驗豐富的攝影師的首選。 iOS17的推出標誌著這趟旅程中的一個重要里程碑。 Apple的最新更新帶來了一套增強的照片編輯功能，為用戶提供了一個更強大的工具包，將他們的日常快照變成視覺上引人入勝且藝術豐富的圖像。這種技術的發展不僅簡化了攝影過程，還為創意表達開闢了新的途徑，使用戶能夠毫不費力地為他們的照片注入專業氣息

《我的世界》化身AI小鎮，NPC居民角色扮演如同真人 Jan 02, 2024 pm 06:25 PM

請留意，這個方塊人正在緊鎖眉頭，思考著面前幾位「不速之客」的身份。原來她陷入了危險境地，意識到這一點後，她迅速展開腦力搜索，尋找解決問題的策略。最終，她決定先逃離現場，然後儘快尋求幫助，並立即採取行動。同時，對面的人也在進行著與她相同的思考……在《我的世界》中出現了這樣一個場景，所有的角色都由人工智慧控制。他們每個人都有著獨特的身份設定，例如之前提到的女孩就是一個年僅17歲但聰明又勇敢的快遞員。他們擁有記憶和思考能力，在這個以《我的世界》為背景的小鎮中像人類一樣生活。驅動他們的，是一款全新的、

綜述！深度模型融合（LLM/基礎模型/聯邦學習/微調等） Apr 18, 2024 pm 09:43 PM

23年9月國防科大、京東和北理工的論文「DeepModelFusion:ASurvey」。深度模型整合/合併是一種新興技術，它將多個深度學習模型的參數或預測合併為一個模型。它結合了不同模型的能力來彌補單一模型的偏差和錯誤，以獲得更好的性能。而大規模深度學習模型（例如LLM和基礎模型）上的深度模型整合面臨一些挑戰，包括高運算成本、高維度參數空間、不同異質模型之間的干擾等。本文將現有的深度模型融合方法分為四類：（1）“模式連接”，透過一條損失減少的路徑將權重空間中的解連接起來，以獲得更好的模型融合初

不只3D高斯！最新綜述一覽最先進的3D重建技術 Jun 02, 2024 pm 06:57 PM

寫在前面&筆者的個人理解基於圖像的3D重建是一項具有挑戰性的任務，涉及從一組輸入圖像推斷目標或場景的3D形狀。基於學習的方法因其直接估計3D形狀的能力而受到關注。這篇綜述論文的重點是最先進的3D重建技術，包括產生新穎的、看不見的視野。概述了高斯飛濺方法的最新發展，包括輸入類型、模型結構、輸出表示和訓練策略。也討論了尚未解決的挑戰和未來的方向。鑑於該領域的快速進展以及增強3D重建方法的眾多機會，對演算法進行全面檢查似乎至關重要。因此，本研究對高斯散射的最新進展進行了全面的概述。（大拇指往上滑

See all articles

當GPT-4學會看圖文，一場生產力革命已勢不可擋

處理圖文，從做好底層視覺開始

從字到表，再到篇章，一步一步讀懂圖文

大模型、多模態、世界模型… 未來路在何方？

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題