李飛飛揭秘創業方向「空間智能」:視覺化為洞察,看見成為理解,理解導致行動
史丹佛李飛飛創業後,首次揭秘新概念「空間智能」。
這不僅是她的創業方向,也是指引她的“北極星”,被她認為是“解決人工智慧難題的關鍵拼圖”。
視覺化為洞察;看見成為理解;理解導致行動。
在李飛飛15分鐘TED演講完整公開的基礎上,從數億年前生命演化的起源開始,到人類如何不滿足於自然賦予而發展人工智慧,直到下一步如何建構空間智能。
9年前,李飛飛在同一個舞台上,向世界介紹了剛誕生不久的ImageNet——這一輪深度學習爆發的起點之一。
她自己也向網友自我安麗:如果#把兩個影片都看了,你就能對過去10年的電腦視覺、空間智能和AI有很好的了解。
下面在不改變原意的基礎上,我們對李飛飛演講內容做整理。
空間智能,讓AI理解現實世界
生物視覺的進化
#讓我向你展示一些東西,確切地說,我將向你展示「空無一物」。
這是5.4億年前的世界。純粹、無盡的黑暗。它之所以黑暗,並不是因為缺乏光線。它之所以黑暗,是因為缺乏視覺。
儘管陽光能夠穿透海洋表面下1000米,來自海底熱泉噴口的光線也能透到到海底,充滿了生命的海底,但這些古老的水域中找不到一隻眼睛。
沒有視網膜,沒有角膜,沒有水晶體。所以所有這些光線,所有這些生命,都未被看見。
曾經有一段時間,「看到」的概念還不存在。它曾經從未被實現過,直到它被實現了。
出於某種我們才開始理解的原因,能夠感知光線的第一批生物-三葉蟲出現了。它們是最早一批能夠感知我們習以為常的現實的生物。它們是最早一批發現除了自己之外還有其他事物存在的生物。
世界第一次充滿眾多「自我」。
視覺能力被認為引發了寒武紀大爆發,一個動物物種大量進入化石記錄的時期。最初是被動體驗,簡單讓光線進入的行為,很快變得更主動,神經系統開始演化。
視覺變成了洞察力。看變成了理解。理解導致了行動。
這一切都催生了智慧。
電腦視覺的崛起
今天,我們不再滿足於自然所賦予的視覺能力。好奇心驅使我們創造機器,希望其視覺能力至少和我們一樣,甚至更好。
九年前,在這個舞台上,我提交了一份關於電腦視覺的早期進展報告。
當時,三個強大的力量首次匯聚在一起:
- 一類稱為神經網路的演算法
- 快速、專門的硬件,稱為圖形處理單元,或GPU
- 再加上大數據,例如我的實驗室花數年時間整理的1500萬張圖像,稱為ImageNet。
它們共同迎來了現代人工智慧時代。
從那時起就到現在,我們已經走了相當遠。
最開始,僅僅給圖像貼上標籤就是一個重大突破,但演算法的速度和準確性迅速提高。
由我的實驗室主辦的年度ImageNet挑戰賽衡量了這一進展。在這張圖表中,可以看到每年模型能力的提高,以及其中一些里程碑模型。
我們更進一步,創建了能夠分割視覺物件或預測它們之間動態關係的演算法,這些工作是由我的學生和合作者完成的。
還有更多。
回想上次演講我展示的第一個電腦視覺演算法,AI可以用人類的自然語言描述一張照片。那是我和聰明的學生Andrej Karpathy一起完成的工作。
當時,我大膽地說:「Andrej,我們能讓電腦做相反的事情嗎?」Andrej笑著說:「哈哈,那是不可能的。
這要歸功於一系列擴散模型,為當今的生成式AI演算法提供動力,可以將人類的提示詞轉化為照片和視頻,創造出全新的事物。
你們中許多人已經看到了OpenAI的Sora,最近取得令人印象深刻的成果。不過,早在幾個月前,在沒有大量GPU的情況下,我的學生和合作者就開發出了一個名為
Walt的AI影片生成模型。
△Walt發表於2023年12月這裡還有改進的空間,看看那隻貓的眼睛,它在波浪下從未被弄濕,好一個災~難~
。
(諧音梗扣錢!)空間智能:僅僅看是不夠的
過去是一個序章,我們將從這些錯誤中學習,並創造一個我們想像中的未來。在這個未來,我們希望AI盡其所能為我們做事,或幫助我們做事。
多年來,我一直在說拍照和看到和理解不是一回事。今天,我想再補充一點:光是看是不夠的。
看,是為了行動和學習。
當我們在3D時空中採取行動時,我們學習,我們學會更好地看,更好地做事。大自然透過「空間智能」創造了一個看和行動的良性循環。
為了展示空間智能是什麼,請看這張照片。
如果你有想要做點什麼的衝動,就舉起手。
在一剎那,你的大腦觀察了這個杯子的幾何形狀,它在3D空間中的位置,它與桌子、貓和所有其他物體的關係,而且你可以預測接下來會發生什麼。
行動的衝動是所有具有空間智慧的生物固有的,它將感知與行動連結起來。
如果我們想讓AI超越當前能力,我們不僅想要能夠看到和說話的AI,我們想要能夠行動的AI。
事實上,我們正在取得令人興奮的進展。
空間智能的最新里程碑是教導電腦看到、學習、行動,並學習看到和行動得更好。
而這並不容易。
大自然花了數百萬年時間進化出空間智能,眼睛捕捉光線,將2D影像投射到視網膜上,大腦將這些資料轉換成3D訊息。
直到最近,一群來自Google的研究人員才開發出演算法,將一組照片轉換成3D空間。
我的學生和合作者更進一步,創建了一個將單一圖像變成3D形狀的演算法。
密西根大學的一組研究人員找到了一個方法,將句子轉換成3D房間佈局。
我在史丹佛大學的同事和他的學生開發了一種演算法,可以從單一圖像生成無限可能的空間,供觀眾探索。
這些就是未來可能性的原型。在這個可能性中,人類可以將我們的整個世界轉化為數位形式,並模擬其豐富和細微之處。
大自然在我們每個人的腦海中隱性地做了什麼,空間智慧科技有望能為我們的集體意識(collective consciousness)做同樣的事情。
隨著空間智慧的加速進步,一個新時代在這個良性循環中正在我們眼前展開。這個循環正在催化機器人學習,這是任何需要理解和與3D世界互動的具身智慧系統的關鍵組成部分。
十年前,我的實驗室的ImageNet使數百萬張高品質照片的資料庫成為可能,幫助訓練電腦視覺。
今天,我們正在做類似的事情,訓練電腦和機器人如何在3D世界中行動。
這次我們不是收集靜態影像,而是開發由3D空間模型驅動的模擬環境,以便電腦可以學習行動的無限可能性。
你剛剛看到的是教導我們的機器人的一小部分例子,這是一個由我的實驗室領導的項目,稱為Behavior。
我們也在機器人語言智慧方面取得了令人興奮的進展。
使用基於大型語言模型的輸入,我學生以及合作者是第一批展示機械手臂可以根據口頭指令執行各種任務的團隊之一。
例如打開這個抽屜或拔掉電話線。或製作三明治,使用麵包、生菜、西紅柿,甚至為使用者放一張餐巾紙。通常情況下我希望三明治更豐富一些,但這是一個好的起點。
空間智慧的應用前景
在古老時代的原始海洋中,能夠看到和感知環境的能力引發了與其他生命形式互動的寒武紀大爆發。
今天,那道光正在達到數字思維。
空間智慧不僅允許機器與彼此互動,還能與人類,以及真實或虛擬的3D世界互動。
隨著這個未來成形,它將對許多生命產生深遠的影響。
讓我們以醫療保健為例。在過去的十年中,我的實驗室一直在做初步努力,將AI應用於解決影響患者結果和醫療人員疲勞的挑戰。
與來自史丹佛醫學院的合作者和其他合作醫院一起,我們正在試驗一些智慧感測器,可以檢測到臨床醫生是否在沒有正確洗手的情況下進入病人房間。或追蹤手術器械,或在病人身體面臨風險,如跌倒時提醒護理團隊。
我們認為這些技術是一種環境智能,就像額外的眼睛。
#但我更希望為我們的病人、臨床醫生和護理人員提供更多的互動幫助,他們迫切需要額外的一雙手。
想像一下,一個自主機器人在護理人員專注於病人的同時運輸醫療用品,或者用增強現實技術,引導外科醫生進行更安全、更快、更少侵入性的操作。
再想像一下,嚴重癱瘓的病人可以用他們的思想控制機器人。沒錯,用腦波來執行你和我習以為常的日常任務。
這是最近我的實驗室進行的一項試驗研究。在這個影片中,機器人手臂僅透過大腦電訊號控制,正在烹飪一頓日本壽喜鍋餐。其中訊號非侵入性地透過EEG帽收集。
五億年前,視覺的出現顛覆了黑暗的世界,引發了最深刻的演化過程:動物世界的智慧發展。
過去十年AI的進步同樣令人驚嘆。但我相信,直到我們為電腦和機器人賦予空間智能,就像大自然對我們所有人所做的那樣,這場數位寒武紀大爆發的全部潛力才會完全展現。
這是一個激動人心的時刻,教導我們的數位夥伴學會推理,和與我們稱之為家的這個美麗的3D空間互動,同時也創造更多我們可以探索的新世界。
實現這一未來並不容易,它要求我們所有人深思熟慮,開發始終以人為本的技術。
但如果我們做得好,由空間智慧驅動的電腦和機器人不僅會成為有用的工具,還會成為值得信賴的伙伴,在尊重個人尊嚴的同時,提高我們的生產力、增強我們的人性,提升我們的集體繁榮。
在所有未來中我最興奮的,是一個AI變得更有感知、有洞察和空間意識,並與我們一道追求創造更好的世界的方法。
(全文完)
視頻回放:https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
以上是李飛飛揭秘創業方向「空間智能」:視覺化為洞察,看見成為理解,理解導致行動的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
