史丹佛李飛飛創業後,首次揭秘新概念「空間智能」。
這不僅是她的創業方向,也是指引她的“北極星”,被她認為是“解決人工智慧難題的關鍵拼圖”。
視覺化為洞察;看見成為理解;理解導致行動。
在李飛飛15分鐘TED演講完整公開的基礎上,從數億年前生命演化的起源開始,到人類如何不滿足於自然賦予而發展人工智慧,直到下一步如何建構空間智能。
9年前,李飛飛在同一個舞台上,向世界介紹了剛誕生不久的ImageNet——這一輪深度學習爆發的起點之一。
她自己也向網友自我安麗:如果#把兩個影片都看了,你就能對過去10年的電腦視覺、空間智能和AI有很好的了解。
下面在不改變原意的基礎上,我們對李飛飛演講內容做整理。
#讓我向你展示一些東西,確切地說,我將向你展示「空無一物」。
這是5.4億年前的世界。純粹、無盡的黑暗。它之所以黑暗,並不是因為缺乏光線。它之所以黑暗,是因為缺乏視覺。
儘管陽光能夠穿透海洋表面下1000米,來自海底熱泉噴口的光線也能透到到海底,充滿了生命的海底,但這些古老的水域中找不到一隻眼睛。
沒有視網膜,沒有角膜,沒有水晶體。所以所有這些光線,所有這些生命,都未被看見。
曾經有一段時間,「看到」的概念還不存在。它曾經從未被實現過,直到它被實現了。
出於某種我們才開始理解的原因,能夠感知光線的第一批生物-三葉蟲出現了。它們是最早一批能夠感知我們習以為常的現實的生物。它們是最早一批發現除了自己之外還有其他事物存在的生物。
世界第一次充滿眾多「自我」。
視覺能力被認為引發了寒武紀大爆發,一個動物物種大量進入化石記錄的時期。最初是被動體驗,簡單讓光線進入的行為,很快變得更主動,神經系統開始演化。
視覺變成了洞察力。看變成了理解。理解導致了行動。
這一切都催生了智慧。
今天,我們不再滿足於自然所賦予的視覺能力。好奇心驅使我們創造機器,希望其視覺能力至少和我們一樣,甚至更好。
九年前,在這個舞台上,我提交了一份關於電腦視覺的早期進展報告。
當時,三個強大的力量首次匯聚在一起:
它們共同迎來了現代人工智慧時代。
從那時起就到現在,我們已經走了相當遠。
最開始,僅僅給圖像貼上標籤就是一個重大突破,但演算法的速度和準確性迅速提高。
由我的實驗室主辦的年度ImageNet挑戰賽衡量了這一進展。在這張圖表中,可以看到每年模型能力的提高,以及其中一些里程碑模型。
我們更進一步,創建了能夠分割視覺物件或預測它們之間動態關係的演算法,這些工作是由我的學生和合作者完成的。
還有更多。
回想上次演講我展示的第一個電腦視覺演算法,AI可以用人類的自然語言描述一張照片。那是我和聰明的學生Andrej Karpathy一起完成的工作。
當時,我大膽地說:「Andrej,我們能讓電腦做相反的事情嗎?」Andrej笑著說:「哈哈,那是不可能的。
這要歸功於一系列擴散模型,為當今的生成式AI演算法提供動力,可以將人類的提示詞轉化為照片和視頻,創造出全新的事物。
你們中許多人已經看到了OpenAI的Sora,最近取得令人印象深刻的成果。不過,早在幾個月前,在沒有大量GPU的情況下,我的學生和合作者就開發出了一個名為
Walt的AI影片生成模型。
△Walt發表於2023年12月這裡還有改進的空間,看看那隻貓的眼睛,它在波浪下從未被弄濕,好一個災~難~
(cat-astrophe)。
(諧音梗扣錢!)空間智能:僅僅看是不夠的
多年來,我一直在說拍照和看到和理解不是一回事。今天,我想再補充一點:光是看是不夠的。
看,是為了行動和學習。
當我們在3D時空中採取行動時,我們學習,我們學會更好地看,更好地做事。大自然透過「空間智能」創造了一個看和行動的良性循環。
為了展示空間智能是什麼,請看這張照片。
如果你有想要做點什麼的衝動,就舉起手。
在一剎那,你的大腦觀察了這個杯子的幾何形狀,它在3D空間中的位置,它與桌子、貓和所有其他物體的關係,而且你可以預測接下來會發生什麼。
行動的衝動是所有具有空間智慧的生物固有的,它將感知與行動連結起來。
如果我們想讓AI超越當前能力,我們不僅想要能夠看到和說話的AI,我們想要能夠行動的AI。
事實上,我們正在取得令人興奮的進展。
空間智能的最新里程碑是教導電腦看到、學習、行動,並學習看到和行動得更好。
而這並不容易。
大自然花了數百萬年時間進化出空間智能,眼睛捕捉光線,將2D影像投射到視網膜上,大腦將這些資料轉換成3D訊息。
直到最近,一群來自Google的研究人員才開發出演算法,將一組照片轉換成3D空間。
我的學生和合作者更進一步,創建了一個將單一圖像變成3D形狀的演算法。
密西根大學的一組研究人員找到了一個方法,將句子轉換成3D房間佈局。
我在史丹佛大學的同事和他的學生開發了一種演算法,可以從單一圖像生成無限可能的空間,供觀眾探索。
這些就是未來可能性的原型。在這個可能性中,人類可以將我們的整個世界轉化為數位形式,並模擬其豐富和細微之處。
大自然在我們每個人的腦海中隱性地做了什麼,空間智慧科技有望能為我們的集體意識(collective consciousness)做同樣的事情。
隨著空間智慧的加速進步,一個新時代在這個良性循環中正在我們眼前展開。這個循環正在催化機器人學習,這是任何需要理解和與3D世界互動的具身智慧系統的關鍵組成部分。
十年前,我的實驗室的ImageNet使數百萬張高品質照片的資料庫成為可能,幫助訓練電腦視覺。
今天,我們正在做類似的事情,訓練電腦和機器人如何在3D世界中行動。
這次我們不是收集靜態影像,而是開發由3D空間模型驅動的模擬環境,以便電腦可以學習行動的無限可能性。
你剛剛看到的是教導我們的機器人的一小部分例子,這是一個由我的實驗室領導的項目,稱為Behavior。
我們也在機器人語言智慧方面取得了令人興奮的進展。
使用基於大型語言模型的輸入,我學生以及合作者是第一批展示機械手臂可以根據口頭指令執行各種任務的團隊之一。
例如打開這個抽屜或拔掉電話線。或製作三明治,使用麵包、生菜、西紅柿,甚至為使用者放一張餐巾紙。通常情況下我希望三明治更豐富一些,但這是一個好的起點。
在古老時代的原始海洋中,能夠看到和感知環境的能力引發了與其他生命形式互動的寒武紀大爆發。
今天,那道光正在達到數字思維。
空間智慧不僅允許機器與彼此互動,還能與人類,以及真實或虛擬的3D世界互動。
隨著這個未來成形,它將對許多生命產生深遠的影響。
讓我們以醫療保健為例。在過去的十年中,我的實驗室一直在做初步努力,將AI應用於解決影響患者結果和醫療人員疲勞的挑戰。
與來自史丹佛醫學院的合作者和其他合作醫院一起,我們正在試驗一些智慧感測器,可以檢測到臨床醫生是否在沒有正確洗手的情況下進入病人房間。或追蹤手術器械,或在病人身體面臨風險,如跌倒時提醒護理團隊。
我們認為這些技術是一種環境智能,就像額外的眼睛。
#但我更希望為我們的病人、臨床醫生和護理人員提供更多的互動幫助,他們迫切需要額外的一雙手。
想像一下,一個自主機器人在護理人員專注於病人的同時運輸醫療用品,或者用增強現實技術,引導外科醫生進行更安全、更快、更少侵入性的操作。
再想像一下,嚴重癱瘓的病人可以用他們的思想控制機器人。沒錯,用腦波來執行你和我習以為常的日常任務。
這是最近我的實驗室進行的一項試驗研究。在這個影片中,機器人手臂僅透過大腦電訊號控制,正在烹飪一頓日本壽喜鍋餐。其中訊號非侵入性地透過EEG帽收集。
五億年前,視覺的出現顛覆了黑暗的世界,引發了最深刻的演化過程:動物世界的智慧發展。
過去十年AI的進步同樣令人驚嘆。但我相信,直到我們為電腦和機器人賦予空間智能,就像大自然對我們所有人所做的那樣,這場數位寒武紀大爆發的全部潛力才會完全展現。
這是一個激動人心的時刻,教導我們的數位夥伴學會推理,和與我們稱之為家的這個美麗的3D空間互動,同時也創造更多我們可以探索的新世界。
實現這一未來並不容易,它要求我們所有人深思熟慮,開發始終以人為本的技術。
但如果我們做得好,由空間智慧驅動的電腦和機器人不僅會成為有用的工具,還會成為值得信賴的伙伴,在尊重個人尊嚴的同時,提高我們的生產力、增強我們的人性,提升我們的集體繁榮。
在所有未來中我最興奮的,是一個AI變得更有感知、有洞察和空間意識,並與我們一道追求創造更好的世界的方法。
(全文完)
視頻回放:https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
以上是李飛飛揭秘創業方向「空間智能」:視覺化為洞察,看見成為理解,理解導致行動的詳細內容。更多資訊請關注PHP中文網其他相關文章!