李飛飛解讀創業方向「空間智能」,讓AI真正理解世界
李飛飛創業選擇的「空間智能」,完整的 TED 解讀影片公佈了。
前段時間,路透社獨家報道了知名「AI 教母」李飛飛正在創建一家新創公司,並完成了種子輪融資。
在介紹這家新創公司時,一位資訊人士引用了李飛飛在溫哥華 TED 上的一次演講,表明他在此次 TED 演講中介紹了空間智能的概念。
就在今天,李飛飛在 X 上放出了她在溫哥華 TED 上的完整演講影片。 她在X 上介紹稱,「空間智能是人工智慧拼圖中的關鍵一環。這是我2024 年有關從進化到人工智慧歷程的TED 演講,也涉及到我們如何建構空間智慧。
為了進一步解釋「空間智慧」這個概念,他展示了一張貓伸出爪子將玻璃杯推向桌子邊緣的圖片。他表示,在一瞬間,人類大腦可以評估“這個玻璃杯的幾何形狀,它在三維空間中的位置,它與桌子、貓和所有其他東西的關係”,然後預測會發生什麼,並採取行動加以阻止。
以下為李飛飛在2024TED 的演講實錄:
我先給大家展示一下,這是5.4 億年前的世界,充滿了純粹而無盡的黑暗。這種黑暗並非因為缺乏光源,而是因為缺乏觀察的眼睛。儘管陽光穿透了海洋表面,深入到1000 公尺之下,來自海底熱液噴口的光線照亮了充滿生命力的海底,但在這些古老水域中,找不到一隻眼睛,沒有視網膜,沒有角膜,沒有晶狀體。因此,所有的光線,所有的生命體都是不可視的。
曾經有一個時代,「看見」這個概念本身並不存在,直到三葉蟲的出現,它們是第一批能夠感知光線的生物,標誌著一個全新世界的開始。它們首次意識到,除了自己,還有更廣闊的世界存在。 這種視覺能力可能催生了寒武紀大爆發,讓大量動物物種開始在化石記錄中留下痕跡。從被動地感受光線,到主動地用視覺去理解世界,生物的神經系統開始進化,視覺轉化為洞察力,進而引導行動,最終產生了智能。
如今,我們不再滿足於大自然賦予的視覺智能,而是渴望創造能像我們一樣,甚至更聰明地「看」的機器。
九年前,我在這個舞台上介紹了電腦視覺領域的早期進展,這是人工智慧的一個子領域。那時,神經網路演算法、圖形處理器(GPU)和大數據首次結合,共同開啟了現代人工智慧的新紀元。例如我的實驗室花費數年整理的含有 1500 萬張圖像的資料集,即 ImageNet 資料集。我們的進步非常迅速,從最初的影像標註到現在,演算法的速度和準確性都有了顯著提升。我們甚至開發了能夠識別圖像中的物件並預測它們之間關係的演算法。這些工作是由我的學生和合作者完成的。
回想上一次我向大家展示了第一個能夠用人類自然語言描述照片的電腦視覺演算法。那是我與我的學生 Andrej Karpathy 共同完成的工作。那時,我碰運氣說,「Andrej,我們能造出反向的電腦嗎?」Andrej 說:「哈哈,這是不可能的。」正如你從這篇文章中看到的,最近這個不可能已經變成可能了。這都要歸功於一系列擴散模型,這些模型為今天的生成性人工智慧演算法提供了動力,該演算法可以將人類提示的句子轉化為全新的照片和影片。
許多人已經目睹了由 OpenAI 的 Sora 所創造的令人讚嘆的錄像作品。然而,即便沒有大量的 GPU 資源,我的學生和我們的合作者還是在 Sora 之前幾個月,成功開發了一個名為 Walt 的生成式視訊模型。
儘管如此,我們仍在不斷探索和改進。我們注意到生成的影片中仍有一些不完美的地方,例如貓的眼睛以及它穿過波浪而不被淋濕的細節處理。但正如過去的經驗告訴我們的,我們將從這些錯誤中學習,不斷進步,創造一個我們夢想中的未來。在那個未來,我們希望人工智慧能夠為我們做更多的事情,或幫助我們做得更好。
多年來我一直強調,拍照和真正地「看」並理解是兩回事。今天,我想補充一點。僅僅看見是不夠的。真正的「看」是為了行動和學習。當在三維空間和時間中採取行動時,我們將透過觀察來學習如何做得更好。自然界透過「空間智能」創造了一個良性循環,將視覺和行動連結起來。
為了說明空間智慧是如何運作的,看看這張照片。如果你突然有種衝動想要做點什麼,那就表示你的大腦已經在瞬間分析了這個玻璃杯的幾何形狀、它在空間中的位置,以及它與周圍物體的關係。這種想要行動的衝動是所有具有空間智能的生物的本能,它將感知和行動緊密相連。
如果我們想讓人工智慧超越現有的能力,我們不僅需要它能看會說,更需要它能行動。在這方面,我們已經取得了令人興奮的進展。最新的空間智慧里程碑是教導電腦看、學習、行動,並且不斷學習如何更好地看待和行動,這並不容易,因為自然花了數百萬年才進化出依賴眼睛接收光線、將二維圖像轉化為三維資訊的空間智能。
直到最近,一組來自Google的研究人員才開發出一種演算法,將一組照片轉化為三維空間,就像我們在這裡展示的例子一樣。我的學生和我們的合作者更進一步,創建了一個演算法,它只輸入一張圖像,就可以將其轉換為三維形狀。這裡有更多的例子。
回想一下,我們曾談論過一種電腦程序,可以將人類的語言描述轉化為影片。密西根大學的一組研究人員找到一種方法,將一句話轉化為三維房間佈局。我和史丹佛的同事以及我們的學生開發了一個演算法,只輸入一張圖像,就創造出無限多個可能的空間,供觀眾探索。
這些都是我們在空間智慧領域取得的令人興奮的進展,也預示著我們未來世界的可能性。屆時,人類可以將整個世界轉化為數位形式,這個數位世界能夠模擬出現實世界的豐富性和細微之處。
隨著空間智能的進步加速,這個良性循環的新時代正在我們眼前展開。這種來回的互動正在催化機器人學習,這是任何需要理解和與三維世界互動的具身智慧系統的關鍵組成部分。
十年前,我的實驗室開發的 ImageNet 啟用了一個包含數百萬張高品質照片的資料庫,用於訓練電腦視覺。今天,我們正在收集行為和動作的行為「ImageNet」,來訓練電腦和機器人如何在三維世界中行動。但這次收集的不是靜態影像,而是在建構由三維空間模型驅動的模擬環境。這樣,計算機就可以有無限的可能性來學習如何行動。
我們也在機器人語言智慧方面取得了令人興奮的進展。使用基於大型語言模型的輸入,我的學生和合作者們成為了第一批做出了根據口頭指令能夠讓機械臂執行各種任務的團隊,例如它可以打開某個抽屜或拔掉手機的充電線,或者它可以製作三明治,加了麵包、生菜、番茄,甚至還能為你放一張餐巾紙。通常我對三明治的要求可能要高於機械手臂做的,但這是個不錯的開始。
在我們的古代,在那片原始海洋中,觀察和感知周圍環境的能力,開啟了寒武紀時期生物物種的大爆發。今天,這道光正在觸及「數位形式的生命」,空間智能讓機器不僅能彼此互動,還能與人類或與真實或虛擬形態的三維世界互動,隨著這個未來逐漸成形,它將對許多人的生活產生深遠影響。
讓我們以醫療保健為例,在過去的十年裡,我的實驗室已經邁出了第一步,探索如何應用人工智慧來影響患者治療的效果以及如何應對醫務人員疲勞的挑戰。
我們與史丹佛醫學院以及其他醫院的合作者正在試用智慧感測器。它能夠檢測到臨床醫生在沒有正確洗手的情況下進入病房,並追蹤手術器械,或在患者面臨風險時,如跌倒時,提醒護理團隊。這些技術是一種環境智能,就像多了一雙眼睛,確實能為世界帶來改變。我更希望為我們的患者、臨床醫生和護理人員提供更多互動的幫助,他們迫切需要額外的一雙手。想像一下,一個自主機器人可以在護理人員專注於病人的時候運送醫療用品,或者在擴增實境中,引導外科醫生進行更安全、更快、更少侵入式的操作。
或想像一下這種場景,嚴重癱瘓的患者可以用他們的思想控制機器人。沒錯,用腦波來完成你和我視為理所當然的日常任務。你可以從我的實驗室最近的實驗中窺見這種未來的可能性。在這個影片中,機械手臂正在烹飪一份日本壽喜鍋,它完全是由大腦電訊號控制的,這些訊號透過 EEG 腦電帽非侵入性收集。
大約五億年前,視覺的出現顛覆了黑暗的世界,它引發了最深刻的演化過程:動物世界中智力的發展。過去十年間,人工智慧的驚人進展同樣令人驚嘆。但我相信,直到我們用空間智慧驅動的電腦和機器人,這場數位寒武紀大爆發的全部潛力才會完全實現,就像大自然曾對人類所做的那樣。
這將是一個令人興奮的時刻,我們的數位伴侶將學會推理,並與人類世界這個美麗的三維空間互動,同時也創造更多我們可以探索的新世界。要實現這一未來並非易事。它需要深思熟慮,始終以人為本開發技術。但如果我們處理得好,由空間智慧驅動的電腦和機器人不僅會成為有用的工具,還將成為值得信賴的夥伴,提升人類生產力,促進人類和諧共處。同時,我們個人的尊嚴也將更加凸顯,引領人類社會的共同繁榮。
最讓我對未來感到興奮的是,AI 將變得更加敏銳、更有洞察力,並具有空間意識。它們將與人類同行,不斷追求用更好的方式,創造更美好的世界。
以上是李飛飛解讀創業方向「空間智能」,讓AI真正理解世界的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

但可能打不過公園裡的老大爺?巴黎奧運正在如火如荼地進行中,乒乓球項目備受關注。同時,機器人打乒乓球也取得了新突破。剛剛,DeepMind提出了第一個在競技乒乓球比賽中達到人類業餘選手等級的學習型機器人智能體。論文地址:https://arxiv.org/pdf/2408.03906DeepMind這個機器人打乒乓球什麼程度呢?大概和人類業餘選手不相上下:正手反手都會:對手採用多種打法,機器人也能招架得住:接不同旋轉的發球:不過,比賽激烈程度似乎不如公園老大爺對戰。對機器人來說,乒乓球運動

8月21日,2024世界機器人大會在北京隆重召開。商湯科技旗下家用機器人品牌「元蘿蔔SenseRobot」家族全系產品集體亮相,並最新發布元蘿蔔AI下棋機器人-國際象棋專業版(以下簡稱「元蘿蔔國象機器人」),成為全球首個走進家庭的西洋棋機器人。作為元蘿蔔的第三款下棋機器人產品,全新的國象機器人在AI和工程機械方面進行了大量專項技術升級和創新,首次在家用機器人上實現了透過機械爪拾取立體棋子,並進行人機對弈、人人對弈、記譜複盤等功能,

開學將至,該收心的不只即將開啟新學期的同學,可能還有AI大模型。前段時間,Reddit擠滿了吐槽Claude越來越懶的網友。 「它的水平下降了很多,經常停頓,甚至輸出也變得很短。在發布的第一周,它可以一次性翻譯整整4頁文稿,現在連半頁都輸出不了!」https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/在一個名為“對Claude徹底失望了的帖子裡”,滿滿地

在北京舉行的世界機器人大會上,人形機器人的展示成為了現場絕對的焦點,在星塵智能的展台上,由於AI機器人助理S1在一個展區上演揚琴、武術、書法三台大戲,能文能武,吸引了大量專業觀眾和媒體的駐足。在有彈性的琴弦上優雅的演奏,讓S1展現出速度、力度、精準度兼具的精細操作與絕對掌控。央視新聞對「書法」背後的模仿學習和智慧控制進行了專題報道,公司創始人來傑解釋到,絲滑動作的背後,是硬體側追求最好力控和最仿人身體指標(速度、負載等),而是在AI側則採集人的真實動作數據,讓機器人遇強則強,快速學習進化。而敏捷

本屆ACL大會,投稿者「收穫滿滿」。為期六天的ACL2024正在泰國曼谷舉辦。 ACL是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL在NLP領域的學術影響力都名列第一,它也是CCF-A類推薦會議。今年的ACL大會已是第62屆,接收了400餘篇NLP領域的前沿工作。昨天下午,大會公佈了最佳論文等獎項。此次,最佳論文獎7篇(兩篇未公開)、最佳主題論文獎1篇、傑出論文獎35篇。大會也評出了資源論文獎(ResourceAward)3篇、社會影響力獎(

視覺與機器人學習的深度融合。當兩隻機器手絲滑地互相合作疊衣服、倒茶、將鞋子打包時,加上最近老上頭條的1X人形機器人NEO,你可能會產生一種感覺:我們似乎開始進入機器人時代了。事實上,這些絲滑動作正是先進機器人技術+精妙框架設計+多模態大模型的產物。我們知道,有用的機器人往往需要與環境進行複雜精妙的交互,而環境則可被表示成空間域和時間域上的限制。舉個例子,如果要讓機器人倒茶,那麼機器人首先需要抓住茶壺手柄並使之保持直立,不潑灑出茶水,然後平穩移動,一直到讓壺口與杯口對齊,之後以一定角度傾斜茶壺。這

會議簡介隨著科技的快速發展,人工智慧成為了推動社會進步的重要力量。在這個時代,我們有幸見證並參與分散式人工智慧(DistributedArtificialIntelligence,DAI)的創新與應用。分散式人工智慧是人工智慧領域的重要分支,這幾年引起了越來越多的關注。基於大型語言模型(LLM)的智能體(Agent)異軍突起,透過結合大模型的強大語言理解和生成能力,展現了在自然語言互動、知識推理、任務規劃等方面的巨大潛力。 AIAgent正在接棒大語言模型,成為目前AI圈的熱門話題。 Au

今天下午,鸿蒙智行正式迎来了新品牌与新车。8月6日,华为举行鸿蒙智行享界S9及华为全场景新品发布会,带来了全景智慧旗舰轿车享界S9、问界新M7Pro和华为novaFlip、MatePadPro12.2英寸、全新MatePadAir、华为毕昇激光打印机X1系列、FreeBuds6i、WATCHFIT3和智慧屏S5Pro等多款全场景智慧新品,从智慧出行、智慧办公到智能穿戴,华为全场景智慧生态持续构建,为消费者带来万物互联的智慧体验。鸿蒙智行:深度赋能,推动智能汽车产业升级华为联合中国汽车产业伙伴,为
