特斯拉前AI總監Karpathy解密離職與純視覺方案
特斯拉前人工智慧總監,新晉AI網紅老師Andrej Karpathy近日參加了MIT人工智慧專家Lex Fridman的播客節目。對人工智慧愛好者來說,這次訪談可謂是「雙廚狂喜」。
在將近三個半小時的訪談中,兩人談論了人工智慧、宇宙、人類社會等宏大命題,也具體討論了特斯拉的多項技術,如自動駕駛、Optimus人形機器人、和特斯拉視覺方案。此外,兩人還聊到了觀眾最關心的Andrej的離職,以及特斯拉取消超音波雷達的原因。
不用雷達:貴還難使!
特斯拉去年從感測器套件中刪除了毫米波雷達,剛剛宣布要移除所有超音波雷達,只保留攝影機,採用純視覺方案。 Lex問道:「這使車輛的道路探測變得更難還是更容易?」
Karpathy表示:「人們大都會認為這些感測器是汽車的不可或缺的資產,但如果充分考慮產品的整體性,這些感測器實際上是潛在的負擔。」
「這些感測器不是免費的,不可能憑空出現在車上。不僅需要有一個完整的供應鏈,還需要有人負責採購,」而這些都是要花真金白銀的。
同時,感測器可能會發生故障,需要更換。 「作為汽車製造的一部分,感測器的生產還可能拖累整體進度。所以,你不僅需要採購和維護,還必須有編寫韌體的團隊。」
不僅如此,使用雷達感測器也會導致探測系統的冗餘。 Karpathy說:「把它們納入汽車系統後,會導致系統整體的過度膨脹。」
安裝這麼多的感測器對資料引擎也會造成壓力。隨時間不斷發展,感測器的功能越來越細緻。 「現在有太多的雷達,每個的功能都不盡相同。這造成了探測系統的過度膨脹。此外,過多的雷達還會互相干擾,影響效果。」
他高度讚揚前老闆馬斯克化繁為簡的能力,「我認為伊隆很擅長簡化,他曾說:『最好的零件是沒有零件。』他總是會試著拋棄那些不重要的東西,一直在做減法,因為他了解組織的熵增現象。」
成本高,問題多,需要人員不斷修復。還會帶來探測系統的冗餘。在這種情況下,安裝雷達的成本很高,並且沒有很大的發展潛力。
「身為電腦視覺工程師,想改善車輛的偵測網絡,就會考慮增加感測器是否有用,有多大用處。我們進行對比試驗,真正確定雷達是否能給車主提供非常有用的路況資訊。但結果顯示差異並不大,這說明雷達並沒有用。」
Karpathy不僅解釋特斯拉拋棄這項技術的原因,還斷言其他汽車公司也會做出相同的選擇。 「和光達相似,我認為超音波雷達不能提供很多額外資訊。我認為其他還在用光達的公司也會拋棄這項技術的。」
純視覺方案:更勝一籌
Karpathy對於純視覺方案抱持著很大希望。 「如果選擇純視覺方案,我們可以集中所有資源,建立強大的資料引擎。」
「這種感測器的頻寬非常高,我們在這方面取得了實質進展。只要大力投資該技術,就可以獲得非凡的成就。」
Karpathy表示,純視覺方案既是必要的,也是充分的。某種意義上講,世界是為了人類的視覺消費而被設計出來的,人們有視覺上的需求。
同時,此方案能提供所有駕駛者所需的全部駕駛資訊。 「因此,我們必須集中資源發展這項技術,並不斷問自己:『我真的要引入其他的感測器嗎?』我認為這種情況下的答案是否定的。」
雖然純視覺方案獲得Karpathy的大力支持,但當Lex問及如何看待雷射雷達和純視覺方案,以及點雲和體素之間的區別時,Karpathy坦言:兩者不是自動化駕駛的重點。
他說:「我一直看不懂這個爭論。因為這不是問題的核心。我覺得大家在討論自動化時應該關注是否有路測車隊作為支撐。這個才是人工智慧系統能否更好服務的關鍵。」
因此,在考慮感測器的探測能力時必須要全面。包括能否提供路測車隊來收集大量數據,能否整合感測器與數據,並將感測器整合到數據引擎中,實現數據不同部分的快速搜索,之後不斷改進所使用的模型。
公分地圖:沒必要!
當被問及如何看待其他公司製作營運地區的自動駕駛汽車高清地圖時,Karpathy表示:「太瘋狂了!」
「我們一直在談論自動駕駛如何改變世界,談論全球範圍內該技術如何運用到交通領域。如果你需要持續提供一個厘米級精準的世界或城市地圖,並保持更新頻率,這個成本太大了。」
當Lex問這種做法是否會擴展到美國的整個地區時,Karpathy用特斯拉的例子現身說法:「人們不需要如此高精度的地圖。一個低精度的地圖足以展現路況和前方路段等關鍵資訊。駕駛者可以像看谷歌地圖一樣,透過這些關鍵資訊理解自己所處環境。」
「特斯拉在駕駛系統中使用和谷歌地圖類似分辨率的信息。但不會預先繪製厘米級精度的地圖。這種做法畫蛇添足,費力不討好,還稀釋了團隊能力,讓技術人員無法專注於真正必要的東西,那就是電腦視覺問題。」
離職後還會回來?這就是愛
在談到為何離開特斯拉時,Karpathy表示這是個艱難的決定。雖然特斯拉還未完全實現自動化駕駛,但研發團隊已經可以自行發展。這次離職也給他一個機會,重新檢視自己對人工智慧、開源和教育的熱愛。
此前,他供職特斯拉已有5年,直接向大老闆馬斯克匯報,在特斯拉的一眾高管中,絕對算得上是老資格了。據報道,此前這位李飛飛的高徒已經休假了幾個月時間,之前還曾說過,近期結束休假後就將重返特斯拉,結果直接宣布離職了。
Karpathy表示:「很高興在過去5年協助特斯拉一起實現了眾多目標,離開的決定其實是個艱難的選擇。這5年裡,自動駕駛完成了『畢業』,從蹣跚尋路開始,開上了城市的街頭。我無比期待未來更強大的自動駕駛團隊能夠繼續輝煌下去。」
關於離職後的未來打算,他表示:「未來還沒什麼具體的計劃,可能回歸自己擁有長期熱情的領域,例如AI技術工作、開源和教育等。」
當然,他在訪談中也提到重回特斯拉的可能性:「或許在某個時候我會回來,在特斯拉從事Optimus或AGI (通用人工智慧)的工作。特斯拉將是一個了不起的公司,可以創造非凡。在這個大規模的機器人公司,有才華的設計師們正創造前所未有的新事物。」
從特斯拉高層到網紅老師,Karpathy可以為了人工智慧離開特斯拉,也可以為了人形機器人和AGI有朝一日重返崗位。他追求的不是物質與地位,而是科技的不斷進步。這和其導師李飛飛畢業後拒絕轉行,堅守電腦影像辨識研究的行為異曲同工。或許,這就是「有其師必有其徒」吧!
以上是特斯拉前AI總監Karpathy解密離職與純視覺方案的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

智慧型應用程式控制是Windows11中非常有用的工具,可幫助保護你的電腦免受可能損害資料的未經授權的應用程式(如勒索軟體或間諜軟體)的侵害。本文將解釋什麼是智慧型應用程式控制、它是如何運作的,以及如何在Windows11中開啟或關閉它。什麼是Windows11中的智慧型應用控制?智慧型應用程式控制(SAC)是Windows1122H2更新中引入的新安全功能。它與MicrosoftDefender或第三方防毒軟體一起運行,以阻止可能不必要的應用,這些應用程式可能會減慢設備速度、顯示意外廣告或執行其他意外操作。智慧應用

好強大的AI模仿能力,真的防不住,完全防不住。現在AI的發展已經達到這種程度了嗎?你前腳讓自己的五官亂飛,後腳,一模一樣的表情就被復現出來,瞪眼、挑眉、噘嘴,不管多麼誇張的表情,都模仿的非常到位。加大難度,讓眉毛挑的再高些,眼睛睜的再大些,甚至連嘴型都是歪的,虛擬人物頭像也能完美復現表情。當你在左邊調整參數時,右邊的虛擬頭像也會相應地改變動作給嘴巴、眼睛一個特寫,模仿的不能說完全相同,只能說表情一模一樣(最右邊)。這項研究來自慕尼黑工業大學等機構,他們提出了GaussianAvatars,這種

一個可以自動分析PDF、網頁、海報、Excel圖表內容的大模型,對於打工人來說簡直不要太方便。上海AILab,香港中文大學等研究機構提出的InternLM-XComposer2-4KHD(簡寫為IXC2-4KHD)模型讓這一切成為了現實。相較於其他多模態大模型不超過1500x1500的分辨率限制,該工作將多模態大模型的最大輸入影像提升到超過4K(3840x1600)分辨率,並支援任意長寬比和336像素~4K動態解析度變化。發布三天,模型就登頂HuggingFace視覺問答模型熱度排行榜第一。輕鬆拿捏

本文經自動駕駛之心公眾號授權轉載,轉載請洽出處。原標題:MotionLM:Multi-AgentMotionForecastingasLanguageModeling論文連結:https://arxiv.org/pdf/2309.16534.pdf作者單位:Waymo會議:ICCV2023論文想法:對於自動駕駛車輛安全規劃來說,可靠地預測道路代理未來行為是至關重要的。本研究將連續軌跡表示為離散運動令牌序列,並將多智能體運動預測視為語言建模任務。我們提出的模型MotionLM有以下幾個優點:首

原標題:TowardsRealisticSceneGenerationwithLiDARDiffusionModels論文連結:https://hancyran.github.io/assets/paper/lidar_diffusion.pdf程式碼連結:https://lidar-diffusion.github.io作者單位:CMU豐田研究院南思路加州大學論文:擴散模型(DMs)在逼真的圖像合成方面表現出色,但將其適配到雷射雷達場景生成中存在著重大挑戰。這主要是因為在點空間運作的DMs很難

軌跡預測近兩年風頭正猛,但大都聚焦於車輛軌跡預測方向,自動駕駛之心今天就為大家分享頂會NeurIPS上關於行人軌跡預測的演算法—SHENet,在受限場景中人類的移動模式通常在一定程度上符合有限的規律。基於這個假設,SHENet透過學習隱含的場景規律來預測一個人的未來軌跡。文章已經授權自動駕駛之心原創!作者的個人理解由於人類運動的隨機性和主觀性,目前預測一個人的未來軌跡仍然是一個具有挑戰性的問題。然而,由於場景限制(例如平面圖、道路和障礙物)以及人與人或人與物體的互動性,在受限場景中人類的移動模式通

《ComputerWorld》雜誌曾經寫過一篇文章,說“編程到1960年就會消失”,因為IBM開發了一種新語言FORTRAN,這種新語言可以讓工程師寫出他們所需的數學公式,然後提交給電腦運行,所以程式設計就會終結。圖片又過了幾年,我們聽到了一種新說法:任何業務人員都可以使用業務術語來描述自己的問題,告訴電腦要做什麼,使用這種叫做COBOL的程式語言,公司不再需要程式設計師了。後來,據說IBM開發了一門名為RPG的新程式語言,可以讓員工填寫表格並產生報告,因此大部分企業的程式設計需求都可以透過它來完成圖

身高1.65米,體重55公斤,全身44個自由度,能夠快速行走、敏捷避障、穩健上下坡、抗衝擊幹擾的人形機器人,現在可以帶回家了!傅利葉智慧的通用人形機器人GR-1已開啟預售機器人大講堂傅利葉智慧FourierGR-1通用人形機器人現已開放預售。 GR-1擁有高度仿生的軀幹構型和擬人化的運動控制,全身44個自由度,具備行走、避障、越障、上下坡、抗干擾、適應不同路面等運動能力,是通用人工智慧的理想載體。官網預售頁:www.fftai.cn/order#FourierGR-1#傅利葉智能需要改寫的內
