LeCun對自動駕駛獨角獸的造假行為深感失望
你以為這是一個普通的自動駕駛影片嗎?
圖片
這個內容需要重新寫成中文,而不改變原來的意思
沒有一幀是「真的」。
圖片
不同路況、各種天氣,20多種狀況都能模擬,效果以假亂真。
圖片
世界模型又立大功了!這不LeCun看了都激情轉發。
圖片
根據上述效果,這是由GAIA-1的最新版本帶來的
這個項目的規模達到了90億參數,透過4700小時的駕駛影片訓練,成功實現了輸入影片、文字或操作生成自動駕駛影片的效果
帶來的最直接好處就是-能更好預測未來事件,20多種場景都能模擬,進一步提升了自動駕駛的安全性、也降低了成本。
圖片
我們的主創團隊直言不諱地表示,這將徹底改變自動駕駛的遊戲規則!
所以GAIA-1是如何實現的?
規模越大效果越好
GAIA-1是一個具有多種模式的生成式世界模型
透過利用視訊、文字和動作作為輸入,該系統可以產生逼真的駕駛場景視頻,並且可以對自主車輛的行為和場景特徵進行精細控制
可以透過僅使用文字提示來產生視頻
圖片
其模型原理類似於大型語言模型,即預測下一個標記
模型可以利用向量量化表示將視訊幀離散,然後預測未來場景,就轉換成了預測序列中的下一個token。然後再利用擴散模型從世界模型的語言空間產生高品質視訊。
具體步驟如下:
圖片
#第一步簡單理解,就是對各種輸入進行重新編碼與排列組合。
透過使用專門的編碼器對各種輸入進行編碼,並將不同的輸入投射到共享表示中。文字和視訊編碼器將輸入分離、嵌入,而操作表示則被單獨投射到共享表示中
這些編碼的表示具有時間一致性。
在進行排列之後,關鍵部分世界模型登場。
作為一個自回歸Transformer,它能預測序列中的下一組影像token。而且它不僅考慮了先前的圖像token,還要兼顧文字和操作的上下文資訊。
模型產生的內容不僅保持了影像的一致性,還能與預測的文字和動作保持一致
團隊介紹,GAIA-1中的世界模型規模為65億參數,在64塊A100上訓練15天而成。
最後再利用視訊解碼器、視訊擴散模型,將這些token轉換回影片。
這一步驟的重要性在於確保影片的語意品質、影像準確度與時間一致性
GAIA-1的影片解碼器規模達26億參數規模,利用32台A100訓練15天而來。
值得一提的是,GAIA-1不僅與大型語言模型的原理相似,而且還展現出隨著模型規模擴大,生成質量提升的特點
圖片
團隊對先前發布的六月早期版本和最新效果進行了比較
後者規模為前者的480倍。
可以直觀看影片在細節、解析度等方面都有明顯提升。
圖片
從實際應用的角度來看,GAIA-1的出現也帶來了一些影響,其主創團隊表示,這將改變自動駕駛的規則
圖片
原因可以從三個面向來解釋:
- 安全性
- 綜合訓練資料
- 長尾場景
首先安全方面,世界模型能夠透過模擬未來,讓AI有能力意識到自己的決定,這對自動駕駛的安全性來說很關鍵。
其次,對於自動駕駛來說,訓練資料也是非常重要的。產生的數據具有更高的安全性和成本效益,並且可以無限擴展
生成式AI可以解決自動駕駛面臨的長尾場景挑戰之一。它可以處理更多邊緣場景,例如在大霧天氣中遇到橫越馬路的行人。這將進一步提高自動駕駛的能力
Wayve是誰?
GAIA-1是由英國自動駕駛新創公司Wayve開發的
Wayve成立於2017年,投資方有微軟等,估值已經達到了獨角獸。
創辦人是亞歷克斯·肯德爾和艾瑪爾·沙,他們都是劍橋大學的機器學習博士
圖片
技術路線上,和特斯拉一樣,Wayve主張利用攝影機的純視覺方案,很早就拋棄高精地圖,堅定的走「即時感知」路線。
前不久,該團隊發布的另一個大模型LINGO-1也引起了廣泛關注
這個自動駕駛模型能夠在行車過程中實時生成解說,從而進一步提高了模型的解釋性
今年3月,比爾蓋茲也曾試搭過Wayve的自動駕駛汽車。
圖片
論文網址:https://www.php.cn/link/1f8c4b6a0115a4617e285b4494126fbf
#######################################################參考連結:###[1]###https://www.php.cn/link/85dca1d270f7f9aef00c9d372f114482###[2]###https://www.php.cn/link/a4cc22565dfafb162a171003257270becbec ###以上是LeCun對自動駕駛獨角獸的造假行為深感失望的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

昨天面試被問到了是否做過長尾相關的問題,所以就想著簡單總結一下。自動駕駛長尾問題是指自動駕駛汽車中的邊緣情況,即發生機率較低的可能場景。感知的長尾問題是目前限制單車智慧自動駕駛車輛運行設計域的主要原因之一。自動駕駛的底層架構和大部分技術問題已經解決,剩下的5%的長尾問題,逐漸成了限制自動駕駛發展的關鍵。這些問題包括各種零碎的場景、極端的情況和無法預測的人類行為。自動駕駛中的邊緣場景"長尾"是指自動駕駛汽車(AV)中的邊緣情況,邊緣情況是發生機率較低的可能場景。這些罕見的事件

寫在前面今天我們探討下深度學習技術如何改善在複雜環境中基於視覺的SLAM(同時定位與地圖建構)表現。透過將深度特徵提取和深度匹配方法相結合,這裡介紹了一種多功能的混合視覺SLAM系統,旨在提高在諸如低光條件、動態光照、弱紋理區域和嚴重抖動等挑戰性場景中的適應性。我們的系統支援多種模式,包括拓展單目、立體、單目-慣性以及立體-慣性配置。除此之外,也分析如何將視覺SLAM與深度學習方法結合,以啟發其他研究。透過在公共資料集和自採樣資料上的廣泛實驗,展示了SL-SLAM在定位精度和追蹤魯棒性方面優

最近一個月由於眾所周知的一些原因,非常密集地和業界的各種老師同學進行了交流。交流中必不可免的一個話題自然是端到端與火辣的特斯拉FSDV12。想藉此機會,整理當下這個時刻的一些想法和觀點,供大家參考和討論。如何定義端到端的自動駕駛系統,應該期望端到端解決什麼問題?依照最傳統的定義,端到端的系統指的是一套系統,輸入感測器的原始訊息,直接輸出任務關心的變數。例如,在影像辨識中,CNN相對於傳統的特徵提取器+分類器的方法就可以稱之為端到端。在自動駕駛任務中,輸入各種感測器的資料(相機/LiDAR

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

寫在前面&出發點端到端的範式使用統一的框架在自動駕駛系統中實現多任務。儘管這種範式具有簡單性和清晰性,但端到端的自動駕駛方法在子任務上的表現仍然遠遠落後於單任務方法。同時,先前端到端方法中廣泛使用的密集鳥瞰圖(BEV)特徵使得擴展到更多模態或任務變得困難。這裡提出了一種稀疏查找為中心的端到端自動駕駛範式(SparseAD),其中稀疏查找完全代表整個駕駛場景,包括空間、時間和任務,無需任何密集的BEV表示。具體來說,設計了一個統一的稀疏架構,用於包括檢測、追蹤和線上地圖繪製在內的任務感知。此外,重

本站7月24日消息,特斯拉執行長馬斯克(ElonMusk)在今天舉辦的財報電話會議中,表示該公司即將完成迄今為止最大的人工智慧訓練集群,該集群將配備2萬片英偉達公司H100GPU。馬斯克也在公司財報電話會議上告訴投資者,由於來自英偉達的GPU價格昂貴,特斯拉公司將努力開發其Dojo超級電腦。本站翻譯馬斯克部分演講內容如下:透過Dojo和英偉達競爭的道路很艱難,但我認為我們別無選擇,我們現在過度依賴英偉達了。站在英偉達公司的角度,它們必然會將GPU的價格提高到市場所能承受的水平,但

4月8日消息,特斯拉執行長馬斯克近日透露,特斯拉正致力於全力開發自動駕駛汽車技術,備受期待的無人自動駕駛計程車Robotaxi將於8月8日正式亮相。數據小編了解到,馬斯克在X上的這一表態迅速引發了市場的廣泛關注,特斯拉股價在盤後交易中應聲上漲,達到171.19美元,漲幅超過3%。此前,路透社曾報導特斯拉拉車的計劃,將專注於生產Robotaxi。然而,馬斯克對此進行了反駁,指責路透社已經取消了開發低成本汽車的計劃,並再次發布了不實報道,同時明確表示低成本汽車Model2和Robotax

純視覺的標註方案,主要利用視覺加上一些GPS、IMU和輪速感測器的資料進行動態標註。當然面向量產場景的話,不一定要純視覺,有些量產的車輛裡面,會有像固態雷達(AT128)這樣的感測器。如果從量產的角度做資料閉環,把這些感測器都用上,可以有效解決動態物體的標註問題。但是我們的方案裡面,是沒有固態雷達的。所以,我們就介紹這個最通用的量產標註方案。純視覺的標註方案的核心在於高精度的pose重建。我們採用StructurefromMotion(SFM)的pose重建方案,來確保重建精確度。但是傳
