目錄
一、前言
二、EPro-PnP 方法介紹
3、蒙特卡羅位元姿損失
4、針對PnP 解算器的導數正則化
三、基於EPro-PnP 的位姿估計網路
1、用於 6 自由度位姿估計的稠密關聯網路
2、用於 3D 目標偵測的變形關聯網路
2、3D 目標偵測任務
3、視覺化分析
五、總結
首頁 科技週邊 人工智慧 同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

Apr 09, 2023 pm 01:41 PM
模型 研究 論文

本文解讀我們獲得 CVPR 2022 最佳學生論文獎的工作《EPro-PnP: Generalized End-to-End Probabilistic Perspective-n-Points for Monocular Object Pose Estimation》。論文研究的問題是基於單張影像估計物體在 3D 空間中的位姿。在現有方法中,基於PnP 幾何優化的位姿估計方法往往透過深度網路提取2D-3D 關聯點,然而因為位姿最適解在反向傳播時存在不可導的問題,難以實現以位姿誤差作為損失對網路進行穩定的端到端訓練,此時2D-3D 關聯點依賴其他代理損失的監督,這對於位姿估計而言不是最佳的訓練目標。

為解決這個問題,我們從理論出發,提出了EPro-PnP 模組,其輸出位姿的機率密度分佈而非單一的位姿最優解,從而將不可導的最優位姿替換為了可導的機率密度,實現了穩定的端到端訓練。 EPro-PnP 通用性強,適用於各類特定任務和數據,可以用於改進現有的基於 PnP 的位姿估計方法,也可以藉助其靈活性訓練全新的網絡。從更一般的意義來說,EPro-PnP 本質是將常見的分類 softmax 帶入到了連續域,理論上可以推廣至訓練一般的嵌套了優化層的模型。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

論文連結:https://arxiv.org/abs/2203.13254

程式碼連結:https://github.com/tjiiv-cprg/EPro-PnP

一、前言

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

######################## #######我們研究的是3D 視覺中的一個經典問題:基於單張RGB 影像定位其中的3D 物件。具體而言,給定一張含有 3D 物件投影的影像,我們的目標是確定物體座標係到相機座標系的剛體變換。此剛體變換稱為物體的位姿,記作y,其包含兩部分:1)位置(position)分量,可用3x1 的位移向量t 表示,2)朝向(orientation)分量,可用3x3 的旋轉矩陣R 表示。 #####################針對此問題,現有方法可分為明確與隱式兩大類。顯式方法也可稱作######直接位姿預測######,即使用前饋神經網路(FFN)直接輸出物體位姿的各個分量,通常是:1)預測物體的深度,2)找出物體中心點在影像上的2D 投影位置,3)預測物體的朝向(朝向的特定處理方法可能比較複雜)。利用標有物體真實位姿的影像數據,可以設計損失函數直接監督位姿預測結果,輕鬆實現網路的端到端訓練。然而,這樣的網路缺乏可解釋性,在規模較小的資料集上易於過度擬合。在 3D 目標偵測任務中,顯式方法佔據主流,尤其是對於規模較大的資料集(例如 nuScenes)。 ##################

隱式方法則是基於幾何最佳化的位姿估計方法,最典型的代表是基於 PnP 的位姿估計方法。這類方法中,首先需要在影像座標系中找出N 個2D 點(第i 點2D 坐標記作同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀),同時在物體座標系中找出與之相關聯的N 個3D 點(第i 點3D 坐標記作同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀),有時還需要取得各對點的關聯權重(第i 對點的關聯權重記作同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀#)。根據透視投影約束,這 N 對 2D-3D 加權關聯點隱式地定義了物體的最優位姿。具體而言,我們可以找出使重投影誤差最小的物體位姿同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀,表示加權重投影誤差,是位姿的同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀函數。 同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀表示含有內參的相機投影函數,同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀表示元素乘積。 PnP 方法常見於物體幾何形狀已知的 6 自由度位姿估計任務中

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

基於 PnP 的方法也需要前饋網路去預測 2D-3D 關聯點集同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀。相較於直接位姿預測,這項深度學習結合傳統幾何視覺演算法的模型有非常好的可解釋性,其泛化表現較為穩定,但在以往的工作中模型的訓練方法有缺陷。很多方法透過建構代理損失函數,去監督 X 這一中間結果,這對位姿而言不是最優的目標。例如,已知物體形狀的前提下,可以預先選取到物體的 3D 關鍵點,然後訓練網路找出對應的 2D 投影點位置。這也意味著代理損失只能學習 X 中的部分變量,因此不夠靈活。如果我們不知道訓練集中物體的形狀,需要從零開始學習 X 中的全部內容該怎麼辦?

顯示和隱式方法的優勢互補,如果能夠透過監督PnP 輸出的位姿結果,端到端地訓練網路去學習關聯點集X ,則可以將二者優勢結合。為實現這一目標,一些近期研究利用隱函數求導實現了 PnP 層的反向傳播。然而,PnP 中的 argmin 函數在某些點是不連續不可導的,使得反向傳播並不穩定,直接訓練難以收斂。

###

二、EPro-PnP 方法介紹

##1、EPro-PnP 模組

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

##為了實現穩定的端到端訓練,我們提出了

端對端機率PnP(end-to-end probabilistic PnP),即EPro-PnP##。其基本思想是將隱式位姿視為一個機率分佈,則其機率密度對於 X 是可導的。首先基於重投影誤差定義位姿的似然函數:同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀#若使用無資訊先驗,則位姿的後驗機率密度為似然函數的歸一化結果:

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀可以注意到,以上公式與常用的分類softmax 公式

分數接近,其實EPro-PnP 的本質就是將softmax從離散閾值搬到了連續閾,把求和同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀##換成了積分同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀2、KL 散度損失

在訓練模型的過程中,已知物件真實位姿

,則可以定義目標位姿分佈同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀。此時可以計算 KL 散度同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀作為訓練網路所使用的損失函數(因同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀固定,也可以理解為交叉熵損失函數)。在目標同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀趨近於Dirac 函數的情況下,基於KL 散度的損失函數可以簡化為以下形式:同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

##如對其求導則有:

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

可見,此損失函數由兩項構成,第一項(記作同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀)試圖降低位元姿真值同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀的重投影誤差,第二項(記作同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀)試圖增加預測位姿同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀各處的重投影誤差。二者方向相反,效果如下圖(左)所示。作為類比,右邊就是我們在訓練分類網路時常用的分類交叉熵損失。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

3、蒙特卡羅位元姿損失

#需要注意到,KL 損失中的第二項同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀中含有積分,這一積分沒有解析解,因此必須透過數值方法來近似。綜合考慮通用性,精確度和計算效率,我們採用蒙特卡羅方法,透過取樣來模擬位姿分佈。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

具體而言,我們採用了一個重要性取樣演算法-Adaptive Multiple Importance Sampling(AMIS),計算出K個帶有權重同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀的位姿樣本同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀,我們將此過程稱為蒙特卡羅PnP:

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

據此,第二項同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀可以近似為關於權重同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀的函數,且同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀可以反向傳播:

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

位元姿取樣的視覺化效果如下圖所示:

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

4、針對PnP 解算器的導數正則化

儘管蒙特卡羅PnP 損失可以用於訓練網路得到高品質的位姿分佈,但在推理階段,還是需要通過PnP最佳化求解器來得到最優位姿解同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀。常用的高斯 - 牛頓及其衍生演算法透過迭代最佳化求解同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀,其迭代增量是由代價函數同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀的一階和二階導數決定的。要使 PnP 的解同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀更接近真值同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀,可以將代價函數的導數進行正規化。設計正規化損失函數如下:

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

其中,同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀為高斯- 牛頓迭代增量,與代價函數的一階和二階導數有關,且可以反向傳播,同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀表示距離測量,對於位置使用smooth L1,對於朝向使用cosine similarity。當同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀不一致時,此損失函數促使迭代增量同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀指向實際真值。

三、基於EPro-PnP 的位姿估計網路

#我們在6 自由度位姿估計和3D 目標偵測兩個子任務上分別使用了不同的網路。其中,對於6 自由度位姿估計,在ICCV 2019 的CDPN 網路的基礎上稍加修改並用EPro-PnP 訓練,用來進行ablation studies;對於3D 目標檢測,在ICCVW 2021 的FCOS3D 基礎上設計了全新的變形關聯(deformable correspondence)檢測頭,以證明EPro-PnP 可以訓練網絡在沒有物體形狀知識的情況下直接學出所有2D-3D 點和關聯權重,從而展現EPro-PnP 在應用方面的靈活性。

1、用於 6 自由度位姿估計的稠密關聯網路

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

網路架構如上圖所示,只是在原始 CDPN 的基礎上修改了輸出層。原始 CDPN 使用已偵測到的物件 2D 方塊裁切出區域影像,輸入到 ResNet34 backbone 中。原版 CDPN 將位置與朝向解耦為兩個分支,位置分支使用直接預測的明確方法,而朝向分支使用稠密關聯和 PnP 的隱式方法。為了研究 EPro-PnP,改動後的網路只保留了稠密關聯分支,其輸出為 3 個通道的 3D 座標圖,以及 2 個通道關聯權重,其中關聯權重經過了 spatial softmax 和 global weight scaling。增加 spatial softmax 目的是對權重同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀進行歸一化,使其具有類似 attention map 的性質,可以關注相對重要的區域,實驗證明權重歸一化也是穩定收斂的關鍵。 Global weight scaling 反映了位姿分佈同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀的集中程度。此網路僅需 EPro-PnP 的蒙特卡洛位姿損失就可以訓練,此外可以增加導數正則化,以及在物體形狀已知的情況下增加額外的 3D 座標回歸損失。

2、用於 3D 目標偵測的變形關聯網路

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

網路結構如上圖所示。整體而言是基於 FCOS3D 偵測器,參考 deformable DETR 設計的網路結構。在 FCOS3D 的基礎上,保留其 centerness 和 classification 層,而將其原有的位姿預測層替換為 object embedding 和 reference point 層,用於產生 object query。參考 deformable DETR,我們透過預測相對於 reference point 的偏移量得到 2D 取樣位置(也就得到了同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀)。採樣後的 feature 經由 attention 操作聚合為 object feature,用於預測物件層級的結果(3D score,weight scale,3D box size 等)。此外,採樣後各點的 feature 在加入 object embedding 並經由 self attention 處理後輸出各點所對應的的 3D 座標同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀##和關聯權重同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀#。所預測的同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀全部可由 EPro-PnP 的蒙特卡羅位姿損失訓練得到,不需要額外正則化就可以收斂並有較高的精度。在此基礎上,可以增加導數正則化損失和輔助損失進一步提升精度。

四、實驗結果

1、6 自由度位姿估計任務

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

使用LineMOD 資料集實驗,並嚴格與CDPN baseline 進行比對,主要結果如上。可見,增加 EPro-PnP 損失進行端到端訓練,精確度顯著提升( 12.70)。繼續增加導數正則化損失,精度進一步提升。在此基礎上,使用原版CDPN 的訓練結果初始化並增加epoch(保持總epoch 數與原版CDPN 的完整三階段訓練一致)可以使精度進一步提升,其中預訓練CDPN 的優勢部分來自CDPN 訓練時有額外的mask 監督。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀#

上圖是 EPro-PnP 與各種領先方法的比較。由較落後的CDPN 改進而來的EPro-PnP 在精度上接近SOTA,並且EPro-PnP 的架構簡潔,完全基於PnP 進行位姿估計,不需要額外進行顯式深度估計或位姿精修,因此在效率上也有優勢。

2、3D 目標偵測任務

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

#使用 nuScenes 資料集實驗,與其他方法比較結果如上圖所示。 EPro-PnP 不僅相對 FCOS3D 有了明顯提升,也超越了當時的 SOTA、FCOS3D 的另一個改良版 PGD。更重要的是,EPro-PnP 目前是唯一在 nuScenes 資料集上使用幾何最佳化方法估計位姿的。因nuScenes 資料集規模較大,端到端訓練的直接位姿估計網路已具有較好性能,而我們的結果說明了端到端地訓練基於幾何優化的模型能做到在大數據集上取得更加優異的性能。

3、視覺化分析

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

#上圖顯示了 EPro-PnP 訓練的稠密關聯網路的預測結果。其中,關聯權重同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀對影像中的重要區域進行了高光,類似於 attention 機制。由損失函數分析可知,高光區域對應的是重投影不確定性較低以及對位姿變動較為敏感的區域。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

3D 目標偵測的結果如上圖所示。其中左上視圖顯示了變形關聯網絡採樣出的2D 點位置,紅色表示同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀水平X 分量較高的帶你,綠色表示同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀垂直Y 分量較高的點。綠點一般位於物體上下兩端,其主要作用是透過物體高度來推算物體的距離,此特性並非人為指定,完全是自由訓練的結果。右圖顯示了俯視圖上的偵測結果,其中藍色雲圖表示物體中心點位置的分佈密度,反映了物體定位的不確定性。一般遠處的物體定位不確定性大於近處的物體。

同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀

EPro-PnP 的另一個重要優點在於,能夠透過預測複雜的多峰分佈來表示朝向的模糊性。如上圖所示,Barrier 由於物體本身旋轉對稱,朝向經常出現相差180° 的兩個峰值;Cone 本身沒有特定的朝向,因此預測結果在各個方向均有分佈;Pedestrian 雖不完全旋轉對稱,但因圖像不清晰,不易判斷正面和背面,有時也會出現兩個峰值。這個機率特性使得 EPro-PnP 對於對稱物體不需要在損失函數上做任何特殊處理。

五、總結

EPro-PnP 將原本不可導的最優位姿轉變為可導的位姿機率密度,使得基於PnP 幾何最佳化的位姿估計網路可實現穩定且靈活的端到端訓練。 EPro-PnP 可應用於一般的 3D 物體位姿估計問題,即使在未知 3D 物體幾何形狀的情況下,也可以透過端到端訓練學習得到物體的 2D-3D 關聯點。因此,EPro-PnP 拓寬了網路設計的可能性,例如我們提出的變形關聯網絡,這在以往是不可能訓練的。

此外,EPro-PnP 也可以直接被用於改進現有的基於 PnP 的位姿估計方法,透過端到端訓練釋放現有網路的潛力,提升位姿估計精度。從更一般的意義來說,EPro-PnP 本質是將常見的分類softmax 帶入到了連續域,不僅可用於其他基於幾何優化的3D 視覺問題,理論上還可以推廣至訓練一般的嵌套了優化層的模型。


#

以上是同濟、阿里的CVPR 2022最佳學生論文獎研究了什麼?這是一作的解讀的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

<🎜>:泡泡膠模擬器無窮大 - 如何獲取和使用皇家鑰匙
3 週前 By 尊渡假赌尊渡假赌尊渡假赌
北端:融合系統,解釋
3 週前 By 尊渡假赌尊渡假赌尊渡假赌

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

Java教學
1664
14
CakePHP 教程
1423
52
Laravel 教程
1319
25
PHP教程
1269
29
C# 教程
1248
24
全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Google狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理訓練最快選擇 Apr 01, 2024 pm 07:46 PM

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 AI顛覆數學研究!菲爾茲獎得主、華裔數學家領銜11篇頂刊論文|陶哲軒轉贊 Apr 09, 2024 am 11:52 AM

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

替代MLP的KAN,被開源專案擴展到卷積了 替代MLP的KAN,被開源專案擴展到卷積了 Jun 01, 2024 pm 10:03 PM

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 你好,電動Atlas!波士頓動力機器人復活,180度詭異動作嚇到馬斯克 Apr 18, 2024 pm 07:58 PM

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! 特斯拉機器人進廠打工,馬斯克:手的自由度今年將達到22個! May 06, 2024 pm 04:13 PM

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! DualBEV:大幅超越BEVFormer、BEVDet4D,開卷! Mar 21, 2024 pm 05:21 PM

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) 牛津大學最新! Mickey:3D中的2D影像匹配SOTA! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

寫在前面項目連結:https://nianticlabs.github.io/mickey/給定兩張圖片,可以透過建立圖片之間的對應關係來估計它們之間的相機姿態。通常,這些對應關係是二維到二維的,而我們估計的姿態在尺度上是不確定的。一些應用,例如隨時隨地實現即時增強現實,需要尺度度量的姿態估計,因此它們依賴外部的深度估計器來恢復尺度。本文提出了MicKey,這是一個關鍵點匹配流程,能夠夠預測三維相機空間中的度量對應關係。透過學習跨影像的三維座標匹配,我們能夠在沒有深度測試的情況下推斷度量相對

See all articles