利用全景圖視覺自註意力模型進行室內框架估計的方法
一、研究背景
此方法主要關注室內框架估計(indoor estimation layout estimation)任務,任務輸入2D圖片,輸出圖片所描述場景的三維模型。考慮到直接輸出三維模型的複雜性,該任務一般被拆解為輸出2D圖像中的牆線、天花板線、地線三種線的信息,再根據線的信息通過後處理操作重建房間的三維模型。此三維模型可在後期進一步用於室內場景複刻、VR看房等特定應用場景。區別於深度估計方法,該方法基於對室內牆線的估計來恢復空間幾何結構,優勢在於可使牆面的幾何結構較為平整;劣勢則在於無法恢復室內場景沙發、椅子等細節物品的幾何資訊。
根據輸入影像的不同,可以分為基於透視圖和基於全景圖的方法。與透視圖相比,全景圖具有更大的視角和更豐富的影像資訊。隨著全景採集設備的普及,全景資料越來越豐富,因此目前有許多關於基於全景圖進行室內框架估計的演算法被廣泛研究
相關演算法主要包括LayoutNet、HorizonNet、HohoNet及Led2-Net等,這些方法大多基於卷積神經網絡,在結構複雜的位置牆線預測效果較差,如有噪音幹擾、自遮擋等位置會出現牆線不連續、牆線位置錯誤等預測結果。在牆線位置估計任務中,僅關注局部特徵資訊會導致該類別錯誤的發生,需利用全景圖中的全域資訊考慮整條牆線的位置分佈來估計。 CNN方法在提取局部特徵任務中表現更優,Transformer方法更擅長捕捉全局訊息,因此可將Transformer方法應用於室內框架估計任務以提升任務表現。
由於訓練資料依賴性,單獨應用基於透視圖預訓練的Transformer估計全景圖室內框架效果並不理想。 PanoViT模型預先將全景圖映射到的特徵空間,使用Transformer學習全景圖在特徵空間的全局信息,同時考慮全景圖的表觀結構信息完成室內框架估計任務。
二、方法介紹與結果展示
1、PanoViT
網絡結構框架包含4個模組,分別是Backbone,vision transformer解碼器,框架預測模組,邊界增強模組。 Backbone模組將全景圖映射至特徵空間,vison transformer編碼器在特徵空間中學習全局關聯,框架預測模組將特徵轉化為牆線、天花板線、地線信息,後處理可進一步得到房間的三維模型,邊界增強模組突顯全景圖中邊界資訊對於室內框架估計的作用。
① Backbone模組
#由於直接使用transformer提取全景圖特徵效果不佳,已經證明了基於CNN的方法的有效性,即CNN特徵可用於預測房屋框架。因此,我們採用了CNN的backbone來擷取全景圖不同尺度的特徵圖,並在特徵圖中學習全景影像的全局資訊。實驗結果表明,在特徵空間中使用transformer的效果明顯優於直接在全景圖上應用
② Vision transformer encoder模組
Transformer主體架構可主要分為三個模組,包括patch sampling、patch embedding和transformer的multi-head attention。輸入同時考慮全景影像特徵圖與原始影像並針對不同輸入採用不同patch sampling方法。原圖使用均勻取樣方法,特徵圖採用水平取樣方法。來自HorizonNet的結論認為在牆線估計任務中水平方向特徵具有更高重要性,參考此結論,embedding過程中對於特徵圖特徵進行垂直方向壓縮。採用Recurrent PE方法組合不同尺度的特徵並在multi-head attention的transformer模型中進行學習,得到與原圖水平方向等長的特徵向量,透過不同的decoder head可獲得對應的牆線分佈。
隨機循環位置編碼(Recurrent Position Embedding)考慮到全景圖沿水平方向位移不改變影像視覺資訊的特徵,因此每次訓練時沿著水平軸方向隨機選取初始位置,使得訓練過程更關注不同patch之間的相對位置而非絕對位置。
③ 全景圖的幾何資訊
全景圖中幾何資訊的充分利用可有助於室內框架估計任務表現的提升。 PanoViT模型中的邊界增強模組強調如何使用全景圖中的邊界訊息,3D Loss則有助於減少全景圖畸變影響。
邊界增強模組考慮到牆線偵測任務中牆線的線狀特徵,影像中的線條資訊重要性突出,因此需要突出邊界資訊使得網路了解影像中線的分佈。使用頻域中邊界增強方法突出全景圖邊界信息,基於快速傅立葉變換得到圖像頻域表示,使用掩膜在頻域空間中進行採樣,基於傅裡葉反變換變換回邊界信息被突出的圖像。模組核心在於掩膜設計,考慮到邊界對應高頻訊息,掩膜首先選用高通濾波器;並根據不同線的不同走向方向採樣不同的頻域方向。此方法相對傳統LSD方法實施簡單且效率更高。
先前工作在全景圖上計算像素距離作為估計誤差,由於全景圖畸變,圖片上的像素距離並不正比於3D世界的真實距離。 PanoViT使用3D損失函數,直接在3D空間計算估計誤差。
2、模型結果
使用Martroport3D、PanoContext公共資料集進行實驗,採用2DIoU和3DIoU作為評估指標,並與SOTA方法進行比較。結果顯示PanoViT在兩個資料集上的模型評估指標基本上達到最優,僅在特定指標上略遜於LED2。透過與Hohonet進行模型視覺化結果的比較,可以發現PanoViT能夠準確地辨識複雜場景中的牆線走向。透過消融實驗中比較Recurrent PE、邊界增強和3D Loss模組,可以驗證這些模組的有效性
為了達到更好的模型資料集,收集十萬多張室內全景影像自建全景影像資料集,包含各類複雜室內場景,並基於自定規則進行標註,從中選取5053張圖像作為測試資料集。在自建資料集上測試PanoViT模型與SOTA模型方法表現,發現隨著資料量增加,PanoViT模型效能提升顯著。
三、如何在ModelScope中使用
- #開啟modelscope官網:https://modelscope.cn/home。
- 搜尋「全景圖室內框架估計」。
- 點選快速使用-線上環境使用-快速體驗,開啟notebook。
- 輸入主頁範例程式碼,上傳1024*512的全景圖片,修改圖片載入路徑,執行輸出牆線預測結果。
以上是利用全景圖視覺自註意力模型進行室內框架估計的方法的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

寫在前面&筆者的個人理解目前,在整個自動駕駛系統當中,感知模組扮演了其中至關重要的角色,行駛在道路上的自動駕駛車輛只有通過感知模組獲得到準確的感知結果後,才能讓自動駕駛系統中的下游規控模組做出及時、正確的判斷和行為決策。目前,具備自動駕駛功能的汽車中通常會配備包括環視相機感測器、光達感測器以及毫米波雷達感測器在內的多種數據資訊感測器來收集不同模態的信息,用於實現準確的感知任務。基於純視覺的BEV感知演算法因其較低的硬體成本和易於部署的特點,以及其輸出結果能便捷地應用於各種下游任務,因此受到工業

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

C++sort函數底層採用歸併排序,其複雜度為O(nlogn),並提供不同的排序演算法選擇,包括快速排序、堆排序和穩定排序。

人工智慧(AI)與執法領域的融合為犯罪預防和偵查開啟了新的可能性。人工智慧的預測能力被廣泛應用於CrimeGPT(犯罪預測技術)等系統,用於預測犯罪活動。本文探討了人工智慧在犯罪預測領域的潛力、目前的應用情況、所面臨的挑戰以及相關技術可能帶來的道德影響。人工智慧和犯罪預測:基礎知識CrimeGPT利用機器學習演算法來分析大量資料集,識別可以預測犯罪可能發生的地點和時間的模式。這些資料集包括歷史犯罪統計資料、人口統計資料、經濟指標、天氣模式等。透過識別人類分析師可能忽視的趨勢,人工智慧可以為執法機構

01前景概要目前,難以在檢測效率和檢測結果之間取得適當的平衡。我們研究了一種用於高解析度光學遙感影像中目標偵測的增強YOLOv5演算法,利用多層特徵金字塔、多重偵測頭策略和混合注意力模組來提高光學遙感影像的目標偵測網路的效果。根據SIMD資料集,新演算法的mAP比YOLOv5好2.2%,比YOLOX好8.48%,在偵測結果和速度之間達到了更好的平衡。 02背景&動機隨著遠感技術的快速發展,高解析度光學遠感影像已被用於描述地球表面的許多物體,包括飛機、汽車、建築物等。目標檢測在遠感影像的解釋中

一、多模態大模型的歷史發展上圖這張照片是1956年在美國達特茅斯學院舉行的第一屆人工智慧workshop,這次會議也被認為拉開了人工智慧的序幕,與會者主要是符號邏輯學屆的前驅(除了前排中間的神經生物學家PeterMilner)。然而這套符號邏輯學理論在隨後的很長一段時間內都無法實現,甚至到80年代90年代還迎來了第一次AI寒冬期。直到最近大語言模型的落地,我們才發現真正承載這個邏輯思維的是神經網絡,神經生物學家PeterMilner的工作激發了後來人工神經網絡的發展,也正因為此他被邀請參加了這個

一、58畫像平台建置背景首先和大家分享下58畫像平台的建造背景。 1.傳統的畫像平台傳統的想法已經不夠,建立用戶畫像平台依賴數據倉儲建模能力,整合多業務線數據,建構準確的用戶畫像;還需要數據挖掘,理解用戶行為、興趣和需求,提供演算法側的能力;最後,還需要具備數據平台能力,有效率地儲存、查詢和共享用戶畫像數據,提供畫像服務。業務自建畫像平台和中台類型畫像平台主要區別在於,業務自建畫像平台服務單條業務線,按需定制;中台平台服務多條業務線,建模複雜,提供更為通用的能力。 2.58中台畫像建構的背景58的使用者畫像

寫在前面&筆者的個人理解在自動駕駛系統當中,感知任務是整個自駕系統中至關重要的組成部分。感知任務的主要目標是使自動駕駛車輛能夠理解和感知周圍的環境元素,如行駛在路上的車輛、路旁的行人、行駛過程中遇到的障礙物、路上的交通標誌等,從而幫助下游模組做出正確合理的決策和行為。在一輛具備自動駕駛功能的車輛中,通常會配備不同類型的信息採集感測器,如環視相機感測器、雷射雷達感測器以及毫米波雷達感測器等等,從而確保自動駕駛車輛能夠準確感知和理解周圍環境要素,使自動駕駛車輛在自主行駛的過程中能夠做出正確的決斷。目
