yolov部署到iPhone或終端實務全過程
期待已久的偵測經典又來了一波強襲-YOLOv5。其中,YOLOv5沒有完整的文件,現在最重要的應該是把YOLOv4弄清楚,在目標檢測領域中受益匪淺,可以在某些場景得到較高的提升。今天我們還是給大家分析YOLOv4,下一期我們將實踐得將YOLOv5部署到蘋果手機或在終端通過攝像頭實時檢測!
一、技術回顧
有大量的特徵被認為可以提高卷積神經網路(CNN)的精確度。需要在大型資料集上對這些特徵的組合進行實際測試,並對結果進行理論驗證。某些功能只對某些模型進行操作,某些問題只對某些模型進行操作,或只對小規模資料集進行操作;而某些功能(如批次規範化和剩餘連接)則適用於大多數模型、任務和資料集。本文假設這些通用特徵包括加權剩餘連結(WRC)、跨階段連結(CSP)、跨小批量規範化(CMbN)、自對抗訓練(SAT)和Mish活化。本文使用了新功能:WRC、CSP、CMbN、SAT、錯誤激活、馬賽克資料增強、CMbN、DropBlock正則化和CIoU丟失,並將其中一些功能結合起來,以達到以下效果:43.5%的AP(65.7%的AP50),使用MS+COCO資料集,在Tesla V100上即時速度為65 FPS。
二、創新點分析
Mosaic資料增強
把四張圖拼成一張圖來訓練,變相的等價於增加了mini-batch。這是從CutMix混合兩張圖的基礎上改進;
Self-Adversarial Training
在一張圖上,讓神經網路反向更新圖片,對圖片做改變擾動,然後在這個圖片上訓練。這個方法,是圖片風格化的主要方法,讓網路反向更新圖片來風格化圖片。
Self-Adversarial Training (SAT) also represents a new data augmentation technique that operates in 2 forward backward stages. In the 1st stage the neural network als the original netage inweight the . In this way the neural network executes an adversarial attack on itself, altering the original image to create the deception that there is no desired object on the image. In the 2nd stage, the ified in the normal way.
#Cross mini-batch Normal
CmBN表示CBN修改的版本,如下圖所示,定義為Cross mini-Batch Normalization(CMBN)。這只收集單一批次內最小批次之間的統計資料。
modify SAM
從SAM的逐空間的attention,到逐點的attention;修改的PAN,把通道從相加(add)改變為concat。
實驗
#以資料增強方法為例,雖然增加了訓練時間,但可以讓模型泛化性能和魯棒性更好。例如下面的常見增強方法:
- 影像擾動,
- 改變亮度、對比對、飽和度、色調
- ##加上雜訊
- 隨機縮放
- 隨機裁切(random crop)
- 翻轉
- 旋轉
- 隨機擦除(random erase)
- Cutout
- MixUp
- CutMix
#透過實驗看得出,用了很多tricks,簡直就是目標偵測最強萬花筒,下表是對分類網路的實驗:
CSPResNeXt-50 classifier accuracy##CSPDarknet-53 classifier accuracy
在YOLOv4偵測網路上,比較了四個loss(GIoU、CIoU、DIoU、MSE),標籤平滑,Cosine學習率,遺傳演算法選超參數,Mosaic資料增強等各種方法。下表是YOLOv4檢測網路上的消融實驗結果:
CSPResNeXt50-PANet-SPP, 512x512
##使用不同與訓練權重模型來訓練:
最後,是在Maxwell、Pascal、Volta三個不同系列的GPU,在COCO 資料集上的結果比較:
以上是yolov部署到iPhone或終端實務全過程的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

0.這篇文章乾了啥?提出了DepthFM:一個多功能且快速的最先進的生成式單目深度估計模型。除了傳統的深度估計任務外,DepthFM還展示了在深度修復等下游任務中的最先進能力。 DepthFM效率高,可以在少數推理步驟內合成深度圖。以下一起來閱讀這項工作~1.論文資訊標題:DepthFM:FastMonocularDepthEstimationwithFlowMatching作者:MingGui,JohannesS.Fischer,UlrichPrestel,PingchuanMa,Dmytr

目前的深度邊緣檢測網路通常採用編碼器-解碼器架構,其中包含上下採樣模組,以更好地提取多層次的特性。然而,這種結構限制了網路輸出準確且細緻的邊緣檢測結果。針對這個問題,一篇AAAI2024的論文給了新的解決方案。論文題目:DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection作者:葉雲帆(國防科技大學),徐凱(國防科技大學),黃雨行(國防科技大學),易任嬌(國防科技大學),蔡志平(國防科技大學)論文連結:https ://ar

趕在春節前,通義千問大模型(Qwen)的1.5版上線了。今天上午,新版本的消息引發了AI社群關注。新版大機型包括六個型號尺寸:0.5B、1.8B、4B、7B、14B和72B。其中,最強版本的效能超越了GPT3.5和Mistral-Medium。此版本包含Base模型和Chat模型,並提供多語言支援。阿里通義千問團隊表示,相關技術也已經上線到了通義千問官網和通義千問App。除此之外,今天Qwen1.5的發布還有以下一些重點:支援32K上下文長度;開放了Base+Chat模型的checkpoint;

大型語言模型(LLM)通常擁有數十億參數,經過數萬億token的資料訓練。然而,這樣的模型訓練和部署成本都非常昂貴。為了降低運算需求,人們常常採用各種模型壓縮技術。這些模型壓縮技術一般可分為四類:蒸餾、張量分解(包括低秩因式分解)、剪枝、量化。剪枝方法已經存在一段時間,但許多方法需要在剪枝後進行恢復微調(RFT)以保持性能,這使得整個過程成本高昂且難以擴展。蘇黎世聯邦理工學院和微軟的研究者提出了一個解決這個問題的方法,名為SliceGPT。此方法的核心思想是透過刪除權重矩陣中的行和列來降低網路的嵌

原標題:PointTransformerV3:Simpler,Faster,Stronger論文連結:https://arxiv.org/pdf/2312.10035.pdf程式碼連結:https://github.com/Pointcept/PointTransformerV3作者單位:HKUSHAILabMPIPKUMIT論文想法:本文無意在注意力機制內尋求創新。相反,它側重於利用規模(scale)的力量,克服點雲處理背景下準確性和效率之間現有的權衡。從3D大規模表示學習的最新進展中汲取靈感,

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

在去年4月,威斯康辛大學麥迪遜分校、微軟研究院和哥倫比亞大學的研究者們共同發布了LLaVA(LargeLanguageandVisionAssistant)。儘管LLaVA只是用一個小的多模態指令資料集進行訓練,但在一些樣本上展現了與GPT-4非常相似的推理結果。然後在10月,他們推出了LLaVA-1.5,透過對原始LLaVA進行簡單修改,在11個基準測試中刷新了SOTA。這次升級的結果非常令人振奮,為多模態AI助理領域帶來了新的突破。研究團隊宣布推出LLaVA-1.6版本,針對推理、OCR和

什麼?瘋狂動物城被國產AI搬進現實了?與影片一同曝光的,是一款名為「可靈」全新國產影片生成大模型。 Sora利用了相似的技術路線,結合多項自研技術創新,生產的影片不僅運動幅度大且合理,還能模擬物理世界特性,具備強大的概念組合能力與想像。數據上看,可靈支持生成長達2分鐘的30fps的超長視頻,分辨率高達1080p,且支援多種寬高比。另外再劃個重點,可靈不是實驗室放出的Demo或影片結果演示,而是短影片領域頭部玩家快手推出的產品級應用。而且主打一個務實,不開空頭支票、發布即上線,可靈大模型已在快影
