一文讀懂電腦視覺,乾貨滿滿
1.前言
電腦視覺(Computer Vision),通常簡稱CV,是一個透過技術幫助電腦「看到」並「看懂」圖像的研究領域,例如使電腦理解照片或視頻的內容。
這篇文章將對電腦視覺進行整體介紹。本文章共分為六個部分,分別是:
- 電腦視覺為什麼重要
- 什麼是電腦視覺
- 電腦視覺的基本原理
- #電腦視覺的典型任務
- 電腦視覺在日常生活中的應用場景
- 電腦視覺面臨的挑戰
2.電腦視覺為什麼重要
在生理學上,視覺(Vision)的產生都始於視覺器官感受細胞的興奮,並於視覺神經系統對收集到的信息進行加工之後形成。我們人類透過視覺直觀地了解眼前事物的形體和狀態,大部分人依靠視覺來完成做飯、越過障礙、讀路牌、看影片以及無數其他任務。事實上,如果不是盲人這類特殊群體,絕大多數人對外界資訊的取得都是透過視覺完成的,而這個佔比高達80%以上──這個比例並不是沒有根據的,著名實驗心理學家赤瑞特拉(Treicher)曾透過大量的實驗證實:人類所獲得的資訊的83%來自視覺,11%來自聽覺,剩下的6%來自嗅覺、觸覺、味覺。所以,對人類來說,視覺無疑是最重要的一種感覺。
不僅人類是“視覺動物”,對大多數動物來說,視覺也都扮演著十分重要的角色。透過視覺,人和動物感知外界物體的大小、明暗、顏色、動靜,獲得對機體生存具有重要意義的各種訊息,透過這些訊息能夠得知,周圍的世界是怎樣的,以及如何和世界互動。
而在電腦視覺出現之前,影像對電腦來說是黑盒子的狀態。一張圖像對電腦來說只是一個檔案、一串資料。計算機不知道圖片裡的內容到底是什麼,只知道這張圖片是什麼尺寸,佔多少記憶體大小,什麼格式的等等。
如果電腦、人工智慧想要在現實世界中發揮重要作用,就必須看懂圖片!因此,半個世紀以來,電腦科學家一直在想辦法讓電腦也擁有視覺,從而產生了「電腦視覺」這個領域。
網路的快速發展也讓電腦視覺變得特別重要。下圖是2020年以來網路上新增資料量的走勢圖。灰色圖形是結構化數據,藍色圖形是非結構化資料(大部分都是圖片和影片)。可以很明顯的發現,圖片和影片的數量正在以指數級的速度瘋狂增長。
互聯網由文字和圖像組成。搜尋文字相對簡單,但為了搜尋圖像,演算法需要知道圖像包含的內容。在很長的一段時間內,人類沒有足夠的技術來理解圖像和影片的內容,只能依靠人工標註來獲取圖像或影片的描述。如何能讓電腦更能理解這些影像訊息,便是當今電腦科技面臨的一大挑戰。為了充分利用圖像或視頻數據,需要讓電腦「查看」圖像或視頻,並理解內容。
3.什麼是電腦視覺
電腦視覺是人工智慧領域的重要分支,簡單來說,它要解決的問題就是:讓電腦看懂圖像或影片裡的內容。例如:圖片裡的寵物是貓還是狗?圖片裡的人是老張還是老王?影片裡的人在做什麼事情?更進一步的說,電腦視覺就是指用攝影機和電腦取代人眼對目標進行辨識、追蹤和測量等,並進一步做圖形處理,得到更適合人眼觀察或傳送給儀器偵測的影像。作為一個科學學科,與電腦視覺研究相關的理論和技術,試圖建立能夠從影像或多維資料中獲取高層次資訊的人工智慧系統。從工程的角度來看,它尋求利用自動化系統模仿人類視覺系統來完成任務。電腦視覺的最終目標是使電腦能像人類一樣透過視覺觀察和理解世界,並且具有自主適應環境的能力。但能真正實現電腦能夠透過攝影機感知這個世界卻是非常之難,因為雖然攝影機拍攝的影像和我們平時所見是一樣的,但對於電腦來說,任何影像都只是像素值的排列組合,是一堆死板的數字。如何讓電腦從這些死板的數字裡面讀取到有意義的視覺線索,是電腦視覺應該解決的問題。
4.電腦視覺的基本原理
用過相機或手機的都知道,計算機擅長拍出有驚人保真度和細節的照片,從某種程度上來說,計算機的人工「視覺」比人類與生自來的視覺能力強多了。但正如我們平日所說的“聽見不等於聽懂”一樣,“看見”也不等於“看懂”,要想讓計算機真正地“看懂”圖像,那就不是一件簡單的事情了。影像是一個大像素網格,每個像素有顏色,顏色是三種基色的組合:紅,綠,藍。透過組合三種顏色的強度-即叫做RGB值,我們可以得到任何顏色。最簡單的、最適合拿來入門的電腦視覺演算法是:追蹤一個有顏色的物體,例如一個粉紅色的球,我們首先記下球的顏色,保存最中心像素的RGB值,然後給程式餵入圖像,讓程式找最接近這個顏色的像素。演算法可以從左上角開始,檢查每個像素,計算和目標顏色的差異。檢查了每個像素後,最貼近的一部分像素,很可能就是球所在的像素。這個演算法並不限制在這張單張圖片上運行,我們可以把演算法運行在影片的每一幀影像上,追蹤球的位置。當然,因為光線、陰影和其他因素的影響,球的顏色會有變化,不會和我們存的RGB值完全一樣,但會很接近。不過在一些極端的情況下,例如晚上進行足球比賽,追蹤效果可能會非常差;而且如果其中一隊的球衣顏色和球的顏色一樣,演算法就完全「暈了」。因此,除非環境可以嚴格控制,這類顏色追蹤演算法很少會被真正投入使用。而如今更多使用的電腦視覺演算法一般都會涉及「深度學習」(Deep Learning)的方法和技術,其中,卷積神經網路(CNN)因為其優越的性能,使用最為廣泛。由於「深度學習」所涉及的知識過於廣泛,本篇就不對其進行更詳細的敘述了。如想了解更多「深度學習」的相關知識,不妨來看看AI入門課程-《英特爾® OpenVINO™工具套件初級課程》。它從AI的基本概念開始,介紹人工智慧與視覺應用的相關知識,幫助使用者快速理解英特爾®OpenVINO™工具套件的基本概念及應用場景。整個課程包含了影片的處理,深度學習的相關知識,人工智慧應用的推理加速,以及英特爾®OpenVINO™工具套件的Demo演示,由淺入深,一步一步帶你掌握深度學習。
5.計算機視覺的典型任務
- 圖像分類
#圖像分類是根據圖像的語義資訊對不同類別圖像進行區分,是計算機視覺的核心,是物件偵測、影像分割、物件追蹤、行為分析、人臉辨識等其他高層次視覺任務的基礎。例如下圖,透過影像分類,電腦辨識到影像中有人(person)、樹(tree)、草地(grass)、天空(sky)。
影像分類在許多領域都有廣泛的應用,如:安防領域的人臉辨識和智慧視訊分析等,交通領域的交通場景識別,網路領域基於內容的影像檢索和相簿自動歸類,醫學領域的影像辨識等。
- 目標偵測
目標偵測任務的目標是給定一張影像或是視訊幀,讓電腦找出其中所有目標的位置,並給出每個目標的具體類別。如下圖,以辨識和偵測人為例,用邊框標記影像中所有人的位置。
而在多類別目標偵測中,一般使用不同顏色的邊框對偵測到的不同物體的位置進行標記,如下圖所示。
- 語意分割
語意分割是電腦視覺中的基本任務,在語意分割中我們需要將視覺輸入分為不同的語意可解釋類別。它將整個影像分成像素組,然後對像素組進行標記和分類。例如,我們可能需要區分影像中屬於汽車的所有像素,並將這些像素塗成藍色。如下圖,把圖像分為人(紅色)、樹木(深綠)、草地(淺綠)、天空(藍色)標籤。
實例分割實例分割是目標偵測和語意分割的結合,在影像中將目標偵測出來(目標偵測),然後在每個像素上打上標籤(語意分割)。對比上圖、下圖可見,如以人為目標,語意分割不區分屬於相同類別的不同實例(所有人都標為紅色),實例分割區分同類的不同實例(使用不同顏色區分不同的人)。
目標追蹤目標追蹤是指對影像序列中的運動目標進行偵測、提取、識別和跟踪,獲得運動目標的運動參數,進行處理與分析,實現對運動目標的行為理解,以完成更高一級的偵測任務。
6.電腦視覺在日常生活中的應用場景
電腦視覺的應用場景非常廣泛,以下列舉幾個生活中常見的應用場景。 · 門禁、支付寶上的人臉辨識
- #停車場、收費站的車牌辨識
以上是一文讀懂電腦視覺,乾貨滿滿的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

2024CSRankings全美電腦科學專業排名,剛剛發布了!今年,全美全美CS最佳大學排名中,卡內基美隆大學(CMU)在全美和CS領域均名列前茅,而伊利諾大學香檳分校(UIUC)則連續六年穩定地位於第二。佐治亞理工學院則排名第三。然後,史丹佛大學、聖迭戈加州大學、密西根大學、華盛頓大學並列世界第四。值得注意的是,MIT排名下跌,跌出前五名。 CSRankings是由麻省州立大學阿姆赫斯特分校電腦與資訊科學學院教授EmeryBerger發起的全球院校電腦科學領域排名計畫。該排名是基於客觀的

Windows遠端桌面服務允許使用者遠端存取計算機,對於需要遠端工作的人來說非常方便。然而,當使用者無法連線到遠端電腦或遠端桌面無法驗證電腦身分時,會遇到問題。這可能是由網路連線問題或憑證驗證失敗引起的。在這種情況下,使用者可能需要檢查網路連線、確保遠端電腦是線上的,並嘗試重新連線。另外,確保遠端電腦的身份驗證選項已正確配置也是解決問題的關鍵。透過仔細檢查和調整設置,通常可以解決Windows遠端桌面服務中出現的這類問題。由於存在時間或日期差異,遠端桌面無法驗證遠端電腦的身份。請確保您的計算

使用電腦時,作業系統偶爾也會故障。今天遇到的問題是在存取gpedit.msc時,系統提示無法開啟群組原則對象,因為可能缺乏正確的權限。未能開啟這台電腦上的群組原則對象解決方法:1、存取gpedit.msc時,系統提示無法開啟該電腦上的群組原則對象,因為缺乏權限。詳細資訊:系統無法定位指定的路徑。 2、用戶點擊關閉按鈕後,就彈出如下錯誤視窗。 3.立即查看日誌記錄,並結合記錄信息,發現問題出在C:\Windows\System32\GroupPolicy\Machine\registry.pol文件

StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引起了不小的轰动。与之前版本相比,StableDiffusion3生成的图质量有了显著提升,现在支持多主题提示,并且文字书写效果也得到了改善,不再出现乱码情况。StabilityAI指出,StableDiffusion3是一个系列模型,其参数量从800M到8B不等。这一参数范围意味着该模型可以在许多便携设备上直接运行,从而显著降低了使用AI

軌跡預測在自動駕駛中承擔著重要的角色,自動駕駛軌跡預測是指透過分析車輛行駛過程中的各種數據,預測車輛未來的行駛軌跡。作為自動駕駛的核心模組,軌跡預測的品質對於下游的規劃控制至關重要。軌跡預測任務技術堆疊豐富,需熟悉自動駕駛動/靜態感知、高精地圖、車道線、神經網路架構(CNN&GNN&Transformer)技能等,入門難度很高!許多粉絲期望能夠盡快上手軌跡預測,少踩坑,今天就為大家盤點下軌跡預測常見的一些問題和入門學習方法!入門相關知識1.預習的論文有沒有切入順序? A:先看survey,p

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的

如果您在將資料從遠端桌面複製到本機時遇到問題,本文可以幫助您解決。遠端桌面技術允許多用戶存取中央伺服器上的虛擬桌面,提供資料保護和應用程式管理。這有助於確保資料安全,並使公司能夠更有效地管理其應用程式。使用者在使用遠端桌面時可能會遇到挑戰,其中一個是無法將資料從遠端桌面複製到本機。這可能由不同因素引起阻止。因此,本文將提供解決此問題的指導。為什麼無法從遠端桌面複製到本機?在電腦上複製檔案時,檔案會暫時儲存在一個叫做剪貼簿的位置。如果無法使用此方法將資料從遠端桌面複製到本機

請留意,這個方塊人正在緊鎖眉頭,思考著面前幾位「不速之客」的身份。原來她陷入了危險境地,意識到這一點後,她迅速展開腦力搜索,尋找解決問題的策略。最終,她決定先逃離現場,然後儘快尋求幫助,並立即採取行動。同時,對面的人也在進行著與她相同的思考……在《我的世界》中出現了這樣一個場景,所有的角色都由人工智慧控制。他們每個人都有著獨特的身份設定,例如之前提到的女孩就是一個年僅17歲但聰明又勇敢的快遞員。他們擁有記憶和思考能力,在這個以《我的世界》為背景的小鎮中像人類一樣生活。驅動他們的,是一款全新的、
