從視音角度看多模態學習的過去與未來-人工智慧-PHP中文網

2.1 視覺與聽覺的神經路徑

2.2 認知神經科學中的視音整合

7.1 語義，空間與時序一致性

7.2 關於場景理解的新視角

首頁

科技週邊

人工智慧

從視音角度看多模態學習的過去與未來

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 01:58 PM

學習視音

視覺和聽覺在人類的溝通和場景理解中至關重要。為了模仿人類的感知能力，旨在探索視音模態的視音學習在近年來已成為一個蓬勃發展的領域。本文是對中國人民大學高瓴人工智慧學院GeWu-Lab聯合德州大學達拉斯分校以及西北工業大學共同發布的最新視音學習綜述《Learning in Audio-visual Context: A Review, Analysis, and New Perspective》的解讀。

這篇綜述首先分析了視音模態的認知科學基礎，進而對近來的視音學習工作（近三百篇相關文獻）進行了系統性的分析總結。最後，為了縱觀當前的視音學習領域，該綜述從視音場景理解的角度重新回顧了近年的視音學習進展，並探討了該領域潛在的發展方向。

從視音角度看多模態學習的過去與未來

arXiv連結：https://arxiv.org/abs/2208.09579

#專案首頁：https://gewu-lab.github.io/audio-visual-learning/

awesome-list連結： https://gewu-lab.github.io/awesome-audiovisual-learning/

#1 引言

視覺與聽覺資訊是人類感知外在世界的主要資訊來源。人類的大腦透過整合異質的多模態的訊息來獲得對周圍環境的整體認知。例如，在具有多個說話者的雞尾酒會場景中，我們能夠藉助唇形的變化加強接收到的感興趣的說話人的語音。因此，視音學習對於類人機器感知能力的探索是不可或缺的。相較於其他模態，視音模態的特性使其與眾不同：

#1）認知基礎。 作為研究最廣泛的兩種感官，視覺和聽覺的整合遍布在人類的神經系統中。一方面，這兩種感官在人類感知中的重要性為基於視音數據的機器感知研究提供了認知基礎，另一方面，視覺和聽覺在神經系統中的交互與整合能夠作為促進視音學習的依據。

2）多重一致性。 在我們的日常生活中，視覺和聽覺緊密關聯。如圖1所示，狗的叫聲和它的外表都能讓我們與「狗」這個概念連結（語意一致性）。同時，我們可以藉助聽到的聲音或視覺來確定狗的確切空間位置（空間一致性）。而當聽到狗叫聲時，我們通常可以同時在視覺上看到狗（時序一致性）。視覺和聽覺之間的多重一致性是視音學習的研究基礎。

3）豐富的資料支援。 行動終端和互聯網的快速發展促使越來越多的人在公共平台上分享視頻，這使得收集視頻的成本降低。這些豐富的公開影片緩解了數據獲取的障礙，為視音學習提供了數據支援。

視音模態的這些特徵自然促使了視音學習領域的誕生。近年來，這一領域已經取得了蓬勃發展，研究者們已經不滿足於簡單地將額外模態引入原有的單模態任務，開始探索並解決新的問題和挑戰。

但是，現有的視音學習工作通常是任務導向的。在這些工作中，他們專注於特定的視音任務。目前仍缺乏能夠系統性回顧和分析視音學習領域發展的綜述性工作。因此，該文章對目前的視音學習領域進行了總結，然後進一步展望了其潛在的發展方向。

由於視音學習和人類感知能力之間存在著緊密的聯繫，該文章首先總結了視覺和聽覺模態的的認知基礎，進而在此基礎上，將現有的視音學習研究分為三類：

1）視音提升（Audio-visual Boosting）。 視覺和音訊資料各自已經有很長的研究歷史和廣泛的應用。儘管這些單模態方法已經取得了相當有效的結果，但是他們僅僅利用了所關注事物的部分信息，單模態方法的表現是受限的，並且容易受到單模態噪聲的影響。因此，研究者將額外模態引入這些音訊或視覺任務中，不僅透過整合互補資訊提升了模型效果，而且促進了模型的穩健性。

2）跨模態感知（Cross-modal Perception）。 人類聽到聲音就能聯想到相關的畫面，看到畫面也可以想起與之匹配的聲音，這是因為視覺和聽覺訊息具有一致性。此一致性為機器進行跨模態知識遷移或根據某一模態資訊產生對應的另一模態資料提供了基礎。因此，許多研究致力於跨模態感知能力的探索，並且取得了顯著成果。

3）視音協作（Audio-visual Collaboration）。 除了融合不同模態的訊號之外，在人腦的皮質區域存在更高級的模態間交互，以達到更深層的場景理解。因此，類人感知能力需要對視音模態的協作進行探索。為了達到這一目標，近年來許多研究提出了更具挑戰性的場景理解問題，並獲得了廣泛關注。

從視音角度看多模態學習的過去與未來

圖1：視音一致性與視音學習領域概覽

視音模態之間涵蓋語義，空間和時序的一致性為上述視音研究提供了可行性。因此，本文在總結了近來的視音研究之後，對視音的多重一致性進行了分析。此外，本文從視音場景理解的新視角，再次回顧了視音學習領域的進展。

2 視音認知基礎

視覺和聽覺是人類場景理解的兩個核心感官。這章節總結了認知神經科學中視覺和聽覺感官的神經通路及視音模態的整合，為接下來對視音學習領域研究的討論奠定基礎。

2.1 視覺與聽覺的神經路徑

視覺是研究最廣泛的感官，有些觀點甚至認為它主導了人類的知覺。相應地，視覺的神經通路也比較複雜。來自物體的反射光包含視覺訊息，它激活了視網膜上眾多的光感受器（約2.6億個）。光感受器的輸出送到神經節細胞（約200萬個）。這一過程壓縮了視覺訊息。而後，經過外側膝狀核細胞的處理，視覺訊息最終到達大腦皮質的視覺相關區域。視覺皮層是一個具有功能差異的不同區域的組合，其視覺神經元具有偏好性。例如，V4和V5的神經元分別對顏色和運動敏感。

除了視覺，聽覺也是觀察周遭環境的重要感官。它不僅能提醒人類規避風險（例如聽到野獸的叫聲時，人類會主動採取行動），也是人們相互交流的基礎。聲波在耳膜上轉化為神經元訊號。然後，聽覺訊息被輸送到腦幹的下丘和耳蝸核。經過丘腦內側膝狀核的處理，聲音最終在初級聽覺皮質被編碼。大腦獲取聽覺訊息，然後利用其中蘊含的聲音線索，如頻率和音色，來確定聲源的身份。同時，兩隻耳朵之間的強度和聽覺間的時間差異為聲音的位置提供線索，這被稱為雙耳效應。在實踐中，人類的感知可以結合多種感官，尤其是聽覺和視覺，這被稱為多通道知覺。

2.2 認知神經科學中的視音整合

每種感官都提供關於周圍環境的獨特資訊。儘管多種感官接收的訊息是不同的，但由此產生的環境表徵是統一的經驗，而非互不相干的感覺。

一個代表性的例子是麥格克效應：語意不同的視覺訊號和聽覺訊號得到了單一語意的訊息。這些現象顯示在人類的感知中，來自多種感官的訊號通常被整合。其中，聽覺和視覺的神經通路的交叉結合了人類兩種重要感官的訊息，促進了知覺的敏感度和準確性，例如，與聲音有關的視覺訊息能夠提高聽覺空間的搜尋效率。

這些結合多種感官訊息的感知現像在認知神經科學領域引起了人們的注意。人類的神經系統中一個被充分研究的多通道感知區域是上丘。上丘的許多神經元具有多感官特性，可以被來自視覺、聽覺、甚至觸覺的訊息所啟動。這種多感官反應往往比單一的反應更強。皮質中的顳上溝是另一個代表性區域。

根據對猴子的研究，它被觀察到與多種感官的連接，包括視覺、聽覺和體感。更多的大腦區域，包括頂葉、額葉和海馬體，都表現出類似的多通道知覺現象。根據多通道知覺現象的研究，我們可以觀察到幾個關鍵發現：

1）多模態提升。 如上所述，許多神經元可以對多種感官的融合訊號作出反應，當單一感官的刺激較弱時，這種增強的反應比單模態的反應更可靠。

2）跨模態可塑性。 這種現像是指剝奪一種感官能夠影響其對應的皮質區域的發展。例如，聾人的聽覺相關皮質有可能被視覺刺激所活化。

3）多模態協作。 不同感官的訊號在皮質區域有更複雜的整合。研究人員發現，大腦皮質存在具有以協作方式整合多感官資訊能力的模組，以建立意識和認知。

受人類認知的啟發，研究人員已經開始研究如何實現類人的視音感知能力，更多的視音研究在近些年逐漸湧現。

3 視音提升

儘管各個模態本身已經有較為充分的可供學習的信息，並且已經存在許多基於單模態資料的任務，但是單模態資料只提供了局部訊息，並且對單模態雜訊較為敏感（例如，視覺訊息受光照，視角等因素影響）。因此，受人類認知中多模態提升現象的啟發，一些研究者在原有的單模態任務中引入額外的視覺（或音頻）數據，以增進任務表現。我們將相關任務分為辨識和增強兩大部分。

單模態辨識任務在過去已經被廣泛研究，例如基於音訊的語音辨識以及基於視覺的動作辨識。但是，單模態資料只觀察到了事物的部分訊息，並且易受單模態雜訊影響。因而，整合多模態數據以促進模型的能力和魯棒性的視音識別任務在近年來引起了關注，並涵蓋了語音識別、說話人識別、動作識別和情感識別等多個方面。

視音模態的一致性不僅為多模態辨識任務提供了基礎，也使得用借助某一模態增強另一模態訊號成為可能。例如，多個說話人在視覺上是分離的，因此說話者的視覺訊息可以用於輔助語音分離。此外，音訊資訊能夠為重建被遮蓋或缺失的說話者臉部資訊提供性別、年齡等身分資訊。這些現象啟發研究者藉助其他模態的資訊進行去噪或增強，例如語音增強，聲源分離及臉部超分重建。

從視音角度看多模態學習的過去與未來

圖2：視音提升任務

##4 跨模態感知

認知神經科學中的跨模態可塑性現像以及視音模態之間的一致性促進了跨模態感知的研究，其目的在於學習並建立音頻和視覺模態之間的關聯，促使了跨模態生成、遷移和檢索等任務的產生。

人類具有在已知模態的指導下預測另一種模態對應的資訊的能力。例如，在聽不到聲音的情況下，只要看到嘴唇運動的視覺訊息，我們就能大致推斷出這個人在說什麼。音訊和視覺之間在語義，空間和時序多方面的一致性為機器擁有類人的跨模態生成能力提供了可能。跨模態生成任務目前已經涵蓋了包括單通道音訊生成、立體聲生成、視訊/影像生成以及深度估計在內的多個方面。

除跨模態生成以外，視音之間在語義上的一致性表明，一種模態的學習有望得到來自另一模態的語義資訊的幫助。這也是視音遷移任務的目標。另外，視音的語意一致性也促進了跨模態資訊檢索任務發展。

從視音角度看多模態學習的過去與未來

圖3：跨模態感知相關任務

#5 視音協作

人腦會對接收到的場景的視聽訊息進行整合，使之相互協作、互為補充，從而提升對場景的理解能力。因此，機器有必要透過探索視聽協作來追求類似人類的感知，而不僅僅是融合或預測多模態資訊。為了這個目標，研究者在視音學習領域引入了包括視音成分分析和視音推理在內的多種新的挑戰。

在進行視音協作之初，如何在沒有人類註釋的情況下有效地從視音模態中提取表徵，是一個重要的課題。這是因為高品質的表徵可以為各種下游任務做出貢獻。對於視聽資料來說，它們之間在語義，空間以及時序上的一致性，為以自監督方式學習視音表徵提供了天然的訊號。

除了表徵學習外，視音模態之間的協作主要聚焦在場景理解方面。一些研究者聚焦於場景中視音成分的解析與定位，包括聲源定位，視音顯著性檢測，視音導航等。這類任務建立了細粒度的視音模態之間的連結。

除此之外，在許多視音任務中，我們往往假定整個影片中的視音內容在時間上一直是匹配的，也就是說，在影片的每個時刻，畫面和聲音均具有一致性。但實際上，這項假設並非能夠時時刻刻成立。例如，在「打籃球」的樣本中，攝影機有時會拍攝觀眾席等和「打籃球」這個標籤無關的場景。因此，視音事件定位與解析這一類任務被提出以在時序上進一步對場景中的視音成分進行剝離。

人類在視音場景中能夠在感知之外進一步推論。雖然以上的視音協作任務逐步達到了對視音場景細粒度的理解，卻並未進行視音成分的進行推理分析。近來，隨著視音學習領域的發展，一些研究者開始進一步關注視音推理，例如視音問答和對話任務。這些任務旨在透過對視音場景進行跨模態時空推理，回答與場景相關的問題，或就所觀察到的視音場景產生對話。

從視音角度看多模態學習的過去與未來

圖4：視音協同相關任務

6 代表性資料集

本部分梳理討論了視音學習領域的一些具有代表性的資料集。

從視音角度看多模態學習的過去與未來

7 趨勢與新觀點

7.1 語義，空間與時序一致性

#儘管視音模態具有異質的資料形式，它們的內在一致性涵蓋了語義，空間和時序多個方面，為視音研究奠定了基礎。

首先，視覺和音訊模態從不同的角度描繪了所關注的事物。因此，視音資料的語意被認為是語意一致的。在視音學習中，語意一致性在大多數任務中扮演重要角色。例如，這種一致性使得結合視音資訊以獲得更好的視音識別和單模態增強效果成為可能。此外，視音模態之間的語意一致性在跨模態檢索和遷移學習中也扮演著重要角色。

其次，視覺和音訊都可以幫助確定發聲物件的確切空間位置。這種空間上的對應關係也有廣泛的應用。例如，在聲源定位任務中，這種一致性被用來在輸入音訊的指導下確定發聲物體的視覺位置。在立體聲情況下，能夠基於雙耳音訊估計視覺深度資訊或利用視覺資訊為輔助生成立體聲音訊。

最後，視覺內容和其產生的聲音通常在時序上是一致的。這種一致性在大多數視音學習研究中也被廣泛利用，例如在視音辨識或生成任務中融合或預測多模態資訊。

在實踐中，這些不同的視音一致性不是孤立的，而是經常共同出現在視音場景中。因此，它們往往在相關任務中被共同利用。語意和時序一致性的結合是最常見的情況。

在簡單場景下，處於相同時間戳記的視音片段被認為在語意和時序上都是一致的。然而，這種較強的假設可能會失敗，例如，視訊畫面和同一時間戳的背景音並非語義一致。這些假陽性對訓練帶來了乾擾。

最近，研究人員已經開始關注這些情況以提高場景理解的品質。此外，語義和空間一致性的結合也很常見。例如，視訊中聲源定位的成功依賴於語義一致性以根據輸入的聲音探索對應的視覺上的空間位置。此外，在視音導航任務的早期階段，發聲目標會產生一個穩定的重複的聲音。雖然空間一致性得到了滿足，但視覺和音訊中的語義內容是不相關的。隨後，聲音和發聲位置的語義一致性被引入，以提高視音導航的品質。

總的來說，視音模態的語義，空間以及時序上的一致性足為視音學習的研究提供了堅實的支撐。對這些一致性的分析和利用不僅提高了現有視音任務的性能，並且有助於更好地理解視音場景。

7.2 關於場景理解的新視角

本文總結了視音模態的認知基礎，並分析了人類的多通道感知的現象，在此基礎上，將目前的視音學習研究分為三類：視音提升（Audio-visual Boosting）、跨模態感知（Cross-modal Perception）和視音協作（Audio-visual Collaboration）。為了從更宏觀的角度回顧目前視音學習領域的發展，文章進一步提出了關於視音場景理解的新視角：

1）基礎場景理解（Basic Scene Understanding）。 視音提升和跨模態感知的任務通常著重於融合或預測一致的視音訊息。這些任務的核心是對視音場景的基礎理解（例如，對輸入視訊的進行動作分類。）或對跨模態資訊進行預測（例如，基於無聲視訊產生對應的音訊。）然而，自然場景中的影片通常包含多種多樣的視音成分，超越了這些基礎場景理解任務的範疇。

2）細粒度場景理解（Fine-grained Scene Understanding）。 如上所述，視音場景通常具有豐富的不同模態的成分。因此，研究者提出了一些剝離目標成分的任務。例如，聲源定位任務旨在標記出視覺中的目標發聲物體所在的區域。視音事件定位與解析任務則在時序上決定目標可聽事件或可見事件。這些任務將視音成分剝離出來，對視音場景進行解耦，與上一階段相比，對場景有更細粒度的理解。

3）因果互動場景理解（Causal Scene Understanding）。 在視音場景中，人類不僅能感知周圍感興趣的事物，還能推論出它們之間的互動。這階段場景理解的目標更接近追求類人感知。目前，只有很少的任務在這一階段進行探索。視音問答和對話任務是代表性的工作。這些任務試圖探索影片中視音成分的關聯，並進行時空推理。

總的來說，這三個階段的探索是不平衡的。從基礎場景理解到因果互動場景理解，相關研究的多樣性和豐富性逐漸降低，特別是因果互動場景理解仍處於起步階段。這暗示了視音學習存在的一些潛在發展方向：

1）任務整合。 視音領域的大多數研究是任務導向的。這些單獨的任務只模擬和學習視音場景的特定方面。然而，視音場景的理解和感知並不是孤立的。例如，聲源定位任務強調視覺中與聲音相關的對象，而事件定位和解析任務則在時序上確定目標事件。這兩個任務有望被整合以促進對視音場景的精細化理解。多個視音學習任務的整合是在未來值得探索的方向。

2）更深入的因果互動場景理解。 目前，對涉及推理的場景理解的研究的多樣性仍然有限。現有的任務，包括視音問答和對話，大多集中在基於視訊中的事件進行對話。更深入的推理類型，例如根據預覽的場景預測接下來可能發生的音訊或視覺事件，值得在未來進一步研究。

為了更好地呈現文章內容，該綜述同時配備了持續更新的專案主頁，以圖片、影片等更多形式展示了不同視音任務的目標與發展，供讀者快速了解視音學習領域。

以上是從視音角度看多模態學習的過去與未來的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn