GNN的基礎、前沿和應用
近年來,圖神經網路(GNN)取得了快速、令人難以置信的進展。圖神經網路又稱為圖深度學習、圖表徵學習(圖表示學習)或幾何深度學習,是機器學習特別是深度學習領域成長最快的研究主題。本次分享的題目為《GNN的基礎、前沿和應用》,主要介紹由吳凌飛、崔鵬、裴健、趙亮幾位學者牽頭編撰的綜合性書籍《圖神經網絡基礎、前沿與應用》中的大致內容。
一、圖神經網路的介紹
1、為什麼要研究圖?
圖是一種描述和建模複雜系統的通用語言。圖本身並不複雜,它主要由邊和結點構成。我們可以用結點表示任何我們想要建模的物體,可以用邊表示兩個結點之間的關係或相似度。我們常說的圖神經網路或圖機器學習,通常是將圖的結構以及邊和結點的資訊作為演算法的輸入,輸出想要的結果。例如在搜尋引擎中,當我們輸入一個 query 時,引擎會根據 query 的資訊、使用者的資訊以及一些上下文資訊傳回個人化的搜尋結果,這些資訊可以天然地以圖的方式進行組織。
2、圖結構資料無所不在
圖結構資料到處可見,例如Internet、社群網路等。除此之外,在現今非常火的蛋白質發現領域,人們會用圖來描述和建模現有的蛋白質並產生新的圖,從而幫助人們去發現新的藥物。我們也可以用圖去做一些複雜的程式分析,還可以在電腦視覺中去做一些 high-level 的推理。
3、圖機器學習的近期趨勢
圖機器學習並不是一個很新的議題,近20 年來一直都有這個研究方向,以前一直比較小眾。 2016 年開始,隨著現代圖神經網路相關論文的出現,圖機器學習成為了一個熱門的研究方向。人們發現這種新一代的圖機器學習方式可以更好地學習資料本身和資料之間的信息,從而能夠更好地得到資料表徵,最終能夠更好地完成更重要的任務。
4、圖神經網路的簡單歷史
最早的圖神經網路相關論文出現在2009 年,在深度學習流行之前。現代圖神經網路相關論文出現在 2016 年,是對早期的圖神經網路的改進。之後,GCN 的出現推動了圖神經網路的快速發展,2017 年至今,有大量新的演算法湧現。隨著圖神經網路的演算法越來越成熟,2019 年至今,工業界嘗試用這些演算法解決一些實際問題,同時也有很多開源的工具被開發出來提升解決問題的效率。 2021 年至今,許多圖神經網路相關的書籍都被撰寫出來,當然也包括這本《圖神經網路基礎、前沿與應用》。
《圖神經網路基礎、前沿與應用》一書系統地介紹了圖神經網路領域中最核心的概念和技術,以及前沿的研究和開發,並介紹了在不同領域的應用。無論是學術界還是工業界的讀者,都能夠從中受益。
二、圖神經網路的基礎
1、機器學習的生命週期
#上圖體現了機器學習的生命週期,其中特徵學習是非常重要的環節,它的主要任務是將原始資料轉換為結構化的資料。在深度學習出現之前,大家主要是透過特徵工程來完成這個任務。深度學習出現以後,這種端到端的機器學習方式開始成為主流。
2、圖中的特徵學習
Feature Learning in Graphs 和深度學習的做法非常類似,目標是設計有效的和任務相關或者和任務無關的特徵學習方法將原始圖中的結點映射到高維空間中,從而得到結點的embedding表示,進而完成下游任務。
3、圖神經網路的基礎
圖神經網路中有兩類需要學習的表徵:
- #圖結點的表徵
需要一個filter operation,將圖的矩陣和結點的向量表示作為輸入,不斷學習,更新結點的向量表示。目前比較常見的 filter operation 有 Spectral-based、Spatial-based、Attention-based、Recurrent-based。
- 圖的表徵
#需要一個pool operation,將圖的矩陣和結點的向量表示作為輸入,不斷學習,得到包含更少的結點的圖的矩陣及其結點的向量表示,最終得到graph-level 的向量表示來表徵整張圖。目前比較常見的 pool operation 有 Flat Graph Pooling(如 Max、Ave、Min),Hierarchical Graph Pooling(如 Diffpool)。
4、圖神經網路的基本模型
#在機器學習領域有一個context learning 的概念。在圖神經網路中,一個結點的 context 就是它的鄰居結點,我們可以用一個結點的鄰居結點來學習這個結點的向量表示。
透過這種方式,每個結點都可以定義一個計算圖。
我們可以將計算圖分層,第一層的就是最原始的訊息,透過逐層傳遞和聚合資訊來學習所有結點的向量表示。
上圖大致描述了圖神經網路模型學習的主要步驟,主要有以下四個步驟:
- 定義一個聚合函數;
- 根據任務定義損失函數;
- 訓練一批結點,例如可以一次訓練一批計算圖;
- 為每個結點產出所需的向量表示,甚至是一些從來沒有訓練過的結點(學習的是聚合函數,可以用聚合函數和已經訓練好的向量表示得到新結點的向量表示)。
#上圖是一個以平均值作為聚合函數的例子,第k 層結點v 的向量表示依賴上一層其鄰居結點的向量表示的平均和上一層其自己的向量表示。
對以上的內容進行總結,圖神經網路的要點就是透過聚合鄰居結點的資訊產生目標結點的向量表示,它考慮了編碼器中的參數共享,也考慮了推理學習。
5、圖神經網路的流行模型
#圖神經網路經典或流行的演算法本質上是使用不同的aggregation function 或filter function,可以分為有監督的圖神經網路和無監督的圖神經網路。
GCN# 是最經典的演算法之一,它能夠直接作用於圖並且利用其結構資訊。圍繞著提升模型速度、實用性以及穩定性,如上圖所示,GCN 也經歷了幾次迭代。 GCN 的論文是具有劃時代意義的,為圖神經網路奠定了基礎。
MPNN# 的核心要點是將圖卷積轉化為訊息傳遞的過程,它定義兩個function,分別是aggregation function 和update function。這個演算法是一個簡單通用的演算法,但是它並不有效率。
GraphSage 是工業層級的演算法,它使用取樣的方式來得到一定數量的鄰居結點從而學校結點的向量表示。
GAT# 則是引入attention 的思想,它的核心重點是動態地學習執行資訊傳遞過程中邊的權重。
除了以上介紹的演算法以外,還有GGNN,它的特色是輸出可以是多個結點,大家有興趣去看相關的論文。
#在《圖神經網路基礎、前沿與應用》這本書中的第五、六、七、八章也分別介紹如何評估圖神經網路、圖神經網路的擴展性、圖神經網路的解釋性、圖神經網路的對抗穩定性,大家有興趣可以去閱讀書中對應的章節。
三、圖神經網路的前沿
1、Graph Structure Learning
圖神經網路是需要圖結構資料的,但是給定的圖結構是否是最優的是存疑的,有的時候可能會有很多的噪聲,很多應用可能沒有圖結構的數據,甚至只是原始的特徵。
所以,我們需要利用圖神經網路學習到最優的圖表示以及圖結點表徵。
我們將圖的學習轉換為結點間相似的學習,並透過正規化的方式控制平滑度、系屬性和連結性,透過迭代的方式去提煉圖的結構和圖的向量表示。
實驗數據
可以表現出這種方式的優勢。透過圖
#視覺化的結果可以發現,學出的圖傾向於將同類的對象聚在一起,有一定的可解釋性。
2、Other Frontiers
在《圖神經網路基礎、前沿與應用》這本書中,也分別介紹瞭如下前沿研究,這些前沿研究在許多場景下都有很重要的應用:- 圖分類;
- Link Prediction;
- 圖生成;
- ##圖轉換;
- 圖匹配;
- #動態圖神經網路;
- 異質圖神經網路;
圖神經網路的自監督學習。
四、圖神經網路的應用
#########1、圖神經網路在推薦系統的應用## ################我們可以利用會話資訊建構異質全域圖,然後透過圖神經網路學習得到使用者或物品的向量表示,利用這個向量表示去做個人化的推薦。 ###2、圖神經網路在電腦視覺中的應用
#我們可以追蹤物體動態的變化過程,透過圖神經網路加深對影片的理解。
3、圖神經網路在自然語言處理中的應用
我們可以利用圖神經網路來理解自然語言的high-level 的訊息。
4、圖神經網路在程式分析中的應用
5、圖神經網路在智慧城市的應用
#Q1:GNN 是下一代深度學習的重要方法嗎?
A1:圖神經網路是非常重要的分支,而圖神經網路並駕齊驅的是 Transformer。鑑於圖神經網路的靈活性,圖神經網路和 Transformer 相互結合,去發揮更大的優勢。
Q2:GNN 和因果學習是否可以結合?如何結合?
A2:因果學習重要的環節是因果圖,因果圖和 GNN 可以天然地結合。因果學習的困難是它的資料量級很小,我們可以利用 GNN 的能力來更好地去學習因果圖。
###Q3:GNN 的可解釋性和傳統機器學習的可解釋性的區別和聯繫是什麼? ###############A3:在《圖神經網路基礎、前沿與應用》這本書中會有詳細的介紹。 ###############Q4:如何直接基於圖資料庫、利用圖運算的能力進行 GNN 的訓練與推理? ###############A4:目前在統一圖計算平台上還沒有很好的實踐,有一些新創公司和科研團隊在做相關方向的探索,這會是一個非常有價值且有挑戰的研究方向,比較可行的做法是分領域。 ##########以上是GNN的基礎、前沿和應用的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

在機器學習和資料科學領域,模型的可解釋性一直是研究者和實踐者關注的焦點。隨著深度學習和整合方法等複雜模型的廣泛應用,理解模型的決策過程變得尤為重要。可解釋人工智慧(ExplainableAI|XAI)透過提高模型的透明度,幫助建立對機器學習模型的信任和信心。提高模型的透明度可以透過多種複雜模型的廣泛應用等方法來實現,以及用於解釋模型的決策過程。這些方法包括特徵重要性分析、模型預測區間估計、局部可解釋性演算法等。特徵重要性分析可以透過評估模型對輸入特徵的影響程度來解釋模型的決策過程。模型預測區間估計

本文將介紹如何透過學習曲線來有效辨識機器學習模型中的過度擬合和欠擬合。欠擬合和過擬合1、過擬合如果一個模型對資料進行了過度訓練,以至於它從中學習了噪聲,那麼這個模型就被稱為過擬合。過度擬合模型非常完美地學習了每一個例子,所以它會錯誤地分類一個看不見的/新的例子。對於一個過度擬合的模型,我們會得到一個完美/接近完美的訓練集分數和一個糟糕的驗證集/測試分數。略有修改:"過擬合的原因:用一個複雜的模型來解決一個簡單的問題,從資料中提取雜訊。因為小資料集作為訓練集可能無法代表所有資料的正確表示。"2、欠擬合如

1950年代,人工智慧(AI)誕生。當時研究人員發現機器可以執行類似人類的任務,例如思考。後來,在1960年代,美國國防部資助了人工智慧,並建立了實驗室進行進一步開發。研究人員發現人工智慧在許多領域都有用武之地,例如太空探索和極端環境中的生存。太空探索是對宇宙的研究,宇宙涵蓋了地球以外的整個宇宙空間。太空被歸類為極端環境,因為它的條件與地球不同。要在太空中生存,必須考慮許多因素,並採取預防措施。科學家和研究人員認為,探索太空並了解一切事物的現狀有助於理解宇宙的運作方式,並為潛在的環境危機

通俗來說,機器學習模型是一種數學函數,它能夠將輸入資料映射到預測輸出。更具體地說,機器學習模型是一種透過學習訓練數據,來調整模型參數,以最小化預測輸出與真實標籤之間的誤差的數學函數。在機器學習中存在多種模型,例如邏輯迴歸模型、決策樹模型、支援向量機模型等,每種模型都有其適用的資料類型和問題類型。同時,不同模型之間存在著許多共通性,或者說有一條隱藏的模型演化的路徑。將聯結主義的感知機為例,透過增加感知機的隱藏層數量,我們可以將其轉化為深度神經網路。而對感知機加入核函數的話就可以轉換為SVM。這一

C++中機器學習演算法面臨的常見挑戰包括記憶體管理、多執行緒、效能最佳化和可維護性。解決方案包括使用智慧指標、現代線程庫、SIMD指令和第三方庫,並遵循程式碼風格指南和使用自動化工具。實作案例展示如何利用Eigen函式庫實現線性迴歸演算法,有效地管理記憶體和使用高效能矩陣操作。

機器學習是人工智慧的重要分支,它賦予電腦從數據中學習的能力,並能夠在無需明確編程的情況下改進自身能力。機器學習在各個領域都有廣泛的應用,從影像辨識和自然語言處理到推薦系統和詐欺偵測,它正在改變我們的生活方式。機器學習領域存在著多種不同的方法和理論,其中最具影響力的五種方法被稱為「機器學習五大派」。這五大派分別為符號派、聯結派、進化派、貝葉斯派和類推學派。 1.符號學派符號學(Symbolism),又稱符號主義,強調利用符號進行邏輯推理和表達知識。該學派認為學習是一種逆向演繹的過程,透過現有的

MetaFAIR聯合哈佛優化大規模機器學習時所產生的資料偏差,提供了新的研究架構。據所周知,大語言模型的訓練常常需要數月的時間,使用數百甚至上千個GPU。以LLaMA270B模型為例,其訓練總共需要1,720,320個GPU小時。由於這些工作負載的規模和複雜性,導致訓練大模型存在著獨特的系統性挑戰。最近,許多機構在訓練SOTA生成式AI模型時報告了訓練過程中的不穩定情況,它們通常以損失尖峰的形式出現,例如Google的PaLM模型訓練過程中出現了多達20次的損失尖峰。數值偏差是造成這種訓練不準確性的根因,

譯者|李睿審校|重樓人工智慧(AI)和機器學習(ML)模型如今變得越來越複雜,這些模型產生的產出是黑盒子-無法向利害關係人解釋。可解釋性人工智慧(XAI)致力於透過讓利害關係人理解這些模型的工作方式來解決這個問題,確保他們理解這些模型實際上是如何做出決策的,並確保人工智慧系統中的透明度、信任度和問責制來解決這個問題。本文探討了各種可解釋性人工智慧(XAI)技術,以闡明它們的基本原理。可解釋性人工智慧至關重要的幾個原因信任度和透明度:為了讓人工智慧系統被廣泛接受和信任,使用者需要了解決策是如何做出的
