北郵王嘯:圖神經網絡的兩面性
報告:王 嘯
撰文:熊宇軒
王嘯,北京郵電大學,助理教授。研究方向爲圖神經網絡、數據挖掘與機器學習。曾任清華大學計算機系博士後,天津大學博士,美國聖路易斯華盛頓大學聯合培養博士,入選2020年微軟亞洲研究院鑄星學者。
在我們生活的世界中,圖數據無處不在,我們可以用圖來建模和描述我們的複雜系統。
從馬克思主義哲學的角度來說,聯繫具有普遍性和客觀性,所以正是因爲聯繫的存在,萬事萬物都可以構建成圖。
十年前,李國傑院士在「大數據研究的科學價值」一文中指出,複雜網絡分析應該是數據科學的重要基石。「科學」研究的是普遍的現象、規律、真理,在數據科學研究領域中,我們可以將生物數據、交通數據、互聯網數據、物理化學數據統一成圖的形式,即關係網絡。
我們針對各種各樣的圖數據提出了相應的應用場景(例如,社區發現、節點分類等)。
爲了將數據應用於具體的任務,我們往往首先需要對網絡數據進行表徵。
幾十年以來,計算機從業者通常使用鄰接矩陣來表示圖和網絡。隨着表示學習、網絡嵌入、深度學習的蓬勃發展,一系列圖神經網絡應運而生。如今,我們通過深度學習技術對圖數據進行表示學習,並將學習到的表徵用於後續的任務。
計算機科學家們基於前人在圖信號處理領域(譜域)取得的一系列成果推導出了圖神經網絡的基本思路: 在節點之間進行信息的傳播聚合以及變換。
如圖 2 所示,圖神經網絡的每一層中進行的運算可以表示爲:
其中, H^l 爲第 l 層的節點表徵, 刻畫了與節點相關的網絡拓撲結構,信息在該拓撲結構上傳播。最後,我們通過 θ 對節點特徵進行提取和變換,再通過非線性激活函數得到下一層的節點表徵 H^{l+1}。
從另一個角度來看,我們可以將上式視爲先通過 θ 對 H 節點的特徵進行特徵提取和變換,此後再在網絡上進行信息的傳播和聚合,從而得到更新後的新網絡表徵。我們將多個圖神經網絡層的操作疊加起來,就得到了深度圖神經網絡。
目前,圖神經網絡(GNN)在節點分類等任務上取得了目前最優的性能,該工作流程之所以奏效,主要原因包含以下幾點:
(1) GNN 很好地利用了圖的結構 ,以一種非常自然的方式獲取了圖上鄰居節點的信息。如果我們將單層圖神經網絡層的操作疊加 N 次,便可以獲取某節點 N 階鄰居的信息,這種聚合信息的方式非常靈活。
(2) GNN 得到的節點表示刻畫了節點的低頻信息 ,即圖上節點之間共性的/相似的信息,節點之間差異較大的高頻信息則會被過濾掉。我們往往認爲節點與其鄰居節點是相似的,而這種疊加傳播聚合的過程恰好可以保留相似信息,相當於低通濾波器。
(3)在消息傳播機制的框架下,研究者們提出了各種各樣的圖神經網絡,可以 有效利用鄰居結構信息,同時保留低頻信號。
然而,當前的圖神經網絡框架也存在一些不足,例如:
(1) 並未充分利用網絡中節點的特徵結構。
(2)圖神經網絡起到低通濾波的作用,然而 被過濾掉的高頻信息是否也有用呢? 如果有,在什麼場景下需要高頻信息呢?
(3)在衆多的圖神經網絡模型背後, 是否能通過統一的目標函數或其它方式描述圖神經網絡?
1
如何利用節點特徵結構
爲了利用特徵結構,我們在網絡拓撲上進行節點的特徵傳播和聚合,最後得到的嵌入融合了特徵和拓撲的信息,理想的融合結果能夠爲下游任務提取出最相關的信息。
圖 4:自適應的多通道 GCN
如圖 4 中的 case 1 所示,圖的拓撲結構是隨機的,但是節點的特徵具有很高的判別性,三類節點存在非常明顯的特徵結構。然而,實驗結果表明,相較於多層感知機,GCN 並不能很好地提取節點的特徵信息。這說明,縱然節點特徵具有很強的判別性,如果節點的拓撲結構不夠好,也無法很好地利用特徵信息。
因此,我們希望 能夠有針對性地考慮特徵本身的結構,同時考慮拓撲圖和特徵圖。
我們通過 KNN 構造特徵圖,從而刻畫特徵視角下的結構信息。接着,我們在拓撲圖和特徵圖上分別應用圖神經網絡,從而得到兩種圖特有的嵌入表示。此外,爲了提取拓撲圖和特徵圖之間的共性,我們設置了一個公共的圖卷積分支,從而學習公共的嵌入。
圖 5:AM-GCN 的注意力機制
我們通過注意力機制,動態地調整拓撲結構信息、特徵結構信息、公共結構信息對最終的融合表徵的貢獻,自適應地學習出最適用於下游任務的表徵。
實驗結果表明,使用針對拓撲結構的 GCN 和使用特徵結構的 kNN-GCN 時的模型性能不分伯仲,因此特徵結構也具有很大的信息量。
通過對注意力進行分析,我們發現有時拓撲結構更重要,有時特徵更重要。
圖 8: 圖結構估計神經網絡
上面的工作對特徵結構利用進行了一定探索。然而,拓撲圖本身也可能存在噪聲或缺失,或不能很好地適用於下游的任務。爲此,我們進一步提出了一種圖結構評估網絡,希望能夠自動學習一種更適合圖神經網絡的圖結構。
我們認爲,好的圖結構應該具有以下三點性質:
(1)站在巨人的肩膀上:充分利用網絡科學和圖數據科學的研究成果,將真實世界中圖所具有的基本特徵、先驗信息利用起來。
(2)兼聽則明,偏聽則暗:在單一的度量方式下得到的結構可能存在偏差,圖上的結構需要在多種度量下都成立。
(3)知己知彼,百戰不殆:圖結構的學習過程應該與圖神經網絡聯繫在一起。
我們通過貝葉斯框架將上述三個性質的引入統一爲後驗概率最大化問題,並使用 EM 算法對其進行求解。從貝葉斯框架的角度來看,第一個性質提供了先驗信息;第二個性質通過觀測結果推測圖的結構,實際上提供了似然信息。在擁有先驗信息和似然信息的情況下,自然地將上述問題轉化爲後驗概率最大化問題。
圖 9:實驗結果
如圖 9 所示,針對仿真數據上包含較多噪聲的原始數據,我們可以利用拓撲圖的結構,以及根據圖神經網絡的嵌入學習到的不同階鄰居的觀測信息,最終得到如圖 9 左下角所示的圖結構。
2
如何利用其它頻段的信息
目前,許多研究者已經證明,大部分的 GNN 相當於一種低通濾波器。那麼,一個自然的問題是, 我們是否需要利用低頻信號之外的信息?應該如何利用?
圖 10:如何利用低頻信號之外的信息
如圖 10 所示,圖中各節點較爲一致的信號爲低頻信號,圖中節點之間差異較大的信號爲高頻信號。爲了研究不同頻段信號的作用,我們分別考慮同配性(節點與鄰居較爲相似)圖和異配性(節點與鄰居差異較大)圖。
圖 11:不同信息的作用
針對仿真數據,我們可以通過一系列調整,使圖數據逐漸從同配性較高變化爲異配性較高,並且在該過程中分別觀察使用低頻信號和高頻信號對最終模型準確率的影響。實驗結果表明,低頻信號在同配性高的圖上性能較好,而高頻信號在異配性高的圖上性能較好。
基於上述發現,我們提出兩點思考:(1)如何在 GNN 中使用不同頻段的信號?避免傳統的 GNN 將低頻信號之外的信號屏蔽掉。(2)我們往往缺乏對圖的同配性/異配性程度的先驗知識。如何自適應地選擇合適的頻段信號處理目標圖數據?
傳統的 GNN 在不考慮鄰居節點相似度的條件下僅僅保留低頻信息。但是我們希望節點保留相似鄰居節點的低頻信息,並且保留不相似鄰居節點的高頻信息,從而使網絡具有更好的判別性。此外,由於缺乏對圖的同配性/異配性程度的先驗知識,我們希望能夠自動判斷保留鄰居節點的低頻信息還是高頻信息。
如圖 12 所示,我們提出的 FAGCN 模型可以自適應地提取最合適的頻段的信息,在各種實驗設定下能夠獲得穩定的高準確率。
具體而言,我們設置了兩個增強的濾波器:
增強的低通濾波器爲:
增強的高頻的濾波器爲:
圖 13:兩種增強的濾波器
如圖 13 所示,對 GCN 而言,給定圖信號 x,我們通過拉普拉斯矩陣的特徵向量 U 將 X 變換到某種需要的頻率下,並使用形爲對角矩陣的參數在該頻率下對信號進行濾波(即增強或抑制信號)。在該參數矩陣中,較大的元素可以增強對應的信號,較小的元素可以抑制對應的信號。最後,我們通過圖傅里葉逆變換將信號轉換回空域。
我們再看信號的頻率怎麼樣保持,主要就是這個gcta起到的作用。我們就看我們這裡的gcta是什麼樣子的?
對於增強的低通濾波器而言,可以展開爲 的形式,其中爲特徵值。如圖 14(b)所示,通過觀測其二階幅值可以發現,當特徵值較小(對應低頻信號)時,圖神經網絡的幅值較調整前更大,即對低頻信號有更好的增強;當特徵值較大(對應高頻信號)時,圖神經網絡的幅值較調整前更小,即對高頻信息抑制的更加強烈。
同理,如圖 14(d)所示,對於增強的高通濾波器而言,高頻特徵幅值被進一步增大,而低頻特徵幅值則被進一步抑制。
從空域角度來看,對於低通濾波器而言,其信號爲 ,即將當前節點與鄰居信號節點進行融合,從而得到新的當前節點的表徵。在這種迭代的融合過程中,當前節點會與鄰居節點越來越相似。
而對於高通濾波器而言,其信號 ,即當前節點的信息減去鄰居節點的信息,從而消除當前節點和鄰居節點之間的共性,僅僅保留差異較大的信息。
爲了自適應地判斷使用高頻信息還是低頻信息,我們設計了一種注意力機制來學習增強後的第頻信號和高頻信號的權重:
其中,爲當前節點的信息,爲鄰居節點的信息。我們在聚合鄰居信息的過程中,爲鄰居節點和當前節點的連邊賦予了一個權重係數 。由於該權重係數的符號可正可負,甚至可以爲 0,因此我們可以將該操作視爲廣義的圖注意力。
圖 16:係數可視化結果
如圖 16 所示,在常見的同配性較高的圖上,大多數的係數爲正;在異配性較高的圖上,係數有正有負,甚至有的係數聚集在零點周圍,即引入拓撲結構作用不大,使用節點特徵就能夠得到較好的效果。可見,FAGCN 模型十分靈活。
3
統一的目標函數
最後我們再來看我們關於統一目標的思考, 希望能夠找到一個式子,能夠把很多的圖神經網絡囊括進來。
目前學術界涌現出了各種各樣的圖神經網絡,我們希望通過一種統一的目標函數將大多數的圖神經網絡囊括在一起。
圖 17:重新思考 GNN 統一框架
以 GCN、SGC、PPNP 等經典的圖神經網絡爲例,它們的傳播機制本質上都是在優化目標函數 。
目標函數中的第二項可以展開爲 ,它代表圖拉普拉斯係數爲正的項,使得當前節點與鄰居節點的信息變得更加平滑。目標函數中的第一項代表學到的節點表徵跟原本表徵之間的關係,即節點特徵的擬合項。不同的圖神經網絡對應不同的和,即圖卷積核不同。
以 PPNP 爲例,其傳播的機制爲優化目標函數:
由於目標函數對 Z 求偏導等於 0,我們可以推導出 PPNP 的傳播機制爲:
PPNP 之所以比 GCN 更容易緩解過平滑問題, 是因爲其目標函數相較於 GCN 在圖正則的基礎上加入了考慮 Z 與 H 之差的項,使得 Z 不僅進行了平滑操作,同時還要滿足一定的與原本節點特徵 H 的關係。
此外,PPNP 與 DAGNN 的目標函數非常的相似,二者的區別之一在於 PPNP 的圖正則項的權重爲人工設定的,而 DAGNN 的圖正則項權重則是通過注意力機制學習得來。
圖 19:設計 GNN 的新視角
通過對目標函數進行修改,我們可以推導出一些新的圖神經網絡。例如,若我們將 F_1、F_2 設置爲具有不同濾波器的圖卷積核,就可以推導出各種新的圖神經網絡。因此, 在設計圖神經網絡時,除了從頻域、空域的角度設計各種傳播機制,還可以從目標函數的角度出發推導新的圖神經網絡架構。