北郵王嘯:挖掘圖神經網絡中的「萬物真理」
北京郵電大學副教授、青源會會員王嘯是國內圖學習領域的佼佼者。回顧他的科研歷程,從探尋網絡研究的本質,到在物理學家的論文中尋找靈感,他對圖神經網絡研究的熱情未曾衰減。未來,他還將繼續從基礎理論入手,深入探索圖神經網絡中的不變性。
王嘯,北京郵電大學副教授。研究方向爲圖神經網絡、數據挖局與機器學習。天津大學博士,美國聖路易斯華盛頓大學聯合培養博士,清華大學計算機系博士後,曾入選ACM中國新星提名獎,以及AI2000學者榜單。
採訪&整理丨李夢佳、熊宇軒
1
跟隨馬克紐曼的步伐
在物理研究中尋找靈感
當前,在蓬勃的圖神經網絡研究浪潮中,研究者針對各種任務提出了五花八門的圖神經網絡,並且都能夠自圓其說。王嘯認爲, 研究者們需要探究圖神經網絡中的「不變性」,針對圖神經網絡算法背後的基礎理論產生共性認識。 以物理學爲例,同一套萬有引力模型可以同時解釋各種物體從高空掉落到地上的現象。
王嘯表示,目前計算機科學領域的研究更多偏向針對具體的問題設計新的方法,缺乏挖掘現象背後的本質特性。而圖神經網絡這一領域紛繁複雜的算法背後,最終需要沉澱出一系列基本準則與共性,這樣才能爲這一方向奠定出理論基礎,才能成爲一個有體系的方向,圖神經網絡的大廈才能夠建立起來。
在找尋新的科研靈感過程中,持續跟進國內外的前沿動向至關重要。從剛接觸「社區發現」研究開始,王嘯就從物理學家馬克紐曼(Mark Newman)的研究中汲取了大量的靈感。
物理學家馬克紐曼(Mark Newman)
馬克紐曼是一位英裔美國物理學家,2014年獲得拉格朗日獎。他以在複雜網絡和複雜系統領域的基礎性貢獻而聞名,其基於網絡的方法已被應用於心理學、社會學、經濟學和生物學等多個領域。紐曼還研究了森林火災的風險和新西蘭海豚的社會行爲等豐富的問題。紐曼的論文「複雜網絡的結構和功能」在 2001 年至 2011 年期間獲得了所有相關論文中最多的引用。
與計算機學者追尋改造世界追求性能提升的思路不同, 物理學家更偏向基礎核心理論來理解世界,更側重於發現與解釋現象中蘊含的真理。 一直以來,馬克紐曼致力於將複雜的世界系統變成Graph的形式,並從中發現規律。時至今日,王嘯還會時不時看看紐曼的主頁有何新動向, 「讀他的論文,總讓我覺得茅塞頓開,突然一下子靈感就來了。 他是我內心的榜樣之一,每年的工作很少,但每篇讀來卻很有建設性。」
2
追尋拓撲之美
連接世間萬物的真理
科學研究之所以魅力無窮,很大程度上在於人們可以發現某些自然的規律、普世的真理。以統計學中的冪律分佈爲例,其涉及範圍廣泛,從財富分佈的二八原則(即少數人聚集了大量的財富,而大多數人的財富數量都很小)到大多數語言中的詞頻,再到物種的迷食模式等等。
冪律分佈示意圖
而在AI領域,統一的Transformer 架構可以解決許多計算機視覺、自然語言處理及其多模態任務。類似地,在圖神經網絡研究的道路上,王嘯也試圖挖掘一種統一的架構。 他表示,萬事萬物都具有拓撲結構。從圖像到分子,從種羣到交通,正是這種「拓撲之美」,冥冥之中將萬物連接在一起。
「有時你會懷疑世界上到底有沒有神,或者說造物主,因爲你會發現人的社交網絡和動物網絡存在的基本共性,兩種不同的網絡卻存在着潛在一致性,這就好像我發現了世間的某些真理」 王嘯這樣解釋到,「用圖將各種數據、各種任務統一起來是我的理想,圖神經網絡的應用潛力還遠沒有被充分挖掘。」
在王嘯團隊的不懈努力下,他們發現了圖神經網絡模型背後的統一架構,研究者可以基於這一框架改寫出適用於各種場景的圖神經網絡。
在 WWW 2021 上發表的論文「Interpreting and Unifying Graph Neural Networks with An Optimization Framework」中,將不同基於消息傳播機制的圖神經網絡統一在了同一套優化問題下。
在 SIGIR 2022 上,進一步針對異質圖發表了論文「Space4HGNN: A Novel, Modularized and Reproducible Platform to Evaluate Heterogeneous Graph Neural Network」,通過包含異質線性轉換、異質圖轉換和異質消息傳遞層這三大組件的模型框架,統一了各種應用場景下的異質圖神經網絡,並構建了 Space4HGNN 平臺,提供了模塊化組件、可復現的模型實現以及標準化的評估工具。
3
科研啓蒙:「社區發現」算法
回溯研究的初心,王嘯回憶起2012年,最初進入天津大學操曉春研究員實驗室的日子。在那裡,他正式開啓了自己的圖學習研究之路。在不斷推進項目課題的過程中,王嘯爲日後獨立研究打下了堅實的數學、編程、圖理論基礎。
他說,在初入研究之門的日子裡,他的研究方法很簡單:「導師指哪打哪」。起初,操曉春和金弟爲王嘯選定網絡的「社區發現」作爲其研究方向。網絡中的「社區」指的是一組由節點以及與其相連的邊緊密地形成的實體。
舉例而言,社交網絡中會有一羣人在客觀上具有隱式的羣體聯繫。社區發現旨在遵循「社區中的節點緊密相連,不同社區間的節點稀疏相連」的規則對實體集合進行聚類。「社區發現」旨在通過一定的算法,將這些人聚到一起,挖掘出潛在的社區。由於圖數據廣泛存在於真實世界中,「社區發現」技術還可以被用於論文引用網絡、蛋白質交互網絡、電子商務網絡、動物網絡等場景的分析,具有非常廣泛的應用價值。
社區發現算法
在探索「社區發現」的過程中,王嘯逐漸培養起了對科研的興趣。經過一次次的理論推導、實驗驗證,許多有趣而令人激動的科學發現激勵着王嘯執着向前。
2013年,王嘯完成了自己第一篇「社區發現」方向的研究論文「Identifying overlapping communities as well as hubs and outliers via nonnegative matrix factorization」。文中,他提出了一種可解釋性很強的社區發現算法,取得了當時處於領先地位的模型性能。然而,王嘯發現,無論如何調整算法,有一些用戶始終不能被納入到某個社區中。經過仔細分析,這些用戶正屬於「異常點」。因此,這一算法也就具備了異常點檢測的功能,實屬意外發現。
4
直擊圖表示學習研究的本質——編碼結構和性質
隨着研究的不斷深入,王嘯意識到,網絡數據的表徵質量對於下游任務的性能至關重要。2016 年,博士畢業後的王嘯從天大走向清華,在國內圖學習代表性學者楊士強教授、朱文武教授和崔鵬教授的指導下從事圖表示學習方面的博士後研究。
「做研究要解決本質」 崔鵬教授的這一觀點對王嘯今後的學術道路產生了深遠影響。在崔鵬看來,本質的問題也許並不能僅僅通過閱讀現有的文獻得出,而需要研究人員自身真正進行深入、有創造力的思考。
聚焦於圖表示學習領域,網絡由節點以及節點之間的邊組成。爲了得到網絡的良好表徵,需要在嵌入向量中儘可能保留有關節點和邊的信息,即保留網絡的結構。因此,網絡研究中最本質的問題是如何編碼並利用網絡的結構和性質。如果能夠很好地對網絡的結構和性質進行編碼,就可以在下游任務上取得較好的性能。爲此,崔鵬和王嘯等人針對網絡的結構和性質進行了仔細的梳理,形成了較爲完善的研究體系。
在宏觀研究體系的引導下,團隊在網絡結構表示領域產出了一批前沿學術成果。在此期間,基於博士期間在網絡社區發現方面的研究,王嘯進一步探究如何在網絡表徵的嵌入空間中保持社團結構。最終,崔鵬、王嘯團隊的工作「Community preserving Network Embedding」於 2017 年的 AAAI 大會上問世,至今已取得了 800 的引用量,成爲了網絡嵌入領域的代表性論文之一。
5
獨立研究,深挖異質圖
在清華做博後的兩年間,王嘯逐漸形成了自己的科研哲學,他不跟風盲從,而是獨立開展自己的研究。2018 年,他來到北京郵電大學,成爲了一名青年教師。
彼時,圖神經網絡等深度學習技術逐漸成爲了熱門的研究話題。王嘯繼續延續之前的圖表示學習科研思路,自然而然也帶領學生參與到了圖神經網絡研究之中,首先針對異質圖的圖神經網絡展開了研究。
在他看來,異質圖是一種典型的圖數據,當時的圖神經網絡還不能很好地處理異質圖數據,針對異質圖的圖神經網絡也鮮有研究。2019年,王嘯和石川教授等人在 WWW 2019上首先提出了針對異質圖的圖注意力網絡「Heterogeneous Graph Attention Network」,該論文至今已收穫了超過 1,000 的引用量,成爲了那屆 WWW 大會最受關注的論文之一,在異質圖神經網絡的發展史上具有里程碑式的意義。
在圖神經網絡研究過程中,王嘯和石川等人發現了一系列有趣的現象和規律。例如,圖神經網絡的置信度的分佈與普通神經網絡的置信度分佈存在很大的差異。神經網絡往往會「過於自信」,對分類結果的置信度往往很高;而圖神經網絡則相反,呈現出「欠自信」的特點,對分類結果給出的置信度較低。此外,他們發現傳統的圖神經網絡往往在度較大的節點上具有較優的性能,而在度較小的節點上則性能較差,存在較爲明顯的模型的不公平性。爲此,利用圖對比學習技術通過自監督的方式訓練圖神經網絡,有效縮小了度大的節點和度小的節點上的模型性能。
6
Q&A
1.圖神經網絡廣受關注的背後有什麼深層次的原因?
A:圖結構廣泛存在於各種數據中,基本沒有孤立存在的數據,圖可以將各種數據和任務統一起來。由於圖結構的複雜性,曾經對於圖的研究陷入瓶頸,但是一旦取得了突破,比如圖神經網絡實現了圖上的深度學習,那麼後面潛力就非常大了。大家都發現好像自己的領域都可以嘗試用圖神經網絡去做一下,因爲數據中都天然存在圖結構,深度學習也更加自然走進不同領域了。
2. 未來,研究者可以將圖神經網絡應用於哪些方面?
A:圖神經網絡技術的應用場景十分廣泛。我未來考慮將圖與分子、化學、醫藥結合起來,也希望能應用於交通領域,當然這些需要與相關領域的學者一起合作努力。此外,將圖學習技術應用於解決計算機領域內的一些問題(例如,旅行商問題、網絡流問題)也是一個十分有趣的研究方向。
3. 您有怎樣的學術理想?
A:我的長遠理想包含兩方面:首先,從學術的角度來說,我希望做出一些有價值有思想啓發性的工作,讓大家真正瞭解這個領域,比如希望能夠解釋圖神經網絡技術爲什麼有效,圖神經網絡這一領域的普世價值觀是什麼,基礎體系是什麼;從應用落地的角度來說,我希望能夠充分挖掘圖學習技術的商業價值和社會價值,造福於人類社會。
4. 您曾入選2021年ACM中國新星提名獎,以及2022年AI2000學者榜單。這些榮譽對您來說意味着什麼?
A:感謝同行對我學術工作的認可,讓我更加確信自己在做正確的事情,走在一條正確的道路上,而並不只是簡單發表了一篇論文。這種支持和認可對青年研究人員積累信心有着非常大的鼓勵。
5. 對有志於從事圖神經網絡方向研究的學生,有什麼建議?
A:首先,學生要充分相信導師,在科研小白階段跟着導師踏踏實實做一些工作。青年學生的學術積累有限,在迷茫時、找不到研究方向和研究問題時,可以多看看世界頂尖的科學家在做什麼,跟隨優秀者的腳步。同時,要有自己的思考,選擇做的科研課題和研究思路首先要說服自己。
其次,欲速則不達,不追求「快」,要紮紮實實。在一篇論文準備的前期仔細針對研究思路展開討論,充分論證其可行性,找到合適的研究路線,確定合適的度量指標、實驗設定、對比方法是至關重要的。否則在以上沒有思考清楚的情況下盲目開展工作,研究生很可能走一些彎路,產生很多重複勞動,最終文章也很難被接收。
更多內容,點擊下方關注:
掃碼添加 AI 科技評論 微信號,投稿&進羣: