螞蟻集團開源大規模全鏈路因果學習系統 OpenASCE
當地時間 12 月 10 日,爲期 6 天的 AI 國際頂會NeurIPS (Neural Information Processing Systems) 在美國路易斯安那州新奧爾良市開幕。NeurIPS 是全球人工智能和機器學習領域的頂級會議,與 ICML 並稱爲人工智能領域難度最大,水平最高,影響力最強的會議。
會議首日,中國互聯網企業螞蟻集團受邀舉辦主題爲“知識增強AI 在垂直行業的應用探索”(Knowledge-enhanced AIfor Industry Verticals)的研討會,並在會上開源了業界首個分佈式全鏈路因果學習系統OpenASCE(Open All-Scale Causal Engine)。
因果推斷主要研究如何從數據中推斷因果關係,是數據科學領域的重要分支,而傳統的機器學習則主要依賴數據中的相關關係。融合因果推斷和機器學習可以同時發揮兩者的強項,我們稱之爲因果學習。因果學習作爲一種深入理解數據和決策背後關係的技術,在數據驅動的運營和決策中扮演着重要的角色。OpenASCE (OpenAll-Scale Causal Engine) 根植於螞蟻集團多年積累的實踐經驗和技術突破,相較於業界已有的一些開源框架,支持全鏈路大規模因果學習,包含因果發現、因果效應估計和歸因,覆蓋了因果各個領域的相應實現。在因果發現上,OpenASCE 支持分佈式貝葉斯網絡結構搜索,能夠處理百節點百萬樣本數據;同時支持基於連續優化的因果發現,支持萬級節點億級樣本數據。
OpenASCE 實現的大規模分佈式因果糾偏樹可以在 4 小時內完成 1 億樣本的訓練任務,是業界唯一的分佈式因果提升樹實現。此外,OpenASCE 還進一步沉澱了 20 多個工業級因果學習算法,包括 15 個以上因果技術和深度學習結合的因果表徵學習方法,有效降低了因果技術的工業應用門檻,在螞蟻集團內部實現了規模化應用。
比如信貸風控團隊通過OpenASCE 的因果學習方法,可以更準確地識別出風險因素和客戶行爲之間的因果關係,大幅提高了風險控制的精度和效率。在營銷優化方面,OpenASCE 能夠幫助營銷人員有效尋找“營銷敏感人羣”,提升業務指標。在推薦場景中,因果推斷可以幫助機器學習糾正數據中的偏置,去除僞相關,學習更穩定的因果關係。
據瞭解,技術開源是螞蟻集團的重要技術戰略,螞蟻集團在人工智能、數據庫、雲計算、隱私計算、安全可信等領域都擁有自主可控的關鍵開源技術,截至目前,共計開源了1700 多個代碼倉庫,積累了 100 多個社區頭部開源項目。《COPU2022 中國開源發展藍皮書》顯示,螞蟻開源影響力排名國內前三,其中重點開源的 9大技術均爲支撐支付寶的核心技術。