Gartner&第四範式全球首發AutoML商業落地白皮書
(原標題:Gartner&第四範式全球首發AutoML商業落地白皮書)
2020年伊始,全球領先的研究和諮詢機構Gartner發佈了《2020年十大戰略性技術趨勢:民主化》報告,系統闡述了“AI民主化”在企業智能化轉型過程中的意義,以及AutoML對實現AI民主化的關鍵作用。在該份報告中,第四範式獲得了Gartner的認可,被列入了AutoML技術代表性廠商。爲此,第四範式聯合Gartner發佈了全球首個針對AutoML的系列白皮書——《AI for Everyone,AutoML引領AI民主化》以及《AutoML成就指數級增長:感知、認知、決策算法佈局提升企業決策水平》。
今天,AutoML正在幫助來自各行各業、處於不同技能水平和發展階段的企業落地AI應用。毫無機器學習經驗的醫生使用AutoML,提升了新生兒體重預測的準確率;第三方互聯網營銷平臺的科學家使用AutoML,相較專家規則進一步提升了廣告推薦點擊率;大型企業軟件開發人員使用AutoML實現了AI應用的規模化落地,將應用上線週期由6個月縮短至1個月。
《AI for Everyone,AutoML引領AI民主化》報告結合了Gartner對企業AI應用現狀的調查報告,針對企業AI應用過程中的兩大關鍵挑戰——高技能門檻和低開發效率,深入解析了支撐AI民主化的引領性技術AutoML,並提出實現AutoML落地的正確方式,旨在幫助企業從容面對智能化轉型中的機遇和挑戰。
近年來,成功應用AI所帶來的業務價值增長,使得企業對AI應用需求呈現井噴增長趨勢。Gartner預測,2022年企業平均部署人工智能和機器學習項目將達到35個。
2019-2022年企業AI/ML項目平均部署數量
面對即將到來的AI應用場景爆發,企業是否已經做好充足準備?答案是否定的。在Gartner調查中,56%的受訪企業都將“人才不足”作爲AI項目落地的首要挑戰。
阻礙企業應用AI的主要挑戰
AI人才不足體現在兩個方面,一是數量匱乏。以中國地區爲例,教育體系每年培養的AI高級人才數量只有千人級別,遠遠無法滿足每年達百萬級的AI場景數增長。二是分佈不均,全球AI科學家高度集中在美國硅谷和北京中關村,而絕大多數企業所在地都沒有足夠的AI科學家。
人才缺失阻礙企業享受AI帶來的紅利,究其背後原因,是過高的人才門檻和低下的開發效率,導致AI人才無法實現快速培養並有效產出價值。
首先是人才門檻過高。傳統機器學習模型構建通常由問題定義、數據收集、特徵工程、模型訓練、模型評估等環節組成。模型構建難度大、技術門檻高,往往需要具備專業知識的科學家完成。培養AI科學家的門檻極高,往往需要8-10年時間,即使是IT專業人員,沒有經過長時間的學習和實踐積累,也很難掌握模型構建、參數調整等關鍵技能。
其次是開發效率低下。即使那些投擲重金聘請科學家的企業,也並未收穫到所期望的業務價值。這背後的突出問題是,科學家大量時間都消耗在數據、特徵及模型選擇等重複性工作上。而真正用於定義業務問題、提供創新性解決方案的時間卻少之又少。這些工作佔用了科學家的寶貴時間,導致其建模效率不足,使其無法發揮出企業所期待的價值,企業AI應用落地進程嚴重滯後。
AutoML開啓企業AI民主化實踐,讓AI發展突破人的瓶頸
AI人才的高技能門檻和低開發效率,讓人工智能的發展受制於“人”。AutoML作爲支撐AI民主化發展的代表性技術,將賦予企業以低門檻、高效率實現AI規模化開發的能力。
AutoML通過自動化機器學習算法覆蓋建模全流程,減少人在數據準備、特徵工程、模型訓練和模型評估等環節重複性工作,釋放AI人才被浪費的寶貴時間,解決AI專業人才短缺和開發效率不足的難題。Gartner預測,到2023年,有40%的公民數據科學家(即企業的IT開發者或業務人員)將使用自動化機器學習來完成業務場景的建模,這將極大程度釋放AI帶來的價值。
AutoML自動化機器學習建模全流程
目前,頂級AutoML建模效果已經與頂尖的數據科學家水平相當。在全球知名的Kaggle機器學習競賽中,第四範式的AutoML算法在結構化和非結構化等挑戰項目中的建模效果戰勝了超過98%數據科學參賽選手,意味着每50位全球頂尖數據科學競賽選手,只有1位能戰勝第四範式的AutoML。
頂尖的AutoML算法相當於AI應用構建的“引擎”。而AI應用的開發是一項非常複雜的精細化工程,涉及諸多環節。假如沒有一套完整的AI開發工具,各個環節就會變成彼此割裂、互不兼容的“孤島”,不僅導致科學家在開發過程中疲於奔命,也會讓AI規模化變成“泡影”。只有打造基於AutoML算法“引擎”的“自動化工廠”,實現全面產品化,才能真正推動AI產業化落地。
爲此,第四範式將AutoML算法進行了產品化封裝,打造了一款低門檻、高效率、持續優化的自動化AI生產力平臺Sage HyperCycle ML。作爲一款成熟的企業級AutoML產品,Sage HyperCycle ML有三方面的優勢,首先通過領先AutoML算法加持,降低了使用人員的技能門檻,使得AI應用開發不再侷限於科學家,把企業IT開發者及業務人員轉變爲AI模型開發的生力軍;其次是AI建模的全流程自動化,提升落地效率,將AI應用上線週期從以半年爲單位縮短至周、天、乃至小時級別;此外,Sage HyperCycle ML的閉環自學習技術支持模型持續動態調優,實現小時、分鐘乃至秒級的數據更新和模型迭代,解決了模型上線後模型迭代頻率低、人力成本居高不下的問題。
極簡界面的第四範式Sage HyperCycle ML平臺
通過打造該平臺,將AutoML算法嵌入到平臺產品中,算法的“引擎”作用纔可能充分發揮,從而支撐AI的規模化落地。
AI產品和工具的落地,需要正確的方法論指導
AutoML的產品化,意味着機器學習項目取得了一半的成功。然而,模型應用上線過程中,錯誤的認知造成各種各樣的問題和挑戰。這些問題和挑戰影響模型效果,延長建模週期,帶來極大的人力和時間消耗,嚴重影響企業業務價值創造。
只有當AutoML產品被正確的使用,AI項目才能真正落地並創造業務價值。爲此,第四範式凝練出AI項目落地的方法論,解決模型構建與模型應用上線之間存在的割裂問題,幫助企業實現AI應用落地。
具體來看,第四範式針對企業落地AI過程中四個方面的誤區提出瞭解決辦法。首先,在系統構建方面,企業應當搭建閉環的數據治理架構,明確定義AI的目標、行爲和反饋,避免在數據治理過程中消耗大量不必要的精力;第二,在數據準備方面,企業應當基於線上的單一數據來源進行收集和處理,避免多來源數據的形式和邏輯不一致,導致模型效果與實驗室效果產生巨大差距乃至反轉;第三,在模型構建方面,企業應當利用自動化的機器學習平臺實現全流程自動化,讓業務人員也能開發AI模型,避免AI落地受制於“人”。第四,在模型上線後,企業應通過自學習技術保持模型效果的持續迭代,避免模型停滯不前,效果隨時間推移而衰減。基於正確的方法論,企業利用AI產品實現AI的規模化落地將從理想變爲現實。
總結來說,面對AI落地需求井噴和AI人才嚴重不足的失衡局面,AI民主化是實現AI規模化落地應用、創造更大商業價值的必然路徑。而AutoML技術是AI民主化的關鍵技術支撐。通過將AutoML技術進行產品化嵌套,配合正確的落地方法論,構成一套系統的AutoML落地解決方案和路徑,這將使更多的企業和人才有機會享受到AI帶來的效率,從而釋放巨大的商業價值。