輕易製造小錯誤 你也可以一秒讓智慧AI變傻子

▲ AI在現實電影中總是贏過人類,如今人類也有辦法贏過AI。(圖/CFP/示意圖

科技中心/綜合報導

無論是在電影還是現實中,人工智慧AI都經常以碾壓人類的姿態出現在公衆面前,但如今,人類卻有辦法制造一些「小錯誤」,大大誤導AI判斷。

在電影《魔鬼終結者》中的T800機器人一登場,第一件事就是暴揍一羣人類,搶走他們的衣服、摩托車和墨鏡,全程一副藐視人類的樣子;現實中也是如此,2017年下棋AI系統「AlphaGo」,擊敗圍世界級棋手李世乭,每次都把人類選手逼到不得不認輸

如此看來,人工智慧發展史簡直就是人類一步步被自己發明的 AI 擊敗的歷史。

然而,根據《新浪專欄》報導,就有一個人類調戲AI的趣事。他們發現,有一種操作能欺騙圖像識別系統,可以立刻讓AI變成傻子

這有一張熊貓側身照,人類看着是熊貓,圖像識別AI也把它認作熊貓。研究人員對這張圖裡的的某些特定像素進行了一點肉眼無法辨識的擾動。之後,雖然人看着還是熊貓,可AI卻會把它識別成長臂猿,而且置信度高達99.3%。

就這樣,人類成功欺騙了AI。

在另一個實驗中,研究人員對馬路上的路標進行了藝術加工,在特定的位置貼了些小紙片,塗抹了些污漬照理說,路標每天在外面日曬雨淋,被弄髒或者貼個小廣告也不奇怪,路人通常不會在意。可就因爲這些特殊處理,讓國外某款自動駕駛汽車變成了傻子。

測試結果顯示:左邊三個「停止」路標被AI識別爲「時速60公里」,最右邊的「右轉」被AI識別成了「停止」。

一開始,人們以爲這是某個特殊條件偶然觸發了BUG,可後來研究人員發現,這個問題在圖像識別領域普遍存在。除了圖像識別,聲音識別等其他領域的AI應用也出現了類似問題,這時人們才發現,原來這是所有機器學習的通病

而後,一位研究AI安全的百度資深安全研究員兜哥表示,機器學習的基本原理其實不難。

以圖像識別爲例,讓AI去識別貓和狗,本質上就是讓AI去做「分類」,把長得差不多的圖像歸類到一起。例如,讓機器學習模型區分一堆紅球綠球,模型的分類器會不斷試探,最終在函數圖上畫出一條分界線,完美區隔紅綠球;區分貓和狗,其實也就是摸索出這麼一條線。

那麼想成功欺騙AI,只需要在分界線附近隨便找一個點,略微修改它的參數,讓它移動到函數圖上分界線的另一側,這種「像素級」輕微改動,放到一張圖片裡,肉眼通常看不出來,但機器的判定結果卻會發生變化,於是便實現了文章開頭的欺騙效果。

研究人員把這種小幅度修改後能夠改變AI判斷結果,但人類感官無法辨別的數據樣本統稱爲「對抗樣本」。要找到某個圖片的對抗樣本,本質上就是想辦法讓它以最小的改動,移到分界線另一側,因辨識分界線附近的樣本最容易被弄混,所以很容易被找到「對抗樣本」,讓機器傻傻分不清楚。

此外,研究人員還發現了一個有意思的情況:「由於很多種AI模型,祖上是一家」,它們是從同一套算法/模型裡衍生出來的,所以其實缺陷都差不多。意思是,如果你想對付A模型,只需要先在B模型裡找到一個對抗樣本,再直接拿到A模型裡使用,很多時候都能直接起效,研究人員把這種特性稱爲「攻擊的遷移性」。

對抗樣本攻擊具有遷移性,這也就意味着未來這種攻擊方式會在人工智能領域變得很普遍。兜哥說,「如今AI應用地非常廣泛,比如AI金融欺詐、AI鑑別色情圖片、AI攔截垃圾郵件等等,未來一旦黑產利用出現這類攻擊手法,很可能導致AI反不了金融欺詐,攔截垃圾郵件失敗,鑑別不出色情圖片等等,想想都刺激。」

至於如何預防AI更容易被攻擊、迷惑,其實也是有方法的。

1. 對抗訓練

這方法有點類似給人類小孩打疫苗,開發者可以提前用各種「對抗攻擊」把自己的模型調教一遍,儘可能找出所有「對抗樣本」,再把這些對抗樣本扔進模型裡,進行專項訓練。這樣訓練出來的模型就會更加「健壯」,不再懼怕這些對抗樣本。

2.數據增強

所謂數據增強,就是指訓練的時候就加入一些隨機的干擾,相當於訓練模型時給數據都打上馬賽克,讓AI模型在模糊的環境下訓練,最終讓它達到一種「閱片無數,有碼勝似無碼」的境界。顯然,如果AI模型在戴上眼鏡的情況下都能認出一個物體,那麼就不怕黑客再修改什麼像素點了。

就像下面這四幅畫,糊成這樣都能認出來,這種圖片別說改變像素來迷惑你了,就連破壞一個部分你也能認出來。

3.特徵擠壓

所謂特徵擠壓,可以理解爲數學裡的四捨五入。AI模型在識別一些數據時,人爲給數據進行取整,這樣就能避免掉一些小數位上的擾動。這種方法跟前面第一種有點像,不過一個發生在訓練過程,一個發生在運行過程。

爲了研究這種攻擊方式,百度安全實驗室幾年前就內部研發了一個名叫AdvBox 的「對抗樣本攻防工具包」,把很多主流的對抗樣本攻擊算法和防禦方法打包成工具包,專門給百度自家的AI系統做安全檢測。今年,他們決定把這項安全能力分享給全球的AI開發者和安全研究人員,把AdvBox項目開源在“全球最大的同性交友網站”Github上。

這個項目號稱不僅能攻擊靜態圖片,還能攻擊語音、文本和視頻,並且同時支持白盒攻擊攻擊甚至是「物理攻擊」。一般情況下,物理攻擊其實較難實現,因爲即便攻擊者找到了對抗樣本,在現實世界構造圖案時也常常會受到拍攝角度、位置、光照強度、圖案的色差等等因素影響,而文章開頭提到的在路標上粘東西騙過AI的操作就屬於「物理攻擊」。

哪怕是進化了幾千萬年的人類大腦,也會出現這樣那樣的「漏洞」,更別說纔剛剛面世不久的AI。或許再過不久,專門黑人工智慧的「AI駭客」就會出現,可能讓未來的科技世界充滿想像,但也可能更危機四伏。

圖片來源:《新浪專欄》

版權聲明:圖片爲版權照片,由CFP視覺中國供《ETtoday新聞雲》專用,任何網站、報刊、電視臺未經CFP許可,不得部分或全部轉載,違者必究!