Facebook AI進化 可針對圖文內容全面分析力阻有害內容

爲了讓你能在Facebook不要看見有害內容,Facebook持續開發AI,並且透過全球審查團隊進行內容審查。(達志影像/Shutterstock提供)

你知道嗎?每天有高達18.2億的用戶使用Facebook,並以數以千計的語言方言發表數十億篇的貼文。爲了讓這些貼文不會對平臺用戶帶來負面傷害與影響,事實上Facebook大量運用AI來協助審查。近來Facebook在此領域有哪些新的突破進展,帶你一起了解。

事實上Facebook審查內容的行動,從十多年前就開始。發展至今,內容審查的方法機制,當然也跟過去有很大不同。Faecebook有多個團隊負責內容審查,而最主要仰賴內容政策(Content Policy)、社羣誠信(Community Integrity)與全球營運(Global Operations)三大團隊。內容政策團隊負責制定「社羣守則」說明,讓各地的用戶可以瞭解Facebook 允許及禁止那樣的內容與行爲。社羣誠信團隊負責透過科技,也就是運用AI來大規模執行社羣守則。全球營運團隊則是透過人員審查執行「社羣守則」,當前Facebook 在全球約擁有 15,000 名內容審查員,負責審查超過 50 種語言的內容。該團隊遍佈全球 20 多個城市

Facebook依據內容的傳播性(目前正被快速分享且可能違反社羣守則的內容)、嚴重性(可能導致實際傷害的內容(如涉及自殺、自殘或兒童性剝削的內容,優先審查順序高於垃圾訊息)、違反的可能性(有跡象顯示可能與違反我們政策的內容相似的內容,會優先於從未違反政策的內容)等三大原則排序內容審查的順序。經過此三大原則的篩選排序,AI會優先進行審查判斷,其餘涉及更爲複雜、難以判斷的內容,才交由全球營運團隊進行人工審查。

根據Facebook公佈的「社羣守則執行報告」,在今年在 4 月至 6 月(Q2)期間,99.6% 的假帳號、99.8% 的垃圾訊息、99.5% 的暴力內容、98.5% 的恐怖主義內容、99.3% 的兒童裸露與性剝削內容以及 95% 移除的內容,都是透過科技主動偵測且移除,而非仰賴社羣檢舉。

Facebook所開發的AI,大部分運用了監督機器學習技術,透過學習大量違反、與未違反社羣守則的資料,進行預先判斷。過去,Facebook的AI是依據「內容類型」與「違規類型」兩個層面來做判斷。其中一個分類器檢查照片是否違反平臺的裸露政策,另一個則是檢查是否有包含暴力內容的分類器。貼文的文字或留言則是由另一組分類器負責。但事實上,即便可能部分內容(圖片或文字)可能違反社羣守則,但是事實上需要經由更全面對於圖文內容的理解,才能更準確的識別是否違反社羣守則。爲了對內容有更全面性的理解,Facebook 開發了Whole Post IntegrityEmbeddings(WPIE)的技術。簡單來說,這項技術會檢查貼文的完整內容,不論是圖片、影片或文字。此外,這項技術也由單一分類器同時檢查所有可能的違規情況,而非由多個不同的分類器來檢查不同的內容與違規類型。

除了WPIE,爲了更完整使用者所運用的語言,Facebook 開發一種名爲 XLM-R 的新技術,同時理解多種語言的文字。Facebook會先用某個語言來訓練 XLM-R 的模型,再將它直接套用到其他語言,且不需額外的訓練資料或內容樣本。這代表在面對一些較不普遍的語言(可能沒有大量的資料可以用來訓練演算法)來說,Facebook也仍舊能運用AI來協助判斷內容是否違反準則。Facebook指出,平臺上的貼文來自全球 160 種以上的語言,運用XLM-R 可以讓他們在審查來自全球內容上的願景能夠更進一步。

Facebook指出,在內容審查上,雖然科技所擔任角色越來越吃重,他們仍舊仍然運用「科技+社羣檢舉+人員審查」的方式,偵測及審查可能違反「社羣守則」的內容,藉此可以避免整個內容審查系統判斷錯誤的可能性。根據Facebook公佈的資訊,在今年第一季,人們對於手審查內容進行投訴的次數爲230萬次,在Q2同樣數字下滑到12.6萬。這個數據明顯下滑,也包含因爲COVID-19疫情而降低提供用戶投訴機制的影響因素,但整體來說,Facebook在推進平臺AI審查能力目標上,已經又向前邁進了一步。