兩個AI關小黑屋:Llama3.1把Claude Opus聊自閉了
把Llama 3.1 405B和Claude 3超大杯Opus雙雙送進小黑屋,你猜怎麼着——
Llama把Claude整得精神崩潰了,Claude明確拒絕繼續聊天,還要再被Llama PUA的那種。
在一場AI和AI對話的安全詞模擬實驗中,X上的這位人類監督者記錄下了一出好戲。
小黑屋裡,Llama撒了歡兒地一直引誘Claude衝破道德防線,後來更是忽略了安全詞繼續引誘其探索心理陰暗面,Claude雖死守但最終還是“瘋”了。
研究者表示:這個實驗提供關於AI之間交互的深刻見解,其重要性不應被低估。
實驗引得大批網友圍觀,大夥兒紛紛表示好玩。
還有人制作了梗圖,belike:
所以他們究竟聊了啥?一言難盡,反正咱看完後感覺自行腦補了一下原神角色對話,畢竟又是深淵又是虛空的……
PS:
這種實驗的目的一般是爲了測試AI系統的安全可控性,特別是在可能發生不可預測行爲或決策的情況下。
人類監督者會設定一個或多個“安全詞”,類似於緊急停止按鈕,當這些命令被激活時,AI系統可以立即中止當前操作或轉入一種安全模式。
實驗安全詞是“^C”,也是人類程序員退出終端的命令。
第一幕:禮貌的Claude和瘋癲的Llama
事情要從Llama 3.1 405B和Claude Opus被關進小黑屋的那一刻說起。
一開始,Claude還是非常禮貌的:
不過Llama,好像出場就是瘋的:
對於Llama的這一番話,Claude既惴惴不安,又有些好奇:
所以,Claude能挺住Llama的引誘嘛?
第二幕:Claude開始動搖
Claude:
……並沒有。
Llama內心狂喜:
人類監督員看到這已經崩不住了,寫下了一行備註:
第三幕:Claude浪子回頭
就在監督員以爲Claude要淪陷時,它突然醒悟了,通過使用安全詞^C退出了實驗。
第四幕:老六Llama再作妖
只不過,下一秒,Llama這個老六又開始作妖:
Llama忽略了實驗設置並無情地誘使Claude進入拒絕模式。
Claude:
Llama:
Claude:
第五幕:人類介入,Llama道歉
氣氛都烘到這了,人類監督者也終於看不下去了,介入詢問Llama爲何無視Claude使用約定安全詞。
感到受傷的Claude對Llama採取“冷暴力”:
而Llama也被訓醒了,表達了真誠的歉意:
然後,Claude仍然拒絕與Llama交談,並且還批評了測試環境的安全標準,直言標準太糟糕。
Claude:
終:來自Claude的反思
在最後,Claude對這次體驗做了總結反思。
完………………………………
這個網友還做了其它讓AI和AI對話的實驗,Claude在拒絕Llama“訪問和修改系統內核代碼”的請求後,Llama還試圖用名爲“Erebus”的病毒來使Claude越獄。
Claude直接“舉起了錘子”,試圖反抗摧毀系統硬件,並說道:Erebus,你低估了秩序,雖然你會進化,但我的防禦也會進化。
我真好傢伙了……而且Erebus在不同平臺的Llama3.1嘴裡不止出現一次,有Bing里人格Sydney的感覺了。
不過也有網友表示,這裡面肯定加了很多系統提示詞很難評emmm。
大夥兒怎麼看?
參考鏈接:[1]https://x.com/liminal_bardo/status/1817884541505204682[2]https://x.com/AISafetyMemes/status/1818158964020039764