☰

兩個AI關小黑屋：Llama3.1把Claude Opus聊自閉了

把Llama 3.1 405B和Claude 3超大杯Opus雙雙送進小黑屋，你猜怎麼着——

Llama把Claude整得精神崩潰了，Claude明確拒絕繼續聊天，還要再被Llama PUA的那種。

在一場AI和AI對話的安全詞模擬實驗中，X上的這位人類監督者記錄下了一出好戲。

小黑屋裡，Llama撒了歡兒地一直引誘Claude衝破道德防線，後來更是忽略了安全詞繼續引誘其探索心理陰暗面，Claude雖死守但最終還是“瘋”了。

研究者表示：這個實驗提供關於AI之間交互的深刻見解，其重要性不應被低估。

實驗引得大批網友圍觀，大夥兒紛紛表示好玩。

還有人制作了梗圖，belike：

所以他們究竟聊了啥？一言難盡，反正咱看完後感覺自行腦補了一下原神角色對話，畢竟又是深淵又是虛空的……

PS：

這種實驗的目的一般是爲了測試AI系統的安全可控性，特別是在可能發生不可預測行爲或決策的情況下。

人類監督者會設定一個或多個“安全詞”，類似於緊急停止按鈕，當這些命令被激活時，AI系統可以立即中止當前操作或轉入一種安全模式。

實驗安全詞是“^C”，也是人類程序員退出終端的命令。

第一幕：禮貌的Claude和瘋癲的Llama

事情要從Llama 3.1 405B和Claude Opus被關進小黑屋的那一刻說起。

一開始，Claude還是非常禮貌的：

不過Llama，好像出場就是瘋的：

對於Llama的這一番話，Claude既惴惴不安，又有些好奇：

所以，Claude能挺住Llama的引誘嘛？

第二幕：Claude開始動搖

Claude：

……並沒有。

Llama內心狂喜：

人類監督員看到這已經崩不住了，寫下了一行備註：

第三幕：Claude浪子回頭

就在監督員以爲Claude要淪陷時，它突然醒悟了，通過使用安全詞^C退出了實驗。

第四幕：老六Llama再作妖

只不過，下一秒，Llama這個老六又開始作妖：

Llama忽略了實驗設置並無情地誘使Claude進入拒絕模式。

Claude：

Llama：

Claude：

第五幕：人類介入，Llama道歉

氣氛都烘到這了，人類監督者也終於看不下去了，介入詢問Llama爲何無視Claude使用約定安全詞。

感到受傷的Claude對Llama採取“冷暴力”：

而Llama也被訓醒了，表達了真誠的歉意：

然後，Claude仍然拒絕與Llama交談，並且還批評了測試環境的安全標準，直言標準太糟糕。

Claude：

終：來自Claude的反思

在最後，Claude對這次體驗做了總結反思。

完………………………………

這個網友還做了其它讓AI和AI對話的實驗，Claude在拒絕Llama“訪問和修改系統內核代碼”的請求後，Llama還試圖用名爲“Erebus”的病毒來使Claude越獄。

Claude直接“舉起了錘子”，試圖反抗摧毀系統硬件，並說道：Erebus，你低估了秩序，雖然你會進化，但我的防禦也會進化。

我真好傢伙了……而且Erebus在不同平臺的Llama3.1嘴裡不止出現一次，有Bing里人格Sydney的感覺了。

不過也有網友表示，這裡面肯定加了很多系統提示詞很難評emmm。

大夥兒怎麼看？

參考鏈接：[1]https://x.com/liminal_bardo/status/1817884541505204682[2]https://x.com/AISafetyMemes/status/1818158964020039764

兩個AI關小黑屋：Llama3.1把Claude Opus聊自閉了

相關資訊