ChatGPT也在評審你的頂會投稿,斯坦福新研究捅了馬蜂窩

尷了個大尬!

人們還在嘲諷有人用ChatGPT寫論文忘了刪掉“狐狸尾巴”,另一邊審稿人也被曝出用ChatGPT寫同行評論了。

而且,還是來自ICLR、NeurIPS等頂會的那種。

來自斯坦福的學者對一些頂級AI會議(如ICLR、NeurIPS、CoRL等)中的審稿意見進行了分析,結果發現——

在ChatGPT出現之後,這些同行評論的“AI含量”大增,最多的高達16.9%,而有ChatGPT之前這個比例大約是2%。

證據也很直觀,AI常用的詞彙出現頻率,在ChatGPT發佈之後噌的一下就上去了。

消息一出,Reddit的機器學習板塊立刻就炸了鍋,有網友直呼:閉環了!

在X上,也有人發出了同樣的疑問:

那麼,這究竟是怎麼一回事呢?

來自斯坦福大學多個學院以及加州大學聖芭芭拉分校的研究人員發表了一項研究,主題是關於ChatGPT對AI學術會議同行評審的影響。

研究人員一共分析了ICLR、NeurIPS、CoRL和EMNLP這四個頂會中的同行評審意見,對其“AI含量”進行了計算。

α值指在所有內容中疑似由AI生成或“顯著修改”的內容所佔的比例

而在ChatGPT問世之前,α值的水平大約是在2%,作爲對照的Nature系列期刊評審意見的α值則未發生顯著變化。

除了得出這些數據,研究人員還發現了“AI含量”較高的評審意見大多具有一些共同特點。

從內容角度上看,“AI含量”高的意見,引用的作者中包括“et al.”的學術內容也較少。

而且,“AI含量”高的內容,在語義上也更加同質化,比如“commendable”(值得稱讚的)、“meticulous”(細緻的)和“intricate”(複雜的)等形容詞大量出現。

同時作者也展示了在AI生成的內容中出現最頻繁的形容詞和副詞各100個,下圖中字號越大代表出現頻率越高。

而除了內容本身,高”AI含量“的內容的作者在行爲上也表現出了一些共同之處。

一是提交的時間更加接近截止期限,特別是截止前三天提交的意見“AI含量”明顯更高。

除了提交時間晚,高“AI含量”意見的作者,普遍對自己提交的內容自信程度也更低。

評審者對自己評審意見信心水平的自我評估(滿分5分)結果顯示,“AI含量”較高的審稿人,自我評分也更低(不大於2分)。

此外,對自己的審稿意見自信程度低的另一個表現是,他們也較少對論文作者反駁做出迴應。

在ICLR 2024和NeurIPS 2023上,這類審稿人中有超過12.5%從未對反駁意見做出任何回覆,約10%只回復了一次。

那麼,作者又是如何分析出這些審稿意見中的AI含量的呢?

爲此,研究人員設計了一種分佈式“GPT量化”方法,能夠在語料庫級別有效估計AI含量,而不必逐篇分析。

首先,研究人員收集了已知由人類編寫(ChatGPT出現前的審稿意見)和AI生成(由研究者直接用ChatGPT編寫)的文本的數據集,作爲參考分佈。

然後,作者估計了人工編寫的(P)和AI生成(Q)的內容的token分佈,尤其重點關注形容詞的出現概率。

最後將這種分佈模型擬合到未知成分的目標語料庫,假設每個文檔都是從人類和人工智能分佈的加權組合中,即(1-α)P+αQ,並使用最大似然估計來推斷α的值。

完成方法的構建之後,研究者又合成了多組α值確定的標準數據集,並在此之上對前面提出的方法進行了驗證,結果最大誤差僅有2.4%。

於是,作者使用該方法分析了最近幾個會議中的審稿意見,最終得到了前面的結論。

而當這項研究被更多人所得知後,引發了廣泛的討論,其中有不少人對這種現象表達了擔憂。

不過,也有人猜測出現這種現象的原因,可能是審稿人母語不是英語,於是用ChatGPT對英文寫作進行了調整潤色。

基於此,有人提問到,用ChatGPT來改寫而不是直接生成評論也是錯的嗎?

有人給出了半肯定的答覆,但理由不是關乎原創性,而是出於對文本質量的擔憂,人們還是應該謹慎使用ChatGPT。

當然也有人說,科學寫作,本身就是ChatGPT的一種合理用途。

總之對於這件事,擔憂也好寬容也罷,這種現象都已然存在了,而按照原作者的觀點,這幾個問題是人們應該思考的:

當然了,在學術界,ChatGPT生成的內容,還遠不只是審稿意見。

除了審稿人被曝用ChatGPT寫評論之外,拿它來寫論文的人更是屢見不鮮……

在谷歌學術中搜索2023年及以後包含“certainly, here is”這種ChatGPT常用開頭的論文,剔除直接包含“ChatGPT”和“LLM”的論文後,結果共有50餘篇。

隨機翻閱其中的幾篇,果然是發現了ChatGPT的使用痕跡,ChatGPT在這些論文中被用做了總結、翻譯、製作表格等多種用途。

甚至其中還包括正式出版的論文合集:

而另一個ChatGPT常用句式“As of my Last Knowledge Update”,在相同條件下的搜索結果有114條。

而且出現形式上也更加離譜,“Certainly組”當中至少還有一些只是用ChatGPT做了些輔助工作,“As of my…”這一組乾脆直接拿來搞正文內容了。

此外,“As an AI language model, I”也有40多條搜索結果,不過也不排除其中有誤傷的情況出現。

當然要論離譜,可能還要屬這種把ChatGPT的按鈕“Regenerate Response”也一起復制進去的了,而且數量還不算少,有將近一百篇。

露出馬腳被發現的論文數量尚且如此,刪去了這些關鍵字從而“躲過一劫”的究竟有多少,就更是不得而知了。

當然,並不是說研究者不能使用ChatGPT來輔助論文撰寫,包括Elsevier、Springer(Nature出版商)在內的許多知名出版機構都表示並不禁止ChatGPT的使用,只要進行聲明即可。

總之,無論是論文本身還是審稿意見,亦或是其他文本寫作,如何以更合理的方式運用AI,值得人們繼續深入思考。

論文地址:https://arxiv.org/abs/2403.07183