同行評審人員爲何難辨人工智能和人類寫作?
大型語言模型(LLMs),如 ChatGPT,已經發展得如此先進,以至於它們甚至可以通過美國醫療執照考試。但同行評審人員在人工智能檢測方面的能力如何,以及人工智能的使用如何影響他們對工作的看法?
由耶魯醫學院負責數字戰略與轉型的副院長 Lee Schwamm 醫學博士所領導的團隊,試圖通過爲《Stroke》雜誌舉辦一場包括人工智能和人類提交的論文競賽來回答這些問題。
研究人員發現,當作者身份被隱匿時,評審人員難以準確區分人類撰寫的論文和人工智能撰寫的論文。
Schwamm 希望這些發現能夠凸顯出在科學手稿中適當使用人工智能方面制定相關政策的必要性。
他的團隊於 9 月 3 日在《Stroke》雜誌上發表了其研究結果。
施瓦姆表示:“這項研究爲編輯委員會和教育工作者敲響了警鐘,我們不能幹等着別人來解決這個問題。”
施瓦姆的團隊邀請《中風》的讀者針對中風領域三個有爭議的話題之一提交有說服力的文章,比如:他汀類藥物是否會增加出血性中風的風險?文章最多 1000 字,參考文獻不超過 6 個。研究人員一共收到了 22 份人類提交的文章。
然後,研究人員運用了四種不同的大型語言模型,分別是 ChatGPT 3.5、ChatGPT 4、Bard 和 LLaMA-2,讓每個模型針對每個主題各寫一篇文章。雖然他們自己沒對人工智能生成的文章進行編輯,但是他們審查並糾正了文獻引用。“參考文獻是人工智能已知會出現很多錯誤的地方之一,”施瓦姆解釋道,“我們不想因爲這個就暴露這是人工智能生成的,我們希望評審人員真正把注意力放在寫作質量上。”
評審人員都是《中風》編輯委員會的成員,他們被要求判定論文是由人類還是人工智能撰寫,給論文的質量和說服力打分,併爲每個提示挑選出一篇關於某一主題的最佳論文。
讓人驚訝的是,研究發現評審人員正確識別作者身份的比例僅有 50%。“這簡直就像拋硬幣碰運氣,”施瓦姆說道。
從質量方面來看,評審人員對人工智能論文的評價要高於人類提交的論文。
有意思的是,在進行多變量分析之後,團隊發現,唯一與評審人員更有可能正確將作者類型歸爲人工智能相關的因素是說服力。“評審人員覺得文章越有說服力,就越和人工智能作者身份有關聯,”施瓦姆說。
團隊還發現,當評審人員覺得一篇論文是由人工智能撰寫的時候,他們覺得其在主題方面最佳的比例僅有 4%。“評審人員沒法區分人類和人工智能生成的論文,不過當他們認定一篇論文是由人工智能撰寫時,他們幾乎從來不會把它選爲同類最佳,”施瓦姆說。
該研究指出,隨着大型語言模型不斷髮展,同行評審員檢測人工智能所撰寫內容的能力將會逐漸降低。
它還揭示出評審員對於機器生成內容存在負面偏見。
當大型語言模型首次現身時,一些科學期刊,比如《科學》,完全禁止使用它們。
後來,該出版物轉變了立場,允許研究人員附上一份有關他們如何使用人工智能的聲明。
“我們必須對抗那種將使用大型語言模型視爲不公平的自然傾向,也就是你在某種程度上沒有付出應有的努力。”施瓦姆說道。
我們如今利用人工智能來切實開展科學研究。所以,說不能讓它參與結果的撰寫,那將會是很諷刺的。