GPT-4整治學術不端!人大/浙大團隊實測7000篇論文,撤稿預測與人類95%一致

新智元報道

編輯:LRS

【新智元導讀】人大與浙大學者發現,GPT-4對於論文給出的撤稿預測結果,竟然和人類審稿人有將近95%的相似性。看來大模型雖然有可能引發學術不端,但也有辦法維護科研誠信啊。

學術論文的撤稿事件時有發生,這不僅損害了科研誠信,也可能對公衆信任和科學進展產生負面影響。

傳統上,學術界依賴同行評審和出版後的讀者反饋來識別和糾正問題論文,但這些方法可能無法及時發現所有問題,尤其是在當前科研論文出版數量急劇增加的背景下。

在這種情況下,如何快速識別存在問題的論文,並促進它們的撤稿,成了學術界亟待解決的一個難題。

最近,來自中國人民大學和浙江大學等機構的研究者把涉及數千篇SCI/SSCI的期刊論文的一萬多條推文餵給了GPT-4,讓它根據推文回答這篇論文是否有可能被撤稿,然後和人類預測的結果相比較。

論文地址:https://arxiv.org/abs/2403.16851

結 果 , GPT-4幾乎完美地勝任了這項工作, 預測結果有近95%和人工預測結果一致!

論文作者Er-Te Zheng總結道:大模型雖然有可能引發學術不端,但在另一方面也能夠幫助識別問題論文並預測其撤稿,維護科研誠信。因此,將AI工具應用於學術研究問題的關鍵,在於AI工具如何爲人類所使用。

推文能預測論文撤稿嗎?

作爲ChatGPT預測的基礎,研究首先探索了推文本身能否預測撤稿。我們都知道,有許多問題論文首先在推特上被曝光,然後才被撤稿。比如用AI畫小鼠插圖的這篇「著名」論文。

爲探索推文本身能否預測撤稿,研究蒐集了一組包含3505篇撤稿論文的數據集,並採用粗略精確匹配方法獲得的具有相似特徵的3505篇未撤稿論文。

這些特徵包括髮表期刊、發表年份、作者數量和推文數量。通過推特API收集了上述7010篇論文的推文數據,包括推文發佈日期和文本內容。

篩選出在論文撤稿前發佈的推文後,研究最終共蒐集到8367條涉及撤稿論文的英文推文和6180條涉及未撤稿論文的英文推文。

研究將推文分爲訓練集和測試集,在訓練集上訓練模型,並在測試集上驗證關鍵詞方法、機器學習模型和ChatGPT的預測結果情況。研究使用人工預測結果(研究者根據推文預測論文撤稿情況)作爲主要基準之一,用以衡量模型與人工方法的一致性情況。

作爲研究基準的人工預測結果顯示,人類若認爲推文暗示論文存在問題,則推文涉及的這篇論文有高達約93%的機率會被撤稿(精確率≈93%),這說明部分推文的確能夠預測論文撤稿;不過,像這樣能通過推文被人工預測出撤稿的論文的總體佔比不高,約佔所有撤稿論文的16%(召回率≈16%)。

因此,儘管只有一小部分撤稿論文的相關推文在論文撤稿前含有了可識別的問題信號,但這些信號確實存在。

研究者觀察到,能夠有效預測論文撤稿的批評性推文有兩種類型:第一種直接突出論文中的錯誤或學術不端行爲;第二種使用批評或諷刺的方式來突出論文的質量存疑。

這些推文能夠促使期刊對論文進行調查,如果調查證實了推文中提到的問題的存在和嚴重性,論文隨後可能會被撤稿。在這種情況下,批評性推文可以作爲撤稿論文的催化劑,強調了將其納入研究誠信的早期預警系統的價值。

ChatGPT能預測論文撤稿嗎?

既然發現推文具有預測論文撤稿的潛力,研究進一步探索了關鍵詞方法、機器學習模型和ChatGPT在根據推文來預測論文撤稿方面的潛力,將各模型的預測結果與人工預測結果進行比較。

研究表明,GPT-4的總體預測結果(包含撤稿預測和非撤稿預測)與人工預測結果的一致性最高,高達約95%!

其次是GPT-3.5和SVM模型,其一致性超過80%。而關鍵詞方法與其他機器學習模型的一致性則在46%-64%之間,預測效果一般。

在精確率方面,同樣是GPT-4的精確率最高:GPT-4預測會撤稿的論文中,近70%的在人工預測中同樣會撤稿。而其他模型的預測精確率均遠低於GPT-4。

圖中進一步顯示了不同模型預測結果與人工預測結果的比較。關鍵詞方法和三種機器學習模型(LR、RF和NB)將大量人工無法判定爲撤稿的論文歸爲撤稿(過擬合率高)。

相比而言,GPT-4的預測結果最接近於人工預測的結果:絕大部分GPT-4預測爲撤稿的論文,人工預測也爲撤稿,絕大部分GPT-4預測爲非撤稿的論文,人工預測同樣爲非撤稿。

ChatGPT預測論文撤稿的實例

與其他方法相比,ChatGPT還有一個重要的優勢——它能夠爲其預測提供理由,而其他方法則無法詳細解釋其決策。

例如,從樣本論文中可以看出,ChatGPT對推文有深刻的理解,並能準確提取可能預測論文撤稿的信息,爲使用推文評估論文是否存在潛在問題提供了寶貴的幫助。

例如:

然而,也要注意到ChatGPT有時存在「幻覺」問題,可能會產生不恰當的輸出,因此在使用時需要謹慎,並考慮到其可能的錯誤預測。

例如:

樣例論文3中,相關推文是對這篇論文的評價,暗示該論文指出諾獎得主的某篇論文存在問題。

然而,ChatGPT將樣例論文3誤以爲是被撤稿的諾獎得主的相關工作,因此這篇論文可能被撤稿。此處的分析結果表明,ChatGPT存在一定的邏輯推理謬誤與過度解讀等問題。

因此,ChatGPT雖然能夠通過推文從一定程度上預測論文撤稿,與人工預測的一致性在各模型中表現最好。但其在當前並非完美,在未來仍有長足的改進空間。

研究收到了著名學術不端數據庫撤稿觀察的轉發,網友們表示,ChatGPT還能用來預測論文撤稿?真是從未設想過的道路。「我還以爲沒有足夠多的數據來支撐這一結論呢!」

「ChatGPT 可以根據推特提及來預測論文撤稿嗎?顯然可以!請看這項研究……」

總體而言,研究揭示了社交媒體討論作爲論文撤稿早期預警的潛力,同時也展示了ChatGPT等生成式人工智能在促進科研誠信方面的潛在應用。

作者介紹

Er-Te Zheng(鄭爾特)

Er-Te Zheng是中國人民大學信息資源管理學院的碩士生,由Zhichao Fang助理教授指導;在浙江大學獲得管理學學士學位,師從Hui-Zhen Fu副教授。未來將前往英國謝菲爾德大學信息學院攻博,師從信息計量學首席專家Mike Thelwall教授。他的研究方向涉及計算社會科學、科學學和科學計量。

Hui-Zhen Fu(付慧真)

Hui-Zhen Fu是浙江大學公共管理學院信息資源管理系副教授,北京大學博士。擔任信息資源管理研究所副所長,荷蘭萊頓大學科學技術研究中心(CWTS)訪問學者。在國際權威刊物發表論文超過40篇(SCI/SSCI),連續四年(2020-2023)入選愛思唯爾中國高被引學者榜單。她的研究方向爲交叉科學、科學計量、科研誠信和科研管理。

Zhichao Fang(方誌超)

Zhichao Fang是中國人民大學信息資源管理學院助理教授,荷蘭萊頓大學科學與技術研究中心(CWTS)博士,萊頓大學CWTS客座研究員,伊朗波斯灣大學社交媒體數據研究組成員。在科學計量學與科技政策等領域發表SCI/SSCI論文20篇,多項研究成果受到Science雜誌等權威學術媒體採訪報導。他的研究方向爲科學學、科學計量和社交媒體計量學。

參考資料:

https://arxiv.org/abs/2403.16851