研究人員:生成式人工智能在本科法律考試遇挫

自生成式人工智能廣泛向公衆提供至今,已將近兩年。

一些模型展現出極大的潛力,並通過了學術和專業考試。

例如,GPT-4 的得分高於參加美國律師資格考試的考生的 90%。這些成功導致人們擔心人工智能系統可能也會輕鬆通過大學水平的評估。然而,我的近期研究呈現出一幅別樣的畫面,表明它並非某些人所認爲的那種學術強者。

爲了探究生成式人工智能的學術能力,我對它在臥龍崗大學本科刑法期末考試中的表現進行了研究——這是學生獲取學位時需要通過的核心科目之一。

考試時長爲三個小時,分爲兩個部分。第一部分要求學生對一個關於刑事犯罪的案例研究進行評估——以及成功起訴的可能性。第二部分包括一篇短文和一組簡答題。

測試問題對多種技能進行了評估,包括法律知識、批判性思維以及構建有說服力的論點的能力。

學生不允許在回答中使用人工智能,並在監督環境中進行評估。

我使用了不同的人工智能模型來爲考試問題生成十個不同的答案。

有五份試卷僅僅是把考試問題粘貼進人工智能工具生成的,沒有任何提示。

對於另外五份,我提供了詳細的提示以及相關法律內容,看看這樣做能否改善結果。

我在正式的考試冊上手寫了由人工智能生成的答案,並使用了假的學生姓名和號碼。

重要的是,在進行評分時,導師們並不知道這其中有十個考試答案是由人工智能生成的。

在評分結束後對導師進行採訪時,他們當中沒有人懷疑任何答案是由人工智能生成的。

這顯示出人工智能有模仿學生回答的可能,同時也表明教育工作者難以察覺此類論文。

但總體來說,由人工智能生成的論文表現不佳。

雖然人工智能在論文式問題方面表現不錯,然而在應對需要深入進行法律分析的複雜問題時卻顯得頗爲吃力。

這意味着,儘管人工智能能夠模仿人類的寫作風格,但其缺乏複雜法律推理所需要的那種細緻入微的理解。

學生們考試的平均分是 66%。

那些沒有提示的人工智能論文,平均而言,僅勝過 4.3%的學生。兩篇勉強及格(及格分數爲 50%),三篇不及格。

就使用了提示的論文而言,平均而言,它們勝過 39.9%的學生。其中三篇論文表現不太好,分別獲得 50%、51.7%和 60%,但有兩篇表現相當好。一篇得分爲 73.3%,另一篇得分爲 78%。

這些發現對教育和專業標準都具有重要意義。

儘管大肆宣傳,但生成式人工智能在像這次法律考試這樣對智力要求很高的任務中,還遠不能取代人類。

我的研究顯示,人工智能應該更多地被視爲一種工具,並且如果使用得當,它可以增強人類的能力。

因此,學校和高校應該專注於培養學生與人工智能協作以及批判性分析其輸出結果的技能,而不是依賴這些工具簡單地給出答案。

此外,爲了使人工智能與學生之間的協作成爲可能,我們可能不得不重新思考一些我們對教育和評估的傳統觀念。

例如,我們可以考慮,當學生提示、覈實和編輯人工智能生成的作品時,這就是他們的獨創貢獻,並且仍應被視爲學習中有價值的一部分。