首個AI程序員造假被抓,Devin再次“震撼”硅谷!扒皮詳解附上

首個AI程序員,演示視頻大幅度造假???

不久之前震撼硅谷的Devin,再度震撼硅谷——但這次是被打假。

事情是這樣的:油管程序員博主Internet of Bugs(以下簡稱光頭哥)對Devin的視頻進行了逐幀分析,逐一舉證說明了Devin並不如演示中那般神奇。

甚至有“自己現寫bug然後當場修復”的騷操作。

其它“罪證”,包括但不限於:

此外,光頭哥花了半個多小時,把Devin演示視頻中的upwork任務完成了一遍——而Devin完成任務可能用時6個多小時。

啊這這這,真是好、大、一、口、瓜!

要知道,其背後公司Cognition AI手握10塊IOI金牌的活招牌,還在推出Devin當月宣佈成功融資2100萬美金。

推特和YC上已經吵翻天了,讓這件事的討論度高居不下。

還有人表示自己很受傷,再也不會相信各種冒出來的創業公司的東西了。

完整詳情,一起接着往下看。

此次出來聲張正義的光頭哥,從事軟件行業已經35年。他首先聲明自己的立場:我並不反對高科技,但我確實反對過度炒作。

他自己也經常使用GitHub Copilot、ChatGPT、LIama2、Stable Diffusion。

事實上,在Devin剛推出時候,他就反對過“世界上第一個AI軟件工程師”這一說法。

此次則主要針對的是一些更爲具體的說法。

比如之前Devin號稱能夠靠處理upwork任務來賺錢的。但在真正的演示中Devin並沒有做到這一點。

不信?沒關係,光頭哥帶着逐幀的證據來了。

總結如下:

首先,來到了演示視頻的2.936秒處,在屏幕左上角有顯示他們搜索過這個內容。因此,這不是所謂“隨機”選擇的任務。

再來看客戶給到的具體需求。真正需求爲“我想要利用這個庫來進行推理。你需要提供詳細的操作指南。我不想討論完成這項工作預計需要的時間。”

但給到Devin的需求卻是:我希望利用這個模型在這個庫中進行推理。請自己弄明白。

最後視頻末尾出現的Devin生成報告中,也沒有提及客戶實際需要的內容。

那麼,這份工作的最終交付成果應該包括什麼呢?

但Devin實際做了什麼?

Devin第一次真正的嘗試,是它修改了一個名爲requirements.txt文件,其中規定了代碼所依賴的庫版本。視頻中提到它正在更新代碼,但實際上更像是修改配置文件。

然後根據需求,需要Devin能建立自己的推理能力,並僅需使用樣例數據即可。但實際項目要比這個複雜得多。

結果很快,Devin就遇到了第一個命令行錯誤——打開圖像失敗、文件未找到、無此文件或目錄等。但在光頭哥實際復現時並沒有出現,結果研究發現,代碼倉庫壓根就不存在這個文件。

這相當於Devin自己創建了個bug,然後再修復bug。在接下來的操作中,Devin經歷了很多次這樣的“自建自修”。

不能說十分有用,只能說完全沒有必要。

接下來,再來看看代碼庫中這樣一個readme文件。正如視頻所展示的那樣,readme文件清晰地說明了該文件的功能和用法。在頁面右側,甚至還有一個小按鈕,點擊它就可以複製整條命令,然後粘貼到命令行窗口中,按下回車即可運行。

但Devin完全沒能理解,而又是自創了個項目。而寫的那段從緩衝區讀取數據的代碼十分糟糕。

於是光頭哥發出了靈魂拷問:

這種做法顯然已經過時,正常人用Python誰還會再寫這個代碼。這種代碼很難調試,它邏輯複雜,難以理解,很容易出現細微的錯誤。

此外,代碼庫中還存在一個真正的錯誤,但Devin既沒有發現也沒有修復。

然後光頭哥用谷歌搜索,按照GitHub 上一條相關評論修改了代碼,只花了1分07秒,問題就解決了。

最終光頭哥總共花了35分55秒復現了Devin的工作,而Devin實際花了多長時間呢?

如果細看視頻Demo,就會發現Devin處理工作前後有6個小時20分鐘的間隔。

視頻的前部分顯示的是3月9日下午3:25 的時間戳,但後半部分卻顯示的是當天晚上9:41。

而逐幀細看就有會發現一些奇怪且毫無意義的操作。

比如head -N 5 results.json | tail -N 5這個命令,它表示取這個JSON 文件的前五行,然後再取這些行的最後五行。

正確的做法應該是”head-5 results.json”。那個-N 是多餘的。只要說 -5 就可以,不需要那些多餘的東西。

最後光頭哥銳評,AI現在生成的內容有很多都十分愚蠢,反倒會讓事情變得更爲複雜。

當看到它的任務列表時,會覺得:哇,Devin做了很多事情。但實際上可能並非如此。

對於此次Devin造假翻車,不少網友對現階段AI產品炒作嗤之以鼻。

甚至還列出了三大炒作典範:Devin、rabbit、Humane。

也有網友調侃:Devin至少掌握了看起來很忙的技巧。

嗯?打工人有被內涵到。

不過也有一些支持的網友,比如這位沃頓商學院的教授Ethan Mollick。

他聲稱自己有早期訪問權,在體驗中發現真的很有趣。

他認爲現在將Agent視作“炒作”爲時尚早,未來幾個月Agent的能力將十分強大。

有意思的是,演示造假事件爆出來的時間,距離Cognition AI推出Devin僅過去了一個月。

咱們一起來回顧一下。

一個月前的3月13日,Cognition AI在推特上介紹了自家推出的Devin,並稱其爲“世界上首個AI軟件工程師”。

只需一句指令,它可端到端地處理整個開發項目。

主創介紹,Devin在長程推理和規劃上面下了很大功夫,可以規劃和執行需要數千個決策才能完成的複雜軟件工程任務。

具體來說有6大功能:

端到端構建和部署程序,可以解決的不只是代碼問題,還包括與之相關的整個工作流;

Devin完整技術報告中顯示,在SWE-bench基準測試中,無需人類輔助,Devin可解決13.86%的問題

——這個數據看起來不高,但其實已經超過了此前所有AI大模型的成績。

目前數一數二的GPT-4,在同個測試中的成績只有1.74%,且必須配備一個人類,提示它要處理哪些文件。

當時的Devin團隊一副沒在怕的樣子。

雖然沒開放公測,但陸陸續續給出了一些內測名額。

在互聯網上搜索一番,發現上手體驗過的人給的買家秀反饋是這樣的:

熱衷AI的沃頓商學院教授Ethan Molick試過後,認爲其新穎的實時交互方式是最值得關注的。

他要求Devin開發一個解釋“創業公司融資中的股權稀釋”的網站,隨後透露,AI還無法在沒有任何幫助的情況下,自主且無差錯地完成這項工作。。

但也有人直接表示,體驗過後確實是有被震撼到。

巧的是,截圖中的這個首批內測體驗者Bubna哥,是AI基礎設施創業公司Modal Labs的CTO。

後來他和Devin還聯手搞了個新聞。Devin用自家老闆的賬號,潛入Modal Labs的工作羣,和Bubna哥一番交流過後,根據回覆調整了代碼方案,解決了一個技術問題。

△圖中的發言人背後其實是Devin

當然,除了看上去

哄哄的技術,Devin還鍍了一層光環,那就是背後公司Cognition,雖然是個小初創,但在招人信息中明晃晃寫着:

我們團隊手裡握着10塊IOI金牌呢~

技術演示和團隊背景都吸睛Max,直接給Devin的傳播力度添磚加瓦。

也正是因爲對Devin的關注,代碼生成領域在過去一段時間裡進展是突飛猛進。暫時無法在飛書文檔外展示此內容比如,GitHub三萬Star項目MetaGPT就上新了“開源版Devin”,名爲數據解釋器(Data Interpreter):

阿里Qwen成員Binyan Hui等人開啓了OpenDevin項目,一個月過去已經在GitHub攬星21.5k;

普林斯頓那邊動作更快,用GPT-4打造了開源SWE-agent,開箱即用,可修復GitHub存儲庫中真實bug。

在25%的SWE-bench測試集上,它實現了與Devin演示視頻中相似的準確度—— 解決了12.29%的問題。

還有各個大廠也開始入駐自己的AI程序員……

One More Thing

結果現在發生這件事兒,怎麼說呢……

往好了想,真是救大命了,所有的程序員們都要鬆口氣了,還好還好,AI暫時還無法端到端端走我的飯碗。

往壞了想,真是要了命了,這麼一個備受關注的明星項目居然是個只能活在視頻裡的demo。

難道世界真的是個巨大的草臺班子???

參考鏈接:[1]https://twitter.com/oran_ge/status/1778968102610546762?s=46&t=S65Q3TssMnzcxLETGqaDFQ[2]https://twitter.com/0interestrates/status/1779268441226256500[3]https://news.ycombinator.com/item?id=40008109[4]https://www.youtube.com/watch?v=tNmgmwEtoWE