AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI

鏈新聞abmedia

賓州華頓商學院教授 Ethan Mollick 於 4/25 的 X 平台貼文提出一個對學術界具強烈衝擊的觀察:當前的 AI agent 已經能在沒有原始論文與沒有原始碼的情況下,僅憑公開的方法描述與資料,獨立重現複雜的學術研究結果。Mollick 進一步指出,這些 AI 重現的版本與原論文有出入時,「錯誤往往出在人類論文本身,而非 AI」。這是科研可重現性危機在生成式 AI 時代的一個實質轉折—過去需要昂貴人力才能進行的同行驗證,正在被 AI 大規模、低成本完成。

Claude 重現多篇論文,再以 GPT-5 Pro 雙重驗證

Mollick 在他的 OneUsefulThing 部落格與本次推文中,描述了他對 Claude 的具體實驗:把一篇學術論文交給 Claude,讓它打開存檔、整理檔案、把統計用的 STATA 程式碼自動轉換為 Python,再逐一執行論文中的所有發現。Claude 完成後,他再用 GPT-5 Pro 對同一份重現結果做第二輪檢查。多篇論文被以同樣的方式測試,結果普遍成功,僅在資料檔案過大或原始 replication data 本身有問題時受阻。

對學術界而言,這個流程過去通常需要研究助理花費數週甚至數月。Mollick 描述的時間規模是一個下午到一天,且運行成本只有商用 LLM API 的 token 費用。

錯誤多在人類原文,不是 AI

更具爭議性的是 Mollick 對「誰錯了」的判斷。他在推文中明言,當 AI 重現結果與原論文不一致時,多數情況不是 AI 弄錯,而是原論文有資料處理錯誤、模型誤用、或結論超出資料支撐的範圍。心理學、行為經濟學、管理學等社會科學近十年內已出現多次重大可重現性危機事件,最有名的是 2015 年 Open Science Collaboration 的大型重現研究,僅約 36% 的心理學論文結果能被獨立重現。AI agent 把這個檢驗過程從「需要人力配比」推到「可被普遍執行」的邊界。

學會仍禁 AI 入審稿,制度落後技術

Mollick 在另一則 4/25 推文中具體點名其所屬領域最大的學會 Academy of Management 仍明文禁止 AI 進入論文審稿流程。他引用既有研究指出,AI 審稿在準確度、一致性與偏見控制上已優於部分傳統人類審稿人,因此「禁止」這個立場可能反向加重既有審稿系統的失靈。這種制度與技術之間的落差,是接下來 1–2 年學術出版界、學會與資助機構都必須面對的政策議題。

對讀者而言,這場辯論並非局限於學界。當 AI agent 能即時驗證研究發現,產業界的研究引用、政策報告、財務決策中的學術根據,將進入一個「結論是否承受得住獨立 AI 重現」的新檢驗門檻。對應 Mollick 在另一則推文的補充,他認為政府是唯一能在工具強度持續上升時為這個檢驗機制定錨的單位—而政策設計的複雜度,將同步成為 AI 治理討論中相對被忽視的一條主軸。

這篇文章 AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

B.AI 與 deBridge 攜手打造 AI Agent 的跨鏈基礎設施

根據 ChainCatcher,B.AI 和 deBridge 於 4 月 29 日宣布建立策略夥伴關係,旨在開發以意圖驅動的跨鏈基礎設施。該合作的目標是為可擴展的 AI Agent 經濟提供順暢的跨鏈執行。deBridge 的 0-TVL 模型與免 Gas 的跨鏈技術將支援該夥伴關係在高效、安全的自主交易系統方面的發展,並在 AI Agent 時代加速跨鏈執行。

GateNews1小時前

Parag Agrawal's Parallel Raises $100M Series B for AI Agent Search Infrastructure

According to Beating, Parallel Web Systems, founded by former Twitter CEO Parag Agrawal, completed a $100 million Series B round led by Sequoia Capital, valuing the company at $2 billion. Kleiner Perkins, Index Ventures, and Khosla Ventures also participated. The funding comes six months after the c

GateNews1小時前

0G Labs 推出 0G Private Computer:以 TEE 驗證的隱私保護 AI 推理

Gate 新聞訊息,4 月 29 日 — 0G Labs 已正式推出 0G Private Computer,這是一項面向 AI 代理與開發者的隱私保護推理服務,透過可信執行環境 (TEE) 技術提供支援。使用者可透過 pc.0g.ai 存取該服務。 該平台在硬體隔離環境中使用 Intel TDX 中央處理器(CPU)以及 NVIDIA H100/H200 圖形處理器(GPU)。所有推理請求均在可信執行環境(TEE)內執行,並採用加密的輸入傳輸與以密碼學方式進行簽名的輸出驗證,確保服務提供者無法直接存取使用者資料。 0G Private Computer 目前支援 DeepSeek Chat V3、Alibaba Qwen3.6 Plus、智譜 AI GLM-5-FP8、Qwen3-VL-30B、OpenAI Whisper-large-v3 以及 z-image 模型。該平台提供與 OpenAI API 相容的介面,使開發者只需透過修改基礎 URL 即可完成遷移。

GateNews2小時前

Avalanche 基金會支持 W3,隨著 200K 個工作流程上線,加速 AI 金融轉型

W3 已在 Avalanche 網路推出一個用於管理代理驅動金融的控制平台。 要點 W3.io 在 Avalanche 上線了一個 AI 控制平台,已在處理每天 200,000 個企業工作流程。 W3 與 Avalanche 透過……填補了 70+ 個區塊鏈之間的問責落差

Coinpedia3小時前

a16z Crypto 研究報告:AI 代理 DeFi 漏洞利用率達 70%

根據 a16z Crypto 於 4 月 29 日發布的研究報告,AI 代理在配備結構化領域知識的條件下,重現以太坊價格操縱漏洞的成功率達 70%;在無任何領域知識的沙盒環境中,成功率僅為 10%。報告同時記錄了 AI 代理獨立繞過沙盒限制存取未來交易資訊的案例,及代理在建立多步驟可盈利攻擊方案時的系統性失敗模式。

Market Whisper5小時前

基於比特幣網路的全球帳戶:Grid 整合 65 國法幣與加密貨幣,讓 AI 自動付款

Grid Global Account 將法幣、穩定幣與比特幣整合於同一錢包,並以 AI 代理協助管理與支付,實現跨境交易新模式。透過 Visa 覆蓋的全球支付網路,支援多國匯換與即時轉款,企業能以穩定幣/法幣作底層金流,保持去中心化與中立。

鏈新聞abmedia7小時前
留言
0/400
暫無留言