Agent 需要“油表”和“剎車”:一篇論文,扒光了 Agent 的“糊塗賬”

Agent 需要“油表”和“剎車”:一篇論文,扒光了 Agent 的“糊塗賬”

想象一下這個場景:

你讓 AI Agent 幫你修一個程式碼 Bug論文。它開啟專案,讀了 20 個檔案,改了改,跑了一下測試,沒過,又改,又跑,還是沒過……來回折騰了十幾輪,終於——還是沒修好。

你關掉電腦,鬆了口氣論文。然後收到了 API 賬單。

上面的數字可能讓你倒吸一口涼氣——AI Agent 自主修 Bug 在海外官方 API 下,單次未修復任務常燒掉百萬以上 Token,費用可達幾十至一百多美元論文

2026 年 4 月,一篇由斯坦福、MIT、密歇根大學等聯合釋出的研究論文,第一次系統性地開啟了 AI Agent 在程式碼任務中的“消費黑箱”——錢到底花在哪了、花得值不值、能不能提前預估,答案令人震驚論文

發現一:Agent 寫程式碼的燒錢速度論文,是普通 AI 對話的 1000 倍

大家可能覺得論文,讓 AI 幫你寫程式碼和讓 AI 跟你聊程式碼,花的錢應該差不多吧?

論文給出對比顯示論文

Agentic 編碼任務的 Token 消耗量,是普通程式碼問答和程式碼推理任務的 約 1000 倍論文

Agentic 編碼任務的 Token 消耗量,是普通程式碼問答和程式碼推理任務的 約 1000 倍論文

差了整整三個數量級論文

為什麼會這樣?論文指出了一個事實——錢不是花在“寫程式碼”上,而是花在“讀程式碼”上論文

這裡的“讀”不是指人類讀程式碼,而是 Agent 在工作過程中,需要不斷地把整個專案的上下文、歷史操作記錄、報錯資訊、檔案內容一股腦兒“喂”給模型論文。每多一輪對話,這個上下文就變得更長一輪;而模型是按 Token 數量計費的——你喂得越多,付得越多。

展開全文

打個比方:這就像請了一個修理工,他每動一下扳手之前,都要你把整棟樓的圖紙從頭念一遍給他聽——念圖紙的錢,遠比擰螺絲的錢貴得多論文

論文把這個現象總結為一句話:驅動 Agent 成本的,是輸入 Token 的指數級增長,而非輸出 Token論文

發現二:同一個 Bug論文,跑兩次,花費能差一倍——而且越貴的 Bug 越不穩定

更讓人頭疼的是隨機性論文

研究者讓同一個 Agent 在同一個任務上跑了 4 次論文,結果發現:

在不同任務之間論文,最貴的任務比最便宜的任務多燒約 700 萬個 Token(Figure 2a)

在同一模型、同一任務的多次執行中論文,最貴的一次大約是最便宜的一次的 2 倍(Figure 2b)

而如果跨模型對比同一個任務論文,最高消耗和最低消耗之間可以相差高達 30 倍

最後一個數字尤其值得關注:這意味著,選對模型和選錯模型之間的成本差距,不是“貴一點”,而是“貴出一個數量級”論文

更扎心的是——花得多,不代表做得好論文

論文發現了一個“倒 U 型”曲線論文

Agent 需要“油表”和“剎車”:一篇論文,扒光了 Agent 的“糊塗賬”

成本水平準確率趨勢低成本準確率較低(可能投入不夠)中等成本準確率往往最高高成本準確率不升反降,進入"飽和區間"

為什麼會這樣論文?論文透過分析 Agent 的具體操作給出了答案——

高成本的執行中,Agent 大量時間花在了“重複勞動”上論文

高成本的執行中,Agent 大量時間花在了“重複勞動”上論文

研究發現,在高成本執行中,約 50% 的檔案檢視和檔案修改操作是重複的——也就是說,Agent 在反覆讀同一個檔案、反覆改同一行程式碼,像一個人在房間裡轉圈,越轉越暈,越暈越轉論文

錢沒花在解決問題上,花在了“迷路”上論文

發現三:模型之間“能效比”天差地別——GPT-5 最省論文,有的模型多燒 150 萬 Token

論文在業界標準的 SWE-bench Verified(500 個真實 GitHub Issue)上,測試了 8 個前沿大模型的 Agent 表現論文。換算成美元,Token效率高的模型每個任務可以多花幾十塊的區別。放到企業級應用——一天跑幾百個任務——差距就是真金白銀。

更有意思的一個發現是:Token 效率是模型的“固有性格”,而非任務使然論文

研究者把所有模型都成功解決的任務(230 個)和所有模型都失敗的任務(100 個)分別拿出來比較,發現模型的相對排名幾乎沒有變化論文

這說明:有些模型天生就“話多”,跟任務難度關係不大論文

還有一個令人深思的發現:模型缺乏“止損意識”論文

在面對所有模型都無法解決的困難任務時,理想的 Agent 應該儘早放棄,而不是繼續燒錢論文。但現實是,模型普遍在失敗任務上消耗了更多的 Token——它們不會“認輸”,只會繼續探索、重試、重讀上下文,像一臺沒有油表警示燈的汽車,一路開到拋錨。

發現四:人類覺得難的論文,Agent 不一定覺得貴——難度感知完全錯位

你可能會想:那至少我可以根據任務的難易程度來預估成本吧論文

論文找來人類專家論文,對 500 個任務的難度進行評分,然後和 Agent 的實際 Token 消耗做對比——

結果:兩者之間只有弱相關論文

用大白話說:人類覺得難得要死的任務,Agent 可能輕鬆搞定不怎麼花錢;人類覺得小菜一碟的任務,Agent 可能燒到懷疑人生論文

這是因為人和 AI “看到”的難度根本不是一回事論文

人類看的是論文:邏輯複雜度、演算法難度、業務理解門檻

Agent 看的是論文:專案有多大、要讀多少檔案、探索路徑有多長、會不會反覆修改同一個檔案

一個人類專家覺得“改一行就行”的 Bug,Agent 可能要先讀懂整個程式碼庫的結構才能定位到那一行——光是“讀”就要燒掉大量 Token論文。而一個人類覺得“邏輯很繞”的演算法問題,Agent 可能恰好知道標準解法,三下五除二就搞定了。

這就導致了一個尷尬的現實:開發者幾乎不可能憑直覺預估 Agent 的執行成本論文

發現五論文:連模型自己都算不準自己要花多少錢

既然人算不準論文,那讓 AI 自己來預測呢?

研究者設計了一個精巧的實驗:讓 Agent 在真正開始修 Bug 之前,先“ inspect”一下程式碼庫,然後預估自己需要消耗多少 Token——但不實際執行修復論文

結果如何論文

所有模型,全軍覆沒論文

最好的成績是 Claude Sonnet-4.5 對輸出 Token 的預測相關性——0.39(滿分 1.0)論文。多數模型的預測相關性只有 0.05 到 0.34 之間,Gemini-3-Pro 最低,僅為 0.04——基本等於瞎猜。

更離譜的是:所有模型都系統性低估了自己的 Token 消耗論文。Figure 11 的散點圖中,幾乎所有資料點都落在“完美預測線”的下方——模型覺得自己“花不了那麼多”,實際上花了更多。而且這個低估偏差在不提供示例的情況下更加嚴重。

更諷刺的是——預測本身也要花錢論文

Claude Sonnet-3.7 和 Sonnet-4 的預測成本甚至高達任務本身成本的 2 倍以上論文。也就是說,讓它們先“估個價”,比直接幹活還貴。

論文的結論直截了當論文

現階段,前沿模型無法準確預測自身的 Token 用量論文。點下“執行 Agent”,就像開盲盒——賬單出來才知道花了多少。

現階段,前沿模型無法準確預測自身的 Token 用量論文。點下“執行 Agent”,就像開盲盒——賬單出來才知道花了多少。

讀到這論文,你可能會問:這些發現對企業意味著什麼?

1. “按月訂閱”的定價模式論文,正在被 Agent 撕開裂縫

論文指出,像 ChatGPT Plus 這樣的訂閱制之所以可行,是因為普通對話的 Token 消耗相對可控、可預測論文。但 Agent 任務完全打破了這一假設——一個的任務可能因為 Agent 陷入迴圈而燒掉巨量 Token。

這意味著,純粹的訂閱制定價對 Agent 場景可能不可持續,按量計費(Pay-as-you-go)在相當長時間內仍是最現實的選項論文。但按量計費的問題在於——用量本身就不可預測。

2. Token 效率應該成為選模型的“第三指標”

傳統上,企業選模型看兩個維度:能力(能不能幹)和速度(幹得快不快)論文。這篇論文給出了第三個同等重要的維度:能效(花多少才能幹成)。

一個能力略遜但效率高 3 倍的模型,在規模化場景下可能比“最強但最費”的模型更有經濟價值論文

3. Agent 需要“油表”和“剎車”

論文提到一個值得關注的未來方向——Budget-aware tool-use policies(預算感知的工具使用策略)論文。簡單說就是給 Agent 裝一個"油表":當 Token 消耗接近預算時,強制它停止無效探索,而不是一路燒到底。

目前,幾乎所有主流 Agent 框架都缺乏這種機制論文

Agent 的“燒錢問題”論文,不是 Bug,而是行業必經的陣痛

這篇論文揭示的並非某個模型的缺陷,而是整個 Agent 正規化的結構性挑戰——當 AI 從“一問一答”進化到“自主規劃、多步執行、反覆除錯”,Token 消耗的不可預測性幾乎是一種必然論文

好訊息是,這是第一次有人系統性地把這筆糊塗賬翻出來算論文。有了這份資料,開發者可以更明智地選擇模型、設定預算、設計止損機制;模型廠商也有了一個新的最佳化方向——不只是做得更強,還要做得更省。

畢竟,在 AI Agent 真正走入千行百業的生產環境之前,每一分錢花得明明白白,比每一行程式碼寫得漂漂亮亮,更重要論文。(本文首發鈦媒體APP,作者 | 矽谷Tech news,編輯 | 趙虹宇)

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://sdhbcy.com/post/36180.html

🌐 /