Agent 需要“油表”和“剎車”：一篇論文，扒光了 Agent 的“糊塗賬”

想象一下這個場景：

你讓 AI Agent 幫你修一個程式碼 Bug論文。它開啟專案，讀了 20 個檔案，改了改，跑了一下測試，沒過，又改，又跑，還是沒過……來回折騰了十幾輪，終於——還是沒修好。

你關掉電腦，鬆了口氣論文。然後收到了 API 賬單。

上面的數字可能讓你倒吸一口涼氣——AI Agent 自主修 Bug 在海外官方 API 下，單次未修復任務常燒掉百萬以上 Token，費用可達幾十至一百多美元論文。

2026 年 4 月，一篇由斯坦福、MIT、密歇根大學等聯合釋出的研究論文，第一次系統性地開啟了 AI Agent 在程式碼任務中的“消費黑箱”——錢到底花在哪了、花得值不值、能不能提前預估，答案令人震驚論文。

發現一：Agent 寫程式碼的燒錢速度論文，是普通 AI 對話的 1000 倍

大家可能覺得論文，讓 AI 幫你寫程式碼和讓 AI 跟你聊程式碼，花的錢應該差不多吧？

論文給出對比顯示論文：

Agentic 編碼任務的 Token 消耗量，是普通程式碼問答和程式碼推理任務的約 1000 倍論文。

差了整整三個數量級論文。

為什麼會這樣？論文指出了一個事實——錢不是花在“寫程式碼”上，而是花在“讀程式碼”上論文。

這裡的“讀”不是指人類讀程式碼，而是 Agent 在工作過程中，需要不斷地把整個專案的上下文、歷史操作記錄、報錯資訊、檔案內容一股腦兒“喂”給模型論文。每多一輪對話，這個上下文就變得更長一輪；而模型是按 Token 數量計費的——你喂得越多，付得越多。

展開全文

打個比方：這就像請了一個修理工，他每動一下扳手之前，都要你把整棟樓的圖紙從頭念一遍給他聽——念圖紙的錢，遠比擰螺絲的錢貴得多論文。

論文把這個現象總結為一句話：驅動 Agent 成本的，是輸入 Token 的指數級增長，而非輸出 Token論文。

發現二：同一個 Bug論文，跑兩次，花費能差一倍——而且越貴的 Bug 越不穩定

更讓人頭疼的是隨機性論文。

研究者讓同一個 Agent 在同一個任務上跑了 4 次論文，結果發現：

在不同任務之間論文，最貴的任務比最便宜的任務多燒約 700 萬個 Token（Figure 2a）

在同一模型、同一任務的多次執行中論文，最貴的一次大約是最便宜的一次的 2 倍（Figure 2b）

而如果跨模型對比同一個任務論文，最高消耗和最低消耗之間可以相差高達 30 倍

最後一個數字尤其值得關注：這意味著，選對模型和選錯模型之間的成本差距，不是“貴一點”，而是“貴出一個數量級”論文。

更扎心的是——花得多，不代表做得好論文。

論文發現了一個“倒 U 型”曲線論文：

成本水平準確率趨勢低成本準確率較低（可能投入不夠）中等成本準確率往往最高高成本準確率不升反降，進入"飽和區間"

為什麼會這樣論文？論文透過分析 Agent 的具體操作給出了答案——

高成本的執行中，Agent 大量時間花在了“重複勞動”上論文。

研究發現，在高成本執行中，約 50% 的檔案檢視和檔案修改操作是重複的——也就是說，Agent 在反覆讀同一個檔案、反覆改同一行程式碼，像一個人在房間裡轉圈，越轉越暈，越暈越轉論文。

錢沒花在解決問題上，花在了“迷路”上論文。

發現三：模型之間“能效比”天差地別——GPT-5 最省論文，有的模型多燒 150 萬 Token

論文在業界標準的 SWE-bench Verified（500 個真實 GitHub Issue）上，測試了 8 個前沿大模型的 Agent 表現論文。換算成美元，Token效率高的模型每個任務可以多花幾十塊的區別。放到企業級應用——一天跑幾百個任務——差距就是真金白銀。

更有意思的一個發現是：Token 效率是模型的“固有性格”，而非任務使然論文。

研究者把所有模型都成功解決的任務（230 個）和所有模型都失敗的任務（100 個）分別拿出來比較，發現模型的相對排名幾乎沒有變化論文。

這說明：有些模型天生就“話多”，跟任務難度關係不大論文。

還有一個令人深思的發現：模型缺乏“止損意識”論文。

在面對所有模型都無法解決的困難任務時，理想的 Agent 應該儘早放棄，而不是繼續燒錢論文。但現實是，模型普遍在失敗任務上消耗了更多的 Token——它們不會“認輸”，只會繼續探索、重試、重讀上下文，像一臺沒有油表警示燈的汽車，一路開到拋錨。

發現四：人類覺得難的論文，Agent 不一定覺得貴——難度感知完全錯位

你可能會想：那至少我可以根據任務的難易程度來預估成本吧論文？

論文找來人類專家論文，對 500 個任務的難度進行評分，然後和 Agent 的實際 Token 消耗做對比——

結果：兩者之間只有弱相關論文。

用大白話說：人類覺得難得要死的任務，Agent 可能輕鬆搞定不怎麼花錢；人類覺得小菜一碟的任務，Agent 可能燒到懷疑人生論文。

這是因為人和 AI “看到”的難度根本不是一回事論文：

人類看的是論文：邏輯複雜度、演算法難度、業務理解門檻

Agent 看的是論文：專案有多大、要讀多少檔案、探索路徑有多長、會不會反覆修改同一個檔案

一個人類專家覺得“改一行就行”的 Bug，Agent 可能要先讀懂整個程式碼庫的結構才能定位到那一行——光是“讀”就要燒掉大量 Token論文。而一個人類覺得“邏輯很繞”的演算法問題，Agent 可能恰好知道標準解法，三下五除二就搞定了。

這就導致了一個尷尬的現實：開發者幾乎不可能憑直覺預估 Agent 的執行成本論文。

發現五論文：連模型自己都算不準自己要花多少錢

既然人算不準論文，那讓 AI 自己來預測呢？

研究者設計了一個精巧的實驗：讓 Agent 在真正開始修 Bug 之前，先“ inspect”一下程式碼庫，然後預估自己需要消耗多少 Token——但不實際執行修復論文。

結果如何論文？

所有模型，全軍覆沒論文。

最好的成績是 Claude Sonnet-4.5 對輸出 Token 的預測相關性——0.39（滿分 1.0）論文。多數模型的預測相關性只有 0.05 到 0.34 之間，Gemini-3-Pro 最低，僅為 0.04——基本等於瞎猜。

更離譜的是：所有模型都系統性低估了自己的 Token 消耗論文。Figure 11 的散點圖中，幾乎所有資料點都落在“完美預測線”的下方——模型覺得自己“花不了那麼多”，實際上花了更多。而且這個低估偏差在不提供示例的情況下更加嚴重。

更諷刺的是——預測本身也要花錢論文。

Claude Sonnet-3.7 和 Sonnet-4 的預測成本甚至高達任務本身成本的 2 倍以上論文。也就是說，讓它們先“估個價”，比直接幹活還貴。

論文的結論直截了當論文：

現階段，前沿模型無法準確預測自身的 Token 用量論文。點下“執行 Agent”，就像開盲盒——賬單出來才知道花了多少。

讀到這論文，你可能會問：這些發現對企業意味著什麼？

1. “按月訂閱”的定價模式論文，正在被 Agent 撕開裂縫

論文指出，像 ChatGPT Plus 這樣的訂閱制之所以可行，是因為普通對話的 Token 消耗相對可控、可預測論文。但 Agent 任務完全打破了這一假設——一個的任務可能因為 Agent 陷入迴圈而燒掉巨量 Token。

這意味著，純粹的訂閱制定價對 Agent 場景可能不可持續，按量計費（Pay-as-you-go）在相當長時間內仍是最現實的選項論文。但按量計費的問題在於——用量本身就不可預測。

2. Token 效率應該成為選模型的“第三指標”

傳統上，企業選模型看兩個維度：能力（能不能幹）和速度（幹得快不快）論文。這篇論文給出了第三個同等重要的維度：能效（花多少才能幹成）。

一個能力略遜但效率高 3 倍的模型，在規模化場景下可能比“最強但最費”的模型更有經濟價值論文。

3. Agent 需要“油表”和“剎車”

論文提到一個值得關注的未來方向——Budget-aware tool-use policies（預算感知的工具使用策略）論文。簡單說就是給 Agent 裝一個"油表"：當 Token 消耗接近預算時，強制它停止無效探索，而不是一路燒到底。

目前，幾乎所有主流 Agent 框架都缺乏這種機制論文。

Agent 的“燒錢問題”論文，不是 Bug，而是行業必經的陣痛

這篇論文揭示的並非某個模型的缺陷，而是整個 Agent 正規化的結構性挑戰——當 AI 從“一問一答”進化到“自主規劃、多步執行、反覆除錯”，Token 消耗的不可預測性幾乎是一種必然論文。

好訊息是，這是第一次有人系統性地把這筆糊塗賬翻出來算論文。有了這份資料，開發者可以更明智地選擇模型、設定預算、設計止損機制；模型廠商也有了一個新的最佳化方向——不只是做得更強，還要做得更省。

畢竟，在 AI Agent 真正走入千行百業的生產環境之前，每一分錢花得明明白白，比每一行程式碼寫得漂漂亮亮，更重要論文。（本文首發鈦媒體APP，作者 | 矽谷Tech news，編輯 | 趙虹宇）

Agent 需要“油表”和“剎車”：一篇論文，扒光了 Agent 的“糊塗賬”

上海偉傑國際貨物運輸代理有限公司

熱門標籤

相關詞彙