#錯誤累積 — Public Fediverse posts on home.social

I'm betting against AI agents in 2025, despite building them | Hacker News

Link

我不押注 2025 年的 AI 代理，儘管我親自打造過

https://utkarshkanwat.com/writing/betting-against-agents

📌 Summary:
本文作者過去一年親自打造十二個以上的 AI 代理系統，涵蓋軟體開發整個生命週期，包括介面生成、資料庫操作、基礎設施管理與 CI/CD 自動化等實務應用。這些系統在產線中確實帶來效益，節省大量人力，但作者反對目前大量媒體與業界對 2025 年 AI 代理全面爆發的預期。文中指出三個決定性現實：第一，連續多步驟工作流程的錯誤率會指數增長，造成整體成功率遠低於生產所需的 99.9%；第二，對話式代理因為需要攜帶完整上下文，其 token 成本呈二次方擴增，經濟上無法支撐大規模運行；第三，真正挑戰在於工具設計與回饋機制，AI 需要的是能夠精確互動且在錯誤時能回復的工具，這一點經常被低估。成功的系統往往是有明確邊界、有限狀態與人類決策介入的協同方案，而非完全自主。最後，作者預測 2025 年會看到充滿野心的「全自主代理」初創企業因經濟性與可靠性問題受困，只有專注於領域限定、且重視人機協作的團隊會在產業中勝出。給想投入者的建議是明確定義代理能力邊界、設計錯誤容忍與回退流程、優先確保系統穩定可靠勝過全然自主的功能。整體看，作者非質疑 AI 重要性，而是在方法論與架構上持保留態度，並期待真正落地的代理系統將以更務實的形式存在。

🎯 Key Points:
→ ★ 多步驟錯誤累積問題：即使每步 95% 可靠度，20步驟工作成功率僅約 36%。生產環境追求的是超過 99.9% 可靠度，數學上此目標難以達成。
→ ★ Token 成本與上下文窗口限制：對話代理必須持續處理歷史上下文，token 費用呈二次方增長，長對話成本極高不具經濟效益。例如 100 次交互可能花費 50-100 美元，規模化時成本難以負擔。
→ ★ 工具設計與回饋挑戰：成功代理重視工具介面設計，須避免消耗過多上下文資源，同時能提供結構化回饋、清楚溝通狀態變化與失敗資訊。缺乏這些設計，代理即使技術層面能呼叫 API，實務操作仍常失敗。
→ ★ 人工決策與邊界設定不可或缺：作者系統中，關鍵環節通常設有人類審核或確認，如 UI 生成、資料庫操作、基礎架構變更均保留人工介入，確保整體流程安全可靠。
→ ★ 產業趨勢預測：完全自主代理初創公司將因無法克服錯誤率與成本限制而早期受挫；將來勝出的團隊是專注領域特定、並積極結合人類管控的協助型代理。
→ ★ 建議策略：明確定義代理功能範圍; 設計錯誤處理與回滾機制; 注重經濟效益（傾向無狀態操作）; 將 AI 用於複雜理解與內容生成，傳統工程確保執行與穩定性。
→ ★ 與大多數業界炒作不同，作者強調生產環境中代理系統的挑戰是複雜且結合軟體架構的問題，而非單純模型能力與演示。
→ ★ 實務案例：作者的 DevOps 代理拆分成獨立可驗證步驟，含回滾與人工確認點，符合可靠度需求；資料庫代理會主動確認破壞性操作，保護資料完整；功能生成代理採無狀態模型高效處理。

🔖 Keywords:
#AI代理 #錯誤累積 #Token成本 #工具設計 #人機協作