home.social

#錯誤累積 — Public Fediverse posts

Live and recent posts from across the Fediverse tagged #錯誤累積, aggregated by home.social.

  1. I'm betting against AI agents in 2025, despite building them | Hacker News

    Link
    我不押注 2025 年的 AI 代理,儘管我親自打造過

    https://utkarshkanwat.com/writing/betting-against-agents

    📌 Summary:
    本文作者過去一年親自打造十二個以上的 AI 代理系統,涵蓋軟體開發整個生命週期,包括介面生成、資料庫操作、基礎設施管理與 CI/CD 自動化等實務應用。這些系統在產線中確實帶來效益,節省大量人力,但作者反對目前大量媒體與業界對 2025 年 AI 代理全面爆發的預期。文中指出三個決定性現實:第一,連續多步驟工作流程的錯誤率會指數增長,造成整體成功率遠低於生產所需的 99.9%;第二,對話式代理因為需要攜帶完整上下文,其 token 成本呈二次方擴增,經濟上無法支撐大規模運行;第三,真正挑戰在於工具設計與回饋機制,AI 需要的是能夠精確互動且在錯誤時能回復的工具,這一點經常被低估。成功的系統往往是有明確邊界、有限狀態與人類決策介入的協同方案,而非完全自主。最後,作者預測 2025 年會看到充滿野心的「全自主代理」初創企業因經濟性與可靠性問題受困,只有專注於領域限定、且重視人機協作的團隊會在產業中勝出。給想投入者的建議是明確定義代理能力邊界、設計錯誤容忍與回退流程、優先確保系統穩定可靠勝過全然自主的功能。整體看,作者非質疑 AI 重要性,而是在方法論與架構上持保留態度,並期待真正落地的代理系統將以更務實的形式存在。

    🎯 Key Points:
    → ★ 多步驟錯誤累積問題:即使每步 95% 可靠度,20步驟工作成功率僅約 36%。生產環境追求的是超過 99.9% 可靠度,數學上此目標難以達成。
    → ★ Token 成本與上下文窗口限制:對話代理必須持續處理歷史上下文,token 費用呈二次方增長,長對話成本極高不具經濟效益。例如 100 次交互可能花費 50-100 美元,規模化時成本難以負擔。
    → ★ 工具設計與回饋挑戰:成功代理重視工具介面設計,須避免消耗過多上下文資源,同時能提供結構化回饋、清楚溝通狀態變化與失敗資訊。缺乏這些設計,代理即使技術層面能呼叫 API,實務操作仍常失敗。
    → ★ 人工決策與邊界設定不可或缺:作者系統中,關鍵環節通常設有人類審核或確認,如 UI 生成、資料庫操作、基礎架構變更均保留人工介入,確保整體流程安全可靠。
    → ★ 產業趨勢預測:完全自主代理初創公司將因無法克服錯誤率與成本限制而早期受挫;將來勝出的團隊是專注領域特定、並積極結合人類管控的協助型代理。
    → ★ 建議策略:明確定義代理功能範圍; 設計錯誤處理與回滾機制; 注重經濟效益(傾向無狀態操作); 將 AI 用於複雜理解與內容生成,傳統工程確保執行與穩定性。
    → ★ 與大多數業界炒作不同,作者強調生產環境中代理系統的挑戰是複雜且結合軟體架構的問題,而非單純模型能力與演示。
    → ★ 實務案例:作者的 DevOps 代理拆分成獨立可驗證步驟,含回滾與人工確認點,符合可靠度需求;資料庫代理會主動確認破壞性操作,保護資料完整;功能生成代理採無狀態模型高效處理。

    🔖 Keywords:
    #AI代理 #錯誤累積 #Token成本 #工具設計 #人機協作