從聊天到助理：真正的 AI 分身練成術 (五)

這篇文章我想要先分析一下 AI 代理的不同形式，以及作為企業或是一般個人使用者又要如何選合適的 AI 代理工具，所以本篇會比較偏重與理論描述。

最近一年，AI Agent（AI 代理） 幾乎成了 AI 圈最熱門的關鍵字之一，許多人第一次接觸 Agent 時，往往會覺得有點困惑：

「ChatGPT 不是已經很厲害了嗎？為什麼還需要 Agent？」

其實兩者最大的差別在於：ChatGPT 會告訴你「怎麼做」，而 Agent 則會直接「幫你做」。

這看似只有一字之差，但背後代表的是 AI 發展方向的巨大改變。

一、 AI 已經會思考，但還不會工作

過去幾年，大型語言模型（LLM）快速進步。無論是 ChatGPT、Gemini 還是 Claude，都已經能夠流暢地回答問題、撰寫文章、分析資料，甚至協助寫程式與整理資訊。

但它們有一個共同的限制：它們大多只能停留在對話框裡。

舉個例子，如果你對目前的 AI 說：「幫我整理這個月的帳單。」

它可能會告訴你該怎麼整理。
它甚至能幫你設計好精美的 Excel 表格。
但它不會真的打開你的信箱、下載帳單、整理資料，再幫你建立報表。

因為它缺少了最重要的一件事——執行能力。而這正是 AI Agent 出現的原因。

二、 Agent 是什麼？簡單來說，就是讓 AI 長出手腳

如果把大型語言模型比喻成大腦，那麼 Agent 就是讓這顆大腦擁有眼睛、耳朵、手腳，以及行動能力。傳統 AI 與 Agent 的工作流程，有著本質上的不同：

傳統 AI 流程： 你提出問題 ──> AI 思考 ──> AI 回答 (結束)
AI Agent 流程： 你交辦任務 ──> AI 分析需求 ──> AI 執行工作 ──> 檢查結果 ──> 持續修正直到完成

這就是為什麼許多人將 Agent 稱為「AI 助理的下一個階段」。因為它開始能夠實際參與工作，而不只是坐在旁邊提供建議。

AI 的「手腳」到底能做什麼？

目前大部分 Agent 的能力，大致可以分成以下三類：

操作工具 (System Calling)
AI 不只是產生程式碼，而是真的在系統裡執行程式碼。它可以自主查詢網頁資料、呼叫外部 API、執行 Python 腳本、操作資料庫，甚至幫你傳送電子郵件。
記住任務進度 (State Management)
假設你要求 Agent 幫你追蹤某款顯示卡的價格，它不需要每次都重新開始。它會記住昨天查過哪些網站、哪些商品已經比價過、價格是否發生變化。這種能力稱為「狀態管理」，是 Agent 能夠處理長時間、連續任務的關鍵。
串接不同服務 (Cross-Modal Orchestration)
當有人寄來報價單時，Agent 可以自動下載附件、整理內容、存到 Google Drive、建立 Notion 筆記，最後發送通知到 LINE。原本需要人手跨多個視窗完成的繁瑣流程，現在能一氣呵成。

三、目前兩種主要路線：雲端 Agent vs. 本地 Agent

雖然市面上的 Agent 工具越來越多，但從系統底層與運行哲學來看，大致可以分成兩種截然不同的路線：

特性	雲端 Agent 🌌	本地 Agent 🦞
代表工具	Google Antigravity 2.0、ChatGPT / Gemini Agent	OpenClaw、Open Interpreter、Ollama 專案
大腦位置	雲端頂級資料中心（如 Gemini / GPT 頂級模型）	你的個人電腦 / 本地伺服器（離線可跑）
核心優勢	智力極高、支援超高併發、無需硬體門檻	100% 隱私安全、無 Token 費用、可控低層硬體
適合場景	瞬間爆發、需要多線程平行處理的複雜任務	7×24 小時常態監聽、伺服器端守衛的自動化任務

1. 雲端 Agent：租用世界級專家組成的「多線程突擊隊」

雲端 Agent（如 Antigravity 2.0）的特色是：工作在本地，但思考在雲端。 它背後依賴的是雲端千億、甚至萬億參數級別的巨量模型。

這類架構最適合「事件觸發、需要瞬間調動大量智力與多個子代理平行協作」的爆發型任務。例如突然需要對 50 個供應商的合約進行併發比對，並在 10 分鐘內產出報告。這時利用雲端彈性計費、無限擴展的算力是唯一解。

2. 本地 Agent：住在電腦裡的「常駐型守衛」

本地 Agent（如 OpenClaw）的特色是：工作與思考都在你的本機完成。 AI 的大腦直接住在你的設備裡，內建安全沙盒，所有敏感資料絕不外流。

這種架構最適合「7×24 小時不間斷運行、在伺服器端常態性監聽」的任務。例如後台要持續監控系統異常 Log、或維持一個隨時待命的自動化控制台。這類任務如果掛在雲端 API，持續輸入上下文產生的 Token 費用會是財務黑洞；而走本地部署，吃的是固定硬體與電力，完全不用擔心帳單爆炸。

四、那我該選哪一種？

其實大部分人的答案非常簡單，取決於你的使用情境：

💡 如果你是一般使用者

你的主要需求是寫文章、查資料、學習新技能、協助寫程式或提升個人工作效率。

建議：雲端 Agent 是最划算且省心的選擇。 每個月花少量的訂閱費，就能直接享用目前世界上最頂尖的大腦，完全不需要為硬體配置傷腦筋。

🛠️ 如果你是 AI 愛好者、工程師或重度玩家

你想打造專屬的 AI 助理、建立 24 小時不中斷的自動化系統、控制本地硬體週邊，或者單純喜歡折騰與研究技術。

建議：本地 Agent（如 OpenClaw）會讓你大呼過癮。 雖然前期有硬體門檻，但長期來看，整體的安全感與成本控制力是雲端無法比擬的。

五、本地 AI 最大的現實門檻：顯卡 VRAM

很多人第一次接觸本地 Agent 時，都會產生一個誤解：「只要把模型下載下來就能順利執行了。」實際上並沒有那麼簡單。AI 模型的智力與穩定度，高度取決於顯示卡上的「顯存（VRAM）」。

在本地端，如果要讓一個折衷的 30B（300億）或 34B 參數模型能夠：

長時間穩定運行、不出現記憶體崩潰（OOM）
撐得起較長的上下文（Context Window）
同時流暢地調用多種工具

在現階段，通常會建議至少需要 24GB VRAM 以上的旗艦級或專業級顯示卡。這類高階硬體的採購成本十分高昂，這也是為什麼許多人在理性衡量後，仍然選擇雲端服務的原因——因為買一張高階顯卡的預算，可能就足夠支付你使用雲端頂級 AI 數年的訂閱費用了。

結語：Agent 的重點從來不是 AI，而是「執行」

回顧這幾年的 AI 發展。從 ChatGPT 開始，我們看見 AI 學會了理解與思考；而 Agent 的出現，則讓 AI 真正開始學會行動。它不再只是回答問題，而是逐漸成為能夠實質幫我們分擔工作的「數位助理」。

未來，你與 AI 的互動方式可能不再是：

「請告訴我該怎麼做。」

編按：而是更直接的：

「幫我把這件事搞定。」

這，或許才是 AI 真正開始改變我們生活與工作方式的起點。

rafaelfu2007

8 Posts View All Posts

從聊天到助理：真正的 AI 分身練成術 (五)

一、 AI 已經會思考，但還不會工作