對AI Agent定義的一些探討

2025 年顯然將成為智能體元年。大語言模型（LLMs）的快速發展讓文本生成、圖像生成甚至視頻生成等不斷突破，但現在大家的興奮點已經轉向那些超越單純的生成能力、能夠在數字或現實世界中執行具體操作的系統。產生這種興奮確實有其合理性。如果 AI 能夠 "基於環境輸入或內部決策機制，主動執行具體操作以達成目標。"，其實用性將呈指數級提升。雖然軟件自動化（software automation）已發展多年，但其中多數方案仍顯僵化、脆弱。盡管要做到盡善盡美非常困難，但是將其與更敏捷的決策機制相結合必將帶來巨大的收益（後續我們會深入探討）。

Steven Willmott

Main Developer







回顧智慧體定義的歷史

01 讓時光倒流，回顧智能體定義的歷史

‍

若要全面梳理智能體定義的演變史，恐怕需要鴻篇巨制才能完成，不過可以肯定的是，學術界從未形成過統壹定義。

學術文獻中記載的智能體類型就包含：

‍

具備完整感知能力的實體機器人（可自主探索環境）
商業實戰模擬中用於預測價格波動的獨立行為主體簡化模型
擁有內部知識表征（internal knowledge representations）與世界模型（world models）的復雜軟件實體
由非常簡單的個體組成的集群，他們通過自行組織實現超復雜行為
當年在各類 AI 會議上，"如何準確定義智能體" 曾是學者們最熱衷的晚宴話題。

當年在各類 AI 會議上，"如何準確定義智能體" 曾是學者們最熱衷的晚宴話題。

‍

02 如今智能體的各種定義

‍
到如今，該領域已經湧現出大量關於智能體的定義，這並不令人意外。我們現在擁有了壹套強大的新工具來構建智能體，大家的興奮程度可想而知。然而，我認為當前的這些智能體定義中存在著諸多錯誤，要麽過於復雜，要麽嚴重偏離了核心要義。

存在多種不同定義的問題在於，它們可能模糊了構建智能體系統所面臨的底層挑戰（進而延伸至構建多智能體系統這壹更為艱巨的挑戰！）。

基於前文提到的那些智能體現代定義（這些是我見過的當代最佳智能體定義）（譯者註：應當指的是 OpenAI、IBM 等對智能體的定義），系統梳理這些定義中反復出現的共性要素：

‍

"智能體是配備指引行為的指令、能訪問可以擴展能力的工具的模型，並封裝在具有動態生命周期的運行時環境中。"（需要指令嗎？必須是模型嗎？模型的本質含義究竟是什麽？）
"能夠自主學習、適應並執行操作以實現既定目標的應用程序。"（學習能力是關鍵嗎？必須被指定目標嗎？由誰指定？）
"能在現實世界中執行並完成長期的、開放式任務的人工智能系統。"（任務必須長期運行嗎？必須完成嗎？）
"智能體 = 大語言模型 + 記憶能力 + 規劃能力 + 工具 + While 循環。"（需要記憶能力嗎？必須有大語言模型嗎？規劃能力是必需的嗎？）
"壹個值得信賴的系統，能代表用戶做出有影響力的決定"（必須代表用戶嗎？代表它自己可以嗎？人類算智能體嗎？）
"應用程序的智能體化程度越高，其程序執行邏輯的走向就越由大語言模型決定。"（必須是大語言模型嗎？智能體屬性是從 "完全腳本化" 到 "完全自主" 的連續過渡，還是要麽是智能體，要麽不是的二元狀態？）
"執行非簡單、多步驟操作（這些操作以往需要人類完成）的人工智能系統組件。"（必須是非簡單任務嗎？人類原本就無法完成的任務呢？殺毒軟件算智能體嗎？）

‍

撰寫這些內容的重點並非要否定這些定義。智能體的概念確實難以界定，而所有定義提出者都在進行有價值的嘗試。

實際上，我甚至可以說：我熱愛這些智能體定義中的每壹個，因為它們從不同角度捕捉了智能體的關鍵特征，又融入了當前技術浪潮的時代精神。

過去往往將智能體的定義簡化，因為在當時難以想象軟件系統能像今天用大語言模型構建的這般強大。現代定義某種程度上陷入了相反的問題 ------ 它們默認必須使用 LLM 這樣復雜的系統才能構建智能體。

‍

03 "Agent"（智能體）的本質到底是什麽？

‍
不太可能有壹個定義能滿足所有人的需求，但我認為，基於壹個相對穩健的核心定義，然後再進行擴展，這是很有幫助的。

現在的智能體定義包含很多核心要素，但大多數都至少遺漏了過去的智能體定義中反復出現的壹個關鍵點（即強調智能體與其所在環境的不可分割性）。現在的智能體定義還（非常自然但並非必要地）將 LLM（大語言模型）作為核心要素。實際上構建智能體並不需要像 LLM 這樣強大的技術。

這個定義並非我的原創，它本質上是對過去智能體定義的整合以及當下智能體定義的補充，但可以說這是最接近本質的闡述，Agent（智能體）是：

具備自主性（autonomy）和行為能力，能在所處環境中實現壹個或多個目標的系統。

‍

分解壹下這個定義的關鍵要素：

‍

我們討論的是壹個單獨的實體（系統）。
具有自主性，能根據某些評判標準選擇是否采取行動（這是所有智能體定義中最麻煩的部分，但正如後文所述，這其實是壹個比較關鍵的屬性
具有行為能力，換句話說，它擁有可在周遭環境中執行的壹套行為操作。這些能力可以是與生俱來的、可以是壹套工具、可以是改變物理世界的行為（如破壞電纜）或單純收集信息的行為（如間諜智能體）
智能體位於其運行的環境中。這個環境可以是物理的，也可以是數字的，可以是靜態的，也可以是快速演變的。智能體運行的環境（environment）是持續影響智能體決策的動態場域（Context）。
智能體具有可選擇是否實現的目標。這些目標可以是內置的（預設的程序）、被其他智能體（人或軟件）賦予的，也可以是動態生成的（甚至是隨機生成的或基於環境的某些特征生成的）

‍

除了核心定義外，可能還需要補充壹些附加條件：

‍

大多數有用的智能體可能需要具備長期運行或持久存在的特性，也就是說，它們需要持續運行，堅持完成任務。但這並非嚴格意義上的必要條件 ------ 只要具備自主性，並擁有某種身份，使他們成為壹個實體，理論上完全可以存在壹次性的智能體：在完成某壹個任務後（甚至啟動後即刻）自動銷毀。
大多數有用的智能體可能都有某種感知循環（sensing loop），監測環境中的觸發條件與變化。同樣，這也並不是嚴格意義上的必要條件 ------ 可將大量智能體投入環境以暴力覆蓋目標達成路徑（就像無需復雜感知的暴力拒絕服務攻擊）。

盡管如此，即使補充上述條件，當前的智能體定義仍缺失不少東西：大語言模型、While 循環、模型、規劃、外部指令、學習能力、記憶等。這些要素對某些類型的智能體確實有價值，但很難論證它們是智能體概念的核心。

要理解這壹點，我們不妨思考壹下多智能體系統的構成 ------ 這正是下文要探討的內容。

在結束智能體定義的討論之前，讓我們回到 "自主性" 這個最棘手的概念上來。系統具備自主行動能力究竟意味著什麽？是否意味著無需人類指令？是否意味著無需人類觸發？甚至無需其他智能體的觸發？

這是壹個深奧的哲學問題，與 "意識是什麽？" 有異曲同工之妙：

‍

推特 / X 機器人若僅在用戶提及某些關鍵詞時才群發垃圾信息，算智能體嗎？
病毒算是智能體嗎？單個生物病毒呢？
按鈕觸發式系統（如使用按鍵啟動）仍是智能體嗎？抑或只是應用程序的壹個函數？

‍

雖然難以達成共識，但有壹個實用的工程學定義：只要系統具備內部邏輯來決定是否響應外部請求，就允許來自人類、其他智能體或環境的外部觸發。這可以是對相關操作成功幾率的復雜評估，也可以是執行相關操作前簡單的安全檢查或身份驗證。

‍

同樣重要的是，觸發器通常不會導致立即采取行動。例如：安全掃描系統可能長期被動收集信息，直到偵測到入侵企圖才突然啟動，阻止攻擊行為。Unix 系統的守護進程早在 "智能體" 概念流行前就已踐行這壹理念。

‍

壹個看起來很簡單的話題，妳可能會覺得要徹底遠離智能體系統才是上策，這也情有可原。又或許是因為 "智能體熱" 的炒作實在令人應接不暇。

這兩種想法都可以理解，但妳可能無法逃避。壹旦妳開始構建能在某個環境中 "行動" 的人工智能系統，妳就已經踏上了構建智能體的征途。當妳走上這條道路，特別是如果妳還添加了壹點自主性（長期運行進程、觸發規則等），妳的系統就值得被視為壹個智能體。

通過審視智能體的系統設計，妳可以開始明確環境是什麽、有哪些可用的動作 / 工具、如何設計決策機制等。這些思考通常都會幫妳實現更優秀的系統設計。

‍

June 6, 2025

MARKETING

對AI Agent定義的一些探討

01 讓時光倒流，回顧智能體定義的歷史

02 如今智能體的各種定義

03 "Agent"（智能體）的本質到底是什麽？

‍

Related articles

簡述大前端技術棧的網絡原理

SEO搜索引擎優化詳解

架構提效的矛盾和主要方面

聯絡我們