對AI Agent定義的一些探討

2025 年顯然將成為智能體元年 [1]。大語言模型(LLMs)的快速發展讓文本生成、圖像生成甚至視頻生成等不斷突破,但現在大家的興奮點已經轉向那些超越單純的生成能力、能夠在數字或現實世界中執行具體操作的系統。 產生這種興奮確實有其合理性。如果 AI 能夠 "基於環境輸入或內部決策機制,主動執行具體操作以達成目標。",其實用性將呈指數級提升。雖然軟件自動化(software automation)已發展多年,但其中多數方案仍顯僵化、脆弱。盡管要做到盡善盡美非常困難,但是將其與更敏捷的決策機制相結合必將帶來巨大的收益(後續我們會深入探討)。

Steven Willmott
Main Developer
Share article
回顧智慧體定義的歷史

01 讓時光倒流,回顧智能體定義的歷史

若要全面梳理智能體定義的演變史,恐怕需要鴻篇巨制才能完成,不過可以肯定的是,學術界從未形成過統壹定義。學術文獻中記載的智能體類型就包含:

  • 具備完整感知能力的實體機器人(可自主探索環境)
  • 商業實戰模擬中用於預測價格波動的獨立行為主體簡化模型
  • 擁有內部知識表征(internal knowledge representations)與世界模型(world models)的復雜軟件實體
  • 由非常簡單的個體組成的集群,他們通過自行組織實現超復雜行為
  • 當年在各類 AI 會議上,"如何準確定義智能體" 曾是學者們最熱衷的晚宴話題。

當年在各類 AI 會議上,"如何準確定義智能體" 曾是學者們最熱衷的晚宴話題。

02 如今智能體的各種定義


到如今,該領域已經湧現出大量關於智能體的定義,這並不令人意外。我們現在擁有了壹套強大的新工具來構建智能體,大家的興奮程度可想而知。然而,我認為當前的這些智能體定義中存在著諸多錯誤,要麽過於復雜,要麽嚴重偏離了核心要義。存在多種不同定義的問題在於,它們可能模糊了構建智能體系統所面臨的底層挑戰(進而延伸至構建多智能體系統這壹更為艱巨的挑戰!)。基於前文提到的那些智能體現代定義(這些是我見過的當代最佳智能體定義)(譯者註:應當指的是 OpenAI、IBM 等對智能體的定義),系統梳理這些定義中反復出現的共性要素:

  • "智能體是配備指引行為的指令、能訪問可以擴展能力的工具的模型,並封裝在具有動態生命周期的運行時環境中。"(需要指令嗎?必須是模型嗎?模型的本質含義究竟是什麽?)
  • "能夠自主學習、適應並執行操作以實現既定目標的應用程序。"(學習能力是關鍵嗎?必須被指定目標嗎?由誰指定?)
  • "能在現實世界中執行並完成長期的、開放式任務的人工智能系統。"(任務必須長期運行嗎?必須完成嗎?)
  • "智能體 = 大語言模型 + 記憶能力 + 規劃能力 + 工具 + While 循環。"(需要記憶能力嗎?必須有大語言模型嗎?規劃能力是必需的嗎?用 FOR 循環後優雅退出不行嗎?)

03 "Agent"(智能體)的本質到底是什麽?


不太可能有壹個定義能滿足所有人的需求,但我認為,基於壹個相對穩健的核心定義,然後再進行擴展,這是很有幫助的。現在的智能體定義包含很多核心要素,但大多數都至少遺漏了過去的智能體定義中反復出現的壹個關鍵點(即強調智能體與其所在環境的不可分割性)。 現在的智能體定義還(非常自然但並非必要地)將 LLM(大語言模型)作為核心要素。實際上構建智能體並不需要像 LLM 這樣強大的技術。這個定義並非我的原創,它本質上是對過去智能體定義的整合以及當下智能體定義的補充,但可以說這是最接近本質的闡述,Agent(智能體)是:

具備自主性(autonomy)和行為能力,能在所處環境中實現壹個或多個目標的系統。

分解壹下這個定義的關鍵要素:

  • 我們討論的是壹個單獨的實體(系統)。
  • 具有自主性,能根據某些評判標準選擇是否采取行動(這是所有智能體定義中最麻煩的部分,但正如後文所述,這其實是壹個比較關鍵的屬性
  • 具有行為能力,換句話說,它擁有可在周遭環境中執行的壹套行為操作。這些能力可以是與生俱來的、可以是壹套工具、可以是改變物理世界的行為(如破壞電纜)或單純收集信息的行為(如間諜智能體)
  • 智能體位於其運行的環境中。這個環境可以是物理的,也可以是數字的,可以是靜態的,也可以是快速演變的。智能體運行的環境(environment)是持續影響智能體決策的動態場域(Context)。
  • 智能體具有可選擇是否實現的目標。這些目標可以是內置的(預設的程序)、被其他智能體(人或軟件)賦予的,也可以是動態生成的(甚至是隨機生成的或基於環境的某些特征生成的)

除了核心定義外,可能還需要補充壹些附加條件:

  • 大多數有用的智能體可能需要具備長期運行或持久存在的特性,也就是說,它們需要持續運行,堅持完成任務。但這並非嚴格意義上的必要條件 ------ 只要具備自主性,並擁有某種身份,使他們成為壹個實體,理論上完全可以存在壹次性的智能體:在完成某壹個任務後(甚至啟動後即刻)自動銷毀。
  • 大多數有用的智能體可能都有某種感知循環(sensing loop),監測環境中的觸發條件與變化。同樣,這也並不是嚴格意義上的必要條件 ------ 可將大量智能體投入環境以暴力覆蓋目標達成路徑(就像無需復雜感知的暴力拒絕服務攻擊)。

盡管如此,即使補充上述條件,當前的智能體定義仍缺失不少東西:大語言模型、While 循環、模型、規劃、外部指令、學習能力、記憶等。這些要素對某些類型的智能體確實有價值,但很難論證它們是智能體概念的核心。

要理解這壹點,我們不妨思考壹下多智能體系統的構成 ------ 這正是下文要探討的內容。

在結束智能體定義的討論之前,讓我們回到 "自主性" 這個最棘手的概念上來。系統具備自主行動能力究竟意味著什麽?是否意味著無需人類指令?是否意味著無需人類觸發?甚至無需其他智能體的觸發?

這是壹個深奧的哲學問題,與 "意識是什麽?" 有異曲同工之妙:

  • 推特 / X 機器人若僅在用戶提及某些關鍵詞時才群發垃圾信息,算智能體嗎?
  • 病毒算是智能體嗎?單個生物病毒呢?
  • 按鈕觸發式系統 (如使用按鍵啟動)仍是智能體嗎?抑或只是應用程序的壹個函數?

雖然難以達成共識,但有壹個實用的工程學定義:只要系統具備內部邏輯來決定是否響應外部請求,就允許來自人類、其他智能體或環境的外部觸發。這可以是對相關操作成功幾率的復雜評估,也可以是執行相關操作前簡單的安全檢查或身份驗證。

同樣重要的是,觸發器通常不會導致立即采取行動。例如:安全掃描系統可能長期被動收集信息,直到偵測到入侵企圖才突然啟動,阻止攻擊行為。Unix 系統的守護進程早在 "智能體" 概念流行前就已踐行這壹理念。

壹個看起來很簡單的話題,妳可能會覺得要徹底遠離智能體系統才是上策,這也情有可原。又或許是因為 "智能體熱" 的炒作實在令人應接不暇。這兩種想法都可以理解,但妳可能無法逃避。壹旦妳開始構建能在某個環境中 "行動" 的人工智能系統,妳就已經踏上了構建智能體的征途。當妳走上這條道路,特別是如果妳還添加了壹點自主性(長期運行進程、觸發規則等),妳的系統就值得被視為壹個智能體。通過審視智能體的系統設計,妳可以開始明確環境是什麽、有哪些可用的動作 / 工具、如何設計決策機制等。這些思考通常都會幫妳實現更優秀的系統設計。

Related articles