.png)
2025 年顯然將成為智能體元年 [1]。大語言模型(LLMs)的快速發展讓文本生成、圖像生成甚至視頻生成等不斷突破,但現在大家的興奮點已經轉向那些超越單純的生成能力、能夠在數字或現實世界中執行具體操作的系統。 產生這種興奮確實有其合理性。如果 AI 能夠 "基於環境輸入或內部決策機制,主動執行具體操作以達成目標。",其實用性將呈指數級提升。雖然軟件自動化(software automation)已發展多年,但其中多數方案仍顯僵化、脆弱。盡管要做到盡善盡美非常困難,但是將其與更敏捷的決策機制相結合必將帶來巨大的收益(後續我們會深入探討)。
若要全面梳理智能體定義的演變史,恐怕需要鴻篇巨制才能完成,不過可以肯定的是,學術界從未形成過統壹定義。學術文獻中記載的智能體類型就包含:
當年在各類 AI 會議上,"如何準確定義智能體" 曾是學者們最熱衷的晚宴話題。
到如今,該領域已經湧現出大量關於智能體的定義,這並不令人意外。我們現在擁有了壹套強大的新工具來構建智能體,大家的興奮程度可想而知。然而,我認為當前的這些智能體定義中存在著諸多錯誤,要麽過於復雜,要麽嚴重偏離了核心要義。存在多種不同定義的問題在於,它們可能模糊了構建智能體系統所面臨的底層挑戰(進而延伸至構建多智能體系統這壹更為艱巨的挑戰!)。基於前文提到的那些智能體現代定義(這些是我見過的當代最佳智能體定義)(譯者註:應當指的是 OpenAI、IBM 等對智能體的定義),系統梳理這些定義中反復出現的共性要素:
不太可能有壹個定義能滿足所有人的需求,但我認為,基於壹個相對穩健的核心定義,然後再進行擴展,這是很有幫助的。現在的智能體定義包含很多核心要素,但大多數都至少遺漏了過去的智能體定義中反復出現的壹個關鍵點(即強調智能體與其所在環境的不可分割性)。 現在的智能體定義還(非常自然但並非必要地)將 LLM(大語言模型)作為核心要素。實際上構建智能體並不需要像 LLM 這樣強大的技術。這個定義並非我的原創,它本質上是對過去智能體定義的整合以及當下智能體定義的補充,但可以說這是最接近本質的闡述,Agent(智能體)是:
具備自主性(autonomy)和行為能力,能在所處環境中實現壹個或多個目標的系統。
分解壹下這個定義的關鍵要素:
除了核心定義外,可能還需要補充壹些附加條件:
盡管如此,即使補充上述條件,當前的智能體定義仍缺失不少東西:大語言模型、While 循環、模型、規劃、外部指令、學習能力、記憶等。這些要素對某些類型的智能體確實有價值,但很難論證它們是智能體概念的核心。
要理解這壹點,我們不妨思考壹下多智能體系統的構成 ------ 這正是下文要探討的內容。
在結束智能體定義的討論之前,讓我們回到 "自主性" 這個最棘手的概念上來。系統具備自主行動能力究竟意味著什麽?是否意味著無需人類指令?是否意味著無需人類觸發?甚至無需其他智能體的觸發?
這是壹個深奧的哲學問題,與 "意識是什麽?" 有異曲同工之妙:
雖然難以達成共識,但有壹個實用的工程學定義:只要系統具備內部邏輯來決定是否響應外部請求,就允許來自人類、其他智能體或環境的外部觸發。這可以是對相關操作成功幾率的復雜評估,也可以是執行相關操作前簡單的安全檢查或身份驗證。
同樣重要的是,觸發器通常不會導致立即采取行動。例如:安全掃描系統可能長期被動收集信息,直到偵測到入侵企圖才突然啟動,阻止攻擊行為。Unix 系統的守護進程早在 "智能體" 概念流行前就已踐行這壹理念。
壹個看起來很簡單的話題,妳可能會覺得要徹底遠離智能體系統才是上策,這也情有可原。又或許是因為 "智能體熱" 的炒作實在令人應接不暇。這兩種想法都可以理解,但妳可能無法逃避。壹旦妳開始構建能在某個環境中 "行動" 的人工智能系統,妳就已經踏上了構建智能體的征途。當妳走上這條道路,特別是如果妳還添加了壹點自主性(長期運行進程、觸發規則等),妳的系統就值得被視為壹個智能體。通過審視智能體的系統設計,妳可以開始明確環境是什麽、有哪些可用的動作 / 工具、如何設計決策機制等。這些思考通常都會幫妳實現更優秀的系統設計。