
AI Agent 到底是什麼?
隨著人工智慧的快速發展與普及,AI Agent 漸漸成為熱門的討論主題。這支影片將帶領大家一起探索 AI Agent 的定義與輪廓,並且預覽 AI 的未來。
目前,AI Agent 的中文翻譯最常見的是「AI 智能代理」或「AI 代理人」。從字面上看,它大致指的是一種能夠代替人類智能的人工智慧。對於 AI Agent 的具體解釋,我查閱了大量資料,包括詢問 ChatGPT 或 Perplexity 等工具,但至今仍未能找到完全一致或明確的定義。這或許是因為大家尚在構想與釐清 AI Agent 的具體樣貌,或者它本身就是一個可有多種形態、組合與範疇的概念,並隨著 AI 研究的進展而不斷演變。
根據《人工智慧:現代方法》這本教科書的定義,AI 代理(AI Agent)是一個能夠感知環境、做出決策並採取行動以達成特定目標的自動化系統。從這個定義來看,恆溫器也可視為某種 AI Agent。
另一方面,Lilian Weng 在 2023 年發表的論文中則進一步指出,AI Agent 應該具備「自主計畫」、「擁有記憶」、「可使用工具」及「能夠採取行動」的能力。
我個人則喜歡用《鋼鐵人》中的 Jarvis 作為例子,因為它非常接近我對 AI Agent 的理解。Jarvis 是一個具有獨立思考能力的 AI 載體,能夠穿梭於各種生活場景中,理解並協助實現使用者的目標,從而完成各種任務,甚至創造出新的產出。
簡單來說,我認為 AI Agent 就是能夠獨立完成任務的智能數位助手。我繪製了一張概念圖來幫助解釋我對 AI Agent 的看法。
圖中顯示,AI Agent 會處理各種輸入(Input)與輸出(Output),這些輸入與輸出可以是不同形式。大語言模型(LLM)會作為核心模型主導,例如 ChatGPT。在接收到指令後,AI Agent 可以根據輸入,進行計畫並執行必要步驟,以達成最終的目標或提供答案。
在過程中,AI Agent 可能會將任務拆解為多個步驟,並利用各種工具或應用程式來收集資料或完成子任務。它也可以調用其他 AI Agent 或模型,甚至控制一些裝置來獲取資料或執行任務。此外,AI Agent 會參考過去的使用者歷史紀錄,進一步精確執行任務,最終達成目標並輸出結果。
當任務更加複雜時,AI Agent 還能與其他 Agent 溝通協作,請求協助來完成某些子任務。而且,AI Agent 不僅限於在手機或電腦上運作,它還可以跨裝置使用,可能出現在汽車、機器人、冰箱等各種硬體設備中。
舉個更具體的例子:假設我需要查詢占星資訊,過去我可能會輸入生日並得到固定的答案,無論是誰來輸入結果都一樣。但如果我擁有一個 AI Agent 作為占星助手,當我詢問「今年我的工作運勢如何?」時,AI Agent 會根據我的資料自主產生計劃,像是查詢我的星盤、流年、工作職缺等資訊,並根據我的個性給出綜合建議。這個過程中,它會查閱占星資料庫,分析星象,甚至請求另一個專門處理職缺的 Agent 協助,並調用過去與我交談的紀錄,提供個性化的建議。
看起來已經很強大了,這些功能確實能解答問題。然而,如果我們進一步考慮,占星的終極目標是提升我的工作運勢,那麼 AI Agent 還可以進一步執行行動。它能根據我的需求,推薦相關的課程、引薦投資顧問 Agent,甚至若建議中提到增加室內陽光,它還能控制智能窗簾,延長日照時間,以達到提升運勢的目的。
在這樣的定義下,我認為 AI Agent 與過去的系統相比,最大的不同在於:
- 以達成目標為主,能夠執行多重任務
- 可以同時使用多個外部工具
- 更靈活的輸入與輸出方式
- 能自主計劃如何達成最終目標
- 能學習並依據個人化互動數據不斷進步
- 可以跨平台、跨裝置、跨系統、跨場域運作
如果依照這樣的定義來理解,讓我們看看現有的科技中,哪些可以被視為 AI Agent。
語音助手(如 Siri 或 Alexa)可以算是初階的 AI Agent,雖然它們的功能仍較為有限,但已具備基本的感知與回應能力。客製化的 ChatGPT、串接 LLM(大型語言模型)的自動化流程,也可以視為 AI Agent。而自動駕駛系統同樣符合這個概念,它們能夠接收輸入,自主決定處理方式,並透過工具執行行動,以達成特定任務。
不過,這些 AI Agent 仍主要運作於單一領域,執行相對單純的任務。我預見,未來的 AI Agent 將會在以下五個方面展現更強大的跨域能力:
- 可處理更多元的任務
- 具備更靈活的輸入與輸出方式
- 能夠跨越不同場域進行運作
- 可整合多種平台與裝置
- 擁有更強的自適應與學習能力
跨系統整合,讓 AI 更強大——未來趨勢
即使是一家強大的公司,例如 Uber,它的系統最多也只能在叫車與外送領域發揮高效運作。然而,未來的 AI Agent 不再侷限於單一應用,而是能夠跨越不同系統,整合各種工具與平台,以提供更全面的智能服務。這樣的發展將會讓 AI 更加強大,甚至改變我們與科技互動的方式。
自動化不等於 AI
單純的串接與自動化其實不能算是真正的 AI。目前市面上有許多自動化軟體,如果沒有結合 LLM(大型語言模型),本質上只是 API 的集合,並不具備 AI 的智能運作能力。
舉例來說,假設我建立了一個固定格式的 Google Sheet,手動輸入當月花費後,系統(如 Max)自動幫我發送通知信,並計算總支出。這樣的流程雖然便利,但並未真正運用 AI。
然而,如果我只需要將各種格式混亂的花費記錄(如 A 店的收據、B 店的發票、C 的帳單)丟給系統,而它能夠自動識別、解析資訊、建立 Google Sheet、分類支出類別,甚至提醒我這個月咖啡喝太多——這才是真正應用了 AI 的技術。
跨越裝置與時空限制
未來的 AI Agent,勢必會朝著「真人助理」的方向發展,能夠自主處理各種任務,甚至在某些方面超越人類。
其中,我認為 AI Agent 最有可能超越人類的地方在於無縫控制各種硬體設備,並能夠突破時空與數量的限制。
舉例來說,AI Agent 可以在一秒內協助你處理手機上的任務,下一秒則能切換到工廠中的機器人,幫你取物、關閉設備,甚至檢查燈是否已關。與人類不同,它不需要按照先後順序執行任務,而是可以同時處理多項工作,極大提升效率。
多樣化的輸入與輸出
AI 具備智能後,將能夠理解更複雜的資訊,並且支援更豐富的輸入與輸出形式。
- 輸入形式:目前,攝影機已經能讓 AI 具備「視覺」,未來甚至可能發展出「觸覺」與「溫度感應」。例如,當人形機器人普及後,它能根據你握住它手部的力度,感知不同的指令或情境。
- 輸出形式:自動駕駛汽車的輸出方式是控制方向盤與動力系統,而 AI 也可以透過語音、圖像、機器人動作等多種方式回應,用來適應不同場景與需求。
從特定用途進化為「萬能助手」
最初,AI Agent 可能會以特定用途為主,例如專門負責客服諮詢、人資管理、會計等領域。但隨著技術發展,它將逐步轉型為「萬能助手」,能夠同時處理各種領域的事務,例如:
- 公司內部:協助管理所有部門,如財務、人事、客戶關係管理等。
- 個人生活:安排行程、預訂餐廳、健康監測,甚至在家居設備中執行智慧控制。
AI Agent 的最終目標,不只是執行單一任務,而是成為一個真正能夠理解需求、主動規劃、靈活應變的全方位助手,讓人們的生活與工作更加高效便捷。
從個性化 AI 到智能切換多種角色
假設我有一個專門幫我收信與回信的 AI Agent,我會為它訓練一套符合我風格的「人設」,讓它能以我的語氣回覆客戶。此外,我可能會設計多種不同風格的回應模式,例如:應對挑剔客戶的、保持禮貌尊敬的,或是與老朋友交流的通訊風格,讓 AI 能根據對象與情境切換合適的回應方式。
當場景轉換到自動駕駛,我可能擁有兩台車——一台專門接送小孩,這時 AI Agent 會被訓練得極為穩定、安全;但當我自己開車兜風時,或許會希望 AI 切換到「車手模式」,讓駕駛體驗更具速度感與樂趣。
因此,正如馬克·祖克柏(Mark Zuckerberg)所說,未來每個人可能都會擁有大量 AI Agent,來協助我們處理各種事務。這些 AI 之間將能互相溝通與協作,就像貼身助理能夠指派工作給工廠主管、司機或發言人,讓不同 AI 各司其職,提高工作效率。
但是我也覺得同時擁有這麼多agent也不夠智慧,或許漸漸的,這些agent會的東西會愈來越多,最後,我只需要一個助理,就能完成所有事,他知道面對這個客戶要畢恭畢敬、載小孩要很慢很安全,我心情不好可以開快一點。甚至會看我臉色、看天氣、看今天schedule滿不滿台應付我的情緒和任務。 真的需要別的專長的agent時,建立新的agent也會是這個超級助理的事,他來決定要建立哪些小助理。 雖然說得很開心,但其實,如果這一天來到,我不知道是興奮比較多還是害怕比較多。因為他擁有如此高智能的話,會不會有一天開始,當你請他買外帶鹹酥雞回來,他卻覺得這個對你不健康,而會自作主張買健康食品給你吃。自動駕駛知道你接下來的會議很重要,因此不顧你的勸導瘋狂超速為了準時到達。 這些就是我們在其他單元談到的AGI出現可能的風險,以及ai的倫理問題。 希望這段討論,可以幫助大家更理解ai agent的樣貌及可能的發展,一起投入更多的理解和關注在ai發展上,我提過,這次變革是影像甚遠的,有越多人關注大家一起監管,最終就能往更好的方向去。
如果你喜歡這支影片的話 請幫我到 Youtube 按讚、訂閱、留言告訴我你喜歡,或是你也有你對於ai agent的想像。
AI 賦能課程目前也已經上線開賣,有興趣的可以考慮購買起來喔!