被OpenAI帶火的Agent如何解放人力？清華等發佈ProAgent

2023-11-15 02:35:49

原文來源：機器之心

圖片來源：由無界 AI生成

近日，來自清華大學的研究人員聯合面壁智慧、中國人民大學、MIT、CMU 等機構共同發佈了新一代流程自動化範式「智慧體流程自動化」 Agentic Process Automation（APA），結合大模型智慧體説明人類進行工作流構建，並讓智慧體自主處理工作流中涉及複雜決策與動態處理的環節，進一步提升自動化的程度，提高效率，將人類從繁重的勞動中解放出來。

* 項目位址：

論文位址：/blob/main/paper/paper.pdf

在歷史的長河中，自動化是人類技術發展的主要動力，幫助人類從複雜、危險、繁瑣的勞動環境中解放出來。自早期農業時代的水車灌溉，到工業時代的蒸汽機，人類一直在不斷尋求更加先進的自動化技術，從而解放自身於繁重的工作。

隨著信息時代的到來，軟體作為資訊處理、存儲和通信的基礎成為了人類生產生活密不可分的一環，從而催成了機器人流程自動化（Robotic Process Automation， RPA）技術。其通過人工編製規則將多個軟體協調成一個固化的工作流（Workflow），通過類比人交互的方式來和軟體交互實現高效執行。

圖 1 機器人流程自動化 RPA 與智慧體流程自動化 APA 對比

RPA 利用軟體機器人或稱為「BOT」來類比和執行重複性、規則性的任務，從而解放人力資源，提高工作效率。 RPA 的應用範圍非常廣泛。很多企業（包括銀行、保險公司、製造業、零售業等各個行業）常利用 RPA 機器人來自動執行一些常規和繁瑣的任務，例如：數據錄入、數據提取、數據處理。通過自動化任務，RPA 可以大幅度減少錯誤率，並且能夠在 24*7 不間斷地執行任務，從而提高了業務的可靠性和回應能力。

根據市場研究，RPA 市場正在迅速增長並取得巨大成功。 Gartner 預測，2023 年全球 RPA 市場收入將達到 33 億美元，相比 2022 年增長 17.5%。這表明瞭企業對於 RPA 的強烈需求和認可。

但是，RPA 僅能替代簡單、機械的人力工作，一些複雜的流程仍舊依賴人工：

編寫 RPA 工作流本身需要繁重的人類勞動，成本較高。
複雜任務非常靈活，通常涉及動態決策，難以固化為規則進行表示。

圖 2 RPA 與 APA 的效率與智能對比

幸運的是，最近 AI 領域興起的大模型智慧體技術（Large Language Model based Agents， LLM-based Agents）也許給自動化技術創造了新的可能性。 有沒有可能將 Agent 技術的靈活性引入到 RPA 領域中，來進一步減少人的參與呢？

該團隊的研究探討了大模型智慧體時代下新型自動化範式「智慧體流程自動化」 Agentic Process Automation （APA）。和傳統 RPA 相比，在 APA 範式中，Agent 可以根據人類的需求自主完成工作流構建，同時其可以識別人類需求中需要動態決策的部分，將自動編排進工作流中，並在工作流執行到該部分時主動接管工作流的執行完成相應複雜決策。

為了探索 APA 的可能性，該研究工作實現了一個自動化智慧體 ProAgent，其可以接收人類指令，以生成代碼的方式構建工作流，同在工作流中引入 DataAgent 和 ControlAgent 來在工作流中實現複雜數據處理與邏輯控制。 ProAgent 的研究展現了 APA 在大模型智慧體時代下的可行性，也揭示了 LLM 時代下，自動化技術的嶄新可能性。

方法介紹

在 RPA 中，工作流是由一系列工具調用組成的圖狀結構：節點代表一個原子化的工具調用（如 Gmail、Twitter、Google Sheets），而邊代表了執行的邏輯順序（承接、分支、迴圈）。一個工作流往往包含了對於一個或一類任務的所有先驗知識，其中包含解決問題的路徑，遇到異常時的處理邏輯等等。因此人編寫固化出來的工作流往往是非常穩定周全、非常高效的。

圖 3 智慧體工作流描述語言示例

在 ProAgent 中，由於 LLM 本身在代碼數據中進行預訓練，學習到了較強代碼能力，該研究便基於代碼的智慧體工作流描述語言 Agentic Workflow Deion Language。該語言使用 JSON 實現對工作流中數據的組織與管理，選擇 Python 語法實現對工作流的邏輯控制，將控制流中的跳轉、迴圈等直接通過 Python 語法進行表徵，同時將工作流中的工具調用封裝為 Python Function。於是對於 ProAgent，工作流構建任務便轉化為代碼生成任務。當接收到人類指令時，ProAgent便編寫相應的 Agentic Workflow Deion Language，從而實現了工作流自動化構建。

圖 4 結合 DataAgent 和 ControlAgent 的智能體工作流描述語言示例

複雜的現實任務中通常會涉及動態決策，單純的 Python 式的邏輯控制規則以及 JSON 式的數據組織形式在面對靈活的需求時便無能為力，此時便需要引入 agent。因此，該研究工作進一步定義出了兩種 Agent 操作：

DataAgent：對於一個複雜的數據處理需求，工作流構建時會使用自然語言來描述處理的任務，然後在執行時會初始化一個 DataAgent，其會基於該自然語言描述自主處理並完成該數據處理任務。

2. ControlAgent：對於難以用規則表示的邏輯控制規則，工作流構建時使用自然語言對控制邏輯進行描述，然後在運行時會初始化一個 ControlAgent，其會基於該自然語言描述自主選擇工作流後續需要執行的分支。

ProAgent 使用 ReACT 模式逐步構建工作流，其共包含四個工作流構建步驟：

Action_Define：決定在工作流中添加什麼工具。
Action Implement：將工具的輸入 / 輸出參數轉化為 JSON 結構，同時將工具的調用封裝為 Python 函數。
Workflow Implement：定義一個 mainWorkflow 函數，用以組織整個 workflow 的邏輯控制與數據處理。
Task Submit：當 ProAgent 構建完 workflow 時以該操作標識構建過程結束。

圖 5 ProAgent 工作流構建過程示例

另外，為了優化 ProAgent 的效果，又引入了幾個優化技巧：

1.Testing-on-Constructing：在構建過程中，ProAgent 會在一次修改工作流之後對工作流進行測試，以保證工作流的正確性。
Function Calling：工作流構建的所有操作均封裝為了 GPT-4 的 Function，從而提高對工作流構建過程的控制。
Chain-of-Thought：ProAgent 在編寫工作流代碼時，需要對於每個 function 都要給出註釋 comment 和一個編寫 plan，從而提高 ProAgent 工作流構建的性能。

工作流執行過程基於 Python interpreter。給定一個工作流，其對應的mainWorkflow函數用作為工作流執行的入口來開始整個執行過程。執行過程遵循 Python 代碼執行規則，即按照順序逐行執行。一旦mainWorkflow函數返回，工作流執行就成功完成了。

可行性驗證

為了驗證 Agentic Process Automation 的可行性，該研究使用 OpenAI GPT-4 作為基礎模型，並以一個開源的 RPA 平臺 n8n 作為載體，實現了上述的 ProAgent。同時設計了一個需要兼顧靈活與效率的任務：這是一個典型的商業場景，需要從Google Sheets中提取各種業務線的營利數據，同時根據業務是否屬於2B或是2C，決定後續的行為。一旦確定業務線為 2C，就會向 Slack 頻道發送一條消息。而對於 2B 的業務線，則會向相應的經理發送一封電子郵件，其中包括對業務線的評估和簡要的盈利概況。

圖 6 任務 Instruction 展示

對於該任務，首先它是一個重複性的任務，對於多條產品線，應該走相同的處理流程。其次，分辨一個業務線是 2C 還是 2B 很難通過規則判斷，需要涉及 Agent 動態決策來判斷後續的工作流執行操作。最後，根據撰寫業務線的評估郵件需要一定的智慧，所以需要 Agent 的介入。

在 ProAgent 生成中，對於該任務，編寫出了一個包含四個原子操作，一個 DataAgent 和一個 ControlAgent 的工作流。總體過程大致如下圖所示：

圖 7 ProAgent 工作流構建過程展示

可以看到，ProAgent通過自主編寫代碼的方式，自動完成了工作流的構建過程，其中無需涉及人工介入。在需要判斷業務線是 2B 還是 2C 時，ProAgent 引入了 ControlAgent 來做判斷，ControlAgent 的被設置為 “Decide Whether the business line is toC or toB”。當業務線為 2B 時，ProAgent 還引入了一個 DataAgent，其任務設置為 “Write a email of the business line of profit， together with your suggestion”，從而利用 agent 的智慧來根據不同業務線的實際情況來撰寫郵件。

在工作流被編寫、固化下來以後，工作流就會根據不同的數據自動分支到不同的邏輯進行高效地數據處理了。

圖 8 ProAgent 工作流執行過程展示

在處理 2C 業務線數據時，ControlAgent 可以根據業務線描述判斷出當前業務線的類型，選擇調用 Slack 工具。當遇到 2B 業務線數據時，DataAgent 可以撰寫郵件發到相應經理的郵箱中。

總結

該研究提出了大模型時代下新的自動化範式 ——Agentic Process Automation，和傳統 Robotic Process Automation 技術相比，其可以實現工作流構建的自動化，以及工作流執行時動態決策的自動化。該研究進一步實現了 ProAgent 並通過實驗揭示了大模型智慧體在自動化中的可行性與潛力。相信未來大模型智慧體技術會幫助人類實現更高層次的自動化，將人類從各種繁重的勞動中解放出來。

團隊相關研究

目前研究團隊已在大模型智慧體方向有諸多研究，包括：

XAgent：超強大模型智慧體應用框架，可自行拆解複雜任務，並高效執行。
項目位址：
ChatDev：多智慧體協作開發框架，讓多個不同角色的智慧體進行協作，自動化開發軟體應用。
項目位址：
AgentVerse：大模型驅動的智慧體通用平臺，招募各種各樣的 agent 專家，共同説明使用者解決複雜任務。
項目位址：

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言

巴比特_

熱門話題查看更多
#2025Gate年度帳單
5.02萬熱度
#加密市場小幅回暖
8208 熱度
#現貨黃金再創新高
5836 熱度
#日本央行明年或兩次加息
2167 熱度
#2026行情预测
2058 熱度

熱門 Gate Fun查看更多

1
DOPEDopamine Drip
市值:$0.1持有人數:1
0.00%
2
GYEGate Year End
市值:$3568.96持有人數:1
0.00%
3
芝麻人生芝麻人生
市值:$3555.17持有人數:1
0.00%
4
抽根利群Liqun
市值:$3558.62持有人數:1
0.00%
5
TATO土豆币
市值:$3562.06持有人數:1
0.00%