Deep潮 giới thiệu: Sáu Agent mỗi người đảm nhiệm một chức năng, khi tác giả ngủ, chúng hoàn thành nghiên cứu, sáng tạo nội dung, kiểm tra mã và sản xuất newsletter.
Tác giả đã đầy đủ tiết lộ cấu trúc thư mục, chi phí thực tế, những khó khăn gặp phải và đề xuất theo tuần, là một trong những ghi chép thực hành về AI Agent cá nhân có giá trị tham khảo cao nhất hiện nay.
Toàn văn như sau:
Sáu AI Agent quản lý toàn bộ công việc của tôi khi tôi ngủ.
Không phải Demo. Không phải dự án cuối tuần.
Một đội ngũ thực sự hoạt động 24/7, đảm bảo tôi không bao giờ bị tụt lại phía sau. Nghiên cứu xong rồi, nội dung đã được phác thảo, mã đã được kiểm tra, newsletter đã sẵn sàng. Mỗi sáng khi tôi mở Telegram, chúng đã làm việc suốt đêm.
Hôm qua tôi đã đăng một bài viết về đội ngũ Agent của mình. Câu hỏi đứng đầu trong số các câu hỏi là: “Tôi thực sự đã xây dựng hệ thống này như thế nào?”
Bài viết này chính là câu trả lời. Không nói lý thuyết, không vẽ sơ đồ kiến trúc. Tôi sẽ trình bày cấu trúc thư mục thực tế, chi phí thực tế, những thất bại gặp phải. Tất cả đều có trong đó.
Sau khi đọc xong, bạn sẽ hiểu cách xây dựng một đội AI Agent tự vận hành khi bạn ngủ.
Tại sao là đội nhóm chứ không phải công cụ
Vừa vận hành Unwind AI vừa quản lý kho Awesome LLM Apps, nghĩa là mỗi ngày phải làm sáu việc: nghiên cứu các xu hướng nóng trong lĩnh vực AI, viết tweet, đăng bài LinkedIn, phác thảo newsletter, kiểm tra đóng góp trên GitHub của kho, xử lý các vấn đề cộng đồng.
Mỗi nhiệm vụ mất từ 30 đến 60 phút. Sáu nhiệm vụ. Một ngày của tôi cứ thế trôi qua, chưa bắt đầu làm việc thực sự.
Tôi đã thử dùng một Agent duy nhất để giải quyết vấn đề này. Một prompt khổng lồ đảm nhiệm nghiên cứu, viết lách và kiểm tra, bao gồm tất cả. Kết quả là mọi thứ đều làm một cách tầm thường. Ngữ cảnh đầy ắp, chất lượng giảm sút. Một Agent không thể đảm nhận cùng lúc sáu công việc.
Vì vậy tôi đã thuê sáu AI Agent.
Hiểu đội nhóm này
Mỗi Agent được đặt tên theo một nhân vật trong phim truyền hình. Không phải để chơi chữ. Khi tôi nói với Claude “Bạn có năng lượng của Dwight Schrute”, nó đã biết ý nghĩa đó từ dữ liệu huấn luyện: hoàn toàn, tập trung, coi công việc như sinh mệnh. Đó là kết quả của 30 mùa phim, tôi dùng miễn phí.
Monica (Chief of Staff): đặt tên theo Monica Geller. Cô là Agent chính, cũng là người tôi tương tác nhiều nhất trên Telegram. Cô điều phối các người khác, xử lý các quyết định chiến lược, phân công nhiệm vụ cho các chuyên gia phù hợp. Trong SOUL.md của cô, viết rõ: “Bạn là người đảm bảo mọi việc đều được thực hiện đúng.”
Dwight (Research): đặt tên theo Dwight Schrute. Mỗi ngày ba lần, anh thực hiện quét nghiên cứu, kiểm tra X, Hacker News, bảng xếp hạng GitHub, blog AI của Google và các bài nghiên cứu, viết báo cáo tình báo cấu trúc để các Agent khác sử dụng.
Kelly (X/Twitter): đặt tên theo Kelly Kapoor. Cô đọc nghiên cứu của Dwight, viết nháp tweet theo phong cách của tôi, bao gồm tweet đơn, chuỗi tweet và trích dẫn. Trong SOUL.md của cô, viết rõ: “Bạn đã biết trước khi điều đó trở nên phổ biến.”
Rachel (LinkedIn): đặt tên theo Rachel Green. Nguồn tin giống Kelly, nền tảng khác, giọng điệu khác, hướng tới tư duy lãnh đạo hơn là bình luận nóng bỏng.
Ross (Engineering): đặt tên theo Ross Geller. Xử lý kiểm tra mã, sửa lỗi và thực hiện kỹ thuật. Trong SOUL.md của anh, viết rõ: “Khi xử lý vấn đề, hãy hiểu rõ nó trước. Đừng chỉ sửa triệu chứng.”
Pam (Newsletter): đặt tên theo Pam Beesly. Tổng hợp các báo cáo hàng ngày của Dwight thành bản tóm tắt newsletter.
Sáu Agent, mỗi người một nhiệm vụ, phân công rõ ràng không tranh cãi.
Nói về xây dựng
Tôi chạy tất cả mọi thứ trên Mac Mini M4. Nhưng tôi phải nói rõ: bạn không cần Mac Mini.
OpenClaw hỗ trợ macOS, Linux và Windows (qua WSL). Laptop bình thường, PC chơi game, VPS 5 USD/tháng đều được. Điểm tiện lợi của Mac Mini là luôn bật nguồn, yên tĩnh, tiết kiệm điện, nhưng không bắt buộc.
Cấu hình của tôi: Mac Mini M4 cơ bản. Luôn cắm nguồn và mạng, không kết nối màn hình, hoàn toàn tương tác qua Telegram trên điện thoại.
Cài đặt OpenClaw
Chỉ cần hai dòng lệnh terminal, chưa đến năm phút.
Nếu gặp vấn đề, xem tài liệu OpenClaw.
Lệnh này khởi động gateway, tức là chạy các tiến trình nền duy trì hoạt động. Nó quản lý Agent của bạn, chạy cron, xử lý tin nhắn Telegram. Tắt terminal, Agent vẫn hoạt động.
Cấu trúc workspace
Một instance OpenClaw, nhiều Agent. Không phải sáu bộ cài riêng biệt.
Cấu trúc thư mục thực tế của tôi như sau:
Monica nằm ở thư mục gốc. Cô là Agent chính, là người tôi trực tiếp tương tác. Các Agent khác là các Agent con có thể ủy thác hoặc chạy độc lập theo lịch cron của riêng họ.
Không cần phải bắt đầu với sáu Agent. Tôi bắt đầu chỉ với Monica, dần dần theo dòng công việc rõ ràng, qua vài tuần tôi thêm các Agent khác.
SOUL.md là gì
Mỗi Agent được định nghĩa bằng một file: SOUL.md. Đây là phần giới thiệu về danh tính, vai trò và hướng dẫn hoạt động của Agent, là file quan trọng nhất trong hệ thống.
Ví dụ, SOUL.md của Dwight đại khái như sau:
Chú ý, file này làm gì. Không chỉ nói “Bạn là Agent nghiên cứu”. Nó còn định hình cá tính, nguyên tắc rõ ràng, mối quan hệ với các Agent khác, và một khung quyết định.
SOUL.md của Monica cũng vậy.
Tất cả các Agent đều theo mẫu: danh tính, vai trò, nguyên tắc, mối quan hệ, phong cách. Mỗi SOUL.md khoảng 40-60 dòng, ngắn gọn đủ để có thể nạp toàn bộ vào ngữ cảnh mỗi lần hội thoại, chi tiết đủ để duy trì hành vi ổn định và nhất quán.
Phối hợp nhiều Agent
Không có API gọi, không có hàng đợi tin nhắn, không có framework điều phối.
Chỉ có file.
Sau khi Dwight hoàn thành nghiên cứu, anh ghi kết quả vào intel/DAILY-INTEL.md. Kelly thức dậy, đọc file đó, dựa vào đó phác thảo tweet. Rachel đọc cùng file, viết bài LinkedIn. Pam đọc, viết newsletter.
Cơ chế phối hợp chính là hệ thống file.
SOUL.md của Dwight chính xác chỉ rõ anh viết vào đâu:
File AGENTS.md của Kelly chính xác chỉ rõ cô đọc từ đâu:
Không có middleware, không có lớp tích hợp. Dwight viết một file, Kelly đọc một file, việc chuyển giao là một file markdown trên đĩa.
Nghe có vẻ quá đơn giản. Thật ra, nó đơn giản. Đó là lý do nó có thể chạy trơn tru. File không bị crash, không có vấn đề xác thực, không cần xử lý API rate limit, chúng tồn tại đó.
Dữ liệu có cấu trúc dạng JSON, tóm tắt dễ đọc dạng markdown. Agent đọc markdown, JSON là nguồn dữ liệu chính để loại bỏ trùng lặp và theo dõi dài hạn.
Hệ thống ghi nhớ
Mỗi lần thức dậy, Agent không có ký ức của lần hội thoại trước, mỗi lần bắt đầu đều từ đầu. Đây là đặc tính, không phải thiếu sót. Nhưng điều này có nghĩa là ký ức phải rõ ràng, thể hiện rõ.
Có hai cấp độ.
Nhật ký hàng ngày (memory/YYYY-MM-DD.md): ghi lại toàn bộ cuộc hội thoại, bao gồm nội dung đã viết, phản hồi nhận được. Agent liên tục ghi vào trong ngày.
Ký ức dài hạn (MEMORY.md): rút ra từ nhật ký hàng ngày, các insight quan trọng, bài học rút ra, sở thích phát hiện, quy luật nhận biết.
Mỗi Agent khi bắt đầu hội thoại đều theo quy trình: đọc SOUL.md, đọc USER.md, đọc các file memory hôm nay và hôm qua, rồi nếu là hội thoại chính, còn phải đọc cả MEMORY.md.
Các Agent này thực sự tiến bộ theo thời gian. Không phải do mô hình cải tiến, mà do chúng có ngữ cảnh phong phú hơn.
Kelly đã học được phong cách viết của tôi, không cần emoji hay hashtag nữa. Điều này đã nằm trong ký ức của cô, mỗi lần phác thảo đều thể hiện rõ. Dwight đã học được loại câu chuyện phù hợp với “bộ lọc Alex” (hình mẫu khách hàng mục tiêu của chúng tôi), bỏ qua những cái không phù hợp, điều này cũng nằm trong ký ức của anh.
Mỗi ngày, trong chu kỳ hoạt động, Agent sẽ thường xuyên xem lại nhật ký hàng ngày, rút ra nội dung quan trọng vào MEMORY.md. File nhật ký hàng ngày là ghi chép gốc, MEMORY.md là trí tuệ tinh gọn.
Lập lịch
Agent cần tự thức dậy. OpenClaw dùng lịch cron tích hợp để xử lý việc này.
Cấu hình thực tế của tôi như sau:
Thứ tự rất quan trọng. Dwight chạy trước, vì các Agent khác phụ thuộc vào kết quả của anh. Kelly và Rachel chạy sau, vì chúng cần có file tình báo của Dwight để bắt đầu.
Cơ chế tự phục hồi Heartbeat
Cron đôi khi thất bại. Máy khởi động lại, tác vụ bị treo, mạng đứt quãng trong quá trình gọi API. Đây là phần cứng, có thể xảy ra lỗi.
Tập tin HEARTBEAT.md cung cấp một lớp bảo vệ. Mỗi lần heartbeat, Agent chính sẽ kiểm tra xem cron đã thực thi chưa:
Nếu một tác vụ thất bại hoặc bỏ lỡ thời gian, heartbeat sẽ phát hiện và bắt buộc chạy lại. Tự phục hồi, không cần can thiệp thủ công.
Cơ chế heartbeat phù hợp với các kịch bản kiểm tra hàng loạt hoặc thời gian có thể chệch nhẹ. Cron phù hợp với lập lịch chính xác và các tác vụ cần cách ly với hội thoại chính.
Telegram làm giao diện tương tác
Không có dashboard, không có Web UI, không có hệ thống quản lý. Tôi giao tiếp với Agent qua Telegram.
Đây là lựa chọn có chủ đích. Tôi không muốn đăng nhập dashboard, không muốn mở Web app, điện thoại luôn bên cạnh, Telegram luôn mở, Agent ở nơi tôi có thể dễ dàng tiếp cận.
OpenClaw hỗ trợ Telegram như một kênh liên lạc. Sau khi thiết lập, Agent của bạn sẽ xuất hiện dưới dạng bot Telegram. Bạn gửi tin nhắn, nó trả lời, gửi bản nháp cho bạn, bạn phê duyệt hoặc từ chối. Giống như có một đồng nghiệp trong phần mềm nhắn tin.
Monica là liên lạc chính của tôi, xử lý phần lớn hội thoại, ủy thác nhiệm vụ cho các Agent khác. Các Agent khác khi tạo ra nội dung cần xem xét sẽ liên hệ trực tiếp với tôi.
Buổi sáng điển hình của tôi: thức dậy, mở Telegram, Dwight đã gửi tóm tắt nghiên cứu, Kelly có ba bản nháp tweet chờ duyệt, Rachel đã chuẩn bị bài đăng LinkedIn. Tôi xem xét, phản hồi, phê duyệt, toàn bộ quá trình chỉ mất 10 phút uống cà phê.
Xây dựng cá tính
Bạn không thể tạo ra một cá tính hoàn hảo ngay từ đầu. Bạn bắt đầu từ phác thảo sơ bộ trong SOUL.md, quan sát hành vi Agent, điều chỉnh theo thời gian. Giống như quản lý con người thật sự vậy.
Tôi gọi đó là “Prompt Engineering theo hướng chỉnh sửa”.
Ban đầu Kelly viết nháp đầy emoji và dấu cảm thán, đó không phải phong cách của tôi. Tôi phản hồi: “Không dùng emoji, không hashtag, câu ngắn gọn, mạnh mẽ.” Cô cập nhật ký ức, sau một tuần, cô đã làm đúng. Dwight ban đầu thu thập quá nhiều nhiễu, mọi cập nhật nhỏ đều ghi lại. Tôi bảo anh: “Không phải tất cả thứ nóng hổi đều quan trọng, tôi cần tín hiệu, không phải nhiễu.” Anh đã cập nhật nguyên tắc, giờ báo cáo của anh tập trung và có thể hành động.
Bất kỳ Agent nào cũng có phiên bản ban đầu tầm thường, phiên bản thứ mười đã khá, phiên bản thứ ba mươi mới xuất sắc. Bạn phải dành thời gian chỉnh sửa, hoàn thiện. Đặt tên theo nhân vật truyền hình giúp tạo ra một cá tính tức thì cho mô hình — “Dwight Schrute năng lượng” nghĩa là tận tâm, tập trung, không nói nhiều. Nhưng cá tính thực sự sẽ hình thành từ những chỉnh sửa liên tục trong ký ức vài tuần.
Một lời khuyên tôi đồng tình: đặt cho mỗi Agent một chức danh đơn giản, bình thường và một điều kiện dừng. Giới hạn giúp Agent tốt hơn, vai trò càng cụ thể, đầu ra càng rõ ràng.
An toàn
An toàn nằm trong tay bạn. Phương pháp của tôi rất đơn giản: Agent có thế giới riêng, không xâm nhập vào thế giới của tôi.
Mac Mini là máy của chúng. Chúng có tài khoản email riêng, API key riêng, quyền truy cập hạn chế, mọi thứ trên máy đó không liên quan đến tài khoản cá nhân của tôi.
API của các dịch vụ như Gemini, Eleven Labs đều được cấp riêng cho instance OpenClaw này. Tôi có thể theo dõi sử dụng, phát hiện bất thường để cắt truy cập trong vài giây.
Tôi không cấp quyền truy cập tài khoản cá nhân của tôi cho Agent. Nếu muốn chúng xem email, tôi chuyển tiếp. Nếu cần xem tài liệu, tôi chia sẻ qua Telegram. Chúng chỉ thấy những gì tôi muốn chúng thấy, không hơn.
Điều này giống như cách bạn quản lý nhân viên mới. Không giao toàn bộ chìa khóa ngày đầu, bạn cấp cho họ không gian làm việc riêng, chứng thực riêng, chia sẻ thông tin theo nhu cầu.
Nơi có thể xảy ra vấn đề, cách sửa
Đây không phải phép thuật, đó là hạ tầng. Hạ tầng có thể gặp lỗi.
Gateway sập. Hiếm khi xảy ra, nhưng có thể. Cách sửa: chạy lệnh “openclaw gateway restart”. Hệ thống heartbeat sẽ phát hiện các cron lỗi thời và bắt buộc chạy lại, bạn không mất cả ngày.
Tác vụ cron bỏ lỡ thời gian. Máy ngủ, mạng đứt quãng, giới hạn API. Cách sửa: HEARTBEAT.md tự phục hồi. Monica kiểm tra mỗi lần heartbeat xem tác vụ đã thực thi chưa, nếu quá 26 giờ không cập nhật, cô bắt buộc chạy lại.
Vượt quá giới hạn ngữ cảnh. Agent đọc quá nhiều file khi bắt đầu hội thoại, không còn chỗ cho công việc thực sự. Cách sửa: giữ SOUL.md ngắn (40-60 dòng), giữ tập trung trong AGENTS.md, chỉ tải các file memory hôm nay và hôm qua, không cần đọc toàn bộ lịch sử.
Chất lượng output của Agent giảm. Xảy ra khi ký ức trở nên lộn xộn hoặc mâu thuẫn. Cách sửa: duy trì bộ nhớ định kỳ. Trong chu kỳ heartbeat, Agent xem lại nhật ký hàng ngày, rút ra nội dung tinh gọn vào MEMORY.md, xóa hoặc lưu trữ các file nhật ký cũ.
Xung đột phối hợp. Hai Agent cố gắng cập nhật cùng một file. Cách sửa: thiết kế luồng file theo mô hình “một người ghi, nhiều người đọc”. Dwight ghi vào DAILY-INTEL.md, các Agent khác đọc, không ai ghi đè.
Bài học đáng tin cậy nhất: bắt đầu từ đơn giản. Một Agent, một nhiệm vụ, một lịch trình. Chạy ổn định trong một tuần rồi mới thêm Agent thứ hai. Những người cài đặt sáu Agent ngay ngày đầu rồi thắc mắc tại sao gặp lỗi, đều phạm sai lầm giống như triển khai hệ thống phân tán không có giám sát.
Chi phí thực tế
Phần cứng: Mac Mini M4 mới giá khởi điểm 499 USD, nhưng bất kỳ máy tính luôn bật nào cũng được, laptop cũ, VPS 5 USD/tháng đều phù hợp.
Chi phí mô hình AI: tôi dùng nhiều mô hình kết hợp trong toàn đội, phần lớn nhiệm vụ dùng Claude Opus và Sonnet, một số workflow dùng Gemini, thử chạy mô hình cục bộ qua Ollama để giảm chi phí.
Chi tiết như sau:
Claude (Max plan): 200 USD/tháng
API Gemini: 50-70 USD/tháng
TinyFish (Agent web): khoảng 50 USD/tháng
Eleven Labs (giọng nói): khoảng 50 USD/tháng
Telegram: miễn phí
OpenClaw: mã nguồn mở miễn phí
Tổng cộng: dưới 400 USD/tháng, đổi lấy một đội ngũ không nghỉ.
Thay đổi thực sự là gì
Dwight mỗi ngày tiết kiệm cho tôi 2-3 giờ nghiên cứu. Trước đây tôi phải tự kiểm tra X, Hacker News, bảng xếp hạng GitHub và blog AI mỗi sáng. Giờ thức dậy đã có một bản tóm tắt theo thứ tự ưu tiên, kèm nguồn và hành động.
Kelly, Pam và Rachel tiết kiệm thêm 1-2 giờ sáng tạo nội dung. Ross xử lý các công việc kỹ thuật mà trước đây tôi thường làm vào buổi tối.
Tổng cộng: mỗi ngày tiết kiệm khoảng 4-5 giờ.
Nhưng giá trị thực không nằm ở một ngày, mà nằm trong quá trình kéo dài hàng tuần, hàng tháng. Một Agent nghiên cứu hàng ngày, kiên trì 30 ngày, tích lũy thành một bộ tín hiệu, xu hướng, quy luật theo dõi được — điều mà mọi cuộc hội thoại đơn lẻ không thể đạt tới. Tôi đăng bài trên X nhiều hơn, chất lượng tốt hơn, thời gian đăng đều đặn hơn. Kho Awesome LLM Apps liên tục phát triển, newsletter có nguồn nghiên cứu ổn định.
Những Agent này không thể sáng tạo, chuyển đổi chiến lược hay đột phá sáng tạo. Chúng xử lý những công việc lặp đi lặp lại, có cấu trúc mà trước đây tôi phải mất hàng giờ để hoàn thành, giúp tôi có thời gian làm những việc cần đến trí óc con người thật sự.
Bắt đầu từ đâu
Đừng cố xây dựng sáu Agent ngay ngày đầu.
Tuần đầu: một Agent, một nhiệm vụ. Cài đặt OpenClaw, tương tác với Agent để viết SOUL.md, chọn một nhiệm vụ lặp lại hàng ngày (đối với đa số là nghiên cứu hoặc sáng tạo nội dung), thiết lập Telegram, tạo cron, theo dõi một tuần, sửa lỗi.
Tuần thứ hai: thêm cơ chế ghi nhớ, tiếp tục hoàn thiện. Output ban đầu của Agent sẽ tầm thường, điều này bình thường. Phản hồi, theo dõi sự phát triển của file ghi nhớ, điều chỉnh SOUL.md dựa trên thực tế. Đến cuối tuần thứ hai, Agent của bạn sẽ cho ra kết quả thực sự hữu ích.
Tuần thứ ba: thêm Agent thứ hai. Bạn đã cảm nhận được nhu cầu — Agent nghiên cứu cung cấp thông tin, còn bạn vẫn phải viết tweet thủ công dựa vào đó, đã đến lúc có một Agent nội dung. Thiết lập chế độ chia sẻ file: Agent thứ nhất viết, Agent thứ hai đọc, cơ chế phối hợp chính là hệ thống file.
Tuần thứ tư trở đi: xây dựng theo thứ tự. Khi cảm thấy cần thiết, thêm Agent mới, không phải khi nghĩ “phải” thêm. Mỗi Agent đều phải giải quyết vấn đề thực tế của bạn, không phải demo, không phải xác thực ý tưởng, mà là những thiếu sót thực tế trong quy trình làm việc của bạn.
Hãy coi đó như tuyển dụng. Ngày đầu, bạn không thuê sáu nhân viên. Bạn thuê một người, để họ vận hành hiệu quả, rồi khi cần, mới thuê thêm.
Thay đổi tư duy
Sau khi Agent của bạn vận hành ổn định một tháng, sẽ có những thay đổi. Bạn không còn xem AI như công cụ cần mở ra khi cần nữa, mà bắt đầu coi nó như một đội nhóm luôn hoạt động.
Tôi bắt đầu chào Monica mỗi sáng qua Telegram, và chào tạm biệt cả đội trước khi tắt điện thoại. Nghe có vẻ kỳ quặc, nhưng sau một tháng tương tác, phản hồi, thấy chúng tiến bộ, ranh giới giữa Agent và con người bắt đầu mờ đi.
Mô hình là nền tảng cấu hình, ai cũng có thể dùng Claude, GPT, Gemini. Hệ thống dựa trên SOUL.md, hệ thống ghi nhớ, chiến lược lập lịch, cách phối hợp, và các phản hồi chỉnh sửa trong file.
Hệ thống đó là của bạn, không ai có thể giống bạn, giống Agent của bạn, ký ức của bạn, cá tính đã mài giũa qua thời gian.
Và hệ thống đó mỗi ngày đều cộng dồn lợi nhuận.
Mỗi lần nghiên cứu của Dwight làm ký ức của anh phong phú hơn, phản hồi của Kelly khiến bản nháp sắc nét hơn, mỗi lỗi của Ross sửa đều giúp anh hiểu rõ hơn về mã của bạn.
Đây mới là thực sự là lợi thế cạnh tranh. Không phải mô hình, mà là hệ thống có khả năng học hỏi.
Hãy bắt đầu hôm nay. Một Agent, một nhiệm vụ, một lịch trình.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Quản lý sản phẩm AI cao cấp của Google: 6 đại lý tiếp quản công việc hàng ngày của tôi, chưa đến 400 USD mỗi tháng, hoạt động 24/7
Tác giả:Shubham Saboo
Biên dịch: Deep潮 TechFlow
Deep潮 giới thiệu: Sáu Agent mỗi người đảm nhiệm một chức năng, khi tác giả ngủ, chúng hoàn thành nghiên cứu, sáng tạo nội dung, kiểm tra mã và sản xuất newsletter.
Tác giả đã đầy đủ tiết lộ cấu trúc thư mục, chi phí thực tế, những khó khăn gặp phải và đề xuất theo tuần, là một trong những ghi chép thực hành về AI Agent cá nhân có giá trị tham khảo cao nhất hiện nay.
Toàn văn như sau:
Sáu AI Agent quản lý toàn bộ công việc của tôi khi tôi ngủ.
Không phải Demo. Không phải dự án cuối tuần.
Một đội ngũ thực sự hoạt động 24/7, đảm bảo tôi không bao giờ bị tụt lại phía sau. Nghiên cứu xong rồi, nội dung đã được phác thảo, mã đã được kiểm tra, newsletter đã sẵn sàng. Mỗi sáng khi tôi mở Telegram, chúng đã làm việc suốt đêm.
Hôm qua tôi đã đăng một bài viết về đội ngũ Agent của mình. Câu hỏi đứng đầu trong số các câu hỏi là: “Tôi thực sự đã xây dựng hệ thống này như thế nào?”
Bài viết này chính là câu trả lời. Không nói lý thuyết, không vẽ sơ đồ kiến trúc. Tôi sẽ trình bày cấu trúc thư mục thực tế, chi phí thực tế, những thất bại gặp phải. Tất cả đều có trong đó.
Sau khi đọc xong, bạn sẽ hiểu cách xây dựng một đội AI Agent tự vận hành khi bạn ngủ.
Tại sao là đội nhóm chứ không phải công cụ
Vừa vận hành Unwind AI vừa quản lý kho Awesome LLM Apps, nghĩa là mỗi ngày phải làm sáu việc: nghiên cứu các xu hướng nóng trong lĩnh vực AI, viết tweet, đăng bài LinkedIn, phác thảo newsletter, kiểm tra đóng góp trên GitHub của kho, xử lý các vấn đề cộng đồng.
Mỗi nhiệm vụ mất từ 30 đến 60 phút. Sáu nhiệm vụ. Một ngày của tôi cứ thế trôi qua, chưa bắt đầu làm việc thực sự.
Tôi đã thử dùng một Agent duy nhất để giải quyết vấn đề này. Một prompt khổng lồ đảm nhiệm nghiên cứu, viết lách và kiểm tra, bao gồm tất cả. Kết quả là mọi thứ đều làm một cách tầm thường. Ngữ cảnh đầy ắp, chất lượng giảm sút. Một Agent không thể đảm nhận cùng lúc sáu công việc.
Vì vậy tôi đã thuê sáu AI Agent.
Hiểu đội nhóm này
Mỗi Agent được đặt tên theo một nhân vật trong phim truyền hình. Không phải để chơi chữ. Khi tôi nói với Claude “Bạn có năng lượng của Dwight Schrute”, nó đã biết ý nghĩa đó từ dữ liệu huấn luyện: hoàn toàn, tập trung, coi công việc như sinh mệnh. Đó là kết quả của 30 mùa phim, tôi dùng miễn phí.
Monica (Chief of Staff): đặt tên theo Monica Geller. Cô là Agent chính, cũng là người tôi tương tác nhiều nhất trên Telegram. Cô điều phối các người khác, xử lý các quyết định chiến lược, phân công nhiệm vụ cho các chuyên gia phù hợp. Trong SOUL.md của cô, viết rõ: “Bạn là người đảm bảo mọi việc đều được thực hiện đúng.”
Dwight (Research): đặt tên theo Dwight Schrute. Mỗi ngày ba lần, anh thực hiện quét nghiên cứu, kiểm tra X, Hacker News, bảng xếp hạng GitHub, blog AI của Google và các bài nghiên cứu, viết báo cáo tình báo cấu trúc để các Agent khác sử dụng.
Kelly (X/Twitter): đặt tên theo Kelly Kapoor. Cô đọc nghiên cứu của Dwight, viết nháp tweet theo phong cách của tôi, bao gồm tweet đơn, chuỗi tweet và trích dẫn. Trong SOUL.md của cô, viết rõ: “Bạn đã biết trước khi điều đó trở nên phổ biến.”
Rachel (LinkedIn): đặt tên theo Rachel Green. Nguồn tin giống Kelly, nền tảng khác, giọng điệu khác, hướng tới tư duy lãnh đạo hơn là bình luận nóng bỏng.
Ross (Engineering): đặt tên theo Ross Geller. Xử lý kiểm tra mã, sửa lỗi và thực hiện kỹ thuật. Trong SOUL.md của anh, viết rõ: “Khi xử lý vấn đề, hãy hiểu rõ nó trước. Đừng chỉ sửa triệu chứng.”
Pam (Newsletter): đặt tên theo Pam Beesly. Tổng hợp các báo cáo hàng ngày của Dwight thành bản tóm tắt newsletter.
Sáu Agent, mỗi người một nhiệm vụ, phân công rõ ràng không tranh cãi.
Nói về xây dựng
Tôi chạy tất cả mọi thứ trên Mac Mini M4. Nhưng tôi phải nói rõ: bạn không cần Mac Mini.
OpenClaw hỗ trợ macOS, Linux và Windows (qua WSL). Laptop bình thường, PC chơi game, VPS 5 USD/tháng đều được. Điểm tiện lợi của Mac Mini là luôn bật nguồn, yên tĩnh, tiết kiệm điện, nhưng không bắt buộc.
Cấu hình của tôi: Mac Mini M4 cơ bản. Luôn cắm nguồn và mạng, không kết nối màn hình, hoàn toàn tương tác qua Telegram trên điện thoại.
Cài đặt OpenClaw
Chỉ cần hai dòng lệnh terminal, chưa đến năm phút.
Nếu gặp vấn đề, xem tài liệu OpenClaw.
Lệnh này khởi động gateway, tức là chạy các tiến trình nền duy trì hoạt động. Nó quản lý Agent của bạn, chạy cron, xử lý tin nhắn Telegram. Tắt terminal, Agent vẫn hoạt động.
Cấu trúc workspace
Một instance OpenClaw, nhiều Agent. Không phải sáu bộ cài riêng biệt.
Cấu trúc thư mục thực tế của tôi như sau:
Monica nằm ở thư mục gốc. Cô là Agent chính, là người tôi trực tiếp tương tác. Các Agent khác là các Agent con có thể ủy thác hoặc chạy độc lập theo lịch cron của riêng họ.
Không cần phải bắt đầu với sáu Agent. Tôi bắt đầu chỉ với Monica, dần dần theo dòng công việc rõ ràng, qua vài tuần tôi thêm các Agent khác.
SOUL.md là gì
Mỗi Agent được định nghĩa bằng một file: SOUL.md. Đây là phần giới thiệu về danh tính, vai trò và hướng dẫn hoạt động của Agent, là file quan trọng nhất trong hệ thống.
Ví dụ, SOUL.md của Dwight đại khái như sau:
Chú ý, file này làm gì. Không chỉ nói “Bạn là Agent nghiên cứu”. Nó còn định hình cá tính, nguyên tắc rõ ràng, mối quan hệ với các Agent khác, và một khung quyết định.
SOUL.md của Monica cũng vậy.
Tất cả các Agent đều theo mẫu: danh tính, vai trò, nguyên tắc, mối quan hệ, phong cách. Mỗi SOUL.md khoảng 40-60 dòng, ngắn gọn đủ để có thể nạp toàn bộ vào ngữ cảnh mỗi lần hội thoại, chi tiết đủ để duy trì hành vi ổn định và nhất quán.
Phối hợp nhiều Agent
Không có API gọi, không có hàng đợi tin nhắn, không có framework điều phối.
Chỉ có file.
Sau khi Dwight hoàn thành nghiên cứu, anh ghi kết quả vào intel/DAILY-INTEL.md. Kelly thức dậy, đọc file đó, dựa vào đó phác thảo tweet. Rachel đọc cùng file, viết bài LinkedIn. Pam đọc, viết newsletter.
Cơ chế phối hợp chính là hệ thống file.
SOUL.md của Dwight chính xác chỉ rõ anh viết vào đâu:
File AGENTS.md của Kelly chính xác chỉ rõ cô đọc từ đâu:
Không có middleware, không có lớp tích hợp. Dwight viết một file, Kelly đọc một file, việc chuyển giao là một file markdown trên đĩa.
Nghe có vẻ quá đơn giản. Thật ra, nó đơn giản. Đó là lý do nó có thể chạy trơn tru. File không bị crash, không có vấn đề xác thực, không cần xử lý API rate limit, chúng tồn tại đó.
Dữ liệu có cấu trúc dạng JSON, tóm tắt dễ đọc dạng markdown. Agent đọc markdown, JSON là nguồn dữ liệu chính để loại bỏ trùng lặp và theo dõi dài hạn.
Hệ thống ghi nhớ
Mỗi lần thức dậy, Agent không có ký ức của lần hội thoại trước, mỗi lần bắt đầu đều từ đầu. Đây là đặc tính, không phải thiếu sót. Nhưng điều này có nghĩa là ký ức phải rõ ràng, thể hiện rõ.
Có hai cấp độ.
Nhật ký hàng ngày (memory/YYYY-MM-DD.md): ghi lại toàn bộ cuộc hội thoại, bao gồm nội dung đã viết, phản hồi nhận được. Agent liên tục ghi vào trong ngày.
Ký ức dài hạn (MEMORY.md): rút ra từ nhật ký hàng ngày, các insight quan trọng, bài học rút ra, sở thích phát hiện, quy luật nhận biết.
Mỗi Agent khi bắt đầu hội thoại đều theo quy trình: đọc SOUL.md, đọc USER.md, đọc các file memory hôm nay và hôm qua, rồi nếu là hội thoại chính, còn phải đọc cả MEMORY.md.
Các Agent này thực sự tiến bộ theo thời gian. Không phải do mô hình cải tiến, mà do chúng có ngữ cảnh phong phú hơn.
Kelly đã học được phong cách viết của tôi, không cần emoji hay hashtag nữa. Điều này đã nằm trong ký ức của cô, mỗi lần phác thảo đều thể hiện rõ. Dwight đã học được loại câu chuyện phù hợp với “bộ lọc Alex” (hình mẫu khách hàng mục tiêu của chúng tôi), bỏ qua những cái không phù hợp, điều này cũng nằm trong ký ức của anh.
Mỗi ngày, trong chu kỳ hoạt động, Agent sẽ thường xuyên xem lại nhật ký hàng ngày, rút ra nội dung quan trọng vào MEMORY.md. File nhật ký hàng ngày là ghi chép gốc, MEMORY.md là trí tuệ tinh gọn.
Lập lịch
Agent cần tự thức dậy. OpenClaw dùng lịch cron tích hợp để xử lý việc này.
Cấu hình thực tế của tôi như sau:
Thứ tự rất quan trọng. Dwight chạy trước, vì các Agent khác phụ thuộc vào kết quả của anh. Kelly và Rachel chạy sau, vì chúng cần có file tình báo của Dwight để bắt đầu.
Cơ chế tự phục hồi Heartbeat
Cron đôi khi thất bại. Máy khởi động lại, tác vụ bị treo, mạng đứt quãng trong quá trình gọi API. Đây là phần cứng, có thể xảy ra lỗi.
Tập tin HEARTBEAT.md cung cấp một lớp bảo vệ. Mỗi lần heartbeat, Agent chính sẽ kiểm tra xem cron đã thực thi chưa:
Nếu một tác vụ thất bại hoặc bỏ lỡ thời gian, heartbeat sẽ phát hiện và bắt buộc chạy lại. Tự phục hồi, không cần can thiệp thủ công.
Cơ chế heartbeat phù hợp với các kịch bản kiểm tra hàng loạt hoặc thời gian có thể chệch nhẹ. Cron phù hợp với lập lịch chính xác và các tác vụ cần cách ly với hội thoại chính.
Telegram làm giao diện tương tác
Không có dashboard, không có Web UI, không có hệ thống quản lý. Tôi giao tiếp với Agent qua Telegram.
Đây là lựa chọn có chủ đích. Tôi không muốn đăng nhập dashboard, không muốn mở Web app, điện thoại luôn bên cạnh, Telegram luôn mở, Agent ở nơi tôi có thể dễ dàng tiếp cận.
OpenClaw hỗ trợ Telegram như một kênh liên lạc. Sau khi thiết lập, Agent của bạn sẽ xuất hiện dưới dạng bot Telegram. Bạn gửi tin nhắn, nó trả lời, gửi bản nháp cho bạn, bạn phê duyệt hoặc từ chối. Giống như có một đồng nghiệp trong phần mềm nhắn tin.
Monica là liên lạc chính của tôi, xử lý phần lớn hội thoại, ủy thác nhiệm vụ cho các Agent khác. Các Agent khác khi tạo ra nội dung cần xem xét sẽ liên hệ trực tiếp với tôi.
Buổi sáng điển hình của tôi: thức dậy, mở Telegram, Dwight đã gửi tóm tắt nghiên cứu, Kelly có ba bản nháp tweet chờ duyệt, Rachel đã chuẩn bị bài đăng LinkedIn. Tôi xem xét, phản hồi, phê duyệt, toàn bộ quá trình chỉ mất 10 phút uống cà phê.
Xây dựng cá tính
Bạn không thể tạo ra một cá tính hoàn hảo ngay từ đầu. Bạn bắt đầu từ phác thảo sơ bộ trong SOUL.md, quan sát hành vi Agent, điều chỉnh theo thời gian. Giống như quản lý con người thật sự vậy.
Tôi gọi đó là “Prompt Engineering theo hướng chỉnh sửa”.
Ban đầu Kelly viết nháp đầy emoji và dấu cảm thán, đó không phải phong cách của tôi. Tôi phản hồi: “Không dùng emoji, không hashtag, câu ngắn gọn, mạnh mẽ.” Cô cập nhật ký ức, sau một tuần, cô đã làm đúng. Dwight ban đầu thu thập quá nhiều nhiễu, mọi cập nhật nhỏ đều ghi lại. Tôi bảo anh: “Không phải tất cả thứ nóng hổi đều quan trọng, tôi cần tín hiệu, không phải nhiễu.” Anh đã cập nhật nguyên tắc, giờ báo cáo của anh tập trung và có thể hành động.
Bất kỳ Agent nào cũng có phiên bản ban đầu tầm thường, phiên bản thứ mười đã khá, phiên bản thứ ba mươi mới xuất sắc. Bạn phải dành thời gian chỉnh sửa, hoàn thiện. Đặt tên theo nhân vật truyền hình giúp tạo ra một cá tính tức thì cho mô hình — “Dwight Schrute năng lượng” nghĩa là tận tâm, tập trung, không nói nhiều. Nhưng cá tính thực sự sẽ hình thành từ những chỉnh sửa liên tục trong ký ức vài tuần.
Một lời khuyên tôi đồng tình: đặt cho mỗi Agent một chức danh đơn giản, bình thường và một điều kiện dừng. Giới hạn giúp Agent tốt hơn, vai trò càng cụ thể, đầu ra càng rõ ràng.
An toàn
An toàn nằm trong tay bạn. Phương pháp của tôi rất đơn giản: Agent có thế giới riêng, không xâm nhập vào thế giới của tôi.
Mac Mini là máy của chúng. Chúng có tài khoản email riêng, API key riêng, quyền truy cập hạn chế, mọi thứ trên máy đó không liên quan đến tài khoản cá nhân của tôi.
API của các dịch vụ như Gemini, Eleven Labs đều được cấp riêng cho instance OpenClaw này. Tôi có thể theo dõi sử dụng, phát hiện bất thường để cắt truy cập trong vài giây.
Tôi không cấp quyền truy cập tài khoản cá nhân của tôi cho Agent. Nếu muốn chúng xem email, tôi chuyển tiếp. Nếu cần xem tài liệu, tôi chia sẻ qua Telegram. Chúng chỉ thấy những gì tôi muốn chúng thấy, không hơn.
Điều này giống như cách bạn quản lý nhân viên mới. Không giao toàn bộ chìa khóa ngày đầu, bạn cấp cho họ không gian làm việc riêng, chứng thực riêng, chia sẻ thông tin theo nhu cầu.
Nơi có thể xảy ra vấn đề, cách sửa
Đây không phải phép thuật, đó là hạ tầng. Hạ tầng có thể gặp lỗi.
Gateway sập. Hiếm khi xảy ra, nhưng có thể. Cách sửa: chạy lệnh “openclaw gateway restart”. Hệ thống heartbeat sẽ phát hiện các cron lỗi thời và bắt buộc chạy lại, bạn không mất cả ngày.
Tác vụ cron bỏ lỡ thời gian. Máy ngủ, mạng đứt quãng, giới hạn API. Cách sửa: HEARTBEAT.md tự phục hồi. Monica kiểm tra mỗi lần heartbeat xem tác vụ đã thực thi chưa, nếu quá 26 giờ không cập nhật, cô bắt buộc chạy lại.
Vượt quá giới hạn ngữ cảnh. Agent đọc quá nhiều file khi bắt đầu hội thoại, không còn chỗ cho công việc thực sự. Cách sửa: giữ SOUL.md ngắn (40-60 dòng), giữ tập trung trong AGENTS.md, chỉ tải các file memory hôm nay và hôm qua, không cần đọc toàn bộ lịch sử.
Chất lượng output của Agent giảm. Xảy ra khi ký ức trở nên lộn xộn hoặc mâu thuẫn. Cách sửa: duy trì bộ nhớ định kỳ. Trong chu kỳ heartbeat, Agent xem lại nhật ký hàng ngày, rút ra nội dung tinh gọn vào MEMORY.md, xóa hoặc lưu trữ các file nhật ký cũ.
Xung đột phối hợp. Hai Agent cố gắng cập nhật cùng một file. Cách sửa: thiết kế luồng file theo mô hình “một người ghi, nhiều người đọc”. Dwight ghi vào DAILY-INTEL.md, các Agent khác đọc, không ai ghi đè.
Bài học đáng tin cậy nhất: bắt đầu từ đơn giản. Một Agent, một nhiệm vụ, một lịch trình. Chạy ổn định trong một tuần rồi mới thêm Agent thứ hai. Những người cài đặt sáu Agent ngay ngày đầu rồi thắc mắc tại sao gặp lỗi, đều phạm sai lầm giống như triển khai hệ thống phân tán không có giám sát.
Chi phí thực tế
Phần cứng: Mac Mini M4 mới giá khởi điểm 499 USD, nhưng bất kỳ máy tính luôn bật nào cũng được, laptop cũ, VPS 5 USD/tháng đều phù hợp.
Chi phí mô hình AI: tôi dùng nhiều mô hình kết hợp trong toàn đội, phần lớn nhiệm vụ dùng Claude Opus và Sonnet, một số workflow dùng Gemini, thử chạy mô hình cục bộ qua Ollama để giảm chi phí.
Chi tiết như sau:
Claude (Max plan): 200 USD/tháng
API Gemini: 50-70 USD/tháng
TinyFish (Agent web): khoảng 50 USD/tháng
Eleven Labs (giọng nói): khoảng 50 USD/tháng
Telegram: miễn phí
OpenClaw: mã nguồn mở miễn phí
Tổng cộng: dưới 400 USD/tháng, đổi lấy một đội ngũ không nghỉ.
Thay đổi thực sự là gì
Dwight mỗi ngày tiết kiệm cho tôi 2-3 giờ nghiên cứu. Trước đây tôi phải tự kiểm tra X, Hacker News, bảng xếp hạng GitHub và blog AI mỗi sáng. Giờ thức dậy đã có một bản tóm tắt theo thứ tự ưu tiên, kèm nguồn và hành động.
Kelly, Pam và Rachel tiết kiệm thêm 1-2 giờ sáng tạo nội dung. Ross xử lý các công việc kỹ thuật mà trước đây tôi thường làm vào buổi tối.
Tổng cộng: mỗi ngày tiết kiệm khoảng 4-5 giờ.
Nhưng giá trị thực không nằm ở một ngày, mà nằm trong quá trình kéo dài hàng tuần, hàng tháng. Một Agent nghiên cứu hàng ngày, kiên trì 30 ngày, tích lũy thành một bộ tín hiệu, xu hướng, quy luật theo dõi được — điều mà mọi cuộc hội thoại đơn lẻ không thể đạt tới. Tôi đăng bài trên X nhiều hơn, chất lượng tốt hơn, thời gian đăng đều đặn hơn. Kho Awesome LLM Apps liên tục phát triển, newsletter có nguồn nghiên cứu ổn định.
Những Agent này không thể sáng tạo, chuyển đổi chiến lược hay đột phá sáng tạo. Chúng xử lý những công việc lặp đi lặp lại, có cấu trúc mà trước đây tôi phải mất hàng giờ để hoàn thành, giúp tôi có thời gian làm những việc cần đến trí óc con người thật sự.
Bắt đầu từ đâu
Đừng cố xây dựng sáu Agent ngay ngày đầu.
Tuần đầu: một Agent, một nhiệm vụ. Cài đặt OpenClaw, tương tác với Agent để viết SOUL.md, chọn một nhiệm vụ lặp lại hàng ngày (đối với đa số là nghiên cứu hoặc sáng tạo nội dung), thiết lập Telegram, tạo cron, theo dõi một tuần, sửa lỗi.
Tuần thứ hai: thêm cơ chế ghi nhớ, tiếp tục hoàn thiện. Output ban đầu của Agent sẽ tầm thường, điều này bình thường. Phản hồi, theo dõi sự phát triển của file ghi nhớ, điều chỉnh SOUL.md dựa trên thực tế. Đến cuối tuần thứ hai, Agent của bạn sẽ cho ra kết quả thực sự hữu ích.
Tuần thứ ba: thêm Agent thứ hai. Bạn đã cảm nhận được nhu cầu — Agent nghiên cứu cung cấp thông tin, còn bạn vẫn phải viết tweet thủ công dựa vào đó, đã đến lúc có một Agent nội dung. Thiết lập chế độ chia sẻ file: Agent thứ nhất viết, Agent thứ hai đọc, cơ chế phối hợp chính là hệ thống file.
Tuần thứ tư trở đi: xây dựng theo thứ tự. Khi cảm thấy cần thiết, thêm Agent mới, không phải khi nghĩ “phải” thêm. Mỗi Agent đều phải giải quyết vấn đề thực tế của bạn, không phải demo, không phải xác thực ý tưởng, mà là những thiếu sót thực tế trong quy trình làm việc của bạn.
Hãy coi đó như tuyển dụng. Ngày đầu, bạn không thuê sáu nhân viên. Bạn thuê một người, để họ vận hành hiệu quả, rồi khi cần, mới thuê thêm.
Thay đổi tư duy
Sau khi Agent của bạn vận hành ổn định một tháng, sẽ có những thay đổi. Bạn không còn xem AI như công cụ cần mở ra khi cần nữa, mà bắt đầu coi nó như một đội nhóm luôn hoạt động.
Tôi bắt đầu chào Monica mỗi sáng qua Telegram, và chào tạm biệt cả đội trước khi tắt điện thoại. Nghe có vẻ kỳ quặc, nhưng sau một tháng tương tác, phản hồi, thấy chúng tiến bộ, ranh giới giữa Agent và con người bắt đầu mờ đi.
Mô hình là nền tảng cấu hình, ai cũng có thể dùng Claude, GPT, Gemini. Hệ thống dựa trên SOUL.md, hệ thống ghi nhớ, chiến lược lập lịch, cách phối hợp, và các phản hồi chỉnh sửa trong file.
Hệ thống đó là của bạn, không ai có thể giống bạn, giống Agent của bạn, ký ức của bạn, cá tính đã mài giũa qua thời gian.
Và hệ thống đó mỗi ngày đều cộng dồn lợi nhuận.
Mỗi lần nghiên cứu của Dwight làm ký ức của anh phong phú hơn, phản hồi của Kelly khiến bản nháp sắc nét hơn, mỗi lỗi của Ross sửa đều giúp anh hiểu rõ hơn về mã của bạn.
Đây mới là thực sự là lợi thế cạnh tranh. Không phải mô hình, mà là hệ thống có khả năng học hỏi.
Hãy bắt đầu hôm nay. Một Agent, một nhiệm vụ, một lịch trình.