- Khả năng của AI đang phát triển theo cấp số nhân, khiến độ phức tạp của nhiệm vụ tác nhân tăng lên và chuyển
nút thắt cổ chaitừ trí thông minh sangcơ sở hạ tầnghỗ trợ. Claude Managed Agentsgiải quyết các thách thức của nhàphát triểnnhưquản lý ngữ cảnh, bảo mật và thiếuquan sátbằng cách cung cấp một nền tảngruntimemạnh mẽ, đáng tin cậy và có khả năngquan sát.- Nền tảng này giới thiệu các khả năng nâng cao như
điều phối đa tác nhân,nhiệm vụ định hướng kết quả,bộ nhớbền vữngvà "nền tảng mơ ước" đểtối ưu hóatác nhânliên tục vàphát triểnnhanh hơn.
How to get to production faster with Claude Managed Agents
- Cơ sở hạ tầng là nút thắt cổ chai mới: Khi khả năng
mô hình AItăng lên, việc triển khai cáctác nhâncho các nhiệm vụ phức tạp, dài hơi đòi hỏi mộtcơ sở hạ tầngđáng tin cậy và có khả năng mở rộng. - Giải quyết các thách thức của nhà
phát triển:Claude Managed Agentsđược thiết kế để giảm gánh nặng cho các nhàphát triểnbằng cách tự động hóaquản lý ngữ cảnh, xử lý các mối lo ngại vềbảo mậtvà cung cấp khả năngquan sátchính thức cho cáctác nhân. Môi trường chạy tác nhântoàn diện: Nền tảng này cung cấp mộtruntimehoàn chỉnh, bao gồm cấp phép và thực thicông cụ,quản lý ngữ cảnhtự động,kiểm tra điểm dừng,thử lạivà cáckhối xây dựngcơ bản đểtùy chỉnh tác nhân.Nhiệm vụ định hướng kết quả:Managed Agentscho phép bạn giao cácnhiệm vụ định hướng kết quảchotác nhân, nơitác nhânlặp lại cho đến khi thỏa mãn mộttiêu chí thoáthoặckết quảđược định nghĩa trước.- Cấu trúc
sự kiệnđểquan sát: Cácphiêntác nhânphát ra bốn loạisự kiện(người dùng,tác nhân,phiên,span) cung cấp cái nhìn sâu sắcthời gian thựcvà cho phépgỡ lỗivàphân tích hiệu suấtsau khi thực hiện. - Khả năng nâng cao cho
tác nhânphức tạp: Nền tảng hỗ trợđiều phối đa tác nhân(ủy quyền, phân rã nhiệm vụ),bộ nhớbền vững(tránh bắt đầu lại từ đầu) và "nền tảng mơ ước" (tự suy ngẫm và cải thiệntác nhângiữa các lần chạy). - Vòng lặp phản hồi hiệu quả:
Managed Agentstích hợp một "vòng lặp bên trong" (tác nhân hoạt động dựa trênkết quả) và một "vòng lặp bên ngoài" (người dùng cung cấp phản hồi,tác nhânmã sửa đổi hướng dẫn), dẫn đếntối ưu hóa tác nhântự động. - Bắt đầu nhanh chóng: Các nhà
phát triểncó thể sử dụngkỹ năngClaude.apiđượcxây dựngsẵn trongClaude Code,CLImạnh mẽ và cácsách công thứcđượctuyển chọnđể dễ dàng bắt đầuxây dựngvàtriển khaitác nhân.
- tăng trưởng theo cấp số nhân — exponential growth
- phát triển tác nhân — agent development
- tác nhân — agent
- cơ sở hạ tầng — infrastructure
- nút thắt cổ chai — bottleneck
- môi trường chạy tác nhân — agentic runtime
- nhiệm vụ định hướng kết quả — outcome-oriented tasks
- quan sát (khả năng) — observability
- điều phối đa tác nhân — multi-agent orchestration
- bộ nhớ bền vững — persistent memory
Giới thiệu và Chương trình nghị sự
Chào mừng quý vị đến với sân khấu, các thành viên đội ngũ kỹ thuật của Anthropic, Jess Yan và Lance Martin. Hy vọng mọi người đang có một thời gian tuyệt vời tại Code with Claude. Tôi là Jess Yan, chịu trách nhiệm sản phẩm cho Claude Managed Agents. Còn tôi là Lance Martin, thuộc đội ngũ DevX, và tôi làm bất cứ điều gì Jess yêu cầu. Đó là một tin mới đối với tôi! Nhưng hôm nay, chúng ta có một chương trình nghị sự tuyệt vời dành cho các bạn. Đầu tiên, chúng ta sẽ bắt đầu với sự tăng trưởng theo cấp số nhân của AI và cách nó đã thay đổi đáng kể quá trình phát triển tác nhân. Chúng ta sẽ nói về lý do tại sao chúng tôi xây dựng Claude Managed Agents, đi sâu vào các nguyên tắc cơ bản, một vài bản demo để tạo sự hấp dẫn, và sau đó chúng tôi sẽ hướng dẫn các bạn các tài nguyên để bắt đầu, để các bạn có thể tự xây dựng một số tác nhân của riêng mình.
AI Tăng trưởng theo cấp số nhân và sự thay đổi trong phát triển tác nhân
Tất cả chúng ta đều quen thuộc với cách khả năng mô hình của chúng ta đang gia tăng tăng trưởng theo cấp số nhân. Nhưng khi những khả năng này tăng lên, thì tầm nhìn nhiệm vụ và độ phức tạp của công việc mà chúng ta ủy thác cho các tác nhân cũng tăng theo. Chúng ta đang thấy rằng nút thắt cổ chai ngày càng là cơ sở hạ tầng chứ không phải là trí thông minh.
Một vài năm trước, bạn có thể đã để Opus viết và kiểm thử một thành phần duy nhất. Bạn có thể đang kiểm thử một bộ test không ổn định và gỡ lỗi nó. Việc này sẽ mất vài phút, có thể một giờ làm việc tập trung. Bạn sẽ phải hướng dẫn nó rất nhiều trong suốt quá trình và sửa lỗi khi nó đi chệch hướng. Gần đây hơn, với các mô hình mới nhất của chúng tôi, chúng ta đang thấy rằng mọi người đang chạy tác vụ qua đêm, bỏ đi, thức dậy vào sáng hôm sau và thấy rằng toàn bộ danh sách issue tồn đọng của họ đã được một tác nhân giải quyết. Trong tương lai không xa, chúng ta có thể thấy các tác nhân đảm nhận công việc mà trước đây các đội nhóm phải mất nhiều quý để thực hiện. Các đội tác nhân đa tác nhân phối hợp sẽ chạy toàn bộ quy trình mua bán và sáp nhập (M&A) từ đầu đến cuối. Và khi các nhiệm vụ phát triển từ các lời nhắc sang hàng giờ và hàng ngày làm việc, chúng ta không chỉ cần khung sườn lời nhắc mà còn cần một môi trường chạy tác nhân (agentic runtime) thực sự.
Độ tin cậy, bảo mật và các chế độ tương tác mới
Đúng vậy. Với Managed Agents, một trong những điều chính chúng tôi đã giải quyết là độ tin cậy và bảo mật. Với các tác vụ dài hơi, những vấn đề này trở nên lớn hơn nhiều. Bạn có một tác nhân hoạt động trong nhiều giờ, nhiều tuần hoặc nhiều ngày và nó cần phải đáng tin cậy. Nó cũng cần phải an toàn. Và các chế độ tương tác mới cũng trở nên khả thi khi bạn có các tác nhân hoạt động trong khoảng thời gian dài. Ví dụ, với các chatbot, đó là các tương tác khá tức thời hoặc ngắn hạn. Một tác nhân dài hạn đòi hỏi thứ mà chúng tôi gọi là nhiệm vụ định hướng kết quả (outcome-oriented tasks). Bạn giao cho một tác nhân một nhiệm vụ và một kết quả như một tiêu chí (rubric) chỉ ra ý nghĩa của việc hoàn thành. Chúng tôi cũng cần khả năng cho các tác nhân dừng và tiếp tục trong suốt quá trình thực thi dài, có thể để đặt câu hỏi nhằm làm rõ công việc của chúng. Thành thật mà nói, việc bắt đầu và tiếp tục là mô hình tương tác giống con người nhất, bởi vì không có gì giống con người hơn là sự trì hoãn.
Thách thức của nhà phát triển và Giải pháp Claude Managed Agents
Rõ ràng là chúng ta kỳ vọng rất nhiều vào các tác nhân của mình. Và điều đó có nghĩa là trong lịch sử, chúng tôi đã đẩy gánh nặng đó lên vai các bạn, những nhà phát triển. Chúng tôi cũng đã kỳ vọng rất nhiều vào các bạn. Trong nghiên cứu mà chúng tôi đã thực hiện trước khi ra mắt Managed Agents, chúng tôi nhận thấy rằng các nhà phát triển đang thực sự gặp khó khăn.
Cụ thể, một trong ba người gặp khó khăn với quản lý ngữ cảnh. Và ngữ cảnh đúng lúc có thể cực kỳ mạnh mẽ. Đó là kiến thức mà tác nhân cần để thực hiện công việc. Nhưng ngữ cảnh sai lúc có thể là một sự sao nhãng lớn. Một nửa số nhà phát triển của chúng tôi cho biết các mối lo ngại về suy luận (infer concerns) là trở ngại sản xuất số một của họ. Đây là một số lo ngại mà Lance đã nói đến, về quản lý thông tin xác thực, bảo mật và quyền truy cập, cũng như việc giữ con người trong vòng lặp (human in the loop).
Và cuối cùng, đa số người dùng của chúng tôi đang nói rằng các tác nhân của họ đang chạy mà không có khả năng quan sát (observability) chính thức nào. Các tác nhân này đang chạy dựa trên các mô hình dự đoán, các đầu ra ngẫu nhiên. Và điều này rất khác so với phát triển phần mềm truyền thống trong quá khứ. Làm thế nào bạn biết tác nhân của mình đang làm điều gì đó tốt nếu nó tạo ra các đầu ra ngẫu nhiên hoặc có tính xác suất?
Đó là lý do tại sao chúng tôi giới thiệu Claude Managed Agents. Chúng tôi đã xây dựng nền tảng này để bạn không phải làm điều đó. Chúng tôi đã kết hợp cơ sở hạ tầng và công cụ hỗ trợ (harness) – như cấp phép công cụ, thực thi công cụ, quản lý ngữ cảnh tự động, kiểm tra điểm dừng (checkpointing), thử lại (retries) – với các khối xây dựng cơ bản mà Lance sẽ đi sâu vào chi tiết hơn một chút sau. Điều này giúp dễ dàng hiểu cách tạo ra một tác nhân có thể tùy chỉnh một cách nhanh chóng. Và cuối cùng, chúng tôi đã kết hợp nó với một nền tảng quan sát phong phú. Chúng tôi không muốn các tác nhân này chạy dựa trên cảm tính. Bạn phải có khả năng hiểu chính xác tác nhân của mình đang làm gì và làm thế nào bạn có thể cải thiện nó.
Mô hình Managed Agents và Cấu trúc Sự kiện
Đúng vậy. Và việc sử dụng Managed Agents thực sự rất đơn giản. Mô hình tư duy cơ bản như sau: Bạn định nghĩa một tác nhân. Bạn có thể coi tác nhân như một cấu hình. Nó có một mô hình cụ thể. Nó có một lời nhắc. Nó có các công cụ. Nó có các kỹ năng. Bạn thiết lập điều đó. Và sau đó bạn cho phép tác nhân đó sử dụng một môi trường mà bạn có thể cấu hình. Bạn cấu hình các gói mạng. Và đây là nơi tác nhân có thể, ví dụ, viết mã. Và bất kỳ lần thực thi nào của tác nhân cũng là một phiên (session).
Các phiên có thể có tài nguyên. Ví dụ, repo Git. Chúng có thể có thứ gì đó như một kết quả, mà chúng ta sẽ nói thêm một chút sau. Và các phiên này phát ra các sự kiện mà Jess sẽ trình bày ngắn gọn ở đây, mà sau đó bạn có thể xử lý và sử dụng để hiểu tác nhân đang làm gì.
Vì vậy, hãy xem xét cấu trúc sự kiện. Khi các tác nhân thực hiện ngày càng nhiều nhiệm vụ phức tạp hơn, các loại sự kiện được tạo ra cũng ngày càng phức tạp hơn. Và vì vậy, chúng tôi đã phân loại chúng thành bốn loại chính:
Sự kiện người dùng(User events): Bạn điều khiểntác nhân, hướng dẫn nó, ngắt quãng nó, định nghĩatiêu chí thoát(exit criteria).Sự kiện tác nhân(Agent events): Nhữngsự kiệnnày truyền tải những gìtác nhânđang làm, nhữngcông cụnó đang chạy, cách nónén/thu gọnngữ cảnhcủa nó theo thời gian, nó đang ủy quyền cho ai.Sự kiện phiên(Session events): Giúp bạn theo dõi vòng đời công việc của mình. Vậytác nhâncó đang chạy không? Nó córảnh rỗikhông? Nó có đang chờ đợi đầu vào của bạn không?Sự kiện Span(Span events): Đây làcông cụ đo lường(instrumentation) rộng hơn cho phép bạn nhóm cácsự kiệnliên quan lại với nhau.
Demo: Tác nhân Pascal cho phân tích cửa hàng tạp hóa
Bây giờ chúng ta sẽ chuyển sang một ví dụ về tác nhân mà chúng tôi đã xây dựng. Chúng tôi gọi nó là Pascal. Nó chạy trên một tập dữ liệu giả định của một cửa hàng tạp hóa, một cửa hàng tạp hóa tên là Justin Time. Và nó tạo ra các phân tích và thông tin chi tiết phong phú trong vài phút. Tận dụng container được tải sẵn với một bộ gói Python. Bạn có thể xem mọi sự kiện trong console, và bạn thậm chí có thể chẩn đoán luồng sự kiện sau khi thực hiện.
Hãy cùng xem một bản demo. Chúng ta đang bắt đầu thực thi tác nhân ngay bây giờ. Bạn có thể thấy rằng các sự kiện đang được cập nhật thời gian thực trong console. Và console hỗ trợ một giao diện thống nhất (single pane of glass) cho phép bạn phân tích cấu hình của tác nhân, cũng như môi trường của nó, khi bạn xem sự kiện được tạo ra.
Pascal đã bắt đầu hoạt động. Nó bắt đầu tạo ra một số đầu ra. Đầu tiên, nó bắt đầu với việc phân tích các sản phẩm. Chúng ta đang biết rằng chuối thực sự, thực sự phổ biến. Đầu ra thứ hai mà nó sẽ tạo ra là phân tích về những người mua sắm. Và chúng ta đang biết rằng sáng Chủ Nhật là thời gian mua sắm cao điểm. Và cuối cùng, đầu ra yêu thích của tôi là một mô hình dự đoán nhỏ, nơi nó đang phân tích xác suất đặt hàng lại cho một khách hàng cụ thể dựa trên hồ sơ nhân khẩu học của họ.
Giờ đây, tác nhân đã hoàn thành nhiệm vụ, toàn bộ luồng sự kiện có sẵn trong console, và chúng ta có thể phân tích hiệu suất của nó. Chúng tôi cung cấp khả năng gỡ lỗi tác nhân trong console để bạn có thể xem luồng sự kiện, phân tích các nút thắt cổ chai, tìm ra cách cải thiện tác nhân trong tương lai và thực hiện các hành động được đề xuất. Có vẻ như nó đã xác định được một vài nút thắt cổ chai, mà sau đó chúng ta có thể khắc phục trực tiếp trong Claude Code.
Đúng vậy. Vậy điều bạn đã thấy là console hiển thị hai điều thực sự thú vị. Nó hiển thị cho bạn dấu vết (trace) cho mọi thứ đã xảy ra trong phiên. Và nó cho phép bạn phân tích những gì đã xảy ra bằng cách sử dụng Claude để xem nhật ký phiên (session log) và cung cấp cho bạn các phân tích, thông tin chi tiết, v.v.
Bắt đầu và Khả năng Nâng cao của Managed Agents
Vậy làm thế nào để bạn bắt đầu một cách thực tế? Đầu tiên, tôi muốn giới thiệu một thứ mà chúng tôi đã làm việc khá nhiều. Đó là một kỹ năng được xây dựng sẵn trong Claude Code và được phát hành toàn cầu. Trong Claude Code ngày nay, nếu bạn sử dụng dấu gạch chéo ngược \ và sau đó là Claude.api, bạn sẽ truy cập vào kỹ năng của chúng tôi, kỹ năng này hiểu rất rõ việc quản lý tác nhân. Và tôi sử dụng nó mọi lúc. Thực tế, tôi không tự viết nhiều mã quản lý. Tôi để Claude Code làm điều đó. Đó là một mẹo rất hay. Và tôi sẽ cho bạn thấy một số mẹo rất hay sau này về cách nó cũng có thể được sử dụng để lấy nhật ký phiên và nhiều thứ khác nữa. Nó sử dụng CLI để lấy những nhật ký đó. CLI rất mạnh mẽ. Nó cho phép bạn cấu hình tác nhân dưới dạng các tệp YAML chẳng hạn, mà bạn có thể kiểm tra (check in). Nó cho phép bạn lấy phiên một cách lập trình, điều này rất hữu ích cho các tác nhân mã. Và chúng tôi cũng có các sách công thức (cookbooks) - những mã được tuyển chọn tinh xảo.
Đúng vậy. Đây là những gì chúng tôi đã xây dựng kể từ khi ra mắt. Tôi cũng muốn đề cập đến một số khả năng nâng cao hơn mà chúng tôi đã phát hành trong vài tuần qua. Mỗi khả năng đều mở rộng trải nghiệm tác nhân mà bạn có thể cung cấp.
Điều phối đa tác nhân(Multi-agent orchestration):Claudecó thể nhân bản chính nó.Claudecó thể ủy quyền cho cáctác nhânbổ sung đã được cấu hình sẵn. Và điều này cho phép các nhiệm vụ phức tạp được phân rã thành các đơn vị nhỏ hơn, được thực hiện với độ chính xác cao hơn.Kết quả(Outcomes): Chúng tôi đã nói về điều này một chút ở phần trước của bài thuyết trình, nơiClaudelặp lại cho đến khi thỏa mãntiêu chí thoátđược định nghĩa trước. Bạn định nghĩa mục tiêu,Claudetiếp tục cho đến khikết thúc.Bộ nhớ(Memory): Vài tuần trước, chúng tôi đã ra mắtBộ nhớở bảnPublic Beta. Và với các giải phápBộ nhớ,Claudekhông cần phải bắt đầu mỗiphiênmới từ đầu. Thay vào đó, nó đọc và ghi vào cáckho lưu trữ bộ nhớbền vững(persistent memory stores).Nền tảng mơ ước(Dreaming platform): Và cuối cùng, hôm nay, đồng nghiệp Mahesh của tôi đã công bốnền tảng mơ ướccủa chúng tôi. Tại đây,Claudeđang suy ngẫm và mã hóa những kiến thức mới thành nhữngbộ nhớmới. Cáctác nhânthực sự có thể cải thiện giữa mỗi lần chạy.
Demo: Kết quả và Điều phối đa tác nhân
Vì vậy, chúng tôi sẽ trình diễn một bản demo khác cho thấy cách Claude Managed Agents sử dụng kết quả và đa tác nhân để tạo ra những đầu ra tuyệt vời. Trước đây, trong console, chúng ta đã phân tích một phiên duy nhất. Lance sẽ hướng dẫn cách chúng ta có thể thực hiện điều này một cách lập trình trên quy mô lớn thông qua nhiều phiên.
Đúng vậy, đây thực sự là một trong những bản demo thú vị nhất mà tôi đã xây dựng cho hội nghị này. Và nó xuất phát từ vài tuần trước, Angela, trưởng phòng sản phẩm của chúng tôi, đã hỏi tôi một câu hỏi: "Một CEO có tư duy AGI sẽ có gì trong tay của mình?" Vì vậy, đây là một giao diện nơi bạn chỉ cần nhập một câu hỏi. Nó sẽ truy vấn dữ liệu tổ chức giả mạo và hiển thị các trực quan hóa dựa trên đầu vào cho bất cứ điều gì mà CEO giả mạo này muốn biết. Nếu bạn sử dụng, ví dụ, ứng dụng Claude, bạn sẽ hiểu các artifacts. Về cơ bản, đó chỉ là Claude tạo ra SVG và hiển thị nó trong trường hợp này trong một trình duyệt dưới dạng một trực quan hóa.
Chúng ta sẽ trình chiếu điều này ngay bây giờ. Tất cả những gì tôi đang làm là, tôi đã thiết lập một tác nhân được quản lý. Bạn có thể thấy phiên, nó có một sandbox, điều phối để xử lý những thứ như thử lại. Tôi đang cung cấp cho nó một công cụ tùy chỉnh, khả năng hiển thị mã lên trình duyệt. Và điều nó sẽ làm là, dựa trên đầu vào của người dùng, nó sẽ hiển thị trực quan hóa. Chúng ta sẽ thấy điều đó sau một chút, điều này sẽ hiển thị các biểu đồ hoặc bảng khác nhau, ví dụ, dựa trên những gì CEO giả mạo này muốn biết.
Bây giờ, đây là nơi tôi sử dụng kết quả. Và tôi muốn đảm bảo điều này thực sự rõ ràng vì tôi nghĩ điều này thực sự thú vị. Vì vậy, kết quả cho phép bạn chỉ định một tiêu chí. Bạn đang truyền các hướng dẫn, điều đó có nghĩa là tác nhân chạy. Và khi tác nhân kết thúc, một tác nhân phụ riêng biệt sẽ khởi động, xem xét các artifacts được tạo ra, trong trường hợp này là trang của tôi. Và, ví dụ, trong trường hợp này, tôi đã chỉ định, tạo thời gian và chụp màn hình. Thực hiện phân tích, gửi phân tích trở lại tác nhân chính. Vì vậy, điều thực sự thú vị ở đây là, tôi đã sử dụng kết quả để làm cho việc này nhanh hơn nhiều. Như bạn sẽ thấy ngay sau đây, CEO sẽ hỏi một câu hỏi, nó sẽ hiển thị các trực quan hóa, và tôi muốn nó nhanh. Và tôi đã sử dụng kết quả để làm điều đó. Bây giờ, một điều hay là khi tôi bắt đầu một lần chạy với kết quả, trình quản lý sẽ lặp lại chống lại kết quả đó theo thời gian.
Vòng Lặp Phản Hồi Và Phát Triển Tác Nhân
Và khi nó hoàn tất, trong trường hợp cụ thể của tôi, tôi sẽ xem xét kết quả, nhìn vào dashboard, và tôi có thể có phản hồi. Tôi sẽ nói, "Tôi không thích điều này." Điều tôi sẽ làm là, tôi sẽ nói cho Claude Code phản hồi của mình. Và nó có thể sử dụng mục bán hàng của chúng tôi, kéo nhật ký phiên làm việc (session log), suy ngẫm về phiên làm việc đó, xem xét rubric (tiêu chí đánh giá), xem xét hướng dẫn của tác nhân, cập nhật chúng, và khởi động một phiên làm việc mới. Đây là điều tôi gọi là outer loop (vòng lặp bên ngoài). Hai điều này hoạt động cùng nhau rất hiệu quả.
Bạn có một inner loop (vòng lặp bên trong) sử dụng các kết quả với các tác nhân được quản lý, cung cấp cho nó một rubric, hoạt động dựa trên rubric đó, tạo ra một đầu ra. Và sau đó outer loop này là việc xem xét đầu ra đó với tư cách người dùng và nói, "Được rồi, tôi không thích điều này." Và, cho phép, ví dụ, tác nhân mã, như Claude Code, sửa đổi rubric hoặc sửa đổi hướng dẫn và khởi động một phiên làm việc mới. Vì vậy, hai điều này hoạt động rất hiệu quả cùng nhau.
Tối Ưu Hóa Tự Động của Tác Nhân
Và đây thực sự là kết quả của tôi, và bạn sẽ sớm thấy bản demo. Tôi bắt đầu với một baseline (đường cơ sở) khá kém hiệu quả. Và tất cả những điều này đều được tác nhân được quản lý tự động phát hiện, chỉ bằng cách sử dụng rubric để tối ưu hóa thời gian. Nó tìm ra cách tối ưu hóa hoặc về cơ bản là song song hóa các gọi công cụ. Nó tìm ra cách sử dụng chế độ nhanh (fast mode), thực hiện tối ưu hóa lời nhắc, và đối với các đầu vào tạo ra nhiều biểu đồ, nó sử dụng đa-tác nhân (multi-agent), giúp tiết kiệm bảy giây, giảm thời gian rendering (kết xuất) từ khoảng 37 giây xuống còn 10 giây. Và tất cả đều được tác nhân được quản lý tự động tìm ra bằng cách sử dụng các kết quả.
Demo & Trực Quan Hóa Đa-Tác Nhân
Vậy bây giờ chúng ta có thể xem kết quả. Đây là boss tác nhân đang hoạt động. Chúng tôi có thể phân tích các top line metrics (số liệu quan trọng nhất). Vâng. Và tôi rất vui vì nhạc nền của tôi được đưa vào đây. Claude có tạo ra bản nhạc đó không? Vâng. Tuyệt vời. Vâng, cái này thực sự hay. Cái này thực sự đang sử dụng đa-tác nhân để tạo ra ba hình ảnh trực quan đồng thời trên dashboard của CEO giả định, những người bị "nghiện" AGI của tôi. Tuyệt vời.
Hợp Tác Cộng Đồng Và Tương Lai
Vì vậy, tôi muốn kết thúc một số bản demo này bằng cách nói rằng quá trình xây dựng các tác nhân được quản lý bởi Claude trở nên ý nghĩa hơn rất nhiều vì chúng tôi đã làm việc với những người dùng như bạn. Trong suốt quá trình build (phát triển) toàn bộ nền tảng này, chúng tôi đã hợp tác với những đối tác có tính tác nhân và đổi mới vượt trội, những người đang cố gắng sử dụng Claude để mở rộng khả năng của nền tảng của họ. Vì vậy, Asana và Noosh được nêu bật ở đây, nhưng chúng tôi đã nhận được phản hồi từ tất cả các bạn trong suốt quá trình phát hành công khai của chúng tôi.
Và thật đáng mừng khi thấy những gì các bạn đang xây dựng trên nền tảng của chúng tôi. Chúng tôi thực sự hào hứng muốn giúp các bạn ship (triển khai) nhanh hơn và nhanh hơn nữa. Chúng tôi rất vui mừng khi tiếp tục thúc đẩy nền tảng này tiến lên. Và xin hãy luôn liên hệ với chúng tôi nếu bạn có phản hồi. Các mã QR này là nơi bạn có thể bắt đầu. Một mã dẫn đến developer docs (tài liệu dành cho nhà phát triển) của chúng tôi. Một mã dẫn đến một quick start (hướng dẫn bắt đầu nhanh) phong phú, tương tác, nơi bạn có thể tìm hiểu các primitive (khối cơ bản) của chúng tôi và xây dựng một tác nhân chỉ trong vài phút. Và vâng, một lần nữa cảm ơn cộng đồng nhà phát triển tuyệt vời của chúng tôi. Vâng, cảm ơn. Được rồi.
TL;DR
- Khả năng của AI đang phát triển theo cấp số nhân, khiến độ phức tạp của nhiệm vụ tác nhân tăng lên và chuyển
nút thắt cổ chaitừ trí thông minh sangcơ sở hạ tầnghỗ trợ. Claude Managed Agentsgiải quyết các thách thức của nhàphát triểnnhưquản lý ngữ cảnh, bảo mật và thiếuquan sátbằng cách cung cấp một nền tảngruntimemạnh mẽ, đáng tin cậy và có khả năngquan sát.- Nền tảng này giới thiệu các khả năng nâng cao như
điều phối đa tác nhân,nhiệm vụ định hướng kết quả,bộ nhớbền vữngvà "nền tảng mơ ước" đểtối ưu hóatác nhânliên tục vàphát triểnnhanh hơn.
Điểm chính
- Cơ sở hạ tầng là nút thắt cổ chai mới: Khi khả năng
mô hình AItăng lên, việc triển khai cáctác nhâncho các nhiệm vụ phức tạp, dài hơi đòi hỏi mộtcơ sở hạ tầngđáng tin cậy và có khả năng mở rộng. - Giải quyết các thách thức của nhà
phát triển:Claude Managed Agentsđược thiết kế để giảm gánh nặng cho các nhàphát triểnbằng cách tự động hóaquản lý ngữ cảnh, xử lý các mối lo ngại vềbảo mậtvà cung cấp khả năngquan sátchính thức cho cáctác nhân. Môi trường chạy tác nhântoàn diện: Nền tảng này cung cấp mộtruntimehoàn chỉnh, bao gồm cấp phép và thực thicông cụ,quản lý ngữ cảnhtự động,kiểm tra điểm dừng,thử lạivà cáckhối xây dựngcơ bản đểtùy chỉnh tác nhân.Nhiệm vụ định hướng kết quả:Managed Agentscho phép bạn giao cácnhiệm vụ định hướng kết quảchotác nhân, nơitác nhânlặp lại cho đến khi thỏa mãn mộttiêu chí thoáthoặckết quảđược định nghĩa trước.- Cấu trúc
sự kiệnđểquan sát: Cácphiêntác nhânphát ra bốn loạisự kiện(người dùng,tác nhân,phiên,span) cung cấp cái nhìn sâu sắcthời gian thựcvà cho phépgỡ lỗivàphân tích hiệu suấtsau khi thực hiện. - Khả năng nâng cao cho
tác nhânphức tạp: Nền tảng hỗ trợđiều phối đa tác nhân(ủy quyền, phân rã nhiệm vụ),bộ nhớbền vững(tránh bắt đầu lại từ đầu) và "nền tảng mơ ước" (tự suy ngẫm và cải thiệntác nhângiữa các lần chạy). - Vòng lặp phản hồi hiệu quả:
Managed Agentstích hợp một "vòng lặp bên trong" (tác nhân hoạt động dựa trênkết quả) và một "vòng lặp bên ngoài" (người dùng cung cấp phản hồi,tác nhânmã sửa đổi hướng dẫn), dẫn đếntối ưu hóa tác nhântự động. - Bắt đầu nhanh chóng: Các nhà
phát triểncó thể sử dụngkỹ năngClaude.apiđượcxây dựngsẵn trongClaude Code,CLImạnh mẽ và cácsách công thứcđượctuyển chọnđể dễ dàng bắt đầuxây dựngvàtriển khaitác nhân.
Từ vựng
- tăng trưởng theo cấp số nhân — exponential growth
- phát triển tác nhân — agent development
- tác nhân — agent
- cơ sở hạ tầng — infrastructure
- nút thắt cổ chai — bottleneck
- môi trường chạy tác nhân — agentic runtime
- nhiệm vụ định hướng kết quả — outcome-oriented tasks
- quan sát (khả năng) — observability
- điều phối đa tác nhân — multi-agent orchestration
- bộ nhớ bền vững — persistent memory
Nội dung chi tiết
Giới thiệu và Chương trình nghị sự
Chào mừng quý vị đến với sân khấu, các thành viên đội ngũ kỹ thuật của Anthropic, Jess Yan và Lance Martin. Hy vọng mọi người đang có một thời gian tuyệt vời tại Code with Claude. Tôi là Jess Yan, chịu trách nhiệm sản phẩm cho Claude Managed Agents. Còn tôi là Lance Martin, thuộc đội ngũ DevX, và tôi làm bất cứ điều gì Jess yêu cầu. Đó là một tin mới đối với tôi! Nhưng hôm nay, chúng ta có một chương trình nghị sự tuyệt vời dành cho các bạn. Đầu tiên, chúng ta sẽ bắt đầu với sự tăng trưởng theo cấp số nhân của AI và cách nó đã thay đổi đáng kể quá trình phát triển tác nhân. Chúng ta sẽ nói về lý do tại sao chúng tôi xây dựng Claude Managed Agents, đi sâu vào các nguyên tắc cơ bản, một vài bản demo để tạo sự hấp dẫn, và sau đó chúng tôi sẽ hướng dẫn các bạn các tài nguyên để bắt đầu, để các bạn có thể tự xây dựng một số tác nhân của riêng mình.
AI Tăng trưởng theo cấp số nhân và sự thay đổi trong phát triển tác nhân
Tất cả chúng ta đều quen thuộc với cách khả năng mô hình của chúng ta đang gia tăng tăng trưởng theo cấp số nhân. Nhưng khi những khả năng này tăng lên, thì tầm nhìn nhiệm vụ và độ phức tạp của công việc mà chúng ta ủy thác cho các tác nhân cũng tăng theo. Chúng ta đang thấy rằng nút thắt cổ chai ngày càng là cơ sở hạ tầng chứ không phải là trí thông minh.
Một vài năm trước, bạn có thể đã để Opus viết và kiểm thử một thành phần duy nhất. Bạn có thể đang kiểm thử một bộ test không ổn định và gỡ lỗi nó. Việc này sẽ mất vài phút, có thể một giờ làm việc tập trung. Bạn sẽ phải hướng dẫn nó rất nhiều trong suốt quá trình và sửa lỗi khi nó đi chệch hướng. Gần đây hơn, với các mô hình mới nhất của chúng tôi, chúng ta đang thấy rằng mọi người đang chạy tác vụ qua đêm, bỏ đi, thức dậy vào sáng hôm sau và thấy rằng toàn bộ danh sách issue tồn đọng của họ đã được một tác nhân giải quyết. Trong tương lai không xa, chúng ta có thể thấy các tác nhân đảm nhận công việc mà trước đây các đội nhóm phải mất nhiều quý để thực hiện. Các đội tác nhân đa tác nhân phối hợp sẽ chạy toàn bộ quy trình mua bán và sáp nhập (M&A) từ đầu đến cuối. Và khi các nhiệm vụ phát triển từ các lời nhắc sang hàng giờ và hàng ngày làm việc, chúng ta không chỉ cần khung sườn lời nhắc mà còn cần một môi trường chạy tác nhân (agentic runtime) thực sự.
Độ tin cậy, bảo mật và các chế độ tương tác mới
Đúng vậy. Với Managed Agents, một trong những điều chính chúng tôi đã giải quyết là độ tin cậy và bảo mật. Với các tác vụ dài hơi, những vấn đề này trở nên lớn hơn nhiều. Bạn có một tác nhân hoạt động trong nhiều giờ, nhiều tuần hoặc nhiều ngày và nó cần phải đáng tin cậy. Nó cũng cần phải an toàn. Và các chế độ tương tác mới cũng trở nên khả thi khi bạn có các tác nhân hoạt động trong khoảng thời gian dài. Ví dụ, với các chatbot, đó là các tương tác khá tức thời hoặc ngắn hạn. Một tác nhân dài hạn đòi hỏi thứ mà chúng tôi gọi là nhiệm vụ định hướng kết quả (outcome-oriented tasks). Bạn giao cho một tác nhân một nhiệm vụ và một kết quả như một tiêu chí (rubric) chỉ ra ý nghĩa của việc hoàn thành. Chúng tôi cũng cần khả năng cho các tác nhân dừng và tiếp tục trong suốt quá trình thực thi dài, có thể để đặt câu hỏi nhằm làm rõ công việc của chúng. Thành thật mà nói, việc bắt đầu và tiếp tục là mô hình tương tác giống con người nhất, bởi vì không có gì giống con người hơn là sự trì hoãn.
Thách thức của nhà phát triển và Giải pháp Claude Managed Agents
Rõ ràng là chúng ta kỳ vọng rất nhiều vào các tác nhân của mình. Và điều đó có nghĩa là trong lịch sử, chúng tôi đã đẩy gánh nặng đó lên vai các bạn, những nhà phát triển. Chúng tôi cũng đã kỳ vọng rất nhiều vào các bạn. Trong nghiên cứu mà chúng tôi đã thực hiện trước khi ra mắt Managed Agents, chúng tôi nhận thấy rằng các nhà phát triển đang thực sự gặp khó khăn.
Cụ thể, một trong ba người gặp khó khăn với quản lý ngữ cảnh. Và ngữ cảnh đúng lúc có thể cực kỳ mạnh mẽ. Đó là kiến thức mà tác nhân cần để thực hiện công việc. Nhưng ngữ cảnh sai lúc có thể là một sự sao nhãng lớn. Một nửa số nhà phát triển của chúng tôi cho biết các mối lo ngại về suy luận (infer concerns) là trở ngại sản xuất số một của họ. Đây là một số lo ngại mà Lance đã nói đến, về quản lý thông tin xác thực, bảo mật và quyền truy cập, cũng như việc giữ con người trong vòng lặp (human in the loop).
Và cuối cùng, đa số người dùng của chúng tôi đang nói rằng các tác nhân của họ đang chạy mà không có khả năng quan sát (observability) chính thức nào. Các tác nhân này đang chạy dựa trên các mô hình dự đoán, các đầu ra ngẫu nhiên. Và điều này rất khác so với phát triển phần mềm truyền thống trong quá khứ. Làm thế nào bạn biết tác nhân của mình đang làm điều gì đó tốt nếu nó tạo ra các đầu ra ngẫu nhiên hoặc có tính xác suất?
Đó là lý do tại sao chúng tôi giới thiệu Claude Managed Agents. Chúng tôi đã xây dựng nền tảng này để bạn không phải làm điều đó. Chúng tôi đã kết hợp cơ sở hạ tầng và công cụ hỗ trợ (harness) – như cấp phép công cụ, thực thi công cụ, quản lý ngữ cảnh tự động, kiểm tra điểm dừng (checkpointing), thử lại (retries) – với các khối xây dựng cơ bản mà Lance sẽ đi sâu vào chi tiết hơn một chút sau. Điều này giúp dễ dàng hiểu cách tạo ra một tác nhân có thể tùy chỉnh một cách nhanh chóng. Và cuối cùng, chúng tôi đã kết hợp nó với một nền tảng quan sát phong phú. Chúng tôi không muốn các tác nhân này chạy dựa trên cảm tính. Bạn phải có khả năng hiểu chính xác tác nhân của mình đang làm gì và làm thế nào bạn có thể cải thiện nó.
Mô hình Managed Agents và Cấu trúc Sự kiện
Đúng vậy. Và việc sử dụng Managed Agents thực sự rất đơn giản. Mô hình tư duy cơ bản như sau: Bạn định nghĩa một tác nhân. Bạn có thể coi tác nhân như một cấu hình. Nó có một mô hình cụ thể. Nó có một lời nhắc. Nó có các công cụ. Nó có các kỹ năng. Bạn thiết lập điều đó. Và sau đó bạn cho phép tác nhân đó sử dụng một môi trường mà bạn có thể cấu hình. Bạn cấu hình các gói mạng. Và đây là nơi tác nhân có thể, ví dụ, viết mã. Và bất kỳ lần thực thi nào của tác nhân cũng là một phiên (session).
Các phiên có thể có tài nguyên. Ví dụ, repo Git. Chúng có thể có thứ gì đó như một kết quả, mà chúng ta sẽ nói thêm một chút sau. Và các phiên này phát ra các sự kiện mà Jess sẽ trình bày ngắn gọn ở đây, mà sau đó bạn có thể xử lý và sử dụng để hiểu tác nhân đang làm gì.
Vì vậy, hãy xem xét cấu trúc sự kiện. Khi các tác nhân thực hiện ngày càng nhiều nhiệm vụ phức tạp hơn, các loại sự kiện được tạo ra cũng ngày càng phức tạp hơn. Và vì vậy, chúng tôi đã phân loại chúng thành bốn loại chính:
Sự kiện người dùng(User events): Bạn điều khiểntác nhân, hướng dẫn nó, ngắt quãng nó, định nghĩatiêu chí thoát(exit criteria).Sự kiện tác nhân(Agent events): Nhữngsự kiệnnày truyền tải những gìtác nhânđang làm, nhữngcông cụnó đang chạy, cách nónén/thu gọnngữ cảnhcủa nó theo thời gian, nó đang ủy quyền cho ai.Sự kiện phiên(Session events): Giúp bạn theo dõi vòng đời công việc của mình. Vậytác nhâncó đang chạy không? Nó córảnh rỗikhông? Nó có đang chờ đợi đầu vào của bạn không?Sự kiện Span(Span events): Đây làcông cụ đo lường(instrumentation) rộng hơn cho phép bạn nhóm cácsự kiệnliên quan lại với nhau.
Demo: Tác nhân Pascal cho phân tích cửa hàng tạp hóa
Bây giờ chúng ta sẽ chuyển sang một ví dụ về tác nhân mà chúng tôi đã xây dựng. Chúng tôi gọi nó là Pascal. Nó chạy trên một tập dữ liệu giả định của một cửa hàng tạp hóa, một cửa hàng tạp hóa tên là Justin Time. Và nó tạo ra các phân tích và thông tin chi tiết phong phú trong vài phút. Tận dụng container được tải sẵn với một bộ gói Python. Bạn có thể xem mọi sự kiện trong console, và bạn thậm chí có thể chẩn đoán luồng sự kiện sau khi thực hiện.
Hãy cùng xem một bản demo. Chúng ta đang bắt đầu thực thi tác nhân ngay bây giờ. Bạn có thể thấy rằng các sự kiện đang được cập nhật thời gian thực trong console. Và console hỗ trợ một giao diện thống nhất (single pane of glass) cho phép bạn phân tích cấu hình của tác nhân, cũng như môi trường của nó, khi bạn xem sự kiện được tạo ra.
Pascal đã bắt đầu hoạt động. Nó bắt đầu tạo ra một số đầu ra. Đầu tiên, nó bắt đầu với việc phân tích các sản phẩm. Chúng ta đang biết rằng chuối thực sự, thực sự phổ biến. Đầu ra thứ hai mà nó sẽ tạo ra là phân tích về những người mua sắm. Và chúng ta đang biết rằng sáng Chủ Nhật là thời gian mua sắm cao điểm. Và cuối cùng, đầu ra yêu thích của tôi là một mô hình dự đoán nhỏ, nơi nó đang phân tích xác suất đặt hàng lại cho một khách hàng cụ thể dựa trên hồ sơ nhân khẩu học của họ.
Giờ đây, tác nhân đã hoàn thành nhiệm vụ, toàn bộ luồng sự kiện có sẵn trong console, và chúng ta có thể phân tích hiệu suất của nó. Chúng tôi cung cấp khả năng gỡ lỗi tác nhân trong console để bạn có thể xem luồng sự kiện, phân tích các nút thắt cổ chai, tìm ra cách cải thiện tác nhân trong tương lai và thực hiện các hành động được đề xuất. Có vẻ như nó đã xác định được một vài nút thắt cổ chai, mà sau đó chúng ta có thể khắc phục trực tiếp trong Claude Code.
Đúng vậy. Vậy điều bạn đã thấy là console hiển thị hai điều thực sự thú vị. Nó hiển thị cho bạn dấu vết (trace) cho mọi thứ đã xảy ra trong phiên. Và nó cho phép bạn phân tích những gì đã xảy ra bằng cách sử dụng Claude để xem nhật ký phiên (session log) và cung cấp cho bạn các phân tích, thông tin chi tiết, v.v.
Bắt đầu và Khả năng Nâng cao của Managed Agents
Vậy làm thế nào để bạn bắt đầu một cách thực tế? Đầu tiên, tôi muốn giới thiệu một thứ mà chúng tôi đã làm việc khá nhiều. Đó là một kỹ năng được xây dựng sẵn trong Claude Code và được phát hành toàn cầu. Trong Claude Code ngày nay, nếu bạn sử dụng dấu gạch chéo ngược \ và sau đó là Claude.api, bạn sẽ truy cập vào kỹ năng của chúng tôi, kỹ năng này hiểu rất rõ việc quản lý tác nhân. Và tôi sử dụng nó mọi lúc. Thực tế, tôi không tự viết nhiều mã quản lý. Tôi để Claude Code làm điều đó. Đó là một mẹo rất hay. Và tôi sẽ cho bạn thấy một số mẹo rất hay sau này về cách nó cũng có thể được sử dụng để lấy nhật ký phiên và nhiều thứ khác nữa. Nó sử dụng CLI để lấy những nhật ký đó. CLI rất mạnh mẽ. Nó cho phép bạn cấu hình tác nhân dưới dạng các tệp YAML chẳng hạn, mà bạn có thể kiểm tra (check in). Nó cho phép bạn lấy phiên một cách lập trình, điều này rất hữu ích cho các tác nhân mã. Và chúng tôi cũng có các sách công thức (cookbooks) - những mã được tuyển chọn tinh xảo.
Đúng vậy. Đây là những gì chúng tôi đã xây dựng kể từ khi ra mắt. Tôi cũng muốn đề cập đến một số khả năng nâng cao hơn mà chúng tôi đã phát hành trong vài tuần qua. Mỗi khả năng đều mở rộng trải nghiệm tác nhân mà bạn có thể cung cấp.
Điều phối đa tác nhân(Multi-agent orchestration):Claudecó thể nhân bản chính nó.Claudecó thể ủy quyền cho cáctác nhânbổ sung đã được cấu hình sẵn. Và điều này cho phép các nhiệm vụ phức tạp được phân rã thành các đơn vị nhỏ hơn, được thực hiện với độ chính xác cao hơn.Kết quả(Outcomes): Chúng tôi đã nói về điều này một chút ở phần trước của bài thuyết trình, nơiClaudelặp lại cho đến khi thỏa mãntiêu chí thoátđược định nghĩa trước. Bạn định nghĩa mục tiêu,Claudetiếp tục cho đến khikết thúc.Bộ nhớ(Memory): Vài tuần trước, chúng tôi đã ra mắtBộ nhớở bảnPublic Beta. Và với các giải phápBộ nhớ,Claudekhông cần phải bắt đầu mỗiphiênmới từ đầu. Thay vào đó, nó đọc và ghi vào cáckho lưu trữ bộ nhớbền vững(persistent memory stores).Nền tảng mơ ước(Dreaming platform): Và cuối cùng, hôm nay, đồng nghiệp Mahesh của tôi đã công bốnền tảng mơ ướccủa chúng tôi. Tại đây,Claudeđang suy ngẫm và mã hóa những kiến thức mới thành nhữngbộ nhớmới. Cáctác nhânthực sự có thể cải thiện giữa mỗi lần chạy.
Demo: Kết quả và Điều phối đa tác nhân
Vì vậy, chúng tôi sẽ trình diễn một bản demo khác cho thấy cách Claude Managed Agents sử dụng kết quả và đa tác nhân để tạo ra những đầu ra tuyệt vời. Trước đây, trong console, chúng ta đã phân tích một phiên duy nhất. Lance sẽ hướng dẫn cách chúng ta có thể thực hiện điều này một cách lập trình trên quy mô lớn thông qua nhiều phiên.
Đúng vậy, đây thực sự là một trong những bản demo thú vị nhất mà tôi đã xây dựng cho hội nghị này. Và nó xuất phát từ vài tuần trước, Angela, trưởng phòng sản phẩm của chúng tôi, đã hỏi tôi một câu hỏi: "Một CEO có tư duy AGI sẽ có gì trong tay của mình?" Vì vậy, đây là một giao diện nơi bạn chỉ cần nhập một câu hỏi. Nó sẽ truy vấn dữ liệu tổ chức giả mạo và hiển thị các trực quan hóa dựa trên đầu vào cho bất cứ điều gì mà CEO giả mạo này muốn biết. Nếu bạn sử dụng, ví dụ, ứng dụng Claude, bạn sẽ hiểu các artifacts. Về cơ bản, đó chỉ là Claude tạo ra SVG và hiển thị nó trong trường hợp này trong một trình duyệt dưới dạng một trực quan hóa.
Chúng ta sẽ trình chiếu điều này ngay bây giờ. Tất cả những gì tôi đang làm là, tôi đã thiết lập một tác nhân được quản lý. Bạn có thể thấy phiên, nó có một sandbox, điều phối để xử lý những thứ như thử lại. Tôi đang cung cấp cho nó một công cụ tùy chỉnh, khả năng hiển thị mã lên trình duyệt. Và điều nó sẽ làm là, dựa trên đầu vào của người dùng, nó sẽ hiển thị trực quan hóa. Chúng ta sẽ thấy điều đó sau một chút, điều này sẽ hiển thị các biểu đồ hoặc bảng khác nhau, ví dụ, dựa trên những gì CEO giả mạo này muốn biết.
Bây giờ, đây là nơi tôi sử dụng kết quả. Và tôi muốn đảm bảo điều này thực sự rõ ràng vì tôi nghĩ điều này thực sự thú vị. Vì vậy, kết quả cho phép bạn chỉ định một tiêu chí. Bạn đang truyền các hướng dẫn, điều đó có nghĩa là tác nhân chạy. Và khi tác nhân kết thúc, một tác nhân phụ riêng biệt sẽ khởi động, xem xét các artifacts được tạo ra, trong trường hợp này là trang của tôi. Và, ví dụ, trong trường hợp này, tôi đã chỉ định, tạo thời gian và chụp màn hình. Thực hiện phân tích, gửi phân tích trở lại tác nhân chính. Vì vậy, điều thực sự thú vị ở đây là, tôi đã sử dụng kết quả để làm cho việc này nhanh hơn nhiều. Như bạn sẽ thấy ngay sau đây, CEO sẽ hỏi một câu hỏi, nó sẽ hiển thị các trực quan hóa, và tôi muốn nó nhanh. Và tôi đã sử dụng kết quả để làm điều đó. Bây giờ, một điều hay là khi tôi bắt đầu một lần chạy với kết quả, trình quản lý sẽ lặp lại chống lại kết quả đó theo thời gian.
Vòng Lặp Phản Hồi Và Phát Triển Tác Nhân
Và khi nó hoàn tất, trong trường hợp cụ thể của tôi, tôi sẽ xem xét kết quả, nhìn vào dashboard, và tôi có thể có phản hồi. Tôi sẽ nói, "Tôi không thích điều này." Điều tôi sẽ làm là, tôi sẽ nói cho Claude Code phản hồi của mình. Và nó có thể sử dụng mục bán hàng của chúng tôi, kéo nhật ký phiên làm việc (session log), suy ngẫm về phiên làm việc đó, xem xét rubric (tiêu chí đánh giá), xem xét hướng dẫn của tác nhân, cập nhật chúng, và khởi động một phiên làm việc mới. Đây là điều tôi gọi là outer loop (vòng lặp bên ngoài). Hai điều này hoạt động cùng nhau rất hiệu quả.
Bạn có một inner loop (vòng lặp bên trong) sử dụng các kết quả với các tác nhân được quản lý, cung cấp cho nó một rubric, hoạt động dựa trên rubric đó, tạo ra một đầu ra. Và sau đó outer loop này là việc xem xét đầu ra đó với tư cách người dùng và nói, "Được rồi, tôi không thích điều này." Và, cho phép, ví dụ, tác nhân mã, như Claude Code, sửa đổi rubric hoặc sửa đổi hướng dẫn và khởi động một phiên làm việc mới. Vì vậy, hai điều này hoạt động rất hiệu quả cùng nhau.
Tối Ưu Hóa Tự Động của Tác Nhân
Và đây thực sự là kết quả của tôi, và bạn sẽ sớm thấy bản demo. Tôi bắt đầu với một baseline (đường cơ sở) khá kém hiệu quả. Và tất cả những điều này đều được tác nhân được quản lý tự động phát hiện, chỉ bằng cách sử dụng rubric để tối ưu hóa thời gian. Nó tìm ra cách tối ưu hóa hoặc về cơ bản là song song hóa các gọi công cụ. Nó tìm ra cách sử dụng chế độ nhanh (fast mode), thực hiện tối ưu hóa lời nhắc, và đối với các đầu vào tạo ra nhiều biểu đồ, nó sử dụng đa-tác nhân (multi-agent), giúp tiết kiệm bảy giây, giảm thời gian rendering (kết xuất) từ khoảng 37 giây xuống còn 10 giây. Và tất cả đều được tác nhân được quản lý tự động tìm ra bằng cách sử dụng các kết quả.
Demo & Trực Quan Hóa Đa-Tác Nhân
Vậy bây giờ chúng ta có thể xem kết quả. Đây là boss tác nhân đang hoạt động. Chúng tôi có thể phân tích các top line metrics (số liệu quan trọng nhất). Vâng. Và tôi rất vui vì nhạc nền của tôi được đưa vào đây. Claude có tạo ra bản nhạc đó không? Vâng. Tuyệt vời. Vâng, cái này thực sự hay. Cái này thực sự đang sử dụng đa-tác nhân để tạo ra ba hình ảnh trực quan đồng thời trên dashboard của CEO giả định, những người bị "nghiện" AGI của tôi. Tuyệt vời.
Hợp Tác Cộng Đồng Và Tương Lai
Vì vậy, tôi muốn kết thúc một số bản demo này bằng cách nói rằng quá trình xây dựng các tác nhân được quản lý bởi Claude trở nên ý nghĩa hơn rất nhiều vì chúng tôi đã làm việc với những người dùng như bạn. Trong suốt quá trình build (phát triển) toàn bộ nền tảng này, chúng tôi đã hợp tác với những đối tác có tính tác nhân và đổi mới vượt trội, những người đang cố gắng sử dụng Claude để mở rộng khả năng của nền tảng của họ. Vì vậy, Asana và Noosh được nêu bật ở đây, nhưng chúng tôi đã nhận được phản hồi từ tất cả các bạn trong suốt quá trình phát hành công khai của chúng tôi.
Và thật đáng mừng khi thấy những gì các bạn đang xây dựng trên nền tảng của chúng tôi. Chúng tôi thực sự hào hứng muốn giúp các bạn ship (triển khai) nhanh hơn và nhanh hơn nữa. Chúng tôi rất vui mừng khi tiếp tục thúc đẩy nền tảng này tiến lên. Và xin hãy luôn liên hệ với chúng tôi nếu bạn có phản hồi. Các mã QR này là nơi bạn có thể bắt đầu. Một mã dẫn đến developer docs (tài liệu dành cho nhà phát triển) của chúng tôi. Một mã dẫn đến một quick start (hướng dẫn bắt đầu nhanh) phong phú, tương tác, nơi bạn có thể tìm hiểu các primitive (khối cơ bản) của chúng tôi và xây dựng một tác nhân chỉ trong vài phút. Và vâng, một lần nữa cảm ơn cộng đồng nhà phát triển tuyệt vời của chúng tôi. Vâng, cảm ơn. Được rồi.