Evaluate prompts in the Anthropic Console

Anthropic Workbench đã được cải tiến để đơn giản hóa quá trình phát triển và triển khai các câu lệnh chất lượng cao cho Claude, giúp chuyển đổi mô tả tác vụ thành mẫu câu lệnh chi tiết.
Nền tảng này cho phép tự động tạo dữ liệu kiểm thử thực tế và đánh giá các câu lệnh với nhiều trường hợp kiểm thử để đảm bảo hiệu suất đáng tin cậy.
Người dùng có thể tinh chỉnh câu lệnh lặp đi lặp lại và so sánh kết quả giữa các phiên bản khác nhau, tối ưu hóa đầu ra cho đến khi đạt được chất lượng mong muốn.

Sử dụng Anthropic Workbench để dễ dàng phát triển và triển khai các câu lệnh chất lượng cao cho Claude.
Tận dụng prompt generator với Claude 3.5 Sonnet để tự động chuyển đổi mô tả cấp cao của tác vụ thành prompt template chi tiết.
Sử dụng Claude để tự động tạo dữ liệu kiểm thử thực tế dựa trên câu lệnh của bạn, giúp tiết kiệm thời gian so với việc tạo thủ công.
Dùng evaluate feature để thiết lập và quản lý nhiều test cases, hoặc tải lên từ tệp CSV, nhằm kiểm tra hiệu suất của câu lệnh trong các tình huống đa dạng.
Tùy chỉnh test case generation logic nếu bạn có các yêu cầu kiểm thử rất cụ thể.
Tinh chỉnh câu lệnh lặp đi lặp lại bằng cách cập nhật các quy tắc trong câu lệnh và chạy lại test suite để xem tác động của thay đổi.
So sánh kết quả của các phiên bản câu lệnh khác nhau (ví dụ: phiên bản cũ và mới) cạnh nhau để xác nhận các cải tiến đã thực hiện.

Giới thiệu về Anthropic Workbench và Trình tạo Câu lệnh

Gần đây, chúng tôi đã thực hiện một số cải tiến đối với Anthropic Workbench nhằm giúp việc phát triển và triển khai các câu lệnh chất lượng cao cho Claude trở nên dễ dàng hơn. Hãy cùng xem nó hoạt động như thế nào bằng cách tìm hiểu về prompt generator vừa được cập nhật của chúng tôi.

Tạo Câu lệnh bằng Claude 3.5 Sonnet

Bạn có thể sử dụng prompt generator để lấy mô tả cấp cao của một tác vụ và chuyển đổi nó thành một prompt template chi tiết bằng cách sử dụng Claude 3.5 Sonnet. Trong trường hợp này, hãy tưởng tượng chúng ta cần phân loại các yêu cầu hỗ trợ khách hàng. Như bạn thấy, Claude ngay lập tức bắt đầu viết một câu lệnh dựa trên tác vụ của chúng ta. Câu lệnh này chi tiết, cụ thể và có vẻ sẽ hoạt động tốt.

Tự động Tạo Dữ liệu Kiểm thử

Tuy nhiên, trước khi triển khai vào môi trường sản xuất (production), chúng ta nên kiểm tra xem nó hoạt động như thế nào với dữ liệu khách hàng thực tế. Việc tạo ra test data thực tế có thể tốn thời gian và lâu hơn cả việc viết câu lệnh đó.

Giờ đây, bạn có thể sử dụng Claude để tự động tạo dữ liệu đầu vào thực tế dựa trên câu lệnh của mình. Trong trường hợp này, chúng ta có thể tạo một yêu cầu hỗ trợ khách hàng. Yêu cầu này trông khá tốt, vậy hãy xem câu lệnh hoạt động như thế nào với yêu cầu hỗ trợ cụ thể này. Điều này có vẻ khá tốt; nó đang cung cấp một lời giải thích (justification) và một quyết định Tri-OS decision.

Đánh giá Câu lệnh với các Trường hợp Kiểm thử

Nhưng làm sao chúng ta biết rằng mình không chỉ gặp may? Làm sao chúng ta biết câu lệnh này thực sự sẽ hoạt động trong nhiều tình huống khác nhau? Đó là lúc tính năng evaluate feature phát huy tác dụng.

Bạn có thể sử dụng evaluate page để thiết lập bao nhiêu test cases tùy thích. Hãy tiếp tục tạo ra nhiều test cases đại diện đa dạng. Bạn cũng có thể tải lên các test cases từ một tệp CSV nếu bạn đã có sẵn test data.

Test case generation logic có khả năng tùy chỉnh cao và thích ứng với test set hiện có của bạn. Nếu bạn có các yêu cầu rất cụ thể, bạn có thể tự chỉnh sửa trực tiếp generation logic.

Khi bạn đã có đủ test cases, bạn có thể tạo kết quả cho test suite mới của mình.

Tinh chỉnh Câu lệnh lặp đi lặp lại

Được rồi, những kết quả này trông khá tốt. Vậy hãy cùng đánh giá chất lượng của chúng. Có thể khi đánh giá, chúng ta nhận thấy rằng các lời giải thích (justifications) quá ngắn gọn và muốn chúng dài hơn một chút.

Chà, chúng ta có thể quay lại câu lệnh và tìm phần quy định một lời giải thích một câu, sau đó cập nhật nó thành một lời giải thích hai câu. Chúng ta có thể chạy lại câu lệnh và đúng như chúng ta hy vọng, chúng ta đang thấy một lời giải thích hai câu.

So sánh Kết quả Kiểm thử

Vậy, hãy quay lại evaluate tab. May mắn thay, test suite của chúng ta vẫn còn ở đó, do đó nó có thể chạy lại câu lệnh mới với test set data cũ. Và đúng như chúng ta hy vọng, tất cả đều dài hơn một chút. Chúng ta có thể tiếp tục đánh giá các đầu ra mới này.

Chúng ta hài lòng hơn với những kết quả này. Nhưng để chắc chắn, chúng ta có thể so sánh các kết quả mới này với các kết quả cũ. Và ở đây chúng ta có thể thấy, cạnh nhau, các kết quả đã dài hơn. Chúng ta vẫn nhận được các quyết định tri-OS decisions tương tự, nhưng đánh giá trung bình của chúng ta tốt hơn.

TL;DR

Anthropic Workbench đã được cải tiến để đơn giản hóa quá trình phát triển và triển khai các câu lệnh chất lượng cao cho Claude, giúp chuyển đổi mô tả tác vụ thành mẫu câu lệnh chi tiết.
Nền tảng này cho phép tự động tạo dữ liệu kiểm thử thực tế và đánh giá các câu lệnh với nhiều trường hợp kiểm thử để đảm bảo hiệu suất đáng tin cậy.
Người dùng có thể tinh chỉnh câu lệnh lặp đi lặp lại và so sánh kết quả giữa các phiên bản khác nhau, tối ưu hóa đầu ra cho đến khi đạt được chất lượng mong muốn.

Điểm chính

Sử dụng Anthropic Workbench để dễ dàng phát triển và triển khai các câu lệnh chất lượng cao cho Claude.
Tận dụng prompt generator với Claude 3.5 Sonnet để tự động chuyển đổi mô tả cấp cao của tác vụ thành prompt template chi tiết.
Sử dụng Claude để tự động tạo dữ liệu kiểm thử thực tế dựa trên câu lệnh của bạn, giúp tiết kiệm thời gian so với việc tạo thủ công.
Dùng evaluate feature để thiết lập và quản lý nhiều test cases, hoặc tải lên từ tệp CSV, nhằm kiểm tra hiệu suất của câu lệnh trong các tình huống đa dạng.
Tùy chỉnh test case generation logic nếu bạn có các yêu cầu kiểm thử rất cụ thể.
Tinh chỉnh câu lệnh lặp đi lặp lại bằng cách cập nhật các quy tắc trong câu lệnh và chạy lại test suite để xem tác động của thay đổi.
So sánh kết quả của các phiên bản câu lệnh khác nhau (ví dụ: phiên bản cũ và mới) cạnh nhau để xác nhận các cải tiến đã thực hiện.

Từ vựng

Anthropic Workbench — Anthropic Workbench
prompt — câu lệnh
prompt generator — trình tạo câu lệnh
prompt template — mẫu câu lệnh
task — tác vụ
production — môi trường sản xuất
test data — dữ liệu kiểm thử
justification — lời giải thích
evaluate feature — tính năng đánh giá
test cases — trường hợp kiểm thử
test set — bộ kiểm thử
test suite — bộ kiểm thử

Nội dung chi tiết