- Anthropic Workbench đã được cải tiến để đơn giản hóa quá trình phát triển và triển khai các câu lệnh chất lượng cao cho Claude, giúp chuyển đổi mô tả tác vụ thành mẫu câu lệnh chi tiết.
- Nền tảng này cho phép tự động tạo dữ liệu kiểm thử thực tế và đánh giá các câu lệnh với nhiều trường hợp kiểm thử để đảm bảo hiệu suất đáng tin cậy.
- Người dùng có thể tinh chỉnh câu lệnh lặp đi lặp lại và so sánh kết quả giữa các phiên bản khác nhau, tối ưu hóa đầu ra cho đến khi đạt được chất lượng mong muốn.
Evaluate prompts in the Anthropic Console
- Sử dụng
Anthropic Workbenchđể dễ dàng phát triển và triển khai cáccâu lệnhchất lượng cao choClaude. - Tận dụng
prompt generatorvớiClaude 3.5 Sonnetđể tự động chuyển đổi mô tả cấp cao củatác vụthànhprompt templatechi tiết. - Sử dụng
Claudeđể tự động tạodữ liệu kiểm thửthực tế dựa trêncâu lệnhcủa bạn, giúp tiết kiệm thời gian so với việc tạo thủ công. - Dùng
evaluate featuređể thiết lập và quản lý nhiềutest cases, hoặc tải lên từ tệpCSV, nhằm kiểm tra hiệu suất củacâu lệnhtrong các tình huống đa dạng. - Tùy chỉnh
test case generation logicnếu bạn có các yêu cầu kiểm thử rất cụ thể. - Tinh chỉnh
câu lệnhlặp đi lặp lại bằng cách cập nhật các quy tắc trongcâu lệnhvà chạy lạitest suiteđể xem tác động của thay đổi. - So sánh kết quả của các phiên bản
câu lệnhkhác nhau (ví dụ: phiên bản cũ và mới) cạnh nhau để xác nhận các cải tiến đã thực hiện.
- Anthropic Workbench — Anthropic Workbench
- prompt — câu lệnh
- prompt generator — trình tạo câu lệnh
- prompt template — mẫu câu lệnh
- task — tác vụ
- production — môi trường sản xuất
- test data — dữ liệu kiểm thử
- justification — lời giải thích
- evaluate feature — tính năng đánh giá
- test cases — trường hợp kiểm thử
- test set — bộ kiểm thử
- test suite — bộ kiểm thử
Giới thiệu về Anthropic Workbench và Trình tạo Câu lệnh
Gần đây, chúng tôi đã thực hiện một số cải tiến đối với Anthropic Workbench nhằm giúp việc phát triển và triển khai các câu lệnh chất lượng cao cho Claude trở nên dễ dàng hơn. Hãy cùng xem nó hoạt động như thế nào bằng cách tìm hiểu về prompt generator vừa được cập nhật của chúng tôi.
Tạo Câu lệnh bằng Claude 3.5 Sonnet
Bạn có thể sử dụng prompt generator để lấy mô tả cấp cao của một tác vụ và chuyển đổi nó thành một prompt template chi tiết bằng cách sử dụng Claude 3.5 Sonnet. Trong trường hợp này, hãy tưởng tượng chúng ta cần phân loại các yêu cầu hỗ trợ khách hàng. Như bạn thấy, Claude ngay lập tức bắt đầu viết một câu lệnh dựa trên tác vụ của chúng ta. Câu lệnh này chi tiết, cụ thể và có vẻ sẽ hoạt động tốt.
Tự động Tạo Dữ liệu Kiểm thử
Tuy nhiên, trước khi triển khai vào môi trường sản xuất (production), chúng ta nên kiểm tra xem nó hoạt động như thế nào với dữ liệu khách hàng thực tế. Việc tạo ra test data thực tế có thể tốn thời gian và lâu hơn cả việc viết câu lệnh đó.
Giờ đây, bạn có thể sử dụng Claude để tự động tạo dữ liệu đầu vào thực tế dựa trên câu lệnh của mình. Trong trường hợp này, chúng ta có thể tạo một yêu cầu hỗ trợ khách hàng. Yêu cầu này trông khá tốt, vậy hãy xem câu lệnh hoạt động như thế nào với yêu cầu hỗ trợ cụ thể này. Điều này có vẻ khá tốt; nó đang cung cấp một lời giải thích (justification) và một quyết định Tri-OS decision.
Đánh giá Câu lệnh với các Trường hợp Kiểm thử
Nhưng làm sao chúng ta biết rằng mình không chỉ gặp may? Làm sao chúng ta biết câu lệnh này thực sự sẽ hoạt động trong nhiều tình huống khác nhau? Đó là lúc tính năng evaluate feature phát huy tác dụng.
Bạn có thể sử dụng evaluate page để thiết lập bao nhiêu test cases tùy thích. Hãy tiếp tục tạo ra nhiều test cases đại diện đa dạng. Bạn cũng có thể tải lên các test cases từ một tệp CSV nếu bạn đã có sẵn test data.
Test case generation logic có khả năng tùy chỉnh cao và thích ứng với test set hiện có của bạn. Nếu bạn có các yêu cầu rất cụ thể, bạn có thể tự chỉnh sửa trực tiếp generation logic.
Khi bạn đã có đủ test cases, bạn có thể tạo kết quả cho test suite mới của mình.
Tinh chỉnh Câu lệnh lặp đi lặp lại
Được rồi, những kết quả này trông khá tốt. Vậy hãy cùng đánh giá chất lượng của chúng. Có thể khi đánh giá, chúng ta nhận thấy rằng các lời giải thích (justifications) quá ngắn gọn và muốn chúng dài hơn một chút.
Chà, chúng ta có thể quay lại câu lệnh và tìm phần quy định một lời giải thích một câu, sau đó cập nhật nó thành một lời giải thích hai câu. Chúng ta có thể chạy lại câu lệnh và đúng như chúng ta hy vọng, chúng ta đang thấy một lời giải thích hai câu.
So sánh Kết quả Kiểm thử
Vậy, hãy quay lại evaluate tab. May mắn thay, test suite của chúng ta vẫn còn ở đó, do đó nó có thể chạy lại câu lệnh mới với test set data cũ. Và đúng như chúng ta hy vọng, tất cả đều dài hơn một chút. Chúng ta có thể tiếp tục đánh giá các đầu ra mới này.
Chúng ta hài lòng hơn với những kết quả này. Nhưng để chắc chắn, chúng ta có thể so sánh các kết quả mới này với các kết quả cũ. Và ở đây chúng ta có thể thấy, cạnh nhau, các kết quả đã dài hơn. Chúng ta vẫn nhận được các quyết định tri-OS decisions tương tự, nhưng đánh giá trung bình của chúng ta tốt hơn.
TL;DR
- Anthropic Workbench đã được cải tiến để đơn giản hóa quá trình phát triển và triển khai các câu lệnh chất lượng cao cho Claude, giúp chuyển đổi mô tả tác vụ thành mẫu câu lệnh chi tiết.
- Nền tảng này cho phép tự động tạo dữ liệu kiểm thử thực tế và đánh giá các câu lệnh với nhiều trường hợp kiểm thử để đảm bảo hiệu suất đáng tin cậy.
- Người dùng có thể tinh chỉnh câu lệnh lặp đi lặp lại và so sánh kết quả giữa các phiên bản khác nhau, tối ưu hóa đầu ra cho đến khi đạt được chất lượng mong muốn.
Điểm chính
- Sử dụng
Anthropic Workbenchđể dễ dàng phát triển và triển khai cáccâu lệnhchất lượng cao choClaude. - Tận dụng
prompt generatorvớiClaude 3.5 Sonnetđể tự động chuyển đổi mô tả cấp cao củatác vụthànhprompt templatechi tiết. - Sử dụng
Claudeđể tự động tạodữ liệu kiểm thửthực tế dựa trêncâu lệnhcủa bạn, giúp tiết kiệm thời gian so với việc tạo thủ công. - Dùng
evaluate featuređể thiết lập và quản lý nhiềutest cases, hoặc tải lên từ tệpCSV, nhằm kiểm tra hiệu suất củacâu lệnhtrong các tình huống đa dạng. - Tùy chỉnh
test case generation logicnếu bạn có các yêu cầu kiểm thử rất cụ thể. - Tinh chỉnh
câu lệnhlặp đi lặp lại bằng cách cập nhật các quy tắc trongcâu lệnhvà chạy lạitest suiteđể xem tác động của thay đổi. - So sánh kết quả của các phiên bản
câu lệnhkhác nhau (ví dụ: phiên bản cũ và mới) cạnh nhau để xác nhận các cải tiến đã thực hiện.
Từ vựng
- Anthropic Workbench — Anthropic Workbench
- prompt — câu lệnh
- prompt generator — trình tạo câu lệnh
- prompt template — mẫu câu lệnh
- task — tác vụ
- production — môi trường sản xuất
- test data — dữ liệu kiểm thử
- justification — lời giải thích
- evaluate feature — tính năng đánh giá
- test cases — trường hợp kiểm thử
- test set — bộ kiểm thử
- test suite — bộ kiểm thử
Nội dung chi tiết
Giới thiệu về Anthropic Workbench và Trình tạo Câu lệnh
Gần đây, chúng tôi đã thực hiện một số cải tiến đối với Anthropic Workbench nhằm giúp việc phát triển và triển khai các câu lệnh chất lượng cao cho Claude trở nên dễ dàng hơn. Hãy cùng xem nó hoạt động như thế nào bằng cách tìm hiểu về prompt generator vừa được cập nhật của chúng tôi.
Tạo Câu lệnh bằng Claude 3.5 Sonnet
Bạn có thể sử dụng prompt generator để lấy mô tả cấp cao của một tác vụ và chuyển đổi nó thành một prompt template chi tiết bằng cách sử dụng Claude 3.5 Sonnet. Trong trường hợp này, hãy tưởng tượng chúng ta cần phân loại các yêu cầu hỗ trợ khách hàng. Như bạn thấy, Claude ngay lập tức bắt đầu viết một câu lệnh dựa trên tác vụ của chúng ta. Câu lệnh này chi tiết, cụ thể và có vẻ sẽ hoạt động tốt.
Tự động Tạo Dữ liệu Kiểm thử
Tuy nhiên, trước khi triển khai vào môi trường sản xuất (production), chúng ta nên kiểm tra xem nó hoạt động như thế nào với dữ liệu khách hàng thực tế. Việc tạo ra test data thực tế có thể tốn thời gian và lâu hơn cả việc viết câu lệnh đó.
Giờ đây, bạn có thể sử dụng Claude để tự động tạo dữ liệu đầu vào thực tế dựa trên câu lệnh của mình. Trong trường hợp này, chúng ta có thể tạo một yêu cầu hỗ trợ khách hàng. Yêu cầu này trông khá tốt, vậy hãy xem câu lệnh hoạt động như thế nào với yêu cầu hỗ trợ cụ thể này. Điều này có vẻ khá tốt; nó đang cung cấp một lời giải thích (justification) và một quyết định Tri-OS decision.
Đánh giá Câu lệnh với các Trường hợp Kiểm thử
Nhưng làm sao chúng ta biết rằng mình không chỉ gặp may? Làm sao chúng ta biết câu lệnh này thực sự sẽ hoạt động trong nhiều tình huống khác nhau? Đó là lúc tính năng evaluate feature phát huy tác dụng.
Bạn có thể sử dụng evaluate page để thiết lập bao nhiêu test cases tùy thích. Hãy tiếp tục tạo ra nhiều test cases đại diện đa dạng. Bạn cũng có thể tải lên các test cases từ một tệp CSV nếu bạn đã có sẵn test data.
Test case generation logic có khả năng tùy chỉnh cao và thích ứng với test set hiện có của bạn. Nếu bạn có các yêu cầu rất cụ thể, bạn có thể tự chỉnh sửa trực tiếp generation logic.
Khi bạn đã có đủ test cases, bạn có thể tạo kết quả cho test suite mới của mình.
Tinh chỉnh Câu lệnh lặp đi lặp lại
Được rồi, những kết quả này trông khá tốt. Vậy hãy cùng đánh giá chất lượng của chúng. Có thể khi đánh giá, chúng ta nhận thấy rằng các lời giải thích (justifications) quá ngắn gọn và muốn chúng dài hơn một chút.
Chà, chúng ta có thể quay lại câu lệnh và tìm phần quy định một lời giải thích một câu, sau đó cập nhật nó thành một lời giải thích hai câu. Chúng ta có thể chạy lại câu lệnh và đúng như chúng ta hy vọng, chúng ta đang thấy một lời giải thích hai câu.
So sánh Kết quả Kiểm thử
Vậy, hãy quay lại evaluate tab. May mắn thay, test suite của chúng ta vẫn còn ở đó, do đó nó có thể chạy lại câu lệnh mới với test set data cũ. Và đúng như chúng ta hy vọng, tất cả đều dài hơn một chút. Chúng ta có thể tiếp tục đánh giá các đầu ra mới này.
Chúng ta hài lòng hơn với những kết quả này. Nhưng để chắc chắn, chúng ta có thể so sánh các kết quả mới này với các kết quả cũ. Và ở đây chúng ta có thể thấy, cạnh nhau, các kết quả đã dài hơn. Chúng ta vẫn nhận được các quyết định tri-OS decisions tương tự, nhưng đánh giá trung bình của chúng ta tốt hơn.