A typical eval workflow

📖 Nội dung bài học

Tóm tắt

Quy trình đánh giá (eval) prompt điển hình tuân theo một cách tiếp cận có hệ thống để đo lường và cải thiện prompt của bạn một cách khách quan. Mặc dù có nhiều cách khác nhau để xây dựng các quy trình làm việc này và có nhiều công cụ mã nguồn mở và trả phí khác nhau, việc hiểu quy trình cốt lõi sẽ giúp bạn bắt đầu từ quy mô nhỏ và mở rộng quy mô khi cần thiết.

Bước 1: Soạn thảo Prompt ban đầu của bạn

Bắt đầu bằng cách viết ra một prompt cơ bản mà bạn muốn cải thiện. Trong ví dụ này, bạn sẽ dùng một cấu trúc prompt đơn giản:

prompt = f"""
Vui lòng trả lời câu hỏi của người dùng:

{question}
"""

Điều này cho bạn một đường cơ sở để làm việc. Bạn sẽ không biết nó có hiệu quả hay không cho đến khi bạn đánh giá nó bằng một phương pháp khách quan.

Bước 2: Tạo một bộ dữ liệu đánh giá

Bộ dữ liệu đánh giá của bạn chứa các mẫu đầu vào mà bạn sẽ cung cấp cho prompt của mình. Vì prompt của bạn chỉ có một đầu vào (câu hỏi của người dùng), bạn cần một bộ sưu tập các câu hỏi khác nhau để kiểm tra.

Bộ dữ liệu chứa các câu hỏi mà bạn sẽ kết hợp với prompt của bạn. Bạn có thể tự mình tập hợp các bộ dữ liệu này hoặc tạo chúng bằng Claude. Trong các đánh giá thực tế, bạn có thể có hàng chục, hàng trăm hoặc thậm chí hàng nghìn bản ghi khác nhau, nhưng bạn sẽ bắt đầu với chỉ ba câu hỏi cho ví dụ này:

2+2 bằng bao nhiêu?
Làm thế nào để tôi làm bột yến mạch?
Mặt trăng cách xa bao xa?

Bước 3: Cung cấp cho Claude

Lấy từng câu hỏi từ bộ dữ liệu của bạn và kết hợp nó với mẫu prompt của bạn để tạo các prompt hoàn chỉnh. Sau đó, gửi từng câu hỏi đến Claude và thu thập các phản hồi.

Ví dụ, câu hỏi đầu tiên trở thành một prompt hoàn chỉnh mà Claude có thể trả lời. Bạn sẽ lặp lại quy trình này cho tất cả các bản ghi trong bộ dữ liệu của bạn, nhận lại các phản hồi như "2 + 2 = 4", hướng dẫn chi tiết về bột yến mạch và thông tin về khoảng cách của Mặt trăng.

Bước 4: Cung cấp cho một trình chấm điểm

Bây giờ là bước quan trọng: chấm điểm khách quan các phản hồi của Claude. Lấy từng cặp câu hỏi-trả lời và cung cấp chúng cho một trình chấm điểm sẽ đánh giá chất lượng phản hồi của Claude.

Trình chấm điểm gán điểm (thường là 1-10) dựa trên chất lượng phản hồi:

10 = Câu trả lời hoàn hảo, không có chỗ để cải thiện
4 = Chắc chắn có chỗ để cải thiện
1 = Phản hồi kém hoặc không chính xác

Trong ví dụ của bạn, các phản hồi có thể ghi được 10, 4 và 9 tương ứng. Tính trung bình các điểm này lại với nhau để có được một chỉ số hiệu suất tổng thể: 7,66.

Bước 5: Thay đổi Prompt và Lặp lại

Với điểm cơ sở của bạn được thiết lập, bây giờ bạn có thể lặp lại trên prompt của mình. Hãy thử thêm các hướng dẫn cụ thể hơn để hướng dẫn các phản hồi của Claude:

prompt = f"""
Vui lòng trả lời câu hỏi của người dùng:

{question}

Trả lời câu hỏi với nhiều chi tiết
"""

Chạy prompt đã cải thiện này thông qua toàn bộ quy trình đánh giá một lần nữa. So sánh các điểm để xem phiên bản nào hoạt động tốt hơn.

Chấm điểm và Lặp lại Prompt

Sức mạnh của quy trình làm việc này nằm ở việc nhận các phép đo khách quan cho từng phiên bản prompt. Bạn có thể so sánh điểm số trên các lần lặp khác nhau và dùng phiên bản có hiệu suất tốt nhất hoặc tiếp tục lặp lại để tìm các cách tiếp cận tốt hơn nữa.

Trong ví dụ của bạn:

Prompt v1 đạt 7,66 điểm
Prompt v2 đạt 8,7 điểm

Điểm cao hơn cho v2 cho thấy rằng việc thêm "Trả lời câu hỏi với nhiều chi tiết" đã cải thiện hiệu suất của prompt trên các trường hợp thử nghiệm của bạn.

Cách tiếp cận có hệ thống này cung cấp cho bạn một cách khách quan để đo lường những cải tiến prompt thay vì dựa vào phán đoán chủ quan. Bạn có thể bắt đầu với một triển khai đơn giản và dần dần thêm các tiêu chí đánh giá phức tạp hơn khi nhu cầu của bạn tăng lên.

🔁 Bài học liên quan

Bài tiếp: Generating test datasets
Bài trước: Prompt evaluation
Cùng section: Overview of Claude Models · Accessing the API · Making a request
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-in-amazon-bedrock/276732
Crawl: — · Chuẩn hoá: 2026-05-01