A typical eval workflow

📖 Nội dung bài học

Tóm tắt

Một quy trình đánh giá prompt (prompt evaluation workflow) điển hình bao gồm năm bước chính giúp bạn cải thiện prompt một cách có hệ thống thông qua các phép đo khách quan. Mặc dù có nhiều cách khác nhau để xây dựng các quy trình này và nhiều công cụ mã nguồn mở hoặc trả phí có sẵn, việc hiểu rõ quy trình cốt lõi sẽ giúp bạn bắt đầu từ quy mô nhỏ và mở rộng khi cần.

Bước 1: Soạn thảo một Prompt

Bắt đầu bằng cách viết một prompt ban đầu mà bạn muốn cải thiện. Trong ví dụ này, chúng ta sẽ dùng một prompt đơn giản:

prompt = f"""
Please answer the user's question:

{question}
"""

Prompt cơ bản này sẽ đóng vai trò là điểm chuẩn (baseline) của chúng ta để kiểm thử và cải thiện.

Bước 2: Tạo một Eval Dataset

Dataset đánh giá (evaluation dataset) của bạn chứa các input mẫu đại diện cho các loại câu hỏi hoặc yêu cầu mà prompt của bạn sẽ xử lý trong môi trường production. Dataset này nên bao gồm các câu hỏi sẽ được nội suy vào prompt template của bạn.

Trong ví dụ này, dataset của chúng ta bao gồm ba câu hỏi:

"What's 2+2?"
"How do I make oatmeal?"
"How far away is the Moon?"

Trong các eval thực tế, bạn có thể có hàng chục, hàng trăm, hoặc thậm chí hàng nghìn bản ghi. Bạn có thể tự tạo các dataset này bằng tay hoặc dùng Claude để tạo chúng cho bạn.

Bước 3: Đưa qua Claude

Lấy từng câu hỏi từ dataset của bạn và hợp nhất nó với prompt template để tạo thành các prompt hoàn chỉnh. Sau đó, gửi từng prompt này đến Claude để nhận phản hồi.

Ví dụ, câu hỏi đầu tiên sẽ trở thành:

Please answer the user's question:
What's 2+2?

Claude có thể phản hồi "2 + 2 = 4" cho câu hỏi toán học, cung cấp hướng dẫn nấu bột yến mạch cho câu hỏi thứ hai, và đưa ra khoảng cách đến Mặt Trăng cho câu hỏi thứ ba.

Bước 4: Đưa qua Grader

Grader đánh giá chất lượng phản hồi của Claude bằng cách xem xét cả câu hỏi gốc và câu trả lời của Claude. Bước này cung cấp điểm số khách quan, thường theo thang điểm từ 1 đến 10, trong đó 10 đại diện cho câu trả lời hoàn hảo và điểm thấp hơn cho thấy cần cải thiện.

Trong ví dụ của chúng ta, grader có thể gán điểm:

Câu hỏi toán học: 10 (câu trả lời hoàn hảo)
Câu hỏi bột yến mạch: 4 (cần cải thiện)
Câu hỏi về Mặt Trăng: 9 (câu trả lời rất tốt)

Điểm trung bình trên tất cả các câu hỏi cung cấp cho bạn một phép đo khách quan: (10 + 4 + 9) ÷ 3 = 7.66

Bước 5: Thay đổi Prompt và Lặp lại

Bây giờ bạn đã có điểm baseline, bạn có thể sửa đổi prompt của mình và chạy lại toàn bộ quy trình để xem liệu các thay đổi của bạn có cải thiện hiệu suất hay không.

Ví dụ, bạn có thể thêm hướng dẫn chi tiết hơn vào prompt của mình:

prompt = f"""
Please answer the user's question:

{question}

Answer the question with ample detail
"""

Sau khi chạy prompt đã cải thiện này qua cùng quy trình đánh giá, bạn có thể nhận được điểm trung bình cao hơn là 8.7, cho thấy hướng dẫn bổ sung đã giúp Claude đưa ra các phản hồi tốt hơn.

Chấm điểm Prompt

Lợi ích chính của quy trình này là nhận được các phép đo khách quan về hiệu suất của prompt. Bạn có thể:

So sánh các phiên bản prompt khác nhau bằng số liệu
Sử dụng phiên bản có điểm số tốt nhất
Tiếp tục lặp lại để tìm ra các cách tiếp cận tốt hơn nữa

Cách tiếp cận có hệ thống này loại bỏ việc đoán mò khỏi prompt engineering và mang lại cho bạn sự tự tin rằng các thay đổi của bạn thực sự là cải tiến chứ không chỉ là các biến thể khác nhau.

🔁 Bài học liên quan

Bài tiếp: Generating test datasets
Bài trước: Prompt evaluation
Cùng section: Making a request · Multi-Turn conversations · Chat exercise
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-the-anthropic-api/287736
Crawl: 2026-04-23 · Chuẩn hoá: 2026-05-01