A typical eval workflow

📖 Nội dung bài học

Gia đình phông chữ

Tóm tắt

Một quy trình đánh giá prompt điển hình gồm năm bước chính. Các bước này giúp bạn cải thiện prompt một cách có hệ thống thông qua đo lường khách quan. Có nhiều cách để xây dựng các quy trình này, cùng với nhiều công cụ mã nguồn mở và trả phí. Việc hiểu quy trình cốt lõi giúp bạn bắt đầu nhỏ và mở rộng quy mô khi cần.

Bước 1: Soạn thảo một Prompt

Bắt đầu bằng cách viết một prompt ban đầu mà bạn muốn cải thiện. Trong ví dụ này, bạn sẽ dùng một prompt đơn giản:

prompt = f"""
Vui lòng trả lời câu hỏi của người dùng:

{question}
"""

Prompt cơ bản này sẽ là cơ sở để bạn kiểm tra và cải thiện.

Bước 2: Tạo một Tập dữ liệu Đánh giá

Tập dữ liệu đánh giá của bạn chứa các mẫu đầu vào mà bạn sẽ cung cấp cho prompt của mình. Vì prompt của bạn chỉ có một đầu vào (câu hỏi của người dùng), bạn cần một bộ sưu tập các câu hỏi khác nhau để thử nghiệm.

Tập dữ liệu chứa các câu hỏi mà bạn sẽ kết hợp với prompt của mình. Bạn có thể tự mình tạo các tập dữ liệu này hoặc tạo chúng bằng Claude. Trong các đánh giá thực tế, bạn có thể có hàng chục, hàng trăm hoặc thậm chí hàng nghìn bản ghi khác nhau, nhưng bạn sẽ bắt đầu với chỉ ba câu hỏi cho ví dụ này:

2+2 bằng bao nhiêu?
Làm thế nào để tôi làm bột yến mạch?
Mặt trăng cách xa bao xa?

Bước 3: Cung cấp cho Claude

Lấy từng câu hỏi từ tập dữ liệu của bạn và kết hợp nó với mẫu prompt của bạn để tạo các prompt hoàn chỉnh. Sau đó, gửi từng câu hỏi đến Claude và thu thập các phản hồi.

Ví dụ, câu hỏi đầu tiên trở thành một prompt hoàn chỉnh mà Claude xử lý và trả về câu trả lời như "2 + 2 = 4". Bạn lặp lại quy trình này cho tất cả các câu hỏi trong tập dữ liệu của mình, xây dựng một bộ sưu tập các cặp câu hỏi-câu trả lời.

Bước 4: Cung cấp cho một Trình chấm điểm

Bây giờ là bước quan trọng để đo lường một cách khách quan chất lượng phản hồi của Claude. Bạn lấy từng cặp câu hỏi-câu trả lời và cung cấp chúng cho một trình chấm điểm, trình này sẽ chấm điểm các phản hồi.

Trình chấm điểm gán điểm (thường là 1-10) dựa trên chất lượng câu trả lời:

10 = Câu trả lời hoàn hảo, không có chỗ để cải thiện
4 = Đủ nhưng chắc chắn có chỗ để cải thiện
Điểm thấp hơn cho thấy phản hồi kém

Sau khi chấm điểm cho tất cả các phản hồi, bạn tính điểm trung bình. Trong ví dụ của bạn, điểm 10, 4 và 9 có trung bình là 7,66, cho bạn một phép đo khách quan về hiệu suất của prompt.

Bước 5: Thay đổi Prompt và Lặp lại

Với điểm cơ sở của bạn đã được thiết lập, giờ bạn có thể sửa đổi prompt của mình và chạy lại toàn bộ quy trình để xem liệu các thay đổi của bạn có cải thiện hiệu suất hay không.

Ví dụ, bạn có thể cải thiện prompt ban đầu bằng cách thêm các hướng dẫn cụ thể hơn:

prompt = f"""
Vui lòng trả lời câu hỏi của người dùng:

{question}

Trả lời câu hỏi với nhiều chi tiết
"""

Chấm điểm Prompt

Sức mạnh của quy trình làm việc này nằm ở việc nhận được các phép đo khách quan về hiệu suất prompt. Bạn có thể so sánh điểm giữa các phiên bản prompt khác nhau để xác định phiên bản nào hoạt động tốt hơn.

Trong ví dụ của bạn:

Prompt v1 đạt 7,66 điểm
Prompt v2 đạt 8,7 điểm

Điểm cao hơn cho v2 cung cấp bằng chứng khách quan rằng việc thêm "Trả lời câu hỏi với nhiều chi tiết" đã cải thiện hiệu suất của prompt. Sau đó, bạn có thể dùng phiên bản hoạt động tốt hơn hoặc tiếp tục lặp lại để đạt được điểm cao hơn nữa.

Cách tiếp cận có hệ thống này loại bỏ phỏng đoán khỏi việc cải thiện prompt và cung cấp cho bạn một khuôn khổ đáng tin cậy để tối ưu hóa. Mặc dù có sự phức tạp trong việc triển khai các trình chấm điểm hiệu quả, quy trình làm việc này cung cấp một nền tảng vững chắc để xây dựng hệ thống đánh giá của riêng bạn.

🔁 Bài học liên quan

Bài tiếp: Generating test datasets
Bài trước: Prompt evaluation
Cùng section: Making a request · Multi-turn conversations · Chat exercise
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-google-vertex/289161
Crawl: — · Chuẩn hoá: 2026-05-01