📖 Nội dung bài học
Họ phông chữ
Arial
Đường viền ký tự
Tóm tắt
Khi xây dựng quy trình đánh giá prompt, người đánh giá cung cấp các tín hiệu khách quan về chất lượng đầu ra. Người đánh giá lấy đầu ra của mô hình và trả về một loại phản hồi có thể đo lường được - thường là một số từ 1-10, trong đó 10 đại diện cho chất lượng cao và 1 đại diện cho chất lượng kém.
Các loại người đánh giá

Có ba phương pháp chính để đánh giá đầu ra của mô hình:
- Người đánh giá mã - Đánh giá đầu ra theo chương trình bằng cách sử dụng logic tùy chỉnh
- Người đánh giá mô hình - Dùng một mô hình AI khác để đánh giá chất lượng
- Người đánh giá con người - Yêu cầu mọi người xem xét và chấm điểm đầu ra theo cách thủ công
Người đánh giá mã
Người đánh giá mã cho phép bạn triển khai bất kỳ kiểm tra theo chương trình nào bạn có thể tưởng tượng. Các ứng dụng phổ biến bao gồm:
- Kiểm tra độ dài đầu ra
- Xác minh đầu ra có/không có các từ nhất định
- Xác thực cú pháp cho JSON, Python hoặc regex
- Điểm dễ đọc
Yêu cầu duy nhất là mã của bạn trả về một số tín hiệu có thể đo lường được khi nó chạy.
Người đánh giá mô hình
Người đánh giá mô hình thực hiện một yêu cầu API bổ sung để đánh giá đầu ra ban đầu. Cách tiếp cận này mang lại sự linh hoạt to lớn để đánh giá:
- Chất lượng phản hồi
- Chất lượng tuân theo hướng dẫn
- Tính đầy đủ
- Sự hữu ích
- Độ an toàn
Người đánh giá con người
Người đánh giá con người cung cấp nhiều sự linh hoạt nhất nhưng tốn thời gian và tẻ nhạt. Chúng hữu ích để đánh giá:
- Chất lượng phản hồi chung
- Tính toàn diện
- Độ sâu
- Sự ngắn gọn
- Mức độ liên quan
Xác định tiêu chí đánh giá

Trước khi triển khai bất kỳ người đánh giá nào, bạn cần có các tiêu chí đánh giá rõ ràng. Đối với một prompt tạo mã, bạn có thể tập trung vào:
- Định dạng - Chỉ nên trả về Python, JSON hoặc Regex mà không cần giải thích
- Cú pháp hợp lệ - Mã được tạo phải có cú pháp hợp lệ
- Tuân theo tác vụ - Phản hồi phải trực tiếp giải quyết tác vụ của người dùng bằng mã chính xác

Hai tiêu chí đầu tiên hoạt động tốt với người đánh giá mã, trong khi việc tuân theo tác vụ phù hợp hơn với người đánh giá mô hình do tính linh hoạt của chúng.
Triển khai một người đánh giá mô hình
Đây là cách xây dựng một hàm người đánh giá mô hình:
def grade_by_model(test_case, output):
# Create evaluation prompt
eval_prompt = """
Bạn là một chuyên gia đánh giá mã. Đánh giá giải pháp do AI tạo ra này.
Tác vụ: {task}
Giải pháp: {solution}
Cung cấp đánh giá của bạn dưới dạng một đối tượng JSON có cấu trúc với:
- "strengths": Một mảng gồm 1-3 điểm mạnh chính
- "weaknesses": Một mảng gồm 1-3 lĩnh vực cần cải thiện chính
- "reasoning": Giải thích ngắn gọn về đánh giá của bạn
- "score": Một số từ 1-10
"""
messages = []
add_user_message(messages, eval_prompt)
add_assistant_message(messages, "```json")
eval_text = chat(messages, stop_sequences=["```"])
return json.loads(eval_text)
Điểm mấu chốt là yêu cầu các điểm mạnh, điểm yếu và lý do cùng với điểm số. Nếu không có ngữ cảnh này, các mô hình có xu hướng mặc định về điểm số ở mức trung bình khoảng 6. ## Tích hợp người đánh giá Cập nhật hàm trường hợp kiểm thử của bạn để dùng người đánh giá mô hình: def run_test_case(test_case): output = run_prompt(test_case) # Get model evaluation model_grade = grade_by_model(test_case, output) score = model_grade["score"] reasoning = model_grade["reasoning"] return { "output": output, "test_case": test_case, "score": score, "reasoning": reasoning } ## Tính toán điểm trung bình Để có được một chỉ số hiệu suất tổng thể, hãy tính điểm trung bình trên tất cả các trường hợp kiểm thử: ``` from statistics import mean def run_eval(dataset): results = [] for test_case in dataset: result = run_test_case(test_case) results.append(result) average_score = mean([result["score"] for result in results]) print(f"Average score: {average_score}") return results ``` ` Điều này cung cấp cho bạn một chỉ số cụ thể, khách quan để theo dõi hiệu suất `prompt` theo thời gian. Mặc dù người đánh giá mô hình có thể hơi không nhất quán, nhưng chúng cung cấp một điểm khởi đầu để đo lường và cải thiện `prompt` của bạn một cách có hệ thống. ` ````
🔁 Bài học liên quan
- Bài tiếp: Code based grading
- Bài trước: Running the eval
- Cùng section: Overview of Claude Models · Accessing the API · Making a request
- Thuộc lộ trình: Path C
- Docs tham khảo: Glossary · Skills atlas · By use-case
📚 Nguồn & ghi nhận
- Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-in-amazon-bedrock/276738
- © 2025 Anthropic. Chỉ dùng cho mục đích giáo dục, fair-use.
- Crawl: — · Chuẩn hoá: 2026-05-01