Model based grading

📖 Nội dung bài học

Họ phông chữ

Arial

Đường viền ký tự

Tóm tắt

Khi xây dựng quy trình đánh giá prompt, người đánh giá cung cấp các tín hiệu khách quan về chất lượng đầu ra. Người đánh giá lấy đầu ra của mô hình và trả về một loại phản hồi có thể đo lường được - thường là một số từ 1-10, trong đó 10 đại diện cho chất lượng cao và 1 đại diện cho chất lượng kém.

Các loại người đánh giá

Có ba phương pháp chính để đánh giá đầu ra của mô hình:

Người đánh giá mã - Đánh giá đầu ra theo chương trình bằng cách sử dụng logic tùy chỉnh
Người đánh giá mô hình - Dùng một mô hình AI khác để đánh giá chất lượng
Người đánh giá con người - Yêu cầu mọi người xem xét và chấm điểm đầu ra theo cách thủ công

Người đánh giá mã

Người đánh giá mã cho phép bạn triển khai bất kỳ kiểm tra theo chương trình nào bạn có thể tưởng tượng. Các ứng dụng phổ biến bao gồm:

Kiểm tra độ dài đầu ra
Xác minh đầu ra có/không có các từ nhất định
Xác thực cú pháp cho JSON, Python hoặc regex
Điểm dễ đọc

Yêu cầu duy nhất là mã của bạn trả về một số tín hiệu có thể đo lường được khi nó chạy.

Người đánh giá mô hình

Người đánh giá mô hình thực hiện một yêu cầu API bổ sung để đánh giá đầu ra ban đầu. Cách tiếp cận này mang lại sự linh hoạt to lớn để đánh giá:

Chất lượng phản hồi
Chất lượng tuân theo hướng dẫn
Tính đầy đủ
Sự hữu ích
Độ an toàn

Người đánh giá con người

Người đánh giá con người cung cấp nhiều sự linh hoạt nhất nhưng tốn thời gian và tẻ nhạt. Chúng hữu ích để đánh giá:

Chất lượng phản hồi chung
Tính toàn diện
Độ sâu
Sự ngắn gọn
Mức độ liên quan

Xác định tiêu chí đánh giá

Trước khi triển khai bất kỳ người đánh giá nào, bạn cần có các tiêu chí đánh giá rõ ràng. Đối với một prompt tạo mã, bạn có thể tập trung vào:

Định dạng - Chỉ nên trả về Python, JSON hoặc Regex mà không cần giải thích
Cú pháp hợp lệ - Mã được tạo phải có cú pháp hợp lệ
Tuân theo tác vụ - Phản hồi phải trực tiếp giải quyết tác vụ của người dùng bằng mã chính xác

Hai tiêu chí đầu tiên hoạt động tốt với người đánh giá mã, trong khi việc tuân theo tác vụ phù hợp hơn với người đánh giá mô hình do tính linh hoạt của chúng.

Triển khai một người đánh giá mô hình

Đây là cách xây dựng một hàm người đánh giá mô hình:

def grade_by_model(test_case, output):
    # Create evaluation prompt
    eval_prompt = """
    Bạn là một chuyên gia đánh giá mã. Đánh giá giải pháp do AI tạo ra này.
    
    Tác vụ: {task}
    Giải pháp: {solution}
    
    Cung cấp đánh giá của bạn dưới dạng một đối tượng JSON có cấu trúc với:
    - "strengths": Một mảng gồm 1-3 điểm mạnh chính
    - "weaknesses": Một mảng gồm 1-3 lĩnh vực cần cải thiện chính
    - "reasoning": Giải thích ngắn gọn về đánh giá của bạn
    - "score": Một số từ 1-10
    """
    
    messages = []
    add_user_message(messages, eval_prompt)
    add_assistant_message(messages, "```json")
    
    eval_text = chat(messages, stop_sequences=["```"])
    return json.loads(eval_text)

Điểm mấu chốt là yêu cầu các điểm mạnh, điểm yếu và lý do cùng với điểm số. Nếu không có ngữ cảnh này, các mô hình có xu hướng mặc định về điểm số ở mức trung bình khoảng 6. ## Tích hợp người đánh giá Cập nhật hàm trường hợp kiểm thử của bạn để dùng người đánh giá mô hình: def run_test_case(test_case): output = run_prompt(test_case) # Get model evaluation model_grade = grade_by_model(test_case, output) score = model_grade["score"] reasoning = model_grade["reasoning"] return { "output": output, "test_case": test_case, "score": score, "reasoning": reasoning } ## Tính toán điểm trung bình Để có được một chỉ số hiệu suất tổng thể, hãy tính điểm trung bình trên tất cả các trường hợp kiểm thử: ``` from statistics import mean def run_eval(dataset): results = [] for test_case in dataset: result = run_test_case(test_case) results.append(result) average_score = mean([result["score"] for result in results]) print(f"Average score: {average_score}") return results ``` ` Điều này cung cấp cho bạn một chỉ số cụ thể, khách quan để theo dõi hiệu suất `prompt` theo thời gian. Mặc dù người đánh giá mô hình có thể hơi không nhất quán, nhưng chúng cung cấp một điểm khởi đầu để đo lường và cải thiện `prompt` của bạn một cách có hệ thống. ` ````

🔁 Bài học liên quan

Bài tiếp: Code based grading
Bài trước: Running the eval
Cùng section: Overview of Claude Models · Accessing the API · Making a request
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-in-amazon-bedrock/276738
Crawl: — · Chuẩn hoá: 2026-05-01