Prompt evaluation

📖 Nội dung bài học

Tóm tắt

Khi làm việc với Claude, viết một prompt hay chỉ là khởi đầu. Để xây dựng các ứng dụng AI đáng tin cậy, bạn cần hiểu hai khái niệm quan trọng: prompt engineering và đánh giá prompt. Prompt engineering cung cấp cho bạn các kỹ thuật để viết prompt tốt hơn, trong khi đánh giá prompt giúp bạn đo lường mức độ hiệu quả của các prompt đó.

`Prompt engineering` so với Đánh giá `prompt`

Prompt engineering là bộ công cụ của bạn để tạo ra các prompt hiệu quả. Nó bao gồm các kỹ thuật như:

Prompt nhiều lượt
Cấu trúc với thẻ XML
Nhiều phương pháp hay nhất khác

Các kỹ thuật này giúp Claude hiểu chính xác những gì bạn đang yêu cầu và cách bạn muốn nó phản hồi.

Đánh giá prompt có một cách tiếp cận khác. Thay vì tập trung vào cách viết prompt, nó tập trung vào việc đo lường hiệu quả của chúng thông qua thử nghiệm tự động. Bạn có thể:

Kiểm tra so với các câu trả lời mong đợi
So sánh các phiên bản khác nhau của cùng một prompt
Xem lại các kết quả đầu ra để tìm lỗi

Ba con đường sau khi viết một `prompt`

Khi bạn đã soạn thảo một prompt, bạn thường phải đối mặt với ba lựa chọn về những gì cần làm tiếp theo:

Lựa chọn 1: Kiểm tra prompt một lần và quyết định nó đủ tốt. Điều này mang rủi ro đáng kể là bị lỗi trong quá trình sản xuất khi người dùng cung cấp các đầu vào không mong muốn.

Lựa chọn 2: Kiểm tra prompt một vài lần và tinh chỉnh nó để xử lý một hoặc hai trường hợp đặc biệt. Mặc dù tốt hơn lựa chọn 1, người dùng thường sẽ cung cấp các đầu ra rất bất ngờ mà bạn chưa xem xét.

Lựa chọn 3: Chạy prompt thông qua một quy trình đánh giá để chấm điểm nó, sau đó lặp lại prompt dựa trên các số liệu khách quan. Cách tiếp cận này đòi hỏi nhiều công sức và chi phí hơn, nhưng mang lại cho bạn sự tự tin hơn nhiều vào độ tin cậy của prompt.

Tại sao hầu hết các kỹ sư lại rơi vào bẫy thử nghiệm

Các lựa chọn 1 và 2 là những cạm bẫy phổ biến mà tất cả các kỹ sư đều mắc phải, bao gồm cả tôi. Việc viết một prompt cho một ứng dụng nghiêm túc và không kiểm tra nó một cách kỹ lưỡng là điều tự nhiên. Chúng ta có xu hướng đánh giá thấp số lượng các trường hợp đặc biệt mà người dùng thực tế sẽ gặp phải.

Thực tế là khi bạn triển khai một prompt vào sản xuất, người dùng sẽ tương tác với nó theo những cách mà bạn chưa từng dự đoán. Những gì có vẻ như là một prompt vững chắc trong quá trình thử nghiệm hạn chế của bạn có thể nhanh chóng bị phá vỡ khi đối mặt với sự đa dạng đầy đủ của các đầu vào trong thế giới thực.

Cách tiếp cận ưu tiên đánh giá

Lựa chọn 3 thể hiện một cách tiếp cận có hệ thống hơn để phát triển prompt. Bằng cách chạy prompt của bạn thông qua một quy trình đánh giá, bạn sẽ nhận được các số liệu khách quan về hiệu suất của nó trên một loạt các trường hợp thử nghiệm rộng hơn. Cách tiếp cận dựa trên dữ liệu này cho phép bạn:

Xác định các điểm yếu trước khi chúng trở thành vấn đề trong sản xuất
So sánh các phiên bản prompt khác nhau một cách khách quan
Lặp lại một cách tự tin dựa trên những cải tiến có thể đo lường được
Xây dựng các ứng dụng AI đáng tin cậy hơn

Mặc dù cách tiếp cận này đòi hỏi khoản đầu tư ban đầu lớn hơn về thời gian và cơ sở hạ tầng thử nghiệm, nhưng nó mang lại hiệu quả trong độ tin cậy và khả năng ứng dụng cuối cùng của bạn. Mục tiêu là giải quyết các vấn đề trong quá trình phát triển hơn là sau khi người dùng của bạn gặp phải chúng.

🔁 Bài học liên quan

Bài tiếp: A typical eval workflow
Bài trước: Quiz on accessing Claude with the API
Cùng section: Making a request · Multi-Turn conversations · Chat exercise
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-the-anthropic-api/287731
Crawl: — · Chuẩn hoá: 2026-05-01