Prompt evaluation

📖 Nội dung bài học

Họ phông chữ

Tóm tắt

Khi làm việc với Claude, viết một prompt hay chỉ là khởi đầu. Để xây dựng các ứng dụng AI đáng tin cậy, bạn cần hiểu hai khái niệm quan trọng: prompt engineering và đánh giá prompt. Prompt engineering cung cấp cho bạn các kỹ thuật để tạo ra các prompt tốt hơn, trong khi đánh giá prompt giúp bạn đo lường mức độ hiệu quả thực sự của các prompt đó.

`Prompt Engineering` so với Đánh giá `Prompt`

Prompt engineering là bộ công cụ của bạn để viết và cải thiện prompt. Đây là một tập hợp các phương pháp hay nhất giúp Claude hiểu chính xác những gì bạn đang yêu cầu và cách bạn muốn nó phản hồi. Hãy coi nó như là nghệ thuật viết prompt - các kỹ thuật như prompt đa lượt, cấu trúc bằng thẻ XML và nhiều phương pháp khác mà chúng ta sẽ khám phá.

Mặt khác, đánh giá prompt là về đo lường. Đó là thử nghiệm tự động cung cấp cho bạn các số liệu khách quan về việc prompt của bạn có thực sự hiệu quả hay không. Thay vì đoán xem prompt của bạn có hoạt động tốt hay không, việc đánh giá cho phép bạn:

Kiểm tra so với các câu trả lời mong đợi
So sánh các phiên bản khác nhau của cùng một prompt
Xem lại các đầu ra để tìm lỗi

Ba con đường sau khi viết một `Prompt`

Khi bạn đã soạn thảo một prompt, bạn thường phải đối mặt với ba lựa chọn về những gì cần làm tiếp theo:

Lựa chọn 1: Kiểm tra prompt một lần và quyết định nó đủ tốt. Điều này mang theo một rủi ro đáng kể là bị lỗi trong quá trình sản xuất khi người dùng cung cấp các đầu vào không mong muốn.

Lựa chọn 2: Kiểm tra prompt một vài lần và tinh chỉnh nó để xử lý một hoặc hai trường hợp đặc biệt. Mặc dù tốt hơn lựa chọn 1, phương pháp này vẫn khiến bạn dễ bị tổn thương vì người dùng thường sẽ cung cấp các đầu ra rất bất ngờ mà bạn chưa xem xét.

Lựa chọn 3: Chạy prompt thông qua một quy trình đánh giá để chấm điểm nó, sau đó lặp lại trên prompt dựa trên dữ liệu khách quan. Điều này đòi hỏi nhiều công việc và chi phí hơn trước, nhưng mang lại cho bạn sự tự tin hơn nhiều về độ tin cậy của prompt.

Tại sao hầu hết các kỹ sư lại rơi vào bẫy thử nghiệm

Các lựa chọn 1 và 2 là những cái bẫy mà tất cả các kỹ sư đều mắc phải, bao gồm cả tôi. Việc viết một prompt cho một ứng dụng nghiêm túc và không kiểm tra nó một cách kỹ lưỡng là điều tự nhiên. Chúng ta có xu hướng kiểm tra bằng các đầu vào có vẻ hiển nhiên đối với chúng ta, nhưng người dùng thực tế sẽ tương tác với prompt của bạn theo những cách mà bạn không bao giờ lường trước được.

Giải pháp là áp dụng lựa chọn 3: đánh giá có hệ thống. Bằng cách chạy prompt của bạn thông qua các quy trình đánh giá thích hợp, bạn sẽ nhận được các điểm số khách quan cho biết prompt của bạn hoạt động tốt như thế nào trong nhiều tình huống khác nhau. Cách tiếp cận dựa trên dữ liệu này cho phép bạn lặp lại một cách tự tin và giải quyết các vấn đề trước khi chúng đến giai đoạn sản xuất.

Việc hiểu về đánh giá trước tiên sẽ cung cấp cho bạn nền tảng để đo lường những cải tiến khi bạn áp dụng các kỹ thuật prompt engineering. Khi bạn có thể đo lường một cách đáng tin cậy hiệu quả của prompt, bạn có thể thử nghiệm với các phương pháp khác nhau và biết chắc chắn phương pháp nào hoạt động tốt hơn.

🔁 Bài học liên quan

Bài tiếp: A typical eval workflow
Bài trước: Quiz on working with the API
Cùng section: Overview of Claude Models · Accessing the API · Making a request
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-in-amazon-bedrock/276731
Crawl: — · Chuẩn hoá: 2026-05-01