Prompt evaluation

📖 Nội dung bài học

Bật/Tắt tiếngm Video này đang được xử lý. Vui lòng quay lại sau và tải lại trang.

Tóm tắt

Khi làm việc với Claude, viết một prompt tốt chỉ là bước khởi đầu. Để xây dựng các ứng dụng AI đáng tin cậy, bạn cần hiểu hai khái niệm quan trọng: prompt engineering và đánh giá prompt (prompt evaluation). Prompt engineering cung cấp cho bạn các kỹ thuật để viết prompt tốt hơn, trong khi prompt evaluation giúp bạn đo lường hiệu quả thực tế của những prompt đó.

Prompt Engineering vs Prompt Evaluation

Prompt engineering là bộ công cụ để bạn viết và cải thiện prompt. Đây là tập hợp các phương pháp hay nhất (best practices) giúp Claude hiểu chính xác những gì bạn yêu cầu và cách bạn muốn nó phản hồi. Hãy coi đó là nghệ thuật viết prompt - bao gồm các kỹ thuật như multishot prompting, cấu trúc bằng thẻ XML và nhiều phương pháp khác mà chúng ta sẽ khám phá.

Ngược lại, đánh giá prompt (prompt evaluation) là về việc đo lường. Đó là quá trình kiểm thử tự động nhằm cung cấp các chỉ số khách quan về việc liệu prompt của bạn có thực sự hiệu quả hay không. Thay vì đoán xem prompt có hoạt động tốt không, việc đánh giá cho phép bạn:

Kiểm tra so với câu trả lời kỳ vọng
So sánh các phiên bản khác nhau của cùng một prompt
Xem xét các kết quả đầu ra để tìm lỗi

Ba con đường sau khi viết một Prompt

Sau khi soạn thảo xong một prompt, bạn thường đối mặt với ba lựa chọn tiếp theo:

Lựa chọn 1: Thử nghiệm prompt một lần và quyết định rằng nó đã đủ tốt. Điều này tiềm ẩn rủi ro lớn là prompt sẽ bị lỗi khi chạy thực tế (production) nếu người dùng nhập vào những dữ liệu không mong đợi.

Lựa chọn 2: Thử nghiệm prompt vài lần và tinh chỉnh để xử lý một hoặc hai trường hợp biên (corner case). Mặc dù tốt hơn lựa chọn 1, nhưng người dùng thường sẽ đưa ra những dữ liệu đầu vào rất bất ngờ mà bạn chưa lường trước được.

Lựa chọn 3: Chạy prompt qua một quy trình đánh giá (evaluation pipeline) để chấm điểm, sau đó lặp lại (iterate) việc cải thiện prompt dựa trên dữ liệu khách quan. Cách này đòi hỏi nhiều công sức và chi phí ban đầu hơn, nhưng mang lại sự tự tin cao hơn nhiều về độ tin cậy của prompt.

Tại sao hầu hết kỹ sư đều rơi vào bẫy thử nghiệm

Lựa chọn 1 và 2 là những cái bẫy mà mọi kỹ sư đều dễ mắc phải - kể cả tôi. Việc viết một prompt, thử nghiệm vài lần với dữ liệu của chính mình và nghĩ rằng "thế này là ổn rồi" là điều rất tự nhiên. Nhưng khi bạn xây dựng các ứng dụng nghiêm túc, cách tiếp cận này thường dẫn đến vấn đề khi triển khai thực tế.

Vấn đề là bạn không thể dự đoán hết mọi cách mà người dùng sẽ tương tác với prompt của mình. Những gì có vẻ hoạt động hoàn hảo trong phạm vi thử nghiệm hạn chế có thể thất bại hoàn toàn khi đối mặt với các mẫu sử dụng thực tế.

Giá trị của việc đánh giá có hệ thống

Lựa chọn 3 - chạy prompt qua một evaluation pipeline - cung cấp cho bạn dữ liệu khách quan về hiệu suất. Thay vì dựa vào cảm giác hoặc thử nghiệm thủ công hạn chế, bạn nhận được các điểm số có thể đo lường được, cho biết prompt xử lý các đầu vào đa dạng tốt đến mức nào.

Cách tiếp cận này cho phép bạn lặp lại việc cải thiện một cách tự tin. Bạn có thể thay đổi prompt và thấy ngay lập tức liệu những thay đổi đó giúp cải thiện hay làm giảm hiệu suất. Đó là sự khác biệt giữa việc "đoán" và "biết" liệu những cải tiến prompt của bạn có thực sự hiệu quả hay không.

Mặc dù việc đánh giá đòi hỏi đầu tư nhiều hơn về thời gian và nguồn lực ban đầu, nhưng nó mang lại giá trị lớn khi bạn cần những prompt sẵn sàng cho production, hoạt động ổn định trên nhiều loại đầu vào khác nhau của người dùng.

🔁 Bài học liên quan

Bài tiếp: A typical eval workflow
Bài trước: Quiz on accessing Claude with the API
Cùng section: Making a request · Multi-turn conversations · Chat exercise
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-google-vertex/289159
Crawl: 2026-04-23 · Chuẩn hoá: 2026-05-01