📖 Nội dung bài học
Summary
Prompt caching là một tính năng giúp tăng tốc độ phản hồi của Claude và giảm chi phí tạo văn bản bằng cách tái sử dụng công việc tính toán từ các yêu cầu trước đó. Thay vì loại bỏ toàn bộ quá trình xử lý sau mỗi yêu cầu, Claude có thể lưu và tái sử dụng nó khi bạn gửi lại nội dung tương tự.
Cách Claude Xử Lý Yêu Cầu Thông Thường
Để hiểu về prompt caching, trước tiên chúng ta hãy xem điều gì xảy ra trong một yêu cầu thông thường mà không bật caching.

Khi bạn gửi một tin nhắn đến Claude, nó không bắt đầu tạo phản hồi ngay lập tức. Thay vào đó, Claude thực hiện một lượng lớn công việc tiền xử lý trên đầu vào của bạn:

- Tokenize prompt thành các phần nhỏ hơn
- Tạo embeddings cho mỗi token
- Thêm ngữ cảnh dựa trên văn bản xung quanh
- Chỉ sau đó mới tạo ra văn bản đầu ra thực tế
Sau khi gửi phản hồi cho bạn, Claude loại bỏ tất cả công việc tính toán này - việc tokenization, embeddings và phân tích ngữ cảnh đều bị loại bỏ.

Vấn Đề Khi Loại Bỏ Công Việc
Điều này trở nên kém hiệu quả khi bạn thực hiện các yêu cầu tiếp theo bao gồm cùng một nội dung. Ví dụ, trong một cuộc trò chuyện nơi bạn yêu cầu Claude tinh chỉnh bản tóm tắt của cùng một văn bản dài:

Claude phải lặp lại tất cả các công việc tiền xử lý giống nhau trên nội dung mà nó vừa phân tích cách đây vài phút. Như Claude có thể tự nghĩ: "Tôi vừa xử lý tin nhắn đó và loại bỏ tất cả công việc tôi đã làm - lẽ ra tôi có thể tái sử dụng nó!"

Prompt Caching Giải Quyết Vấn Đề Này Như Thế Nào
Prompt caching thay đổi quy trình làm việc này bằng cách lưu công việc tiền xử lý thay vì loại bỏ nó:

Khi bạn thực hiện một yêu cầu ban đầu, Claude thực hiện tất cả các công việc tiền xử lý thông thường nhưng lưu kết quả vào một cache thay vì loại bỏ chúng. Cache hoạt động như một bảng tra cứu nói rằng "Nếu tôi thấy tin nhắn này một lần nữa, tôi sẽ tái sử dụng công việc tôi đã làm."

Lợi Ích và Hạn Chế Chính

Prompt caching mang lại một số lợi thế:
- Phản hồi nhanh hơn: Các yêu cầu sử dụng nội dung được cache thực thi nhanh hơn
- Chi phí thấp hơn: Bạn trả ít tiền hơn cho các phần được cache của yêu cầu
- Tối ưu hóa tự động: Yêu cầu ban đầu ghi vào cache, các yêu cầu tiếp theo đọc từ đó
Tuy nhiên, có những hạn chế quan trọng cần lưu ý:
- Thời gian tồn tại của cache: Nội dung được cache chỉ tồn tại trong một giờ
- Trường hợp sử dụng hạn chế: Chỉ có lợi khi bạn liên tục gửi cùng một nội dung
- Yêu cầu tần suất cao: Hiệu quả nhất khi cùng một nội dung xuất hiện cực kỳ thường xuyên trong các yêu cầu của bạn
Prompt caching hoạt động tốt nhất cho các tình huống như quy trình làm việc phân tích tài liệu, nơi bạn đặt nhiều câu hỏi về cùng một tài liệu lớn, hoặc các tác vụ chỉnh sửa lặp đi lặp lại, nơi nội dung cơ bản không đổi trong khi bạn tinh chỉnh các khía cạnh cụ thể.
🔁 Bài học liên quan
- Bài tiếp: Rules of prompt caching
- Bài trước: Citations
- Cùng section: Making a request · Multi-Turn conversations · Chat exercise
- Thuộc lộ trình: Path C
- Docs tham khảo: Glossary · Skills atlas · By use-case
📚 Nguồn & ghi nhận
- Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-the-anthropic-api/287772
- © 2025 Anthropic. Chỉ dùng cho mục đích giáo dục, fair-use.
- Crawl: 2026-04-23 · Chuẩn hoá: 2026-05-01