Prompt caching

📖 Nội dung bài học

Bật/Tắt tiếngm

Tóm tắt

Prompt caching là một tính năng giúp tăng tốc độ phản hồi của Claude và giảm chi phí tạo văn bản bằng cách tái sử dụng các kết quả tính toán từ những yêu cầu trước đó. Thay vì hủy bỏ toàn bộ quá trình xử lý sau mỗi yêu cầu, Claude có thể lưu lại và tái sử dụng khi bạn gửi nội dung tương tự.

Cách Claude xử lý yêu cầu thông thường

Để hiểu về prompt caching, trước tiên hãy xem điều gì xảy ra trong một yêu cầu điển hình khi không bật tính năng cache.

Khi bạn gửi một tin nhắn cho Claude, nó không bắt đầu tạo phản hồi ngay lập tức. Thay vào đó, Claude thực hiện các bước tiền xử lý (preprocessing) chuyên sâu trên đầu vào của bạn:

Tokenize prompt: Chia nhỏ văn bản thành các đơn vị nhỏ hơn gọi là token.
Tạo embedding cho mỗi token: Chuyển đổi thành các biểu diễn toán học.
Thêm ngữ cảnh: Dựa trên các phần văn bản xung quanh.
Tạo phản hồi: Sau đó mới thực hiện tạo văn bản đầu ra thực tế.

Sau khi gửi phản hồi cho bạn, Claude sẽ hủy bỏ toàn bộ kết quả tính toán này. Mọi thứ đều bị xóa sạch và Claude sẵn sàng cho yêu cầu tiếp theo.

Vấn đề với nội dung lặp lại

Đây là lúc quy trình trở nên kém hiệu quả. Hãy tưởng tượng bạn đang trò chuyện với Claude, vì vậy yêu cầu tiếp theo của bạn sẽ bao gồm:

Tin nhắn gốc của người dùng từ trước đó.
Phản hồi trước đó của Claude.
Tin nhắn tiếp nối mới của bạn.

Claude phải xử lý lại tin nhắn gốc đó từ đầu, mặc dù nó vừa phân tích chính nội dung đó cách đây ít phút. Như Claude có thể nghĩ: "Mình vừa xử lý tin nhắn đó và bỏ hết công sức đã làm. Đáng lẽ mình có thể tái sử dụng nó!"

Prompt caching giải quyết vấn đề này như thế nào

Prompt caching thay đổi quy trình lãng phí này. Thay vì hủy bỏ kết quả tiền xử lý, Claude sẽ lưu chúng vào một cache.

Cách thức hoạt động như sau:

Yêu cầu ban đầu: Claude xử lý tin nhắn của bạn và ghi kết quả tính toán vào một cache.
Các yêu cầu tiếp theo: Khi Claude thấy lại cùng một nội dung, nó sẽ đọc kết quả đã xử lý trước đó từ cache thay vì bắt đầu lại từ đầu.

Cache hoạt động giống như một bảng tra cứu: "Nếu mình gặp lại tin nhắn này, mình sẽ dùng lại kết quả đã làm."

Lợi ích và Hạn chế chính

Prompt caching mang lại nhiều lợi thế:

Phản hồi nhanh hơn: Các yêu cầu sử dụng nội dung đã được cache sẽ thực thi nhanh hơn.
Chi phí thấp hơn: Bạn trả ít tiền hơn cho việc xử lý có tái sử dụng kết quả từ cache.
Tối ưu hóa tự động: Yêu cầu đầu tiên ghi vào cache, các yêu cầu sau sẽ đọc từ đó.

Tuy nhiên, có những hạn chế quan trọng cần lưu ý:

Thời gian tồn tại ngắn: Cache chỉ tồn tại trong 5 phút.
Yêu cầu khớp chính xác: Chỉ hữu ích khi bạn gửi lặp lại chính xác cùng một nội dung.
Trường hợp sử dụng phổ biến: Điều này xảy ra cực kỳ thường xuyên trong các ứng dụng hội thoại và quy trình phân tích tài liệu.

Prompt caching đặc biệt có giá trị cho các ứng dụng mà người dùng thường xuyên tham chiếu đến cùng một tài liệu, tiếp tục các cuộc hội thoại dài hoặc lặp lại các prompt tương tự trong một khoảng thời gian ngắn.

🔁 Bài học liên quan

Bài tiếp: Rules of prompt caching
Bài trước: Citations
Cùng section: Making a request · Multi-turn conversations · Chat exercise
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-google-vertex/289196
Crawl: 2026-04-23 · Chuẩn hoá: 2026-05-01