Prompt caching

📖 Nội dung bài học

Họ phông chữ

Tóm tắt

Caching prompt là một tính năng giúp tăng tốc phản hồi của Claude và giảm chi phí tạo văn bản bằng cách dùng lại các tính toán từ các yêu cầu trước đó. Để hiểu cách thức hoạt động, hãy xem xét những gì thường xảy ra bên trong Claude trong một yêu cầu thông thường.

Cách Claude Xử lý Yêu cầu Thông thường

Khi bạn gửi tin nhắn cho Claude, rất nhiều thứ diễn ra ở hậu trường trước khi bạn nhận được phản hồi. Claude không chỉ bắt đầu tạo văn bản ngay lập tức - trước tiên, nó thực hiện rất nhiều công việc trên tin nhắn đầu vào của bạn.

Đây là những gì Claude làm với tin nhắn của bạn:

Tokenize prompt
Tạo embeddings cho mỗi token
Thêm ngữ cảnh dựa trên văn bản xung quanh
Tạo văn bản đầu ra

Tất cả các công việc tiền xử lý này diễn ra trước khi Claude tạo bất kỳ phản hồi thực tế nào. Khi Claude hoàn thành việc xử lý yêu cầu của bạn và gửi lại phản hồi, nó sẽ loại bỏ tất cả các tính toán vừa thực hiện.

Vấn đề với việc Loại bỏ Công việc

Điều này tạo ra sự kém hiệu quả khi bạn đang trò chuyện với Claude. Giả sử bạn thực hiện một yêu cầu tiếp theo bao gồm cùng một tin nhắn từ trước đó, cộng với phản hồi trước đó của Claude, cộng với một tin nhắn mới để tiếp tục cuộc trò chuyện.

Khi Claude nhìn thấy lại tin nhắn gốc đó, nó phải thực hiện lại tất cả các tính toán tương tự mà nó vừa loại bỏ trước đó. Claude về cơ bản nghĩ: "Tôi vừa xử lý chính xác tin nhắn này và đã làm tất cả công việc này, sau đó loại bỏ nó. Bây giờ tôi phải làm lại từ đầu."

Caching Prompt Giải quyết Vấn đề này như thế nào

Caching prompt giải quyết sự kém hiệu quả này bằng cách lưu các tính toán thay vì loại bỏ chúng. Đây là cách nó hoạt động:

Khi Claude xử lý yêu cầu ban đầu của bạn, thay vì loại bỏ tất cả các công việc tiền xử lý, nó sẽ lưu trữ công việc đó trong bộ nhớ cache. Bộ nhớ cache hoạt động giống như một bảng tra cứu, ánh xạ các tin nhắn đầu vào cụ thể với các kết quả tính toán tương ứng của chúng.

Khi bạn thực hiện một yêu cầu tiếp theo bao gồm cùng một nội dung, Claude có thể kiểm tra bộ nhớ cache của nó và dùng lại công việc trước đó thay vì bắt đầu lại từ đầu.

Lợi ích và Hạn chế Chính

Caching prompt mang lại một số lợi thế:

Các yêu cầu dùng nội dung đã được cache sẽ rẻ hơn và nhanh hơn để thực thi
Yêu cầu ban đầu sẽ ghi vào bộ nhớ cache
Các yêu cầu tiếp theo có thể đọc từ bộ nhớ cache
Bộ nhớ cache tồn tại trong 5 phút
Chỉ hữu ích nếu bạn liên tục gửi cùng một nội dung (nhưng điều này xảy ra cực kỳ thường xuyên)

Bộ nhớ cache có thời hạn 5 phút, vì vậy nó hữu ích nhất cho các cuộc trò chuyện hoặc quy trình làm việc mà bạn thực hiện nhiều yêu cầu với nội dung chồng chéo trong một khoảng thời gian ngắn. Mô hình này thực sự rất phổ biến trong các ứng dụng thực tế - hãy nghĩ đến chatbot, công cụ phân tích tài liệu hoặc bất kỳ hệ thống nào duy trì ngữ cảnh trò chuyện.

Caching prompt đặc biệt có giá trị vì nhiều ứng dụng AI liên tục gửi cùng một nội dung. Cho dù đó là system prompt, lịch sử trò chuyện hay các tài liệu lớn đang được phân tích, cùng một văn bản thường xuất hiện trên nhiều yêu cầu trong một phiên.

🔁 Bài học liên quan

Bài tiếp: Rules of prompt caching
Bài trước: Citations
Cùng section: Overview of Claude Models · Accessing the API · Making a request
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-in-amazon-bedrock/276786
Crawl: — · Chuẩn hoá: 2026-05-01