📖 Nội dung bài học
Tóm tắt
Retrieval Augmented Generation (RAG) là một kỹ thuật giúp bạn làm việc với các tài liệu lớn bằng cách chia chúng thành các phần nhỏ hơn và chỉ cung cấp cho Claude những phần liên quan nhất cho mỗi câu hỏi. Thay vì làm cho mô hình quá tải với toàn bộ một báo cáo tài chính dài 800 trang, RAG cho phép bạn trích xuất chỉ những phần quan trọng để trả lời các truy vấn cụ thể.
Vấn đề với tài liệu lớn
Khi bạn có một tài liệu lớn và muốn hỏi Claude những câu hỏi cụ thể về nó, bạn phải đối mặt với một thách thức cơ bản: làm thế nào để bạn đưa thông tin chính xác đến Claude mà không gặp giới hạn hoặc làm giảm hiệu suất?

Hãy xem xét việc hỏi "Công ty này có những yếu tố rủi ro nào?" về một tài liệu tài chính dài. Tài liệu chứa câu trả lời, nhưng Claude cần truy cập vào nội dung liên quan để giúp bạn.
Tùy chọn 1: Bao gồm mọi thứ trong prompt
Cách tiếp cận đơn giản là trích xuất tất cả văn bản từ tài liệu và nhồi nó vào một prompt:

Phương pháp này có những hạn chế nghiêm trọng:
- Giới hạn
tokencứng có nghĩa là các tài liệu rất dài đơn giản là không phù hợp - Claude trở nên kém hiệu quả hơn với các
promptcực kỳ dài Promptlớn hơn tốn kém hơn và mất nhiều thời gian hơn để xử lý- Hiệu suất giảm khi có quá nhiều thông tin để sàng lọc
Tùy chọn 2: Chia tài liệu thành các chunk
RAG áp dụng một cách tiếp cận thông minh hơn bằng cách tiền xử lý các tài liệu thành các phần có thể quản lý được, sau đó chỉ truy xuất các chunk liên quan cho mỗi câu hỏi.

Đây là cách nó hoạt động:
- Chia tài liệu thành các
chunknhỏ hơn (Triển vọng chiến lược, Yếu tố rủi ro, Bảng cân đối kế toán, v.v.) - Khi người dùng đặt câu hỏi, hãy phân tích những gì họ đang tìm kiếm
- Tìm các
chunkliên quan nhất đến câu hỏi của họ - Chỉ bao gồm những
chunkliên quan đó trongpromptcho Claude

Đối với một câu hỏi về rủi ro của công ty, hệ thống sẽ xác định và truy xuất chunk "Yếu tố rủi ro", cung cấp cho Claude bối cảnh tập trung, liên quan thay vì toàn bộ tài liệu.
Lợi ích của RAG
- Claude có thể tập trung vào chỉ nội dung liên quan nhất
- Có thể mở rộng quy mô cho các tài liệu rất lớn và nhiều tài liệu
- Hoạt động trên các bộ sưu tập tài liệu, không chỉ các tệp đơn lẻ
Promptnhỏ hơn có nghĩa là xử lý nhanh hơn và chi phí thấp hơn
Thách thức với RAG
RAG giới thiệu sự phức tạp mà bạn cần quản lý:
- Yêu cầu một bước tiền xử lý để chia nhỏ tài liệu
- Cần một cơ chế tìm kiếm để tìm các
chunkliên quan - Các
chunkđược truy xuất có thể không chứa tất cả bối cảnh cần thiết - Nhiều cách khác nhau để chia nhỏ văn bản - cách tiếp cận nào hiệu quả nhất?
Bạn có thể chia nhỏ tài liệu theo các phần bằng nhau, theo tiêu đề và phần, theo ý nghĩa ngữ nghĩa hoặc các chiến lược khác. Mỗi cách tiếp cận có những đánh đổi mà bạn cần đánh giá cho trường hợp sử dụng cụ thể của mình.
Khi nào nên dùng RAG
RAG tỏa sáng khi bạn làm việc với các tài liệu lớn hoặc bộ sưu tập tài liệu nơi người dùng đặt các câu hỏi cụ thể chỉ yêu cầu các phần của nội dung. Sự phức tạp của tiền xử lý sẽ được đền đáp khi bạn cần mở rộng quy mô vượt quá những gì phù hợp trong một prompt, khi bạn muốn phản hồi nhanh hơn hoặc khi bạn đang quản lý chi phí trên nhiều truy vấn.
Điều quan trọng là phân tích xem chi phí kỹ thuật của việc triển khai chia nhỏ, tìm kiếm và truy xuất có ý nghĩa đối với ứng dụng cụ thể của bạn hay không. Đôi khi, cách tiếp cận đơn giản "đổ mọi thứ vào một prompt" hoạt động tốt - những lúc khác, RAG trở nên cần thiết để làm cho hệ thống của bạn thiết thực và hiệu quả.
🔁 Bài học liên quan
- Bài tiếp: Text chunking strategies
- Bài trước: Quiz on tool use
- Cùng section: Overview of Claude Models · Accessing the API · Making a request
- Thuộc lộ trình: Path C
- Docs tham khảo: Glossary · Skills atlas · By use-case
📚 Nguồn & ghi nhận
- Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-in-amazon-bedrock/276780
- © 2025 Anthropic. Chỉ dùng cho mục đích giáo dục, fair-use.
- Crawl: — · Chuẩn hoá: 2026-05-01