Introducing Retrieval Augmented Generation

📖 Nội dung bài học

Tóm tắt

Retrieval Augmented Generation (RAG) là một kỹ thuật giúp bạn làm việc với các tài liệu lớn bằng cách chia chúng thành các phần nhỏ hơn và chỉ cung cấp cho Claude những phần liên quan nhất cho mỗi câu hỏi. Thay vì làm cho mô hình quá tải với toàn bộ một báo cáo tài chính dài 800 trang, RAG cho phép bạn trích xuất chỉ những phần quan trọng để trả lời các truy vấn cụ thể.

Vấn đề với tài liệu lớn

Khi bạn có một tài liệu lớn và muốn hỏi Claude những câu hỏi cụ thể về nó, bạn phải đối mặt với một thách thức cơ bản: làm thế nào để bạn đưa thông tin chính xác đến Claude mà không gặp giới hạn hoặc làm giảm hiệu suất?

Hãy xem xét việc hỏi "Công ty này có những yếu tố rủi ro nào?" về một tài liệu tài chính dài. Tài liệu chứa câu trả lời, nhưng Claude cần truy cập vào nội dung liên quan để giúp bạn.

Tùy chọn 1: Bao gồm mọi thứ trong prompt

Cách tiếp cận đơn giản là trích xuất tất cả văn bản từ tài liệu và nhồi nó vào một prompt:

Phương pháp này có những hạn chế nghiêm trọng:

Giới hạn token cứng có nghĩa là các tài liệu rất dài đơn giản là không phù hợp
Claude trở nên kém hiệu quả hơn với các prompt cực kỳ dài
Prompt lớn hơn tốn kém hơn và mất nhiều thời gian hơn để xử lý
Hiệu suất giảm khi có quá nhiều thông tin để sàng lọc

Tùy chọn 2: Chia tài liệu thành các chunk

RAG áp dụng một cách tiếp cận thông minh hơn bằng cách tiền xử lý các tài liệu thành các phần có thể quản lý được, sau đó chỉ truy xuất các chunk liên quan cho mỗi câu hỏi.

Đây là cách nó hoạt động:

Chia tài liệu thành các chunk nhỏ hơn (Triển vọng chiến lược, Yếu tố rủi ro, Bảng cân đối kế toán, v.v.)
Khi người dùng đặt câu hỏi, hãy phân tích những gì họ đang tìm kiếm
Tìm các chunk liên quan nhất đến câu hỏi của họ
Chỉ bao gồm những chunk liên quan đó trong prompt cho Claude

Đối với một câu hỏi về rủi ro của công ty, hệ thống sẽ xác định và truy xuất chunk "Yếu tố rủi ro", cung cấp cho Claude bối cảnh tập trung, liên quan thay vì toàn bộ tài liệu.

Lợi ích của RAG

Claude có thể tập trung vào chỉ nội dung liên quan nhất
Có thể mở rộng quy mô cho các tài liệu rất lớn và nhiều tài liệu
Hoạt động trên các bộ sưu tập tài liệu, không chỉ các tệp đơn lẻ
Prompt nhỏ hơn có nghĩa là xử lý nhanh hơn và chi phí thấp hơn

Thách thức với RAG

RAG giới thiệu sự phức tạp mà bạn cần quản lý:

Yêu cầu một bước tiền xử lý để chia nhỏ tài liệu
Cần một cơ chế tìm kiếm để tìm các chunk liên quan
Các chunk được truy xuất có thể không chứa tất cả bối cảnh cần thiết
Nhiều cách khác nhau để chia nhỏ văn bản - cách tiếp cận nào hiệu quả nhất?

Bạn có thể chia nhỏ tài liệu theo các phần bằng nhau, theo tiêu đề và phần, theo ý nghĩa ngữ nghĩa hoặc các chiến lược khác. Mỗi cách tiếp cận có những đánh đổi mà bạn cần đánh giá cho trường hợp sử dụng cụ thể của mình.

Khi nào nên dùng RAG

RAG tỏa sáng khi bạn làm việc với các tài liệu lớn hoặc bộ sưu tập tài liệu nơi người dùng đặt các câu hỏi cụ thể chỉ yêu cầu các phần của nội dung. Sự phức tạp của tiền xử lý sẽ được đền đáp khi bạn cần mở rộng quy mô vượt quá những gì phù hợp trong một prompt, khi bạn muốn phản hồi nhanh hơn hoặc khi bạn đang quản lý chi phí trên nhiều truy vấn.

Điều quan trọng là phân tích xem chi phí kỹ thuật của việc triển khai chia nhỏ, tìm kiếm và truy xuất có ý nghĩa đối với ứng dụng cụ thể của bạn hay không. Đôi khi, cách tiếp cận đơn giản "đổ mọi thứ vào một prompt" hoạt động tốt - những lúc khác, RAG trở nên cần thiết để làm cho hệ thống của bạn thiết thực và hiệu quả.

🔁 Bài học liên quan

Bài tiếp: Text chunking strategies
Bài trước: Quiz on tool use
Cùng section: Overview of Claude Models · Accessing the API · Making a request
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-in-amazon-bedrock/276780
Crawl: — · Chuẩn hoá: 2026-05-01