Introducing Retrieval Augmented Generation

📖 Nội dung bài học

Tóm tắt

Retrieval Augmented Generation (RAG) là một kỹ thuật giúp bạn làm việc với các tài liệu lớn khi dùng Claude. Thay vì nhồi nhét toàn bộ báo cáo tài chính dài 800 trang vào một prompt duy nhất, RAG cho phép bạn tìm kiếm thông minh và chỉ đưa vào những phần liên quan nhất cho mỗi câu hỏi.

Vấn đề với các tài liệu lớn

Hãy tưởng tượng bạn có một tài liệu tài chính khổng lồ và muốn hỏi Claude những câu hỏi cụ thể về nó, ví dụ như "Công ty này có những yếu tố rủi ro nào?". Bạn sẽ đối mặt với một thách thức cơ bản: làm thế nào để đưa đúng thông tin từ tài liệu vào Claude để nó có thể trả lời câu hỏi của bạn một cách hiệu quả?

Tùy chọn 1: Đưa mọi thứ vào prompt

Cách tiếp cận đầu tiên có vẻ đơn giản - trích xuất tất cả văn bản từ tài liệu và đưa trực tiếp vào prompt cùng với câu hỏi của người dùng.

Cách tiếp cận này có một số vấn đề:

Có một giới hạn cứng về lượng văn bản mà Claude có thể xử lý - tài liệu của bạn có thể quá dài.
Claude kém hiệu quả hơn với các prompt rất dài.
Các prompt lớn hơn tốn nhiều chi phí hơn và mất nhiều thời gian xử lý hơn.

Tùy chọn 2: Chia tài liệu thành các chunk

Cách tiếp cận thứ hai tinh vi hơn. Bạn chia tài liệu thành các chunk nhỏ hơn trong bước tiền xử lý, sau đó tìm và chỉ đưa vào các chunk liên quan đến từng câu hỏi của người dùng.

Đây là cách nó hoạt động: khi người dùng hỏi "Công ty này đối mặt với những rủi ro nào?", bạn tìm kiếm trong các chunk của mình để tìm chunk về "Yếu tố rủi ro" và chỉ đưa phần đó vào prompt gửi đến Claude.

Lợi ích của cách tiếp cận chia chunk

Claude có thể tập trung vào nội dung liên quan nhất.
Mở rộng quy mô cho các tài liệu rất lớn.
Hoạt động với nhiều tài liệu.
Các prompt nhỏ hơn tốn ít chi phí hơn và chạy nhanh hơn.

Thách thức khi chia chunk

Yêu cầu một bước tiền xử lý để chia tài liệu.
Cần một cơ chế tìm kiếm để tìm các chunk "liên quan".
Các chunk được đưa vào có thể không chứa tất cả context mà Claude cần.
Có nhiều cách để chia văn bản thành chunk - cách nào là tốt nhất?

Ví dụ, nếu bạn chỉ đưa vào phần "Yếu tố rủi ro", bạn có thể bỏ lỡ context quan trọng từ phần "Triển vọng chiến lược" vốn đề cập đến cách công ty dự định xử lý những rủi ro đó.

Đây chính là RAG

Tùy chọn 2 chính là Retrieval Augmented Generation (RAG). Mặc dù phức tạp, RAG mang lại những lợi thế đáng kể khi làm việc với các tài liệu lớn, nhưng nó đi kèm với những thách thức kỹ thuật đòi hỏi phải xem xét cẩn thận.

Các thành phần chính của RAG bao gồm:

Tiền xử lý tài liệu và chia chunk.
Cơ chế tìm kiếm để tìm các chunk liên quan.
Lựa chọn thông minh các chunk để đưa vào prompt.

Khi xem xét RAG cho ứng dụng của mình, bạn cần đánh giá xem liệu lợi ích có lớn hơn sự phức tạp bổ sung cho trường hợp sử dụng cụ thể của bạn hay không. Kỹ thuật này phát huy tác dụng khi làm việc với các bộ sưu tập tài liệu lớn, nơi bạn cần các câu trả lời chính xác, có context, nhưng nó đòi hỏi nhiều công việc kỹ thuật ban đầu hơn so với việc chỉ đưa toàn bộ tài liệu vào prompt.

🔁 Bài học liên quan

Bài tiếp: Text chunking strategies
Bài trước: Quiz on tool use with Claude
Cùng section: Making a request · Multi-turn conversations · Chat exercise
Thuộc lộ trình: Path C
Docs tham khảo: Glossary · Skills atlas · By use-case

📚 Nguồn & ghi nhận

Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/claude-with-google-vertex/289191
Crawl: 2026-04-23 · Chuẩn hoá: 2026-05-01