Bỏ qua đến nội dung chính

Introducing Retrieval Augmented Generation

📖 Nội dung bài học

Tóm tắt

Retrieval Augmented Generation (RAG) là một kỹ thuật giúp bạn làm việc với các tài liệu lớn bằng cách chia chúng thành các phần nhỏ hơn và chỉ cung cấp cho Claude những phần liên quan nhất cho mỗi câu hỏi. Thay vì làm cho mô hình quá tải với toàn bộ một báo cáo tài chính dài 800 trang, RAG cho phép bạn trích xuất chỉ những phần quan trọng để trả lời các truy vấn cụ thể.

Vấn đề với tài liệu lớn

Khi bạn có một tài liệu lớn và muốn hỏi Claude những câu hỏi cụ thể về nó, bạn phải đối mặt với một thách thức cơ bản: làm thế nào để bạn đưa thông tin chính xác đến Claude mà không gặp giới hạn hoặc làm giảm hiệu suất?

Hãy xem xét việc hỏi "Công ty này có những yếu tố rủi ro nào?" về một tài liệu tài chính dài. Tài liệu chứa câu trả lời, nhưng Claude cần truy cập vào nội dung liên quan để giúp bạn.

Tùy chọn 1: Bao gồm mọi thứ trong prompt

Cách tiếp cận đơn giản là trích xuất tất cả văn bản từ tài liệu và nhồi nó vào một prompt:

Phương pháp này có những hạn chế nghiêm trọng:

  • Giới hạn token cứng có nghĩa là các tài liệu rất dài đơn giản là không phù hợp
  • Claude trở nên kém hiệu quả hơn với các prompt cực kỳ dài
  • Prompt lớn hơn tốn kém hơn và mất nhiều thời gian hơn để xử lý
  • Hiệu suất giảm khi có quá nhiều thông tin để sàng lọc

Tùy chọn 2: Chia tài liệu thành các chunk

RAG áp dụng một cách tiếp cận thông minh hơn bằng cách tiền xử lý các tài liệu thành các phần có thể quản lý được, sau đó chỉ truy xuất các chunk liên quan cho mỗi câu hỏi.

Đây là cách nó hoạt động:

  1. Chia tài liệu thành các chunk nhỏ hơn (Triển vọng chiến lược, Yếu tố rủi ro, Bảng cân đối kế toán, v.v.)
  2. Khi người dùng đặt câu hỏi, hãy phân tích những gì họ đang tìm kiếm
  3. Tìm các chunk liên quan nhất đến câu hỏi của họ
  4. Chỉ bao gồm những chunk liên quan đó trong prompt cho Claude

Đối với một câu hỏi về rủi ro của công ty, hệ thống sẽ xác định và truy xuất chunk "Yếu tố rủi ro", cung cấp cho Claude bối cảnh tập trung, liên quan thay vì toàn bộ tài liệu.

Option 2: RAG

Chia thành chunks

Tìm chunks liên quan với query

Chỉ gửi chunks cần thiết

Option 1: Stuff-everything

Nhồi toàn bộ vào prompt

Token limits + hiệu suất giảm

Tài liệu lớn 800 trang

Cách tiếp cận?

Chậm + đắt + kém hiệu quả

Nhanh + rẻ + tập trung context

Lợi ích của RAG

  • Claude có thể tập trung vào chỉ nội dung liên quan nhất
  • Có thể mở rộng quy mô cho các tài liệu rất lớn và nhiều tài liệu
  • Hoạt động trên các bộ sưu tập tài liệu, không chỉ các tệp đơn lẻ
  • Prompt nhỏ hơn có nghĩa là xử lý nhanh hơn và chi phí thấp hơn

Thách thức với RAG

RAG giới thiệu sự phức tạp mà bạn cần quản lý:

  • Yêu cầu một bước tiền xử lý để chia nhỏ tài liệu
  • Cần một cơ chế tìm kiếm để tìm các chunk liên quan
  • Các chunk được truy xuất có thể không chứa tất cả bối cảnh cần thiết
  • Nhiều cách khác nhau để chia nhỏ văn bản - cách tiếp cận nào hiệu quả nhất?

Bạn có thể chia nhỏ tài liệu theo các phần bằng nhau, theo tiêu đề và phần, theo ý nghĩa ngữ nghĩa hoặc các chiến lược khác. Mỗi cách tiếp cận có những đánh đổi mà bạn cần đánh giá cho trường hợp sử dụng cụ thể của mình.

Khi nào nên dùng RAG

RAG tỏa sáng khi bạn làm việc với các tài liệu lớn hoặc bộ sưu tập tài liệu nơi người dùng đặt các câu hỏi cụ thể chỉ yêu cầu các phần của nội dung. Sự phức tạp của tiền xử lý sẽ được đền đáp khi bạn cần mở rộng quy mô vượt quá những gì phù hợp trong một prompt, khi bạn muốn phản hồi nhanh hơn hoặc khi bạn đang quản lý chi phí trên nhiều truy vấn.

Điều quan trọng là phân tích xem chi phí kỹ thuật của việc triển khai chia nhỏ, tìm kiếm và truy xuất có ý nghĩa đối với ứng dụng cụ thể của bạn hay không. Đôi khi, cách tiếp cận đơn giản "đổ mọi thứ vào một prompt" hoạt động tốt - những lúc khác, RAG trở nên cần thiết để làm cho hệ thống của bạn thiết thực và hiệu quả.

🔁 Bài học liên quan

📚 Nguồn & ghi nhận

Bài học có hữu ích không?

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?