Bỏ qua đến nội dung chính

Working Memory

📖 Nội dung bài học

Bạn sẽ học được gì

Thời gian ước tính: 30 phút

Cuối bài học này, bạn sẽ có thể:

  • Giải thích context window như một vùng chứa có kích thước cố định và những gì nó ngụ ý đối với các tài liệu dài, cuộc trò chuyện dài và bộ nhớ đa phiên.
  • Nhận ra tính chất "vực thẳm" (cliff) của thuộc tính này so với sự suy giảm dần của các thuộc tính khác.
  • Áp dụng các chiến lược "lấy ngữ cảnh làm đòn bẩy" (context-as-leverage): đưa thông tin quan trọng lên đầu, chia nhỏ công việc dài, cung cấp lại ngữ cảnh quan trọng.
  • Nhận ra bộ nhớ (memory), nén (compaction), dự án/không gian làm việc (projects/workspaces) và cửa sổ lớn hơn (larger windows) là các tính năng sản phẩm giải quyết hạn chế này.

Context window ảnh hưởng đến kết quả của AI tạo sinh như thế nào

(6 phút)

Mọi thứ AI đang chú ý đều nằm trong một không gian làm việc có kích thước cố định gọi là context window. Nó có thể chú ý đến những gì có trong đó. Nó không thể chú ý đến bất cứ thứ gì bên ngoài nó. Ràng buộc đó có một cạnh cứng theo cách mà các thuộc tính khác không có: mọi thứ hoạt động cho đến khi chúng không hoạt động nữa.

Context window: Bộ nhớ làm việc của AI

Trước khi đọc

Bạn nghĩ "xem xét một hợp đồng 50 trang" nằm ở đâu trên thang đo Working Memory? Kéo thanh trượt bên dưới, sau đó chốt dự đoán của bạn.

Hạn chế về Khả năng

Nhiệm vụ của bạn

Tài liệu vừa vặn thoải mái, phiên làm việc hiện tại, bạn cung cấp ngữ cảnh liên quan Các tài liệu/cuộc trò chuyện rất dài, mong đợi tính liên tục giữa các phiên (vực thẳm)

Điều này cho phép

  • Thích ứng nhanh trong phiên (hướng dẫn phong cách, ví dụ áp dụng ngay lập tức)
  • Hoạt động với tài liệu của bạn: tài liệu của bạn, các ràng buộc của bạn
  • Độ chính xác thông qua sự cụ thể. Ngữ cảnh là đòn bẩy.

Nơi nó thường thất bại

  • Giới hạn độ dài cứng nhắc: cắt bớt im lặng khi vượt quá
  • Mất ở giữa: sự chú ý không đồng đều trên toàn bộ cửa sổ
  • Không có bộ nhớ bền vững mặc định: mỗi phiên bắt đầu từ số không
  • Không học hỏi từ bạn: các sửa lỗi không thay đổi mô hình, chỉ thay đổi ngữ cảnh

Các tính năng sản phẩm đẩy giới hạn ra xa hơn

  • Bộ nhớ (Memory): lưu giữ các sự kiện qua các phiên
  • Nén / Tóm tắt (Compaction / summarization): cô đọng các lượt cũ để giải phóng dung lượng
  • Dự án / Không gian làm việc (Projects / workspaces): đặt tài liệu cố định trong ngữ cảnh một cách đáng tin cậy
  • Kỹ năng (Skills): giảm thiểu sử dụng ngữ cảnh cho đến khi cần
  • Context window lớn hơn: đẩy vực thẳm ra xa hơn

Kéo thanh trượt để đặt dự đoán của bạn cho "xem xét một hợp đồng 50 trang". Bảng hiện lên sẽ cho bạn biết cần chú ý điều gì.

Chốt dự đoán của tôi

Kiểm tra trực giác của bạn

Chốt dự đoán của bạn ở trên để so sánh với vị trí điển hình.

Tùy chỉnh

Chiều cao thanh

Kích thước tranh vẽ

Bảng màu Bầu trời → Đất sét Ô liu → Đất sét Xương rồng → Sung Nước đá → Đất sét

Điểm chính cần ghi nhớ

  • Working Memory là việc mô hình AI có một context window cố định mà nó có thể chú ý đến.
    • Vùng khả năng: tài liệu của bạn vừa vặn thoải mái, phiên làm việc hiện tại, bạn đang cung cấp ngữ cảnh liên quan.
    • Vùng hạn chế: tài liệu hoặc cuộc trò chuyện rất dài, mong đợi tính liên tục giữa các phiên, chôn thông tin quan trọng ở giữa đầu vào dài.
    • Thuộc tính này có một vực thẳm thay vì một độ dốc. Cắt bớt im lặng là chế độ lỗi, và bạn sẽ không phải lúc nào cũng được cảnh báo.
    • Mô hình không học từ các sửa lỗi của bạn. Nó chỉ phản hồi những gì hiện có trong ngữ cảnh.
    • Các tính năng bộ nhớ, nén, dự án, cửa sổ lớn hơn và quy trình làm việc đa tác nhân (multi-agent workflows) đều tồn tại để đẩy vực thẳm này ra xa hơn.
  • Kết nối 4D: Working Memory là thứ mà Description tác động lên. Biết cách cửa sổ hoạt động sẽ cho bạn biết cách cấu trúc ngữ cảnh, khi nào nên đưa lên đầu và khi nào nên bắt đầu lại.

iterate

Không

Input — instructions, history, docs

Context window — fixed size container

Model chú ý mọi thứ trong window

Generate response

Quá kích thước?

Silent drop — material cũ rơi

Vẫn coherent

Patch: memory, compaction, larger window

Bài tập

Bài tập: Trước và Sau

Tại sao? Ngữ cảnh là đòn bẩy. Cùng một nhiệm vụ, với ngữ cảnh phù hợp được cung cấp, có thể từ bản nháp đầu tiên tầm thường trở thành thứ gì đó thực sự hữu ích. Bài tập này làm cho điều đó trở nên cụ thể.

Chọn một nhiệm vụ từ danh sách Bài 1 của bạn mà có lợi từ ngữ cảnh mà chỉ bạn nắm giữ: hướng dẫn phong cách, một ví dụ công việc tốt trong quá khứ, một bộ ràng buộc cụ thể cho vai trò hoặc đối tượng của bạn. Viết ra trong hai hoặc ba dòng "tốt" trông như thế nào đối với kết quả của nhiệm vụ này, mô tả đủ rõ ràng để người lạ có thể đánh giá.

Bây giờ hãy chạy ba lần thử:

  1. Thử nghiệm 1: Khởi động nguội so với ngữ cảnh. Yêu cầu nhiệm vụ của bạn mà không có ngữ cảnh nào. Chỉ yêu cầu cơ bản. Lưu kết quả. Sau đó, bắt đầu một cuộc trò chuyện mới và chạy cùng một nhiệm vụ, lần này cung cấp hướng dẫn phong cách, ví dụ trong quá khứ hoặc các ràng buộc của bạn ngay từ đầu. So sánh cả hai kết quả với định nghĩa "tốt" của bạn. Đo lường khoảng cách.
  2. Thử nghiệm 2: Mất ở giữa. Lấy một tài liệu dài hơn (hoặc dán một vài đoạn tài liệu tham khảo lại với nhau). Chôn một chỉ dẫn cụ thể, quan trọng ở giữa nó. Đặt một câu hỏi mà câu trả lời đúng phụ thuộc vào chỉ dẫn bị chôn đó. AI có nắm bắt được không? Bây giờ hãy di chuyển chỉ dẫn đó lên đầu và hỏi lại. So sánh.
  3. Thử nghiệm 3: Tờ giấy trắng. Thực hiện một cuộc trao đổi ngắn nơi bạn dạy AI điều gì đó cụ thể về ngữ cảnh công việc của bạn, hoặc sửa lỗi nó về điều gì đó nó đã làm sai. Sau đó, mở một cuộc trò chuyện hoàn toàn mới và đặt một câu hỏi giả định rằng nó nhớ những gì bạn đã dạy nó. Quan sát nó bắt đầu từ số không.

Quay lại danh sách nhiệm vụ của bạn và thêm một chú thích thứ ba: nhiệm vụ nào cần thiết lập ngữ cảnh cố định (một dự án, hướng dẫn đã lưu, tài liệu tham khảo đã tải lên) để đáng chạy, và nhiệm vụ nào hoạt động tốt khi khởi động nguội?

Mục tiêu mở rộng: Nếu công cụ của bạn có tính năng bộ nhớ hoặc dự án, hãy thiết lập một cái với ngữ cảnh từ Thử nghiệm 1. Chạy lại nhiệm vụ. So sánh nỗ lực và chất lượng với phiên khởi động nguội.

Suy ngẫm bài học

  • Việc đưa ngữ cảnh lên đầu đã thay đổi chất lượng kết quả như thế nào? Khoảng cách có lớn hơn bạn mong đợi không?
  • Tuần này, bạn sẽ thiết lập một phần ngữ cảnh cố định nào để ngừng giải thích lại bản thân?

Tiếp theo là gì

Thuộc tính cuối cùng: Khả năng điều hướng (Steerability). Bạn thực sự kiểm soát đến mức nào khi đưa ra hướng dẫn, và sự kiểm soát đó bị phá vỡ ở đâu?

Phản hồi

Khi bạn tiến hành khóa học, chúng tôi rất mong nhận được phản hồi từ bạn về cách bạn đang sử dụng các khái niệm từ khóa học vào công việc của mình, cũng như bất kỳ phản hồi nào bạn có. Chia sẻ phản hồi của bạn tại đây.

Ghi nhận và giấy phép

Bản quyền 2026 Anthropic. Tác phẩm gốc xây dựng dựa trên AI Fluency Framework do GS. Rick Dakan (Ringling College of Art and Design) và GS. Joseph Feller (University College Cork) phát triển. Phát hành theo giấy phép CC BY-NC-SA 4.0.

🎬 Bản ghi video

Source video: QJjt4wF4iHM

📜 Mở rộng bản ghi (đã chỉnh sửa + dịch AI)

Giới thiệu về Context Window

Xin chào, tôi là Matt, thành viên đội ngũ Nghiên cứu Người dùng tại Anthropic. Hôm nay, tôi sẽ chia sẻ với các bạn về context window – cách các mô hình AI quản lý những thông tin mà chúng đang tập trung xử lý tại một thời điểm nhất định. Chúng ta sẽ tìm hiểu về những gì thực sự nằm trong cửa sổ đó, điều gì xảy ra khi nó đầy hoặc trống rỗng, và cách cấu trúc công việc để tối ưu hóa các giới hạn này.

Nó tương tự như cách bộ nhớ làm việc (working memory) vận hành ở con người. Khi bạn làm việc với AI, mọi thứ đều nằm trong một không gian làm việc có kích thước cố định gọi là context window: từ các chỉ dẫn của bạn, các phản hồi trước đó của Claude, các tài liệu bạn đã tải lên, cho đến toàn bộ nội dung hội thoại qua lại. Tất cả tồn tại trong một "thùng chứa" hữu hạn và mô hình chỉ có thể xử lý những gì nằm bên trong đó.

Cách thức vận hành của Context Window

Giới hạn cứng và sự suy giảm âm thầm

Quan trọng là context window có một giới hạn kích thước cứng. Khi một cuộc hội thoại hoặc một bộ tài liệu vượt quá dung lượng mà cửa sổ có thể chứa, một phần thông tin sẽ bị đẩy ra ngoài. Thông thường, đó là những nội dung cũ nhất và quá trình này diễn ra một cách âm thầm. Mô hình sẽ không dừng lại để thông báo rằng nó đã bỏ qua ba tin nhắn đầu tiên của bạn; nó chỉ đơn giản là tiếp tục xử lý với những gì còn lại.

Đặt lại phiên làm việc và tính bền vững

Theo mặc định, cửa sổ ngữ cảnh sẽ trống rỗng giữa các phiên làm việc (session). Khi bạn đóng một cửa chat và mở một cửa mới vào ngày mai, bạn đang bắt đầu từ con số không. Cuộc hội thoại ngày hôm qua sẽ biến mất, trừ khi một tính năng sản phẩm như Memory hoặc tệp Claude.md được chủ động sử dụng để chuyển tiếp thông tin.

Vùng Năng lực và Vùng Hạn chế

Giống như các đặc tính cốt lõi khác của hệ thống AI, bộ nhớ làm việc hoạt động trên một dải liên tục. Khi nội dung của bạn nằm gọn trong context window và bạn đang làm việc trong phiên hiện tại, bạn đang ở trong vùng năng lực (capability zone). Lúc này, mô hình đang xử lý tốt các tài liệu, các ràng buộc và ngữ cảnh của bạn.

Khi tài liệu dài hơn, cuộc hội thoại kéo dài, hoặc khi bạn bắt đầu kỳ vọng mô hình nhớ lại những điều từ tuần trước, bạn sẽ trượt dần về phía vùng hạn chế (limitation zone). Tuy nhiên, khác với các đặc tính khác, vùng này có một "điểm rơi" (cliff). Khả năng dự đoán token tiếp theo hay kiến thức nền có thể suy giảm dần dần, nhưng bộ nhớ làm việc thường hoạt động ổn định cho đến khi nó đột ngột mất hiệu lực. Bạn sẽ không luôn nhận được cảnh báo về điều này.

Ràng buộc kỹ thuật và hiệu ứng "Lost in the Middle"

Khi bạn ở trong vùng năng lực, ngữ cảnh là một đòn bẩy thực thụ. Ví dụ, khi bạn tải lên một bản hướng dẫn phong cách ngắn và yêu cầu Claude soạn thảo văn bản, mô hình sẽ thích nghi với tài liệu của bạn ngay lập tức trong phiên đó mà không cần tái huấn luyện hay thiết lập phức tạp.

Vậy tại sao context window lại cố định? Bởi vì mô hình xử lý toàn bộ ngữ cảnh của bạn như một khối duy nhất mỗi khi nó tạo ra phản hồi. Nó đọc tất cả từ đầu đến cuối để quyết định nội dung tiếp theo sẽ viết gì. Luôn có một mức trần cho lượng thông tin mà nó có thể nắm giữ để vẫn tạo ra được câu trả lời mạch lạc.

Ngay cả trong giới hạn đó, sự tập trung cũng không hoàn toàn đồng đều. Nghiên cứu về hành vi ngữ cảnh dài đã phát hiện ra hiệu ứng "Lost in the Middle" (lạc ở giữa): những nội dung nằm sâu ở giữa một đầu vào (input) rất dài thường có trọng số thấp hơn so với thông tin ở phần đầu hoặc phần cuối.

Các tính năng hỗ trợ quản lý ngữ cảnh

Trong thực tế, context window cho phép sự thích nghi nhanh chóng ngay trong phiên làm việc. Bạn đạt được sự chính xác thông qua tính cụ thể; bạn cung cấp càng nhiều ngữ cảnh liên quan, đầu ra càng được tùy chỉnh tốt hơn. Tuy nhiên, khi context window cạn kiệt, trải nghiệm của bạn sẽ giảm sút. AI sẽ không nhớ những điều từ đầu cuộc hội thoại và các chi tiết ở giữa quá trình trao đổi có thể trở nên mơ hồ.

Các sản phẩm thường lớp thêm các tính năng bổ trợ để giảm bớt các hạn chế này:

  • Memory: Lưu trữ các sự kiện được chọn lọc qua các phiên làm việc để bạn không phải bắt đầu từ con số không mỗi lần.
  • Nén hoặc Tóm tắt (Compaction/Summarization): Cô đọng lịch sử hội thoại để giải phóng không gian khi cuộc trò chuyện kéo dài.
  • Projects và Workspaces: Giữ các tài liệu cố định trong ngữ cảnh một cách tin cậy mà không cần tải lên lại.
  • Skills: Giữ các chỉ dẫn ở mức tối thiểu cho đến khi một tác vụ cụ thể thực sự cần đến chúng.
  • Multi-agent Workflows: Cho phép nhiều agent với các chuyên môn khác nhau và context window riêng biệt, giúp mở rộng tổng lượng ngữ cảnh mà quy trình công việc có thể xử lý.
  • Context Window lớn hơn: Đẩy "điểm rơi" ra xa hơn.

Dấu hiệu khi chạm giới hạn ngữ cảnh

Dưới đây là một số dấu hiệu cho thấy bạn đang tiến gần đến giới hạn của context window:

  1. Một cuộc hội thoại rất dài mà chất lượng bắt đầu giảm sút.
  2. Một tài liệu rất dài mà các chi tiết ở giữa không xuất hiện trong phản hồi.
  3. Kỳ vọng mô hình nhớ lại điều gì đó từ phiên trước mà không bật tính năng Memory.

Các phương pháp tối ưu để quản lý ngữ cảnh

Để duy trì hiệu suất tốt nhất, hãy sử dụng các kỹ thuật sau:

  • Ưu tiên thông tin quan trọng lên đầu: Đối với các tài liệu dài, hãy đặt nội dung quan trọng nhất ở gần phần đầu thay vì để nó chìm nghỉm ở trang 12.
  • Chia nhỏ công việc theo từng giai đoạn (Chunking): Xử lý một tài liệu lớn theo từng phần thay vì tải lên một lần duy nhất.
  • Sử dụng các tính năng sản phẩm: Tận dụng Projects hoặc Skills để lưu trữ ngữ cảnh cho các lĩnh vực công việc thường xuyên.
  • Nếu chất lượng giảm, hãy bắt đầu mới: Sự suy giảm đó thường là do giới hạn ngữ cảnh hơn là giới hạn năng lực. Một cửa chat mới với bản tóm tắt ngắn gọn về tiến độ hiện tại có thể mang lại hiệu quả cao hơn việc cố gắng duy trì một phiên làm việc đã quá tải.

Bộ nhớ làm việc là cơ chế giúp việc mô tả trở nên hiệu quả. Mọi thứ bạn mô tả cho AI — chỉ dẫn, ràng buộc, ví dụ — đều phải nằm trong cửa sổ này để có tác dụng. Hiểu rõ kích thước cửa sổ, các biên giới hạn và hành vi đặt lại của nó là chìa khóa để bạn biết cách cấu trúc một prompt, khi nào cần nhắc lại ngữ cảnh quan trọng và nội dung nào thực sự đáng để tải lên.

🔁 Bài học liên quan

📚 Nguồn & ghi nhận

Bài học có hữu ích không?

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?