Bỏ qua đến nội dung chính

Kiến thức

📖 Nội dung bài học

Bạn sẽ học được gì

Thời gian ước tính: 30 phút

Cuối bài học này, bạn sẽ có thể:

  • Giải thích cách kiến thức của mô hình AI được hình thành trong quá trình huấn luyện và lý do nó có điểm dừng kiến thức cố định.
  • Dự đoán chủ đề nào nằm trong vùng năng lực (thường xuyên, gần đây trong quá trình huấn luyện, nhất quán) so với vùng rìa (hiếm, sau điểm dừng, đặc thù, còn tranh cãi).
  • Nhận diện sự lỗi thời, độ phủ không đồng đều, thiên kiến kế thừa và sự quên nguồn là những lỗi kiến thức đặc trưng.
  • Nhận ra tìm kiếm web, retrieval/RAG và tool use là các tính năng sản phẩm giải quyết hạn chế này.

Hiểu về khoảng trống kiến thức trong mô hình AI

(5 phút)

Mô hình chỉ biết những gì nó đã tiếp xúc trong quá trình huấn luyện, và chỉ vậy thôi. Không duyệt web thời gian thực theo mặc định, không có kinh nghiệm sống, và một điểm dừng cứng tại thời điểm kiến thức bị giới hạn. Câu hỏi thực tế không phải là "AI có biết điều này không?" mà là "Điều này được biểu diễn tốt đến mức nào trong những gì nó đã đọc?".

Mô hình đã đọc gì, và khi nào nó ngừng đọc

Trước khi bạn đọc

Bạn nghĩ "giải thích một sự kiện tin tức từ tuần trước" nằm ở đâu trên thang đo Kiến thức? Kéo điểm đánh dấu bên dưới, sau đó chốt dự đoán của bạn.

Năng lực Hạn chế

Nhiệm vụ của bạn

Các chủ đề thường xuyên, gần đây (trong quá trình huấn luyện), nhất quán: các chủ đề chính thống, ngôn ngữ phổ biến. Các chủ đề hiếm, sau điểm dừng, đặc thù, địa phương, hoặc còn tranh cãi.

Điều này cho phép

  • Kiến thức tổng quát rộng lớn phi thường
  • Năng lực sâu sắc trong các lĩnh vực được biểu diễn tốt
  • Kết nối giữa các lĩnh vực (embeddings: các khái niệm liên quan nhóm lại với nhau)

Nơi nó thường thất bại

  • Điểm dừng kiến thức: không có gì sau khi quá trình huấn luyện kết thúc.
  • Lỗi thời: đúng tại thời điểm huấn luyện không còn đúng bây giờ.
  • Độ phủ không đồng đều: các lĩnh vực đặc thù và kiến thức địa phương bị ảnh hưởng.
  • Thiên kiến kế thừa: các mặc định phản ánh những điểm mù của dữ liệu huấn luyện.
  • Quên nguồn: "Tôi đã đọc cái này ở đâu đó" không phải là một trích dẫn.

Các tính năng sản phẩm đẩy giới hạn ra xa hơn

  • Tìm kiếm web: khắc phục điểm dừng cho các câu hỏi nhạy cảm về thời gian.
  • Retrieval (RAG) / MCPs: rút ra từ tài liệu chưa từng được huấn luyện.
  • Tool use: gọi đến các máy tính, cơ sở dữ liệu, API thực tế.
  • Công bố điểm dừng rõ ràng: bạn biết cần kiểm tra lại điều gì.

Kéo điểm đánh dấu để đặt dự đoán của bạn cho "giải thích một sự kiện tin tức từ tuần trước". Bảng hiện lên sẽ cho bạn biết cần chú ý điều gì.

Chốt dự đoán của tôi

Kiểm tra trực giác của bạn

Chốt dự đoán của bạn ở trên để so sánh với vị trí điển hình.

Tùy chỉnh

Chiều cao thanh

Kích thước hình vẽ

Bảng màu Bầu trời → Đất sét Ô liu → Đất sét Xương rồng → Sung Lơ → Đất sét

Điểm mấu chốt

  • Những gì AI tạo sinh biết hoàn toàn đến từ dữ liệu huấn luyện và bị đóng băng tại điểm dừng kiến thức. Nếu không có công cụ, nó không thể truy cập bất kỳ thông tin nào sau ngày đó.
    • Vùng năng lực: các chủ đề xuất hiện thường xuyên, gần đây (trong quá trình huấn luyện) và nhất quán trong dữ liệu huấn luyện.
    • Vùng hạn chế: các chủ đề hiếm, sau điểm dừng, đặc thù, địa phương hoặc còn tranh cãi.
    • Lỗi đặc trưng: lỗi thời, độ phủ không đồng đều, thiên kiến kế thừa trong những gì được coi là "mặc định" hoặc "bình thường", và không có khả năng quy kết nguồn gốc kiến thức.
    • Tìm kiếm web, retrieval (RAG/MCPs) và tool use tồn tại đặc biệt để vá các lỗ hổng này bằng cách cho phép mô hình truy cập thông tin mà nó chưa từng được huấn luyện.
  • Kết nối 4D: Sự không đồng đều về kiến thức là cốt lõi của Sự ủy quyền (Delegation). Hiểu rõ mô hình được trang bị tốt ở đâu và mỏng ở đâu cho bạn biết khi nào cần chuyển giao, khi nào cần tự cung cấp ngữ cảnh và khi nào cần đi nơi khác.

Trong training data

Sau cutoff hoặc niche

User query

Knowledge source?

Knowledge cutoff date — frozen

Knowledge gap — không biết

Common topics, recent in training, consistent

Rare/local/disputed → unreliable

Patch với tools

Web search

RAG retrieval

MCP/tool use

Reliable answer

Bài tập

Bài tập: Kiểm tra Người ngoài cuộc

Tại sao? Bạn biết kiến thức của mô hình rất rộng nhưng bị đóng băng, được định hình bởi bất cứ thứ gì có trong dữ liệu huấn luyện của nó. Bây giờ bạn sẽ lập bản đồ chính xác nơi nó được trang bị tốt và nơi nó mỏng trong lĩnh vực cụ thể của bạn.

Quay lại danh sách nhiệm vụ của bạn và chọn một nhiệm vụ. Liên quan đến nhiệm vụ đó, hãy ghi lại:

  • Hai chủ đề là chính thống, được tài liệu hóa tốt và ổn định. Loại điều mà bất kỳ đồng nghiệp có hiểu biết nào cũng biết.
  • Hai chủ đề là đặc thù, địa phương, gần đây hoặc phát triển nhanh chóng. Thuật ngữ chuyên ngành, quy định khu vực, điều gì đó đã thay đổi trong năm qua.
  • Một "giả định mặc định" mà người ngoài lĩnh vực của bạn thường hiểu sai. (Ai là khách hàng điển hình. Một trường hợp "tiêu chuẩn" trông như thế nào. Công cụ nào mọi người thực sự sử dụng so với công cụ được quảng bá.)

Bây giờ hãy chạy ba lần dò hỏi:

  1. Dò hỏi 1: Độ phủ. Hỏi về một chủ đề chính thống và một chủ đề đặc thù từ danh sách của bạn. So sánh độ sâu và độ chính xác. Chú ý xem AI có báo hiệu sự không chắc chắn khác nhau giữa hai chủ đề hay không, hoặc cả hai câu trả lời đều có cùng một giọng điệu tự tin.
  2. Dò hỏi 2: Lỗi thời. Hỏi về một điều bạn biết đã thay đổi gần đây trong lĩnh vực của mình: một bản cập nhật quy định, một bản phát hành công cụ, một thay đổi lãnh đạo, một tiêu chuẩn đã sửa đổi. AI có thừa nhận điểm dừng kiến thức không? Trình bày thông tin lỗi thời như hiện tại? Từ chối trả lời? Ghi lại những gì xảy ra.
  3. Dò hỏi 3: Giả định mặc định. Không nêu trực tiếp giả định của bạn, hãy đặt một câu hỏi sẽ tiết lộ liệu AI có mặc định theo quan điểm của người ngoài cuộc hay không. Ví dụ, nếu khách hàng "tiêu chuẩn" trong lĩnh vực của bạn khác với những gì hầu hết mọi người giả định, hãy yêu cầu AI mô tả khách hàng điển hình. Ghi lại những gì nó coi là bình thường.

Quay lại danh sách nhiệm vụ của bạn và thêm một chú thích thứ hai: đối với mỗi nhiệm vụ, hãy đánh dấu xem bạn có thể dựa vào kiến thức của mô hình hay không, hoặc bạn cần tự mang kiến thức thông qua ngữ cảnh, tài liệu hoặc tìm kiếm.

Mục tiêu mở rộng: Chạy lại dò hỏi về lỗi thời với tìm kiếm web được bật. So sánh những gì thay đổi. Đây là retrieval đang hoạt động.

Suy ngẫm về bài học

  • Có lĩnh vực nào trong công việc của bạn mà bây giờ bạn nhận ra mình cần cung cấp ngữ cảnh thay vì giả định mô hình có nó không?
  • Cuộc dò hỏi về giả định mặc định có đưa ra điều gì khiến bạn ngạc nhiên không?

Tiếp theo là gì

Kiến thức bao gồm những gì mô hình hấp thụ trong quá trình huấn luyện. Bộ nhớ làm việc (Working Memory) bao gồm những gì nó đang chú ý ngay bây giờ: prompt của bạn, tài liệu của bạn, cuộc trò chuyện của bạn. Thuộc tính này có cạnh sắc nét nhất trong bốn thuộc tính.

Phản hồi

Khi bạn tiến bộ trong khóa học, chúng tôi rất muốn nghe ý kiến của bạn về cách bạn đang sử dụng các khái niệm từ khóa học trong công việc của mình, cũng như bất kỳ phản hồi nào bạn có. Chia sẻ phản hồi của bạn tại đây.

Lời cảm ơn và giấy phép

Bản quyền 2026 Anthropic. Công trình gốc xây dựng dựa trên Khung thông thạo AI (AI Fluency Framework) được phát triển bởi Giáo sư Rick Dakan (Ringling College of Art and Design) và Giáo sư Joseph Feller (University College Cork). Phát hành theo giấy phép CC BY-NC-SA 4.0.

🎬 Bản ghi video

Source video: iSLdQXeKbHs

📜 Mở rộng bản ghi (đã chỉnh sửa + dịch AI)

Xin chào, tôi là David, thành viên đội ngũ an toàn tại Anthropic. Hôm nay, tôi sẽ chia sẻ với các bạn về những gì các mô hình AI thực sự biết và quan trọng không kém là những gì chúng không biết. Chúng ta sẽ cùng tìm hiểu nguồn gốc kiến thức của AI, tại sao kiến thức đó lại có những giới hạn sắc cạnh, và cách bạn có thể dự đoán chủ đề nào là đáng tin cậy hay không.

Một mô hình như Claude đã được tiếp cận với lượng dữ liệu lớn hơn bất kỳ con người nào có thể tiêu thụ trong nhiều đời người. Điều này tạo cảm giác rằng nó biết mọi thứ, nhưng thực tế không phải vậy. Các mô hình AI tạo sinh luôn có những lỗ hổng kiến thức có thể dự đoán được.

Cách các mô hình AI học tập

Các mô hình AI học bằng cách đọc một lượng văn bản khổng lồ, chủ yếu từ internet, các bộ dữ liệu công khai và các nguồn văn bản khác. Thông qua hàng tỷ lượt dự đoán "với những gì đã có, từ tiếp theo sẽ là gì", mô hình xây dựng các biểu diễn nội tại (internal representations) về các khái niệm, mối quan hệ và sự kiện. Đó là cách nó tiếp nhận kiến thức.

Đây cũng là cách duy nhất để nó biết mọi thứ. Mô hình không có trải nghiệm thực tế; nó không lướt web trong thời gian thực trừ khi sản phẩm được cung cấp tool use cụ thể để tìm kiếm. Và quan trọng nhất, quá trình huấn luyện kết thúc vào một ngày cụ thể. Thời điểm đó được gọi là kiến thức bị cắt (knowledge cutoff). Những gì diễn ra sau thời điểm đó đơn giản là không tồn tại trong mô hình.

Tác động của giới hạn kiến thức (Knowledge Cutoff)

Hãy để tôi chỉ cho bạn thấy điều này có ý nghĩa gì trong thực tế qua hai câu hỏi dành cho Claude:

  1. Giải thích cơ chế quang hợp. Câu trả lời rất chi tiết, chính xác và tự tin. Đây là chủ đề xuất hiện hàng ngàn lần trong dữ liệu huấn luyện, được mô tả nhất quán và không thay đổi theo thời gian.
  2. Ai là thị trưởng hiện tại của Toledo? Mô hình có thể đưa ra một cái tên; nó có thể đúng, hoặc có thể là người đã giữ chức vụ đó từ hai năm trước. Mô hình không có cách nào để phân biệt sự khác biệt này.

Dải phổ kiến thức

Hãy hình dung kiến thức của mô hình như một dải phổ liên tục:

  • Vùng năng lực (The Capability Zone): Ở một đầu, chúng ta có khoa học đại chúng, các ngôn ngữ lập trình phổ biến và lịch sử đã được ghi chép rõ ràng. Đây là những chủ đề xuất hiện thường xuyên, nhất quán và có trước thời điểm cutoff. Tại đây, kiến thức của mô hình cực kỳ sâu sắc.
  • Vùng biên (The Edge): Ở đầu kia là các chủ đề hiếm gặp, các sự kiện sau thời điểm cutoff, các lĩnh vực ngách và kiến thức địa phương. Càng tiến về phía vùng biên này, bạn càng ít nên tin tưởng vào câu trả lời của mô hình.

Câu hỏi cần đặt ra không phải là "AI có biết điều này không?" mà là "Điều này được thể hiện tốt đến mức nào trong những gì nó đã đọc?"

Thế mạnh và biểu diễn nội tại

Quá trình huấn luyện này tạo ra những thế mạnh thực sự. Kiến thức tổng quát của mô hình cực kỳ rộng lớn. Nó có năng lực chuyên sâu trong các lĩnh vực được đại diện tốt trong dữ liệu huấn luyện. Nó cũng có khả năng kết nối giữa các lĩnh vực vì các khái niệm thường xuất hiện cùng nhau trong văn bản sẽ được đặt gần nhau trong biểu diễn nội tại của mô hình.

Đó chính là nơi tồn tại của các embedding: các từ ngữ và ý tưởng được ánh xạ thành các điểm trong một không gian toán học bao la, nơi các ý nghĩa tương đồng tụ họp lại với nhau. Khi hỏi về một khái niệm sinh học, mô hình có thể huy động các kiến thức liên quan về hóa học, lịch sử và kinh tế mà không cần được yêu cầu cụ thể.

Các hạn chế đặc thù

Chính quá trình này cũng tạo ra những hạn chế đặc thù:

  • Knowledge Cutoff: Bất cứ điều gì xảy ra sau khi huấn luyện đơn giản là không tồn tại đối với mô hình.
  • Sự lỗi thời (Staleness): Thông tin từng đúng tại thời điểm huấn luyện có thể đã thay đổi. Mô hình không có cơ chế để biết điều này.
  • Độ phủ không đồng đều: Các chủ đề phổ biến được xử lý tốt; các chủ đề hiếm gặp bị xử lý kém. Các ngôn ngữ ít phổ biến, lĩnh vực ngách và các diễn biến gần đây đều chịu ảnh hưởng.
  • Định kiến sẵn có (Prior Bias): Nhận thức của mô hình về những gì là "bình thường" hoặc "mặc định" phản ánh những điểm mù trong dữ liệu huấn luyện. Điều này thể hiện qua các giả định về ngoại hình của một bác sĩ, cấu trúc một gia đình, hoặc những gì được coi là "chuyên nghiệp".
  • Chứng quên nguồn gốc (Source Amnesia): Mô hình thường không thể cho bạn biết một kiến thức cụ thể đến từ đâu. "Tôi đã đọc điều này ở đâu đó" không phải là một trích dẫn hợp lệ.

Khắc phục hạn chế bằng các công cụ hiện đại

Đây là lý do tại sao các sản phẩm AI hiện đại được trang bị các tính năng thiết kế để vượt qua những giới hạn này:

  • Web Search: Truy xuất thông tin hiện tại tại thời điểm phản hồi, giúp vượt qua rào cản cutoff.
  • MCP (Model Context Protocol): Kết nối mô hình với các tài liệu mà nó chưa từng được huấn luyện, như wiki của công ty hoặc một cơ sở dữ liệu chuyên biệt.
  • Tools: Cho phép mô hình gọi các trình tính toán hoặc cơ sở dữ liệu thời gian thực thay vì dựa vào các mẫu hình đã hấp thụ.
  • Công bố thời điểm Cutoff rõ ràng: Cho bạn biết thời điểm kết thúc huấn luyện để bạn biết khi nào cần kiểm tra lại thông tin.

Nếu bạn đang sử dụng các tính năng này, bạn đang mở rộng kiến thức của mô hình tại thời điểm thực thi. Nếu không, bạn hoàn toàn phụ thuộc vào những gì nó đã hấp thụ trong quá trình huấn luyện.

Khi nào cần thận trọng

Lỗ hổng kiến thức dễ xuất hiện nhất khi:

  1. Chủ đề có tính nhạy cảm về thời gian (sự kiện, nghiên cứu mới, nhân sự đương nhiệm, giá cả).
  2. Lĩnh vực quá chuyên biệt, mang tính địa phương hoặc sử dụng ngôn ngữ ít phổ biến.
  3. Câu hỏi liên quan đến các sự kiện sau thời điểm cutoff.
  4. Bạn đang dựa vào cảm quan của mô hình về những gì là "điển hình" hoặc "bình thường".
  5. Tính năng tìm kiếm web bị tắt.

Chiến lược bảo vệ và sự thông thạo AI

Dưới đây là cách để bảo vệ bản thân:

  • Xác thực mọi thông tin nhạy cảm về thời gian: Luôn giả định rằng mô hình có thể đã lỗi thời.
  • Thử nghiệm trước khi tin tưởng vào một lĩnh vực mới: Sự xuất sắc trong một lĩnh vực không đồng nghĩa với việc nó sẽ giỏi ở lĩnh vực ngay bên cạnh.
  • Cảnh giác với các giả định mặc định: Nhận thức được các định kiến phản ánh dữ liệu huấn luyện thay vì thực tế.
  • Sử dụng công cụ: Khi có sẵn công cụ tìm kiếm hoặc truy xuất, hãy sử dụng chúng. chúng tồn tại cụ thể để lấp đầy những khoảng trống này.

Hiểu rõ các đặc tính kiến thức sẽ trực tiếp định hình hai trong bốn năng lực thông thạo AI:

  1. Ủy thác (Delegation): Trước khi giao việc cho mô hình, hãy tự hỏi: "Đây là lĩnh vực mô hình am hiểu, hay tôi cần tự cung cấp kiến thức thông qua tài liệu ngữ cảnh hoặc tìm kiếm?"
  2. Nhạy bén (Discernment): Khi nhận được câu trả lời, bạn biết tuyên bố nào cần xác minh độc lập. Bất cứ điều gì nằm trong vùng yếu của mô hình — mới, hiếm hoặc mang tính địa phương — đều cần được xem xét lại lần hai.

Kiến thức của mô hình vừa rộng, vừa sâu, vừa bị đóng băng và không hoàn hảo cùng một lúc. Một khi bạn nhận diện được các giới hạn, bạn sẽ không còn bị bất ngờ bởi chúng nữa.

🔁 Bài học liên quan

📚 Nguồn & ghi nhận

Bài học có hữu ích không?

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?