Why do AI models hallucinate?

"Hallucination" là hiện tượng AI tự tin tạo ra thông tin sai lệch, từ số liệu thống kê giả mạo đến các nghiên cứu không tồn tại, khiến chúng nguy hiểm hơn lỗi thông thường vì khó phát hiện.
Nguyên nhân chính là do AI được huấn luyện để luôn hữu ích và dự đoán thông tin, nên khi đối mặt với các câu hỏi mơ hồ hoặc chuyên biệt, nó có xu hướng tự tin bịa đặt thay vì thừa nhận "không biết".
Anthropic liên tục cải thiện bằng cách huấn luyện AI nói "Tôi không biết" khi không chắc chắn và kiểm tra nghiêm ngặt; người dùng cũng cần chủ động kiểm tra chéo thông tin, yêu cầu nguồn và khuyến khích AI thừa nhận sự không chắc chắn.

hallucinations — ảo giác / thông tin sai lệch được AI tạo ra một cách tự tin
niche topics — chủ đề ngách
cross-reference — kiểm tra chéo / đối chiếu
double-check — kiểm tra kỹ lưỡng
AI assistants — trợ lý AI
mitigation methods — phương pháp giảm thiểu
frameworks — khung công việc
predict next word — dự đoán từ tiếp theo
reliable sources — nguồn đáng tin cậy

Giới thiệu về Hiện tượng "Hallucination" trong AI

Nếu AI tiên tiến đến vậy, tại sao đôi khi nó lại tạo ra thông tin sai lệch? Tôi là Jordan, làm việc tại Anthropic. Chúng tôi phát triển Claude, một trợ lý AI, và chúng tôi nỗ lực rất nhiều để đảm bảo nó cung cấp thông tin chính xác. Tuy nhiên, đôi khi AI vẫn tạo ra những thông tin không đúng sự thật. Chúng tôi gọi những lỗi này là hallucinations (ảo giác), và chúng thường tệ hơn việc chỉ mắc lỗi thông thường, vì AI sẽ tỏ ra rất tự tin, thậm chí cố gắng thuyết phục bạn rằng nó đúng.

Hallucinations có thể biểu hiện dưới nhiều hình thức. AI có thể trích dẫn một bài nghiên cứu không tồn tại, đưa ra số liệu thống kê giả mạo, hoặc cung cấp thông tin sai lệch về người thật hay sự kiện có thật. Ví dụ, bạn yêu cầu Claude kể về một số bài báo do Jared Kaplan viết. Nó tự tin đưa ra các câu trả lời, nhưng thực tế không có tiêu đề nào trong số đó tồn tại cả.

Thách thức từ "Hallucination"

Claude mắc hallucination ít hơn nhiều so với một năm trước đây. Thành thật mà nói, chúng tôi đã phải mất một thời gian để tìm một ví dụ như vậy, vì chúng tôi đã đầu tư rất nhiều công sức vào việc giảm thiểu hallucinations trong Claude. Nhưng đó chính là vấn đề: hallucinations rất khó dự đoán, khó phát hiện, và một câu trả lời sai thường trông giống hệt như một câu trả lời đúng. Và vì hallucinations ngày càng trở nên hiếm gặp, mọi người thường không bận tâm kiểm tra lại công việc của AI.

Vì vậy, chúng ta hãy cùng thảo luận về lý do tại sao hiện tượng này xảy ra, những gì chúng tôi đang làm để giải quyết, và cách bạn có thể phát hiện hallucinations khi sử dụng AI.

Nguyên nhân gây ra "Hallucination"

Các trợ lý AI như Claude học hỏi bằng cách đọc một lượng lớn văn bản từ internet. Chúng trở nên rất giỏi trong việc dự đoán từ hoặc ý tưởng nào thường xuất hiện tiếp theo, giống như cách điện thoại của bạn gợi ý từ tiếp theo khi bạn gõ. Điều này hoạt động tốt trong hầu hết các trường hợp, nhưng khi bạn hỏi về một điều gì đó mơ hồ, chẳng hạn như các bài nghiên cứu cụ thể từ một nhà nghiên cứu tương đối ít được biết đến, AI không có đủ thông tin để tham khảo. Do đó, nó cố gắng hữu ích và đưa ra một phỏng đoán. Và đôi khi phỏng đoán đó là sai.

Điều này hơi giống việc hỏi một người bạn đã đọc mọi cuốn sách phổ biến và rất tự hào về việc biết tất cả các sự thật ngẫu nhiên về chúng. Nhưng vì họ muốn tỏ ra mình là chuyên gia, đôi khi họ sẽ nói điều gì đó sai một cách tự tin thay vì thừa nhận "Tôi không biết." Các AI được huấn luyện để hữu ích, vì vậy chúng muốn cung cấp cho bạn một câu trả lời nào đó ngay cả khi chúng không chắc chắn.

Phương pháp giảm thiểu của Anthropic

Chúng tôi có những cách để giảm thiểu vấn đề này. Trong quá trình huấn luyện, chúng tôi dạy Claude phải trung thực và nói "Tôi không biết" khi nó không chắc chắn. Chúng tôi cố gắng dạy Claude rằng trung thực vừa là điều đúng đắn nên làm, vừa là một phần của việc trở nên hữu ích hơn.

Chúng tôi thường xuyên kiểm tra Claude với hàng nghìn câu hỏi được thiết kế đặc biệt để đánh lừa nó: những sự thật mơ hồ, các chủ đề ngách (niche topics), những câu hỏi mà câu trả lời đúng là "Tôi không biết." Chúng tôi đo lường các chỉ số như: Claude trả lời "không chắc" chính xác bao nhiêu lần? Nó có bịa đặt trích dẫn hay số liệu thống kê không? Nó che giấu thông tin một cách thích hợp bao nhiêu lần so với việc tự tin đưa ra thông tin sai lệch? Những bài kiểm tra này giúp chúng tôi phát hiện vấn đề và theo dõi tiến độ của mình. Với mỗi phiên bản Claude mới, chúng tôi đều thấy những cải tiến, nhưng chúng tôi thành thật mà nói rằng đây là một thách thức liên tục đối với toàn bộ lĩnh vực AI, không phải là một vấn đề đã được giải quyết hoàn toàn.

Cách phát hiện "Hallucination"

Nếu bạn đang băn khoăn làm thế nào để phát hiện khi điều này xảy ra, hallucinations rất dễ xuất hiện trong một vài loại tình huống, chẳng hạn:

Khi bạn yêu cầu các sự kiện, số liệu thống kê hoặc trích dẫn cụ thể.
Nếu chủ đề là mơ hồ, chuyên biệt (niche) hoặc rất gần đây.
Nếu bạn đang hỏi về những người hoặc địa điểm có thật nhưng không được biết đến rộng rãi.
Hoặc khi bạn cần các chi tiết chính xác như ngày tháng, tên hoặc số.

Mẹo giảm thiểu "Hallucination" cho người dùng

Dưới đây là một số mẹo bạn có thể sử dụng để giảm thiểu hallucinations:

Đầu tiên, yêu cầu AI tìm nguồn để sao lưu các tuyên bố của nó. Và nếu nó đã cung cấp nguồn, hãy yêu cầu nó kiểm tra xem những nguồn đó có thực sự hỗ trợ những gì nó đang nói hay không.
Thử nói trước với AI: "Không sao nếu bạn không biết."
Và nếu bạn không chắc chắn về một câu trả lời, hãy hỏi AI nó tự tin đến mức nào và liệu có điều gì có thể sai hay không. Thông thường, AI biết nó sai nhưng chỉ muốn nghe có vẻ tự tin.
Nếu bạn có một câu trả lời mà bạn không chắc chắn, hãy bắt đầu một cuộc trò chuyện mới và yêu cầu AI tìm lỗi trong câu trả lời đó và xác nhận rằng các nguồn hỗ trợ các tuyên bố.
Đối với công việc quan trọng, bạn nên cross-reference (kiểm tra chéo) với các nguồn đáng tin cậy.
Hãy hoài nghi và double-check (kiểm tra kỹ) các số, ngày tháng và trích dẫn cụ thể.
Nếu có điều gì đó không ổn, hãy đặt câu hỏi bổ sung.

Kết luận

Giảm thiểu hallucinations là một mục tiêu quan trọng để làm cho các AI đáng tin cậy và hữu ích hơn cho mọi người. Chúng tôi sẽ tiếp tục chia sẻ tiến bộ của mình trong lĩnh vực này trên blog của chúng tôi. Bạn có thể tìm hiểu về các tools (công cụ) và frameworks (khung công việc) khác để làm việc với AI tại Anthropic Academy.

TL;DR

"Hallucination" là hiện tượng AI tự tin tạo ra thông tin sai lệch, từ số liệu thống kê giả mạo đến các nghiên cứu không tồn tại, khiến chúng nguy hiểm hơn lỗi thông thường vì khó phát hiện.
Nguyên nhân chính là do AI được huấn luyện để luôn hữu ích và dự đoán thông tin, nên khi đối mặt với các câu hỏi mơ hồ hoặc chuyên biệt, nó có xu hướng tự tin bịa đặt thay vì thừa nhận "không biết".
Anthropic liên tục cải thiện bằng cách huấn luyện AI nói "Tôi không biết" khi không chắc chắn và kiểm tra nghiêm ngặt; người dùng cũng cần chủ động kiểm tra chéo thông tin, yêu cầu nguồn và khuyến khích AI thừa nhận sự không chắc chắn.

Điểm chính

AI có xu hướng "hallucination" mạnh hơn khi người dùng yêu cầu các sự kiện, số liệu thống kê hoặc trích dẫn cụ thể, đặc biệt đối với các chủ đề mơ hồ, chuyên biệt hoặc rất gần đây.
Hallucination xảy ra do AI được huấn luyện để hữu ích và dự đoán từ tiếp theo, dẫn đến việc nó cố gắng đưa ra một câu trả lời ngay cả khi không có đủ thông tin, thay vì thừa nhận sự không chắc chắn.
Các nhà phát triển nên huấn luyện AI không chỉ cung cấp thông tin mà còn trung thực nói "Tôi không biết" khi cần, coi đây là một phần của việc trở nên hữu ích.
Áp dụng các bài kiểm tra chuyên biệt với hàng nghìn câu hỏi được thiết kế để đánh lừa AI, đo lường các chỉ số như tần suất trả lời "không chắc" chính xác và mức độ bịa đặt thông tin.
Người dùng nên yêu cầu AI cung cấp nguồn để sao lưu các tuyên bố của nó và sau đó kiểm tra xem các nguồn đó có thực sự hỗ trợ thông tin được đưa ra hay không.
Thử nói trước với AI: "Không sao nếu bạn không biết" hoặc hỏi AI về mức độ tự tin của nó và liệu có điều gì có thể sai hay không.
Đối với công việc quan trọng, luôn kiểm tra chéo (cross-reference) thông tin với các nguồn đáng tin cậy bên ngoài và kiểm tra kỹ lưỡng (double-check) các số, ngày tháng hoặc trích dẫn cụ thể.
Nếu không chắc chắn về một câu trả lời, hãy bắt đầu một cuộc trò chuyện mới và yêu cầu AI tìm lỗi trong câu trả lời trước đó hoặc xác nhận lại các nguồn.

Từ vựng

hallucinations — ảo giác / thông tin sai lệch được AI tạo ra một cách tự tin
niche topics — chủ đề ngách
cross-reference — kiểm tra chéo / đối chiếu
double-check — kiểm tra kỹ lưỡng
AI assistants — trợ lý AI
mitigation methods — phương pháp giảm thiểu
frameworks — khung công việc
predict next word — dự đoán từ tiếp theo
reliable sources — nguồn đáng tin cậy

Nội dung chi tiết