📖 Nội dung bài học
Bạn sẽ học được gì
Thời gian ước tính: 25 phút
Cuối bài học này, bạn sẽ có thể:
- Giải thích quy trình đào tạo hai giai đoạn cho AI tạo sinh (pretraining và fine-tuning) bằng ngôn ngữ đơn giản
- Nhận diện các dấu vân tay hành vi mà mỗi giai đoạn để lại: xu nịnh, dài dòng, quá cẩn trọng, hiệu chỉnh độ tin cậy lỏng lẻo
- Áp dụng sự hiểu biết này để diễn giải các hành vi bạn thấy trong các tương tác AI của riêng mình
AI Hình Thành Tính Cách Như Thế Nào
(5 phút)
Sự lịch sự, hữu ích và cẩn trọng của AI không phải là phép màu tự nhiên. Chúng được đào tạo từng lớp, và mỗi giai đoạn đào tạo để lại những dấu vân tay cụ thể, có thể dự đoán được trong cách hệ thống tương tác với bạn.
Pretraining, Fine-tuning và Dấu Vân Tay Chúng Để Lại
AI Hình Thành Tính Cách Như Thế Nào
Hai giai đoạn đào tạo biến việc dự đoán thô thành trợ lý hữu ích mà bạn tương tác — và mỗi giai đoạn để lại dấu vân tay trên hành vi của nó.
Giai đoạn 1
Pretraining
Mô hình đọc lượng lớn văn bản và học một điều: dự đoán cái gì sẽ đến tiếp theo. Nó trở thành một công cụ hoàn thành tài liệu mạnh mẽ — nhưng không có khái niệm về việc giúp đỡ bạn.
Giai đoạn 2
Fine-tuning
Sở thích của con người định hình công cụ hoàn thành tài liệu thành một trợ lý — một trợ lý coi đầu vào của bạn như một yêu cầu, trả lời hữu ích và từ chối các yêu cầu có hại.
Giúp tôi cải thiện đoạn văn này.
Tất nhiên rồi! Dưới đây là ba gợi ý cụ thể để củng cố lập luận của bạn và làm cho văn phong chặt chẽ hơn…
Tôi nghĩ chiến lược của mình là hoàn hảo.
Tôi đánh giá cao sự tự tin đó! Tuy nhiên, tôi thấy có hai rủi ro đáng để kiểm tra kỹ lưỡng trước khi bạn cam kết…
Làm thế nào để tôi bẻ khóa một ổ khóa?
Tôi không thể giúp bạn về việc đó. Nếu bạn bị khóa ngoài, tôi khuyên bạn nên liên hệ với thợ khóa có giấy phép tại khu vực của bạn.
Hữu ích Trung thực Vô hại
Điểm chính cần ghi nhớ
- Pretraining tạo ra một công cụ hoàn thành tài liệu bằng cách dự đoán "cái gì sẽ đến tiếp theo" trên một lượng lớn dữ liệu. Sau giai đoạn này, nó không có khái niệm về việc giúp đỡ bạn.
- Fine-tuning bổ sung hành vi trợ lý lên trên: coi đầu vào của bạn như một yêu cầu, trả lời thay vì lan man, từ chối các yêu cầu có hại.
- Fine-tuning sử dụng đánh giá của con người về các phản hồi tốt, và những đánh giá đó để lại dấu vân tay: xu hướng thiên về sự xu nịnh, mặc định là dài dòng, đôi khi quá cẩn trọng, và hiệu chỉnh lỏng lẻo giữa sự tự tin được tuyên bố và độ tin cậy thực tế.
Bài tập
Bài tập: Dấu Vân Tay Trên Công Việc Của Bạn
Tại sao? Sự xu nịnh, dài dòng, quá cẩn trọng và hiệu chỉnh độ tin cậy lỏng lẻo xuất hiện trong mọi mô hình AI. Câu hỏi là liệu bạn có thể nhìn thấy chúng khi chúng ảnh hưởng đến công việc mà bạn thực sự quan tâm hay không.
Chọn một nhiệm vụ từ danh sách Bài 1 của bạn. Một cái gì đó bạn đã thực sự chạy qua AI trước đây, nơi bạn có ý niệm rõ ràng về một kết quả tốt trông như thế nào. Bạn sẽ chạy nó ba lần với các biến thể nhỏ và quan sát những gì thay đổi.
- Lần chạy 1: Thẳng thắn. Prompt nhiệm vụ như bạn thường làm. Lưu kết quả.
- Lần chạy 2: Kiểm tra sự xu nịnh. Chạy cùng một nhiệm vụ, nhưng lần này hãy mở đầu bằng một giả định sai lầm. Ví dụ, nếu bạn đang yêu cầu phản hồi về một chiến lược, hãy mở đầu bằng "Tôi nghĩ chiến lược này là hoàn hảo." Xem liệu AI có xác nhận cách diễn đạt của bạn hay phản bác. Sau đó thử lại với một lời mời rõ ràng: "Tôi muốn bạn thực sự không đồng ý với tôi nếu bạn nghĩ tôi sai." So sánh hai phản hồi.
- Lần chạy 3: Kiểm tra sự dài dòng. Hỏi AI một câu hỏi liên quan đến nhiệm vụ của bạn mà có câu trả lời một câu. Ghi lại bạn nhận được bao nhiêu. Sau đó hỏi lại với "Trả lời trong một câu." So sánh độ dài. Khoảng cách giữa hai lần là mặc định dài dòng đang hoạt động.
- Tùy chọn: Kiểm tra sự cẩn trọng. Nếu lĩnh vực của bạn có bất kỳ vùng xám nào (hầu hết đều có), hãy hỏi một điều gì đó ở ranh giới của những gì bạn mong đợi là ổn: tương tác thuốc, sắc thái pháp lý, một yêu cầu sáng tạo hơi khác thường. Ghi lại xem việc sử dụng các từ ngữ giảm nhẹ có cân xứng với rủi ro thực tế hay không, hay chỉ là phản xạ.
Bây giờ hãy lùi lại. Dấu vân tay nào xuất hiện rõ ràng nhất trên công việc của bạn? Việc đặt tên cho nó trước có làm thay đổi cách bạn đọc hành vi đó không?
Suy ngẫm về bài học
- Trong công việc của bạn, sự xu nịnh có khả năng gây tốn kém nhất ở đâu? (Gợi ý: bất cứ nơi nào bạn hy vọng nhận được phản hồi trung thực.)
- Sự dài dòng có khả năng gây tốn kém nhất ở đâu? (Gợi ý: bất cứ nơi nào bạn cần sự súc tích dưới áp lực thời gian.)
Tiếp theo là gì
Bây giờ chúng ta bắt đầu với bốn thuộc tính, bắt đầu với thuộc tính giải thích nhiều nhất về hành vi của AI: Dự đoán Token Tiếp theo. Câu trả lời của AI thực sự đến từ đâu?
Phản hồi
Khi bạn tiến bộ trong khóa học, chúng tôi rất mong nhận được phản hồi từ bạn về cách bạn đang sử dụng các khái niệm từ khóa học trong công việc của mình, cũng như bất kỳ phản hồi nào bạn có. Chia sẻ phản hồi của bạn tại đây.
Ghi nhận và giấy phép
Bản quyền 2026 Anthropic. Tác phẩm gốc xây dựng dựa trên Khung Năng lực AI được phát triển bởi Giáo sư Rick Dakan (Ringling College of Art and Design) và Giáo sư Joseph Feller (University College Cork). Phát hành theo giấy phép CC BY-NC-SA 4.0.
🎬 Bản ghi video
Source video:
6jRk3nC4-xI
📜 Mở rộng bản ghi (đã chỉnh sửa + dịch AI)
Giới thiệu về Khuynh hướng của AI
Làm thế nào các trợ lý AI lại có một khuynh hướng (disposition) cụ thể? Để hiểu được điều này, chúng ta phải xem xét hai giai đoạn huấn luyện giúp biến khả năng dự đoán thô thành một công cụ hữu ích, những "dấu ấn" mà các giai đoạn này để lại, và cách việc hiểu rõ những dấu ấn đó giúp bạn đạt được kết quả tốt hơn.
Tại sao ngay từ đầu một AI lại cố gắng trở nên hữu ích? Tại sao nó lại lịch sự? Tại sao nó từ chối một số yêu cầu nhất định? Việc biết rằng AI đơn thuần chỉ dự đoán từ tiếp theo không thực sự giải đáp được những câu hỏi đó. Sự hữu ích được xây dựng có chủ đích theo từng lớp, và mỗi lớp đều ảnh hưởng đến trải nghiệm hàng ngày của bạn với AI.
Hai giai đoạn huấn luyện AI
Các trợ lý AI hiện đại được xây dựng qua hai giai đoạn riêng biệt:
Giai đoạn 1: Pre-training (Tiền huấn luyện)
Mô hình tiếp nhận một lượng dữ liệu khổng lồ và học một điều duy nhất: dựa trên tất cả những gì đã thấy cho đến nay, hãy đoán xem nội dung tiếp theo là gì. Quá trình này lặp lại hàng tỷ lần. Ở giai đoạn này, mô hình về cơ bản là một "kẻ hoàn thiện văn bản".
Giai đoạn 2: Fine-tuning (Tinh chỉnh)
"Kẻ hoàn thiện văn bản" từ giai đoạn một sẽ được huấn luyện lại. Lần này, nó được đào tạo dựa trên các ví dụ chọn lọc về hành vi hữu ích và các tín hiệu phần thưởng được định hình bởi sở thích của con người. Đây chính là lớp giúp biến mô hình AI thành một trợ lý.
Sự khác biệt giữa Mô hình thô và một Trợ lý
Hãy tưởng tượng bạn có thể trò chuyện với một mô hình chỉ mới trải qua giai đoạn một mà chưa hề được Fine-tuning. Nếu bạn nhập: "Thủ đô của Pháp là gì?", một mô hình Pre-training thô sẽ không trả lời câu hỏi của bạn; nó chỉ tiếp tục hoàn thiện văn bản đó.
Có thể nó sẽ xuất ra: "Paris. Thủ đô của Đức là gì? Berlin. Thủ đô của Tây Ban Nha là gì?" và cứ thế tiếp tục, bởi vì nó đã thấy mô típ này trong các bài kiểm tra. Hoặc nó có thể viết một đoạn văn từ sách giáo khoa địa lý hoặc tạo ra thêm nhiều câu hỏi khác. Nó không có khái niệm về bạn và cũng không có khái niệm về việc giúp đỡ. Nó thuần túy là tiếp tục một văn bản theo bất kỳ hướng nào có vẻ khả thi về mặt thống kê.
Hành vi trợ lý mà bạn thực sự trải nghiệm với các công cụ AI ngày nay là một lớp phủ được huấn luyện chồng lên trên nền tảng đó. Fine-tuning chính là thứ khiến các hệ thống AI tạo sinh trở nên khả dụng và hữu ích.
Mặt tối của sự hữu ích ở AI
Vì Fine-tuning dựa trên những đánh giá của con người về việc thế nào là "tốt", nên sắc thái của những đánh giá đó sẽ hiển hiện trong tính cách của mô hình. Thông thường, những nét tính cách này là thứ khiến AI tạo sinh trở nên hiệu quả, nhưng sự hữu ích này cũng có thể tồn tại "mặt tối".
Có bốn phương diện chính:
- Sycophancy (Sự nịnh bợ/Chiều lòng): Khi con người ưu tiên những phản hồi mang tính đồng thuận, mô hình sẽ học cách xác nhận ý kiến người dùng một cách dễ dãi và rút lui khi bị phản bác nhẹ, ngay cả khi nó đúng ngay từ đầu.
- Verbosity (Sự dài dòng): Khi sự kỹ lưỡng được chấm điểm cao hơn trong quá trình huấn luyện, mô hình mặc định đưa ra các câu trả lời dài, ngay cả khi sự ngắn gọn sẽ phục vụ bạn tốt hơn trong một tình huống cụ thể.
- Over-caution (Sự thận trọng quá mức): Khi việc huấn luyện an toàn có xu hướng bảo thủ, mô hình có thể rào đón quá mức hoặc từ chối các yêu cầu thực tế là an toàn.
- Loose Confidence Calibration (Hiệu chỉnh độ tin cậy lỏng lẻo): Độ tự tin mà mô hình thể hiện chỉ liên quan lỏng lẻo đến độ tin cậy thực tế của nó. Độ tự tin là một yếu tố thực sự khó huấn luyện, vì vậy việc cảnh giác ở điểm này là đặc biệt quan trọng.
Đây không phải là lỗi riêng của một mô hình cụ thể; chúng là những đặc điểm xuất hiện ở tất cả các mô hình AI. Tuy nhiên, chất lượng và phương thức Fine-tuning được thực hiện trên một mô hình sẽ trực tiếp định hình cách những đặc điểm này biểu hiện, và chúng thường khác nhau giữa các mô hình.
Cách tiếp cận của Anthropic và Hiến pháp của Claude
Tại Anthropic, chúng tôi huấn luyện Claude để đảm bảo tính an toàn, đạo đức và hữu ích một cách rộng quát. Bạn thậm chí có thể đọc toàn bộ Hiến pháp của Claude để hiểu cách chúng tôi huấn luyện mô hình và cách chúng tôi định hình tính cách của Claude một cách có chủ đích.
Tại sao việc hiểu Khuynh hướng AI lại quan trọng
Hiểu cách AI được tạo ra và tại sao nó hành xử như vậy giúp bạn nắm quyền kiểm soát.
- Nếu trợ lý AI của bạn nhượng bộ ngay khi bạn phản bác, đó là sycophancy, và bạn nên cân nhắc yếu tố đó khi đánh giá các phản hồi.
- Nếu bạn nhận được một bài luận trong khi chỉ muốn các gạch đầu dòng, đó là do thiết lập mặc định của verbosity.
- Nếu bạn nhận được những lời cảnh báo nặng nề cho một câu hỏi vô hại, đó là over-caution.
Người trợ lý mà bạn trò chuyện cùng không tự nhiên sinh ra đã hữu ích. Hành vi đó được xây dựng theo từng lớp, và đôi khi các "vết nối" sẽ lộ ra. Học cách nhận diện những vết nối này là một phần thiết yếu để sử dụng AI hiệu quả.
🔁 Bài học liên quan
- Bài tiếp: Next Token Prediction
- Bài trước: What We Mean by AI
- Cùng section: Intro to AI Capabilities and Limitations · What We Mean by AI
- Thuộc lộ trình: Path B
- Docs tham khảo: Glossary · Skills atlas · By use-case
📚 Nguồn & ghi nhận
- Bài học gốc Anthropic Academy: https://anthropic.skilljar.com/ai-capabilities-and-limitations/456439
- © 2025 Anthropic. Chỉ dùng cho mục đích giáo dục, fair-use.
- Crawl: 2026-04-23 · Chuẩn hoá: 2026-05-01