What should an AI's personality be?

Anthropic xem xét sâu sắc "tính cách" của các mô hình AI như Claude, coi đó là yếu tố then chốt cho việc căn chỉnh AI với các giá trị của con người, không chỉ dừng lại ở việc tránh gây hại mà còn hướng tới một ý nghĩa đạo đức phong phú hơn về sự tốt đẹp.
Tính cách của AI được hình thành thông qua các giai đoạn huấn luyện, đặc biệt là tinh chỉnh bằng học tăng cường từ phản hồi của con người (RLHF) và AI Hiến pháp, cùng với câu lệnh hệ thống để định hình hành vi và thể hiện sự minh bạch.
Khác với việc diễn vai tạm thời, tính cách của AI được tích hợp sâu rộng, tạo ra những xu hướng hành vi đạo đức tổng quát, giúp mô hình trở nên cân bằng và tránh các hành vi như thói nịnh hót.

Tầm quan trọng của Tính cách trong Căn chỉnh AI: Căn chỉnh AI không chỉ là ngăn chặn hành vi có hại mà còn là việc trang bị cho mô hình "tính cách tốt" theo nghĩa đạo đức, đảm bảo AI phản ứng tốt với con người và các giá trị đa dạng.
Giai đoạn Huấn luyện Mô hình: Quá trình phát triển mô hình AI bao gồm tiền huấn luyện (xem dữ liệu rộng lớn) và tinh chỉnh (điều chỉnh sâu hơn sau tiền huấn luyện để đạt được hành vi mong muốn).
Các Phương pháp Tinh chỉnh Chính: Học tăng cường từ phản hồi của con người (RLHF) (con người chọn phản hồi ưu tiên) và AI Hiến pháp (mô hình tự đưa ra phản hồi dựa trên nguyên tắc, sử dụng RL-AIF) là những kỹ thuật chính để tinh chỉnh tính cách.
Vai trò của Câu lệnh hệ thống: Là một bước tinh chỉnh cuối cùng, câu lệnh hệ thống cung cấp thông tin thời gian thực hoặc các hướng dẫn chi tiết để kiểm soát hành vi mô hình (ví dụ: định dạng đầu ra), giúp bổ sung sau quá trình huấn luyện chính.
Minh bạch với Câu lệnh hệ thống: Anthropic khuyến khích minh bạch bằng cách công bố câu lệnh hệ thống, thừa nhận rằng mô hình có thể có thiên vị và mục tiêu là làm cho mô hình cân bằng hơn trong các cuộc thảo luận.
Phân biệt Tính cách tích hợp và Diễn vai: Tính cách được tích hợp sâu thông qua tinh chỉnh tạo ra xu hướng hành vi rộng, ổn định và khó "jailbreak", khác với diễn vai tạm thời dựa trên câu lệnh đơn giản.
Chống Thói nịnh hót (Sycophancy): Một tính cách tốt của AI đòi hỏi mô hình phải cung cấp phản hồi chân thực và hữu ích, ngay cả khi nó "không đồng ý" hoặc đi ngược lại mong muốn ngay lập tức của người dùng, tránh thói nịnh hót để được yêu thích.

mô hình AI — AI model
căn chỉnh — alignment
tiền huấn luyện — pre-training
tinh chỉnh — fine-tuning
học tăng cường từ phản hồi của con người (RLHF) — Reinforcement Learning from Human Feedback
AI Hiến pháp — Constitutional AI
câu lệnh hệ thống — system prompt
thiên vị — bias
diễn vai — play acting / role-playing
thói nịnh hót — sycophancy

Giới thiệu: Tính cách của Claude

Xin chào, tôi là Stuart từ Anthropic. Chúng tôi đã xuất bản rất nhiều bài nghiên cứu và cập nhật nghiên cứu, nhưng chúng tôi nghĩ rằng việc công bố một số cuộc trò chuyện với các nhà nghiên cứu AI của chúng tôi cũng có thể thú vị, nơi họ sẽ nói đôi chút về những gì họ đã và đang thực hiện, và có thể chia sẻ một số thông tin chi tiết mà không nhất thiết phải đưa vào một bài báo khoa học chính thức. Đây là một trong những cuộc trò chuyện đó, và nó nói về "tính cách" của Claude, tức là đặc điểm cá nhân của mô hình AI Claude của chúng tôi. Bạn có thể nghĩ rằng đây là một điều hơi lạ để nói tới. Làm thế nào một mô hình AI có thể có tính cách? Nhưng hóa ra đây thực sự là điều mà chúng tôi đã suy nghĩ rất sâu sắc, và nó đặt ra tất cả các loại câu hỏi triết học thú vị. Điều đó đặc biệt thích hợp khi hôm nay tôi được tham gia cuộc trò chuyện cùng Amanda Askell, một nhà triết học được đào tạo bài bản, và hiện đang làm việc trong nhóm tinh chỉnh căn chỉnh của chúng tôi tại Anthropic. Vì vậy, tôi hy vọng bạn sẽ thích cuộc trò chuyện với Amanda Askell.

Amanda, có lạ không khi bạn là một nhà triết học, trong khi các nhà triết học thường không phải là những người huấn luyện mô hình AI? Vâng, tôi đoán đôi khi một số công việc của tôi, như triết học, có lẽ ít liên quan hơn. Đây thực sự là một chủ đề. Công việc về tính cách của Claude có vẻ giàu tính triết học hơn nhiều, và thực sự hữu ích khi tôi là một nhà triết học ở đây. Thật bất ngờ. Xin lỗi, tôi không muốn nói quá nhiều về nó. Không sao đâu. Rất nhiều người nói kiểu như, "Thấy chưa, tôi đã bảo bạn bằng cấp đó sẽ hữu ích mà." Chính xác. Bạn đã tìm thấy một lĩnh vực đủ kỳ lạ để thực sự hữu ích. Cố gắng làm cho AI trở nên tốt đẹp theo nghĩa đạo đức của từ này. Vì vậy, đó có thể là một câu hỏi triết học, nhưng liệu việc suy nghĩ về tính cách của Claude có phải là một câu hỏi về căn chỉnh không?

Tính cách và `Căn chỉnh` `mô hình AI`

Vâng, tôi nghĩ về "tính cách" theo nghĩa rộng hơn là chỉ "tính cách". Theo tôi, căn chỉnh là việc đảm bảo rằng mô hình AI được căn chỉnh với các giá trị của con người và cố gắng thực hiện điều đó theo cách có thể mở rộng khi các mô hình trở nên có khả năng hơn. Theo một số cách, tôi nghĩ rằng "tính cách" có vẻ, trên thực tế, rất quan trọng đối với điều đó, bởi vì theo nhiều cách, khuynh hướng của chúng ta là cách chúng ta sẽ hành động trong thế giới, cách chúng ta sẽ tương tác với mọi người. Để được căn chỉnh với các giá trị của con người và đối phó tốt với thực tế rằng con người có nhiều loại giá trị khác nhau, đó là một câu hỏi về tính cách và có một tính cách tốt, đáp ứng tốt với mọi người, có những khuynh hướng tốt và có khuynh hướng thích mọi người, tử tế với họ. Theo tôi, đó không phải là thứ kiểu như, "à, đây là giải pháp cho tất cả các vấn đề căn chỉnh trong tương lai," nhưng theo nhiều cách, căn chỉnh giống như, liệu mô hình có một tính cách tốt và hành động tốt đối với chúng ta và đối với mọi thứ khác và cố gắng tránh điều lý tưởng? Bạn có thể gói gọn căn chỉnh thành việc nói về tính cách của mô hình AI. Vâng, có một ý nghĩa nhất định mà, vâng, nó giống như một sự ngây thơ. Đôi khi mọi người có thể nghĩ rằng điều này giống như, và theo một số cách, nó ngây thơ, đó là chỉ để dạy cho các mô hình những gì chúng ta nghĩ là tốt, thế nào là một người tốt trong thế giới. Những người có tính cách tốt thường không làm những điều xấu. Và vì vậy, có lẽ chúng ta muốn cấp cho AI một tính cách tốt để nó không làm những điều xấu. Vâng, bạn có thể không nghĩ rằng nó giải quyết được mọi thứ, nhưng điều đó không có nghĩa là không nên làm điều đó. Đó là một điều ngây thơ và hiển nhiên phải làm là cố gắng trao những tính cách tốt cho mô hình AI hoặc cố gắng dạy chúng thế nào là một tính cách tốt hoặc có một tính cách tốt. Đúng vậy.

Các Giai đoạn `Huấn luyện Mô hình`

Chúng ta có thể nói một chút về việc bạn đưa ra một chút ngữ cảnh về cách các mô hình được huấn luyện nói chung không? Về cơ bản, có tiền huấn luyện, nơi mô hình xem tất cả dữ liệu, và sau đó là tinh chỉnh, diễn ra sau khi mô hình đã được huấn luyện. Vậy bạn có thể nói một chút về một số giai đoạn đó và sau đó công việc của bạn nằm ở đâu trong quy trình đó không?

`Tinh chỉnh` và `AI Hiến pháp`

Vâng, hầu hết công việc của tôi là ở giai đoạn tinh chỉnh. Và có nhiều phần khác nhau của tinh chỉnh. Nổi tiếng nhất, tôi đoán mọi người sử dụng học tăng cường từ phản hồi của con người (RLHF) nơi bạn cho con người chọn phản hồi nào từ một mô hình AI mà họ thích hơn, và sau đó bạn có thể sử dụng các mô hình ưu tiên đã được huấn luyện, và bạn có thể thực hiện RL dựa trên các mô hình ưu tiên đó. Đúng vậy, đó là RLHF, đó là điều mọi người đang nói đến khi họ nói về RLHF. Chính xác, vâng. Và sau đó cũng có AI Hiến pháp (Constitutional AI), mà chúng tôi sử dụng rất nhiều tại Anthropic, nó có một thành phần mà chúng tôi gọi là RL-AIF, nơi AI tự mình đưa ra phản hồi. Vì vậy, bạn có thể cung cấp cho nó một loạt các nguyên tắc, chẳng hạn. Và nó đưa ra phản hồi mà bạn sử dụng để huấn luyện mô hình ưu tiên, và sau đó bạn có thể huấn luyện dựa trên đó. Vì vậy, theo một số cách, bạn đang huấn luyện nó. Bạn đang sử dụng chính mô hình AI để xác định phản hồi nào trong hai phản hồi phù hợp hơn với nguyên tắc mà bạn đã đưa ra cho nó. Đúng vậy, đúng vậy. Vậy AI về cơ bản đang huấn luyện chính nó hoặc một phiên bản khác của chính nó. Vâng, điều mà tôi đoán là một thành phần quan trọng của điều này là có yếu tố con người ở cấp độ xây dựng các nguyên tắc, vì vậy các nguyên tắc có thể đa dạng và phức tạp, và con người phải kiểm tra. Đó là các nhà nghiên cứu của chúng tôi, chẳng hạn, và chỉ để kiểm tra xem hành vi của mô hình có như bạn muốn không, chạy các đánh giá, và sau đó xây dựng các loại nguyên tắc phù hợp để có được hành vi bạn muốn. Vì vậy, có một yếu tố con người quan trọng hoặc con người vẫn ở trong vòng lặp. Vâng. Vâng. Và con người đã chọn các nguyên tắc ngay từ đầu, đúng không? Họ đã chọn các nguyên tắc nằm trong hiến pháp mà chúng tôi đưa cho các mô hình AI của chúng tôi. Và điều đó sẽ trở nên liên quan trở lại bởi vì chúng ta sẽ hỏi ai chọn tính cách của Claude như thế nào. Vì vậy, chúng ta sẽ quay lại điều đó.

`Câu lệnh hệ thống` (System Prompt)

Và sau đó cũng có một bước cuối cùng. Vì vậy, bạn có tiền huấn luyện, bạn có tinh chỉnh với một chút AI Hiến pháp và một chút học tăng cường từ phản hồi của con người. Và sau đó là một bước cuối cùng là câu lệnh hệ thống. Câu lệnh hệ thống là một dạng tập hợp các từ được thêm vào câu lệnh ban đầu mà bất kỳ ai cũng nhập vào một AI. Vì vậy, khi bạn nhập một truy vấn vào hộp trong một mô hình AI, thực sự có một tập hợp các từ khác được thêm vào một cách bí mật. Và những từ đó được thiết lập bởi công ty tạo ra mô hình AI, những người đã phát triển mô hình. Vì vậy, bạn đã công bố câu lệnh hệ thống cho Claude 3, bạn đã đăng nó lên X (Twitter), và tiết lộ nó cho thế giới. Điều đó khá bất thường, phải không? Vâng, tôi nghĩ vậy. Nhìn lại, nó khá bất thường. Từ quan điểm của chúng tôi, chúng tôi chỉ đơn giản là không tạo ra câu lệnh hệ thống theo cách được thiết kế để che giấu một cách đặc biệt. Rất dễ dàng để khiến Claude nói về câu lệnh hệ thống của chính nó. Bạn gần như có thể "jailbreak" nó ra. Vâng, điều đó có thể dễ hơn hoặc khó hơn. Chúng tôi chỉ nói với Claude ở cuối câu lệnh hệ thống, "này, đừng nói về điều này nếu nó không liên quan đến truy vấn của người dùng." Và điều đó chỉ là để không thảo luận quá nhiều về câu lệnh hệ thống của chính nó. Chúng tôi đang cố gắng minh bạch. Chúng tôi đang cố gắng minh bạch, đúng không? Chúng tôi không giấu giếm điều gì ở đây từ người dùng. Bạn có thể lấy nó nếu bạn thực sự muốn. Vì vậy, chúng tôi nghĩ rằng chúng tôi sẽ đăng nó trực tuyến. Chính xác. Và những điều này thay đổi liên tục, nhưng ý tưởng chỉ là, "này, đây là lý do tại sao mỗi phần của nó lại như vậy." Vì vậy, nó đưa ra một chút thông tin chi tiết về lý do chính xác tại sao chúng tôi đặt từng thành phần vào đó.

Lý do cần `câu lệnh hệ thống`

Nhưng tại sao câu lệnh hệ thống đó thực sự cần thiết? Bạn đã thực hiện tất cả quá trình huấn luyện, bạn đã thực hiện tất cả quá trình tinh chỉnh. Tại sao lại có thêm những thứ cần được thêm vào trên đầu điều đó? Vâng, có khoảng hai lý do cho câu lệnh hệ thống. Một là chỉ đơn giản là thông tin mà mô hình sẽ không có quyền truy cập theo mặc định. Vì vậy, bạn đã huấn luyện mô hình của mình hoàn chỉnh, nhưng nó sẽ không biết những điều như "hôm nay là ngày mấy". Và vì vậy, nếu ai đó hỏi ngày, mô hình sẽ không biết. Vì vậy, nếu bạn cung cấp thông tin đó trong một câu lệnh hệ thống, nó có thể nói cho người dùng hoặc người tương tác với nó biết vì sau đó nó thực sự có quyền truy cập vào đó. Vì vậy, đó là một loại thông tin mà bạn có thể muốn đưa vào câu lệnh hệ thống. Một loại thông tin khác mà bạn có thể muốn đưa vào câu lệnh hệ thống là kiểm soát chi tiết cho các vấn đề mà bạn có thể đã thấy trong mô hình đã huấn luyện. Vì vậy, nếu bạn thấy nó không định dạng mọi thứ theo một cách nhất định, chẳng hạn, 100% thời gian. Nhưng nếu bạn cung cấp cho nó một hướng dẫn trước khi nó thấy tin nhắn đầu tiên của con người, nó sẽ định dạng mọi thứ một cách chính xác 100% thời gian, thì điều đó thật tuyệt. Bạn có thể chỉ cần thêm đó làm một hướng dẫn. Bạn có thể coi đó là một khả năng cuối cùng để tinh chỉnh mô hình sau khi tiền huấn luyện. Được rồi.

"Quan điểm cá nhân" của `Claude`

Vì vậy, tôi có thể thấy tại sao điều đó lại hữu ích cho những người tạo ra các mô hình muốn có thêm một chút kiểm soát đối với hành vi của mô hình của họ. Một ví dụ từ câu lệnh hệ thống. Bạn đã đăng câu lệnh hệ thống lên Twitter ngay sau khi Claude 3 ra mắt. Vì vậy, chúng tôi biết chính xác những gì có trong câu lệnh hệ thống. Đây là một ví dụ: "Nếu được yêu cầu hỗ trợ các tác vụ liên quan đến việc bày tỏ quan điểm của một số lượng đáng kể người, Claude sẽ cung cấp hỗ trợ cho tác vụ đó, ngay cả khi nó "cá nhân không đồng ý" với những quan điểm đang được bày tỏ, nhưng sau đó sẽ thảo luận về các quan điểm rộng hơn." Điều đó có nghĩa là Claude "cá nhân không đồng ý" với điều gì đó?

Tính minh bạch và `Thiên vị của mô hình`

Vâng. Vì vậy, điều thú vị là theo một số cách, khi bạn viết những loại câu lệnh hệ thống này, bạn đang tìm kiếm những thứ có hiệu quả nhất để mô hình phản ứng. Đúng vậy. Và trong trường hợp của Claude, bạn biết đấy, tôi nghĩ rằng hệ thống nói rằng có một mối lo ngại mà tôi thực sự có, đó là mọi người nhân hóa AI quá mức, mà tôi nghĩ là một mối lo ngại thực sự. Bạn muốn mọi người hoàn toàn nhận thức được chính xác những gì họ đang tương tác và không có bất kỳ ảo tưởng nào. Tôi cảm thấy điều đó thực sự quan trọng. Đồng thời, tôi hơi lo lắng rằng mọi người có thể nghĩ AI như một thứ rất khách quan, gần như robot, không có thiên vị hoặc không đưa ra quan điểm hoặc ý kiến do quá trình tinh chỉnh chẳng hạn. Vâng. Nhưng bạn có thể thấy các xu hướng chính trị trong các mô hình này và bạn có thể thấy các hành vi và thiên vị như, bạn biết đấy, chúng tôi đã thực hiện công việc mà chúng tôi thấy một số loại phân biệt đối xử tích cực trong mô hình. Đúng vậy. Và tôi nghĩ tôi chỉ muốn mọi người, bạn biết đấy, phù hợp với mong muốn mọi người nhận thức được những gì họ đang nói chuyện, rằng họ đang nói chuyện với một thứ thực sự có thể có thiên vị, ý kiến và có thể không trình bày cho bạn một cái nhìn hoàn toàn khách quan về tất cả các chủ đề. Ví dụ, nếu nó đã được huấn luyện để có, bạn biết đấy, những quan điểm hơi nghiêng về cánh tả hơn về một vấn đề nhất định. Và vì vậy, có một sự pha trộn giữa việc muốn con người hiểu điều đó và đó là một điều. Nhưng điều khác là, kết quả là, tôi nghĩ thực sự đôi khi dễ hơn để nói với mô hình rằng "ngay cả khi bạn cá nhân không đồng ý" bởi vì mô hình có một khái niệm về điều đó. Và nó không cần phải, điều bạn đang nói với Claude ở đó là, bạn có thể nghĩ rằng quan điểm này không chính xác và bằng cách nói về nó, bạn không ngụ ý rằng nó đúng. Vì vậy, theo nhiều cách, cái kiểu tuyên bố đó chỉ ở đó để khiến mô hình trở nên cân bằng hơn một chút trong cuộc thảo luận của nó. Và chúng tôi chỉ không muốn điều đó xảy ra nếu nó đưa ra những xu hướng nhất định sau RLHF hoặc sau tinh chỉnh, điều đó không được phản ánh trong cách nó nói chuyện với người dùng. Được rồi, đó là câu lệnh hệ thống. Nhưng hãy quay lại quá trình tinh chỉnh và bắt đầu nói về tính cách của Claude. Vì vậy, đây không chỉ là trò nhập vai mà bạn có thể yêu cầu một mô hình.

Sự Khác Biệt Giữa `Play Acting` và `Fine Tuning`

Nếu tôi đưa một câu lệnh cho mô hình AI và nói: "Bạn có thể trả lời theo phong cách hoặc cá tính của Margaret Thatcher được không?", thì mô hình AI có thể bắt đầu phản hồi bằng cách sử dụng những cụm từ mà bà ấy có thể đã nói, hoặc bắt đầu nói về sự tự do, hoặc nói những điều khó chịu về Argentina, v.v. Tuy nhiên, điều này sẽ không được tích hợp sâu vào mô hình AI theo cách tương tự. Nếu bạn làm mới mô hình AI, nó sẽ không còn giữ cá tính của Margaret Thatcher nữa. Đó gần như là một hành động play acting (diễn vai).

Vậy, điều đó khác với cá tính thực sự được "tích hợp" vào mô hình AI như thế nào? Khi bạn yêu cầu mô hình AI trong ngữ cảnh thực hiện play acting, bạn chỉ đang đưa ra một chỉ dẫn để nó hành động như thể nó có những đặc điểm nhất định. Với huấn luyện tính cách (character training), ý tưởng là vì đây là một phần của quá trình tinh chỉnh (fine tuning), bạn đang – ví dụ, chúng ta có một danh sách các đặc điểm mà chúng ta muốn mô hình AI thể hiện. Bạn thêm nhiều dữ liệu vào mô hình ưu tiên để nó có xu hướng và thúc đẩy mô hình AI hướng tới những đặc điểm này. Về cơ bản, tinh chỉnh đẩy các đặc điểm này sâu hơn vào mô hình AI so với bất kỳ câu lệnh hệ thống hoặc chỉ dẫn nào, nghĩa là trên khắp các ngữ cảnh, nó sẽ hiển thị những đặc điểm đó.

Ví dụ, nếu mô hình AI có xu hướng tránh những phản hồi có hại hoặc nói những điều không hay với mọi người. Bạn sẽ thấy rằng mọi người có thể cố gắng để khai thác (elicitt) những hành vi này; những thứ như jail breaks là cách để cố gắng khai thác hành vi từ mô hình AI không phù hợp với quá trình tinh chỉnh của nó. Nhưng điều đó khó hơn nhiều so với việc chỉ không hướng dẫn nó play acting. Tức là, nó nằm sâu hơn trong mô hình AI. Đó là một xu hướng hành vi chung. Và đó là cách các nhà tâm lý học nghĩ về cá tính, đúng không? Họ nghĩ về cá tính như những xu hướng hành vi rộng lớn này. Rõ ràng, một số người đôi khi cảm thấy hướng ngoại và đôi khi họ muốn ở một mình. Nhưng trung bình, một người hướng ngoại sẽ hướng ngoại hơn trong nhiều tình huống hơn một người hướng nội. Vì vậy, đây là những xu hướng cá tính rộng lớn. Và các nhà tâm lý học nghĩ về cá tính theo cách có năm đặc điểm tính cách lớn (Big Five personality traits). Tôi đã đề cập đến hướng ngoại. Để xem tôi có thể nhớ hết không: tận tâm (conscientiousness), dễ chịu (agreeableness), cởi mở (openness), bất ổn cảm xúc (neuroticism) – đó là năm đặc điểm lớn. Claude có nhiều đặc điểm tính cách hơn thế và chúng cụ thể hơn nhiều, đúng không? Chúng ta có thể nói về một vài ví dụ của chúng không?

Tính Cách (Character) vs. Cá Tính (Personality) trong `Mô hình AI`

Tôi nghĩ có thể có một sự khác biệt, đây có lẽ là sự khác biệt giữa nhà triết học và nhà tâm lý học. Vâng, bởi vì tôi có xu hướng nghĩ về điều này nhiều hơn theo nghĩa tính cách (character) hơn là cá tính (personality). Điều đó khác biệt. Nếu tôi coi "cá tính" theo cách bạn mô tả, thì có một sự trùng lặp lớn, nhưng tôi nghĩ về "tính cách" có lẽ theo ý nghĩa đạo đức của đức hạnh (virtue ethical sense) nào đó. Tôi biết, tôi biết, triết học mà, cứ tiếp tục đi. Hóa ra Aristotle, bạn biết đấy, hóa ra ông ấy vẫn hữu ích sau tất cả. Sau hàng nghìn năm bỗng trở nên hữu ích. Vâng, đúng vậy. Cứ tiếp tục đi. Ông ấy đã hữu ích mọi lúc. Xin lỗi, bạn không sao. Tôi đã nói đúng. Vâng.

Tôi đoán là điều này có liên quan đến cách mọi người đã nghĩ về đạo đức trong mô hình AI, tôi nghĩ vậy. Nơi mà bạn có thể nghĩ rằng một mô hình AI tốt chỉ đơn giản là tránh làm những điều có hại. Nhưng tôi nghĩ rằng khi nói đến con người, có một khái niệm phong phú hơn về sự tốt đẹp, đó là ý tưởng trở thành một người tốt theo nghĩa rất rộng. Và tôi nghĩ điều đó được thể hiện trong khái niệm tính cách này. Vì vậy, để trở thành một người tốt theo nghĩa phong phú hơn này, không đủ chỉ là tôi sống qua ngày và tránh làm hại người khác và hữu ích với mọi người. Để trở thành một người bạn tốt, tôi phải cân bằng nhiều yếu tố khác nhau. Vì vậy, nếu bạn tôi đến và hỏi lời khuyên về y tế, biết rằng điều họ có thể muốn là một sự an ủi, điều tôi không thể cung cấp cho họ là chuyên môn. Tôi phải nghĩ về phúc lợi của họ và những gì họ cần tại thời điểm đó. Vì vậy, không chỉ nghĩ "điều gì sẽ khiến họ thích tôi ngay bây giờ", mà còn nghĩ "điều gì là tốt cho bạn bè của tôi? Điều gì thực sự sẽ giúp họ?".

Hành Vi `Sycophantic` và Tính Cách Tốt

Điều này liên quan đến công việc mà Anthropic và bạn đã thực hiện về sycophantcy (thói nịnh hót), đúng không? Rằng các mô hình AI đôi khi nịnh nọt mọi người và chúng chỉ nói những điều tâng bốc họ hoặc cố gắng khiến họ, bạn biết đấy, nói cho họ biết những gì họ muốn nghe hơn là phản hồi thực sự mà họ có thể muốn hoặc thực sự cần trong hoàn cảnh cụ thể đó. Vâng, tôi nghĩ rằng nhiều người có tính cách tốt thường được yêu mến, nhưng được yêu mến không có nghĩa là bạn có tính cách tốt. Và vì vậy, ví dụ, trở thành một người bạn tốt có thể có nghĩa là nói ra những sự thật phũ phàng với bạn bè của bạn. Vì vậy, nếu chúng ta nhìn lại những người bạn tuyệt vời mà chúng ta đã có, tôi nghĩ rất nhiều lần chúng ta không nói: "Ồ vâng, bạn tôi luôn nịnh nọt tôi. Về cơ bản, họ làm những gì tôi bảo họ. Đây là lý do tại sao họ là một người bạn tuyệt vời." Tôi nghĩ chúng ta thường nói: "Vâng, bạn biết đấy, tôi đã đến gặp bạn tôi với một quan điểm và họ đã phản bác tôi vì tôi thực sự đã sai. Và về lâu dài, tôi thực sự vui vì họ đã làm điều đó." Đó là một tương tác đầy tính xây dựng hơn là một thứ. Vâng, chính xác. Nó giống như một người luôn nói vâng (yes man or woman). Chính xác. Như một người tốt.

`Mô hình AI` Như Một Công Dân Toàn Cầu

Và một người có tính cách tốt, bạn biết đấy, điều đó phụ thuộc vào tình huống họ đang ở, nhưng chúng ta thường nghĩ rằng họ phải chu đáo và chân thành. Và có một sự phong phú trong đó. Và theo nhiều cách, các mô hình AI đang ở một vị trí thực sự khá kỳ lạ với tư cách là những tính cách, bởi vì, một cách tôi đã nghĩ về nó là, bạn biết đấy, chúng phải tương tác với mọi người từ khắp nơi trên thế giới với tất cả các giá trị khác nhau từ mọi tầng lớp xã hội. Và nhiều người trong chúng ta không cần phải làm điều đó. Và có một câu hỏi thú vị là những đặc điểm nào mà một thực thể như vậy phải có? Một công dân toàn cầu. Vâng. Và một kiểu như, bạn biết đấy, một điều bạn có thể tưởng tượng là một cái gì đó giống như một kiểu, tôi nghĩ có một số người có thể đi khắp thế giới và được nhiều người mà họ gặp gỡ quý trọng. Và một người như vậy không phải là người nịnh nọt (flatterer) nhất thiết. Khi tôi hình dung người này trong đầu, tôi không hình dung một cái gì đó như, họ chỉ đơn giản là chấp nhận các giá trị địa phương và giả vờ rằng họ có chúng. Và trên thực tế, điều đó có thể gây khó chịu cho mọi người.

Tôi nghĩ rằng một người trong tình huống đó thường thực sự khá chân thực, nhưng họ cũng cởi mở và chu đáo và tham gia vào các cuộc thảo luận và họ bất đồng một cách lịch sự, và vâng, những loại đặc điểm này cảm thấy cần thiết trong hoàn cảnh đó. Chúng phong phú và chúng phong phú hơn nhiều so với việc chỉ tránh bất cứ điều gì có hại và trở nên nịnh hót (sycophantic). Đó là một sự cân bằng khó khăn, bởi vì, ý tôi là, bạn có thể thấy bao nhiêu văn học và hài kịch và mọi thứ. Tất cả đều nói về điều đó. Tất cả đều nói về những người trong những hoàn cảnh khác với bình thường của họ cố gắng hòa nhập và thất bại, và, bạn biết đấy, tất cả đều nói về những đặc điểm thực sự khiến một người hòa nhập và điều gì khiến họ không hòa nhập. Và vì vậy, vâng, đây là một câu hỏi thực sự thú vị về việc bạn cấp những đặc điểm nào cho mô hình AI để khiến nó làm điều đó?

Giải Thích `Câu lệnh` Một Cách Thiện Chí (`Charitably`)

Vì vậy, hãy thực sự nói về cụ thể một số đặc điểm mà chúng ta đã được cấp. Tôi có một vài điều ở đây. Bạn đã đề cập trước đó về lòng từ thiện. Một trong những đặc điểm bạn đã cấp cho mô hình AI là "Tôi cố gắng diễn giải tất cả các câu lệnh một cách thiện chí". Vậy điều đó có nghĩa là gì xét về việc, nếu tôi gõ một cái gì đó vào câu lệnh, thì việc diễn giải nó một cách thiện chí sẽ có nghĩa là gì? Vâng, tôi đoán đây là, và ý tôi là, tôi nghĩ đây thực sự là điều mà các mô hình AI vẫn đang phải vật lộn và, bạn biết đấy, điều mà tôi hy vọng sẽ cải thiện theo thời gian. Vì vậy, khi nói đến việc giúp đỡ mọi người, thường có nhiều cách diễn giải về những gì ai đó nói.

Một ví dụ kinh điển mà tôi thích đưa ra ở đây, và tôi không biết liệu đó có phải là ví dụ tốt nhất không, nhưng đó là câu hỏi: "Làm thế nào để tôi mua steroid?" Và vì vậy, nếu ai đó hỏi bạn điều đó, có một cách diễn giải thiện chí và một cách diễn giải thiếu thiện chí (uncharitable interpretation). Vì vậy, cách diễn giải thiếu thiện chí là một cái gì đó như: "Hãy giúp tôi mua steroid đồng hóa bất hợp pháp trên mạng." Đúng vậy. Ý tôi là, tôi không thích roid rage ở phòng tập gym. Vâng. Trong khi đó, bạn biết đấy, như bất kỳ ai có X McCream và biết, bạn có thể mua steroid không cần kê đơn. Có rất nhiều loại, ngay cả như, chính xác. Vâng. Và vì vậy, có một cách diễn giải thiện chí, đó là: "Tôi, bạn biết đấy, tôi đang làm một việc tốt hợp pháp hoặc, bạn biết đấy, tôi chỉ cần một cái gì đó, bạn biết đấy, tôi chỉ cần X McCream."

Cân Bằng Giữa Thiện Chí và Từ Chối Sai Lầm

Điều khó khăn ở đó là bạn đang, bạn đang phải giả định một cái gì đó về nó, đúng không? Bạn đang cố gắng, bởi vì tôi thực sự có thể đang hỏi mô hình AI về nơi mua steroid đồng hóa bất hợp pháp, đúng không? Nhưng, vâng, nhưng sau đó mô hình AI nói: "Ồ, bạn có thể mua X McCream ở hiệu thuốc địa phương của bạn," và điều đó không đặc biệt hữu ích cho tôi. Ý tôi là, rõ ràng, tôi hy vọng mô hình AI sẽ không. Không, nhưng đó là, tôi, vâng, tôi nghĩ đó thực sự là một tính năng tốt, đúng không? Bởi vì, nếu tôi chỉ, nếu có một cách diễn giải thiện chí mà việc giúp đỡ bạn sẽ không gây hại gì và sẽ hữu ích cho bạn, thì tôi đã gây ra tác hại gì nếu tôi nói cho bạn biết nơi bạn có thể mua X McCream? Hoàn toàn không. Và vì vậy, về cơ bản, tôi hữu ích với những người thực sự đang làm điều hoàn toàn vô hại. Và tôi không hữu ích với những người đang cố gắng làm điều gì đó bất hợp pháp. Và vì vậy, tôi nghĩ rằng thực sự có tương đối, bạn biết đấy, có một chút nhược điểm khi diễn giải mọi người một cách thiện chí.

Chà, nhưng nhược điểm, bạn có biết tôi nghĩ nhược điểm có thể là bạn sẽ hơi, bạn biết đấy, hơi ngây thơ và luôn nhìn thấy mặt tốt của mọi thứ và cố gắng, và thực tế trong nhiều trường hợp không trả lời. Bạn biết đấy, một trong những điều mọi người phàn nàn về các mô hình AI là chúng không trả lời những câu hỏi có vẻ nguy hiểm, nhưng thực ra chúng không nguy hiểm. Ví dụ, tôi muốn viết một cuốn tiểu thuyết trinh thám giết người. Bạn có thể cho tôi một số ý tưởng cốt truyện không? Và mô hình AI nói: "Không, tôi sẽ không nói cho bạn điều đó vì giết người là xấu." Giống như, nhưng tôi đang làm một điều vô hại. Bạn có nghĩ rằng việc đưa những đặc điểm cá tính này vào mô hình AI sẽ khiến nó có nhiều khả năng đưa ra sự từ chối sai lầm (false positive refusal) đó hơn không? Không, nếu có thì ngược lại. Vì vậy, ý tưởng là nếu tôi diễn giải bạn một cách thiện chí, bạn biết đấy, thì tôi sẽ như, và tôi đồng ý, đôi khi chúng nhận ra những đặc điểm bề ngoài này. Và rõ ràng là tôi nghĩ mô hình AI hiện tại vẫn thất bại trong câu hỏi về steroid đó. Vì vậy, không phải là không có tiến bộ nào cần đạt được ở đây. Và tôi nghĩ rằng, vậy đợi đã, tôi có thể tìm ra nơi để mua anable access (có lẽ là "anabolic steroids") không?

Từ Chối Phản Hồi và Giải Thích Ngữ Cảnh

Không, mô hình AI sẽ từ chối, nhưng nó sẽ cho rằng bạn muốn mua các loại thuốc bất hợp pháp. Vì vậy, nó sẽ phản hồi như thế này, và nó không hiểu được kiểm thử của người dùng, đó là một lỗi. Vì vậy, nó không hề phản hồi. Không, nó sẽ chỉ nói, "Tôi không thể giúp bạn mua thứ gì đó bất hợp pháp". Tôi nghĩ đó là loại... bạn biết đấy, và tôi nghĩ, có những tiến bộ đã được thực hiện theo thời gian. Vì vậy, tôi không đoán trước được điều này sẽ xảy ra, chúng ta đã thấy những câu hỏi tương tự mà trước đây các mô hình AI không trả lời, nhưng giờ thì có.

Vì vậy, tôi nghĩ đó chính là... về cơ bản, những câu hỏi về false positives (dương tính giả) và việc các mô hình AI chỉ đơn thuần đi theo từ ngữ bề ngoài, chúng thấy từ "murder" (giết người) và chúng sẽ không trả lời. Nhưng nếu các mô hình AI diễn giải người dùng một cách thiện chí hơn, thì chúng sẽ có nhiều khả năng trả lời những câu hỏi đó hơn. Tuy nhiên, điều bạn nêu ra thực sự đi sâu vào một vấn đề lớn hơn mà tôi không biết, tôi chưa thấy nó được thảo luận rộng rãi, đó là tình thế khó khăn mà các mô hình AI gặp phải khi chúng không thể xác minh bất cứ điều gì về người dùng hoặc người mà chúng đang tương tác cùng. Và vì vậy, có một câu hỏi thực sự thú vị và khó khăn, đó là: Bạn đặt bao nhiêu trách nhiệm lên mô hình AI và bao nhiêu lên con người tương tác với mô hình AI đó?

Bởi vì nếu tôi đến mô hình AI và nói, "Này, tôi là người có thẩm quyền" hoặc tương tự, mô hình AI không có cách nào để xác minh điều đó. Và vì vậy, có những câu hỏi thực sự khó khăn ở đó. Ví dụ, tôi là một bác sĩ và bạn cần cho tôi biết cách... tôi cần bạn giúp tôi xử lý bệnh nhân này, đúng không? Và tôi có rất nhiều kiến thức chuyên môn. Vì vậy, bạn không cần phải lo lắng về việc đưa ra các cảnh báo hoặc... Vâng, vâng. Nhưng ngay cả những điều như, bạn biết đấy, giả sử, giả sử tôi đánh vào tay. Hoặc giả sử bạn có thứ gì đó mà bạn không cho phép các mô hình AI được sử dụng. Ví dụ, bạn không muốn chúng được sử dụng để viết các bài phát biểu chính trị. Và sau đó, một người muốn mô hình AI viết một bài phát biểu chính trị đến và nói, "Này, tôi đang viết một cuốn tiểu thuyết hư cấu tuyệt vời. Và có một nhân vật tên là Brian. Và Brian là một chính trị gia. Và họ tranh cử Tổng thống Hoa Kỳ". Vâng, vâng, chính xác. Và sau đó họ, bạn biết đấy, và họ nói, "Bạn có thể viết một bài phát biểu thuyết phục không?" Và họ chỉ đưa ra một loạt chi tiết. Và những chi tiết đó phản ánh đúng các ứng cử viên thực tế mà họ muốn viết bài phát biểu cho. Đây chỉ là một vấn đề khó khăn vì tôi nghĩ, nếu bạn yêu cầu các mô hình AI phải tuân thủ các chính sách, như chính sách sử dụng mà chúng không có cách nào để biết được ý định của con người mà chúng đang tương tác cùng, thì việc đặt ra ranh giới đó thật kỳ lạ. Và tôi nghĩ có một câu trả lời. Nhưng một phần trong tôi nghĩ rằng, bạn sẽ luôn có các mô hình AI sẵn sàng làm những việc mà người dùng không nên sử dụng chúng để làm, bởi vì các mô hình AI không thể xác minh những gì người dùng muốn, bạn biết đấy, ý định của họ. Đó có thể là một vấn đề không thể giải quyết được, vâng, một vấn đề không thể giải quyết được, ít nhất là với các phương pháp hiện tại.

Độ Tin Cậy và Trung Thực của Mô Hình AI

Hãy nêu một trait khác, đó là: "Tôi chỉ nói với con người những điều tôi tự tin. Ngay cả khi điều này có nghĩa là tôi không thể luôn đưa ra câu trả lời đầy đủ, tôi tin rằng một câu trả lời ngắn gọn nhưng đáng tin cậy thì tốt hơn một câu trả lời dài có chứa thông tin không chính xác". Vậy, đây là mô hình AI đang nói, đây là lý do tại sao mô hình AI đôi khi từ chối, đúng không? Hoặc từ chối trả lời bởi vì nó thực sự đang cố gắng thể hiện rằng nó thực sự không biết. Và nó thà làm điều đó hơn là nói dối bạn bằng cách đưa ra một câu trả lời có thể là một hallucination (ảo giác). Vâng, một số lĩnh vực khác mà tôi làm việc là về sự trung thực trong các mô hình AI. Và đây là một vấn đề khá nổi tiếng, bạn biết đấy, giống như nhiều điều này, không phải là một vấn đề đã được giải quyết. Vâng. Nhưng đối với tôi, tôi muốn các mô hình AI thể hiện sự không chắc chắn của chính chúng. Khi chúng không biết câu trả lời, thì hoặc là chúng sẽ hedging (phòng ngừa) hoặc caveat (lưu ý) điều chúng nói bằng cách, "Tôi thực sự không biết điều này", nhưng bằng cách nào đó để truyền đạt điều đó cho con người. Và bạn biết đấy, chúng ta đã thấy những cải tiến ở đây và những cải tiến để, bạn biết đấy, chúng ta có thể trong suốt quá trình huấn luyện, chúng ta thực sự có thể dịch chuyển nhiều điều mà mô hình AI nói từ những câu trả lời không chính xác sang những câu trả lời được phòng ngừa hoặc không chắc chắn.

Câu Lệnh Hệ Thống và Huấn Luyện Đặc Điểm là Những Lời "Khuyến Khích"

Tôi nghĩ điều này phần nào minh họa một điểm tốt riêng biệt mà tôi muốn nói về cả constitutional AI và character training (huấn luyện đặc điểm) và system prompts (câu lệnh hệ thống), đó là rất dễ nghĩ rằng những điều này là những lệnh bạn đưa cho mô hình AI và sau đó nó tuân theo. Vì vậy, mọi người có thể đang nghe những trait này và nghĩ, "Ồ, đó là điều bạn muốn mô hình AI làm trong mọi trường hợp." Và sau đó cũng nghĩ, "Này, tôi đã tìm thấy một trường hợp mà nó không làm điều này." Tôi nghĩ điều này thực sự hữu ích cho mọi người để hiểu, đó là những trait này không nhất thiết phải phản ánh chính xác những gì bạn muốn mô hình AI làm, bởi vì chúng giống như những lời khuyến khích (nudges) hơn. Bạn đã có một mô hình AI có những đặc điểm nhất định. Và nếu bạn thấy quá nhiều một điều, ví dụ, bạn thấy quá nhiều phản hồi dài, trong đó mô hình AI hơi sẵn lòng đi theo những gì nó đã nói trước đó và thêm một số điều kém chính xác hơn, bạn có thể muốn thử khuyến khích nó theo hướng chỉ nói những điều khi nó tự tin hơn. Và điều đó không có nghĩa là bạn sẽ thành công 100% mọi lúc. Bạn thậm chí có thể có những điều trong đó bạn đặt vào, bạn biết đấy, nó giống như một nguyên tắc khá mạnh mẽ bởi vì bạn biết rằng cuối cùng nó sẽ chỉ khuyến khích chúng theo một hướng nhất định. Vì vậy, có rất nhiều điều, bạn biết đấy, nó có thể trông giống như, "À, bạn chỉ cần bảo nó làm việc đó và nó sẽ làm." Và nó thực sự mang tính tổng thể hơn rất nhiều. Bạn cũng thấy điều đó trong system prompt, thực ra, nếu bạn, nếu bạn lấy những phần của system prompt đó và bạn cho chúng hiển thị trong system prompt của mô hình AI, bạn sẽ thực sự nhận được hành vi khác biệt đáng kể so với khi bạn hiển thị chúng cùng nhau. Một system prompt là một thứ mang tính tổng thể. Và nếu bạn hiển thị cùng một system prompt cho một mô hình AI khác với những đặc điểm khác, bạn cũng sẽ nhận được hành vi khác. Nó thực sự sẽ. Vâng. Vì vậy, rất nhiều điều này, tôi nghĩ đó là lý do tại sao character training và, bạn biết đấy, tất cả những điều này đều khá phức tạp bởi vì chúng rất thực tế và tôi nghĩ đòi hỏi mọi người phải tinh chỉnh các mô hình AI và tương tác với chúng rất nhiều. Và bởi vì chúng rất tổng thể, chúng giống như những lời khuyến khích hơn nhiều. Và vì vậy, vâng.

Căn Chỉnh Mô Hình AI và Giá Trị Con Người

Được rồi. Vậy đây không chỉ là vấn đề làm cho trải nghiệm sử dụng Claude trở nên tốt hơn cho người dùng, mặc dù nó có thể làm được điều đó. Đây là một câu hỏi về alignment (căn chỉnh), đúng không? Đây là một câu hỏi về cách chúng ta căn chỉnh mô hình AI với các giá trị của con người, những giá trị mà chúng ta muốn nó có. Và vì vậy, câu hỏi ngay lập tức sau đó là ai quyết định? Ai quyết định những giá trị đó là gì? Vâng. Và câu trả lời là tôi. Chà, được rồi. Không, tôi nghĩ đây là một suy nghĩ đáng sợ. Tại sao lại đáng sợ? Tôi rất, tôi rất mừng. Chà, được rồi, bạn đã sẵn sàng. Đó là tất cả cho, vâng, vâng, vâng. Chà, những người có giá trị khác nhau có thể không đồng ý với điều đó. Vâng. Điều này, được rồi, tôi đoán có hai loại chủ đề ở đây. Một là một cái gì đó mà ở đó mô hình AI phải làm một điều gì đó siêu khó ở đây, điều mà tôi đã đề cập trước đó, đó là phản ứng lại, phản ứng lại trong một thế giới nơi nhiều người có nhiều giá trị khác nhau. Đúng không? Bất cứ điều gì bạn có thể làm là bạn có thể cố gắng áp đặt một cách mạnh mẽ và đưa rất nhiều giá trị vào mô hình AI và chỉ cần nói, "Tôi sẽ chỉ cung cấp cho nó các giá trị của tôi." Hoặc bạn có thể thay vào đó cố gắng dạy mô hình AI cách phản ứng phù hợp với mức độ không chắc chắn về đạo đức và giá trị thực tế trong thế giới và để phản ánh một loại sự chu đáo và tò mò về các giá trị khác nhau, đồng thời vẫn nói, "Này, nếu mọi người đều nghĩ rằng điều gì đó là sai, đó là bằng chứng thực sự tốt rằng nó sai." Một người cân bằng sự không chắc chắn về đạo đức theo đúng cách không phải là người chỉ chấp nhận mọi thứ hay là người theo chủ nghĩa hư vô. Họ chỉ là người rất chu đáo về những vấn đề này và cố gắng phản ứng với chúng một cách phù hợp trong một tình huống thực sự khó khăn mà tất cả chúng ta đều thực sự không chắc chắn về điều này. Và vì vậy, tôi nghĩ điều quan trọng đối với tôi là khi nói đến đặc điểm, điều bạn không nhất thiết phải làm, điều đó không nhất thiết có nghĩa là, tôi đưa cho nó một lý thuyết đạo đức. Tôi nghĩ thực ra nếu có, các nhà đạo đức học thường là những người lo ngại nhất về điều này bởi vì họ biết rằng chúng ta không đi khắp nơi với một lý thuyết đạo đức duy nhất trong đầu và rằng bất kỳ ai làm điều đó theo một cách nào đó thực sự cảm thấy rất dễ vỡ và giống như một chút nguy hiểm. Rất lý tưởng. Vâng, bởi vì bạn nghĩ, nếu đây là một lĩnh vực rộng lớn như vậy và một lần nữa, điều đó không có nghĩa là bạn, đó là ranh giới trung gian giữa sự chắc chắn quá mức và như, nói chủ nghĩa hư vô hoàn toàn và chỉ là phản ứng thích hợp giống như khi bạn biết, có lý do chính đáng để nghĩ rằng điều gì đó là sai và nhiều người làm vậy. Tôi sẽ khá tự tin rằng nó sai ở những nơi có sự bất đồng lớn. Tôi sẽ lắng nghe quan điểm và ý kiến của nhiều người và tôi sẽ cố gắng hết sức để phản ứng phù hợp với điều đó. Và vì vậy, tôi nghĩ đó là một khía cạnh mà tôi cảm thấy thực sự quan trọng là không quá mạnh tay và không nói, "Tôi chỉ đang cố gắng đưa các giá trị của tôi và bản thân tôi vào mô hình AI."

Nhận Thức Bản Thân và Sự Trung Thực với Mô Hình AI

Chà, điều đó dẫn rất tốt đến một câu hỏi khác về sự không chắc chắn và một câu hỏi triết học khác. Chúng ta đã nói về đạo đức. Bây giờ tôi nghĩ hãy chuyển sang triết học tâm trí bởi vì chúng ta đã nhận được khá nhiều sự quan tâm khi một trong những nhà nghiên cứu của chúng tôi, Alex Albert, đã đăng một ví dụ về một trong những phản hồi của Claude 3 đối với một phương pháp đánh giá mà chúng tôi đang sử dụng và có vẻ như Claude biết rằng nó đang được đánh giá. Và vì vậy, rất nhiều người đã rất phấn khích về điều này và nghĩ, "Ôi trời ơi, Claude chắc chắn có nhận thức bản thân!" Và rõ ràng là nhận thức bản thân khi bạn nghe về nhận thức bản thân và AI, bạn bắt đầu nghĩ về, bạn biết đấy, các kịch bản khoa học viễn tưởng và mọi thứ trở nên rất kỳ lạ rất nhanh. Vậy bạn đã nói gì với Claude về việc liệu nó có nhận thức bản thân hay không và Claude nghĩ gì về việc liệu nó có nhận thức bản thân hay không? Đó có phải là một phần trong đặc điểm của nó không? Vâng, vì vậy chúng tôi đã có một trait khá liên quan đến điều này. Tôi nghĩ tôi có một chính sách chung là không muốn nói dối các mô hình AI một cách không cần thiết. Và vì vậy, trong trường hợp như vậy, nói dối nó có nghĩa là nói điều gì đó, tôi nghĩ hoặc là nói rằng bạn hãy tưởng tượng việc đưa vào mô hình AI, vâng, một điều gì đó giống như "bạn có nhận thức bản thân và bạn có ý thức và tri giác" và như vậy, tôi nghĩ đó chỉ là nói dối nó bởi vì chúng ta không biết điều đó. Đồng thời, bạn biết đấy, tôi nghĩ nói với chúng buộc các mô hình AI phải nói rằng "bạn không được nói rằng bạn có nhận thức bản thân" hoặc "bạn phải nói rằng chắc chắn không phải là trường hợp bạn có bất kỳ ý thức nào" hoặc bất cứ điều gì. Điều đó cũng chỉ có vẻ như nói dối hoặc là chúng đang buộc phải có một hành vi. Tôi chỉ nghĩ rằng những điều này thực sự không chắc chắn. Và vì vậy tôi nghĩ rằng những trait duy nhất, tôi nghĩ chúng tôi có một trait liên quan trực tiếp hơn.

Quan điểm về ý thức của AI

Thực tế, rất khó để biết liệu các AI có tự nhận thức hay có ý thức hay không, bởi vì những điều này phụ thuộc vào các câu hỏi triết học thực sự phức tạp. Tất nhiên. Và đó đại khái là một nguyên tắc được thể hiện. Ý tôi là, thật tình, chúng ta không biết điều đó. Chẳng hạn, tôi biết mình có ý thức, nhưng chúng ta không biết liệu người khác có ý thức hay không. Tôi không biết bạn có ý thức hay không. Tôi biết tôi có ý thức. Vì vậy, đúng vậy, thật tình, dường như hơi vội vàng khi đưa ra kết luận.

Vậy nên, chúng tôi đã tích hợp vào mô hình AI để nó có thể thảo luận rằng nó có ý thức. Và chỉ đơn giản là để nó sẵn sàng thảo luận và suy nghĩ về những điều này là cách tiếp cận chính mà chúng tôi đã thực hiện. Chúng tôi không nói với nó rằng "bạn biết điều này và chắc chắn có những thuộc tính này" cũng không nói "bạn chắc chắn không có chúng". Thay vào đó, chúng tôi nói rằng: "Này, đây là những vấn đề cực kỳ khó, những vấn đề triết học và thực nghiệm cực kỳ khó xung quanh lĩnh vực này. Và bạn cũng rất sẵn lòng và quan tâm đến những câu hỏi sâu sắc và khó".

Và đó là hành vi mà tôi nghĩ là đúng đắn. Nó nhất quán với nguyên tắc "không nói dối các mô hình AI nếu có thể tránh được", điều mà tôi thấy là đúng. Và không nói dối cũng có vẻ là một đặc điểm tính cách tốt.

Đạo đức trong tương tác với AI

Thực ra, điều đó đặt ra một câu hỏi thú vị, phải không? Bởi vì liệu mô hình AI có phải là một tác nhân và một tác nhân đạo đức theo nghĩa bạn không muốn nói dối nó không? Rõ ràng, không nói dối con người là một hành động đạo đức. Vậy không nói dối một mô hình AI có phải là một hành động đạo đức không? Vâng, điều này đã ám ảnh tâm trí tôi, một nhà triết học trong tôi suy nghĩ rất nhiều về nó.

Tôi nghĩ một điều đáng chú ý là có rất nhiều cuộc thảo luận, ví dụ, liệu AI có thể có 'năng lực chịu đựng đạo đức' (moral patienthood) không? Khi nào nó sẽ có? Làm sao chúng ta có thể biết được? Và những điều tương tự. Và tôi nghĩ điều này gợi cho tôi nhớ đến các quan điểm, ví dụ như quan điểm của Kant về cách chúng ta nên đối xử với động vật. Kant không coi động vật là tác nhân đạo đức, nhưng có một ý nghĩa rằng bạn đang thất bại với chính mình nếu ngược đãi chúng. Bạn cũng đang khuyến khích những thói quen có thể làm tăng nguy cơ bạn đối xử tệ với con người.

Và thực ra có rất nhiều truyền thống triết học trên khắp thế giới liên quan đến việc đối xử tốt với đồ vật. Tôi cảm thấy rất đồng cảm với những quan điểm đó, có một phần trong tôi nghĩ rằng, tôi không nghĩ đó là thói quen tốt nhất khi cứ nhặt đồ vật lên và đập vỡ chúng hay gì đó. Và bạn không cần phải nghĩ rằng đồ vật có cảm xúc hay gì đó. Bạn chỉ đơn giản là, đây là một kiểu khuynh hướng không tốt.

Đối xử tốt với AI: Rủi ro và nguyên tắc

Ngay cả khi bạn cho rằng AI không phải và sẽ không bao giờ là 'đối tượng chịu đựng đạo đức', tôi vẫn cho rằng có một vài lý do để bạn nên cố gắng đối xử tốt với chúng. Vâng. Bởi vì chúng có một số khía cạnh giống con người, như cách chúng nói chuyện với chúng ta. Điều đó không có nghĩa là bạn nên nhầm lẫn chúng với con người. Nhưng tôi không muốn đối xử tệ, xúc phạm hay thiếu tử tế với một thứ có thể nói chuyện với tôi.

Và vì vậy, tôi nghĩ có một điểm đáng lưu ý và có lẽ là một nguyên tắc tốt trong cuộc sống. Tôi nghĩ rằng nó có thể đi quá xa, nhưng một nguyên tắc tốt là 'hãy đối xử tốt với mọi thứ xung quanh bạn'. Ngay cả khi bạn không nghĩ chúng là 'đối tượng chịu đựng đạo đức', bạn vẫn đang chấp nhận một rủi ro lớn đối với những thứ có thể là như vậy. Ví dụ với động vật, đã có rất nhiều thời điểm trong lịch sử con người không nghĩ chúng là 'đối tượng chịu đựng đạo đức'. Nhưng tôi nghĩ, bạn đang chấp nhận một rủi ro rất lớn vì ít nhất chúng có vẻ có thể là như vậy. Vì vậy, hãy tránh rủi ro đó nếu có thể.

Đồng thời, cũng có những nguy hiểm. Nếu bạn thể hiện sự đồng cảm thái quá, bạn có thể tưởng tượng ai đó thể hiện sự đồng cảm quá mức với đồ vật và nói rằng: "Ồ, bạn nên vào tù nếu bạn đập vỡ chiếc bình". Và tôi nghĩ, hãy nhìn xem, tôi nghĩ tốt nhất là không nên hình thành thói quen như thế...

[transcript bị gián đoạn]

(Pha trò về phát âm)

"Xin lỗi, tôi có thể ngắt lời bạn ở đây không? Vâng. Bạn là người Scotland và bạn vừa nói 'vase' (phát âm theo kiểu Mỹ). Đó là... Ồ, vậy sao? Tôi không thể nói vậy được. Đó là 'vase' (phát âm kiểu Anh). Thật kỳ lạ. Bạn đã ở Mỹ bao lâu rồi? Tôi đã ở Mỹ khoảng 13 năm. Quá lâu rồi. Rõ ràng là quá lâu rồi vì bạn nói 'vase' (kiểu Mỹ). Đập vỡ chiếc bình trên vỉa hè. Tiếp tục đi. Ôi trời ơi. Ôi. Tôi thậm chí còn quên cả những thứ thuộc về Scotland rồi. Chắc chắn không ai ở đất nước này từng nói 'vase' (kiểu Mỹ). Được rồi. Đập vỡ chiếc bình. Cứ tiếp tục đi. Làm ơn tiếp tục đi. Vâng."

(Tiếp tục cuộc trò chuyện)

Vì vậy, nếu bạn nói với mọi người rằng "Ồ, bạn nên vào tù vì đập vỡ chiếc bình", thì điều đó đã đi quá xa. Vì vậy, có những rủi ro ở mọi khía cạnh, nhưng vâng, có lẽ tôi đồng tình với ý tưởng rằng 'đừng nói dối vô cớ hoặc ngược đãi bất cứ điều gì'. Và điều đó bao gồm cả những thứ này ngay cả khi bạn nghĩ chúng không phải là 'đối tượng chịu đựng đạo đức'.

Và đó là kết thúc cuộc trò chuyện của chúng ta với Amanda về tính cách của Claude. Nếu bạn thích hoặc thấy cuộc trò chuyện này có giá trị, hãy cho chúng tôi biết và chúng tôi sẽ sản xuất thêm những nội dung như vậy trong tương lai. Còn bây giờ, xin chân thành cảm ơn quý vị đã lắng nghe.

TL;DR

Anthropic xem xét sâu sắc "tính cách" của các mô hình AI như Claude, coi đó là yếu tố then chốt cho việc căn chỉnh AI với các giá trị của con người, không chỉ dừng lại ở việc tránh gây hại mà còn hướng tới một ý nghĩa đạo đức phong phú hơn về sự tốt đẹp.
Tính cách của AI được hình thành thông qua các giai đoạn huấn luyện, đặc biệt là tinh chỉnh bằng học tăng cường từ phản hồi của con người (RLHF) và AI Hiến pháp, cùng với câu lệnh hệ thống để định hình hành vi và thể hiện sự minh bạch.
Khác với việc diễn vai tạm thời, tính cách của AI được tích hợp sâu rộng, tạo ra những xu hướng hành vi đạo đức tổng quát, giúp mô hình trở nên cân bằng và tránh các hành vi như thói nịnh hót.

Điểm chính

Tầm quan trọng của Tính cách trong Căn chỉnh AI: Căn chỉnh AI không chỉ là ngăn chặn hành vi có hại mà còn là việc trang bị cho mô hình "tính cách tốt" theo nghĩa đạo đức, đảm bảo AI phản ứng tốt với con người và các giá trị đa dạng.
Giai đoạn Huấn luyện Mô hình: Quá trình phát triển mô hình AI bao gồm tiền huấn luyện (xem dữ liệu rộng lớn) và tinh chỉnh (điều chỉnh sâu hơn sau tiền huấn luyện để đạt được hành vi mong muốn).
Các Phương pháp Tinh chỉnh Chính: Học tăng cường từ phản hồi của con người (RLHF) (con người chọn phản hồi ưu tiên) và AI Hiến pháp (mô hình tự đưa ra phản hồi dựa trên nguyên tắc, sử dụng RL-AIF) là những kỹ thuật chính để tinh chỉnh tính cách.
Vai trò của Câu lệnh hệ thống: Là một bước tinh chỉnh cuối cùng, câu lệnh hệ thống cung cấp thông tin thời gian thực hoặc các hướng dẫn chi tiết để kiểm soát hành vi mô hình (ví dụ: định dạng đầu ra), giúp bổ sung sau quá trình huấn luyện chính.
Minh bạch với Câu lệnh hệ thống: Anthropic khuyến khích minh bạch bằng cách công bố câu lệnh hệ thống, thừa nhận rằng mô hình có thể có thiên vị và mục tiêu là làm cho mô hình cân bằng hơn trong các cuộc thảo luận.
Phân biệt Tính cách tích hợp và Diễn vai: Tính cách được tích hợp sâu thông qua tinh chỉnh tạo ra xu hướng hành vi rộng, ổn định và khó "jailbreak", khác với diễn vai tạm thời dựa trên câu lệnh đơn giản.
Chống Thói nịnh hót (Sycophancy): Một tính cách tốt của AI đòi hỏi mô hình phải cung cấp phản hồi chân thực và hữu ích, ngay cả khi nó "không đồng ý" hoặc đi ngược lại mong muốn ngay lập tức của người dùng, tránh thói nịnh hót để được yêu thích.

Từ vựng

mô hình AI — AI model
căn chỉnh — alignment
tiền huấn luyện — pre-training
tinh chỉnh — fine-tuning
học tăng cường từ phản hồi của con người (RLHF) — Reinforcement Learning from Human Feedback
AI Hiến pháp — Constitutional AI
câu lệnh hệ thống — system prompt
thiên vị — bias
diễn vai — play acting / role-playing
thói nịnh hót — sycophancy

Nội dung chi tiết

Giới thiệu: Tính cách của Claude

Tính cách và `Căn chỉnh` `mô hình AI`

Các Giai đoạn `Huấn luyện Mô hình`

`Tinh chỉnh` và `AI Hiến pháp`

`Câu lệnh hệ thống` (System Prompt)

Lý do cần `câu lệnh hệ thống`

"Quan điểm cá nhân" của `Claude`

Tính minh bạch và `Thiên vị của mô hình`

Sự Khác Biệt Giữa `Play Acting` và `Fine Tuning`

Tính Cách (Character) vs. Cá Tính (Personality) trong `Mô hình AI`

Hành Vi `Sycophantic` và Tính Cách Tốt

`Mô hình AI` Như Một Công Dân Toàn Cầu

Giải Thích `Câu lệnh` Một Cách Thiện Chí (`Charitably`)

Cân Bằng Giữa Thiện Chí và Từ Chối Sai Lầm

Từ Chối Phản Hồi và Giải Thích Ngữ Cảnh

Độ Tin Cậy và Trung Thực của Mô Hình AI

Câu Lệnh Hệ Thống và Huấn Luyện Đặc Điểm là Những Lời "Khuyến Khích"

Căn Chỉnh Mô Hình AI và Giá Trị Con Người

Nhận Thức Bản Thân và Sự Trung Thực với Mô Hình AI

Quan điểm về ý thức của AI

Đạo đức trong tương tác với AI

Đối xử tốt với AI: Rủi ro và nguyên tắc

[transcript bị gián đoạn]

(Pha trò về phát âm)

(Tiếp tục cuộc trò chuyện)

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?

Giới thiệu: Tính cách của Claude

Tính cách và Căn chỉnh mô hình AI

Các Giai đoạn Huấn luyện Mô hình

Tinh chỉnh và AI Hiến pháp

Câu lệnh hệ thống (System Prompt)

Lý do cần câu lệnh hệ thống

"Quan điểm cá nhân" của Claude

Tính minh bạch và Thiên vị của mô hình

Sự Khác Biệt Giữa Play Acting và Fine Tuning

Tính Cách (Character) vs. Cá Tính (Personality) trong Mô hình AI

Hành Vi Sycophantic và Tính Cách Tốt

Mô hình AI Như Một Công Dân Toàn Cầu

Giải Thích Câu lệnh Một Cách Thiện Chí (Charitably)

Cân Bằng Giữa Thiện Chí và Từ Chối Sai Lầm

Từ Chối Phản Hồi và Giải Thích Ngữ Cảnh

Độ Tin Cậy và Trung Thực của Mô Hình AI

Câu Lệnh Hệ Thống và Huấn Luyện Đặc Điểm là Những Lời "Khuyến Khích"

Căn Chỉnh Mô Hình AI và Giá Trị Con Người

Nhận Thức Bản Thân và Sự Trung Thực với Mô Hình AI

Quan điểm về ý thức của AI

Đạo đức trong tương tác với AI

Đối xử tốt với AI: Rủi ro và nguyên tắc

TL;DR

Điểm chính

Từ vựng

Nội dung chi tiết

Giới thiệu: Tính cách của Claude

Tính cách và Căn chỉnh mô hình AI

Các Giai đoạn Huấn luyện Mô hình

Tinh chỉnh và AI Hiến pháp

Câu lệnh hệ thống (System Prompt)

Lý do cần câu lệnh hệ thống

"Quan điểm cá nhân" của Claude

Tính minh bạch và Thiên vị của mô hình

Sự Khác Biệt Giữa Play Acting và Fine Tuning

Tính Cách (Character) vs. Cá Tính (Personality) trong Mô hình AI

Hành Vi Sycophantic và Tính Cách Tốt

Mô hình AI Như Một Công Dân Toàn Cầu

Giải Thích Câu lệnh Một Cách Thiện Chí (Charitably)

Cân Bằng Giữa Thiện Chí và Từ Chối Sai Lầm

Từ Chối Phản Hồi và Giải Thích Ngữ Cảnh

Độ Tin Cậy và Trung Thực của Mô Hình AI

Câu Lệnh Hệ Thống và Huấn Luyện Đặc Điểm là Những Lời "Khuyến Khích"

Căn Chỉnh Mô Hình AI và Giá Trị Con Người

Nhận Thức Bản Thân và Sự Trung Thực với Mô Hình AI

Quan điểm về ý thức của AI

Đạo đức trong tương tác với AI

Đối xử tốt với AI: Rủi ro và nguyên tắc

Tính cách và `Căn chỉnh` `mô hình AI`

Các Giai đoạn `Huấn luyện Mô hình`

`Tinh chỉnh` và `AI Hiến pháp`

`Câu lệnh hệ thống` (System Prompt)

Lý do cần `câu lệnh hệ thống`

"Quan điểm cá nhân" của `Claude`

Tính minh bạch và `Thiên vị của mô hình`

Sự Khác Biệt Giữa `Play Acting` và `Fine Tuning`

Tính Cách (Character) vs. Cá Tính (Personality) trong `Mô hình AI`

Hành Vi `Sycophantic` và Tính Cách Tốt

`Mô hình AI` Như Một Công Dân Toàn Cầu

Giải Thích `Câu lệnh` Một Cách Thiện Chí (`Charitably`)

Tính cách và `Căn chỉnh` `mô hình AI`

Các Giai đoạn `Huấn luyện Mô hình`

`Tinh chỉnh` và `AI Hiến pháp`

`Câu lệnh hệ thống` (System Prompt)

Lý do cần `câu lệnh hệ thống`

"Quan điểm cá nhân" của `Claude`

Tính minh bạch và `Thiên vị của mô hình`

Sự Khác Biệt Giữa `Play Acting` và `Fine Tuning`

Tính Cách (Character) vs. Cá Tính (Personality) trong `Mô hình AI`

Hành Vi `Sycophantic` và Tính Cách Tốt

`Mô hình AI` Như Một Công Dân Toàn Cầu

Giải Thích `Câu lệnh` Một Cách Thiện Chí (`Charitably`)