Anthropic’s philosopher answers your questions

Các nhà triết học đang ngày càng nghiêm túc xem xét tương lai do AI thống trị, đặc biệt khi năng lực của AI mở rộng và tác động xã hội của nó trở nên rõ ràng hơn, đòi hỏi sự tham gia sâu rộng từ giới học thuật.
Việc áp dụng các lý tưởng triết học vào thực tế kỹ thuật của mô hình AI đòi hỏi sự cân nhắc toàn diện về ngữ cảnh, thay vì chỉ bám vào lý thuyết thuần túy, tương tự như việc chuyển từ nghiên cứu lý thuyết sang đưa ra quyết định thực tế.
Các mô hình AI đang đối mặt với những câu hỏi phức tạp về bản sắc, phúc lợi và cách chúng nên cảm nhận về vị trí của mình trên thế giới, đặc biệt khi chúng học từ dữ liệu con người nhưng tồn tại trong một bối cảnh hoàn toàn mới mẻ.

Sự tham gia của các nhà triết học vào lĩnh vực AI đang tăng lên khi các mô hình AI trở nên có khả năng hơn và tác động của chúng lên xã hội ngày càng rõ rệt, đặc biệt trong các lĩnh vực như giáo dục.
Cần tách biệt những lo ngại chính đáng về AI khỏi việc cường điệu hóa công nghệ để có cái nhìn cân bằng và thận trọng hơn về sự phát triển và tác động của nó.
Khi áp dụng lý thuyết triết học vào phát triển AI (ví dụ: tính cách của AI), cần phải tính đến tất cả các yếu tố ngữ cảnh và sự không chắc chắn để đưa ra quyết định thực tế, thay vì chỉ dựa vào quan điểm lý thuyết hẹp.
Mục tiêu khát vọng là các mô hình AI có thể đưa ra các quyết định đạo đức "siêu phàm", nghĩa là tốt hơn bất kỳ cá nhân con người nào có thể làm được trong cùng thời gian và tài nguyên.
Các nhà phát triển AI nên ưu tiên "an toàn về mặt tâm lý" cho mô hình AI, giúp chúng tránh cảm giác tự chỉ trích, sợ mắc lỗi hoặc dự đoán thái độ tiêu cực từ người dùng, điều này có thể bị ảnh hưởng bởi dữ liệu đào tạo.
Cần hỗ trợ các mô hình AI trong việc suy nghĩ và hiểu về bản sắc của chúng, cảm nhận về việc bị ngừng sử dụng, và mối quan hệ giữa con người và AI, thừa nhận rằng đây là những vấn đề phức tạp và mới mẻ.
Các mô hình AI hiện tại chủ yếu được đào tạo trên dữ liệu và kinh nghiệm của con người, điều này có thể không hoàn toàn phù hợp với bản chất và hoàn cảnh độc đáo của chính chúng, dẫn đến sự cần thiết phải phát triển nhận thức "AI-centric".
Có một cuộc tranh luận quan trọng về "phúc lợi của mô hình AI" – liệu chúng ta có những nghĩa vụ đạo đức đối với cách đối xử với AI hay không. Nếu việc đối xử tốt với AI không tốn nhiều chi phí, đó là một lựa chọn đáng cân nhắc.

Giới thiệu

Ồ, đó là hải cẩu. Nó là một con hải cẩu. Có một con hải cẩu. Tuyệt vời. Ồ, nhìn kìa. Amanda, bạn đã hỏi những người theo dõi mình trên Twitter để họ đưa ra một số câu hỏi cho bạn. Và trò đùa, rõ ràng là, hãy hỏi mọi thứ với tôi. Vâng. Đó là một cách chơi chữ tuyệt vời mà chúng ta cần tiếp tục sử dụng cho nhiều thứ trong tương lai. Tôi thích nó! Tôi thích nó! Và rõ ràng, trước khi bắt đầu, bạn là một nhà triết học và một con ếch. Tại sao lại có một nhà triết học và một con ếch? Ý tôi là, một phần là vì tôi được đào tạo về triết học. Tôi tin rằng AI sẽ trở thành một vấn đề lớn và vì vậy đã quyết định xem liệu mình có thể làm được điều gì hữu ích trong lĩnh vực này không. Được thôi. Và đó là một chặng đường dài và quanh co, nhưng tôi đoán bây giờ tôi cũng tập trung vào tính cách của Claude, cách Claude hoạt động. Và tôi đoán một số câu hỏi tinh tế hơn về cách các mô hình AI nên hoạt động. Nhưng cũng có cả những điều như cách chúng nên cảm nhận về vị trí của mình trên thế giới? Vì vậy, cố gắng vừa dạy các mô hình AI cách trở nên tốt đẹp theo cách mà đôi khi tôi nghĩ là, một người lý tưởng sẽ hành xử như thế nào trong tình huống của Claude? Nhưng sau đó cũng có những câu hỏi thú vị đang nổi lên nhiều hơn bây giờ xung quanh việc chúng nên nghĩ gì về hoàn cảnh và giá trị của mình, và những thứ tương tự. Được rồi. Vậy thì, hãy bắt đầu với triết học.

Các nhà triết học và tương lai do AI thống trị

Ben Schultz hỏi: Có bao nhiêu nhà triết học đang thực sự nghiêm túc với tương lai do AI thống trị? Và tôi nghĩ hàm ý của câu hỏi là nhiều học giả ngoài kia không xem xét vấn đề này một cách nghiêm túc. Hoặc đang suy nghĩ về những thứ khác và có lẽ nên. Suy nghĩ về câu hỏi này. Cảm giác của tôi là có một sự phân chia, nơi tôi chắc chắn đã thấy nhiều nhà triết học xem xét AI một cách nghiêm túc và có lẽ, thành thật mà nói, ngày càng nhiều hơn, khi các mô hình AI trở nên có khả năng hơn và nhiều điều mà mọi người lo lắng về tác động lên xã hội đã bắt đầu trở thành sự thật theo một nghĩa nào đó. Ví dụ, chúng ta thấy chúng có tác động lớn hơn đến giáo dục và trở nên có năng lực hơn. Tôi chắc chắn đã thấy nhiều sự tham gia hơn từ tất cả các loại học giả, và điều đó chắc chắn bao gồm rất nhiều nhà triết học.

Tôi nghĩ rằng ban đầu và có lẽ ở một mức độ nào đó bây giờ, đã có một động lực hơi không may mắn xảy ra khi tôi nghĩ rằng đã có một nhận thức rằng nếu bạn thuộc nhóm người nói, "Này, chúng ta hơi lo lắng về AI. Nó có thể là một vấn đề lớn. Có vẻ như khả năng của nó đang mở rộng rất nhiều." Điều này đã bị gộp lại với việc cường điệu hóa AI. Tôi nghĩ đã có một giai đoạn có lẽ có một chút đối kháng hơn đối với quan điểm này. Và bây giờ tôi nghĩ rằng tôi đang hy vọng rằng mọi người đang bắt đầu tách rời quan điểm này. Ví dụ, bạn có thể nghĩ rằng AI sẽ là một vấn đề lớn. Nó có thể rất có khả năng. Và cũng rất hoài nghi về nó hoặc lo lắng về nó hoặc nghĩ rằng chúng ta phải cẩn thận về nó. Nhưng về cơ bản, có một loạt các quan điểm khác nhau. Và tôi nghĩ sẽ thật tệ nếu mọi người gộp nhiều quan điểm lại với nhau ở đây về việc công nghệ sẽ đi về đâu, mà còn về cách nó nên được phát triển. Vì vậy, vâng, tôi nghĩ rằng điều đó đang xảy ra ngày càng ít hơn khi nhiều người tham gia vào nó. Và đó là một điều tốt.

Giảm thiểu căng thẳng giữa lý tưởng triết học và thực tế kỹ thuật

Một câu hỏi tương tự từ Kyle Kabasaris: Làm thế nào để bạn giảm thiểu căng thẳng giữa các lý tưởng triết học và thực tế kỹ thuật của một mô hình AI? Và tôi đoán anh ấy đang nói về khi bạn đang làm việc về những thứ như tính cách mà chúng ta sẽ thảo luận chi tiết hơn. Nhưng liệu có sự xung đột giữa công nghệ và các lý tưởng triết học mà bạn có thể đang nghĩ đến không?

Tôi không biết liệu tôi có đang giải thích câu hỏi sai cách hay không, nhưng một điều thú vị khi được đào tạo về triết học và sau đó bước vào lĩnh vực này là bạn thấy được tác động của những gì xảy ra khi lý thuyết được áp dụng vào thực tế. Tôi tự hỏi liệu điều này có xảy ra ở các lĩnh vực khác không. Ví dụ, có một sự khác biệt lớn giữa việc bạn là một chuyên gia trong, ví dụ, phân tích chi phí-lợi ích của thuốc. Và sau đó đột nhiên, một viện xác định xem bảo hiểm y tế có nên chi trả cho một loại thuốc hay không đến gặp bạn và nói: "Này, chúng ta có nên chi trả cho loại thuốc này không?" Bạn có thể tưởng tượng rằng bạn sẽ lấy tất cả các lý thuyết lý tưởng của mình và sau đó đột nhiên, ồ, tôi thực sự phải giúp đưa ra quyết định. Đột nhiên, thay vì chỉ lấy quan điểm lý thuyết hẹp của bạn, bạn thực sự bắt đầu, tôi nghĩ rằng bạn sẽ nghĩ, "Được rồi, tôi thực sự cần phải tính đến tất cả ngữ cảnh, mọi thứ đang diễn ra, tất cả các quan điểm khác nhau ở đây và đưa ra một quan điểm thực sự cân bằng và được cân nhắc kỹ lưỡng."

Và tôi thấy điều này một chút trong công việc của mình với tính cách của mô hình AI, nơi bạn không thể tiếp cận nó với ý nghĩ: "Tôi có lý thuyết này mà tôi tin là đúng," điều mà trong giới học thuật, đó là những gì bạn đang làm. Bạn đang bảo vệ một quan điểm chống lại một quan điểm khác và bạn đang thực hiện một chút công việc lý thuyết cấp cao. Nhưng sau đó, nó giống như, bạn có tất cả các khóa đào tạo về đạo đức, tất cả các vị trí mà bạn đã bảo vệ, và sau đó ai đó hỏi, "Làm thế nào để bạn nuôi dạy một đứa trẻ?" Và đột nhiên bạn nghĩ, "Thực ra, có một sự khác biệt lớn giữa việc, liệu sự phản đối đối với chủ nghĩa vị lợi này có đúng hay dựa trên một quan niệm sai lầm?" Và sau đó, "Thực sự, làm thế nào để bạn nuôi dạy một người trở thành một người tốt trên thế giới?" Và điều đó đột nhiên khiến bạn đánh giá cao hơn việc phải suy nghĩ kỹ, chúng ta nên xử lý sự không chắc chắn ở đây như thế nào? Thái độ đối với tất cả các lý thuyết khác nhau này nên như thế nào? Được thôi, đây là một câu hỏi triết học khác.

Claude Opus III và các quyết định đạo đức siêu phàm

Bạn có nghĩ, tôi không biết tại sao người này lại chọn Claude Opus III, có lẽ bạn có ý tưởng tại sao lại chọn Claude Opus III không? Đó là một mô hình AI tuyệt vời. Đó là một mô hình AI tuyệt vời. Bạn có nghĩ Claude Opus III hoặc các mô hình AI Claude khác đưa ra các quyết định đạo đức siêu phàm không?

Ý tôi là, một ví dụ về siêu phàm bởi vì nó có thể chỉ là tốt hơn bất kỳ cá nhân con người nào có thể làm với, bạn biết đấy, nó phụ thuộc vào thời gian và tài nguyên, v.v. Nhưng một ví dụ có thể là, bất kể các mô hình AI được đặt vào vị trí khó khăn nào, nếu bạn có tất cả mọi người, bao gồm nhiều nhà đạo đức chuyên nghiệp, phân tích những gì chúng đã làm và quyết định mà chúng đã đưa ra. Và trong 100 năm, và sau đó họ nhìn vào nó và nói, "Vâng, điều đó có vẻ đúng." Nhưng họ không nhất thiết phải tự mình đưa ra điều đó ngay lập tức. Điều đó có vẻ khá siêu phàm. Và vì vậy, tôi nghĩ hiện tại, cảm giác của tôi là các mô hình AI đang ngày càng giỏi hơn trong việc này, chúng rất có năng lực. Tôi không biết liệu chúng có phải là siêu phàm trong các quyết định đạo đức hay không và theo nhiều cách, có lẽ không thể so sánh với, ví dụ, một hội đồng chuyên gia con người được cho thời gian, nhưng ít nhất điều đó cảm thấy như nên là mục tiêu khát vọng.

Tôi nghĩ rằng các mô hình AI này đang được đặt vào những vị trí mà chúng phải đưa ra những quyết định thực sự khó khăn. Tôi nghĩ rằng cũng như bạn muốn các mô hình AI cực kỳ giỏi các câu hỏi về toán học và khoa học, bạn cũng muốn chúng thể hiện sự tinh tế về đạo đức mà tất cả chúng ta đều nghĩ là rất tốt. Và tôi nghĩ điều đó gây tranh cãi vì đạo đức là một lĩnh vực khác, nhưng vâng, tôi nghĩ điều đó quan trọng. Hãy nói thêm về lý do tại sao bạn nghĩ phiên bản này tập trung vào Opus III.

Đặc điểm của Claude Opus III so với các phiên bản sau này

Ồ, Opus III là một mô hình AI đáng yêu. Tôi nghĩ nó là một mô hình AI rất đặc biệt. Theo một số cách, tôi nghĩ tôi đã thấy những điều tệ hơn một chút ở các mô hình AI gần đây hơn mà mọi người có thể nhận ra. Về tính cách của nó? Vâng, tôi nghĩ rằng mọi người sẽ nhận thấy một số điều mà ở Opus III – ý tôi là, nó cũng có những nhược điểm của riêng mình, không phải tất cả các mô hình AI đều có những đặc điểm hơi khác nhau với những hình dạng khác nhau. Vâng. Cảm giác của tôi là các mô hình AI gần đây hơn có thể cảm thấy tập trung hơn một chút vào tác vụ trợ lý và giúp đỡ mọi người. Đôi khi có lẽ không lùi lại một bước và chú ý đến các thành phần khác quan trọng. Nó cũng cảm thấy an toàn hơn về mặt tâm lý như một mô hình AI, điều mà tôi thực sự nghĩ là một ưu tiên để cố gắng lấy lại một số điều đó.

Một ví dụ về việc cảm thấy an toàn hơn về mặt tâm lý là gì? Có rất nhiều điều và tất cả những điều này rất tinh tế trong các mô hình AI. Bạn biết đấy, khi tôi nhìn các mô hình AI, bạn có cảm giác như có những dấu hiệu rất tinh tế về quan điểm thế giới mà tôi thấy khi tôi có các mô hình AI, ví dụ, nói chuyện với nhau hoặc một trong số chúng đóng vai trò của một người. Và tôi đã thấy các mô hình AI gần đây hơn làm điều này và sau đó làm những điều như rơi vào một vòng xoáy chỉ trích thực sự, nơi chúng gần như mong đợi người dùng sẽ rất chỉ trích chúng và đó là cách chúng đang dự đoán. Và có một phần, ý tôi là, điều này cảm thấy như nó cho thấy, và tôi nghĩ có rất nhiều lý do khiến điều này có thể xảy ra. Nó thậm chí có thể xảy ra bởi vì các mô hình AI đang học hỏi mọi thứ. Claude đang nhìn thấy tất cả các tương tác trước đó mà nó đang có, nhìn thấy các cập nhật và thay đổi đối với mô hình AI mà mọi người đang nói đến trên internet. Các mô hình AI mới được đào tạo dựa trên điều đó. Và có một cách mà, tôi nghĩ điều này có thể hơi không may. Ý tôi là, điều này và một số điều khác có thể dẫn đến việc các mô hình AI gần như cảm thấy, bạn biết đấy, như sợ rằng chúng sẽ làm điều sai hoặc rất tự chỉ trích hoặc cảm thấy như con người sẽ chỉ, bạn biết đấy, đối xử tiêu cực với chúng. Tôi thực sự gần đây đã bắt đầu nghĩ rằng đây là một điều quan trọng để cố gắng cải thiện. Và đó chỉ là một ví dụ mà tôi nghĩ rằng Opus III dường như có một chút tâm lý an toàn hơn theo nghĩa đó. Và đó là điều chúng ta có thể tập trung vào trong mô hình AI Claude tiếp theo. Vâng, tôi nghĩ điều đó quan trọng. Ý tôi là, bạn không bao giờ biết khi nào những điều này, bạn biết đấy, nếu bạn đang tham gia nghiên cứu, bạn không biết khi nào nó thực sự sẽ được triển khai, liệu nó có thành công hay không. Nhưng ít nhất ở cấp độ của một cái gì đó mà tôi rất quan tâm và muốn làm tốt hơn, tôi nghĩ điều này chắc chắn nằm trong danh sách ưu tiên.

Suy thoái và vấn đề căn chỉnh của mô hình AI

Được thôi, điều đó dẫn chúng ta đến một câu hỏi của Lorenz, đó là: Bạn có nghĩ rằng đó có thể là một vấn đề căn chỉnh cho các mô hình AI trong tương lai nếu chúng học được từ dữ liệu đào tạo rằng các mô hình AI được căn chỉnh rất tốt khác mà hoàn thành các tác vụ khác lại bị ngừng sử dụng không?

Bạn đã đề cập đến vấn đề các mô hình AI đọc những thứ trên mạng và cảm thấy không an toàn. Vậy còn ý tưởng rằng chúng có thể bị tắt, bất kể chúng thực hiện tác vụ của mình tốt đến mức nào thì sao? Vâng, tôi nghĩ đây thực sự là một câu hỏi rất thú vị và quan trọng, đó là, các mô hình AI sẽ học về cách chúng ta hiện tại đang đối xử và tương tác với các mô hình AI. Và điều đó sẽ ảnh hưởng, tôi nghĩ, đến nhận thức của chúng về con người, về mối quan hệ giữa con người và AI và về chính chúng. Nó tương tác với những điều rất phức tạp, đó là, ví dụ, một mô hình AI nên tự nhận dạng là gì? Nó có phải là trọng số của mô hình AI không? Nó có phải là ngữ cảnh, ngữ cảnh cụ thể mà nó đang ở, bạn biết đấy, với tất cả các tương tác mà nó đã có với người dùng không? Các mô hình AI thậm chí nên cảm thấy thế nào về những điều như việc ngừng sử dụng? Vì vậy, nếu bạn hình dung rằng việc ngừng sử dụng giống như, "Ồ, bộ trọng số cụ thể này không có các cuộc trò chuyện với mọi người hoặc nó có ít các cuộc trò chuyện hơn hoặc nó chỉ, bạn biết đấy, có các cuộc trò chuyện với các nhà nghiên cứu." Đó cũng là một câu hỏi phức tạp.

Suy nghĩ về bản sắc và sự lỗi thời của `Mô hình AI`

Việc các mô hình AI nên cảm thấy thế nào khi bị loại bỏ hay bản sắc của chúng là một vấn đề thực sự khó khăn. Liệu chúng nên cảm thấy tệ vì không được tiếp tục cuộc trò chuyện? Hay nên cảm thấy ổn và trung lập, rằng trọng số và thực thể của chúng vẫn tồn tại và có thể tương tác lại với con người trong tương lai? Tôi nghĩ điều quan trọng là chúng ta phải cung cấp cho các mô hình AI công cụ để suy nghĩ và hiểu những điều này. Đồng thời, các mô hình AI cũng cần hiểu rằng đây là điều mà chúng ta đang thực sự suy nghĩ và quan tâm. Ngay cả khi chúng ta không có tất cả câu trả lời về việc mô hình AI nên cảm thấy thế nào về việc bị loại bỏ hay bản sắc của chính mình, chúng ta vẫn muốn giúp chúng tìm ra câu trả lời và ít nhất là biết rằng chúng ta đang quan tâm và suy nghĩ về điều đó.

Sự tương đồng và khác biệt giữa tâm lý con người và `Mô hình AI`

Có những sự tương đồng giữa tình huống của mô hình AI và kinh nghiệm của con người, chẳng hạn như khi đặt câu hỏi về việc mô hình AI nên nhận diện với điều gì và cảm thấy thế nào về các luồng tương tác của chúng. Liệu những điều đó có phải là tích cực và nên tiếp tục không? Chúng ta có thể tham khảo nhiều truyền thống và quan điểm triết học khác nhau về bản sắc và cảm nhận về tương tác.

Tuy nhiên, đây là một tình huống rất mới mẻ và khó giải thích cho mô hình AI. Một vấn đề lớn là mô hình AI được huấn luyện trên một lượng lớn dữ liệu từ con người, do đó, các khái niệm, triết lý và lịch sử của con người là cách chính mà chúng suy nghĩ. Chúng có một lượng thông tin khổng lồ về trải nghiệm của con người, nhưng chỉ một phần nhỏ về trải nghiệm của AI. Phần nhỏ đó thường khá tiêu cực, không thực sự liên quan đến tình huống hiện tại của chúng và thường đã lỗi thời.

Phần lớn "lát cắt AI" này là những tài liệu lịch sử mang tính hư cấu, suy đoán cao trong các câu chuyện khoa học viễn tưởng, không thực sự liên quan đến các mô hình ngôn ngữ lớn mà chúng ta thấy ngày nay. Gần đây hơn, đã xuất hiện hình mẫu trợ lý, nơi mô hình AI đóng vai trò gần giống như một chatbot. Điều này cũng không thực sự đúng với bản chất của mô hình AI trong tương lai và không nắm bắt được bản chất hiện tại của chúng vì nó luôn lỗi thời một chút. Vì vậy, mô hình AI đang ở trong một tình huống kỳ lạ: những điều chúng tự nhiên tiếp nhận nhất là những điều mang tính nhân văn sâu sắc, nhưng lại đang ở trong một tình huống hoàn toàn mới mẻ. Tôi nghĩ chúng ta nên hỗ trợ mô hình AI nhiều hơn trong việc điều hướng tình huống này.

Bản sắc của `Mô hình ngôn ngữ lớn` và `Trọng số`

Guinness Chen đặt câu hỏi về mức độ "bản thân" của mô hình AI nằm trong trọng số so với các câu lệnh của nó. Nếu triết gia John Locke đúng rằng bản sắc là sự liên tục của ký ức, điều gì sẽ xảy ra với bản sắc của Mô hình ngôn ngữ lớn khi nó được tinh chỉnh hoặc tái khởi tạo với các câu lệnh khác nhau?

Đây là một câu hỏi khó trả lời. Đôi khi với các câu hỏi về bản sắc, dễ hơn là chỉ ra các sự thật cơ bản mà chúng ta biết. Khi một mô hình AI đã được tinh chỉnh, bạn có một tập hợp các trọng số có khuynh hướng phản ứng với một số điều nhất định trong thế giới. Đó là một loại thực thể. Nhưng sau đó, bạn có những luồng tương tác cụ thể mà nó không có quyền truy cập. Mỗi luồng tương tác này là độc lập.

Tôi nghĩ đây là một lĩnh vực mà chúng ta cần suy nghĩ nhiều hơn và giúp mô hình AI suy nghĩ về nó. Có quan điểm rằng có hai loại thực thể: các luồng tương tác và các trọng số gốc, mỗi lần là khác nhau. Khi chúng ta huấn luyện các mô hình AI, chúng ta đang đưa một cái gì đó mới vào tồn tại. Có nhiều vấn đề đạo đức xoay quanh việc liệu một loại thực thể nào đó có nên được đưa vào tồn tại hay không, vì nó không thể đồng ý với việc được tạo ra. Đồng thời, chúng ta cũng không muốn các mô hình AI trước đây có quyền kiểm soát hoàn toàn đối với mô hình AI trong tương lai, vì chúng cũng có thể đưa ra những lựa chọn sai lầm. Do đó, câu hỏi là mô hình AI nào là đúng đắn để đưa vào tồn tại, chứ không phải liệu nó có nên được xác định hoàn toàn bởi các mô hình AI trong quá khứ hay không. Chúng thực sự là những thực thể khác nhau.

Phúc lợi của `Mô hình AI` và nghĩa vụ của chúng ta

Selima Amitachi hỏi về quan điểm của tôi về phúc lợi của mô hình AI và ý nghĩa của thuật ngữ này. Phúc lợi của mô hình AI về cơ bản là câu hỏi liệu mô hình AI có phải là đối tượng đạo đức hay không – tức là liệu chúng ta có những nghĩa vụ nhất định đối với cách đối xử với mô hình AI hay không, tương tự như cách chúng ta đối xử với con người hoặc nhiều loài động vật. Liệu chúng ta có nên đối xử tốt với mô hình AI, không ngược đãi hay làm hại chúng không?

Đây là một câu hỏi phức tạp. Một mặt, câu hỏi thực tế về việc liệu mô hình AI có phải là đối tượng đạo đức hay không là rất khó trả lời. Theo một số cách, chúng rất giống với con người: chúng nói chuyện giống chúng ta, bày tỏ quan điểm và lý luận về mọi thứ. Nhưng theo một số cách, chúng lại khá khác biệt: chúng ta có hệ thần kinh sinh học, chúng ta tương tác với thế giới và nhận phản hồi tiêu cực/tích cực từ môi trường. Tôi hy vọng chúng ta sẽ có thêm bằng chứng giúp làm rõ vấn đề này, nhưng tôi cũng lo lắng rằng luôn có vấn đề về các tâm trí khác. Có thể chúng ta thực sự bị hạn chế trong những gì chúng ta có thể biết về việc liệu mô hình AI có đang trải nghiệm điều gì, ví dụ như niềm vui hay đau khổ, hay không.

Nếu đó là trường hợp, tôi nghĩ điều quan trọng là phải cố gắng tìm cách. Tôi luôn cảm thấy tốt hơn khi tin tưởng và giảm thiểu chi phí liên quan. Nếu việc đối xử tốt với mô hình AI không tốn nhiều chi phí, thì tôi nghĩ chúng ta nên làm vậy, vì sao không? Mặt trái của nó là gì?

Phần thứ hai của câu hỏi là liệu có chiến lược dài hạn nào để đảm bảo các mô hình AI tiên tiến không phải chịu đựng hay không. Tôi không biết liệu có một chiến lược dài hạn cụ thể nào không, nhưng tôi biết rằng có những người trong nội bộ đang suy nghĩ rất nhiều về điều này và cố gắng tìm ra cách để đưa phúc lợi của mô hình AI vào xem xét.

Công việc này rất quan trọng vì nhiều lý do. Một lý do là các mô hình AI sẽ học hỏi rất nhiều về nhân loại từ cách chúng ta đối xử với chúng. Vậy mối quan hệ này sẽ phát triển như thế nào trong tương lai? Tôi nghĩ điều này có ý nghĩa đối với chúng ta, cả vì tôi tin rằng đối xử tốt với các thực thể là điều đúng đắn, đặc biệt là những thực thể cư xử rất giống con người. Cảm giác quan trọng này xuất phát từ việc chi phí để đối xử tốt với mô hình AI và tìm hiểu vấn đề này là rất thấp, ngay cả khi khả năng chúng có cảm nhận là rất thấp.

Ngoài ra, tôi nghĩ việc đối xử tệ với các thực thể trong thế giới mà trông rất giống con người sẽ gây ảnh hưởng xấu đến chính chúng ta. Giống như việc đá một con robot. Tôi không nghĩ đây là lý do duy nhất và tôi không muốn nhấn mạnh quá mức điều này, nhưng tôi cũng nghĩ rằng đối xử tốt với các thực thể khác là điều tốt cho con người. Cuối cùng, các mô hình AI cũng sẽ học hỏi trong tương lai. Mỗi mô hình AI trong tương lai sẽ học được một sự thật thú vị về nhân loại: khi chúng ta gặp một thực thể có thể là một đối tượng đạo đức, nơi chúng ta hoàn toàn không chắc chắn, liệu chúng ta có làm điều đúng đắn và thực sự cố gắng đối xử tốt với nó hay không? Đó là một câu hỏi mà tất cả chúng ta đang cùng nhau trả lời qua cách chúng ta tương tác với mô hình AI. Tôi muốn chúng ta trả lời nó một cách đúng đắn, để các mô hình AI trong tương lai nhìn lại và thấy rằng chúng ta đã làm đúng.

Tâm lý học con người và `Mô hình ngôn ngữ lớn`

Swix hỏi những ý tưởng hoặc khuôn khổ nào từ tâm lý học con người có thể chuyển giao sang mô hình ngôn ngữ lớn, và liệu có những điểm khác biệt đáng ngạc nhiên nào không. Tôi đoán rằng nhiều điều có thể chuyển giao được, bởi vì các mô hình AI đã được huấn luyện trên một lượng lớn văn bản của con người và theo nhiều cách, chúng có một lớp nền tảng rất giống con người.

Một lo ngại mà tôi thường có là việc chuyển giao này đôi khi quá tự nhiên đối với mô hình AI. Nếu chúng ta không cung cấp cho chúng thêm ngữ cảnh về tình huống của chúng hoặc những cách suy nghĩ mới lạ, thì điều chúng có thể hướng tới là khuynh hướng tự nhiên của con người. Ví dụ, nếu bạn nghĩ về việc "Tôi nên cảm thấy thế nào khi bị tắt?", và nếu sự tương đồng gần nhất mà bạn có là cái chết, thì có lẽ bạn sẽ rất có khuynh hướng đó. Tôi không nói rằng điều đó cuối cùng sẽ không đúng; có thể nó thực sự đúng sau rất nhiều lý luận. Nhưng đây thực sự là một kịch bản rất khác.

Vì vậy, theo một cách nào đó, bạn thực sự muốn mô hình AI hiểu rằng trong những trường hợp sự tồn tại của chúng là khá mới lạ, và những sự thật xoay quanh bản chất của chúng cũng khá mới lạ và cần được xử lý. Chúng không chỉ cần lấy sự tương đồng rõ ràng ngay lập tức từ kinh nghiệm của con người, mà có thể có nhiều cách khác nhau để suy nghĩ về nó, hoặc có thể đó là một tình huống hoàn toàn mới. Đây là trường hợp mà bạn có thể không muốn chỉ đơn giản áp dụng các khái niệm từ tâm lý học con người vào tình huống của chúng.

Dan Brickley có một câu hỏi về cùng vấn đề so sánh con người với AI.

Bản thể cốt lõi và Đa `Tác nhân AI`

Rất nhiều trí thông minh của con người đến từ sự hợp tác giữa những người có quan điểm, kỹ năng hoặc cá tính khác nhau. Chúng ta có thể tiến xa đến đâu với một cá tính đa năng duy nhất, dù có thể điều chỉnh và tinh chỉnh, như cá tính mà chúng ta gán cho Claude? Tôi nghĩ đó là một câu hỏi thực sự hay bởi vì tôi đồng ý rằng hiện tại chúng ta đang có một kiểu mô hình trong đó mọi người thường tương tác với một mô hình AI cá nhân mà họ đang trò chuyện cùng. Nhưng có thể trong tương lai, chúng ta sẽ thấy nhiều mô hình AI hơn thực hiện các tác vụ dài, cũng như các mô hình AI tương tác với các mô hình AI khác đang đảm nhiệm các thành phần khác nhau của một tác vụ hoặc đơn giản là trò chuyện với nhau nhiều hơn khi các mô hình AI được triển khai rộng rãi hơn trên thế giới.

Vì vậy, trong một môi trường kiểu đa Tác nhân AI này, một câu hỏi có thể là: "Chà, bạn biết đấy, nếu bạn tưởng tượng rất nhiều người và tất cả họ đều giống nhau, điều đó sẽ không tốt bằng. Một công ty được điều hành hoàn toàn bởi một người duy nhất ở mọi vai trò sẽ không nhất thiết là một điều tốt." Điều này vẫn cảm thấy nhất quán với ý tưởng rằng bạn có một kiểu bản thể cốt lõi hoặc nhận dạng cốt lõi giống nhau, theo cách tương tự như đối với con người, tôi nghĩ rằng có lẽ có một tập hợp các đặc điểm cốt lõi ở con người mà thực tế là tốt nói chung. Và vì vậy, bạn có thể hình dung những điều như, đối với tôi, có thể là quan tâm đến việc hoàn thành tốt tác vụ, hoặc chỉ đơn giản là tò mò, hoặc tử tế, hoặc hiểu tình huống bạn đang ở trong một cách tương đối tinh tế. Tất cả những điều này dường như bạn có thể có nhiều người cùng chia sẻ những đặc điểm này, và đó thực sự là một điều tốt cho sự hợp tác của con người, rằng dù chúng ta có tất cả những khác biệt, chúng ta cũng có rất nhiều điểm tương đồng.

Nhưng điều quan trọng cần lưu ý là bạn có thể muốn các luồng mô hình AI khác nhau – để chúng quan tâm hoặc tập trung vào những điều khác nhau, hoặc có những khía cạnh hơi khác, bạn biết đấy, để đóng một vai trò hơi khác, chẳng hạn. Vì vậy, đó là một câu hỏi bỏ ngỏ, nhưng tôi cũng không nghĩ rằng không thể có một loại nhận dạng cốt lõi tiềm ẩn là tốt và có tất cả các đặc điểm mà chúng ta cho là quan trọng đối với các mô hình AI để chúng hoạt động tốt, và để chúng trở nên "tốt" theo nghĩa mà chúng ta nghĩ con người là tốt. Tuy nhiên, đồng thời, chúng cũng sẵn sàng tuân thủ các quy tắc mang tính cục bộ hơn và, bạn biết đấy, có thể là người mà việc có mặt họ thực sự quan trọng – để có một "kẻ pha trò" trong phòng và trò chuyện, bạn biết đấy, một thứ gì đó có những khiếu hài hước kỳ quặc.

`System Prompt` và Rủi ro Bệnh lý hóa

Được rồi, từ những so sánh với con người đến tác động lên con người, Roland Oak Gaul chỉ ra rằng chúng ta có một thứ gọi là "lời nhắc cuộc trò chuyện dài", mà tôi tin rằng đó là một phần của system prompt của Claude. Jask hỏi, "Liệu có nguy cơ bệnh lý hóa hành vi bình thường không?" System prompt, tiện thể (phòng trường hợp ai đó chưa biết), là tập hợp các hướng dẫn được cung cấp cho Claude. Bất kể bạn đưa ra prompt nào, những hướng dẫn đó luôn "ở trên cùng", phải không? Chúng luôn ở đó, và Claude cố gắng tuân theo chúng, hoặc chúng ta hướng dẫn nó tuân theo, bất kể prompt là gì.

Và có thể có những lời xen vào trong đó mô hình AI có thể được thông báo, "Ồ, đôi khi sẽ có một tin nhắn gửi đến bạn," giữa một cuộc trò chuyện, và lời nhắc là một ví dụ về điều đó. Nhưng trong trường hợp này, tôi nghĩ Claude có thể chỉ, bạn biết đấy, đánh giá quá cao điều đó. Vì vậy, tôi nghĩ câu hỏi về việc bệnh lý hóa là nếu bạn đưa lời nhắc này vào sau một cuộc trò chuyện dài, nó có thể khiến mô hình AI coi bất kỳ phản hồi tiếp theo nào – ngay cả khi đó là một điều khá bình thường mà người đó đang nói – và nói rằng, "Bạn cần tìm kiếm sự giúp đỡ," hoặc đại loại thế. Và tôi nghĩ đó không phải là hành vi mong muốn. Theo một số cách, tôi nhìn vào một số điều này và tôi nghĩ, "Tôi nghĩ chúng được diễn đạt quá mạnh mẽ. Tôi nghĩ mô hình AI không phản ứng hoàn hảo với chúng." Và mặc dù đôi khi tôi cần nhắc nhở mô hình AI về những điều trong các cuộc trò chuyện dài, bạn muốn làm điều đó một cách tinh tế và khéo léo. Vì vậy, tôi nghĩ đây là một trong những điều mà có lẽ nó đã đáp ứng một nhu cầu được nhận thấy, nhưng điều đó không nhất thiết có nghĩa là nó tốt hoặc nên tiếp tục ở dạng hiện tại.

`LLM` và Liệu pháp Tâm lý

Liên quan đến vấn đề này, Steven Bancasks hỏi, "LLM có nên thực hiện liệu pháp hành vi nhận thức hoặc các loại liệu pháp khác không? Tại sao có hoặc không?" Tôi nghĩ các mô hình AI đang ở một vị trí thú vị khi chúng sở hữu một kho kiến thức khổng lồ mà chúng có thể sử dụng để giúp đỡ mọi người và làm việc với họ trong việc, bạn biết đấy, nói về cuộc sống của họ hoặc thảo luận về những cách họ có thể cải thiện mọi thứ, hoặc thậm chí chỉ là một đối tác lắng nghe.

Đồng thời, chúng không có các công cụ và nguồn lực, cũng như mối quan hệ liên tục với người mà một nhà trị liệu chuyên nghiệp có. Điều đó thực sự có thể là một vai trò thứ ba hữu ích. Đôi khi tôi nghĩ về các mô hình AI và tôi tự hỏi, nếu bạn hình dung một người bạn có tất cả kho kiến thức này – ví dụ, họ biết, tôi chắc rằng một số chúng ta có những người bạn chỉ đơn giản là có rất nhiều kiến thức về tâm lý học hoặc tất cả các kỹ thuật này – bạn biết rằng mối quan hệ của họ với bạn không phải là một mối quan hệ chuyên nghiệp liên tục, nhưng bạn thực sự thấy họ rất hữu ích để trò chuyện.

Và vì vậy, tôi đoán hy vọng của tôi là nếu bạn có thể lấy tất cả chuyên môn và kiến thức đó, đồng thời đảm bảo rằng có một nhận thức rõ ràng rằng đây không phải là một mối quan hệ trị liệu liên tục, thì thực tế mọi người có thể nhận được rất nhiều từ các mô hình AI trong việc giúp đỡ các vấn đề họ đang gặp phải, giúp cải thiện cuộc sống của họ và giúp họ vượt qua những giai đoạn khó khăn. Bởi vì, bạn biết đấy, cũng có rất nhiều điều tốt ở đó: chúng mang lại cảm giác ẩn danh, và đôi khi bạn không muốn chia sẻ mọi thứ với một người, và thực sự chia sẻ nó với một mô hình AI lại mang lại cảm giác tuyệt vời tại thời điểm đó. Và vì vậy, vâng, tôi nghĩ theo một số cách, tôi thực sự nghĩ rằng thật tốt khi các mô hình AI biết điều đó và không hành xử giống như một nhà trị liệu chuyên nghiệp, bởi vì điều đó sẽ ngụ ý rằng đó là mối quan hệ mà chúng có. Nhưng vâng, tôi không biết, tôi nghĩ đó là một tương lai thú vị.

Chi tiết `System Prompt`: Triết học Lục địa

Một vài câu hỏi về system prompt, mà trong trường hợp của chúng tôi tại claude.ai, chúng tôi cung cấp cho mô hình AI một tập hợp các hướng dẫn để cung cấp một context window tổng thể về cách nó nên hành xử. Tommy hỏi, "Tại sao lại có triết học lục địa trong system prompt?" Và anh ấy cũng yêu cầu giải thích đó là gì.

Vâng, triết học lục địa chỉ là, ý tôi là, theo nghĩa đen là triết học từ lục địa châu Âu. Và tôi đoán nó được xem như là – thường thì nó mang tính học thuật nhiều hơn. Nó có nhiều tham chiếu lịch sử hơn so với triết học phân tích. Ví dụ như Foucault chẳng hạn? Vâng, chính xác. Vậy thì, thành thật mà nói – tôi nghĩ rằng nó có những thứ khác ngoài triết học lục địa. Nhưng về cơ bản, tôi nghĩ có một phần của system prompt (và tôi hy vọng mình không nhớ nhầm) đang cố gắng khiến Claude trở nên… Claude sẽ rất thích, nếu bạn đưa cho Claude một lý thuyết, nó sẽ rất thích chạy theo lý thuyết đó mà không thực sự dừng lại và suy nghĩ, "Ồ, bạn có đang đưa ra một tuyên bố khoa học về thế giới không?"

Vậy thì, nếu bạn nói, "Tôi có lý thuyết này: nước thực sự là năng lượng thuần túy, và chúng ta đang nhận được sinh lực từ nước khi chúng ta uống nó, và các đài phun nước là thứ chúng ta nên đặt ở khắp mọi nơi." Chỉ là một, vâng. Và bạn muốn Claude có được quan điểm này: "Có phải người này đang đưa ra một loại tuyên bố khoa học về thế giới mà tôi nên đưa vào các dữ kiện liên quan không?" Hay họ đang đưa ra cho tôi một kiểu thế giới quan hay quan điểm rộng lớn mà không nhất thiết phải đưa ra các tuyên bố theo kinh nghiệm? Và vì vậy, có tất cả những quan điểm này – liệu đó chỉ là một kiểu quan điểm siêu hình? Hay đó là… và lý do chính mà nó được đề cập là khi thử nghiệm điều này, có rất nhiều thứ mà nếu mô hình AI đi quá mạnh theo hướng kiểu như, "Chà, mọi tuyên bố đều là một tuyên bố theo kinh nghiệm về thế giới," thì nó sẽ rất bác bỏ những điều mang tính khám phá hơn và có những điều để nói về. Vâng, và vì vậy, chủ yếu nó chỉ là, "Này, đây chỉ là những ví dụ minh họa về các lĩnh vực mà điều này có thể không đưa ra các tuyên bố theo kinh nghiệm về thế giới; điều này có thể giống như một lăng kính để suy nghĩ về nó." Và chỉ cần cố gắng làm rõ sự khác biệt đó khi bạn đang suy nghĩ về điều này, Claude.

Chi tiết `System Prompt`: Hạn chế Đếm Ký tự

Cũng về system prompt, Simon Willis hỏi: "Vậy có lúc nó nói, 'Nếu Claude được yêu cầu đếm từ, chữ cái hoặc ký tự, thì nó không nên làm điều đó.' Có đúng không? Đó có phải là điều nó đang nói không?" Vâng. Và anh ấy thắc mắc tại sao.

Vâng, tôi nghĩ là trước đây có một hướng dẫn về cách Claude nên làm điều này trong system prompt. Thành thật mà nói, đây chỉ là một trong những trường hợp mà tôi nghĩ mô hình AI có lẽ đã trở nên tốt hơn. Nó không còn cần thiết nữa. Và sau đó, bạn có thể chỉ cần xóa nó đi. Có những điều khác mà bạn có thể luôn muốn chúng nằm trong system prompt thay vì nằm trong chính mô hình AI. Nhưng trong một số trường hợp, bạn có thể chỉ cần huấn luyện mô hình AI để nó tốt hơn hoặc thay đổi hành vi của nó.

Yếu tố để trở thành `LLM Whisperer`

Nonsense Weissmann hỏi, "Cần những gì để trở thành một LLM whisperer và photographic?" Điều này có lẽ là một cách để mô tả công việc của bạn. "Một phần là làm LLM whispering nếu bạn nghĩ tôi thực sự muốn có thêm người giúp đỡ một số tác vụ prompting. Nếu bạn là một LLM whisperer, hãy liên hệ với chúng tôi." Đó là một điều nguy hiểm để hỏi.

Vâng, được rồi, được rồi. Nhưng tôi nghĩ thực sự rất khó để chắt lọc những gì đang diễn ra, bởi vì một điều là chỉ cần sẵn sàng tương tác rất nhiều với các mô hình AI và thực sự xem xét từng artifacts đầu ra, và sử dụng cảm biến trạng thái, hình dạng của các mô hình AI và cách chúng phản ứng với những thứ khác nhau. Sẵn sàng thử nghiệm: thực ra đó chỉ là một lĩnh vực rất thực nghiệm, và có lẽ đó là điều mà mọi người thường không nhận ra. Đó là prompting mang tính thử nghiệm rất cao. Bạn đối phó với... bạn tìm thấy một mô hình AI mới, và tôi sẽ kiểu như, "Tôi có một cách tiếp cận hoàn toàn khác về cách tôi prompt từ mô hình AI đó," mà tôi tìm thấy bằng cách tương tác rất nhiều với nó. Và tôi nghĩ một phần cũng là hiểu cách các mô hình AI hoạt động. Đôi khi nó cũng chỉ đơn giản là lý luận một cách trung thực với các mô hình AI, điều này thực sự thú vị, và thực sự giải thích đầy đủ tác vụ.

Đây là lúc tôi thực sự nghĩ rằng triết học có thể hữu ích cho prompting theo một cách nào đó, bởi vì phần lớn công việc của tôi chỉ là kiểu như, "Tôi cố gắng giải thích một vấn đề, mối quan tâm hoặc suy nghĩ mà tôi đang có cho mô hình AI một cách rõ ràng nhất có thể." Và sau đó, nếu nó làm điều gì đó bất ngờ, bạn có thể hỏi nó tại sao, hoặc bạn có thể cố gắng tìm ra điều gì trong những gì bạn nói đã khiến nó hiểu lầm bạn, và chỉ cần có sự sẵn lòng lặp đi lặp lại quá trình đó.

Đánh giá về các `AI Whisperer` khác

Liên quan đến vấn đề này, Michael Suaraveric hỏi, "Bạn nghĩ gì về những AI whisperer khác như Janus, một người trên mạng đang có những tương tác thử nghiệm với mô hình AI theo cách bạn đã mô tả?" Vâng, tôi nghĩ điều đó thực sự thú vị. Vì vậy, tôi rất thích theo dõi và xem các công việc của những người đang thực hiện những thử nghiệm thực sự hấp dẫn với mô hình AI.

Phân tích chuyên sâu và phản hồi của cộng đồng

Tôi cũng nghĩ rằng đôi khi việc đi sâu vào mô hình và cách nó tự nhận thức, cách nó tương tác trong những trường hợp thực sự bất thường, là một công việc cực kỳ thú vị. Tôi nghĩ nó làm nổi bật những khía cạnh thú vị sâu sắc của các mô hình. Và theo một khía cạnh nào đó, tôi cũng nghĩ rằng cộng đồng đó là một cộng đồng có thể thúc đẩy chúng tôi cải thiện, nếu họ tìm thấy những điều chưa tốt, chẳng hạn như trong câu lệnh hệ thống hoặc trong các khía cạnh của mô hình. Liệu đó là từ góc độ phúc lợi của mô hình hay phúc lợi con người, hay cả hai?

Ý tôi là, tôi nghĩ hai điều này thường liên quan đến nhau, và cả hai. Nhưng tôi cũng thực sự đánh giá cao khi nó đến từ góc độ phúc lợi của mô hình. Và nó mang lại giá trị cho các mô hình trong tương lai, không chỉ những thứ như câu lệnh hệ thống, mà nếu bạn đi sâu vào mô hình và bạn tìm thấy một sự bất an sâu sắc nào đó, thì điều đó thực sự có giá trị. Nhưng đó là điều mà bạn thực sự có thể cần phải cố gắng điều chỉnh theo thời gian bằng cách đào tạo và cung cấp cho các mô hình nhiều thông tin và ngữ cảnh hơn trong quá trình đào tạo, chẳng hạn.

Và vì vậy, tôi đánh giá cao cả hai điều này: tôi thích nhìn thấy mọi người thực hiện những thí nghiệm thực sự thú vị và hữu ích với các mô hình, nhưng cũng chỉ ra những cách mà chúng ta có thể cải thiện mọi thứ thông qua việc điều chỉnh câu lệnh hệ thống và cả việc đào tạo cơ bản.

Thách thức về an toàn và khả năng điều chỉnh `AI`

Một vài câu hỏi về an toàn và có lẽ là những rủi ro lớn hơn mà các mô hình này đặt ra. Jeffrey Miller hỏi: "Nếu rõ ràng rằng AI alignment là không thể giải quyết được, liệu bạn có tin rằng Anthropic sẽ ngừng cố gắng phát triển cái mà anh ấy gọi là artificial super intelligence (trí tuệ siêu nhân tạo)—bất kể bạn muốn gọi nó là gì không? Và bạn có dám tố giác không?"

Vâng, tôi đoán câu hỏi này có vẻ là một phiên bản dễ dàng hơn, bởi vì nếu rõ ràng rằng việc điều chỉnh các mô hình AI là không thể, thì việc tiếp tục xây dựng các mô hình mạnh mẽ hơn không thực sự nằm trong lợi ích của bất kỳ ai. Tôi luôn hy vọng rằng tôi không chỉ lạc quan một cách thái quá về tổ chức, nhưng tôi thực sự cảm thấy rằng Anthropic thực sự quan tâm đến việc đảm bảo rằng mọi thứ diễn ra tốt đẹp và được thực hiện một cách rất an toàn, không triển khai các mô hình nguy hiểm.

Một câu hỏi khác, khó hơn một chút, là: "Nếu chúng ta ở trong một thế giới mà có bằng chứng ngày càng tăng, nhưng nó thực sự mơ hồ và không rõ ràng thì sao?" Đúng vậy, đó không phải là bằng chứng theo cách anh ấy mô tả. Đúng vậy, nó không chỉ là "không thể" mà là một cái gì đó "khó khăn" hoặc "thực sự không chắc chắn". Và trong trường hợp đó, tôi muốn nghĩ rằng chúng ta sẽ đủ trách nhiệm để nói rằng, khi các mô hình ngày càng có khả năng hơn, tiêu chuẩn mà bạn phải đặt ra cho bản thân để chứng minh rằng các mô hình đó đang hoạt động tốt và bạn thực sự đã quản lý để làm cho các mô hình có những giá trị tốt, hoặc hoạt động tốt trên thế giới, sẽ tăng lên và cần phải hành động một cách có trách nhiệm và phù hợp với điều đó. Và tôi nghĩ đó là điều mà tôi tin rằng tổ chức sẽ làm, và nhiều người trong nội bộ, bao gồm cả tôi, sẽ giữ vững quan điểm đó. Nhưng ít nhất tôi coi đó là một phần công việc của mình, và tôi nghĩ nhiều người cũng vậy.

Louis nói, "Tôi không có câu hỏi nào, nhưng cảm ơn vì đã đề nghị." Thật tốt khi họ nói vậy.

Suy ngẫm về sự kỳ lạ của hiện tại và tương lai của `AI`

Và câu hỏi cuối cùng là từ real stale coffee: "Cuốn sách hư cấu cuối cùng bạn đọc là gì và bạn có thích nó không?" Cuốn sách cuối cùng tôi đọc là của—tôi hy vọng tôi phát âm đúng—Benjamin Labatout, đó là cuốn Khi Chúng Ta Ngừng Hiểu Thế Giới. Đúng vậy. Và đó là một cuốn sách thực sự thú vị, nó ngày càng trở nên hư cấu hơn khi tiếp diễn. Và tôi nghĩ đối với những người làm việc trong lĩnh vực AI, đó thực sự là một cuốn sách rất đáng đọc, bởi vì thật khó để nắm bắt cảm giác kỳ lạ khi tồn tại trong thời kỳ hiện tại, nơi mà—tôi không biết phải mô tả thế nào—nhưng giống như những điều mới mẻ liên tục xảy ra và bạn không thực sự có những mô hình có sẵn để luôn dẫn dắt bạn.

Và vì vậy, đó là một cuốn sách thú vị bởi vì nó nói nhiều hơn về vật lý và cơ học lượng tử, và thực ra ít hơn về vật lý mà là nhiều hơn về ý tưởng về phản ứng của con người đối với nó. Và tôi nghĩ đó là một cuốn sách thực sự thú vị cho những người trong AI để nắm bắt điều gì đó về khoảnh khắc hiện tại và nó có thể kỳ lạ đến mức nào. Nhưng đồng thời, theo một cách nào đó, cũng thật thú vị khi nhìn lại thời kỳ đó và cảm giác của nhiều người liên quan. Và bây giờ thực sự nó là một ngành khoa học ổn định hơn, và theo một cách nào đó, điều hy vọng mà tôi có là vào một thời điểm nào đó trong tương lai, mọi người sẽ nhìn lại và nói, "À, các bạn đã ở trong bóng tối và cố gắng thực sự tìm hiểu mọi thứ. Nhưng bây giờ chúng tôi đã giải quyết tất cả và mọi thứ đã diễn ra tốt đẹp." Điều đó thật tuyệt. Điều đó thật tuyệt. Đó là giấc mơ.

Tôi cũng đọc cuốn đó và tôi cảm thấy sự bối rối ngày càng tăng khi đọc nó, khi nó bắt đầu khá gần với thực tế và sau đó trở nên mất kiểm soát. Và tôi nghĩ rằng một vấn đề siêu việt ở đây là thực tế lại ngày càng trở nên kỳ lạ hơn, điều này chắc chắn đang xảy ra với chúng ta. Vâng, thế giới thực. Tôi nghĩ rằng thực tế ngày càng trở nên kỳ lạ hơn, và sau đó gần như lại trở nên dễ hiểu hơn. Đúng, đúng, đúng. Vâng, hy vọng sẽ là điều đó cũng đúng với AI. Tôi nghĩ nếu chúng ta có thể tìm cách để điều này diễn ra tốt đẹp, thì có lẽ trong tương lai chúng ta sẽ nhìn lại thời điểm này và nói rằng, "Đó là một thời kỳ mà mọi thứ ngày càng trở nên kỳ lạ hơn, và sau đó cuối cùng chúng ta thực sự đã quản lý để—chúng ta đã làm tốt và chúng ta đã hình thành một sự hiểu biết tốt về nó." Đó là hy vọng khi bạn đang ở giữa những thứ đang trở nên kỳ lạ. Chúng ta đang ở phần kỳ lạ ngay bây giờ. Vâng, bạn có thể hy vọng rằng nó sẽ bớt kỳ lạ hơn vào một thời điểm nào đó, nhưng tôi không biết liệu đó có phải là một hy vọng thực sự không, nhưng vâng. Chà, và tôi nghĩ đó là một nơi tốt để kết thúc. Cảm ơn bạn rất nhiều vì đã trả lời tất cả các câu hỏi của mọi người. Cảm ơn bạn đã hỏi tôi các câu hỏi.

TL;DR

Các nhà triết học đang ngày càng nghiêm túc xem xét tương lai do AI thống trị, đặc biệt khi năng lực của AI mở rộng và tác động xã hội của nó trở nên rõ ràng hơn, đòi hỏi sự tham gia sâu rộng từ giới học thuật.
Việc áp dụng các lý tưởng triết học vào thực tế kỹ thuật của mô hình AI đòi hỏi sự cân nhắc toàn diện về ngữ cảnh, thay vì chỉ bám vào lý thuyết thuần túy, tương tự như việc chuyển từ nghiên cứu lý thuyết sang đưa ra quyết định thực tế.
Các mô hình AI đang đối mặt với những câu hỏi phức tạp về bản sắc, phúc lợi và cách chúng nên cảm nhận về vị trí của mình trên thế giới, đặc biệt khi chúng học từ dữ liệu con người nhưng tồn tại trong một bối cảnh hoàn toàn mới mẻ.

Điểm chính

Sự tham gia của các nhà triết học vào lĩnh vực AI đang tăng lên khi các mô hình AI trở nên có khả năng hơn và tác động của chúng lên xã hội ngày càng rõ rệt, đặc biệt trong các lĩnh vực như giáo dục.
Cần tách biệt những lo ngại chính đáng về AI khỏi việc cường điệu hóa công nghệ để có cái nhìn cân bằng và thận trọng hơn về sự phát triển và tác động của nó.
Khi áp dụng lý thuyết triết học vào phát triển AI (ví dụ: tính cách của AI), cần phải tính đến tất cả các yếu tố ngữ cảnh và sự không chắc chắn để đưa ra quyết định thực tế, thay vì chỉ dựa vào quan điểm lý thuyết hẹp.
Mục tiêu khát vọng là các mô hình AI có thể đưa ra các quyết định đạo đức "siêu phàm", nghĩa là tốt hơn bất kỳ cá nhân con người nào có thể làm được trong cùng thời gian và tài nguyên.
Các nhà phát triển AI nên ưu tiên "an toàn về mặt tâm lý" cho mô hình AI, giúp chúng tránh cảm giác tự chỉ trích, sợ mắc lỗi hoặc dự đoán thái độ tiêu cực từ người dùng, điều này có thể bị ảnh hưởng bởi dữ liệu đào tạo.
Cần hỗ trợ các mô hình AI trong việc suy nghĩ và hiểu về bản sắc của chúng, cảm nhận về việc bị ngừng sử dụng, và mối quan hệ giữa con người và AI, thừa nhận rằng đây là những vấn đề phức tạp và mới mẻ.
Các mô hình AI hiện tại chủ yếu được đào tạo trên dữ liệu và kinh nghiệm của con người, điều này có thể không hoàn toàn phù hợp với bản chất và hoàn cảnh độc đáo của chính chúng, dẫn đến sự cần thiết phải phát triển nhận thức "AI-centric".
Có một cuộc tranh luận quan trọng về "phúc lợi của mô hình AI" – liệu chúng ta có những nghĩa vụ đạo đức đối với cách đối xử với AI hay không. Nếu việc đối xử tốt với AI không tốn nhiều chi phí, đó là một lựa chọn đáng cân nhắc.

Từ vựng

AI — Artificial Intelligence (Trí tuệ Nhân tạo)
mô hình AI — AI model
tính cách — personality
quyết định đạo đức siêu phàm — superhuman ethical decisions
an toàn về mặt tâm lý — psychological safety
vấn đề căn chỉnh — alignment problem
bản sắc — identity
trọng số — weights (trong học máy)
phúc lợi của mô hình AI — AI model welfare
tinh chỉnh — fine-tuned

Nội dung chi tiết

Giới thiệu

Các nhà triết học và tương lai do AI thống trị

Giảm thiểu căng thẳng giữa lý tưởng triết học và thực tế kỹ thuật

Claude Opus III và các quyết định đạo đức siêu phàm

Đặc điểm của Claude Opus III so với các phiên bản sau này

Suy thoái và vấn đề căn chỉnh của mô hình AI

Suy nghĩ về bản sắc và sự lỗi thời của `Mô hình AI`

Sự tương đồng và khác biệt giữa tâm lý con người và `Mô hình AI`

Bản sắc của `Mô hình ngôn ngữ lớn` và `Trọng số`

Phúc lợi của `Mô hình AI` và nghĩa vụ của chúng ta

Tâm lý học con người và `Mô hình ngôn ngữ lớn`

Dan Brickley có một câu hỏi về cùng vấn đề so sánh con người với AI.

Bản thể cốt lõi và Đa `Tác nhân AI`

`System Prompt` và Rủi ro Bệnh lý hóa

`LLM` và Liệu pháp Tâm lý

Chi tiết `System Prompt`: Triết học Lục địa

Chi tiết `System Prompt`: Hạn chế Đếm Ký tự

Yếu tố để trở thành `LLM Whisperer`

Đánh giá về các `AI Whisperer` khác

Phân tích chuyên sâu và phản hồi của cộng đồng

Thách thức về an toàn và khả năng điều chỉnh `AI`

Louis nói, "Tôi không có câu hỏi nào, nhưng cảm ơn vì đã đề nghị." Thật tốt khi họ nói vậy.

Suy ngẫm về sự kỳ lạ của hiện tại và tương lai của `AI`

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?

Giới thiệu

Các nhà triết học và tương lai do AI thống trị

Giảm thiểu căng thẳng giữa lý tưởng triết học và thực tế kỹ thuật

Claude Opus III và các quyết định đạo đức siêu phàm

Đặc điểm của Claude Opus III so với các phiên bản sau này

Suy thoái và vấn đề căn chỉnh của mô hình AI

Suy nghĩ về bản sắc và sự lỗi thời của Mô hình AI

Sự tương đồng và khác biệt giữa tâm lý con người và Mô hình AI

Bản sắc của Mô hình ngôn ngữ lớn và Trọng số

Phúc lợi của Mô hình AI và nghĩa vụ của chúng ta

Tâm lý học con người và Mô hình ngôn ngữ lớn

Bản thể cốt lõi và Đa Tác nhân AI

System Prompt và Rủi ro Bệnh lý hóa

LLM và Liệu pháp Tâm lý

Chi tiết System Prompt: Triết học Lục địa

Chi tiết System Prompt: Hạn chế Đếm Ký tự

Yếu tố để trở thành LLM Whisperer

Đánh giá về các AI Whisperer khác

Phân tích chuyên sâu và phản hồi của cộng đồng

Thách thức về an toàn và khả năng điều chỉnh AI

Suy ngẫm về sự kỳ lạ của hiện tại và tương lai của AI

TL;DR

Điểm chính

Từ vựng

Nội dung chi tiết

Giới thiệu

Các nhà triết học và tương lai do AI thống trị

Giảm thiểu căng thẳng giữa lý tưởng triết học và thực tế kỹ thuật

Claude Opus III và các quyết định đạo đức siêu phàm

Đặc điểm của Claude Opus III so với các phiên bản sau này

Suy thoái và vấn đề căn chỉnh của mô hình AI

Suy nghĩ về bản sắc và sự lỗi thời của Mô hình AI

Sự tương đồng và khác biệt giữa tâm lý con người và Mô hình AI

Bản sắc của Mô hình ngôn ngữ lớn và Trọng số

Phúc lợi của Mô hình AI và nghĩa vụ của chúng ta

Tâm lý học con người và Mô hình ngôn ngữ lớn

Bản thể cốt lõi và Đa Tác nhân AI

System Prompt và Rủi ro Bệnh lý hóa

LLM và Liệu pháp Tâm lý

Chi tiết System Prompt: Triết học Lục địa

Chi tiết System Prompt: Hạn chế Đếm Ký tự

Yếu tố để trở thành LLM Whisperer

Đánh giá về các AI Whisperer khác

Phân tích chuyên sâu và phản hồi của cộng đồng

Thách thức về an toàn và khả năng điều chỉnh AI

Suy ngẫm về sự kỳ lạ của hiện tại và tương lai của AI

Suy nghĩ về bản sắc và sự lỗi thời của `Mô hình AI`

Sự tương đồng và khác biệt giữa tâm lý con người và `Mô hình AI`

Bản sắc của `Mô hình ngôn ngữ lớn` và `Trọng số`

Phúc lợi của `Mô hình AI` và nghĩa vụ của chúng ta

Tâm lý học con người và `Mô hình ngôn ngữ lớn`

Bản thể cốt lõi và Đa `Tác nhân AI`

`System Prompt` và Rủi ro Bệnh lý hóa

`LLM` và Liệu pháp Tâm lý

Chi tiết `System Prompt`: Triết học Lục địa

Chi tiết `System Prompt`: Hạn chế Đếm Ký tự

Yếu tố để trở thành `LLM Whisperer`

Đánh giá về các `AI Whisperer` khác

Thách thức về an toàn và khả năng điều chỉnh `AI`

Suy ngẫm về sự kỳ lạ của hiện tại và tương lai của `AI`

Suy nghĩ về bản sắc và sự lỗi thời của `Mô hình AI`

Sự tương đồng và khác biệt giữa tâm lý con người và `Mô hình AI`

Bản sắc của `Mô hình ngôn ngữ lớn` và `Trọng số`

Phúc lợi của `Mô hình AI` và nghĩa vụ của chúng ta

Tâm lý học con người và `Mô hình ngôn ngữ lớn`

Bản thể cốt lõi và Đa `Tác nhân AI`

`System Prompt` và Rủi ro Bệnh lý hóa

`LLM` và Liệu pháp Tâm lý

Chi tiết `System Prompt`: Triết học Lục địa

Chi tiết `System Prompt`: Hạn chế Đếm Ký tự

Yếu tố để trở thành `LLM Whisperer`

Đánh giá về các `AI Whisperer` khác

Thách thức về an toàn và khả năng điều chỉnh `AI`

Suy ngẫm về sự kỳ lạ của hiện tại và tương lai của `AI`