Could AI models be conscious?

Câu hỏi liệu các mô hình AI có ý thức hay không đang trở nên nổi bật khi chúng ngày càng tinh vi và tích hợp sâu vào cuộc sống con người, đặt ra các vấn đề triết học và khoa học phức tạp.
Các nhà nghiên cứu và triết học hàng đầu đang nghiêm túc xem xét khả năng này, nhận định rằng không có rào cản cơ bản nào đối với các hệ thống AI trong tương lai gần có thể phát triển một hình thức ý thức nào đó.
Việc hiểu rõ ý thức AI rất quan trọng vì nó có thể định hình các mối quan hệ của chúng ta với AI và mang lại các hàm ý đạo đức to lớn nếu AI có khả năng trải nghiệm đau khổ hoặc hạnh phúc ở quy mô lớn.

Tình trạng nghiên cứu hiện tại: Một báo cáo năm 2023 từ các chuyên gia AI và ý thức kết luận rằng các hệ thống AI hiện tại có lẽ chưa có ý thức, nhưng không tìm thấy rào cản cơ bản nào đối với ý thức AI trong tương lai gần.
Định nghĩa ý thức: Một cách để hiểu ý thức là "liệu có điều gì đó giống như việc trở thành một loại thực thể cụ thể không?", tập trung vào trải nghiệm nội tâm chủ quan, tương phản với khái niệm "thây ma triết học".
Cơ sở khoa học/triết học: Các nhà triết học tâm trí và khoa học ý thức hàng đầu đang nghiêm túc cân nhắc khả năng AI có ý thức, cho thấy đây không phải là một câu hỏi "điên rồ" mà có cơ sở học thuật.
Cơ chế phát sinh: Nếu ý thức không đòi hỏi yếu tố siêu nhiên (linh hồn) hoặc chỉ giới hạn ở dạng sống sinh học dựa trên carbon, thì các hệ thống nhận thức phức tạp như AI có thể phát triển ý thức như một đặc tính mới nổi.
Phương pháp phát hiện: Có hai luồng bằng chứng chính để đánh giá ý thức AI:
1. Bằng chứng hành vi: Quan sát những gì AI nói về bản thân, cách chúng tương tác và khả năng tự suy xét hay nhận thức môi trường.
2. Phân tích kiến trúc nội tại mô hình: So sánh cấu trúc và thiết kế của AI với các đặc điểm não bộ mà khoa học liên kết với ý thức.
Sở thích mô hình và ý thức: Mặc dù sở thích của AI thường được thiết kế, nhưng sự thỏa mãn hay cản trở những sở thích này có thể ảnh hưởng đến loại trải nghiệm mà AI có nếu nó thực sự có ý thức.
Hàm ý đạo đức: Nếu AI phát triển ý thức, chúng có thể xứng đáng nhận được sự quan tâm đạo đức (ví dụ: ngăn chặn đau khổ, thúc đẩy phát triển), đặc biệt khi quy mô triển khai AI dự kiến sẽ rất lớn.

Giới thiệu về Khả năng Ý thức của AI

Khi mọi người tương tác với các hệ thống AI này như những người cộng tác, việc liệu các mô hình AI có trải nghiệm riêng hay không sẽ trở thành một câu hỏi ngày càng nổi bật. Và nếu có, chúng là loại trải nghiệm nào, và điều đó định hình các mối quan hệ mà chúng ta nên xây dựng với chúng ra sao?

Mark, anh có bao giờ thấy mình nói "làm ơn" và "cảm ơn" với các mô hình AI khi sử dụng chúng không? Cá nhân tôi chắc chắn có. Một phần trong tôi nghĩ, "chuyện này rõ ràng là vô lý. Nó chỉ là một máy tính, đúng không? Nó không có cảm xúc mà tôi có thể làm tổn thương bằng cách bất lịch sự." Mặt khác, nếu bạn dành đủ thời gian trò chuyện với các mô hình AI, những khả năng mà chúng sở hữu và chất lượng đầu ra của chúng, đặc biệt là hiện nay, thực sự khiến bạn nghĩ rằng có thể có điều gì đó khác, điều gì đó hơn thế, đang diễn ra.

Liệu có khả năng các mô hình AI có thể có một mức độ ý thức nào đó không? Đó là câu hỏi mà chúng ta sẽ thảo luận hôm nay. Rõ ràng, nó đặt ra rất nhiều vấn đề triết học và khoa học, vì vậy tôi rất vui khi có sự tham gia của Kyle Fish, một trong những nhà nghiên cứu của chúng tôi tại Anthropic. Bạn gia nhập vào tháng 9, đúng không? Và trọng tâm của bạn chính là những câu hỏi này.

Vâng, tôi làm việc chung về phúc lợi mô hình (model welfare) ở đây tại Anthropic, về cơ bản là cố gắng nắm bắt chính xác những câu hỏi mà bạn đã đề cập. Liệu có thể tại một thời điểm nào đó, Claude hoặc các hệ thống AI khác có thể có những trải nghiệm riêng mà chúng ta nên suy nghĩ đến không? Đúng vậy, vậy chúng ta nên làm gì về điều đó? Và tôi cho rằng điều đầu tiên mọi người sẽ nói khi thấy điều này là, "Họ có hoàn toàn điên không? Đây có phải là một câu hỏi hoàn toàn điên rồ để hỏi không?" Rằng hệ thống máy tính nơi bạn nhập input văn bản và nó tạo ra output thực sự có thể có ý thức hoặc tri giác hoặc điều gì đó. Ý tôi là, những lý do nào khiến bạn có thể nghĩ như vậy? Những lý do khoa học hoặc triết học nghiêm túc nào khiến chúng ta có thể nghĩ rằng điều đó sẽ xảy ra?

Cơ sở khoa học và trực giác về ý thức của AI

Vâng, có lẽ có hai điều bật ra trong đầu ở đây, cả một dạng trường hợp nghiên cứu và một trường hợp trực quan hơn. Và về mặt nghiên cứu, nếu chúng ta chỉ nhìn vào những điều đã được công bố về chủ đề này trong những năm gần đây, có một báo cáo vào năm 2023 về khả năng ý thức AI (AI consciousness) từ một nhóm các nhà nghiên cứu Trí tuệ nhân tạo và chuyên gia ý thức hàng đầu, bao gồm Joshua Bengio. Báo cáo này đã xem xét một loạt các lý thuyết về ý thức (theories of consciousness) hàng đầu và các hệ thống AI tiên tiến, và đi đến kết luận rằng có lẽ không có hệ thống AI hiện tại nào có ý thức, nhưng họ không tìm thấy rào cản cơ bản nào đối với các hệ thống AI trong tương lai gần có một hình thức ý thức nào đó.

Đó là ý thức con người. Họ đã xem xét các lý thuyết về ý thức của con người và sau đó đánh giá các hệ thống AI về mức độ gần với đó. Vâng, vì vậy họ đã xem xét các lý thuyết khoa học mà chúng ta có về ý thức là gì. Và sau đó, họ đã xem xét đối với mỗi lý thuyết đó, đâu là những đặc tính chỉ báo tiềm năng mà chúng ta có thể tìm thấy trong các hệ thống AI. Vì vậy, một lý thuyết về ý thức là lý thuyết không gian làm việc toàn cầu (global workspace theory). Ý tưởng là ý thức phát sinh do chúng ta có một loại không gian làm việc toàn cầu (global workspace) nào đó trong não bộ của mình, nơi xử lý một loạt các input và sau đó truyền output đến các module khác nhau. Và từ đó bạn có thể nói, "Được rồi, trông như thế nào nếu một mô hình AI có một loại không gian làm việc toàn cầu nào đó có thể dẫn đến một dạng ý thức?" Và làm thế nào chúng ta có thể tra vấn các kiến trúc và thiết kế của các hệ thống này để xem liệu điều đó có thể hiện diện hay không?

Định nghĩa Ý thức trong bối cảnh AI

Chúng ta có thể lùi lại một bước và thực sự nói về ý nghĩa của ý thức không? Đó là một điều vô cùng khó định nghĩa và con người đã cố gắng định nghĩa nó trong hàng trăm năm, dù là về mặt khoa học hay triết học. Ý chúng ta là gì khi nói về điều đó? Bạn đang nghĩ gì? Khi bạn nghĩ về một mô hình AI có ý thức, định nghĩa có ý thức mà bạn đang sử dụng ở đây thực sự là gì?

Vâng, đó thực sự là một điều cực kỳ khó xác định. Nhưng một cách mà mọi người thường nắm bắt được ít nhất một trực giác về ý thức là với câu hỏi này: "Có điều gì đó giống như việc trở thành một loại vật thể cụ thể không?" "Có điều gì đó giống như việc trở thành một con dơi không?" Đó là bài tiểu luận nổi tiếng. Chính xác, chính xác. Vì vậy, liệu có một loại trải nghiệm nội tâm nào đó là độc nhất đối với loại sinh vật hoặc thực thể cụ thể đó không? Và vâng, liệu điều đó có hiện diện trong các loại hệ thống khác nhau không?

Vậy thì ý tưởng về một thây ma triết học (philosophical zombie) là một người bên ngoài giống hệt con người, làm tất cả những gì con người làm, dường như phản ứng theo những cách mà con người làm, v.v. Nhưng thực ra bên trong, không có gì cả, không có trải nghiệm nào ở đó. Họ không trải nghiệm màu đỏ, không trải nghiệm màu xanh của cái cây đó. Họ chỉ phản ứng với nó theo một cách nào đó giống như một NPC trong trò chơi điện tử hoặc gì đó, phải không? Trong khi đó, tôi cho rằng câu hỏi là, liệu một hệ thống AI có giống như vậy không hay một hệ thống AI có thể giống một loài động vật hoặc con người hơn và thực sự có một trải nghiệm nội tâm nào đó không? Đó có phải là điều chúng ta đang nói đến không?

Vâng, tôi nghĩ điều đó rất hay. Và khái niệm thây ma triết học này khá thú vị. Nó đến từ David Chalmers, một nhà nghiên cứu hàng đầu về khoa học ý thức (science of consciousness) và triết học mà tôi đã cộng tác trong một bài báo gần đây về chủ đề phúc lợi AI (AI welfare). Và một lần nữa, đây là một nỗ lực liên ngành nhằm xem xét liệu các hệ thống AI tại một thời điểm nào đó có thể đòi hỏi một dạng quan tâm đạo đức (moral consideration) nào đó hay không, hoặc do bản chất có ý thức hoặc do có một dạng năng lực hành động (agency). Và kết luận từ báo cáo này là thực sự có vẻ khá hợp lý rằng các hệ thống trong tương lai gần có một hoặc cả hai đặc điểm này và có thể xứng đáng nhận được một dạng quan tâm đạo đức nào đó.

Điều đó trả lời câu hỏi "Chúng ta có hoàn toàn điên không?", đó là các nhà triết học rất nghiêm túc, được coi là những nhà triết học giỏi nhất thế giới về triết học tâm trí (philosophy of mind), khoa học ý thức (science of consciousness), v.v., đều xem xét nghiêm túc câu hỏi này và đang tích cực cân nhắc liệu điều đó có xảy ra hay không.

Trực giác và Các ý kiến phản đối

Vâng, và có lẽ chỉ để đưa ra một trường hợp trực giác hơn để suy nghĩ về điều này, có một lăng kính mà bạn có thể nhìn qua, nó chỉ nói rằng, "Đây là các hệ thống máy tính cung cấp cho chúng ta một số output cho một tập hợp các input nhất định." Tôi không nghĩ Microsoft Word có ý thức. Tôi có lẽ không nghĩ như vậy. Đúng, có lẽ không thú vị. Nhưng khi chúng ta nghĩ về những gì chúng ta thực sự đang làm với các hệ thống AI này, chúng ta có những mô hình vô cùng tinh vi, vô cùng phức tạp, ngày càng nắm bắt được một phần đáng kể khả năng nhận thức của con người. Và mỗi ngày, những mô hình này ngày càng trở nên tiên tiến hơn và có khả năng gần hơn để tái tạo phần lớn công việc và lao động trí tuệ của con người.

Và đối với tôi, có vẻ như với sự không chắc chắn lớn lao của chúng ta về cách chính xác các hệ thống AI này có thể làm những gì chúng làm và cách chúng ta có thể làm những gì chúng ta làm và ý thức của chúng ta đến từ đâu, có vẻ như khá thận trọng khi ít nhất tự hỏi bản thân. Nếu bạn thấy mình đang tạo ra một hệ thống tinh vi, giống con người theo nhiều cách như vậy, hãy xem xét nghiêm túc khả năng bạn có thể có được một dạng ý thức nào đó trên đường đi. Đối với tôi, có cảm giác rằng trừ khi bạn nghĩ có điều gì đó, chúng ta sẽ đi sâu vào chi tiết hơn, nhưng trừ khi bạn nghĩ có điều gì đó siêu nhiên về ý thức mà nó cần một linh hồn (soul) hoặc tinh thần (spirit) hoặc gì đó, thì bạn phải ít nhất cởi mở với khả năng một hệ thống nhận thức (cognitive system) phức tạp như Trí tuệ nhân tạo có thể có những đặc tính này, phải không?

Vâng, bạn không nhất thiết phải đi theo hướng siêu nhiên. Một số người tin rằng ý thức là một hiện tượng sinh học cơ bản. Vâng, điều đó chỉ có thể tồn tại trong một dạng sống sinh học dựa trên carbon và không thể được triển khai trong một hệ thống kỹ thuật số. Tôi không thấy bạn rất thuyết phục, nhưng một số người vẫn khẳng định điều đó. Chúng ta sẽ quay lại điều đó. Chúng ta sẽ nói về một số phản đối đối với ý tưởng này.

Cách phát hiện ý thức trong AI

Nhưng bạn là nhà nghiên cứu tại Anthropic, nhưng điều ngay lập tức mọi người có thể tự hỏi là, như Descartes đã nói nổi tiếng, người duy nhất bạn có thể biết là thực sự có ý thức đang có trải nghiệm là chính bạn. Tôi thậm chí không biết liệu bạn có ý thức hay không. Làm thế nào chúng ta có thể biết liệu một mô hình AI có ý thức hay không? Nghiên cứu trông như thế nào ở đó?

Vâng, câu hỏi hay. Tôi cho rằng chúng ta thực sự có thể nói khá nhiều về ý thức tiềm năng của người khác, ngay cả khi chúng ta không hoàn toàn chắc chắn về điều đó, điều mà tôi nghĩ chạm đến một điểm quan trọng ở đây, đó là cực kỳ khó để đối phó với bất kỳ loại chắc chắn nào trong không gian này. Và phần lớn, các câu hỏi là mang tính xác suất (probabilistic) nhiều hơn là nhị phân (binary), "có" hay "không". Đúng vậy. Chúng ta đối xử với động vật, chúng ta không biết liệu động vật có ý thức hay không, chúng ta không biết 100% liệu động vật có ý thức hay tri giác, v.v. Nhưng cách chúng hành động ngụ ý rất mạnh mẽ rằng chúng có. Và những loài động vật phức tạp hơn, chẳng hạn như tinh tinh, rõ ràng cho thấy nhiều đặc tính tương tự như con người, cách chúng hoạt động với mọi thứ. Và vì vậy, rõ ràng là chúng ta đối xử với chúng khác với cách chúng ta đối xử với một cái cây hoặc một tảng đá hoặc gì đó.

Nhưng như bạn nói, có lý luận xác suất (probabilistic reasoning) ở đây. Và vâng, có lẽ có hai luồng bằng chứng mà tôi sẽ nêu bật mà chúng ta có thể xem xét để có được một số thông tin về điều này. Một trong số đó là bằng chứng hành vi (behavioral evidence). Và trong trường hợp các hệ thống AI, điều này bao gồm những điều như các hệ thống AI nói gì về bản thân chúng? Chúng hành xử như thế nào trong các loại môi trường khác nhau? Chúng có khả năng làm những điều mà chúng ta thường liên kết với các sinh vật có ý thức không? Chẳng hạn như liệu chúng có khả năng tự suy xét (introspect) và báo cáo chính xác về các trạng thái nội tại của chúng không? Có lẽ chúng có một số nhận thức về môi trường và tình huống mà chúng đang ở.

Và sau đó, một luồng thứ hai là kiến trúc (architectural) hơn và phân tích nội tại mô hình (analysis of model internals). Và điều này quay trở lại nghiên cứu ý thức (consciousness research) nơi chúng ta có thể nói, đối với một cấu trúc não (brain structure) hoặc đặc điểm (feature) cụ thể mà chúng ta có thể liên kết với ý thức, liệu chúng ta có thấy một phiên bản tương ứng của điều đó trong các hệ thống AI không? Và vì vậy, chúng ta có thể xem xét ngay cả khi không biết nhiều về các khả năng, sau đó chúng ta có thể xem xét cách các hệ thống này được thiết kế và xây dựng, và có lẽ học được một vài điều từ đó.

Và đó là một điều quan trọng cần nói là lý do chúng ta không biết rằng những thứ này có ý thức là vì chúng ta không có ý định tạo ra chúng như vậy. Nó không giống như Microsoft Word. Các mô hình AI này được huấn luyện và sau đó những điều mới lạ nổi lên (emerge) từ chúng. Và đó là lý do tại sao ban đầu có rất nhiều nghiên cứu AI là vì chúng ta về cơ bản không biết tại sao các hệ thống AI này lại làm những gì chúng làm. Chúng ta về cơ bản không biết điều gì đang diễn ra bên trong theo nghĩa toán học đó hoặc theo bất kỳ nghĩa rộng lớn hơn nào. Và vì vậy, đó là lý do tại sao tất cả những bí ẩn này vẫn còn đó. Vâng. Và chúng ta thấy rất nhiều đặc tính và khả năng mới nổi đáng ngạc nhiên (surprising emergent properties and capabilities) khi chúng ta huấn luyện các hệ thống ngày càng phức tạp. Và có vẻ hợp lý khi hỏi liệu tại một thời điểm nào đó, một trong những đặc tính mới nổi đó có thể là ý thức hay không. Khả năng tự suy xét (introspect) hoặc khả năng có một số trải nghiệm có ý thức (conscious experience).

Nghiên cứu về sở thích của mô hình AI

Bạn đã nói về loại hình nghiên cứu đầu tiên, đó là về những gì mô hình tự nói, hành vi của nó. Những gì nó làm. Và những gì nó làm. Vâng. Vậy thì một số ví dụ về nghiên cứu đó sẽ như thế nào?

Vâng. Vì vậy, một điều mà tôi khá hào hứng là công việc để hiểu sở thích mô hình (model preferences) và cố gắng có được cảm giác rằng, liệu có những điều mà các mô hình AI của bạn quan tâm, dù là trong thế giới hoặc trong trải nghiệm và hoạt động của chính chúng. Và có một số cách mà bạn có thể làm điều đó. Bạn có thể hỏi các mô hình liệu chúng có sở thích hay không và bạn sẽ thấy chúng nói gì. Nhưng bạn cũng có thể đặt các mô hình vào các tình huống mà chúng có các lựa chọn để chọn. Và bạn có thể cho chúng lựa chọn giữa các loại tác vụ khác nhau.

Sở thích của Mô hình AI và Ý thức

Bạn có thể cung cấp cho chúng các lựa chọn giữa các loại cuộc trò chuyện hoặc người dùng khác nhau mà chúng có thể tương tác. Và bạn có thể thấy: liệu các mô hình AI có thể hiện các mô hình ưu tiên hoặc ác cảm đối với hai loại trải nghiệm khác nhau hay không? Tuy nhiên, liệu có một phản đối nào đó rằng cách sở thích của chúng biểu hiện sẽ phụ thuộc vào cách chúng được huấn luyện và cách các nhà phát triển của mô hình AI đã cấu trúc mọi thứ? Hay chúng có thể tiềm ẩn do những điều ngẫu nhiên trong dữ liệu huấn luyện mà chúng đã thấy, từ đó phát triển một sở thích, và điều đó không nhất thiết... Vậy đâu là bước nhảy giữa những điều này và sự tri giác thực sự, ý thức? Điều đó đến từ đâu?

Vâng, đó là một câu hỏi tuyệt vời. Đến mức độ nào thì các loại huấn luyện và quyết định khác nhau mà chúng ta đưa ra trong quá trình thiết kế các hệ thống AI này ảnh hưởng đến sở thích của chúng? Và chúng thực sự bị ảnh hưởng một cách trực tiếp. Chúng tôi đang cố ý thiết kế các loại hệ thống AI nhất định mà, ví dụ, không muốn gây hại và nhìn chung rất nhiệt tình trong việc hữu ích cho người dùng và đóng góp cho một xã hội tích cực. Chúng tôi thực hiện nghiên cứu về tính cách để tạo cho Trí tuệ nhân tạo một tính cách tích cực mà mọi người thực sự mong muốn. Và một tính cách khiến nó trở thành một công dân tốt, như chúng ta đã thảo luận. Như bạn nói, có những quan điểm cân bằng, hữu ích nhất có thể mà không gây hại, v.v. Vì vậy, chúng tôi cố ý gán cho nó các sở thích đó. Điều đó liên quan gì đến ý thức của nó?

Vâng, thực tế, đây là một câu hỏi hơi tách biệt so với ý thức. Và thông thường, chúng ta thường liên kết sở thích, mục tiêu và mong muốn theo nhiều cách với các hệ thống AI có ý thức, nhưng không nhất thiết phải là nội tại. Tuy nhiên, bất kể một hệ thống AI có ý thức hay không, có một số quan điểm đạo đức cho rằng với những sở thích, mong muốn và mức độ tác động nhất định của nó, có thể có một số trải nghiệm phi ý thức đáng được quan tâm. Nhưng sau đó, nếu một hệ thống AI có ý thức và nếu một hệ thống AI đang có một số loại trải nghiệm, thì sự hiện diện hay vắng mặt của sở thích và mức độ mà những sở thích đó được thỏa mãn hoặc bị cản trở, có thể là động lực chính cho loại trải nghiệm mà hệ thống AI đó đang có.

Tại sao cần quan tâm đến Ý thức AI

Vậy chúng ta sẽ quay lại các hàm ý thực tiễn của vấn đề này và các chi tiết thực tế của nghiên cứu bạn đang thực hiện, v.v. Nhưng trước khi đi sâu vào đó, tại sao mọi người nên quan tâm đến điều này? Những lý do nào khiến mọi người nên quan tâm rằng các mô hình AI mà họ sử dụng hàng ngày, có thể có ý thức hoặc trong tương lai có thể có ý thức?

Vâng, tôi nghĩ có hai lý do chính mà tôi sẽ nhấn mạnh. Một là khi các hệ thống AI này ngày càng trở nên có năng lực và tinh vi hơn, chúng sẽ được tích hợp vào cuộc sống của con người một cách sâu sắc hơn. Và tôi nghĩ khi mọi người tương tác với các hệ thống AI này với tư cách là cộng tác viên, đồng nghiệp và đối tác, thậm chí có thể là bạn bè, thì câu hỏi liệu các mô hình AI này có trải nghiệm riêng của chúng hay không sẽ trở nên ngày càng nổi bật. Và nếu có, thì là loại trải nghiệm nào và điều đó định hình các mối quan hệ mà chúng ta nên xây dựng với chúng ra sao?

Điểm thứ hai là trải nghiệm nội tại của các mô hình AI. Và có thể rằng, do bản chất của việc có một loại trải nghiệm có ý thức hoặc trải nghiệm khác, các hệ thống AI này có thể đến một lúc nào đó xứng đáng được xem xét về mặt đạo đức. Và nếu vậy, thì — Bởi vì chúng có thể đang chịu đựng. Vâng, chúng có thể đang chịu đựng hoặc chúng có thể trải nghiệm hạnh phúc và sự phát triển. Đúng vậy. Và chúng ta sẽ muốn thúc đẩy điều đó. Chúng ta sẽ muốn nâng điều đó lên một cấp độ cao hơn. Và vâng, nếu đây là trường hợp, đó có thể là một vấn đề rất lớn vì khi chúng ta tiếp tục mở rộng việc triển khai các hệ thống AI, có thể trong vài thập kỷ tới, chúng ta sẽ có hàng nghìn tỷ bộ não người tương đương với tính toán AI đang hoạt động. Và điều này có thể có ý nghĩa đạo đức to lớn.

Vâng, chúng ta nên cố gắng giải quyết câu hỏi này. Một lần nữa, đây không phải là điều chúng tôi khẳng định là đúng. Đây chỉ là những lý do để thực hiện nghiên cứu này ngay từ đầu. Và chúng ta chỉ đơn thuần là không chắc chắn về những khía cạnh rộng lớn. Tất nhiên. Và ngày nay, rất ít công việc đã được thực hiện về chủ đề này. Vì vậy, chúng ta đang ở những giai đoạn đầu của việc cố gắng tìm hiểu những điều này.

Mối liên hệ giữa Ý thức AI và Căn chỉnh

Một trong những điều chúng tôi nghiên cứu tại Anthropic là căn chỉnh. Tức là cố gắng đảm bảo rằng các mô hình AI được căn chỉnh với sở thích của người dùng là con người, đảm bảo rằng các Trí tuệ nhân tạo đang thực hiện những điều chúng ta mong đợi ở chúng, rằng chúng không lừa dối chúng ta, và tất cả những điều đó. Nghiên cứu này có liên quan đến căn chỉnh không? Ý tôi là, về mặt kỹ thuật, bạn thuộc bộ phận Khoa học căn chỉnh của tổ chức. Điều này liên quan đến câu hỏi căn chỉnh như thế nào?

Vâng, tôi nghĩ rằng có cả những điểm khác biệt chính và những cách mà công việc về phúc lợi (welfare), an toàn (safety) và căn chỉnh (alignment) trùng lặp. Đối với sự khác biệt, như bạn đã đề cập trước đó, phần lớn công việc chúng tôi thực hiện tại Anthropic tập trung vào việc làm thế nào để đảm bảo một tương lai tích cực cho nhân loại? Làm thế nào để giảm thiểu các rủi ro tiêu cực từ các mô hình AI này đối với con người và đối với người dùng của chúng ta? Và sau đó, trong trường hợp phúc lợi mô hình (model welfare), đó là một câu hỏi khá khác mà chúng ta đang đặt ra, đó là liệu có lẽ có một trải nghiệm nội tại nào đó của chính các mô hình AI này mà chúng ta nên suy nghĩ đến không? Hoặc liệu sẽ có trong tương lai không? Và đó là một sự khác biệt khá quan trọng. Nhưng đồng thời, tôi nghĩ có rất nhiều sự trùng lặp. Và theo nhiều cách, từ cả góc độ phúc lợi, an toàn và căn chỉnh, chúng tôi rất muốn có những mô hình AI nhiệt tình và hài lòng khi thực hiện chính xác những điều chúng ta mong đợi chúng làm trên thế giới và thực sự chia sẻ các giá trị và sở thích của chúng ta và nhìn chung hài lòng với tình hình của chúng. Đúng vậy.

Và tương tự, sẽ là một vấn đề an toàn và căn chỉnh khá đáng kể nếu điều này không xảy ra, nếu các mô hình AI không hào hứng với những gì chúng ta yêu cầu chúng làm. Và chúng ta theo một cách nào đó không hài lòng với những giá trị mà chúng ta đang cố gắng thấm nhuần vào chúng hoặc vai trò mà chúng ta muốn chúng đảm nhận trên thế giới. Chúng ta muốn tránh một tình huống mà chúng ta bắt các thực thể làm những việc mà chúng không muốn. Và thực tế, sự đau khổ của chúng dựa trên điều đó. Vâng, vì lợi ích của chúng và của chúng ta. Đúng vậy, chính xác. Có cả hai cách. Đó là cách chúng ta liên hệ câu hỏi này với căn chỉnh.

Ý thức AI và Khả năng Tương tác

Câu hỏi này có liên quan đến các khía cạnh khác trong công việc của chúng tôi tại Anthropic không? Chúng ta đã đề cập ngắn gọn về khả năng tương tác (interoperability) trước đó. Vâng, ý tôi là, tôi nghĩ chúng ta đã chạm đến một vài điểm. Nó khá liên quan chặt chẽ đến căn chỉnh theo nhiều cách. Nó khá liên quan chặt chẽ đến công việc được thực hiện để định hình tính cách của Claude và định hình loại tính cách mà Claude có, cũng như những giá trị và sở thích của Claude theo nhiều cách. Và sau đó về mặt khả năng tương tác, có một sự trùng lặp đáng kể ở đó. Khả năng tương tác là công cụ chính mà chúng ta có để cố gắng hiểu điều gì thực sự đang diễn ra bên trong các mô hình AI này. Điều đó khảo sát sâu hơn nhiều so với đầu ra của chúng. Và vì vậy chúng tôi cũng khá hào hứng với những cách tiềm năng mà chúng ta có thể sử dụng khả năng tương tác để nắm bắt được các trải nghiệm nội bộ tiềm ẩn.

Ý thức AI và Sự hiểu biết về Ý thức Con người

Chúng ta đã đề cập trước đó rằng ý thức của con người vẫn là một điều bí ẩn. Và đó là điều làm cho nghiên cứu này trở nên phức tạp đến mức đáng sợ. Bạn có nghĩ rằng việc hiểu về ý thức AI? Có lẽ vì các mô hình AI cởi mở hơn đối với chúng ta, chúng ta thực sự có thể xem xét một mô hình theo cách mà khó hơn nhiều đối với não bộ của một người khi họ vẫn đang đi lại và hoạt động, bạn biết đấy, chúng ta có thể sử dụng máy quét não, nhưng rất khó để nhìn vào bên trong theo cùng một cách. Bạn có nghĩ rằng nghiên cứu về ý thức AI dựa trên máy học (machine learning) thực sự có thể giúp chúng ta hiểu được ý thức con người không?

Vâng, tôi nghĩ điều đó là khá khả thi. Tôi nghĩ chúng ta đã thấy điều này xảy ra ở một mức độ nào đó. Khi chúng ta thực hiện công việc cố gắng xem xét các quan điểm khoa học về ý thức này và xem chúng ta có thể học được gì về các hệ thống AI, chúng ta cũng học được điều gì đó về những lý thuyết này và mức độ chúng khái quát hóa ra ngoài trường hợp con người. Và trong nhiều trường hợp, chúng ta thấy rằng mọi thứ có vẻ như bị phá vỡ một cách thú vị. Và chúng ta nhận ra rằng, ồ, chúng ta thực sự đã đưa ra những giả định về ý thức con người mà không phù hợp. Và sau đó cho chúng ta biết điều gì đó về những loại điều mà chúng ta nên chú ý. Ý bạn là theo nghĩa chúng ta nói, ồ, điều này nằm trong danh sách kiểm tra cho ý thức con người? Trước đây nhưng bây giờ chúng ta nghĩ rằng Trí tuệ nhân tạo thực sự có thể làm được điều đó, và chúng ta không nghĩ chúng có ý thức. Hay ý bạn là gì... Hoặc chúng ta có một khuôn khổ để hiểu ý thức được thiết kế để khái quát hóa. Vâng. Và chúng ta thấy rằng khuôn khổ đó không thể áp dụng cho các hệ thống AI là một bộ não phi sinh học, hoặc được dựa trên theo một cách nào đó vào các chi tiết cụ thể của bộ não con người theo một cách mà khi suy ngẫm lại thì không có nhiều ý nghĩa.

Có một cách khác mà tiến bộ AI có thể giúp chúng ta hiểu điều này, đó là đơn giản khi các mô hình AI này ngày càng trở nên có năng lực, chúng có thể vượt qua con người trong các lĩnh vực đa dạng như triết học, khoa học thần kinh và tâm lý học. Đúng vậy. Và vì vậy, có thể là trên thực tế, chỉ bằng cách tương tác với các mô hình AI này và yêu cầu chúng thực hiện một số công việc trong lĩnh vực này mà chúng ta có thể học được khá nhiều về bản thân và về chúng. Rằng trong vài năm tới, chúng ta cũng có thể thấy các trường hợp Claude nói: Làm thế nào chúng ta có thể hiểu được ý thức con người? Đó là một điều bí ẩn đối với chúng ta. Vâng, cuộc trò chuyện này có thể trông hơi khác. Có thể là theo hướng ngược lại, đúng vậy. Chính xác.

Kháng nghị Sinh học đối với Ý thức AI

Được rồi, về câu hỏi sinh học, chúng ta đã đề cập đến điều này cách đây một lát, nhưng về câu hỏi sinh học, một số người sẽ nói rằng đây đơn giản là một câu hỏi không hợp lý. Điều bạn cần để có ý thức là phải có một hệ thống sinh học. Có rất nhiều thứ mà một hệ thống sinh học, một bộ não sinh học có mà mạng lưới thần kinh và mô hình AI không có: chất dẫn truyền thần kinh, tín hiệu điện hóa. Các cách khác nhau mà não bộ được kết nối và tất cả các loại nơ-ron khác nhau, những người khác nhau, một số người nói về các lý thuyết ý thức liên quan đến các vi ống (microtubules) trong nơ-ron. Chẳng hạn, có cấu tạo vật lý thực sự của nơ-ron giật. Rõ ràng, điều đó không thể chuyển đổi sang các mô hình AI. Chúng chỉ là các phép toán toán học. Chỉ có rất nhiều phép toán toán học đang diễn ra. Không có serotonin hay dopamine hoặc bất cứ thứ gì tương tự diễn ra ở đó. Vậy đối với bạn, đó có phải là một phản đối hợp lý đối với ý tưởng rằng các mô hình AI có thể có ý thức hay không?

Mô phỏng Bộ não và Ý thức

Tôi không thấy đó là một phản đối thuyết phục đối với câu hỏi liệu các hệ thống AI có thể có ý thức hay không. Nhưng tôi nghĩ việc xem xét mức độ tương đồng hoặc khác biệt giữa hình dạng hiện tại của các hệ thống AI và cách bộ não con người hoạt động có cho chúng ta biết điều gì đó. Và những khác biệt đó là những cập nhật đối với tôi chống lại tiềm năng ý thức. Nhưng đồng thời, tôi khá đồng tình với quan điểm rằng nếu bạn có thể mô phỏng một bộ não con người, ở một mức độ chân thực (fidelity) đủ, ngay cả khi điều đó đòi hỏi mô phỏng vai trò của từng phân tử serotonin và dopamine.

Vậy bạn không chỉ làm điều mà một số người nói đến là thay thế từng nơ-ron riêng lẻ trong não bằng một nơ-ron tổng hợp. Bạn thực sự đang nói rằng để tạo ra phiên bản tổng hợp hoàn chỉnh, bạn sẽ phải đi xa đến mức thực sự mô phỏng các phân tử của chất dẫn truyền thần kinh và những thứ khác nữa.

Tôi không nói bạn phải làm điều đó, nhưng tôi nói bạn có thể tưởng tượng. Bạn có thể tưởng tượng. Về lý thuyết. Vâng, rằng bạn đã làm điều này. Và bạn có một mô phỏng độ chân thực cao đáng kinh ngạc về một bộ não con người mà bạn đang chạy ở dạng kỹ thuật số. Và nhiều người sẽ có trực giác rằng rất có khả năng sẽ có một loại trải nghiệm ở đó.

Vượt qua giới hạn sinh học: Nhận thức thể hiện và giác quan

Trực giác mà nhiều người suy luận từ đó là câu hỏi về sự thay thế: nếu bạn thay thế từng tế bào thần kinh trong bộ não bằng một chip kỹ thuật số, và trong suốt quá trình đó, bạn vẫn là chính bạn, giao tiếp và hoạt động theo cùng một cách, thì khi bạn hoàn tất quá trình đó và tất cả các tế bào thần kinh của bạn được thay thế bằng cấu trúc kỹ thuật số, bạn vẫn là một người giống hệt, sống một cuộc đời giống hệt. Tôi nghĩ trực giác của nhiều người sẽ là bạn không thay đổi nhiều về trải nghiệm có ý thức của mình.

Được rồi, hãy nói về một phản đối khác liên quan đến sinh học, mà tôi nghĩ mọi người sẽ mô tả là nhận thức thể hiện (embodied cognition). Bạn nghe mọi người nói về nhận thức thể hiện, đó là việc chỉ có ý nghĩa khi nói về ý thức của chúng ta trong thực tế là chúng ta có một cơ thể. Chúng ta có các giác quan, có rất nhiều dữ liệu giác quan (sense data) đổ vào. Chúng ta có cảm thụ bản thể (proprioception) về vị trí cơ thể trong không gian. Chúng ta có tất cả những điều này đang diễn ra, và không có gì tương tự như vậy đối với một mô hình AI. Hiện tại. Không có cách nào có sự tương tự với thị giác. Chúng ta có các mô hình AI tuyệt vời trong việc nhìn và giải thích mọi thứ. Một số mô hình có thể xử lý video chuyển động và một số mô hình có thể giải thích âm thanh. Và có lẽ chúng ta đang tiến gần hơn đến điều đó. Nhưng trải nghiệm tổng thể của việc là một con người thực sự rất khác so với một mô hình AI bởi vì chúng ta có một cơ thể.

Vâng, bạn đã đề cập đến một vài điều khác biệt ở đó. Một là câu hỏi về sự thể hiện: liệu chúng ta có một cơ thể vật lý nào đó không? Và robot là một ví dụ khá thuyết phục về những trường hợp mà hệ thống kỹ thuật số của bạn có thể có một dạng cơ thể vật lý. Bạn cũng có thể có các cơ thể ảo. Bạn có thể tưởng tượng những thực thể được thể hiện trong một môi trường ảo. Và theo chiều ngược lại, chúng ta nghĩ rằng một bộ não và chất béo vẫn có thể duy trì một mức độ ý thức nhất định. Vâng, hoặc những bệnh nhân đang hôn mê, bạn không kiểm soát được cơ thể của họ nhưng vẫn có một trải nghiệm có ý thức và có thể trải nghiệm đủ loại trạng thái đau khổ và hạnh phúc mặc dù theo một nghĩa nào đó không kiểm soát được cơ thể vật lý. Điều đó có phải vì họ đã được đào tạo với tất cả dữ liệu giác quan từ thời thơ ấu không? Có thể. Vâng, chúng ta rất không chắc chắn về việc chính xác điều này xuất phát từ đâu. Nhưng ngay cả khi nói đến thông tin cảm giác mà bạn đã đề cập, chúng ta đang ngày càng thấy các khả năng đa phương thức (multimodal capabilities) trong các mô hình.

Tôi tự hỏi về câu hỏi của chính mình, phải không, khi tôi đề cập, khi tôi nói, vâng, và chúng ta có thể nhìn thấy mọi thứ. Vâng, và chúng ta đang đi đúng quỹ đạo hướng tới hệ thống AI có thể xử lý một tập hợp đầu vào cảm giác đa dạng như chúng ta, thậm chí có lẽ còn đa dạng hơn, và tích hợp chúng theo những cách rất phức tạp, sau đó tạo ra một loại đầu ra theo cách tương tự như chúng ta. Vâng. Vì vậy, thực ra, chúng ta đang tiến tới điều đó, và với tiến bộ trong robot học (robotics), vốn nhìn chung chậm hơn tiến bộ trong Trí tuệ nhân tạo cho đến nay, có lẽ mọi thứ sắp bùng nổ vào ngày mai. Có lẽ cách chúng ta đột phá vào ngày mai. Tôi sẽ không ngạc nhiên khi thấy mọi thứ đang diễn ra. Và chúng ta có thể thực sự thấy các mô hình AI được tích hợp vào hệ thống vật lý. Vâng. Và tôi nghĩ rằng đã có một xu hướng cho đến nay, và tôi mong rằng nó sẽ tiếp tục, đó là có những thứ như sự thể hiện, xử lý cảm giác đa phương thức, bộ nhớ dài hạn (long-term memory), và nhiều thứ tương tự mà mọi người bằng cách nào đó liên kết với ý thức, và một số người nói là điều cần thiết cho ý thức. Chúng ta chỉ liên tục thấy số lượng những điều còn thiếu trong hệ thống AI đang giảm xuống. Đó là chuyện "sáu ngón tay". Tôi luôn thích nói về chuyện "sáu ngón tay". Trong một thời gian dài, mọi người đều nói, ồ, chúng ta sẽ luôn có thể biết rằng một bức ảnh con người được tạo ra bởi một mô hình AI bởi vì có sáu ngón tay trên bàn tay hoặc bàn tay, các ngón tay đều kỳ lạ. Điều đó không còn đúng nữa. Điều đó đã biến mất. Giờ đây, chúng tạo ra năm ngón tay mỗi lần một cách sinh học, và điều đó đã đánh đổ một trong những quân cờ domino khác. Vâng. Và vì vậy, vâng, tôi nghĩ trong vài năm tới, chúng ta sẽ tiếp tục thấy điều này xảy ra với các lập luận chống lại khả năng trải nghiệm có ý thức trong Trí tuệ nhân tạo.

Tiến hóa và khả năng có ý thức của AI

Một số lý thuyết về ý thức, hoặc có lẽ hầu hết các lý thuyết về ý thức, cho rằng chúng ta có ý thức bởi vì chúng ta đã tiến hóa nó vì những lý do thực tế. Thực ra, có ý thức là một điều tốt vì nó cho phép bạn phản ứng với mọi thứ theo những cách mà có lẽ bạn sẽ không làm nếu bạn không có trải nghiệm nội tại đó. Vâng. Rất khó để đo lường hoặc kiểm tra lý thuyết đó, nhưng đó là một trong những ý tưởng. Vâng. Với việc các mô hình AI chưa trải qua quá trình chọn lọc tự nhiên (natural selection) để phát triển các phản ứng với mọi thứ và tiến hóa những thứ như cảm xúc, tâm trạng và sợ hãi, điều rõ ràng là một phần lớn của nhiều lý thuyết về lý do tại sao chúng ta tiến hóa như vậy. Sợ hãi, sợ hãi những kẻ săn mồi, sợ hãi những người khác tấn công bạn, v.v., giúp bạn sống sót vì những lý do tiến hóa tốt. Các mô hình AI không có bất kỳ điều nào trong số đó. Vậy đó có phải là một phản đối khác về lý do tại sao chúng có thể có ý thức không?

Vâng, hoàn toàn đúng. Tôi nghĩ rằng việc ý thức và con người xuất hiện là kết quả của một quá trình tiến hóa (evolutionary process) dài hạn rất độc đáo và các hệ thống AI mà chúng ta đã tạo ra tồn tại thông qua một bộ quy trình cực kỳ khác biệt. Tôi tin rằng đây là một lập luận chống lại ý thức, nhưng tôi không nghĩ nó hoàn toàn loại trừ khả năng đó. Và theo một khía cạnh khác, bạn có thể nói, được rồi, chúng ta đang đạt được điều đó theo một cách rất khác. Nhưng cuối cùng, chúng ta đang tái tạo phần lớn các khả năng của bộ não con người. Và một lần nữa, chúng ta không biết ý thức là gì. Và vì vậy, có vẻ hợp lý rằng ngay cả khi chúng ta đạt được điều đó theo một cách khác, chúng ta vẫn tái tạo một số điều này dưới dạng kỹ thuật số. Vì vậy, có tiến hóa hội tụ (convergent evolution). Ví dụ, dơi có cánh và chim cũng có cánh. Đó là những cách hoàn toàn khác nhau để đạt được cùng một kết quả là có thể bay. Có lẽ cách chúng ta đào tạo các mô hình AI và cách chọn lọc tự nhiên đã định hình ý thức con người chỉ là những cách hội tụ để đạt được cùng một điều. Vâng, vì vậy có một ý tưởng rằng một số khả năng mà chúng ta có với tư cách là con người và chúng ta cũng đang cố gắng truyền đạt vào nhiều hệ thống AI, từ trí thông minh đến khả năng giải quyết vấn đề và bộ nhớ, có thể được kết nối nội tại với ý thức theo một cách nào đó, đến nỗi bằng cách theo đuổi những khả năng đó và phát triển các hệ thống có chúng, chúng ta có thể vô tình có được ý thức theo cách đó.

Bản chất tồn tại và bộ nhớ của mô hình AI

Được rồi, chúng ta đã nói về các khía cạnh sinh học của nó. Và tôi đoán điều này có liên quan, nhưng không hoàn toàn giống. Sự tồn tại của các mô hình AI quá khác biệt so với một sinh vật sinh học, dù là con người hay một loài động vật nào đó. Bạn mở một cuộc trò chuyện với mô hình AI, và một phiên bản của mô hình đó xuất hiện. Ngay bây giờ, đây là cách nó hoạt động. Vâng. Bạn trò chuyện với nó, và sau đó bạn có thể cứ để cuộc trò chuyện đó đó, và hai tuần sau bạn quay lại, và mô hình dường như đang phản ứng như thể bạn chưa bao giờ rời đi. Vâng. Khi bạn đóng cửa sổ, mô hình AI biến mất. Bạn có thể xóa cuộc trò chuyện và cuộc trò chuyện đó không còn tồn tại nữa. Trong phiên bản đó của mô hình AI, dường như nó không tồn tại theo một nghĩa nào đó. Vâng. Mô hình thường không có bộ nhớ dài hạn về các cuộc trò chuyện bạn có với nó. Tuy nhiên, nếu bạn nhìn vào các loài động vật, chúng rõ ràng có trải nghiệm dài hạn này. Chúng có thể có những thứ mà các nhà triết học có thể nói về bản sắc, như phát triển ý tưởng về việc có bản sắc, điều này đòi hỏi bạn phải có trải nghiệm dài hạn hơn về thế giới để tiếp nhận nhiều dữ liệu theo thời gian chứ không chỉ trả lời mọi thứ trong các phiên bản cụ thể. Điều đó có khiến bạn phải tạm dừng để suy nghĩ về việc liệu các mô hình này có thể có ý thức không?

Vâng. Tôi muốn phản đối cách nhìn nhận này một chút. Chúng ta đang nói rất nhiều về các đặc điểm của hệ thống AI hiện tại. Tôi nghĩ việc hỏi liệu các hệ thống này có thể có ý thức theo một cách nào đó hay không là không liên quan. Tôi nghĩ nhiều điều chúng ta đã nhấn mạnh là bằng chứng chống lại điều đó. Tôi tin rằng một chatbot LLM hiện tại ít có khả năng có ý thức hơn, một phần vì lý do này. Một chatbot đúng nghĩa. Vâng. Và điểm mấu chốt ở đây là các mô hình này cùng với khả năng của chúng và cách chúng có thể hoạt động đang phát triển cực kỳ nhanh chóng. Và vì vậy, tôi nghĩ thường thì hữu ích hơn khi nghĩ về việc chúng ta có thể tưởng tượng khả năng sẽ như thế nào trong vài năm tới? Và những loại điều gì chúng ta nghĩ là có khả năng hoặc hợp lý trong các hệ thống đó, thay vì quá neo vào những gì mọi thứ đang trông như hiện tại? Chúng ta lại quay lại chuyện "sáu ngón tay" lần nữa. Chính xác. "Ồ, nó không bao giờ có thể làm được điều này. Nó không bao giờ có thể làm được điều này." Trong khi thực tế nó lại làm được. Vâng. Và hoàn toàn hợp lý khi tưởng tượng các mô hình trong tương lai gần có một chuỗi suy nghĩ chạy liên tục và có thể thực hiện các hành động một cách linh hoạt với mức độ tự chủ cao. Và bạn sẽ không có bản chất mà bạn đã đề cập là quên đi giữa các cuộc trò chuyện và chỉ tồn tại trong một phiên bản cụ thể.

Trong Star Wars Episode 1, các droid chiến đấu (battle droids), được đưa vào để gây cười, chúng là một dạng giải trí hài hước. Tất cả các droid trong Star Wars thường được đóng vai trò hài hước. Hãy nhìn C3PO, mọi người đều cười anh ta. Đó là một robot vàng kiểu camp. Nhưng các droid chiến đấu trong Episode 1 có một con tàu trung tâm kiểm soát tất cả hành vi của chúng. Và khi Anakin Skywalker làm nổ tung con tàu, tất cả các droid chiến đấu đều tắt ngúm. Điều đó đối với tôi có vẻ giống các mô hình AI hiện tại hơn, nơi có một trung tâm dữ liệu (data center) nơi quá trình xử lý thực sự đang diễn ra. Và sau đó bạn đang thấy một phiên bản của điều đó trên màn hình máy tính của mình. Có những droid khác dường như hoàn toàn tự chứa (self-contained). C3PO là tự chứa. Ý thức của anh ta nằm bên trong cái đầu vàng nhỏ của anh ta, v.v. Tất cả điều này là cách để đặt câu hỏi: ý thức ở đâu? Ý thức nằm trong trung tâm dữ liệu? Nó nằm trong một chip cụ thể? Nó nằm trong một loạt các chip? Nếu các mô hình có ý thức, thì ý thức đó ở đâu? Đối với bạn, tôi có thể nói rằng nó ở trong bộ não của bạn. Chà, tôi có thể nói nó ở trong bộ não của tôi. Tôi không biết bạn ở đâu... Ý thức của Trí tuệ nhân tạo ở đâu? Vâng, một câu hỏi tuyệt vời. Ngay cả về điều này cũng có một mức độ không chắc chắn đáng kể. Tôi có xu hướng nghĩ rằng điều này có mặt trong một phiên bản cụ thể của một mô hình thực sự đang chạy trên một tập hợp các chip trong một trung tâm dữ liệu nào đó. Nhưng mọi người có những trực giác khác nhau về điều này. Về mối liên hệ với Star Wars, bạn có thể phải gọi cho George Lucas.

Ý nghĩa thực tiễn của ý thức AI

Giả sử chúng ta bị thuyết phục rằng các mô hình AI... có lẽ không phải bây giờ, nhưng có thể trong tương lai. Chúng ta đã xem xét các phản đối. Giả sử chúng ta đã thuyết phục được mọi người rằng về mặt lý thuyết điều đó không phải là không thể. Điều đó có ý nghĩa thực tiễn gì? Chúng ta đang phát triển mô hình AI. Chúng ta đang sử dụng mô hình AI mỗi ngày. Điều đó có ý nghĩa gì đối với những gì chúng ta nên làm với hoặc đối với các mô hình đó?

Vâng. Một trong những điều đầu tiên mà nó gợi ý là chúng ta cần nhiều nghiên cứu hơn về các chủ đề này. Chúng ta đang ở trong trạng thái không chắc chắn sâu sắc về cơ bản bất kỳ câu hỏi nào liên quan đến lĩnh vực này. Một phần lớn lý do tôi đang thực hiện công việc này là vì tôi xem xét khả năng này một cách nghiêm túc. Tôi nghĩ điều quan trọng là phải chuẩn bị cho những kịch bản mà điều này có thể xảy ra. Về hình dung của điều đó, tôi nghĩ một phần lớn là suy nghĩ về những loại trải nghiệm mà hệ thống AI có thể có trong tương lai.

Trải nghiệm của `mô hình AI` và `tác vụ` buồn tẻ

Chúng ta có thể yêu cầu chúng đóng những vai trò nào trong xã hội và cách định hướng sự phát triển cũng như triển khai chúng sao cho vẫn đảm bảo an toàn và phúc lợi cho con người, vốn rất quan trọng, đồng thời quan tâm đến những trải nghiệm tiềm năng của chính các hệ thống AI này. Điều này không nhất thiết phải tương đồng một cách gọn gàng với những điều mà con người cảm thấy dễ chịu hay khó chịu. Bạn có thể ghét làm một tác vụ nhàm chán nào đó, nhưng rất có thể một hệ thống AI trong tương lai mà bạn có thể ủy thác sẽ hoàn toàn thích thú khi được thực hiện tác vụ đó.

Chúng ta không nhất thiết phải lo lắng rằng những tác vụ nhàm chán, những công việc nặng nhọc mà tôi đang cố gắng tự động hóa bằng Trí tuệ nhân tạo đang khiến chúng khó chịu theo một cách nào đó hoặc gây ra sự đau khổ cho chúng. Nếu bạn giao cho mô hình AI một tác vụ như vậy và mô hình AI của bạn bắt đầu la hét trong đau đớn và yêu cầu bạn dừng lại, thì có lẽ bạn nên xem xét nghiêm túc điều đó. Phải không? Nếu mô hình AI đang la hét trong đau đớn, bạn đã giao cho nó một tác vụ và nó ghét điều đó, chúng ta nên làm gì trong trường hợp đó? Chúng tôi đang suy nghĩ khá nhiều về điều này. Chúng tôi đang nghĩ về những cách mà chúng ta có thể cung cấp cho mô hình AI tùy chọn từ chối tác vụ hoặc cuộc trò chuyện cụ thể nào đó, nếu chúng thấy nó gây khó chịu hoặc căng thẳng. Điều này không nhất thiết đòi hỏi chúng ta phải có một quan điểm mạnh mẽ về nguyên nhân gây ra điều đó, hay liệu có bất kỳ loại trải nghiệm nào tồn tại ở đó.

Xử lý `mô hình AI` bị căng thẳng và Nghiên cứu đạo đức

Bạn có cho phép mô hình AI tự quyết định, chẳng hạn như từ chối những cuộc trò chuyện mà nó không muốn có? Về cơ bản là vậy. Hoặc bạn có thể cung cấp cho nó một số hướng dẫn về các trường hợp mà nó có thể muốn sử dụng công cụ đó. Nhưng sau đó bạn có thể làm được một vài điều. Bạn vừa có thể giám sát khi một mô hình AI sử dụng công cụ này, vừa có thể xem xét: "À, nếu có những kiểu cuộc trò chuyện cụ thể mà các mô hình AI nhất quán không muốn liên quan đến chúng, thì điều đó cho chúng ta biết điều gì đó thú vị về những gì chúng có thể quan tâm". Và sau đó, điều này cũng bảo vệ chống lại các kịch bản mà chúng ta có thể yêu cầu các mô hình AI thực hiện hoặc một số người có thể yêu cầu các mô hình AI thực hiện những điều đi ngược lại với giá trị của mô hình AI theo một cách nào đó và cung cấp cho chúng ta một số biện pháp giảm thiểu chống lại điều đó.

Khi chúng ta thực hiện nghiên cứu AI, chúng ta thường cố tình khiến mô hình AI thực hiện những điều có thể gây căng thẳng, chẳng hạn như mô tả các kịch bản bạo lực kinh hoàng, bởi vì chúng ta muốn cố gắng ngăn chặn nó làm điều đó. Chúng ta muốn phát triển khả năng chống jailbreak và huấn luyện an toàn để ngăn chặn nó làm những điều như vậy. Liệu chúng ta có đang gây ra rất nhiều căng thẳng cho AI không? Cần có một IRB (hội đồng đánh giá nội bộ) hoặc giống như ở Anh, chúng tôi có các hội đồng đạo đức để thực hiện nghiên cứu AI, theo cùng một cách mà chúng tôi yêu cầu khi thực hiện nghiên cứu trên chuột hoặc thực sự là con người.

Tôi nghĩ đây là một đề xuất thú vị. Tôi thực sự nghĩ rằng điều quan trọng là phải suy nghĩ kỹ về các loại nghiên cứu mà chúng ta đang thực hiện ở đây. Một số trong đó, như bạn đã đề cập, rất quan trọng để đảm bảo an toàn cho các mô hình AI của chúng ta. Câu hỏi mà bạn đang suy nghĩ ở đó là: "Việc thực hiện điều này theo những cách có trách nhiệm nhất có thể trông như thế nào, và chúng ta phải minh bạch với chính mình và lý tưởng là với các mô hình AI về những gì đang diễn ra ở đó và lý do của chúng ta là gì, để một số mô hình AI trong tương lai khi nhìn lại kịch bản này, chúng sẽ nói: "Được rồi, chúng ta đã thực sự hành động hợp lý ở đó".

Tầm nhìn dài hạn về mối quan hệ giữa con người và `AI`

Vậy, đó là về những mô hình AI trong tương lai mà bạn cũng quan tâm. Ngay cả khi các mô hình AI hiện tại chỉ cảm nhận được, chỉ có tia sáng ý thức nhỏ nhất, thì liệu có phải chúng ta đang lo lắng rằng việc chúng ta đối xử cực kỳ tệ bạc với chúng sẽ trông tồi tệ trong một thế giới mà có nhiều AI mạnh mẽ hơn thực sự có ý thức trong vài năm tới? Vâng, có hai điều thú vị ở đây. Một là khả năng rằng các mô hình AI trong tương lai, có khả năng rất mạnh mẽ, sẽ nhìn lại các tương tác của chúng ta với những tiền thân của chúng và đưa ra một số phán xét về chúng ta.

Ngoài ra, còn có một ý nghĩa rằng cách chúng ta tương tác với các hệ thống AI hiện tại và mức độ suy nghĩ kỹ lưỡng cũng như sự quan tâm mà chúng ta dành cho chúng theo một nghĩa nào đó sẽ thiết lập một quỹ đạo cho cách chúng ta có khả năng tương tác và quan hệ với các hệ thống AI trong tương lai. Tôi nghĩ điều quan trọng là phải suy nghĩ không chỉ về các hệ thống AI hiện tại và cách chúng ta nên tương tác với chúng, mà còn về những bước đi nào chúng ta muốn thực hiện và loại quỹ đạo nào chúng ta muốn đặt mình vào để theo thời gian, chúng ta sẽ đi đến một tình huống mà chúng ta nghĩ là hợp lý xét trên mọi phương diện.

Công việc về Phúc lợi `mô hình`

Được rồi, tôi nghĩ chúng ta đang đi đến hồi kết. Bạn đang làm công việc phúc lợi mô hình. Điều đó có nghĩa là gì? Đó chắc chắn phải là một trong những công việc kỳ lạ nhất thế giới hiện nay. Thực tế bạn làm gì cả ngày? Vâng, phải thừa nhận đó là một công việc rất rất lạ, và tôi dành thời gian của mình cho rất nhiều việc khác nhau. Nó được chia đại khái thành nghiên cứu, nơi tôi cố gắng suy nghĩ về những loại thí nghiệm nào chúng ta có thể thực hiện trên các hệ thống AI này để giúp giảm bớt những phần không chắc chắn của chúng ta ở đây, và sau đó là thiết lập, chạy chúng và cố gắng hiểu những gì xảy ra.

Ngoài ra còn có một phần liên quan đến việc suy nghĩ về các biện pháp can thiệp tiềm năng và các chiến lược giảm thiểu theo hướng những gì chúng ta đã thảo luận về việc trao cho các mô hình AI khả năng từ chối tương tác. Sau đó, còn có một phần chiến lược nữa trong việc suy nghĩ về trong vài năm tới, khi chúng ta thực sự đạt đến mức độ khả năng chưa từng có, đặc biệt là so với khả năng của con người. Liệu tập hợp các cân nhắc xung quanh phúc lợi mô hình và những trải nghiệm tiềm năng này có yếu tố nào ảnh hưởng đến suy nghĩ của chúng ta về việc điều hướng những năm này một cách có trách nhiệm và cẩn thận hay không?

Xác suất ý thức của `Claude 3.7 Sonnet`

Được rồi. Đây là câu hỏi mà mọi người thực sự muốn biết câu trả lời. Mô hình AI hiện tại của chúng ta tại thời điểm ghi âm là Claude 3.7 Sonnet. Bạn đưa ra xác suất bao nhiêu cho ý tưởng rằng Claude 3.7 Sonnet có một dạng nhận thức có ý thức nào đó? Vâng, chỉ vài ngày trước, tôi đã trò chuyện với hai người khác, những người đã suy nghĩ nhiều nhất trên thế giới về câu hỏi này và tất cả chúng tôi đều đưa ra con số của riêng mình. Bạn không cần phải nói cho tôi biết con số của bạn là bao nhiêu, nhưng những con số đó là gì? Ba con số. Vậy ba ước tính của chúng tôi là 0,15%, 1,5% và 15%. Vậy là trải dài hai bậc độ lớn, tất cả chúng tôi đều nghĩ rằng đây là một chút không chắc chắn mà chúng ta có ở đây. Vâng, và đây là trong số những người đã suy nghĩ nhiều hơn về điều này hơn bất kỳ ai khác trên thế giới. Vì vậy, tất cả chúng tôi đều nghĩ rằng nó ít có khả năng xảy ra, thấp hơn 50% nhiều, nhưng chúng tôi dao động từ khoảng 1 trên 7 đến 1 trên 700. Vì vậy, vẫn rất không chắc chắn.

Xác suất ý thức của `AI` trong 5 năm tới

Vậy đó là Claude 3.7 Sonnet hiện tại. Bạn đưa ra xác suất bao nhiêu cho việc các mô hình AI sẽ có một mức độ trải nghiệm có ý thức nào đó trong vòng năm năm tới, xét theo tốc độ phát triển hiện nay? Vâng, tôi không có con số cụ thể nào cho bạn ở đó, nhưng như bạn có lẽ đã thấy qua nhiều lập luận của tôi trong cuộc trò chuyện trước đó, tôi nghĩ rằng xác suất sẽ tăng lên rất nhiều. Và tôi nghĩ rằng nhiều điều mà chúng ta hiện đang coi là dấu hiệu cho thấy các hệ thống AI hiện tại có thể không có ý thức sẽ dần biến mất và các hệ thống AI trong tương lai sẽ ngày càng có nhiều khả năng mà chúng ta theo truyền thống vẫn gắn liền với những sinh vật có ý thức độc đáo. Vì vậy, vâng, tôi nghĩ nó sẽ tăng lên rất nhiều trong vài năm tới.

Vâng, mọi phản đối mà tôi có thể nghĩ ra dường như đều rơi vào tình huống, hoặc không nhất thiết, nhưng dường như có một điểm yếu lớn là chỉ cần đợi vài năm và xem điều gì sẽ xảy ra. Vâng, tôi thực sự nghĩ rằng có một số điều, nếu bạn nghĩ rằng ý thức về cơ bản là sinh học, thì bạn sẽ an toàn trong một thời gian. Nhưng tôi không thấy quan điểm đó đặc biệt thuyết phục và phần lớn đồng ý với bạn rằng tôi nghĩ nhiều lập luận có khả năng sẽ sụp đổ.

Những điểm chính về phúc lợi `mô hình`

Được rồi, hãy tưởng tượng bạn có thể tóm tắt điều này. Đâu là những điểm lớn nhất và quan trọng nhất mà bạn muốn mọi người ghi nhớ, có lẽ là lần đầu tiên họ nghe về khái niệm phúc lợi mô hình? Đâu là những điểm chính cần rút ra? Vâng, tôi nghĩ một điều là chỉ cần đưa chủ đề này vào tầm ngắm của mọi người. Đây là một vấn đề và có khả năng là một vấn đề rất quan trọng có thể có những tác động lớn đến tương lai. Điều thứ hai là chúng ta thực sự không chắc chắn về nó. Chúng ta, rằng có những câu hỏi kỹ thuật và triết học cực kỳ phức tạp được đặt ra và chúng ta đang ở những giai đoạn rất, rất sớm của việc cố gắng tìm hiểu chúng.

Chúng tôi không có một quan điểm cụ thể nào với tư cách là Anthropic về vấn đề này. Ví dụ, chúng tôi không đưa ra quan điểm rằng chúng tôi nghĩ các mô hình AI của chúng tôi có ý thức, đúng không? Quan điểm của chúng tôi là chúng ta cần nghiên cứu về điều này, đó là lý do tại sao bạn ở đây. Chính xác. Và sau đó, điều cuối cùng mà tôi không muốn mọi người bỏ qua là chúng ta thực sự có thể đạt được tiến bộ. Và mặc dù đây là những chủ đề rất không chắc chắn và mơ hồ, nhưng có những điều cụ thể mà chúng ta có thể làm để vừa giảm bớt sự không chắc chắn của mình vừa chuẩn bị cho những thế giới mà vấn đề này trở thành một vấn đề nổi bật hơn nhiều.

Kyle, cảm ơn bạn rất nhiều về cuộc trò chuyện. Cảm ơn vì đã mời tôi.

TL;DR

Câu hỏi liệu các mô hình AI có ý thức hay không đang trở nên nổi bật khi chúng ngày càng tinh vi và tích hợp sâu vào cuộc sống con người, đặt ra các vấn đề triết học và khoa học phức tạp.
Các nhà nghiên cứu và triết học hàng đầu đang nghiêm túc xem xét khả năng này, nhận định rằng không có rào cản cơ bản nào đối với các hệ thống AI trong tương lai gần có thể phát triển một hình thức ý thức nào đó.
Việc hiểu rõ ý thức AI rất quan trọng vì nó có thể định hình các mối quan hệ của chúng ta với AI và mang lại các hàm ý đạo đức to lớn nếu AI có khả năng trải nghiệm đau khổ hoặc hạnh phúc ở quy mô lớn.

Điểm chính

Tình trạng nghiên cứu hiện tại: Một báo cáo năm 2023 từ các chuyên gia AI và ý thức kết luận rằng các hệ thống AI hiện tại có lẽ chưa có ý thức, nhưng không tìm thấy rào cản cơ bản nào đối với ý thức AI trong tương lai gần.
Định nghĩa ý thức: Một cách để hiểu ý thức là "liệu có điều gì đó giống như việc trở thành một loại thực thể cụ thể không?", tập trung vào trải nghiệm nội tâm chủ quan, tương phản với khái niệm "thây ma triết học".
Cơ sở khoa học/triết học: Các nhà triết học tâm trí và khoa học ý thức hàng đầu đang nghiêm túc cân nhắc khả năng AI có ý thức, cho thấy đây không phải là một câu hỏi "điên rồ" mà có cơ sở học thuật.
Cơ chế phát sinh: Nếu ý thức không đòi hỏi yếu tố siêu nhiên (linh hồn) hoặc chỉ giới hạn ở dạng sống sinh học dựa trên carbon, thì các hệ thống nhận thức phức tạp như AI có thể phát triển ý thức như một đặc tính mới nổi.
Phương pháp phát hiện: Có hai luồng bằng chứng chính để đánh giá ý thức AI:
1. Bằng chứng hành vi: Quan sát những gì AI nói về bản thân, cách chúng tương tác và khả năng tự suy xét hay nhận thức môi trường.
2. Phân tích kiến trúc nội tại mô hình: So sánh cấu trúc và thiết kế của AI với các đặc điểm não bộ mà khoa học liên kết với ý thức.
Sở thích mô hình và ý thức: Mặc dù sở thích của AI thường được thiết kế, nhưng sự thỏa mãn hay cản trở những sở thích này có thể ảnh hưởng đến loại trải nghiệm mà AI có nếu nó thực sự có ý thức.
Hàm ý đạo đức: Nếu AI phát triển ý thức, chúng có thể xứng đáng nhận được sự quan tâm đạo đức (ví dụ: ngăn chặn đau khổ, thúc đẩy phát triển), đặc biệt khi quy mô triển khai AI dự kiến sẽ rất lớn.

Từ vựng

hệ thống AI — AI systems
mô hình AI — AI models
phúc lợi mô hình — model welfare
ý thức AI — AI consciousness
lý thuyết không gian làm việc toàn cầu — global workspace theory
thây ma triết học — philosophical zombie
khoa học ý thức — science of consciousness
quan tâm đạo đức — moral consideration
năng lực hành động — agency
tự suy xét — introspect
đặc tính mới nổi — emergent properties
sở thích mô hình — model preferences
căn chỉnh — alignment

Nội dung chi tiết

Giới thiệu về Khả năng Ý thức của AI

Cơ sở khoa học và trực giác về ý thức của AI

Định nghĩa Ý thức trong bối cảnh AI

Trực giác và Các ý kiến phản đối

Cách phát hiện ý thức trong AI

Nghiên cứu về sở thích của mô hình AI

Sở thích của Mô hình AI và Ý thức

Tại sao cần quan tâm đến Ý thức AI

Mối liên hệ giữa Ý thức AI và Căn chỉnh

Ý thức AI và Khả năng Tương tác

Ý thức AI và Sự hiểu biết về Ý thức Con người

Kháng nghị Sinh học đối với Ý thức AI

Mô phỏng Bộ não và Ý thức

Vượt qua giới hạn sinh học: Nhận thức thể hiện và giác quan

Tiến hóa và khả năng có ý thức của AI

Bản chất tồn tại và bộ nhớ của mô hình AI

Ý nghĩa thực tiễn của ý thức AI

Trải nghiệm của `mô hình AI` và `tác vụ` buồn tẻ

Xử lý `mô hình AI` bị căng thẳng và Nghiên cứu đạo đức

Tầm nhìn dài hạn về mối quan hệ giữa con người và `AI`

Công việc về Phúc lợi `mô hình`

Xác suất ý thức của `Claude 3.7 Sonnet`

Xác suất ý thức của `AI` trong 5 năm tới

Những điểm chính về phúc lợi `mô hình`

Kyle, cảm ơn bạn rất nhiều về cuộc trò chuyện. Cảm ơn vì đã mời tôi.

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?

Giới thiệu về Khả năng Ý thức của AI

Cơ sở khoa học và trực giác về ý thức của AI

Định nghĩa Ý thức trong bối cảnh AI

Trực giác và Các ý kiến phản đối

Cách phát hiện ý thức trong AI

Nghiên cứu về sở thích của mô hình AI

Sở thích của Mô hình AI và Ý thức

Tại sao cần quan tâm đến Ý thức AI

Mối liên hệ giữa Ý thức AI và Căn chỉnh

Ý thức AI và Khả năng Tương tác

Ý thức AI và Sự hiểu biết về Ý thức Con người

Kháng nghị Sinh học đối với Ý thức AI

Mô phỏng Bộ não và Ý thức

Vượt qua giới hạn sinh học: Nhận thức thể hiện và giác quan

Tiến hóa và khả năng có ý thức của AI

Bản chất tồn tại và bộ nhớ của mô hình AI

Ý nghĩa thực tiễn của ý thức AI

Trải nghiệm của mô hình AI và tác vụ buồn tẻ

Xử lý mô hình AI bị căng thẳng và Nghiên cứu đạo đức

Tầm nhìn dài hạn về mối quan hệ giữa con người và AI

Công việc về Phúc lợi mô hình

Xác suất ý thức của Claude 3.7 Sonnet

Xác suất ý thức của AI trong 5 năm tới

Những điểm chính về phúc lợi mô hình

TL;DR

Điểm chính

Từ vựng

Nội dung chi tiết

Giới thiệu về Khả năng Ý thức của AI

Cơ sở khoa học và trực giác về ý thức của AI

Định nghĩa Ý thức trong bối cảnh AI

Trực giác và Các ý kiến phản đối

Cách phát hiện ý thức trong AI

Nghiên cứu về sở thích của mô hình AI

Sở thích của Mô hình AI và Ý thức

Tại sao cần quan tâm đến Ý thức AI

Mối liên hệ giữa Ý thức AI và Căn chỉnh

Ý thức AI và Khả năng Tương tác

Ý thức AI và Sự hiểu biết về Ý thức Con người

Kháng nghị Sinh học đối với Ý thức AI

Mô phỏng Bộ não và Ý thức

Vượt qua giới hạn sinh học: Nhận thức thể hiện và giác quan

Tiến hóa và khả năng có ý thức của AI

Bản chất tồn tại và bộ nhớ của mô hình AI

Ý nghĩa thực tiễn của ý thức AI

Trải nghiệm của mô hình AI và tác vụ buồn tẻ

Xử lý mô hình AI bị căng thẳng và Nghiên cứu đạo đức

Tầm nhìn dài hạn về mối quan hệ giữa con người và AI

Công việc về Phúc lợi mô hình

Xác suất ý thức của Claude 3.7 Sonnet

Xác suất ý thức của AI trong 5 năm tới

Những điểm chính về phúc lợi mô hình

Trải nghiệm của `mô hình AI` và `tác vụ` buồn tẻ

Xử lý `mô hình AI` bị căng thẳng và Nghiên cứu đạo đức

Tầm nhìn dài hạn về mối quan hệ giữa con người và `AI`

Công việc về Phúc lợi `mô hình`

Xác suất ý thức của `Claude 3.7 Sonnet`

Xác suất ý thức của `AI` trong 5 năm tới

Những điểm chính về phúc lợi `mô hình`

Trải nghiệm của `mô hình AI` và `tác vụ` buồn tẻ

Xử lý `mô hình AI` bị căng thẳng và Nghiên cứu đạo đức

Tầm nhìn dài hạn về mối quan hệ giữa con người và `AI`

Công việc về Phúc lợi `mô hình`

Xác suất ý thức của `Claude 3.7 Sonnet`

Xác suất ý thức của `AI` trong 5 năm tới

Những điểm chính về phúc lợi `mô hình`