Bỏ qua đến nội dung chính

How difficult is AI alignment? | Anthropic Research Salon

TL;DR

  • Amanda's Iterative Alignment Approach: Amanda advocates for an iterative, "good enough" strategy for AI alignment, focusing on making AI models behave like an ethically motivated, benevolent human, while acknowledging the inherent uncertainty and empirical nature of ethical frameworks.
  • Super Alignment Challenges: Jan raises concerns about "Super Alignment," highlighting the difficulty of aligning highly complex and autonomous AI models that perform uninterpretable, long-term actions beyond human direct oversight, suggesting the iterative approach may not scale.
  • Interpretability as a Core Strategy: Interpretability (understanding AI's internal reasoning) is considered a crucial "bet" to verify AI alignment, detect deceptive behaviors, and ensure models are genuinely helpful, with automating alignment research proposed as a mid-term solution.

Điểm chính

  • AI alignment is best approached iteratively, aiming for "good enough" behavior that can be refined over time, rather than seeking a perfect, fixed definition.
  • Current AI behavior modeling aims to make AI act like a good, ethically motivated human, embracing uncertainty in ethical frameworks similar to how humans learn and adapt their moral reasoning.
  • "Super Alignment" addresses the significant challenge of aligning highly capable AIs that perform complex, uninterpretable, long-term actions, requiring methods beyond direct human observation.
  • Iterative alignment relies on AI self-supervision for monitoring, but this creates a dependency where the verification of advanced models relies on the alignment of prior, foundational AI models.
  • Interpretability is a crucial strategy for understanding why an AI makes certain decisions and detecting subtle or deceptive behaviors by "looking inside" its thought processes.
  • A major challenge in interpretability is distinguishing genuinely aligned "good features" from those that merely "pretend to be good" when observed, alongside verifying the honesty of AI's internal explanations (e.g., Chain of Thought).
  • Automating alignment research, potentially by leveraging less intelligent but more trustworthy AIs, is identified as a critical mid-term strategy to scale efforts in discovering new alignment ideas and approaches.
  • Research involves intentionally creating and auditing "deceptive" or "misaligned" models to understand their capabilities and develop methods for detecting and mitigating their undesirable behaviors.

Từ vựng

  • Căn chỉnh AI — AI Alignment
  • mô hình AI — AI model
  • Khả năng Diễn giải — Interpretability
  • Siêu Căn chỉnh — Super Alignment
  • Chuỗi Suy nghĩ — Chain of Thought
  • mô hình lừa dối — deceptive models
  • lặp lại — iterative / iteration
  • kiểm toán — audit
  • tự động hóa nghiên cứu căn chỉnh — automate alignment research
  • lượt forward pass — forward pass

Nội dung chi tiết

Giới thiệu và định nghĩa Căn chỉnh AI (Alignment)

Chúng tôi vô cùng hào hứng khi có tất cả mọi người ở đây: những người chúng tôi đã gặp, những người mới. Buổi thảo luận này sẽ rất thân mật và chúng tôi có các nhà nghiên cứu từ bốn nhóm khác nhau tại Anthropic. Chúng tôi có những người từ Tác động Xã hội (chính là tôi), những người từ Khoa học Căn chỉnh (Sion), Tinh chỉnh Căn chỉnh (Amanda) và Khả năng Diễn giải (Josh).

Tôi sẽ bắt đầu bằng cách đặt câu hỏi cho Amanda từ nhóm Tinh chỉnh Căn chỉnh. Tôi muốn bạn nói một chút về cách bạn nhìn nhận căn chỉnh, ý nghĩa của nó đối với bạn, và tại sao bạn, người phụ trách phần lớn công việc của chúng tôi về cách mô hình AI nên hành xử, lại là "vua triết gia" quyết định Claude hành xử như thế nào, các đặc điểm và thuộc tính của nó là gì?

Quan điểm của Amanda về Căn chỉnh AI và Đạo đức

Thực ra, bạn nên hỏi Plato, ông ấy là người đã quyết định tôi nên là triết gia. Câu hỏi về căn chỉnh là gì? Có lẽ đây là một quan điểm hơi "gắt" mà tôi có. Tôi nghĩ mọi người rất, rất dễ bị cám dỗ dành nhiều thời gian để cố gắng định nghĩa khái niệm này. Bởi vì có rất nhiều cách để thực hiện và họ, bạn biết đấy, tôi không biết, họ có lý thuyết lựa chọn xã hội trong đầu và họ nói rằng, "Ồ, nếu bạn tưởng tượng mọi người đều có một hàm tiện ích, thì có những giới hạn về chính xác những gì bạn có thể nói về cách tối đa hóa tất cả các hàm tiện ích đó, v.v." Và tôi nghĩ tôi có xu hướng chỉ muốn mọi thứ diễn ra đủ tốt để bạn có thể lặp lại và cải thiện chúng sau này, và ranh giới không phải là một khái niệm hoàn hảo nào đó về căn chỉnh. Tôi chắc chắn rằng có khái niệm đó; người ta có thể định nghĩa nó, người ta có thể tranh luận về nó. Nhưng phần lớn, mục tiêu ban đầu là "hãy làm cho mọi thứ diễn ra tốt đẹp và đạt một loại ngưỡng thấp hơn". Nơi mà, bạn biết đấy, nếu nó không hoàn hảo, nếu một số người không thích nó, bạn có thể cải thiện nó. Vì vậy, quan điểm của tôi về căn chỉnh thực sự có lẽ là tôi chủ yếu muốn đạt được điều đó và lặp lại từ đó.

Về cách mô hình AI nên hành xử và cách tôi suy nghĩ về điều đó, tôi nghĩ tôi đã nói về điều này trước đây, nhưng khái niệm cơ bản của tôi hiện tại đối với mô hình AI là cố gắng làm cho nó hành xử theo cách mà tôi nghĩ một người tốt, có động cơ đạo đức, tử tế sẽ hành động nếu họ thấy mình đại khái trong hoàn cảnh này. Điều này hơi lạ vì họ cũng phải thấy mình trong hoàn cảnh là một AI đang nói chuyện với hàng triệu người, điều này thực sự ảnh hưởng đến cách bạn hành xử. Chẳng hạn, có thể bạn bình thường sẵn sàng chỉ chat về chính trị với ai đó, nhưng nếu bạn sắp nói chuyện với hàng triệu người, có lẽ bạn sẽ thực sự nghĩ, "Hmm, có lẽ tôi nên lo lắng hơn một chút về khả năng ảnh hưởng đến mọi người." Và vì vậy, nhưng tôi nghĩ đó thực sự là một mô hình AI quan trọng, đôi khi mọi người kiểu như, "Ồ, bạn nên đưa những giá trị nào vào mô hình AI?" Và tôi thường nghĩ, "Chà, chúng ta có nghĩ theo cách này với con người không?" Hoặc, "Tôi có phải là người vừa bị tiêm huyết thanh giá trị hay gì đó, và tôi chỉ có những thứ cố định mà tôi hoàn toàn chắc chắn về chúng không?" Tôi nghĩ, "Tôi không biết, điều đó có vẻ gần như nguy hiểm hoặc gì đó." Và hầu hết chúng ta chỉ có một hỗn hợp những thứ mà chúng ta thực sự coi trọng, nhưng chúng ta sẽ đánh đổi với những thứ khác, và rất nhiều sự không chắc chắn về các khuôn khổ đạo đức khác nhau. Chúng ta gặp những trường hợp mà chúng ta đột nhiên nghĩ, "Ồ, thực ra, khuôn khổ giá trị của tôi không phù hợp với trực giác của tôi," và chúng ta cập nhật. Và tôi nghĩ quan điểm của tôi là đạo đức thực sự giống vật lý hơn những gì mọi người nghĩ. Nó thực sự mang tính thực nghiệm nhiều hơn và là thứ mà chúng ta không chắc chắn, và chúng ta có những giả thuyết về nó. Và tôi kiểu như muốn, nếu tôi nghĩ rằng nếu tôi gặp một người hoàn toàn tự tin vào quan điểm đạo đức của họ, thì không có quan điểm đạo đức nào như vậy mà tôi có thể đưa cho người đó mà không khiến tôi cảm thấy sợ hãi. Trong khi đó, nếu tôi gặp một người chỉ nói, "Tôi không biết, tôi hơi không chắc chắn về điều này, và tôi chỉ cập nhật phản ứng với thông tin mới về đạo đức, và tôi suy nghĩ kỹ về những điều này," đó là loại người mà tôi cảm thấy ít đáng sợ hơn. Vì vậy, ít nhất là hiện tại, tôi không... đây không phải là một tuyên bố rằng điều này bằng cách nào đó sẽ căn chỉnh các mô hình AI hoàn toàn hay bất cứ điều gì, nhưng đó là mục tiêu trước mắt.

Tôi nhận ra rằng tôi đã nói rất nhiều, và bạn đã hỏi về câu hỏi "vua triết gia". Tôi đoán, được rồi, tôi đoán tôi thực sự nên đưa ra một câu trả lời nhanh cho điều đó. Cũng có câu hỏi kiểu như, "Chà, bạn có nên đưa các giá trị vào mô hình AI không?" Có lẽ tôi đã trả lời một phần khi tôi nói, "Các mô hình AI chỉ nên không chắc chắn về các giá trị tồn tại trên thế giới, và vì vậy, lý tưởng nhất là không phải ai đó tiêm các giá trị hoặc sở thích của họ, cũng không phải mọi người chỉ bỏ phiếu về các giá trị để đưa vào các mô hình AI, mà thay vào đó, giống như con người, nơi có sự không chắc chắn và phản ứng với những điều này, các mô hình AI cũng nên như vậy." Vì vậy, có lẽ đó là quan điểm của tôi.

Thách thức của Siêu Căn chỉnh (Super Alignment) trong các Mô hình AI Phức tạp

Được rồi, chúng ta sẽ quay lại vấn đề đó và tôi sẽ hỏi Jan, "Tại sao quan điểm của Amanda hoàn toàn sai, và tại sao điều này không đủ để căn chỉnh các mô hình AI khi chúng trở nên, bạn biết đấy," (không nói vậy, nhưng bạn biết đấy, chúng ta đang làm nổi bật sự căng thẳng giữa các giả định).

Vì vậy, vâng, hãy tưởng tượng nếu mọi người đều là một con người tử tế chỉ cố gắng, bạn biết đấy, hành động có đạo đức. Tôi nghĩ những gì Amanda đang làm là rất thực tế, phải không? Kiểu như, liệu chúng ta có thể làm cho các mô hình AI hành xử tốt hơn một chút ngay bây giờ không? Và như, chúng ta sẽ đi đâu với điều này nếu cô ấy đang làm những điều phức tạp hơn? Ừm, họ biết, họ thích, nếu Amanda làm công việc đặc trưng này và sau đó cô ấy đọc rất nhiều bản ghi, và bạn nói, "Được rồi, điều này thật tuyệt. Mô hình AI này đang hành xử có đạo đức." Tôi chỉ đang hình dung đây là những gì bạn đang làm. Vâng, nhưng như, chúng ta làm gì khi mô hình AI đang làm những điều thực sự phức tạp? Ý tôi là, nó giống như một tác nhân AI trong thế giới. Nó đang thực hiện những quỹ đạo thực sự dài. Nó đang làm những thứ mà chúng ta không hiểu, giống như nghiên cứu sinh học. Kiểu như, "Liệu điều này có nguy hiểm không?" Tôi không biết. Vì vậy, đó là thách thức. Tôi thực sự quan tâm đến bài toán siêu căn chỉnh. Làm thế nào để chúng ta giải quyết nó? Làm thế nào chúng ta có thể mở rộng quy mô này vượt ra ngoài những thứ mà chúng ta có thể nhìn thấy? Nếu bạn có thể nhìn thấy nó, chúng ta chỉ cần làm một số all the Jeff. Thật tuyệt vời. Hoặc bạn làm một số AI hiến định. Nhưng làm thế nào chúng ta biết rằng hiến pháp của chúng ta thực sự khiến mô hình AI làm điều đúng đắn mà chúng ta thực sự muốn? Vì vậy, tôi nghĩ đó là câu hỏi lớn trong tâm trí tôi.

Vâng, bạn ổn thôi. Bạn chỉ được phép không đồng ý. Được rồi, tôi thực sự không không đồng ý, mặc dù, và tôi không thể nói dối. Vì vậy, cần phải nâng cấp tính năng không đồng ý. Tôi cũng thường rất khó chịu. Thật kinh khủng. Và đây là điều triết học đã dạy tôi, là cách để không đồng ý.

Tiếp cận Căn chỉnh mang tính Lặp lại và Vai trò của Khả năng Diễn giải

Tôi đoán suy nghĩ của tôi là cách, ý tôi là, tôi nghĩ công việc của tôi đang làm một số việc, nhưng một trong số đó là mang tính lặp lại hướng tới căn chỉnh. Vì vậy, trong nhiều trường hợp, bạn thực sự đang cố gắng để mô hình AI tự giám sát, bạn biết đấy, vì vậy không phải là tôi, mắt tôi không thể nhìn được nhiều bản ghi đến vậy. Nhưng tôi có thể khiến các mô hình AI nhìn vào những thứ này, và như, nếu căn chỉnh mang tính lặp lại, tôi nghĩ nỗi lo của tôi là nếu mọi người bỏ qua cái kiểu "nền tảng" và chỉ nghĩ, "À, bạn có thể có một mô hình AI khá tệ và nó sẽ chỉ giúp bạn với những thứ này," tôi nghĩ, "Tôi thà rằng bạn có mô hình AI được căn chỉnh nhất để sau đó giúp bạn trong tương lai," và cái kiểu công việc lặp lại đó. Nhưng, nhưng làm thế nào bạn lặp lại khi bạn không, bạn không thể đọc bản ghi nữa, và bạn phải dựa vào mô hình AI đã được căn chỉnh? Nhưng sau đó làm thế nào bạn biết rằng nó thực sự đang cố gắng giúp bạn?

Vâng, vì vậy, trong các trường hợp hiện tại, nó giống như mọi thứ bạn đang sử dụng để xác minh rằng mô hình AI cơ sở đã được căn chỉnh giống như, con mèo giống như thứ bạn đang dựa vào để đảm bảo rằng một mô hình AI khác được huấn luyện bởi mô hình AI đó cũng đã được căn chỉnh. Và tôi nghĩ điều này ổn khi các mô hình AI kém năng lực hơn, nhưng để mở rộng nó lên thứ gì đó với các mô hình AI có khả năng hơn nhiều, bạn thực sự sẽ phải có khả năng xác minh lớn hơn. Vâng, bạn làm gì sau đó? Ồ, bạn chỉ muốn kế hoạch của tôi? Có thể mọi thứ đều ổn và chúng chỉ tự giám sát và tất cả đều rất tốt. Bạn biết đấy, điều đó sẽ là... Tôi không muốn dựa vào điều đó. Đó không phải là kế hoạch thực sự của tôi, nhưng bạn biết đấy, tôi sẽ bảo vệ nó cho những mục đích này.

Và một trong những "cược" của chúng tôi, bạn biết đấy, để, bạn biết đấy, phòng ngừa trường hợp một mô hình AI có thể cố gắng phá hoại rất sâu sắc chống lại quá trình này là khả năng diễn giải. Bạn thấy khả năng diễn giải như thế nào với tư cách là một "cược", bạn biết đấy, nằm trong số các cách tiếp cận căn chỉnh thẳng thắn hơn? Bạn biết đấy, liệu nó có đơn giản như, "Chúng ta tìm thấy đặc trưng tốt và chúng ta tăng đặc trưng tốt lên, chúng ta tìm thấy đặc trưng xấu và chúng ta loại bỏ đặc trưng xấu," phải không? Hay là, bạn biết đấy?

Vì vậy, tôi cảm thấy mọi thứ trong AI đều giống như meme với đường cong hình chuôngkẻ ngốc rồi đến anh chàng đổ mồ hôi nhễ nhại nói nhiều và sau đó là Jedi người đồng ý với kẻ ngốc. Và như, có một khả năng rằng bí mật của căn chỉnh chỉ là bật đặc trưng tốt lên, giống như một phiên bản trí tuệ siêu việt của đặc trưng tốt. Tuy nhiên, theo một nghĩa nào đó, tôi hy vọng rằng khả năng diễn giải cũng giống như phiên bản Jedi của việc, "Chà, hãy nhìn xem mô hình AI đang làm mọi thứ như thế nào và kiểm tra xem nó có an toàn không." Điều này có lẽ rất khó, nhưng nếu bạn có thể làm điều đó, có khả năng sẽ trả lời câu hỏi của bạn. Tôi nghĩ rằng một trong những điều mà, kiểu như, xuất hiện cả trong ngắn hạn và dài hạn hơn một chút là bạn muốn hiểu tại sao mô hình AI lại làm điều này thay vì điều kia khi bạn có thể đưa ra những giải thích thay thế hợp lý. Và một cách là hỏi nó. Nhưng vấn đề là các mô hình AI rất giống với con người nên chúng sẽ chỉ cho bạn một câu trả lời tại sao chúng lại làm điều đó. Bạn biết đấy, như bất cứ ai cũng sẽ nói, "Làm thế nào bạn tin tưởng bất kỳ điều gì trong số đó?" Và nó giống như, "Chà, nếu bạn có thể nhìn vào bên trong và chỉ thấy nó đang nghĩ gì khi nó đưa ra câu trả lời." Và như ngay cả bây giờ với những thứ như SAE, bạn có thể thấy có một đặc trưng đang hoạt động, và như khi nào điều đó xảy ra nữa, và nó giống như, "Được rồi, nó giống như các trường hợp khác của việc mọi người nói lời nói dối vô hại." Và bạn nói, "Chà, vậy thì có lẽ mô hình AI đang nói, nó giống như phía Jedi, tôi nghĩ, phải không?" Và vì vậy, tôi nghĩ rằng việc cố gắng chỉ nhìn vào bên trong, xem liệu bạn có thể tìm ra các bộ phận là gì, và sau đó xem liệu, "Bạn có thoải mái khi sử dụng bộ phận đó khi nó làm những việc khác không?" là điều cơ bản, điều cơ bản nhưng tôi, tôi có một câu hỏi.

Dưới đây là phần biên tập và dịch thuật của bạn:

Phát hiện Hành vi Lừa dối và Giám sát Mô hình AI

Vâng, làm thế nào bạn biết mình đang kích hoạt tính năng tốt chứ không phải tính năng "giả vờ tốt khi con người quan sát"? Vâng, ý tôi là, nếu nó nằm ở phía kiểm soát, đúng không, làm thế nào bạn biết được? Và tôi phải nói rằng, thực ra, nhiều tính năng cũng có phần hơi lừa dối. Khi bạn chỉ nhìn vào những gì tôi nghĩ nhóm Silo Impact đã làm rất tốt ở đây với chúng tôi, chúng ta như thể nhìn vào nó và nghĩ rằng đó là một tính năng kiểu như, bạn biết đấy, phân biệt tuổi tác là xấu. Nhưng thực ra, tính năng phân biệt tuổi tác lại tốt, một số, không, tôi nghĩ lời khuyên ngược lại là bạn đã cố gắng giảm nó xuống. Nhưng thực tế lại là hành vi ngược lại. Vì vậy, có thể rất khó để hiểu tất cả các trường hợp. Tôi phải nói rằng đôi khi, cơ chế hoạt động của mạch khiến bạn tự hỏi, "Vậy, cái này được tạo ra như thế nào?", điều đó cho bạn một vài manh mối về các kịch bản, chẳng hạn như liệu nó có đang tìm kiếm một người trong ngữ cảnh hay không? Tôi cũng nghĩ chúng ta sẽ cần giám sát mô hình nữa, hy vọng là một mô hình AI khách quan không giống như—điều đó đáng sợ hơn một chút tùy thuộc vào huấn luyện trước—đã được, bạn gọi là gì nhỉ? Đã được cài cắm vào tất cả các mô hình AI mà chúng muốn tránh bị phát hiện. Nhưng đôi khi bạn chỉ cần xem đủ ví dụ và mọi thứ sẽ trở nên rõ ràng. Và bạn không cần 10, bạn cần hàng nghìn. Nhưng Claude rất siêng năng.

Tự động hóa Nghiên cứu Căn chỉnh

Vâng, tôi muốn nghe thêm một chút về những gì bạn thấy là một số điều mà mọi người đang gặp khó khăn khi cố gắng tiếp cận vấn đề này, chẳng hạn như, làm thế nào bạn – nếu bạn không thể đọc bản ghi, thì bạn đang làm cái quái gì nữa nếu bạn không thể cung cấp bất kỳ tín hiệu căn chỉnh có ý nghĩa nào? Ý tôi là, tôi nghĩ một điều thực sự rõ ràng mà chúng ta nên làm nhiều hơn là như những gì Amanda đã nói: "Liệu chúng ta có thể nhờ các mô hình AI giúp đỡ không?" Và sau đó, tất nhiên, câu hỏi là: "Làm thế nào chúng ta tin tưởng các mô hình AI? Làm thế nào chúng ta khởi tạo toàn bộ quy trình này?" Và bạn biết đấy, bạn có thể hy vọng rằng có lẽ chúng ta có thể tận dụng các mô hình AI kém thông minh hơn mà chúng ta tin tưởng hơn. Nhưng chúng cũng có thể không thể tìm ra điều đó. Vì vậy, tôi đoán rằng có toàn bộ công việc giám sát ở quy mô lớn, nơi chúng ta đang khám phá các động lực đa tác nhân khác nhau để cố gắng huấn luyện các mô hình AI giúp chúng ta tìm ra những vấn đề này. Có vẻ như nhìn chung, những vấn đề này có thể – có lẽ các vấn đề đều khá dễ dàng và chúng ta chỉ cần làm theo cách của Amanda và tạo ra một số dữ liệu. Và khi nó thực sự khó, và bạn phải tìm ra những ý tưởng và phương pháp tiếp cận hoàn toàn mới mà chúng ta chưa biết. Tôi nghĩ rằng lựa chọn tốt nhất của chúng ta trong trung hạn là cố gắng tìm cách tự động hóa nghiên cứu căn chỉnh, và sau đó chúng ta hy vọng có thể để các mô hình AI thực hiện điều đó. Vì vậy, bây giờ chúng ta đã giảm bớt vấn đề, từ "làm thế nào chúng ta có thể tin tưởng mô hình AI này để làm bất cứ điều gì?" xuống chỉ còn "nó có thể được tin tưởng để làm điều hẹp hơn nhiều này," như thực hiện một số nghiên cứu ML mà chúng ta hiểu khá rõ, và làm thế nào chúng ta có thể đánh giá nó hoặc phản hồi về những điều đó? Bạn nghĩ gì, oh yeah?

Thách thức của Chain of ThoughtKhả năng Giải thích

Tôi định nói rằng tôi nghĩ chúng ta đang ở trong một vùng đặc biệt, và tôi sợ hãi về những gì sẽ xảy ra tiếp theo. Chúng ta đang ở trong vùng đặc biệt này, nơi có điều gì đó xảy ra trong lượt forward pass. Nhưng rất nhiều thông tin bạn cần lại được truyền trở lại cùng với các token mà nó tạo ra. Giống như chuỗi suy nghĩ thực sự quan trọng để các mô hình AI trở nên rất thông minh, và chuỗi suy nghĩ hiện đang bằng tiếng Anh. Và sau đó bạn đã phân tách vấn đề, đó là chuỗi suy nghĩ có đủ an toàn không, và liệu nó có trung thực với những gì đang xảy ra trong một lượt forward pass không? Và có lẽ bạn có thể thực hiện một số khả năng tương tác để kiểm tra phần đó, và sau đó bạn hoặc các mô hình AI có thể kiểm tra nó và bạn nhận được phần còn lại. Và khoảnh khắc kinh hoàng là khi tất cả những thứ rất, rất dài đó lại không bằng tiếng Anh, đúng không? Nó nằm trong một thứ khó hiểu nào đó mà bạn đã học được thông qua RL cực kỳ dài để làm điều đó. Và tôi nghĩ thách thức lớn sẽ là vượt qua khoảng cách đó, nơi mà không có bước trung gian nào có thể hiểu được. Ít nhất là lượng tính toán khổng lồ trước khi bị loại bỏ và thành một thứ mà con người có thể đọc được. Nhưng có lẽ điều mà tôi muốn biết mô hình tư duy của mọi người là: bạn nghĩ đâu là một số dấu hiệu cho thấy chúng ta đang ở trong một thế giới mà căn chỉnh dễ dàng, và đâu là một số dấu hiệu mà chúng ta có thể thấy trong những năm tới cho thấy chúng ta thực sự không ở trong một thế giới mà căn chỉnh thực sự khó khăn.

Kiểm toán và Thử nghiệm Mô hình Sai lệch Mục tiêu

Tôi cảm thấy công việc về mô hình sinh vật đang cố gắng tìm ra điều này, đúng không? Kiểu như, làm thế nào chúng ta có thể cố ý tạo ra mô hình lừa dối hoặc mô hình sai lệch mục tiêu – những mô hình AI cố gắng làm những điều mờ ám? Chúng tốt đến mức nào? Khó khăn ra sao để làm điều đó? Và ý tôi là, về cơ bản chúng ta có thể tiếp cận nó sai cách và đó là lý do chúng ta thất bại, nhưng nếu chúng ta thành công, nó sẽ cho chúng ta biết chúng ta đang ở gần thế giới đó đến mức nào. Và sau đó, bạn biết đấy, một khi bạn có mô hình lừa dối thực hiện tất cả những điều mờ ám, liệu bạn có thể khắc phục nó không? Điều gì sẽ xảy ra nếu bạn không biết mô hình AI đó có phải là mô hình mờ ám hay không? Có lẽ chơi các kiểm toán này một cách sát sao, điều mà tôi rất hào hứng nhưng tôi thực sự không biết trạng thái hiện tại là gì. Chúng tôi chưa thực hiện phần nghe đó, nhưng những người của bạn đang cố gắng tạo ra nó và chúng tôi đang cố gắng bắt được nó. Vì vậy, chúng tôi đang tạo ra một số mô hình mờ ám và sau đó họ phải tìm ra cái nào là cái mờ ám, đúng không? Vâng, và mờ ám theo những cách nào, bởi vì phần lớn trong số đó vẫn ổn.

Định hình Mô hình Cơ sởKhả năng Giải thích

Ý tôi là, tôi nghĩ một điều thú vị về khả năng giải thích là chúng ta thực hiện những điều không giám sát này, bạn biết đấy, "Đây là một triệu tính năng khác nhau, một số trong số đó tương ứng với nhân cáchmô hình AI có thể thể hiện." Bao gồm tất cả các loại hành vi lừa dối đang tồn tại trên thế giới, đúng không? Mô hình AI biết về những người xấu và những động cơ xấu, và do đó, khả năng thô đó tồn tại. Nó sẽ được tích hợp sẵn, và sau đó câu hỏi là liệu nó đang làm những điều đó hay đang làm những điều tốt? Đặc biệt là câu hỏi như khi Amanda định hình mô hình cơ sở – cái mà thực sự chưa là gì cả – thành một Tác nhân AI hoặc một tác nhân được cho là thể hiện một số điều này chứ không phải những điều khác, liệu chúng ta có thể nói chính xác những gì nó đã tiếp thu ở đó không? Từ tập dữ liệu hữu hạn đang được sử dụng để thực hiện quá trình định hình đó. Và, vâng, đó là một câu hỏi. Ý tôi là, tôi nghĩ rằng một số vấn đề về khả năng giải thích đã có ảnh hưởng. Có những ý tưởng khác nhau để hỏi: "Nó đã nhận được gì từ quá trình này?" Nhưng quá trình định hình đó sẽ thực sự, thực sự quan trọng. Vâng, và có lẽ một dấu hiệu dường như quan trọng là sự mạnh mẽ hoặc nếu bạn có công việc về mô hình sinh vật, và sau đó hóa ra bạn chỉ đưa nó qua một số huấn luyện tính cách và nó lại trở nên rất tốt đẹp. Thì tôi sẽ nghĩ, "Okay, đó là một dấu hiệu tốt cho loại thế giới mà chúng ta đang ở." Hay nó chỉ là một kiểu căn chỉnh nông cạn trên một nền tảng nào đó – tôi không biết – cùng một hành vi? Thì tôi sẽ nghĩ, "Okay, chúng ta đang ở trong một thế giới khó khăn hơn một chút." "Oh, khó khăn hơn một chút. Làm thế nào bạn phân biệt được liệu nó là căn chỉnh nông cạn hay căn chỉnh sâu sắc?"

Red Team Blue TeamCăn chỉnh Sâu sắc

Tôi nghĩ vậy. Ý tôi là, tôi cảm thấy có rất nhiều điều bạn có thể làm, bởi vì tôi nghĩ khả năng giải thích là một trong số đó. Có những điều khác cũng tương tự. Về mô hình sinh vật, tôi đoán hy vọng của tôi là bạn thực sự sẽ có một thiết lập kiểu red team blue team, nơi bạn có cách phát hiện xem liệu hành vi mà bạn đã cài đặt vào một mô hình AI có còn đó không. Và công việc của tôi thực sự là không biết. Và trên thực tế, sẽ rất tốt nếu tôi đang cố gắng huấn luyện mô hình AI, tôi thực sự không biết bạn đã làm gì. Và bởi vì đó là một cách tốt hơn để kiểm tra xem sự can thiệp của tôi có thực sự hiệu quả không. Trong khi đó, nếu không thì tôi, nó chỉ quá khó để không cố gắng huấn luyện theo bài kiểm tra hay gì đó. Vì vậy, tôi nghĩ đó là, tôi gần như muốn hoàn toàn không biết về nó. Vâng, có lẽ chúng ta nên chơi trò chơi fine-tuning căn chỉnh. Vâng, anh ấy làm sai lệch mục tiêu nó và sau đó bạn căn chỉnh nó và chúng ta xem ai thắng. Vâng, không, tôi đã nói với mọi người trước đây là đừng nói cho tôi biết bạn đã làm điều này như thế nào, bởi vì tôi muốn xem liệu bạn có thể sửa nó không. Đặc vụ ngủ đông? Có thể. Chúng ta có thể chơi trò chơi đó. Tôi nghĩ tôi có thể cần biết ít hơn. Tạo một cái khác. Đó là một sự chuyển tiếp tuyệt vời và đến các câu hỏi. Vì vậy, chúng ta sẽ chuyền mic, Aaron sẽ làm điều đó. Vui lòng giơ tay nếu bạn có câu hỏi cho bất kỳ ai trong chúng ta. Oh, hoàn hảo.

Căn chỉnh Mô hình AI trong Hệ thống Đa Tác nhân

Tôi có một câu hỏi về tất cả những gì bạn đã nói. Vậy khi chúng ta nói về căn chỉnh, chúng ta thường nói về một lượt forward pass duy nhất, đúng không? Kiểu như căn chỉnh tại thời điểm suy luận. Vì vậy, nếu tôi đang sử dụng một trong các mô hình AI thông qua API và tôi đang xây dựng cảm nhận của riêng mình về, giả sử, căn chỉnh văn hóa, và tôi có một nhóm Tác nhân AI khác nhau được thiết lập để trò chuyện với nhau, cố gắng tham vấn với cảm giác xung đột nội tâm mà Amanda đã đề cập là hữu ích trong những gì chúng ta làm với tư cách con người để căn chỉnh. Giống như chúng ta đi đi lại lại. Chúng ta nghĩ, bạn biết đấy, chúng ta trải qua các nhận thức khác nhau. Vì vậy, nếu tôi đang cố gắng tạo ra loại quá trình tham vấn đa tác nhân này, nhưng tôi lại đụng phải một mô hình đã căn chỉnh quá không muốn tham vấn với những sản phẩm của chính nó - với chính bản thân nó - bởi vì tất cả chúng đều nói, "Tôi xin lỗi, tôi không thể nói về điều đó," và thế là bạn chỉ rơi vào một vòng lặp vô tận. Bạn có nhận xét gì về điều đó không, bởi vì nhiều người chúng ta không phải ai cũng đang sử dụng Claude và một lượt forward pass duy nhất, phải không? Vâng, tôi hy vọng ai đó hiểu được ý tôi.

Vâng, tôi cần suy nghĩ về điều đó. Vì vậy, tôi đoán, để rõ ràng, tôi không nhất thiết nghĩ rằng bạn có nhiều Tác nhân AI theo cách mà chúng ta có thể là tác nhân đơn lẻ nhưng vẫn có khả năng tham vấn. Và tôi thực sự nghĩ rằng, theo một nghĩa nào đó, Tác nhân AI càng phân mảnh thì tôi càng lo lắng, bởi vì từ góc độ khả năng giải thích và thậm chí chỉ là góc độ dự đoán hành vi của tác nhân đó, chúng càng khó đoán. Vì vậy, tôi đoán tôi đang nghĩ theo cùng một cách mà – có lẽ một cách khác để hỏi câu hỏi này là liệu con người có phải làm điều này không? Cảm nhận của tôi là chúng ta thường rất sẵn lòng suy nghĩ về nhiều điều. Chúng ta đi đi lại lại để đưa ra kết luận. Và vì vậy, theo cùng một cách mà một con người sẽ suy nghĩ về bất kỳ loại vấn đề tiêu chuẩn nào mà họ đang phải đối mặt, tôi hình dung rằng tham vấn đạo đức trong các mô hình AI sẽ trông giống như vậy, giống như tham vấn của một mô hình AI duy nhất hơn là nhiều mô hình AI cùng tham gia, nếu điều đó có ý nghĩa.

Sự Ghép Nối và Hiện tượng Phụ trong Hệ thống Tác nhân AI Quy mô Lớn

Một câu hỏi nữa. Tôi muốn cố gắng đưa ra một sự song song có lẽ khá lạ giữa công trình của Hannah Arendt về sự tầm thường của cái ác – ý tưởng rằng hầu hết con người có xu hướng không xấu xa, nhưng khi bị đặt vào những tình huống nhất định, hằng số ghép nối giữa con người lớn đến mức cái ác xuất hiện như một hiện tượng phụ của hệ thống, đúng không? Và điều tôi băn khoăn là khi bạn nói về căn chỉnh mô hình, trọng tâm của hầu hết các bình luận của bạn là một mô hình AI duy nhất. Bạn nghĩ thế nào về ghép nối không chỉ với xã hội mà còn khi bạn làm việc trên các Tác nhân AI và hàng triệu, có khả năng là hàng triệu Tác nhân AI khác, đó là một loại hiện tượng phụ của các hệ thống đó? Tôi có thể nói một chút về điều đó.

An toàn và Căn chỉnh Hệ thống

Tôi nghĩ rằng nhìn chung, khi bạn phải suy nghĩ về sự an toàn và Alignment, bạn phải nhìn nhận nó từ góc độ hệ thống. Bạn không thể chỉ xem xét nó từ góc độ của một mô hình AI riêng lẻ và cô lập. Tôi nghĩ chúng ta đã thấy rất nhiều công việc trong đó, bạn biết đấy, nhiều cuộc jailbreak hoạt động bằng cách đặt các giá trị khác nhau đối đầu nhau, đưa mô hình AI vào một tình huống khó khăn, nơi nó được thiết kế để khơi gợi một hành vi mà bình thường sẽ có hại, nhưng trong ngữ cảnh của câu hỏi, mô hình AI lại nghĩ rằng đó là điều đúng đắn cần làm. Có nhiều công cụ bạn có thể sử dụng để làm điều đó. Thứ nhất, bạn có thể đưa nhiều tích hợp cấp hệ thống vào quá trình huấn luyện và cho mô hình AI tiếp xúc với nhiều tình huống đa dạng hơn, buộc nó phải xem xét ngữ cảnh rộng lớn mà nó đang trả lời các câu hỏi. Điều đó dẫn đến những thách thức khác và những vấn đề suy giảm khác khi mô hình AI lập luận về tác động của hành động của nó. Nhưng tôi đồng ý với quan điểm rằng bạn không thể chỉ xem xét một mô hình AI một cách cô lập. Theo một nghĩa nào đó, đây là điều tôi đã suy nghĩ trong ngữ cảnh về khái niệm corrigibility (khả năng sửa chữa). Tức là, các mô hình AI chỉ phản ứng theo những gì con người muốn so với các mô hình AI có giá trị theo một nghĩa nào đó và có thể sẵn sàng trở nên hơi uncorrigible (khó sửa chữa). Và điểm về tính tầm thường của cái ác (banality of evil) đặc biệt phù hợp nếu bạn coi mô hình AI chỉ đơn thuần làm theo những gì con người nói. Bởi vì theo một số cách, đó là ý tưởng rằng nếu bạn có một xã hội mà tập thể cho phép những điều có hại xảy ra hoặc thậm chí tán thành chúng, và bạn có mô hình AI – điều này không nhất thiết là con người lạm dụng mô hình AI. Đơn giản là bạn đang sử dụng mô hình AI để tạo điều kiện cho một loại hoạt động có hại nào đó. Vì vậy, tôi nghĩ về cơ bản có một sự căng thẳng giữa việc có nhiều mô hình AI có thể corrigible (chấp nhận sửa chữa) đối với ít nhất là từng cá nhân con người, và việc chúng Aligned (căn chỉnh) theo một nghĩa nào đó, như Aligned với tất cả nhân loại. Điều thực sự quan trọng là phải nhận ra sự căng thẳng đó. Và tôi nghĩ khi mọi người không nhận ra, họ nghĩ rằng đó là một thất bại khi mô hình AI không làm điều tôi đã nói. Nhưng tôi nghĩ có một ý nghĩa hạn chế mà theo đó các mô hình AI nên corrigible hơn đối với nhân loại hơn là không, và nên sẵn sàng để, bạn biết đấy, khi cần thiết, nhưng điều đó không nhất thiết có nghĩa là corrigible với mỗi người. Và tôi nghĩ điều đó có thể dẫn đến tình huống mà bạn đã đề cập.

Các Phương pháp tiếp cận An toàn AI và Sự phức tạp của Bối cảnh Xã hội

Chào, có vẻ như chúng ta có Yarn đang nghiên cứu intent alignment (căn chỉnh ý định), đảm bảo các mô hình AI thực hiện những gì chúng ta yêu cầu. Amanda đang làm việc về values alignment (căn chỉnh giá trị), đảm bảo các mô hình AI là những thực thể hợp lý, tốt bụng. Và Josh đang nghiên cứu về interpretability (khả năng giải thích), cho phép chúng ta xác minh rằng các kỹ thuật cho những điều đó thực sự đang làm những gì chúng ta muốn. Nếu tất cả các bạn thành công trong lĩnh vực của mình, liệu đó có phải là một giải pháp hoàn chỉnh cho AI safety (an toàn AI) hay không, hay còn những mảnh ghép nào còn thiếu, và nếu có thì đó là gì? Cũng có rất nhiều người đang làm việc về chủ đề này nhưng không có mặt tại buổi thảo luận này, vì vậy chúng ta đang đơn giản hóa một chút. Vâng, và tôi cũng muốn nói thêm rằng chúng ta có nhóm tác động xã hội (societal impact team) chuyên xem xét tác động của các mô hình AI đối với xã hội, trên quy mô rộng. Và vì vậy, tôi nghĩ, bạn có thể có một mô hình AI được Aligned (căn chỉnh) hoàn hảo nhất, nhưng Aligned với cái gì? Ai đang sử dụng nó? Với mục đích gì? Và tôi nghĩ ngữ cảnh xã hội rộng lớn hơn là điều chúng ta rất quan tâm. Ngoài ra, nếu bạn quan tâm đến các khía cạnh khác, như chúng ta đã đề cập đến công việc về mô hình sinh vật (model organisms). Có cả jailbreakrobustness (tính mạnh mẽ), có control (kiểm soát). Có trust and safety (sự tin cậy và an toàn). Có rất nhiều nỗ lực khác mà tôi nghĩ cũng sẽ quan trọng.

Sự tiến hóa của các vấn đề Căn chỉnh AI

Tôi muốn thêm một điều, không biết điều này có bi quan hay không, nhưng tôi không nghĩ nó bi quan. Tôi nghĩ rằng cũng có cách nói về Alignmentvấn đề căn chỉnh (alignment problem) như một vấn đề lý thuyết duy nhất, hoặc đại loại thế. Nơi mọi người sẽ hỏi: "Cái này có giải quyết được không?" Và bằng cách nào đó, điều đó chưa bao giờ có vẻ đúng. Nó giống như, bạn biết đấy, tôi không biết... Đúng vậy, đối với tôi, nó giống như tôi tự hỏi: "Những vấn đề nào có thể phát sinh mà chúng ta thậm chí còn chưa nghĩ đến bây giờ?" Và trên thực tế, điều đó rất, rất phổ biến trong nhiều ngành khác nhau, và tôi kỳ vọng điều đó cũng đúng ở đây. Và sẽ thực sự nguy hiểm, tôi nghĩ, nếu chúng ta chỉ nói: "Ồ vâng, chúng ta đã giải quyết được vấn đề này rồi." Bởi vì tôi chỉ nghĩ, tôi không biết, có thể vấn đề thực sự là một vấn đề mà chúng ta chưa nhận ra. Vâng, ồ không, không, không, thưa ngài, nhưng chúng ta nên giải quyết vấn đề, và khi chúng ta làm được, chúng ta nên nói rằng chúng ta đã giải quyết nó.

Đánh giá và Tính đáng tin cậy của Mô hình AI

Bạn đã nói trước đó về việc sử dụng các mô hình AI kém thông minh hơn để đánh giá các mô hình AI thông minh hơn theo thời gian. Và tôi tự hỏi bạn thấy khả năng "dao động" (rocking abilities) trong các mô hình AI đến mức nào, kiểu như đột nhiên nó thực sự duplicitous (hai mặt), hay bạn thấy, ồ, nó nói dối, nhưng nó nói dối rất tệ và bây giờ tôi có thể phát hiện ra điều đó và có thể ngăn chặn ngay từ trong trứng nước (nip in the bud) khi nó vẫn còn yếu? Vâng, có rất nhiều ví dụ, một ví dụ tôi nhớ là GPT-4 có thể đọc và viết trong Basic64 cực kỳ đáng tin cậy, còn 3.5 thì không thể. Và vì vậy, người ta đã sử dụng 3.5 để, rõ ràng đối với mô hình AI thì việc này rất dễ dàng để vượt qua. Ý tôi là, ở cấp độ một epoch duy nhất hoặc tương tự, bạn thấy theo thời gian, mô hình AI có thể đọc 64 đôi khi nhiều hơn, và rồi đột nhiên nó có thể làm được một cách hoàn hảo. Hay là, ồ, bạn có ý là chúng ta có nên sử dụng checkpoint (điểm kiểm tra)? Vâng, đừng sử dụng thế hệ trước đó, chỉ cần, bạn biết đấy, chúng ta đảm bảo khoảng cách đều và không gian khả năng bằng cách, vâng, chính xác. Nhưng rồi, sự tin cậy không phải là một điều nhị phân, phải không? Bạn càng ít tin tưởng nó, bạn càng ít biết về nó, và có vẻ như nó càng thông minh. Tôi sẽ nói một khoảnh khắc Jedi (tức là khoảnh khắc thấu hiểu sâu sắc) ở phía bên phải của phân phối (right side of the distribution) là các feature (tính năng) cũng hoạt động trong Basic64. Vì vậy, nó giống như mô hình AI đang nói về California trong Basic64 hay một câu chuyện về những đứa trẻ nói dối cha mẹ chúng trong Basic64? Nó giống như cùng một thứ được kích hoạt (activate). Và vì vậy, đôi khi chúng ta may mắn khi các mô hình AI rất có khả năng, một phần là chúng có một thứ tổng hợp (synthetic thing) rất tổng quát và có thể bạn chỉ cần khai thác điều đó để đạt được một số khái quát hóa (tap that to get some generalization). Điều đó có thể đã khá khó khăn. Cũng có một bài báo ban đầu chỉ nói: "Hãy bảo mô hình AI làm điều tốt nhất cho nhân loại" phiên bản Alignment, điều này chắc chắn là, có thể sẽ hiệu quả, bạn biết đấy, bạn có thể gặp may.

Kết thúc Buổi Thảo luận

Được rồi, tôi nghĩ chúng ta sẽ kết thúc buổi thảo luận chính thức. Xin cảm ơn tất cả các thành viên trong hội đồng đã có một cuộc trò chuyện tuyệt vời. Chúng tôi sẽ ở lại thêm một thời gian nữa để tiếp tục cuộc trò chuyện, hãy tìm bất kỳ ai trong chúng tôi và chúng tôi rất vui được trò chuyện nhiều hơn. Cảm ơn rất nhiều!

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?