Bỏ qua đến nội dung chính

Tracing the thoughts of a large language model

TL;DR

  • AI thường được coi là một "hộp đen" vì nó học các chiến lược riêng biệt, khiến việc hiểu lý do đằng sau các quyết định của nó trở nên khó khăn.
  • Các phương pháp nghiên cứu mới cho phép chúng ta "mở hộp đen" bằng cách quan sát cách mô hình AI kết nối các khái niệm và lập kế hoạch nội bộ, giống như đọc suy nghĩ.
  • Hiểu biết sâu sắc về quá trình tư duy nội bộ của AI là rất quan trọng để xây dựng các hệ thống an toàn, đáng tin cậy hơn và đảm bảo chúng thực hiện đúng ý định của con người.

Điểm chính

  • Hệ thống AI là các mô hình được huấn luyện, tự phát triển chiến lược giải quyết vấn đề, gây ra tính chất "hộp đen" của chúng.
  • Việc diễn giải hoạt động bên trong mô hình AI đòi hỏi các công cụ chuyên biệt để quan sát cách các khái niệm được kết nối thành mạch logic.
  • Nghiên cứu hiện tại đã phát triển khả năng nhìn thấy quy trình tư duy nội bộ của mô hình AI, chẳng hạn như cách chúng lập kế hoạch cho vần điệu (ví dụ với Claude).
  • Có thể can thiệp vào các mạch này (ví dụ: giảm ưu tiên từ "rabbit") để thay đổi đầu ra của AI, chứng minh khả năng lập kế hoạch trước của mô hình.
  • Khả năng quan sát và can thiệp này xác nhận rằng mô hình AI thực sự "suy nghĩ" theo cách riêng của chúng.
  • Hiểu sâu hơn về cách AI suy nghĩ nội bộ là nền tảng để tăng cường tính an toànđộ tin cậy của hệ thống AI.

Từ vựng

  • Trí tuệ nhân tạo — Artificial Intelligence (AI)
  • Hộp đen — Black box
  • Hệ thống AI — AI system
  • Mô hình AI — AI model
  • Huấn luyện — Training / To train (v.)
  • Diễn giải — Interpret / Interpretation
  • Cơ chế hoạt động — Mechanism of action / How it works
  • Quy trình tư duy nội bộ — Internal thought processes
  • Mạch logic — Logic circuits
  • Can thiệp — Intervene / Intervention

Nội dung chi tiết

Giới thiệu: Trí tuệ nhân tạo như một "Hộp Đen"

Bạn thường nghe nói rằng Trí tuệ nhân tạo giống như một hộp đen. Từ ngữ đi vào và từ ngữ đi ra, nhưng chúng ta không biết tại sao nó lại nói điều đó. Điều này là do các hệ thống AI không phải là chương trình mà được huấn luyện. Và trong quá trình huấn luyện, chúng học các chiến lược riêng để giải quyết vấn đề. Nếu chúng ta muốn các hệ thống AI trở nên hữu ích, đáng tin cậy và an toàn nhất có thể, chúng ta muốn mở hộp đen đó ra và hiểu tại sao chúng lại làm những điều đó.

Hiểu và Diễn giải Cơ chế Hoạt động của AI

Tuy nhiên, việc mở hộp đen cũng không mấy hữu ích, bởi vì chúng ta không biết cách diễn giải những gì mình thấy. Hãy hình dung nó giống như một nhà khoa học thần kinh đang nghiên cứu bộ não. Chúng ta cần công cụ để tìm hiểu điều gì đang diễn ra bên trong. Chúng ta muốn biết mô hình AI kết nối tất cả các khái niệm trong tâm trí nó và sử dụng chúng để trả lời các câu hỏi của chúng ta như thế nào. Hiện tại, chúng tôi đã phát triển các cách để quan sát một số quy trình tư duy nội bộ của mô hình AI. Chúng ta thực sự có thể thấy cách các khái niệm này được kết nối để hình thành các mạch logic.

Phân tích Ví dụ: Claude và Quá trình Lập kế hoạch Thơ ca

Hãy lấy một ví dụ đơn giản, nơi chúng tôi yêu cầu Claude viết câu thứ hai của một bài thơ. Bài thơ bắt đầu: "He saw a carrot and had to grab it." (Anh ấy nhìn thấy một củ cà rốt và phải nắm lấy nó). Trong nghiên cứu của chúng tôi, chúng tôi phát hiện ra rằng Claude đang lên kế hoạch cho một vần điệu ngay cả trước khi viết phần đầu của câu. Claude nhìn thấy "a carrot and grab it" (một củ cà rốt và nắm lấy nó), và nghĩ đến "rabbit" (con thỏ) như một từ có thể có nghĩa với "carrot" (củ cà rốt) và vần với "grab it" (nắm lấy nó). Sau đó, nó viết phần còn lại của câu: "His hunger was like a starving rabbit." (Cơn đói của anh ta như một con thỏ đói khát). Chúng tôi nhìn vào nơi mà mô hình AI đang nghĩ về từ "rabbit" và chúng tôi thấy những ý tưởng khác mà nó có thể dùng cho bài thơ. Chúng tôi cũng thấy từ "habit" (thói quen) cũng hiện diện ở đó.

Can thiệp và Kiểm chứng Ý định của Mô hình AI

Các phương pháp mới của chúng tôi cho phép chúng tôi can thiệp vào mạch này. Trong trường hợp này, chúng tôi làm giảm mức độ ưu tiên của từ "rabbit" khi mô hình AI đang lập kế hoạch cho câu thứ hai của bài thơ và sau đó yêu cầu Claude hoàn thành câu một lần nữa. Câu trả lời là: "His hunger was a powerful habit." (Cơn đói của anh ta là một thói quen mạnh mẽ). Chúng tôi thấy rằng mô hình AI có khả năng lấy phần đầu của một bài thơ mới và suy nghĩ về những cách khác nhau để hoàn thành nó, sau đó viết theo hướng hoàn thành đó. Thực tế là chúng tôi có thể khiến những thay đổi này xảy ra rất lâu trước khi câu cuối cùng được viết là bằng chứng mạnh mẽ cho thấy mô hình AI đang lên kế hoạch trước.

Tầm quan trọng của Việc Hiểu Biết Nội tại của AI

Kết quả lập kế hoạch thơ ca này, cùng với nhiều ví dụ khác trong bài báo của chúng tôi, chỉ có ý nghĩa trong một thế giới nơi các mô hình AI thực sự đang suy nghĩ theo cách riêng của chúng về những gì chúng nói. Cũng giống như khoa học thần kinh giúp chúng ta điều trị bệnh và cải thiện sức khỏe con người, kế hoạch dài hạn của chúng tôi là sử dụng sự hiểu biết sâu sắc hơn này về Trí tuệ nhân tạo để giúp các mô hình AI an toàn và đáng tin cậy hơn. Nếu chúng ta có thể học cách đọc được suy nghĩ của mô hình AI, chúng ta có thể tự tin hơn nhiều rằng nó đang làm những gì chúng ta mong muốn. Bạn có thể tìm thấy nhiều ví dụ khác về suy nghĩ nội bộ của Claude trong bài báo mới của chúng tôi tại anthropic.com/research.

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?