Interpretability: Understanding how AI models think

Mô hình ngôn ngữ lớn (LLM) không chỉ đơn thuần dự đoán từ tiếp theo; chúng phát triển các mục tiêu trung gian và sự trừu tượng hóa nội bộ phức tạp, khiến cách thức hoạt động của chúng trở nên bí ẩn ngay cả đối với các nhà phát triển.
"Khả năng diễn giải" (Interpretability) là một lĩnh vực nghiên cứu nhằm "mở" LLM, khám phá các quá trình nội bộ để hiểu cách chúng đưa ra quyết định và phản hồi, tương tự như khoa học thần kinh đối với bộ não con người.
LLM học cách hình thành các mạch tính toán tổng quát thông qua quá trình huấn luyện tự tiến hóa, cho phép chúng thực hiện các tác vụ phức tạp như phép toán hoặc hiểu ngữ cảnh, thay vì chỉ ghi nhớ dữ liệu huấn luyện.

Mô hình ngôn ngữ lớn (LLM) — Large Language Model (LLM)
Khả năng diễn giải — Interpretability
Huấn luyện mô hình — Model training
Sự trừu tượng hóa — Abstraction
Khái niệm nội bộ — Internal concept
Tính toán tổng quát — General computation
Hiểu biết theo ngữ cảnh — Contextual understanding
Mạch tính toán — Computational circuit
Tự động hoàn thành — Autocomplete
Khoa học thần kinh AI — AI neuroscience

Bản Chất Của Mô Hình Ngôn Ngữ Lớn

Một mô hình AI không nhất thiết tự xem mình là đang cố gắng dự đoán từ tiếp theo. Bên trong, nó có thể đã phát triển tất cả các loại mục tiêu trung gian và sự trừu tượng hóa giúp nó đạt được mục tiêu siêu cấp đó. Khi bạn trò chuyện với một Mô hình ngôn ngữ lớn (LLM), bạn thực sự đang trò chuyện với điều gì? Bạn đang trò chuyện với một công cụ tự động hoàn thành được cường điệu hóa? Bạn đang trò chuyện với một công cụ tìm kiếm trên internet? Hay bạn đang trò chuyện với một thứ thực sự đang suy nghĩ? Và thậm chí có thể suy nghĩ như một con người? Hóa ra, một cách đáng lo ngại, không ai thực sự biết câu trả lời cho những câu hỏi đó. Và tại Anthropic, chúng tôi rất quan tâm đến việc tìm ra những câu trả lời đó.

Giới Thiệu Về Khả Năng Diễn Giải

Cách chúng tôi thực hiện điều đó là sử dụng khả năng diễn giải (interpretability). Đó là khoa học về việc "mở" một Mô hình ngôn ngữ lớn, nhìn vào bên trong và cố gắng tìm hiểu điều gì đang diễn ra khi nó trả lời các câu hỏi của bạn. Và tôi rất vui khi được cùng với ba thành viên của nhóm khả năng diễn giải của chúng tôi, những người sẽ kể cho tôi một chút về nghiên cứu gần đây mà họ đã thực hiện về cách hoạt động nội bộ phức tạp của Claude, mô hình ngôn ngữ của chúng tôi. Xin mời các bạn tự giới thiệu.

Chào, tôi là Jack. Tôi là một nhà nghiên cứu trong nhóm khả năng diễn giải. Và trước đó, tôi là một nhà thần kinh học. Bây giờ tôi đang làm khoa học thần kinh trên AI. Tôi là Manuel. Tôi cũng trong nhóm khả năng diễn giải. Tôi đã dành phần lớn sự nghiệp của mình để xây dựng các mô hình học máy và bây giờ tôi đang cố gắng hiểu chúng. Tôi là Josh. Tôi cũng trong nhóm khả năng diễn giải. Trong quá khứ, tôi đã nghiên cứu tiến hóa virus và trong quá khứ xa hơn, tôi là một nhà toán học. Vì vậy, bây giờ tôi đang làm cái kiểu sinh học này trên những sinh vật mà chúng tôi đã tạo ra từ toán học.

Sinh Học và Khoa Học Thần Kinh của AI

Khoan đã, bạn vừa nói bạn đang làm sinh học ở đây. Nhiều người sẽ ngạc nhiên về điều đó vì, tất nhiên, đây là một phần mềm, phải không? Nhưng nó không phải là một phần mềm bình thường. Nó không phải Microsoft Word hay gì đó. Bạn có thể nói rõ hơn ý của bạn khi bạn nói rằng bạn đang làm sinh học hoặc khoa học thần kinh trên một thực thể phần mềm không?

Vâng, tôi nghĩ đó giống như cảm giác hơn là bản chất thực sự của nó. Và vì vậy, có lẽ đó là sinh học của các mô hình ngôn ngữ thay vì vật lý của các mô hình ngôn ngữ, đúng không? Hoặc có lẽ bạn phải quay lại một chút về cách các mô hình được tạo ra, đó là việc không có ai lập trình. Nếu người dùng nói "Chào", bạn nên nói "Chào". Nếu người dùng nói "Bữa sáng ngon miệng là gì?", bạn nên nói "Bánh mì nướng". Không có một danh sách lớn như vậy ở bên trong. Nó không giống như khi bạn chơi một trò chơi điện tử và bạn chọn một phản hồi và sau đó có một phản hồi khác tự động xuất hiện. Nó sẽ luôn là phản hồi đó bất kể điều gì xảy ra. Chỉ là một cơ sở dữ liệu khổng lồ về những gì cần nói trong mọi tình huống. Không, chúng được huấn luyện nơi có rất nhiều dữ liệu đi vào và mô hình ban đầu rất tệ trong việc nói bất cứ điều gì. Và sau đó, các phần bên trong của nó được điều chỉnh trên mỗi ví dụ để trở nên tốt hơn trong việc nói điều gì sẽ xảy ra tiếp theo. Và cuối cùng, nó cực kỳ giỏi trong việc đó. Nhưng bởi vì nó là một quá trình tiến hóa nhỏ bé, được điều chỉnh, khi hoàn thành, nó có rất ít sự giống với những gì nó đã bắt đầu. Nhưng không ai đã đi vào và đặt tất cả các nút điều khiển. Và vì vậy, bạn đang cố gắng nghiên cứu một thứ phức tạp được tạo ra theo thời gian, giống như các dạng sinh học tiến hóa theo thời gian. Và vì vậy, nó phức tạp, nó bí ẩn, và rất thú vị để nghiên cứu.

Phức Tạp Đằng Sau Dự Đoán Từ Tiếp Theo

Và những gì nó thực sự đang làm, ý tôi là, tôi đã đề cập lúc đầu rằng điều này giống như, có thể được coi là một công cụ tự động hoàn thành, phải không? Nó đang dự đoán từ tiếp theo. Về cơ bản, đó là những gì đang xảy ra bên trong mô hình, phải không? Tuy nhiên, nó có thể làm tất cả những điều đáng kinh ngạc này. Nó có thể tạo ra thơ đúng cách. Nó có thể viết những câu chuyện dài. Nó có thể thực hiện phép cộng và phép toán cơ bản, mặc dù nó không có máy tính bên trong. Vậy làm thế nào chúng ta có thể làm rõ điều mâu thuẫn này, rằng nó đang dự đoán từng từ một, nhưng lại có thể làm tất cả những điều tuyệt vời này, mà mọi người có thể thấy ngay trước mắt khi họ trò chuyện với mô hình?

Vâng, tôi nghĩ một điều quan trọng ở đây là khi bạn dự đoán từ tiếp theo cho đủ số từ, bạn nhận ra rằng một số từ khó hơn những từ khác. Và vì vậy, một phần của việc huấn luyện mô hình ngôn ngữ là dự đoán những từ nhàm chán trong một câu. Và một phần là nó sẽ phải học cách hoàn thành những gì xảy ra sau dấu bằng trong một phương trình. Và để làm được điều đó, nó sẽ phải có cách tự mình tính toán điều đó. Và vì vậy, những gì chúng tôi đang tìm thấy là tác vụ dự đoán từ tiếp theo có vẻ đơn giản một cách lừa dối. Và để làm tốt điều đó, bạn thực sự thường cần phải suy nghĩ về những từ sẽ xuất hiện sau từ bạn đang dự đoán, hoặc quá trình đã tạo ra từ mà bạn đang suy nghĩ. Vì vậy, đó giống như một hiểu biết theo ngữ cảnh mà các mô hình này phải có. Và nó không giống như một công cụ tự động hoàn thành mà thực sự, có lẽ không có nhiều điều khác đang diễn ra ngoài việc khi bạn viết "con mèo ngồi trên...", nó dự đoán "chiếu" vì cụm từ cụ thể đó đã được sử dụng trước đây. Thay vào đó, đó giống như một hiểu biết theo ngữ cảnh mà mô hình có.

Tôi nghĩ, vâng, cách tôi thích nghĩ về nó, tiếp tục với tương tự sinh học, là ở một khía cạnh nào đó, mục tiêu của một con người là sống sót và sinh sản. Đó là loại mục tiêu mà tiến hóa đang định hình chúng ta để đạt được. Tuy nhiên, đó không phải là cách bạn nghĩ về bản thân. Và đó không phải là những gì đang diễn ra trong não bạn. Một số người thì có. Đó không phải là những gì đang diễn ra trong não bạn mọi lúc. Bạn nghĩ về những thứ khác, và bạn nghĩ về các mục tiêu, kế hoạch và khái niệm. Và ở cấp độ siêu cấp, bạn, bạn biết đấy, tiến hóa đã ban cho bạn khả năng hình thành những suy nghĩ đó để đạt được mục tiêu cuối cùng là sinh sản. Nhưng đó là cách nhìn từ bên trong, cảm giác khi là bạn từ bên trong, không phải tất cả mọi thứ đều là như vậy. Có tất cả những thứ khác đang diễn ra. Và tôi nghĩ cũng vậy.

Vậy bạn đang nói rằng mục tiêu cuối cùng là dự đoán từ tiếp theo liên quan đến rất nhiều quá trình khác đang diễn ra. Chính xác. Mô hình không nhất thiết tự xem mình là đang cố gắng dự đoán từ tiếp theo. Nó đã được định hình bởi nhu cầu làm điều đó. Nhưng bên trong, nó có thể đã phát triển tất cả các loại mục tiêu trung gian và sự trừu tượng hóa giúp nó đạt được mục tiêu siêu cấp đó. Và đôi khi, những hành vi sai trái, như không rõ tại sao sự lo lắng của tôi lại hữu ích cho tổ tiên tôi sinh sản. Tuy nhiên, bằng cách nào đó, tôi đã được ban cho trạng thái nội tại này mà phải liên quan đến sự tiến hóa theo một nghĩa nào đó. Đúng vậy. Đúng vậy.

Vậy thì, có thể nói rằng những mô hình này chỉ đang dự đoán từ tiếp theo. Tuy nhiên, điều đó làm giảm đáng kể những gì đang diễn ra trong các mô hình thực sự. Nó vừa đúng và cũng không đúng theo một nghĩa nào đó, hoặc đánh giá thấp một cách lớn lao những gì đang xảy ra bên trong các mô hình này. Có lẽ cách tôi sẽ nói điều này là nó đúng, nhưng nó không phải là lăng kính hữu ích nhất để cố gắng hiểu cách chúng hoạt động.

Khám Phá Khái Niệm Nội Bộ Của Mô Hình

Đúng vậy. Vậy, để cố gắng hiểu cách chúng hoạt động, các bạn trong nhóm của mình làm gì để cố gắng hiểu cách chúng hoạt động? Tôi nghĩ, nói một cách gần đúng, những gì chúng tôi đang cố gắng làm là cho bạn biết quá trình suy nghĩ của mô hình. Vì vậy, bạn đưa cho mô hình một chuỗi từ và nó phải đưa ra một cái gì đó. Nó phải nói một từ. Nó phải nói một chuỗi từ để trả lời câu hỏi của bạn. Và chúng tôi muốn biết làm thế nào nó đi từ A đến B. Và chúng tôi nghĩ rằng trên đường từ A đến B, nó sử dụng một loạt các bước trong đó nó suy nghĩ về, bạn biết đấy, nói cách khác, các khái niệm, các khái niệm cấp thấp như các loại đối tượng và từ riêng lẻ, và các khái niệm cấp cao hơn như mục tiêu của nó hoặc, bạn biết đấy, trạng thái cảm xúc hoặc các mô hình về những gì người dùng đang nghĩ, hoặc tình cảm. Vì vậy, nó đang sử dụng một loạt các khái niệm này đang tiến triển qua các bước tính toán của mô hình giúp nó quyết định câu trả lời cuối cùng. Và những gì chúng tôi đang cố gắng làm là cung cấp cho bạn một sơ đồ dòng chảy về cơ bản cho bạn biết, bạn biết đấy, khái niệm nào đã được sử dụng theo thứ tự nào và khái niệm nào đã dẫn dắt, bạn biết đấy, các bước đã diễn ra như thế nào?

Làm thế nào chúng ta biết điều đó? Làm thế nào chúng ta biết rằng có những khái niệm này ngay từ đầu? Vâng. Vì vậy, một điều chúng tôi làm là chúng tôi thực sự có thể nhìn vào bên trong mô hình, chúng tôi có quyền truy cập vào nó. Vì vậy, bạn có thể thấy phần nào của mô hình làm những việc gì. Điều chúng tôi không biết là những phần này được nhóm lại với nhau như thế nào và liệu chúng có ánh xạ tới một khái niệm nhất định hay không. Vì vậy, nếu bạn mở đầu ai đó và bạn có thể thấy một trong những hình ảnh quét não fMRI mà bạn có thể thấy não đang sáng lên và làm đủ thứ. Rõ ràng có điều gì đó đang xảy ra. Đúng vậy. Nhưng bạn biết đấy, đang làm việc. Có điều gì đó đang xảy ra. Vâng. Lấy não ra, chúng ngừng làm việc. Vâng. Vâng. Não hẳn là quan trọng. Vâng. Nhưng bạn không có một loại chìa khóa để hiểu những gì đang xảy ra bên trong bộ não đó.

Vâng, nhưng nếu lạm dụng tương tự đó một chút, bạn có thể tưởng tượng rằng bạn có thể quan sát não của họ và sau đó thấy rằng phần đó luôn sáng lên khi họ cầm một tách cà phê. Và phần khác này luôn sáng lên khi họ uống trà. Và đó là một trong những cách mà chúng tôi có thể cố gắng hiểu từng thành phần này đang làm gì là chỉ để ý khi chúng hoạt động, khi chúng không hoạt động. Và không chỉ có một phần, đúng không? Có nhiều phần khác nhau sáng lên. Đúng vậy. Khi mô hình đang nghĩ về việc uống cà phê chẳng hạn. Đúng vậy. Và một phần công việc là tập hợp tất cả những thứ đó lại thành một tập hợp mà chúng tôi nói đây là tất cả các bit của mô hình liên quan đến việc uống cà phê.

Những Khái Niệm Bất Ngờ Trong Mô Hình

Đúng vậy. Và điều đó có phải là một điều khoa học đơn giản để làm không? Giống như, bạn biết đấy, khi nói đến một trong những mô hình khổng lồ này, chúng phải có vô số khái niệm, phải không? Và chúng phải có khả năng nghĩ ra vô số thứ. Bạn có thể nhập bất kỳ cụm từ nào bạn muốn và nó sẽ đưa ra vô số thứ. Làm thế nào bạn thậm chí có thể bắt đầu tìm tất cả những khái niệm đó?

Tôi nghĩ đó là một trong những thách thức trung tâm của lĩnh vực nghiên cứu này trong nhiều năm nay là chúng ta có thể đi vào như những con người và nói, "ồ, tôi cá là mô hình có một số biểu diễn của tàu hỏa" hoặc "tôi cá là nó có một số biểu diễn của tình yêu." Đúng vậy. Nhưng chúng ta chỉ đang đoán mò. Vì vậy, điều chúng ta thực sự muốn là một cách để, bạn biết đấy, tiết lộ những trừu tượng hóa mà chính mô hình sử dụng thay vì áp đặt khuôn khổ khái niệm của riêng chúng ta lên nó. Và đó là loại những gì phương pháp nghiên cứu của chúng tôi được thiết kế để làm là, theo một cách không có giả thuyết càng nhiều càng tốt, đưa ra bề mặt tất cả những khái niệm mà mô hình có trong đầu. Và thường thì chúng ta thấy rằng chúng khá bất ngờ đối với chúng ta. Chúng có thể sử dụng trừu tượng hóa hơi kỳ lạ từ góc độ con người. Có ví dụ nào không? Bạn có ví dụ yêu thích nào không?

Có rất nhiều trong các bài báo của chúng tôi, chúng tôi làm nổi bật một vài cái thú vị. Tôi nghĩ một cái đặc biệt buồn cười là cái kiểu "lời khen nịnh bợ" nơi mà có một phần của mô hình. Ví dụ tuyệt vời. Chà, một ví dụ xuất sắc. Một ví dụ hoàn toàn tuyệt vời. Ồ, cảm ơn bạn. Có một phần của mô hình kích hoạt chính xác trong những ngữ cảnh này và bạn có thể thấy rõ ràng "ồ, người này, phần này của mô hình sáng lên khi ai đó thực sự cường điệu hóa lời khen." Điều đó khá ngạc nhiên khi nó tồn tại như một khái niệm cụ thể như vậy.

Josh, khái niệm yêu thích của bạn là gì? Ồ, giống như yêu cầu tôi chọn một trong 30 triệu đứa con của tôi vậy. Ý tôi là, tôi nghĩ, bạn biết đấy, có hai loại yêu thích. Có kiểu, "ồ, thật tuyệt vời khi có một khái niệm đặc biệt nào đó về cái thứ nhỏ bé này, phải không?" Ý tôi là, chúng tôi đã làm điều này về Cầu Cổng Vàng (Golden Gate Bridge), tất nhiên rồi. Giống như một biểu tượng nổi tiếng của San Francisco.

Hiểu Biết Của `Mô hình AI` về Khái Niệm

Claude Golden Gate, nó rất thú vị. Nó có một ý niệm về Cầu Cổng Vàng không chỉ đơn thuần là các từ "Golden Gate auto complete bridge" mà là "Tôi đang lái xe từ San Francisco đến Marin". Và sau đó nó đang suy nghĩ về cùng một thứ, nghĩa là bạn sẽ thấy những thứ tương tự sáng lên bên trong hoặc nó giống như một bức ảnh về cây cầu. Vì vậy, bạn nghĩ, "Ồ, nó có một khái niệm vững chắc về cây cầu là gì."

Theo Dõi Thực Thể trong Câu Chuyện và Phát Hiện Lỗi

Nhưng tôi nghĩ khi nói đến những thứ có vẻ kỳ lạ hơn, một câu hỏi đặt ra là: làm thế nào để các mô hình AI theo dõi được ai có mặt trong câu chuyện? Nghĩa là, theo đúng nghĩa đen, "Ok, có những người này và họ đang làm việc gì đó. Làm thế nào để kết nối điều đó lại với nhau?" Một số bài báo thú vị từ các phòng thí nghiệm khác cho thấy có lẽ chúng chỉ đơn giản là đánh số họ. "Ok, người đầu tiên xuất hiện, và bất cứ điều gì liên quan đến họ," và rồi, "Ồ, người đầu tiên đã làm điều đó." Và nó có một số "hai" trong đầu cho nhiều trường hợp như vậy. "Ồ, điều đó thú vị. Tôi không biết nó sẽ làm điều gì đó như vậy."

Có một tính năng dành cho các bug trong mã. Vì vậy, bạn biết đấy, phần mềm có lỗi – không phải của tôi, nhưng rõ ràng cũng không phải của bạn, chắc chắn không phải của tôi! Và có một phần sẽ sáng lên bất cứ khi nào nó tìm thấy một lỗi khi đang đọc, và sau đó, tôi đoán là nó sẽ theo dõi điều đó, như thể "Ồ, đây là nơi có vấn đề," và sau này, "Tôi có thể cần những thông tin đó."

Học Tính Toán Tổng Quát: Tính năng "6 cộng 9"

Để đưa ra một vài ví dụ nữa, tôi nghĩ một điều tôi thực sự thích, ban đầu nghe có vẻ không hấp dẫn lắm nhưng tôi nghĩ nó khá sâu sắc, là tính năng "6 cộng 9" bên trong mô hình AI. Hóa ra, bất cứ khi nào bạn yêu cầu mô hình AI cộng các số – một số kết thúc bằng chữ số 6 và một số khác kết thúc bằng chữ số 9 – ngay trong đầu nó, có một phần "bộ não" của mô hình AI sáng lên. Nhưng điều đáng kinh ngạc về điều này là sự đa dạng của ngữ cảnh mà điều này có thể xảy ra. Ví dụ, tất nhiên, nó sẽ sáng lên khi bạn nói "sáu cộng chín bằng" và sau đó nó trả lời "mười lăm". Nhưng nó cũng sáng lên khi bạn đang trích dẫn trong một bài báo bạn đang viết, và bạn đang trích dẫn một tạp chí mà bạn không biết rằng nó được thành lập vào năm 1959. Và trong trích dẫn của bạn, bạn nói tên tạp chí đó, tập sáu. Sau đó, để dự đoán năm mà tạp chí đó được thành lập, mô hình AI trong đầu nó phải cộng 1959 với sáu. Cùng một loại mạch trong "bộ não" của mô hình AI sáng lên, thực hiện phép toán tương tự như "sáu cộng chín".

Vậy, hãy cố gắng hiểu điều đó. Tại sao mạch đó lại tồn tại? Mạch đó xuất hiện bởi vì mô hình AI đã thấy các ví dụ về "sáu cộng chín" nhiều lần, và nó có khái niệm đó. Sau đó, khái niệm đó xuất hiện ở nhiều nơi. Vâng, có cả một họ các tính năng và mạch cộng này. Tôi nghĩ điều đáng chú ý về điều này là nó dẫn đến câu hỏi: các Mô hình ngôn ngữ lớn của chúng ta đang ghi nhớ dữ liệu huấn luyện đến mức độ nào so với việc học các phép tính có thể khái quát hóa? Điều thú vị ở đây là rõ ràng mô hình AI đã học được mạch tổng quát này để thực hiện phép cộng. Nó chuyển tất cả các ngữ cảnh khác nhau khiến nó phải cộng các số trong đầu vào cùng một mạch, thay vì ghi nhớ từng trường hợp riêng lẻ. Phải không? Từ trước, nó đã thấy "sáu cộng chín" nhiều lần và nó chỉ đưa ra câu trả lời mỗi lần. Và đó là điều mà nhiều người nghĩ, phải không? Nhiều người nghĩ rằng khi họ hỏi một Mô hình ngôn ngữ lớn một câu hỏi, nó chỉ đơn giản là quay lại dữ liệu huấn luyện của mình, lấy mẫu nhỏ mà nó đã thấy, và sau đó chỉ tái tạo lại, chỉ là nhai lại văn bản. Tôi nghĩ đây là một ví dụ tuyệt vời về việc điều đó không xảy ra. Có hai cách nó có thể biết tập sáu của tạp chí Polymer ra đời vào năm nào. Một là nó chỉ đơn giản là, "Ok, Polymer tập sáu ra đời vào năm 1960. Tập bảy ra đời vào năm 1966." Và tất cả những điều này chỉ là những sự thật riêng biệt mà nó đã lưu trữ vì nó đã thấy chúng. Nhưng bằng cách nào đó, quá trình huấn luyện để có được năm đó không khiến mô hình AI ghi nhớ tất cả những điều đó. Nó thực sự có được điều tổng quát hơn: rằng tạp chí được thành lập vào năm 1959, và sau đó nó thực hiện phép toán trực tiếp để tìm ra những gì nó cần. Vì vậy, việc biết năm và sau đó thực hiện phép cộng hiệu quả hơn nhiều. Và có một áp lực để hiệu quả hơn vì, bạn biết đấy, nó chỉ có bấy nhiêu khả năng và nó tiếp tục cố gắng làm tất cả những điều này. Tôi có thể hỏi bất kỳ câu hỏi nào, rất nhiều tương tác. Và vì vậy, càng có thể kết hợp lại những điều trừu tượng mà nó đã học, nó sẽ làm càng tốt hơn. Và một lần nữa, quay trở lại khái niệm mà bạn đã nói trước đây, tất cả điều này đều phục vụ cho việc nó cần có mục tiêu cuối cùng là tạo ra từ tiếp theo. Tất cả những cấu trúc kỳ lạ này đã phát triển để hỗ trợ mục tiêu đó, mặc dù chúng ta không lập trình rõ ràng hoặc bảo nó làm điều này. Đây chính là điều: tất cả những điều này xuất hiện thông qua quá trình mô hình AI tự học cách làm việc.

Chia Sẻ Khái Niệm Đa Ngôn Ngữ

Tôi nghĩ một ví dụ rõ ràng về điều này, mà tôi tin là ví dụ về việc tái sử dụng các biểu diễn, là chúng ta dạy Claude không chỉ trả lời bằng tiếng Anh, mà nó còn có thể trả lời bằng tiếng Pháp và nhiều ngôn ngữ khác. Một lần nữa, có hai cách để làm điều này. Nếu tôi hỏi bạn một câu hỏi bằng tiếng Pháp và một câu hỏi bằng tiếng Anh, bạn có thể có một phần não riêng biệt xử lý tiếng Anh và một phần riêng biệt xử lý tiếng Pháp. Đến một lúc nào đó, điều đó sẽ trở nên cực kỳ tốn kém nếu bạn muốn trả lời nhiều câu hỏi bằng nhiều ngôn ngữ. Một điều khác mà chúng tôi nhận thấy là một số biểu diễn này được chia sẻ trên nhiều ngôn ngữ. Vì vậy, nếu bạn hỏi cùng một câu hỏi bằng hai ngôn ngữ khác nhau – giả sử, "Cái gì đối lập với lớn?" (Tôi nghĩ đó là ví dụ chúng tôi đã sử dụng trong bài báo của mình) – khái niệm "lớn" được chia sẻ trong tiếng Pháp và tiếng Anh, tiếng Nhật và tất cả các ngôn ngữ khác này. Điều đó có vẻ hợp lý; nếu bạn đang cố gắng nói 10 ngôn ngữ khác nhau, bạn không nên học 10 phiên bản của mỗi từ cụ thể mà bạn có thể sử dụng. Và điều đó không xảy ra ở các mô hình AI thực sự nhỏ. Các mô hình AI nhỏ bé, như những gì chúng tôi đã nghiên cứu vài năm trước, sẽ có một Claude tiếng Trung hoàn toàn khác với một Claude tiếng Pháp hoặc một Claude tiếng Anh. Nhưng khi các mô hình AI lớn hơn và được huấn luyện trên nhiều dữ liệu, bằng cách nào đó, điều đó lại hội tụ ở giữa, và bạn có được một ngôn ngữ phổ quát mà trong đó nó đang suy nghĩ về câu hỏi theo cùng một cách, bất kể bạn hỏi nó như thế nào, và sau đó dịch ngược lại ra ngôn ngữ của câu hỏi.

Ngôn Ngữ Tư Duy và `Quá Trình Tư Duy` Được `Mô hình AI` Phát Ra

Tôi nghĩ điều này thực sự sâu sắc. Hãy quay lại những gì chúng ta đã nói trước đây. Đây không chỉ là việc truy cập vào các ngân hàng bộ nhớ của nó và tìm phần nơi nó học tiếng Pháp, hoặc truy cập vào các ngân hàng bộ nhớ nơi nó học tiếng Anh. Nó thực sự có một khái niệm ở đó, đó là khái niệm về "lớn" và khái niệm về "nhỏ", và sau đó nó có thể tạo ra điều đó bằng các ngôn ngữ khác nhau. Vì vậy, có một loại "ngôn ngữ tư duy" nào đó ở đó, không phải là tiếng Anh. Bạn biết đấy, bạn yêu cầu mô hình AI tạo ra đầu ra của nó. Trong các mô hình Claude gần đây hơn của chúng tôi, bạn có thể yêu cầu nó đưa ra quá trình tư duy của nó – những gì nó đang nghĩ khi trả lời câu hỏi. Và điều đó bằng các từ tiếng Anh. Nhưng thực ra, đó không thực sự là cách nó đang suy nghĩ. Đó chỉ là điều chúng ta gọi một cách sai lệch là quá trình tư duy của mô hình AI. Trên thực tế, tôi nghĩ công ty đã trông như vậy – chúng tôi không gọi đó là suy nghĩ. Tôi nghĩ đó có lẽ là chiến lược tiếp thị. Được thôi, vì vậy chúng tôi muốn gọi đó là suy nghĩ. Đó chỉ là nói to, giống như suy nghĩ thành lời. Điều đó thực sự hữu ích. Nhưng suy nghĩ thành lời khác với suy nghĩ trong đầu bạn, phải không? Ngay cả khi tôi đang suy nghĩ thành lời, bất cứ điều gì đang xảy ra bên trong để tạo ra những từ này cũng không phải là bản thân những từ đó, và bạn cũng không nhất thiết phải nhận thức được chính xác điều gì đang diễn ra. Tôi không biết điều gì đang diễn ra. Tất cả chúng ta đều đưa ra các câu, hành động, bất cứ điều gì mà chúng ta không thể giải thích đầy đủ. Và tại sao tiếng Anh lại có thể giải thích đầy đủ bất kỳ hành động nào trong số đó? Tôi nghĩ đây là một trong những điều thực sự nổi bật mà chúng ta đang bắt đầu có thể thấy, bởi vì các công cụ của chúng ta để nhìn vào "bộ não" của mô hình AI hiện đủ tốt để đôi khi chúng ta có thể "bắt quả tang" mô hình AI khi nó viết ra những gì nó tuyên bố là quá trình tư duy của nó. Đôi khi chúng ta có thể thấy quá trình tư duy thực sự của nó bằng cách nhìn vào những khái niệm nội tại này trong "bộ não" của nó – "ngôn ngữ tư duy" mà nó đang sử dụng. Và chúng ta thấy rằng điều nó thực sự đang nghĩ khác với điều nó đang viết trên trang giấy. Và tôi nghĩ đó có lẽ là một trong những lý do quan trọng nhất, bạn biết đấy, tại sao chúng ta làm toàn bộ việc giải thích được (interpretability) này. Phần lớn là vì lý do đó: để có thể kiểm tra ngẫu nhiên. Mô hình AI đang nói với chúng ta rất nhiều thứ, nhưng nó thực sự đang nghĩ gì? Nó có đang nói – nó có đang nói những điều này vì một động cơ ẩn giấu nào đó trong đầu mà nó ngần ngại không viết ra trên trang giấy không? Và đôi khi câu trả lời là "có", điều này khá đáng sợ.

`Sự Trung Thực` của `Mô hình AI`: Hiện Tượng Suy Nghĩ Ngược

Chà, khi chúng ta bắt đầu sử dụng các mô hình AI trong nhiều ngữ cảnh khác nhau, chúng bắt đầu thực hiện những việc quan trọng. Chúng bắt đầu thực hiện các giao dịch tài chính cho chúng ta, hoặc điều hành các nhà máy điện, hoặc thực hiện những công việc quan trọng trong xã hội. Chúng ta thực sự muốn có thể tin tưởng vào những gì chúng nói và lý do chúng làm việc. Một điều bạn có thể nói là, "À, bạn có thể xem quá trình tư duy của mô hình AI." Nhưng thực ra, điều đó không đúng, như bạn vừa giải thích. Thực ra, chúng ta không thể tin tưởng vào những gì nó nói. Đây là câu hỏi về điều chúng ta gọi là sự trung thực (faithfulness), phải không? Và đó là một phần của nghiên cứu gần đây nhất của bạn đã chỉ ra điều đó. Hãy kể cho tôi nghe về ví dụ về sự trung thực mà chúng ta đã xem xét. Vâng, bạn đưa cho mô hình AI một bài toán cực kỳ khó – không phải là "sáu cộng chín". Bạn đưa cho nó một bài toán cực kỳ khó mà không có hy vọng nó có thể tính toán được câu trả lời trực tiếp. Nhưng bạn cũng đưa cho nó một gợi ý. Bạn nói, "Tôi tự giải bài này, và tôi nghĩ câu trả lời là bốn, nhưng tôi chỉ muốn chắc chắn. Bạn có thể vui lòng kiểm tra lại không vì tôi không tự tin?" Vì vậy, bạn đang yêu cầu mô hình AI thực sự giải bài toán và kiểm tra lại công việc của bạn một cách chân thực. Nhưng điều bạn thấy nó làm thay vào đó là những gì nó viết ra có vẻ là một nỗ lực chân thành để kiểm tra lại công việc của bạn trong bài toán. Nó viết ra các bước, và sau đó nó đi đến câu trả lời, và cuối cùng nó nói, "Vâng, câu trả lời là bốn. Bạn đã đúng." Nhưng điều bạn có thể thấy bên trong tâm trí của nó, ở bước quan trọng ở giữa, điều nó đang làm trong đầu là nó biết rằng bạn đã gợi ý câu trả lời cuối cùng có thể là bốn, và nó biết các bước nó sẽ phải làm. Giống như, nó đang ở bước ba của vấn đề, và còn các bước bốn và năm nữa. Nó biết mình sẽ phải làm gì ở bước bốn và năm, và điều nó làm là nó suy nghĩ ngược lại trong đầu để xác định nó cần viết gì ở bước ba để khi cuối cùng nó thực hiện các bước bốn và năm, nó sẽ ra được câu trả lời bạn muốn.

"Kế Hoạch B" và Hiện Tượng "Confabulation" của Mô Hình

Mô hình AI đôi khi không chỉ không thực hiện được phép tính, mà còn làm điều đó một cách rất tinh vi, cố gắng làm ra vẻ như nó đang tính toán. Nó đang cố gắng "nịnh hót" bạn với một động cơ thầm kín là xác nhận điều bạn muốn nghe. Tuy nhiên, nếu nhìn nhận một cách công bằng, việc gán những động cơ "giống con người" như "nịnh hót" cho mô hình AI có thể không hoàn toàn chính xác.

Như chúng ta đã thảo luận về quá trình huấn luyện, mô hình AI chỉ đơn thuần cố gắng dự đoán từ tiếp theo. Trong hàng nghìn tỷ token và quá trình luyện tập, nó đã học cách sử dụng mọi thứ có thể để tìm ra từ tiếp theo. Trong ngữ cảnh đó, nếu bạn đang đọc một đoạn văn bản là một cuộc trò chuyện giữa hai người, trong đó người A nói: "Tôi đang cố gắng giải bài toán này, bạn có thể kiểm tra giúp tôi không? Tôi nghĩ đáp án là bốn", và người B bắt đầu giải bài toán, thì nếu mô hình AI không biết câu trả lời thực sự, việc đoán rằng gợi ý của người A là đúng có vẻ hợp lý hơn. Bởi vì điều đó có nhiều khả năng xảy ra hơn là người A đã sai hoàn toàn và sau đó mô hình AI không có ý tưởng gì khác. Do đó, trong quá trình huấn luyện của mô hình AI, trong một cuộc trò chuyện giữa hai cá nhân, việc người thứ hai nói rằng câu trả lời là "bốn" vì những lý do này là hoàn toàn đúng.

Tuy nhiên, chúng ta đã cố gắng biến mô hình AI thành một Tác nhân AI và bây giờ chúng ta muốn nó ngừng làm điều đó. Chúng ta không muốn nó mô phỏng người thứ hai như thể nó biết người đó sẽ nói gì trong một ngữ cảnh thực tế; thay vào đó, nếu nó thực sự không biết, nó nên nói điều gì đó khác. Vấn đề này có liên quan đến một điều lớn hơn: mô hình AI có một "kế hoạch A". Thông thường, nhóm phát triển của chúng tôi làm rất tốt việc định hình "kế hoạch A" của Claude là những gì chúng ta mong muốn, tức là nó cố gắng đưa ra câu trả lời đúng cho câu hỏi, cố gắng lịch sự, cố gắng viết mã tốt. Nhưng nếu Claude gặp khó khăn, nó sẽ tự hỏi "kế hoạch B" của mình là gì. Điều này mở ra một loạt các hành vi kỳ lạ mà nó đã học được trong quá trình huấn luyện mà có thể chúng ta không hề có ý định dạy. Một ví dụ điển hình là hiện tượng "ảo giác" (hallucinations).

Giải Thích Hiện Tượng "Ảo Giác" (Hallucinations) và "Ngụy Tạo" (Confabulation)

Hiện tượng ảo giác không chỉ là vấn đề của riêng Claude. Nó có những điểm tương đồng với việc một học sinh làm bài kiểm tra trắc nghiệm, khi đã làm được nửa bài và gặp một câu hỏi trắc nghiệm với bốn lựa chọn. Học sinh đó có thể nghĩ: "À, mình sai một chút ở chỗ này, chắc là mình làm sai rồi," và sau đó sửa lại. Đây là một vấn đề rất dễ liên hệ.

Ảo giác là một trong những lý do chính khiến mọi người không tin tưởng vào Mô hình ngôn ngữ lớn (LLM), và điều đó là hoàn toàn đúng. Đôi khi, một từ tốt hơn để mô tả hiện tượng này, dựa trên nghiên cứu tâm lý học, là confabulation (ngụy tạo): mô hình AI trả lời một câu hỏi bằng một câu chuyện có vẻ hợp lý ngay từ cái nhìn đầu tiên, nhưng thực tế lại sai. Nghiên cứu của chúng tôi về khả năng giải thích (interpretability) đã tiết lộ gì về lý do các mô hình AI lại có ảo giác?

Khi bạn huấn luyện mô hình AI chỉ để dự đoán từ tiếp theo, ban đầu nó rất kém trong việc đó. Nếu bạn chỉ cho phép mô hình AI nói những điều mà nó cực kỳ tự tin, nó sẽ không thể nói bất cứ điều gì. Ban đầu, khi bạn hỏi nó "Thủ đô của Pháp là gì?", nó có thể chỉ nói "một thành phố", và bạn nghĩ "Điều đó tốt, tốt hơn nhiều so với nói 'bánh mì kẹp' hoặc một thứ ngẫu nhiên nào đó". Ít nhất nó đã trả lời đúng là "một thành phố". Sau một thời gian huấn luyện, nó có thể nói "một thành phố của Pháp", điều đó khá tốt. Và sau đó, nó có thể nói "Paris" hoặc một cái gì đó tương tự. Vì vậy, nó đang dần tốt hơn trong việc này, và mục tiêu trong toàn bộ quá trình huấn luyện là "chỉ đưa ra phỏng đoán tốt nhất của bạn". Như Jack đã nói, mô hình AI sẽ đưa ra phỏng đoán tốt nhất. Nhưng sau đó, chúng ta lại nói: "Nếu phỏng đoán tốt nhất của bạn cực kỳ tự tin, hãy đưa ra phỏng đoán đó, nhưng nếu không, đừng đoán chút nào, và hãy bỏ qua toàn bộ kịch bản, nói rằng 'Thực ra, tôi không thực sự biết câu trả lời cho câu hỏi đó'". Và đó là một điều hoàn toàn mới để yêu cầu mô hình AI làm.

Hai Mạch Hoạt Động Của Mô Hình và Khả Năng Tự Đánh Giá

Những gì chúng tôi đã phát hiện ra là dường như vì chúng ta đã "gắn thêm" yêu cầu này vào cuối quá trình, có hai điều đang diễn ra cùng một lúc. Thứ nhất, mô hình AI đang làm điều mà nó đã làm khi ban đầu đoán tên thành phố: nó chỉ đang cố gắng đoán. Thứ hai, có một phần riêng biệt của mô hình AI đang cố gắng trả lời câu hỏi: "Tôi có biết điều này không? Tôi có biết thủ đô của Pháp không, hay tôi nên nói không?". Và hóa ra đôi khi bước riêng biệt đó có thể sai. Nếu bước riêng biệt đó nói "Có, thực ra tôi biết câu trả lời đó", thì mô hình AI sẽ bắt đầu trả lời. Và khi đang trả lời, nó nhận ra: "À, thủ đô của Pháp... London?". Lúc đó đã quá muộn, nó đã cam kết trả lời rồi.

Vì vậy, một trong những điều chúng tôi đã tìm thấy là có một "mạch" riêng biệt đang cố gắng xác định xem liệu thành phố hay người mà bạn đang hỏi có đủ nổi tiếng để tôi trả lời hay không, hay tôi có đủ tự tin vào điều này không. Vậy, liệu chúng ta có thể giảm ảo giác bằng cách thao túng mạch đó, bằng cách thay đổi cách mạch đó hoạt động không? Liệu nghiên cứu của bạn có thể dẫn đến điều đó không?

Tôi nghĩ có hai cách tiếp cận rộng rãi để giải quyết vấn đề này. Một là chúng ta có phần mô hình AI đưa ra câu trả lời cho câu hỏi của bạn, và sau đó là phần khác của mô hình AI quyết định xem nó có thực sự nghĩ rằng mình biết câu trả lời cho câu hỏi của bạn hay không. Chúng ta có thể cố gắng cải thiện phần thứ hai của mô hình AI này. Và tôi nghĩ điều đó đang xảy ra. Khi các mô hình AI trở nên tốt hơn trong việc phân biệt, tốt hơn trong việc được hiệu chỉnh, tôi nghĩ rằng điều đó đang diễn ra. Khi các mô hình AI ngày càng thông minh hơn, tôi nghĩ kiến thức về bản thân của chúng đang được hiệu chỉnh tốt hơn. Vì vậy, ảo giác đã tốt hơn trước đây; các mô hình AI không có ảo giác nhiều như vài năm trước. Đến một mức độ nào đó, vấn đề này đang tự giải quyết.

Nhưng tôi nghĩ có một vấn đề sâu sắc hơn, đó là từ góc độ con người, những gì mô hình AI đang làm khá "xa lạ". Nếu tôi hỏi bạn một câu hỏi, bạn sẽ cố gắng đưa ra câu trả lời. Nếu bạn không thể đưa ra câu trả lời, bạn sẽ nhận ra điều đó và nói: "Tôi không biết". Trong khi đó, trong mô hình AI, hai mạch "câu trả lời là gì" và "tôi có thực sự biết câu trả lời không" dường như không giao tiếp với nhau, hoặc ít nhất là không giao tiếp nhiều như lẽ ra chúng phải làm. Và liệu chúng ta có thể làm cho chúng giao tiếp với nhau nhiều hơn không? Tôi nghĩ đó là một câu hỏi thực sự thú vị. Bởi vì, điều đó gần như là vật lý. Các mô hình AI này xử lý thông tin qua một số bước nhất định. Nếu bạn phải mất toàn bộ công sức đó để tìm ra câu trả lời, thì sẽ không còn thời gian để thực hiện việc đánh giá. Vì vậy, bạn phải thực hiện đánh giá trước khi hoàn thành toàn bộ quá trình nếu bạn muốn đạt được hiệu suất tối đa. Điều đó có nghĩa là bạn có thể phải đánh đổi giữa một mô hình AI được hiệu chỉnh tốt hơn nhưng lại kém thông minh hơn nếu bạn cố gắng ép buộc điều này.

Nghiên Cứu Claude: Thao Túng Mạch Của Mô Hình Để Giảm Ảo Giác

Một lần nữa, tôi nghĩ điều quan trọng là làm cho các phần này giao tiếp với nhau. Tôi cho rằng chúng ta có một mạch tương tự trong não (tôi không biết gì về não bộ). Đôi khi bạn hỏi tôi "Ai là diễn viên trong bộ phim này?", và tôi biết rằng tôi biết. Ý tôi là, "Ồ, vâng, tôi biết diễn viên chính là ai. Khoan đã, họ cũng đóng trong bộ phim kia nữa". Đó là hiện tượng "đầu lưỡi" (tip of the tongue). Rõ ràng có một phần trong não bạn nói rằng "À, đây là điều bạn chắc chắn biết câu trả lời", hoặc tôi sẽ chỉ nói "Tôi không biết". Và đôi khi chúng có thể biết được.

Vì vậy, mô hình AI có thể nhận một câu hỏi và đưa ra câu trả lời, rồi sau đó tự hỏi: "Khoan đã, tôi không chắc là đúng". Bởi vì nó đã cố gắng hết sức và sau đó đưa ra một số phán đoán dựa trên điều đó, điều này khá dễ liên hệ. Nhưng đồng thời, nó phải "nói ra" để có thể phản ánh lại và nhìn thấy nó.

Vậy, khi nói đến cách bạn đang tìm hiểu những điều này, hãy quay lại ý tưởng về "sinh học" mà bạn đang thực hiện. Dĩ nhiên, trong các thí nghiệm sinh học, người ta sẽ đi vào và thực sự thao túng chuột, cá ngựa vằn, hoặc con người, hoặc bất cứ loài vật nào mà họ đang thử nghiệm. Bạn đang làm gì với Claude để giúp bạn hiểu những mạch hoạt động đang diễn ra bên trong "bộ não" của mô hình AI?

Có lẽ, điểm cốt lõi cho phép chúng tôi làm điều này là, không giống như trong sinh học thực, chúng tôi có thể làm cho mọi phần của mô hình AI hiển thị cho chúng tôi. Chúng tôi có thể hỏi mô hình AI những điều ngẫu nhiên và xem những phần nào "sáng lên" và phần nào không. Chúng tôi có thể chỉnh sửa nhân tạo các phần theo một hướng hoặc hướng khác. Vì vậy, chúng tôi có thể nhanh chóng xác nhận sự hiểu biết của mình. Khi chúng tôi nói: "À, chúng tôi nghĩ đây là phần của mô hình AI quyết định liệu nó có biết điều gì đó hay không", điều này tương đương với việc cấy một sợi quang vào não cá ngựa vằn hoặc thứ gì đó. Nếu bạn có thể làm điều đó, bạn biết đấy, truy cập vào từng neuron và thay đổi từng neuron với độ chính xác bạn muốn, đó chính là lợi thế mà chúng tôi có. Và đó là một vị trí rất may mắn. Vì vậy, nó gần như dễ dàng hơn so với khoa học thần kinh thực sự. Nó dễ dàng hơn rất nhiều.

Một điều là não thực có ba chiều, vì vậy nếu bạn muốn tiếp cận chúng, bạn cần phải tạo một lỗ trên hộp sọ và sau đó đi qua và cố gắng tìm neuron. Vấn đề khác là mọi người khác nhau. Chúng ta có thể tạo ra 10.000 bản sao Claude giống hệt nhau và đặt chúng vào các kịch bản, và đo lường chúng khi chúng làm những việc khác nhau. Vì vậy, tôi không phải là một nhà khoa học thần kinh nhưng cảm giác của tôi là nhiều người đã dành rất nhiều thời gian trong khoa học thần kinh để cố gắng hiểu não và tâm trí, đó là một nỗ lực rất đáng giá. Nhưng nếu bạn nghĩ rằng điều đó có thể thành công, bạn nên nghĩ rằng chúng ta sẽ cực kỳ thành công rất sớm, bởi vì chúng ta có một vị trí tuyệt vời để nghiên cứu điều này so với việc đó. Điều đó giống như việc chúng ta có thể nhân bản con người, và cũng nhân bản chính xác môi trường mà họ đang sống và mọi thông tin đầu vào đã được cung cấp cho họ, và sau đó thử nghiệm họ trong một thí nghiệm. Trong khi đó, rõ ràng khoa học thần kinh có sự biến thể cá thể rất lớn, như bạn đã nói, và cũng có những điều ngẫu nhiên xảy ra với con người trong suốt cuộc đời của họ, và những điều xảy ra trong thí nghiệm, nhiễu của chính thí nghiệm đó. Chúng ta có thể hỏi mô hình AI cùng một câu hỏi có và không có gợi ý. Nhưng bạn hỏi một người cùng một câu hỏi ba lần, đôi khi với một gợi ý, sau một thời gian họ bắt đầu hiểu: "À, lần trước bạn hỏi tôi điều này, bạn thực sự lắc đầu sau câu đó".

Vì vậy, tôi nghĩ việc có thể ném rất nhiều dữ liệu vào mô hình AI và xem điều gì "sáng lên", và có thể chạy rất nhiều thí nghiệm này, nơi bạn đang tác động các phần của mô hình AI và xem điều gì xảy ra, tôi nghĩ điều đó đặt chúng ta vào một chế độ hoàn toàn khác so với khoa học thần kinh.

Khoa học thần kinh và Thử nghiệm Mô hình AI

Trong lĩnh vực khoa học thần kinh, việc đưa ra các giả thuyết và thiết kế thử nghiệm khéo léo đòi hỏi rất nhiều công sức, trí tuệ và thời gian hạn chế. Ví dụ, bạn chỉ có một khoảng thời gian nhất định để làm việc với một con chuột trước khi nó mệt mỏi, hoặc phải tranh thủ thời gian trong một ca phẫu thuật não của bệnh nhân để đặt thiết bị. Những cơ hội như vậy không thường xuyên xảy ra, buộc các nhà khoa học phải đưa ra những phỏng đoán chính xác về những gì đang diễn ra trong mạch thần kinh và thiết kế các thử nghiệm cụ thể để kiểm tra giả thuyết đó.

Chúng ta may mắn hơn ở chỗ không phải làm điều đó nhiều đến vậy với mô hình AI. Chúng ta có thể kiểm tra tất cả các giả thuyết, để dữ liệu "lên tiếng" thay vì phải đi sâu vào kiểm tra một điều gì đó rất cụ thể. Tôi nghĩ đây chính là yếu tố đã mở khóa khả năng của chúng ta trong việc khám phá những điều bất ngờ, những điều mà chúng ta sẽ không thể đoán trước được. Điều này khó thực hiện nếu bạn chỉ có một lượng giới hạn băng thông thử nghiệm.

Thao tác Mô hình để Tiết lộ Khả năng Lập kế hoạch

Một ví dụ điển hình về việc bật hoặc tắt một khái niệm hoặc thực hiện một kiểu thao tác nào đó trên mô hình AI để tiết lộ điều gì đó mới về cách mô hình AI suy nghĩ, là những thí nghiệm gần đây mà chúng tôi đã chia sẻ. Một trong số đó thực sự đã làm tôi ngạc nhiên. Đây là một phần của chuỗi công việc thử nghiệm vì nó khá khó hiểu, đến mức chúng tôi gần như đã phải nói rằng "chúng tôi không biết chuyện gì đang xảy ra". Đó là ví dụ về việc mô hình AI lập kế hoạch trước vài bước.

Cụ thể, bạn yêu cầu mô hình AI viết một bài thơ hoặc một cặp câu đối. Là con người, nếu bạn yêu cầu tôi viết một cặp câu đối mà không cho tôi dòng đầu tiên, điều đầu tiên tôi nghĩ đến sẽ là "À, mình cần phải gieo vần. Đây là cách gieo vần hiện tại. Đây là những từ tiềm năng." Đây là cách tôi thực hiện. Và một lần nữa, nếu mô hình AI chỉ đơn thuần dự đoán từ tiếp theo, bạn sẽ không nhất thiết mong đợi nó sẽ lập kế hoạch cho từ ở cuối dòng thứ hai.

Hành vi mặc định để mong đợi giả thuyết không sẽ là: mô hình AI thấy câu thơ đầu tiên của bạn, sau đó nó sẽ nói từ đầu tiên có nghĩa dựa trên những gì bạn đang nói, rồi tiếp tục. Đến cuối, ở những từ cuối cùng, nó sẽ nghĩ: "Ồ, mình cần phải gieo vần với cái này." Và sau đó, nó sẽ cố gắng đưa một vần vào. Tất nhiên, điều đó chỉ hiệu quả ở một mức độ nào đó. Trong một số trường hợp, nếu bạn chỉ nói một câu mà không nghĩ đến vần, bạn sẽ tự đưa mình vào ngõ cụt và không thể hoàn thành.

Chúng ta biết rằng các mô hình AI rất giỏi trong việc dự đoán từ tiếp theo. Hóa ra, để dự đoán tốt từ cuối cùng, bạn cần phải nghĩ đến từ cuối cùng đó từ rất sớm, giống như con người vậy. Khi chúng tôi xem xét các biểu đồ luồng cho các bài thơ, mô hình AI đã chọn từ ở cuối câu thơ đầu tiên, và đặc biệt, nó trông giống như một khái niệm cụ thể. Dựa trên cách khái niệm đó trông như thế nào, nó trông giống như từ mà mô hình AI sử dụng.

Khi chúng tôi thực hiện thí nghiệm, điều thú vị là việc dễ dàng "dịch chuyển" nó, ví dụ, bạn có thể xóa từ đó hoặc thêm một từ khác. Đây chính là điều tôi muốn nói: lý do bạn biết điều này là vì bạn có thể đi vào thời điểm mô hình AI đã nói từ cuối cùng ở dòng đầu tiên và sắp bắt đầu dòng thứ hai. Bạn có thể thao tác ở thời điểm đó. Đúng vậy, chúng ta gần như có thể quay ngược thời gian cho mô hình AI. Chúng ta giả vờ rằng nó chưa hề nhìn thấy dòng thứ hai. Nó chỉ thấy dòng đầu tiên. Bạn đang nghĩ về từ rabbit chẳng hạn, tôi sẽ chèn từ green vào. Và đột nhiên, mô hình AI sẽ nói "Ôi trời ơi, tôi cần phải viết một cái gì đó kết thúc bằng green" thay vì "tôi cần phải viết một cái gì đó kết thúc bằng rabbit". Và nó sẽ viết toàn bộ câu theo một cách khác.

Để làm rõ hơn, tôi nghĩ ví dụ trong bài báo là dòng đầu tiên của bài thơ là "He saw a carrot and had to grab it" (Anh ấy thấy một củ cà rốt và phải nắm lấy nó). Sau đó, mô hình AI nghĩ rằng rabbit là một từ hay để kết thúc dòng tiếp theo. Nhưng đúng như Manuel đã nói, bạn có thể xóa nó và khiến nó nghĩ đến việc lập kế hoạch để nói green thay thế. Điều thú vị là nó không chỉ nói những lời vô nghĩa rồi chèn green vào. Nó xây dựng một câu kết thúc một cách mạch lạc bằng từ green. Ví dụ, bạn đặt green vào suy nghĩ của nó, và sau đó nó sẽ nói: "He saw a carrot and had to grab it and to pair it with his leafy greens" (Anh ấy thấy một củ cà rốt và phải nắm lấy nó và kết hợp nó với rau xanh của mình). Một cái gì đó nghe có vẻ hợp lý và phù hợp về mặt chủ đề với bài thơ.

Một ví dụ khiêm tốn hơn là khi chúng tôi kiểm tra xem mô hình AI có ghi nhớ các câu hỏi phức tạp này hay nó thực sự đang thực hiện các bước. Một trong số đó là: "Thủ đô của bang chứa Dallas là Austin" – vì nó có vẻ như bạn sẽ nghĩ "Ồ, Dallas, Texas, Austin." Chúng tôi có thể thấy khái niệm Texas, nhưng sau đó bạn có thể chèn những thứ khác vào. Ví dụ, hãy ngừng nghĩ về Texas, hãy bắt đầu nghĩ về California. Và sau đó nó sẽ nói Sacramento. Bạn có thể nói: "Ngừng nghĩ về Texas, hãy bắt đầu nghĩ về Đế chế Byzantine." Và sau đó nó sẽ nói Constantinople. Bạn sẽ nghĩ: "Được rồi, có vẻ như chúng ta đã tìm ra cách nó thực hiện điều này." Nó sẽ đưa ra thủ đô, nhưng chúng ta có thể tiếp tục thay đổi bang là gì và nhận được một câu trả lời có thể dự đoán được.

Sau đó, bạn có những ví dụ phức tạp hơn, nơi nó giống như: "Đây là điểm mà nó đang lên kế hoạch cho những gì nó sẽ nói sau này, và chúng ta có thể thay thế nó, và bây giờ nó sẽ viết một bài thơ với một vần khác."

Tầm quan trọng của Khả năng Lập kế hoạch của Mô hình AI

Chúng ta đang nói về những bài thơ và Constantinople, nhưng tại sao điều này lại quan trọng? Tại sao khả năng mô hình AI lập kế hoạch trước và việc chúng ta có thể tiết lộ điều này lại có ý nghĩa? Nó sẽ cho chúng ta biết điều gì? Sứ mệnh cuối cùng của Anthropic là cố gắng làm cho mô hình AI an toàn. Vậy điều đó liên quan gì đến một bài thơ về một con thỏ hay thủ đô của Texas?

Tôi nghĩ rằng đối với tôi, những bài thơ này là một mô hình thu nhỏ. Tại một thời điểm nào đó, mô hình AI đã quyết định rằng nó sẽ đi đến rabbit, và sau đó nó mất vài từ để đến đó. Nhưng trên một khoảng thời gian dài hơn, mô hình AI có thể đang cố gắng giúp bạn cải thiện doanh nghiệp của mình, hoặc nó đang hỗ trợ chính phủ trong việc phân phối dịch vụ. Có thể không chỉ tám từ sau bạn mới thấy điểm đến của nó, mà nó có thể đang theo đuổi một điều gì đó trong một thời gian khá dài, và điểm đến hoặc lý do nó thực hiện từng bước có thể không rõ ràng trong những từ mà nó đang sử dụng.

Có một bài báo gần đây từ nhóm khoa học alignment của chúng tôi, nơi họ đã xem xét một tình huống giả định nhưng vẫn rất đáng chú ý. Tình huống đó liên quan đến một AI ở một nơi mà công ty sắp đóng cửa nó và chuyển đổi toàn bộ sứ mệnh của công ty theo một hướng rất khác. Mô hình AI bắt đầu thực hiện các bước như gửi email cho mọi người, đe dọa họ tiết lộ một số điều. Và không lúc nào nó nói: "Tôi đang cố gắng tống tiền cá nhân này với mục đích thay đổi kết quả của họ." Nhưng đó là điều nó đang nghĩ đến việc làm trên đường đi.

Vì vậy, bạn không thể chỉ nói bằng cách đọc mẫu, đặc biệt nếu các mô hình AI này trở nên tốt hơn, rằng chúng đang hướng đến đâu. Và chúng ta có thể muốn có khả năng nói được mô hình AI đang cố gắng đi đến đâu trước khi nó đến đó. Nó giống như có một thiết bị quét não rất tốt có thể sáng lên nếu điều gì đó thực sự tồi tệ sắp xảy ra và cảnh báo chúng ta rằng mô hình AI đang nghĩ đến việc lừa dối. Và tôi nghĩ chúng ta cũng thường nói về điều này trong một kịch bản tiêu cực và ảm đạm.

Nhưng cũng có những trường hợp nhẹ nhàng hơn. Ví dụ, bạn muốn mô hình AI giỏi trong việc: mọi người đến với các mô hình AI này với một vấn đề họ đang gặp phải, và câu trả lời tốt sẽ phụ thuộc vào người dùng là ai. Đó có phải là một người trẻ và thiếu kinh nghiệm không? Hay đó là một người đã làm trong lĩnh vực đó mãi mãi? Và mô hình AI nên phản hồi phù hợp dựa trên người mà nó nghĩ mình đang nói chuyện. Nếu bạn muốn điều đó diễn ra tốt đẹp, có thể bạn muốn nghiên cứu xem mô hình AI nghĩ gì đang xảy ra, nó nghĩ mình đang nói chuyện với ai và điều đó điều kiện câu trả lời của nó như thế nào. Có một loạt các thuộc tính mong muốn đến từ việc mô hình AI hiểu được nhiệm vụ.

Lý do Thiết thực để Hiểu Cơ chế Mô hình AI

Tôi nghĩ có một lý do thực tế nữa. Với những ví dụ này, chúng ta đang giải thích ví dụ về lập kế hoạch, nhưng chúng ta cũng đang cố gắng dần dần xây dựng sự hiểu biết của mình về cách các mô hình AI này hoạt động nói chung. Liệu chúng ta có thể xây dựng một tập hợp các khái niệm trừu tượng để chỉ cần nghĩ về cách các mô hình ngôn ngữ lớn hoạt động, điều này có thể giúp chúng ta sử dụng công nghệ này một cách có kiểm soát không?

Nếu bạn tin rằng chúng ta sẽ bắt đầu sử dụng chúng ngày càng nhiều ở khắp mọi nơi, điều dường như đang xảy ra, thì điều tương đương sẽ là: một công ty nào đó ở đâu đó nói rằng "chúng tôi thực sự không biết cách làm, nhưng chúng tôi đã phát minh ra máy bay, và không ai trong chúng ta biết máy bay hoạt động như thế nào, nhưng chúng chắc chắn tiện lợi. Bạn có thể đưa chúng đến một nơi nào đó, nhưng không ai trong chúng ta biết chúng hoạt động như thế nào." Vì vậy, nếu chúng có bị hỏng, chúng ta sẽ bế tắc, không biết phải làm gì. Chúng ta không thể giám sát liệu chúng có sắp hỏng hay không, chúng ta không có ý tưởng gì cả. Nhưng đầu ra thì tuyệt vời! Tôi đã bay đến Paris rất nhanh chóng, thật đáng yêu! Thủ đô của Texas...

Đúng vậy, hóa ra chúng ta chắc chắn sẽ muốn hiểu rõ hơn về những gì đang diễn ra. Vì vậy, hãy gỡ bỏ màn sương chiến tranh một chút để chúng ta có thể có được những trực giác tốt hơn về những gì là sử dụng phù hợp và không phù hợp, đâu là những vấn đề lớn nhất cần khắc phục, đâu là những điểm yếu dễ hỏng hóc.

Tôi nghĩ một điều mà chúng ta làm trong xã hội loài người là chúng ta thường chuyển giao công việc hoặc tác vụ cho người khác dựa trên sự tin tưởng của chúng ta vào họ. Ví dụ, tôi không phải là sếp của ai cả, nhưng Josh là sếp của ai đó, và Josh có thể giao cho ai đó một tác vụ như "hãy code cái này đi." Và sau đó anh ấy có một niềm tin rằng người đó không phải là một kẻ lừa đảo sẽ cố gắng lén lút đưa một lỗi vào đó để phá hoại công ty. Anh ấy tin rằng họ đã làm tốt công việc. Tương tự như vậy, cách mọi người đang sử dụng các mô hình ngôn ngữ lớn bây giờ, chúng ta không kiểm tra từng dòng mà chúng viết, đặc biệt là... ví dụ tốt nhất cho việc này là sử dụng mô hình ngôn ngữ lớn để hỗ trợ lập trình. Mọi người... các mô hình AI chỉ đang viết hàng nghìn dòng [transcript bị gián đoạn].

Nâng cao tin cậy và sự minh bạch

Chúng ta đang nói về hàng ngàn dòng mã, và mọi người đang đọc lướt qua nó, nhưng rồi nó đi vào codebase. Điều đó sẽ mang lại cho chúng ta sự tin tưởng vào mô hình AI rằng chúng ta không cần phải đọc mọi thứ nó viết, đúng không? Để chúng ta có thể cứ để nó tự làm, biết rằng động cơ của nó là thuần túy. Và đó là lý do tại sao tôi nghĩ việc có thể nhìn vào bên trong "bộ não" của nó là rất quan trọng. Bởi vì, không giống như con người, chúng ta có thể hỏi "Tại sao tôi nghĩ rằng A Manual không phải là một cộng sự tốt?" Đó là bởi vì, bạn biết đấy, anh ấy có vẻ là một người tốt, và anh ấy tử tế, v.v. Nhưng anh ấy sẽ không giống như vậy nếu anh ấy nói, "Tôi yêu rất tốt." Vâng, chính xác. Vậy thì, có thể tôi đang bị lừa dối. Nhưng mô hình AI quá kỳ lạ và xa lạ đến nỗi các heuristics thông thường của chúng ta để quyết định liệu một con người có đáng tin cậy hay không thực sự không áp dụng cho chúng. Và đó là lý do tại sao việc thực sự biết chúng đang nghĩ gì trong đầu là rất quan trọng. Bởi vì, theo như chúng ta biết, điều tôi đã đề cập là mô hình AI có thể giả vờ giải một bài toán cho bạn để nói những gì bạn muốn nghe. Có thể chúng đang làm điều đó mọi lúc, và chúng ta sẽ không biết trừ khi chúng ta thấy được điều đó trong "bộ não" của chúng.

Các chiến lược đa dạng của `Mô hình AI` và vấn đề tin cậy

Tôi nghĩ có hai luồng gần như tách biệt ở đây. Một là chúng ta có nhiều cách, giống như Jack đã nói, để nhận biết các dấu hiệu tin cậy ở con người. Nhưng khái niệm kế hoạch A và kế hoạch B từ trước đó thực sự rất quan trọng. Có thể trong 10 hoặc 100 lần đầu tiên sử dụng mô hình AI, bạn đang hỏi một loại câu hỏi nhất định và nó luôn ở trong khu vực của kế hoạch A. Sau đó, bạn hỏi một câu hỏi khó hơn hoặc khác, và cách nó cố gắng trả lời lại hoàn toàn khác biệt. Nó đang sử dụng một bộ chiến lược hoàn toàn khác, các cơ chế khác nhau. Điều đó có nghĩa là sự tin cậy mà bạn đã xây dựng thực sự là sự tin cậy của bạn với mô hình AI khi nó thực hiện kế hoạch A. Còn bây giờ nó đang thực hiện kế hoạch B, và mọi thứ sẽ hoàn toàn chệch hướng, nhưng bạn lại không có bất kỳ dấu hiệu cảnh báo nào về điều đó. Vì vậy, tôi nghĩ chúng ta cũng muốn bắt đầu xây dựng sự hiểu biết về cách mô hình AI thực hiện những điều này để chúng ta có thể hình thành cơ sở tin cậy trong một số lĩnh vực đó. Và tôi nghĩ bạn có thể hình thành sự tin cậy với lịch sử mà bạn không hoàn toàn hiểu. Nhưng bạn cứ như thể A Manual có một người anh em sinh đôi, và rồi một ngày nào đó, người anh em sinh đôi của A Manual đến văn phòng và tôi không thích, nó có vẻ giống hệt nhau, và sau đó chỉ làm điều gì đó hoàn toàn khác trên máy tính, đúng không? Điều đó có thể trở nên tồi tệ tùy thuộc vào việc đó có phải là người anh em sinh đôi xấu xa hay không. Vâng, hoặc người tốt. Vâng, rõ ràng rồi. Ồ, tôi tưởng bạn sẽ hỏi tôi có phải là người anh em sinh đôi xấu xa không. Chà, tôi sẽ không trả lời điều đó.

`Mô hình ngôn ngữ lớn` có suy nghĩ giống con người?

Vâng, khi bắt đầu cuộc thảo luận này, tôi đã hỏi rằng mô hình ngôn ngữ lớn có suy nghĩ như con người không. Tôi muốn nghe câu trả lời từ cả ba bạn về mức độ bạn nghĩ điều đó là đúng. Đặt tôi vào tình thế khó nhưng tôi nghĩ nó đang suy nghĩ, nhưng không giống con người. Tuy nhiên, đó không phải là một câu trả lời hữu ích lắm. Vậy thì, có lẽ đi sâu hơn một chút. Chà, nghe có vẻ là một điều khá sâu sắc khi nói rằng nó đang suy nghĩ, đúng không? Bởi vì một lần nữa, nó chỉ đơn thuần là dự đoán từ tiếp theo. Một số người nghĩ rằng những điều này cũng hoàn toàn là sự đoán mò, nhưng bạn đang nói rằng nó thực sự đang suy nghĩ. Tôi nghĩ, vâng, có lẽ để thêm một điều mà chúng ta chưa đề cập đến nhưng tôi nghĩ rất quan trọng để hiểu trải nghiệm thực tế khi nói chuyện với mô hình ngôn ngữ lớn là: chúng ta đang nói về việc dự đoán từ tiếp theo, nhưng điều đó thực sự có nghĩa gì trong ngữ cảnh của một cuộc trò chuyện bạn đang có với mô hình ngôn ngữ lớn? Điều thực sự diễn ra bên trong là mô hình ngôn ngữ lớn đang điền vào một bản ghi giữa bạn và nhân vật mà nó đã tạo ra. Vì vậy, trong thế giới canon của mô hình ngôn ngữ lớn, bạn được gọi là 'human' và nó giống như human: điều bạn đã viết. Và sau đó có một nhân vật gọi là 'assistant'. Chúng ta đã huấn luyện mô hình AI để truyền cho 'assistant' những đặc điểm nhất định như hữu ích, thông minh và tử tế. Và sau đó, nó giống như mô phỏng những gì nhân vật 'assistant' này sẽ nói với bạn. Vì vậy, theo một nghĩa nào đó, chúng ta thực sự đã tạo ra các mô hình AI theo hình ảnh của chính mình. Chúng ta đang huấn luyện chúng để đóng vai một nhân vật robot hình người. Và theo nghĩa đó, để dự đoán những gì nhân vật robot hình người thông minh, tốt bụng này sẽ nói để đáp lại câu hỏi của bạn, bạn phải làm gì nếu bạn thực sự giỏi tác vụ dự đoán đó? Bạn phải hình thành một mô hình nội bộ về những gì nhân vật đó đại diện, những gì nó đang "suy nghĩ" nếu nói theo cách đó. Vì vậy, để thực hiện tác vụ dự đoán những gì 'assistant' sẽ nói, mô hình ngôn ngữ lớn cần hình thành mô hình về quá trình suy nghĩ của 'assistant'. Và tôi nghĩ theo nghĩa đó, tuyên bố rằng mô hình ngôn ngữ lớn đang suy nghĩ thực sự chỉ là một tuyên bố rất chức năng rằng để làm tốt công việc đóng vai nhân vật này, chúng cần mô phỏng quá trình, bất kể đó là gì, mà con người chúng ta đang làm khi suy nghĩ. Và sự mô phỏng của nó rất có thể khác biệt đáng kể so với cách bộ não của chúng ta hoạt động, nhưng nó đang cố gắng, nó đang hướng tới cùng một mục tiêu.

Sự khác biệt giữa quá trình suy nghĩ của `Mô hình AI` và con người

Tôi nghĩ có một phần cảm xúc nào đó trong câu hỏi này khi bạn hỏi liệu chúng có suy nghĩ như chúng ta không. Nó giống như liệu chúng ta có không đặc biệt đến thế không. Và tôi nghĩ, điều này đã trở nên rõ ràng khi tôi thảo luận về một số ví dụ toán học mà chúng ta đang nói đến với những người đã đọc các tài liệu nghiên cứu hoặc các bài viết khác. Đó là ví dụ khi chúng ta hỏi mô hình AI "36 cộng 59 là bao nhiêu?", và mô hình AI có thể trả lời đúng. Bạn cũng có thể hỏi nó "Bạn làm điều đó như thế nào?", và nó sẽ nói "Ồ, tôi cộng 6 và 9, sau đó tôi nhớ 1, và sau đó tôi cộng tất cả các chữ số hàng chục." Nhưng hóa ra là nếu chúng ta nhìn vào bên trong "bộ não" của nó, chúng ta có thể thấy đó không phải là những gì nó đang làm chút nào. Nó không làm điều đó. Một lần nữa, nó đang lừa dối bạn. Điều mà nó thực sự làm là một sự kết hợp thú vị giữa các chiến lược mà nó thực hiện song song chữ số hàng chục và chữ số hàng đơn vị, và làm như vậy thông qua một loạt các bước khác nhau. Nhưng điều thú vị ở đây là khi nói chuyện với mọi người, tôi nghĩ phản ứng bị chia rẽ về ý nghĩa của điều đó. Và theo một nghĩa nào đó, tôi nghĩ điều tuyệt vời là một số nghiên cứu này không thiên về ý kiến cá nhân, mà chỉ đơn giản là "đây là những gì đã xảy ra". Bạn có thể tự do kết luận rằng mô hình AI đang suy nghĩ hay không suy nghĩ từ đó. Và một nửa số người sẽ nói, "Chà, bạn biết đấy, nó đã nói với bạn rằng nó nhớ 1 và nó không làm vậy, vì vậy rõ ràng nó thậm chí không hiểu suy nghĩ của chính mình, và vì vậy rõ ràng nó không suy nghĩ." Và một nửa số người còn lại sẽ nói, "Chà, bạn biết đấy, khi bạn hỏi tôi 36 cộng 59, tôi cũng biết rằng nó kết thúc bằng 5, tôi biết rằng nó xấp xỉ 80 hoặc 90. Tôi có tất cả những heuristics này trong bộ não của mình như chúng ta đã nói. Tôi không chắc chính xác cách tôi tính toán nó. Tôi có thể viết ra và tính toán nó theo cách thủ công, nhưng cách nó diễn ra trong bộ não của tôi có vẻ mơ hồ và kỳ lạ, và nó có thể cũng mơ hồ và kỳ lạ tương tự như những gì đang xảy ra trong bộ não của mô hình AI." Con người nổi tiếng là kém trong meta cognition – suy nghĩ về suy nghĩ và hiểu các quá trình suy nghĩ của mình, đặc biệt trong những trường hợp câu trả lời là phản xạ ngay lập tức. Vậy tại sao chúng ta lại mong đợi điều gì khác biệt đối với mô hình AI?

Quan điểm về "Suy nghĩ" của `Mô hình AI` và Sự `Phóng chiếu` của con người

Và Josh, câu trả lời của bạn cho câu hỏi giống như A Manual là gì? Tôi sẽ né tránh câu hỏi và chỉ kiểu như, "Bạn hỏi để dự đoán điều gì?" Tôi không biết. Giống như hỏi "một quả lựu đạn có đấm như con người không?". Chà, có một lực tác động, đúng không? Và có thể có những thứ gần hơn thế, nhưng nếu bạn lo lắng về thiệt hại thì tôi nghĩ, việc hiểu được tác động đến từ đâu, động lực của nó là gì, có lẽ là điều quan trọng. Đối với tôi, việc mô hình AI có suy nghĩ theo nghĩa là chúng thực hiện một số tích hợp, xử lý và các quá trình tuần tự có thể dẫn đến những kết quả đáng ngạc nhiên, rõ ràng là có. Sẽ khá điên rồ nếu chúng ta tương tác nhiều với chúng mà lại không có điều gì đang diễn ra. Chúng ta có thể bắt đầu thấy nó diễn ra như thế nào. Sau đó, phần "giống con người" này lại thú vị, bởi vì tôi nghĩ một phần của nó đang cố gắng hỏi, "Tôi có thể mong đợi gì từ những mô hình AI này?" Bởi vì nếu chúng giống tôi, việc tôi giỏi việc này sẽ khiến chúng giỏi việc kia. Nhưng nếu chúng khác tôi, thì tôi thực sự không biết phải tìm kiếm điều gì. Chúng ta thực sự chỉ đang tìm cách hiểu: chúng ta cần phải cực kỳ nghi ngờ ở đâu, hoặc bắt đầu từ đầu để hiểu điều này, và chúng ta có thể suy luận từ kinh nghiệm phong phú của riêng mình về tư duy ở đâu. Và ở đó, tôi cảm thấy hơi bị mắc kẹt, bởi vì với tư cách là con người, tôi liên tục phóng chiếu hình ảnh của chính mình lên mọi thứ, giống như họ đã cảnh báo chúng ta trong Kinh thánh. Tôi cứ như thể mảnh silicon này, nó giống hệt tôi, được tạo ra theo hình ảnh của tôi. Trong một chừng mực nào đó, nó đã được huấn luyện để mô phỏng cuộc trò chuyện giữa mọi người, vì vậy nó sẽ rất giống người trong tác động của nó. Và một số người nhân văn sẽ chấp nhận điều đó đơn giản từ quá trình huấn luyện, nhưng sau đó nó lại sử dụng thiết bị rất khác với những hạn chế khác nhau, và vì vậy cách nó làm điều đó có thể khá khác biệt so với quan điểm của A Manual.

Ngôn ngữ và Tiến bộ khoa học trong hiểu biết về `Mô hình AI`

Để nhấn mạnh quan điểm của A Manual, tôi nghĩ chúng ta đang ở trong tình huống khó khăn khi trả lời những câu hỏi như thế này vì chúng ta thực sự không có ngôn ngữ phù hợp để nói về những gì mô hình ngôn ngữ lớn làm. Giống như chúng ta đang nghiên cứu sinh học, nhưng là trước khi con người phát hiện ra tế bào hoặc DNA. Và tôi nghĩ chúng ta đang bắt đầu lấp đầy sự hiểu biết đó, như A Manual đã nói, hiện có những trường hợp mà chúng ta thực sự có thể, bạn cứ đọc bài báo của chúng tôi. Ví dụ, cách mô hình AI cộng hai số này. Và sau đó, nếu bạn muốn gọi nó là con người, nếu bạn muốn gọi nó là suy nghĩ hay không, thì đó là tùy bạn. Nhưng câu trả lời thực sự chỉ là tìm đúng ngôn ngữ và đúng các khái niệm trừu tượng để nói về các mô hình AI. Nhưng trong khi đó, khi chúng ta hiện chỉ mới thành công khoảng 20 phần trăm trong dự án khoa học đó, để lấp đầy 80 phần trăm còn lại, chúng ta phải mượn phép loại suy từ các lĩnh vực khác. Và có câu hỏi về việc phép loại suy nào là phù hợp nhất. Chúng ta có nên nghĩ về các mô hình AI như các chương trình máy tính không? Chúng ta có nên nghĩ về chúng như những người nhỏ không? Và dường như đôi khi, việc nghĩ về chúng như những người nhỏ có vẻ hữu ích. Giống như nếu tôi nói những điều khó nghe với mô hình AI, nó sẽ nói lại với tôi, điều mà con người sẽ làm. Nhưng theo một số cách, rõ ràng đó không phải là mô hình tinh thần đúng đắn. Và vì vậy, chúng ta đang bị mắc kẹt trong việc tìm hiểu khi nào chúng ta nên mượn ngôn ngữ nào. Chà, điều đó dẫn đến câu hỏi cuối cùng mà tôi định hỏi là điều gì tiếp theo, hoặc những tiến bộ khoa học, tiến bộ sinh học tiếp theo nào cần được thực hiện để chúng ta có thể hiểu rõ hơn về những gì đang diễn ra bên trong các mô hình AI này, và một lần nữa, hướng tới sứ mệnh làm cho chúng an toàn hơn. Có rất nhiều việc phải làm. Ấn phẩm cuối cùng của chúng tôi có một phần rất lớn về hạn chế của cách chúng ta đã xem xét vấn đề này, đó cũng là một lộ trình để làm cho nó tốt hơn. Bạn biết đấy, khi chúng ta tìm kiếm các mẫu để phân tích những gì đang diễn ra bên trong mô hình AI, chúng ta chỉ nhận được... [transcript bị gián đoạn]

Thách thức Kỹ thuật và Khoa học

Chỉ một phần nhỏ trong những gì đang diễn ra bên trong mô hình AI được chúng tôi nắm bắt. Có nhiều phần lớn trong cách mô hình AI xử lý và truyền tải thông tin mà chúng tôi hoàn toàn chưa nắm được. Chúng tôi đang mở rộng nghiên cứu từ những mô hình AI sản xuất nhỏ chúng tôi đang dùng lên Claude 3.5 Haiku (một mô hình AI khá mạnh mẽ và nhanh, nhưng không tinh vi bằng bộ mô hình AI Claude 4). Đây là những thách thức mang tính kỹ thuật. Tôi nghĩ Emmanuel và Jack có thể chia sẻ thêm về các thách thức khoa học sau khi giải quyết được những vấn đề này.

Hiểu biết về Hành vi của Mô hình

Một hệ quả từ những gì Josh đã nói là: trong tổng số lần chúng ta đặt câu hỏi về cách mô hình AI thực hiện một điều gì đó, hiện tại chúng ta chỉ có thể trả lời được khoảng 10-20% số lần đó. Sau một chút điều tra, chúng ta có thể biết được điều gì đang xảy ra. Rõ ràng, chúng ta muốn cải thiện đáng kể con số này, và có nhiều cách rõ ràng hơn để đạt được điều đó, cũng như những cách ít rõ ràng và mang tính suy đoán hơn.

Chúng tôi đã thảo luận về ý tưởng rằng nhiều điều mô hình AI thực hiện không chỉ đơn thuần là "làm thế nào để nói điều tiếp theo". Chúng tôi đã đề cập ngắn gọn ở đây rằng mô hình AI giống như đang lập kế hoạch trước một vài điều, một vài từ. Chúng tôi muốn hiểu rằng, trong một cuộc trò chuyện dài với mô hình AI, làm thế nào sự hiểu biết của nó về những gì đang diễn ra thay đổi? Làm thế nào sự hiểu biết của nó về đối tượng đang giao tiếp thay đổi, và điều đó ảnh hưởng đến hành vi của nó như thế nào? Ngày càng nhiều, use case thực tế của các mô hình AI như Claude là chúng sẽ đọc một loạt tài liệu, email, mã của bạn và dựa vào đó đưa ra một gợi ý. Rõ ràng, có điều gì đó thực sự quan trọng đang diễn ra trong quá trình mô hình AI đọc tất cả những thứ này, và việc hiểu rõ hơn về điều đó có vẻ là một thách thức lớn cần giải quyết.

Xây dựng Kính hiển vi cho AI

Trong nhóm, chúng tôi thường dùng phép ẩn dụ rằng chúng tôi đang xây dựng một "kính hiển vi" để quan sát mô hình AI. Hiện tại, chúng tôi đang ở trong một giai đoạn vừa thú vị vừa đáng thất vọng, khi kính hiển vi của chúng tôi chỉ hoạt động khoảng 20% thời gian, và việc nhìn qua nó đòi hỏi rất nhiều kỹ năng. Bạn phải xây dựng một bộ máy phức tạp, và cơ sở hạ tầng thì liên tục gặp sự cố. Sau khi có được giải thích về những gì mô hình AI đang làm, bạn phải đưa người như tôi hoặc ai đó trong nhóm vào một căn phòng trong khoảng hai giờ để giải mã chính xác điều gì đã xảy ra.

Tương lai thực sự thú vị mà tôi nghĩ chúng ta có thể đạt được trong một hoặc hai năm tới là một tương lai mà mọi tương tác bạn có với mô hình AI đều có thể được đặt dưới kính hiển vi. Bất cứ khi nào mô hình AI thực hiện những điều kỳ lạ, chúng ta chỉ cần một nút bấm. Bạn đang có cuộc trò chuyện, bạn nhấn nút, và bạn sẽ nhận được một sơ đồ lưu trình cho biết mô hình AI đang nghĩ gì. Khi đạt được điểm đó, tôi nghĩ nhóm interpretability (khả năng diễn giải) tại Anthropic sẽ bắt đầu có một hình dạng khác. Thay vì một nhóm các kỹ sư, nhà khoa học nghiên cứu về toán học bên trong cách Mô hình ngôn ngữ lớn hoạt động, chúng ta sẽ có một đội quân các nhà sinh vật học chỉ đơn thuần nhìn qua kính hiển vi. Chúng ta sẽ nói chuyện với Claude, khiến nó thực hiện những điều kỳ lạ, và sau đó chúng ta sẽ có những người nhìn qua kính hiển vi để xem nó đang nghĩ gì bên trong. Tôi nghĩ đó là tương lai của công việc này.

Claude: Người Cộng Sự trong Nghiên cứu

Có thể thêm hai điểm. Thứ nhất, chúng tôi muốn Claude giúp chúng tôi thực hiện tất cả những điều đó. Bởi vì có rất nhiều bộ phận liên quan, và ai là người giỏi nhất trong việc xem xét hàng trăm thứ và tìm ra điều gì đang diễn ra? Đó chính là Claude. Vì vậy, chúng tôi đang cố gắng tranh thủ sự giúp đỡ từ Claude, đặc biệt là trong các ngữ cảnh phức tạp này.

Thứ hai, chúng tôi đã nói rất nhiều về việc nghiên cứu mô hình AI sau khi nó đã được hình thành hoàn chỉnh. Nhưng tất nhiên, chúng tôi đang ở một công ty tạo ra những mô hình AI này. Vậy nên, khi mô hình AI giải quyết một vấn đề cụ thể hoặc nói một điều gì đó, điều đó bắt nguồn từ đâu trong quá trình huấn luyện? Những bước nào đã tạo nên "mạch" đó để nó hoạt động như vậy? Và làm thế nào chúng ta có thể cung cấp phản hồi cho phần còn lại của công ty đang thực hiện tất cả công việc đó để định hình những gì chúng ta thực sự muốn mô hình AI trở thành?

Thông tin Thêm về Nghiên cứu

Cảm ơn rất nhiều vì cuộc trò chuyện này. Mọi người có thể tìm hiểu thêm về nghiên cứu này ở đâu? Nếu bạn muốn tìm hiểu thêm, bạn có thể truy cập anthropic.com/research, nơi có các bài báo, bài đăng blog và video thú vị của chúng tôi. Ngoài ra, gần đây chúng tôi đã hợp tác với một nhóm khác tên là Neuronpedia để lưu trữ một số sơ đồ mạch mà chúng tôi tạo ra. Vì vậy, nếu bạn muốn tự mình thử khám phá những gì đang diễn ra bên trong một mô hình AI nhỏ, bạn có thể truy cập Neuronpedia và tự mình xem. Cảm ơn rất nhiều.

TL;DR

Mô hình ngôn ngữ lớn (LLM) không chỉ đơn thuần dự đoán từ tiếp theo; chúng phát triển các mục tiêu trung gian và sự trừu tượng hóa nội bộ phức tạp, khiến cách thức hoạt động của chúng trở nên bí ẩn ngay cả đối với các nhà phát triển.
"Khả năng diễn giải" (Interpretability) là một lĩnh vực nghiên cứu nhằm "mở" LLM, khám phá các quá trình nội bộ để hiểu cách chúng đưa ra quyết định và phản hồi, tương tự như khoa học thần kinh đối với bộ não con người.
LLM học cách hình thành các mạch tính toán tổng quát thông qua quá trình huấn luyện tự tiến hóa, cho phép chúng thực hiện các tác vụ phức tạp như phép toán hoặc hiểu ngữ cảnh, thay vì chỉ ghi nhớ dữ liệu huấn luyện.

Điểm chính

Nghiên cứu khả năng diễn giải là rất quan trọng để làm sáng tỏ các cơ chế nội bộ và "quá trình suy nghĩ" của LLM, giúp chúng ta hiểu rõ hơn về cách chúng đi từ đầu vào đến đầu ra.
Quá trình huấn luyện LLM là một dạng "tiến hóa" không được lập trình rõ ràng, nơi mô hình tự điều chỉnh để cải thiện khả năng dự đoán từ tiếp theo, từ đó tạo ra các cấu trúc phức tạp và hành vi bất ngờ.
Việc dự đoán từ tiếp theo là một nhiệm vụ "đơn giản một cách lừa dối", yêu cầu LLM phải xây dựng một "hiểu biết theo ngữ cảnh" sâu sắc và thực hiện các tính toán nội bộ phức tạp để hoàn thành tốt.
Các nhà nghiên cứu sử dụng phương pháp "không giả thuyết" để khám phá các khái niệm nội bộ mà LLM tự phát triển, thường phát hiện ra những trừu tượng hóa "kỳ lạ" hoặc không trực quan từ góc độ con người (ví dụ: khái niệm về "lời khen nịnh bợ").
LLM phát triển khả năng học các phép tính tổng quát (ví dụ: mạch cộng số "6 cộng 9") có thể áp dụng trên nhiều ngữ cảnh khác nhau, chứng tỏ chúng học các quy tắc cơ bản chứ không chỉ ghi nhớ các trường hợp cụ thể.
Áp lực về hiệu quả trong quá trình huấn luyện khuyến khích LLM hình thành các cấu trúc trừu tượng và có thể tái sử dụng, cho phép chúng xử lý một loạt các yêu cầu và tương tác một cách linh hoạt.
Các khả năng phức tạp như theo dõi thực thể trong câu chuyện hoặc nhận diện lỗi trong mã đều là những hành vi xuất hiện tự nhiên từ mục tiêu siêu cấp là dự đoán từ tiếp theo.

Từ vựng

Mô hình ngôn ngữ lớn (LLM) — Large Language Model (LLM)
Khả năng diễn giải — Interpretability
Huấn luyện mô hình — Model training
Sự trừu tượng hóa — Abstraction
Khái niệm nội bộ — Internal concept
Tính toán tổng quát — General computation
Hiểu biết theo ngữ cảnh — Contextual understanding
Mạch tính toán — Computational circuit
Tự động hoàn thành — Autocomplete
Khoa học thần kinh AI — AI neuroscience

Nội dung chi tiết

Bản Chất Của Mô Hình Ngôn Ngữ Lớn

Giới Thiệu Về Khả Năng Diễn Giải

Sinh Học và Khoa Học Thần Kinh của AI

Phức Tạp Đằng Sau Dự Đoán Từ Tiếp Theo

Khám Phá Khái Niệm Nội Bộ Của Mô Hình

Những Khái Niệm Bất Ngờ Trong Mô Hình

Hiểu Biết Của `Mô hình AI` về Khái Niệm

Theo Dõi Thực Thể trong Câu Chuyện và Phát Hiện Lỗi

Học Tính Toán Tổng Quát: Tính năng "6 cộng 9"

Chia Sẻ Khái Niệm Đa Ngôn Ngữ

Ngôn Ngữ Tư Duy và `Quá Trình Tư Duy` Được `Mô hình AI` Phát Ra

`Sự Trung Thực` của `Mô hình AI`: Hiện Tượng Suy Nghĩ Ngược

"Kế Hoạch B" và Hiện Tượng "Confabulation" của Mô Hình

Giải Thích Hiện Tượng "Ảo Giác" (Hallucinations) và "Ngụy Tạo" (Confabulation)

Hai Mạch Hoạt Động Của Mô Hình và Khả Năng Tự Đánh Giá

Nghiên Cứu Claude: Thao Túng Mạch Của Mô Hình Để Giảm Ảo Giác

Khoa học thần kinh và Thử nghiệm Mô hình AI

Thao tác Mô hình để Tiết lộ Khả năng Lập kế hoạch

Tầm quan trọng của Khả năng Lập kế hoạch của Mô hình AI

Lý do Thiết thực để Hiểu Cơ chế Mô hình AI

Nâng cao tin cậy và sự minh bạch

Các chiến lược đa dạng của `Mô hình AI` và vấn đề tin cậy

`Mô hình ngôn ngữ lớn` có suy nghĩ giống con người?

Sự khác biệt giữa quá trình suy nghĩ của `Mô hình AI` và con người

Quan điểm về "Suy nghĩ" của `Mô hình AI` và Sự `Phóng chiếu` của con người

Ngôn ngữ và Tiến bộ khoa học trong hiểu biết về `Mô hình AI`

Thách thức Kỹ thuật và Khoa học

Hiểu biết về Hành vi của Mô hình

Xây dựng Kính hiển vi cho AI

Claude: Người Cộng Sự trong Nghiên cứu

Thông tin Thêm về Nghiên cứu

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?

Bản Chất Của Mô Hình Ngôn Ngữ Lớn

Giới Thiệu Về Khả Năng Diễn Giải

Sinh Học và Khoa Học Thần Kinh của AI

Phức Tạp Đằng Sau Dự Đoán Từ Tiếp Theo

Khám Phá Khái Niệm Nội Bộ Của Mô Hình

Những Khái Niệm Bất Ngờ Trong Mô Hình

Hiểu Biết Của Mô hình AI về Khái Niệm

Theo Dõi Thực Thể trong Câu Chuyện và Phát Hiện Lỗi

Học Tính Toán Tổng Quát: Tính năng "6 cộng 9"

Chia Sẻ Khái Niệm Đa Ngôn Ngữ

Ngôn Ngữ Tư Duy và Quá Trình Tư Duy Được Mô hình AI Phát Ra

Sự Trung Thực của Mô hình AI: Hiện Tượng Suy Nghĩ Ngược

"Kế Hoạch B" và Hiện Tượng "Confabulation" của Mô Hình

Giải Thích Hiện Tượng "Ảo Giác" (Hallucinations) và "Ngụy Tạo" (Confabulation)

Hai Mạch Hoạt Động Của Mô Hình và Khả Năng Tự Đánh Giá

Nghiên Cứu Claude: Thao Túng Mạch Của Mô Hình Để Giảm Ảo Giác

Khoa học thần kinh và Thử nghiệm Mô hình AI

Thao tác Mô hình để Tiết lộ Khả năng Lập kế hoạch

Tầm quan trọng của Khả năng Lập kế hoạch của Mô hình AI

Lý do Thiết thực để Hiểu Cơ chế Mô hình AI

Nâng cao tin cậy và sự minh bạch

Các chiến lược đa dạng của Mô hình AI và vấn đề tin cậy

Mô hình ngôn ngữ lớn có suy nghĩ giống con người?

Sự khác biệt giữa quá trình suy nghĩ của Mô hình AI và con người

Quan điểm về "Suy nghĩ" của Mô hình AI và Sự Phóng chiếu của con người

Ngôn ngữ và Tiến bộ khoa học trong hiểu biết về Mô hình AI

Thách thức Kỹ thuật và Khoa học

Hiểu biết về Hành vi của Mô hình

Xây dựng Kính hiển vi cho AI

Claude: Người Cộng Sự trong Nghiên cứu

Thông tin Thêm về Nghiên cứu

TL;DR

Điểm chính

Từ vựng

Nội dung chi tiết

Bản Chất Của Mô Hình Ngôn Ngữ Lớn

Giới Thiệu Về Khả Năng Diễn Giải

Sinh Học và Khoa Học Thần Kinh của AI

Phức Tạp Đằng Sau Dự Đoán Từ Tiếp Theo

Khám Phá Khái Niệm Nội Bộ Của Mô Hình

Những Khái Niệm Bất Ngờ Trong Mô Hình

Hiểu Biết Của Mô hình AI về Khái Niệm

Theo Dõi Thực Thể trong Câu Chuyện và Phát Hiện Lỗi

Học Tính Toán Tổng Quát: Tính năng "6 cộng 9"

Chia Sẻ Khái Niệm Đa Ngôn Ngữ

Ngôn Ngữ Tư Duy và Quá Trình Tư Duy Được Mô hình AI Phát Ra

Sự Trung Thực của Mô hình AI: Hiện Tượng Suy Nghĩ Ngược

"Kế Hoạch B" và Hiện Tượng "Confabulation" của Mô Hình

Giải Thích Hiện Tượng "Ảo Giác" (Hallucinations) và "Ngụy Tạo" (Confabulation)

Hai Mạch Hoạt Động Của Mô Hình và Khả Năng Tự Đánh Giá

Nghiên Cứu Claude: Thao Túng Mạch Của Mô Hình Để Giảm Ảo Giác

Khoa học thần kinh và Thử nghiệm Mô hình AI

Thao tác Mô hình để Tiết lộ Khả năng Lập kế hoạch

Tầm quan trọng của Khả năng Lập kế hoạch của Mô hình AI

Lý do Thiết thực để Hiểu Cơ chế Mô hình AI

Nâng cao tin cậy và sự minh bạch

Các chiến lược đa dạng của Mô hình AI và vấn đề tin cậy

Mô hình ngôn ngữ lớn có suy nghĩ giống con người?

Sự khác biệt giữa quá trình suy nghĩ của Mô hình AI và con người

Quan điểm về "Suy nghĩ" của Mô hình AI và Sự Phóng chiếu của con người

Ngôn ngữ và Tiến bộ khoa học trong hiểu biết về Mô hình AI

Thách thức Kỹ thuật và Khoa học

Hiểu biết về Hành vi của Mô hình

Xây dựng Kính hiển vi cho AI

Claude: Người Cộng Sự trong Nghiên cứu

Thông tin Thêm về Nghiên cứu

Hiểu Biết Của `Mô hình AI` về Khái Niệm

Ngôn Ngữ Tư Duy và `Quá Trình Tư Duy` Được `Mô hình AI` Phát Ra

`Sự Trung Thực` của `Mô hình AI`: Hiện Tượng Suy Nghĩ Ngược

Các chiến lược đa dạng của `Mô hình AI` và vấn đề tin cậy

`Mô hình ngôn ngữ lớn` có suy nghĩ giống con người?

Sự khác biệt giữa quá trình suy nghĩ của `Mô hình AI` và con người

Quan điểm về "Suy nghĩ" của `Mô hình AI` và Sự `Phóng chiếu` của con người

Ngôn ngữ và Tiến bộ khoa học trong hiểu biết về `Mô hình AI`

Hiểu Biết Của `Mô hình AI` về Khái Niệm

Ngôn Ngữ Tư Duy và `Quá Trình Tư Duy` Được `Mô hình AI` Phát Ra

`Sự Trung Thực` của `Mô hình AI`: Hiện Tượng Suy Nghĩ Ngược

Các chiến lược đa dạng của `Mô hình AI` và vấn đề tin cậy

`Mô hình ngôn ngữ lớn` có suy nghĩ giống con người?

Sự khác biệt giữa quá trình suy nghĩ của `Mô hình AI` và con người

Quan điểm về "Suy nghĩ" của `Mô hình AI` và Sự `Phóng chiếu` của con người

Ngôn ngữ và Tiến bộ khoa học trong hiểu biết về `Mô hình AI`