Building Anthropic | A conversation with our co-founders

Các cá nhân tham gia lĩnh vực AI ban đầu bị cuốn hút bởi sự tổng quát và tiềm năng to lớn của các mô hình, thường đưa ra những "canh bạc có niềm tin" bất chấp sự hoài nghi phổ biến từ giới học thuật và công chúng.
Sự phát triển của "định luật mở rộng quy mô" và các mô hình lớn tại OpenAI đã mở ra những khả năng bất ngờ, dẫn đến việc tích hợp sâu rộng các nỗ lực mở rộng quy mô và an toàn AI, đặc biệt thông qua việc sử dụng mô hình ngôn ngữ để định hướng AI theo giá trị con người.
Việc vượt qua tư duy bảo thủ từ "mùa đông AI" và sự e ngại rủi ro của các tổ chức là yếu tố then chốt giúp lĩnh vực này tiến lên, thúc đẩy nhận thức công chúng và chính trị về tiềm năng và rủi ro nghiêm trọng của AI.

Trí tuệ nhân tạo (AI) — Artificial Intelligence (AI)
mô hình ngôn ngữ — Language model
định luật mở rộng quy mô — Scaling laws
an toàn AI — AI safety
học tăng cường với phản hồi từ con người (RLHF) — Reinforcement Learning from Human Feedback
tính toán — Computation / Compute
mùa đông AI — AI winter
hành vi bầy đàn — Herd behavior
AI theo hiến pháp — Constitutional AI
mục tiêu huấn luyện — Training objective

Lý do chúng ta làm việc với AI

Tại sao chúng ta lại làm việc với Trí tuệ nhân tạo ngay từ đầu? Tôi sẽ ngẫu nhiên chọn Jared. Tại sao bạn lại làm Trí tuệ nhân tạo? Tôi đã làm vật lý trong một thời gian dài, sau đó tôi thấy chán và muốn dành thời gian với bạn bè nhiều hơn. Tôi nghĩ vậy. Bạn đã từng thuyết phục tôi về nó chưa? Tôi không nghĩ mình đã từng đề cập rõ ràng với bạn về bất kỳ điểm nào. Tôi chỉ cho bạn xem kết quả của các mô hình AI. Và tôi đang cố gắng chỉ ra rằng chúng rất tổng quát và không chỉ áp dụng cho một thứ. Sau đó, tại một thời điểm nào đó, sau khi tôi cho bạn xem đủ, bạn đã nói, "Ồ vâng, có vẻ như đúng vậy." Bạn đã làm giáo sư bao lâu trước khi bắt đầu? Tôi nghĩ khoảng sáu năm gì đó. Tôi nghĩ tôi đã giúp tuyển dụng Sam. Tôi nói chuyện với bạn và bạn nói, "Tôi nghĩ tôi đã tạo ra một môi trường tốt ở đây, và mục tiêu của tôi là đưa Tom quay lại." Và sau đó thì nó đã thành công.

Và Chris, bạn có gặp tất cả mọi người qua Google khi bạn làm những thứ liên quan đến trình thông dịch cấp C không? Không, tôi đoán là tôi đã gặp một số bạn khi tôi 19 tuổi và đó là lần đầu tiên tôi nghe về AI. Tôi đoán là tôi đã gặp Dario và Jared lúc đó. Tôi nghĩ họ là các nghiên cứu sinh sau tiến sĩ, điều mà tôi thấy rất tuyệt vời vào thời điểm đó. Sau đó, tôi làm việc tại Google Brain và Dario đã tham gia. Chúng tôi thực sự ngồi cạnh nhau một thời gian. Chúng tôi có bàn làm việc cạnh nhau. Và tôi cũng làm việc với Tom ở đó. Và sau đó, tất nhiên, tôi đến làm việc với tất cả các bạn tại OpenAI. Vâng. Vì vậy, tôi đoán là tôi đã biết nhiều người trong số các bạn hơn một thập kỷ, điều này khá điên rồ.

Farron, nếu tôi nhớ không lầm, tôi đã gặp Dario vào năm 2015 khi tôi đến một hội nghị và tôi đã cố gắng phỏng vấn bạn, và PR của Google nói rằng tôi sẽ đọc tất cả các bài nghiên cứu của bạn mà tôi cần. Vâng, tôi nghĩ tôi đang viết "Các vấn đề cụ thể về an toàn AI" khi tôi ở Google. Tôi nghĩ bạn đã viết một câu chuyện về bài báo đó. Tôi đã viết. Tôi nhớ ngay trước khi tôi bắt đầu làm việc với bạn, tôi nghĩ bạn đã mời tôi đến văn phòng để trò chuyện và chỉ để kể cho tôi mọi thứ về Trí tuệ nhân tạo. Và bạn đã giải thích. Sau đó tôi nhớ mình đã nghĩ, "Ồ, tôi đoán cái này, tôi đoán cái này không nghiêm trọng như tôi nghĩ." Và bạn có lẽ đã giải thích về khối lượng tính toán khổng lồ, và đếm tham số, và có bao nhiêu tế bào thần kinh trong não, mọi thứ. Tôi cảm thấy Dario thường có tác động đó lên mọi người: "Cái này nghiêm trọng hơn nhiều so với những gì tôi nhận ra." Vâng, tôi là người mang lại những khoảng thời gian vui vẻ.

Định luật Mở rộng quy mô và An toàn AI tại OpenAI

Nhưng tôi nhớ khi chúng tôi ở OpenAI, có những thứ liên quan đến định luật mở rộng quy mô và việc làm cho mọi thứ lớn hơn, và nó bắt đầu có cảm giác như đang hoạt động. Và sau đó nó tiếp tục hoạt động một cách kỳ lạ trên một loạt các dự án khác nhau, mà tôi nghĩ đó là cách chúng tôi đều làm việc chặt chẽ với nhau, vì ban đầu là DPC2. Và sau đó là định luật mở rộng quy mô và GPT-3, và chúng tôi đã trở thành những người, chúng tôi là nhóm người đã làm cho mọi thứ hoạt động. Vâng. Đúng vậy.

Tôi nghĩ chúng tôi cũng rất hào hứng về an toàn, bởi vì có một ý tưởng rằng Trí tuệ nhân tạo sẽ trở nên rất mạnh mẽ, nhưng có thể không hiểu các giá trị của con người hoặc thậm chí không thể giao tiếp với chúng ta. Và vì vậy, tôi nghĩ tất cả chúng tôi đều khá hào hứng về mô hình ngôn ngữ như một cách để đảm bảo rằng hệ thống AI sẽ phải hiểu loại kiến thức ngầm đó. Và học tăng cường để lấy phản hồi từ con người trên các mô hình ngôn ngữ, đó là toàn bộ lý do để mở rộng quy mô các mô hình này, là vì chúng tôi không thể làm được, các mô hình không đủ thông minh để thực hiện RLHF (Học tăng cường với phản hồi từ con người). Vì vậy, đó là sự đan xen giữa an toàn và mở rộng quy mô của các mô hình mà chúng ta vẫn tin tưởng ngày nay.

Vâng, tôi nghĩ cũng có một yếu tố là công việc mở rộng quy mô được thực hiện như một phần của nhóm an toàn mà Dario đã khởi xướng tại OpenAI, bởi vì chúng tôi nghĩ rằng dự báo xu hướng AI là quan trọng để chúng tôi có thể coi trọng chúng và coi an toàn là một vấn đề nghiêm túc. Đúng. Vâng, ý tôi là, tôi nhớ mình đã ở một sân bay nào đó ở Anh, lấy mẫu từ GPT-2 và sử dụng nó để viết các bài báo tin tức giả mạo và nhắn tin cho Dario và nói, "Ồ, cái này thực sự hoạt động và có những ý nghĩa chính sách lớn." Tôi nghĩ Dario đã nói điều gì đó như, "Vâng. Đó là một vấn đề nan giải. Đó là một vấn đề nan giải. Đó là một vấn đề nan giải." Nhưng sau đó chúng tôi đã làm việc rất nhiều về điều đó cũng như những thứ liên quan đến phát hành, điều này khá điên rồ. Vâng, tôi nhớ những thứ liên quan đến phát hành. Tôi nghĩ đó là khi chúng tôi bắt đầu làm việc cùng nhau. Vâng. Đó là một thời gian vui vẻ khi GPT-2 ra mắt. Vâng, nhưng tôi nghĩ điều đó tốt cho chúng tôi vì chúng tôi đã cùng nhau làm một điều hơi lạ, hướng tới an toàn, và sau đó chúng tôi đã thành lập Anthropic, một điều lớn hơn nhiều, hơi lạ, hướng tới an toàn. Đúng vậy.

Nguồn gốc của "Concrete Problems in AI Safety"

Vì vậy, tôi đoán là quay trở lại các vấn đề cụ thể, vì tôi nhớ, tôi đã gia nhập OpenAI vào năm 2016, là một trong 20 nhân viên đầu tiên, cùng với Dario. Và tôi nhớ vào thời điểm đó, "Các vấn đề cụ thể về an toàn Trí tuệ nhân tạo" dường như là bài báo đầu tiên về an toàn AI được phổ biến rộng rãi. Tôi thực sự không biết liệu tôi có bao giờ hỏi bạn câu chuyện về cách nó ra đời không. Chris biết câu chuyện vì anh ấy đã tham gia vào nó.

Tôi nghĩ cả hai chúng tôi đều ở Google. Tôi quên mất mình đang làm dự án nào khác. Nhưng với nhiều thứ, đó là nỗ lực của tôi để trì hoãn khỏi bất kỳ dự án nào khác mà tôi đang làm mà tôi đã hoàn toàn quên mất đó là gì. Nhưng tôi nghĩ Chris và tôi đã quyết định viết ra những vấn đề mở nào về an toàn AI, và cũng như an toàn AI mà bạn thường nói theo cách rất trừu tượng. Liệu chúng ta có thể đặt nền tảng cho nó trong Học máy đang diễn ra vào thời điểm đó không? Ý tôi là, bây giờ đã có khoảng sáu, bảy năm làm việc theo hướng đó, nhưng vào thời điểm đó, đó gần như là một ý tưởng lạ.

Vâng, tôi nghĩ có một cách mà nó gần như là một dự án chính trị mà vào thời điểm đó, rất nhiều người không coi trọng an toàn. Vì vậy, tôi nghĩ có một mục tiêu là tổng hợp một danh sách các vấn đề mà mọi người đồng ý là hợp lý, thường đã tồn tại trong tài liệu, và sau đó tập hợp một nhóm người từ các tổ chức khác nhau có uy tín để trở thành tác giả. Và tôi nhớ tôi đã trải qua một thời gian dài, tôi đã nói chuyện với khoảng 20 nhà nghiên cứu khác nhau tại Brain để xây dựng sự ủng hộ cho việc xuất bản bài báo. Theo một cách nào đó, nếu bạn nhìn vào nó về các vấn đề và nhiều điều mà nó nhấn mạnh, tôi nghĩ nó đã không giữ vững được tốt lắm ở chỗ, tôi nghĩ đó không thực sự là những vấn đề đúng đắn. Nhưng tôi nghĩ nếu bạn coi nó thay vào đó là một bài tập xây dựng sự đồng thuận rằng có điều gì đó ở đây là có thật và đáng để coi trọng, thì đó là một khoảnh khắc khá quan trọng.

AI theo Hiến pháp và Giải pháp Đơn giản

Ý tôi là, bạn kết thúc trong một thế giới khoa học viễn tưởng thực sự kỳ lạ mà tôi nhớ khi bắt đầu Anthropic, chúng tôi đã nói về AI theo hiến pháp. Và tôi nghĩ Jared đã nói, "Ồ, chúng ta sẽ chỉ viết một hiến pháp cho một mô hình ngôn ngữ và điều đó sẽ thay đổi tất cả hành vi của nó." Và tôi nhớ rằng điều đó nghe có vẻ vô cùng điên rồ vào thời điểm đó. Nhưng tại sao các bạn lại nghĩ rằng điều đó sẽ hiệu quả? Bởi vì tôi nhớ đó là một trong những ý tưởng nghiên cứu lớn sớm nhất mà chúng tôi có tại công ty.

Vâng, ý tôi là, tôi nghĩ Dario và tôi đã nói về điều đó một thời gian. Tôi đoán tôi nghĩ những điều đơn giản chỉ hoạt động thực sự, thực sự tốt trong Trí tuệ nhân tạo. Và vì vậy, tôi nghĩ các phiên bản đầu tiên của điều đó khá phức tạp, nhưng sau đó chúng tôi đã dần dần loại bỏ để chỉ sử dụng thực tế là hệ thống AI giỏi giải quyết các bài kiểm tra trắc nghiệm và cung cấp cho chúng một câu lệnh cho chúng biết chúng đang tìm kiếm gì. Và đó là loại điều chúng tôi cần. Và sau đó chúng tôi đã có thể viết ra những nguyên tắc này.

Ý tôi là, nó quay trở lại khối lượng tính toán lớn, bài học cay đắng (bitter lesson), hoặc giả thuyết mở rộng quy mô. Nếu bạn có thể xác định điều gì đó mà bạn có thể cung cấp dữ liệu AI cho và đó là một mục tiêu rõ ràng, bạn sẽ khiến nó thực hiện điều đó. Đây là tập hợp các hướng dẫn này. Đây là tập hợp các nguyên tắc này. Mô hình ngôn ngữ AI có thể đọc tập hợp các nguyên tắc đó và chúng có thể so sánh nó với hành vi mà chúng tự tham gia. Và vì vậy bạn có mục tiêu huấn luyện của mình ở đó. Vì vậy, một khi bạn biết điều đó, tôi nghĩ quan điểm của tôi và Jared là có một cách để làm cho nó hoạt động. Bạn chỉ cần chỉnh sửa đủ các chi tiết.

Chống lại Sự Thiếu Tham Vọng và Sự Đồng Thuận Giả Tạo

Vâng, tôi nghĩ điều đó luôn kỳ lạ đối với tôi, đặc biệt là trong những lĩnh vực ban đầu này. Bởi vì tôi học vật lý và sau đó chuyển từ vật lý sang. Và tôi nghĩ bây giờ chúng ta quên mất điều này vì mọi người đều hào hứng về Trí tuệ nhân tạo. Nhưng tôi nhớ đã nói chuyện với Dario về các vấn đề cụ thể và những thứ khác, và tôi chỉ có cảm giác rằng các nhà nghiên cứu AI đã bị tổn thương tâm lý rất nặng nề bởi mùa đông AI, nơi họ chỉ cảm thấy như việc có những ý tưởng tham vọng thực sự hoặc những tầm nhìn tham vọng bị cấm rất nhiều. Và đó là cách tôi hình dung nó về việc nói về an toàn. Để quan tâm đến an toàn, bạn phải tin rằng hệ thống AI thực sự có thể rất mạnh mẽ và rất hữu ích. Và tôi nghĩ rằng có một sự cấm đoán đối với việc tham vọng. Và tôi nghĩ một trong những lợi ích là các nhà vật lý rất kiêu ngạo và vì vậy họ liên tục làm những điều thực sự tham vọng và nói về mọi thứ theo những kế hoạch lớn. Và vì vậy, vâng.

Ý tôi là, tôi nghĩ điều đó chắc chắn đúng. Tôi nhớ vào năm 2014, có những điều bạn không thể nói, phải không? Nhưng tôi thực sự nghĩ rằng đó là một phần mở rộng của các vấn đề tồn tại trong giới học thuật ngoài có lẽ là vật lý lý thuyết, nơi họ đã phát triển thành các tổ chức ngại rủi ro vì một số lý do. Và ngay cả các bộ phận công nghiệp của Trí tuệ nhân tạo cũng đã sao chép hoặc di chuyển tư duy đó. Và phải mất một thời gian dài. Tôi nghĩ phải đến năm 2022 mới thoát khỏi tư duy đó.

Vì vậy, có một điều kỳ lạ về việc bảo thủ và tôn trọng có nghĩa là gì? Nơi bạn có thể nghĩ một phiên bản mà bạn có thể có là điều có nghĩa là bảo thủ là coi trọng rủi ro hoặc những tác hại tiềm tàng của những gì bạn đang làm và lo lắng về điều đó. Nhưng một kiểu bảo thủ khác là, "À, coi trọng một ý tưởng quá mức và tin rằng nó có thể thành công thì giống như sự kiêu ngạo khoa học." Và vì vậy tôi nghĩ có hai loại bảo thủ hoặc thận trọng khác nhau. Và tôi nghĩ chúng ta đang ở trong một giai đoạn bị kiểm soát rất nhiều bởi điều đó.

Ý tôi là, bạn thấy điều đó trong lịch sử, phải không? Nếu bạn nhìn vào những cuộc thảo luận đầu tiên vào năm 1939 giữa những người tham gia vào vật lý hạt nhân về việc bom hạt nhân là một mối quan tâm nghiêm trọng. Bạn thấy chính xác điều tương tự với, đối với tôi, việc chống lại những ý tưởng này vì nó chỉ có vẻ là một điều điên rồ, và những người khác như Szilard hay Teller coi trọng những ý tưởng đó vì họ lo lắng về rủi ro. Có lẽ bài học sâu sắc nhất mà tôi đã học được trong 10 năm qua, và có lẽ tất cả các bạn cũng đã học được một hình thức nào đó của nó, là có thể có một sự đồng thuận dường như này, những điều mà mọi người đều biết, rằng, tôi không biết, có vẻ như là lẽ thường. Nhưng thực sự, đó chỉ là hành vi bầy đàn, giả mạo sự trưởng thành và tinh vi. Và khi bạn đã thấy sự đồng thuận có thể thay đổi chỉ sau một đêm, và khi bạn đã thấy điều đó xảy ra nhiều lần, bạn đã nghi ngờ, nhưng bạn không thực sự đặt cược vào nó. Và bạn nghĩ, "Ôi trời, tôi đã nghĩ thế này. Nhưng tôi biết gì chứ? Làm sao tôi có thể đúng và tất cả những người này đều sai?" Bạn thấy điều đó vài lần. Sau đó bạn bắt đầu nói, "Không, đây là rủi ro mà chúng ta sẽ chấp nhận. Tôi không chắc chắn chúng ta đúng, nhưng hãy bỏ qua tất cả những thứ khác." Hãy xem điều đó xảy ra. Và tôi không biết, ngay cả khi bạn đúng 50% thời gian, việc đúng 50% thời gian cũng đóng góp rất nhiều, phải không? Bạn đang thêm rất nhiều thứ mà không ai khác thêm vào. Vâng. Cảm giác như đó là nơi chúng ta đang ở ngày nay với một số vấn đề an toàn.

Quan điểm về An toàn AI và Sự thay đổi nhận thức công chúng

Có một sự đồng thuận chung rằng nhiều vấn đề liên quan đến an toàn là bất thường hoặc không tự nhiên phát sinh từ công nghệ. Và tôi sẽ không chọn, chúng tôi thực hiện tất cả các nghiên cứu này, nơi các vấn đề về misalignment an toàn kỳ lạ xuất hiện như một lợi ích tự nhiên từ công nghệ chúng tôi đang xây dựng. Vì vậy, cảm giác như chúng tôi đang đi ngược lại sự đồng thuận đó đối với bạn ngay lúc này. Nhưng tôi cảm thấy điều đó đã thay đổi trong suốt 18 tháng qua. Chúng tôi đã giúp đỡ. Chúng tôi chắc chắn. Tôi biết, công chúng nên thực hiện nghiên cứu. Công chúng nên. Nhưng tôi cũng nghĩ rằng tình cảm của thế giới đối với Trí tuệ nhân tạo (AI) đã thay đổi rất đáng kể. Và bạn biết đấy, trong nghiên cứu người dùng mà chúng tôi thực hiện, ngày càng phổ biến khi nghe khách hàng, những người bình thường đều nói: "Tôi thực sự lo lắng về tác động của AI đối với thế giới nói chung sẽ như thế nào". Và đôi khi điều đó có nghĩa là việc làm, hoặc thiên vị, hoặc độc hại. Nhưng đôi khi nó cũng có nghĩa là: "Liệu điều này có làm hỏng thế giới không?". Phải không? Nó sẽ đóng góp như thế nào vào việc thay đổi cơ bản cách con người làm việc cùng nhau hoặc vận hành? Điều đó, tôi thực sự sẽ không dự đoán trước. Vâng. Nhưng dù vì lý do gì, có vẻ như những người trong lĩnh vực nghiên cứu ML luôn bi quan hơn về việc AI trở nên rất mạnh mẽ và công chúng. Có thể đó là một sự mất khả năng thực sự của công chúng hoặc một cái gì đó.

Tôi đã đến Aryan. Tôi đã đến Nhà Trắng vào năm 2023. Trong cuộc họp đó, những người như Harris và Romondo về cơ bản đã nói, tôi tóm tắt lại, nhưng về cơ bản họ nói: "Chúng tôi đã quan tâm đến các bạn. AI sẽ là một vấn đề rất lớn và bây giờ chúng tôi thực sự đang chú ý". Điều đó là đúng. Họ đúng. Hoàn toàn đúng. Nhưng tôi nghĩ vào năm 2018, bạn sẽ không nói: "Tổng thống sẽ gọi bạn đến Nhà Trắng để nói với bạn rằng họ đang chú ý chặt chẽ đến sự phát triển của mô hình ngôn ngữ lớn." Vâng. Thật là một nơi điên rồ. Đó không phải là điều lớn lao.

Hành trình tham gia lĩnh vực AI

Một điều mà tôi nghĩ thú vị là tất cả chúng tôi đều tham gia vào lĩnh vực này khi dường như không có, giống như chúng tôi nghĩ rằng nó có thể xảy ra. Nhưng vâng, nó giống như, có lẽ giống như sự hoài nghi về bom nguyên tử. Giống như, anh ấy là một nhà khoa học giỏi và có một số bằng chứng cho thấy nó có thể xảy ra, nhưng cũng có rất nhiều bằng chứng chống lại nó. Và tôi đoán anh ấy đã quyết định rằng điều đó đáng giá vì nếu nó là sự thật, thì đó sẽ là một vấn đề lớn. Và tôi nghĩ đối với tất cả chúng tôi, vào năm 2015, 2016, 2017, có một số bằng chứng và bằng chứng ngày càng tăng cho thấy điều này có thể là một vấn đề lớn. Nhưng tôi nhớ vào năm 2016, khi nói chuyện với tất cả các cố vấn của mình, tôi nói: "Tôi đã làm startup rồi. Tôi muốn giúp đỡ về an toàn Trí tuệ nhân tạo (AI), nhưng tôi không giỏi toán lắm. Tôi không biết, không biết chính xác làm thế nào tôi có thể làm điều đó." Và tôi nghĩ vào thời điểm đó mọi người đều nói: "Ồ, bạn cần phải cực kỳ giỏi về lý thuyết quyết định để giúp đỡ." Và tôi nghĩ điều đó có lẽ sẽ không hiệu quả. Hoặc họ nói: "Không thực sự có vẻ như chúng ta sẽ có một thứ AI điên rồ nào đó." Và vì vậy tôi chỉ có một vài người về cơ bản nói: "Vâng, được thôi, điều đó có vẻ là một điều tốt để làm."

Tôi nhớ vào năm 2014, tôi đã tạo các biểu đồ kết quả ImageNet theo thời gian, khi tôi còn là nhà báo và cố gắng đăng các câu chuyện về chúng, và mọi người nghĩ rằng tôi hoàn toàn điên rồ. Và sau đó tôi nhớ vào năm 2015, cố gắng thuyết phục Bloomberg cho phép tôi viết một câu chuyện về Nvidia, bởi vì mỗi bài báo nghiên cứu AI đều bắt đầu đề cập đến việc sử dụng GPU. Và họ nói điều đó hoàn toàn điên rồ. Và sau đó vào năm 2016, khi tôi rời báo chí để tham gia Trí tuệ nhân tạo (AI), tôi có những email nói: "Bạn đang mắc phải sai lầm tồi tệ nhất trong đời." Mà bây giờ tôi thỉnh thoảng nhìn lại. Nhưng vào thời điểm đó, có vẻ như thật điên rồ, từ nhiều góc độ, để nghiêm túc về điều này, rằng việc mở rộng quy mô sẽ hiệu quả. Và có lẽ có điều gì đó khác biệt về mô hình công nghệ. Bạn giống như Michael Jordan và huấn luyện viên không tin tưởng anh ấy.

Bạn thực sự đã đưa ra quyết định như thế nào? Bạn có cảm thấy bị giằng xé hay nó rõ ràng đối với bạn? Tôi đã đặt một ván cược ngược điên rồ, tôi nói: "Hãy để tôi trở thành phóng viên AI toàn thời gian của bạn và tăng gấp đôi lương của tôi", điều mà tôi biết họ sẽ không đồng ý. Và sau đó tôi đi ngủ, và sau đó tôi thức dậy và từ chức. Mọi thứ khá thoải mái. Vậy bạn là một người quyết đoán? Trong trường hợp đó, cho đến nay. Tôi nghĩ đó là vì tôi đi làm, đọc các bài báo từ ArXiv, sau đó in các bài báo ArXiv ra và về nhà đọc các bài báo ArXiv, bao gồm cả các bài báo của Dario và từ dự án Baidu. Và nghĩ rằng có điều gì đó hoàn toàn điên rồ đang xảy ra ở đây. Và đến một lúc nào đó, tôi nghĩ bạn nên đặt cược với niềm tin. Điều mà tôi nghĩ mọi người ở đây đều đã làm trong sự nghiệp đó. Đây chỉ là việc đặt cược với niềm tin rằng điều này sẽ thành công.

Vâng. Tôi chắc chắn không quyết đoán như các bạn. Nhưng trong sáu tháng, tôi đã cân nhắc: "Được thôi, tôi có nên làm điều đó không? Tôi có nên thử làm startup không? Tôi có nên làm điều này không?" Nhưng tôi cũng cảm thấy hồi đó không có nhiều cuộc thảo luận về kỹ sư và tác động mà một kỹ sư có thể có trong AI, phải không? Điều đó bây giờ đối với chúng ta thật tự nhiên. Và chúng tôi đang ở cùng một ngưỡng tài năng cho kỹ sư thuộc mọi loại hình. Nhưng vào thời điểm đó, giống như bạn là một nhà nghiên cứu. Và đó là những người duy nhất có thể làm việc trên AI. Vì vậy, tôi không nghĩ việc bạn dành thời gian suy nghĩ về điều đó là điên rồ.

Vâng. Và tôi nghĩ đó là điều cơ bản đã khiến tôi tham gia OpenAI. Tôi đã nhắn tin cho những người ở đó. Và họ nói: "Vâng, chúng tôi thực sự nghĩ rằng bạn có thể giúp đỡ bằng công việc kỹ thuật." Vâng. Và bằng cách đó, bạn có thể giúp đỡ về an toàn AI. Điều mà tôi nghĩ trước đây chưa thực sự có cơ hội. Vậy đó là điều tôi muốn nói. Bạn là người quản lý của tôi tại OpenAI. Đúng vậy. Tôi nghĩ tôi đã tham gia sau khi bạn ở đó một thời gian. Một chút. Tôi đã ở Google Brain một thời gian. Vâng. Tôi không biết liệu tôi đã từng hỏi bạn điều gì đã khiến bạn tham gia không? Vâng.

Tôi đã làm việc tại Stripe khoảng năm năm rưỡi. Và tôi biết Greg. Anh ấy đã là sếp của tôi. Anh ấy là sếp của tôi tại Stripe một thời gian. Và tôi thực sự đã giới thiệu anh ấy với Dario vì tôi nói khi anh ấy bắt đầu OpenAI, tôi đã nói: "Người thông minh nhất mà tôi biết là Dario. Bạn sẽ thực sự may mắn nếu có được anh ấy." Vì vậy, Dario đã ở OpenAI. Tôi có một vài người bạn từ Stripe cũng đã đến đó. Và tôi nghĩ giống như bạn, tôi đã suy nghĩ về những gì tôi muốn làm sau Stripe. Tôi đã đến đó chỉ vì tôi muốn có thêm kỹ năng sau khi làm việc trong lĩnh vực phi lợi nhuận và phát triển quốc tế. Và tôi thực sự nghĩ rằng tôi sẽ quay lại làm công việc đó. Về cơ bản, tôi luôn làm việc. Tôi nghĩ: "Tôi thực sự muốn giúp đỡ những người có ít hơn tôi." Nhưng tôi không có kỹ năng khi tôi làm điều đó trước Stripe. Và vì vậy tôi đã xem xét việc quay trở lại y tế công cộng. Tôi đã nghĩ về việc quay trở lại chính trị rất ngắn gọn. Nhưng tôi cũng đang tìm kiếm các công ty công nghệ khác và các cách khác để tạo ra tác động. Và OpenAI vào thời điểm đó cảm thấy như đó là một giao lộ rất tốt. Nó là một tổ chức phi lợi nhuận. Họ đang làm việc trên một sứ mệnh rất lớn, cao cả. Tôi thực sự tin vào tiềm năng của AI. Bởi vì tôi biết Dario một chút. Và vì vậy họ đã làm được điều đó, ban quản lý đã giúp đỡ. Vâng, họ đã làm được trong một môi trường sức khỏe tinh thần. Đó là một sự thật. Và vì vậy tôi nghĩ rằng điều đó rất phù hợp với tôi. Tôi nghĩ: "Ồ, có tổ chức phi lợi nhuận này. Và có tất cả những người thực sự tuyệt vời này với những ý định thực sự tốt." Nhưng dường như họ hơi lộn xộn. Và điều đó khiến tôi rất hào hứng khi được tham gia. Và thậm chí tôi chỉ là một người chơi đa năng. Tôi điều hành bộ phận nhân sự, nhưng tôi cũng điều hành một số nhóm kỹ thuật. Vâng, việc mở rộng quy mô hoặc tôi đã làm việc trong nhóm ngôn ngữ. Tôi đã phụ trách. Tôi đã làm việc về chính sách. Tôi đã làm việc về một số chính sách. Tôi đã làm việc với Chris. Và tôi cảm thấy có rất nhiều điều tốt đẹp ở rất nhiều nhân viên ở đó. Và tôi cảm thấy một mong muốn rất mạnh mẽ để đến và cố gắng giúp công ty hoạt động hiệu quả hơn một chút.

Tôi đã chuyển sang giai đoạn cuối sau khi chúng tôi đã hoàn thành GPT-3. Bạn nói: "Các bạn đã nghe nói về một thứ gọi là tin cậy và an toàn chưa?" Không, chúng tôi chưa. Tôi nói: "Vâng. Tôi nói, bạn biết đấy, tôi từng điều hành một số nhóm tin cậy và an toàn tại Stripe. Có một thứ gọi là tin cậy và an toàn mà bạn có thể muốn xem xét cho một công nghệ như thế này." Và thật buồn cười vì nó giống như một bước trung gian giữa nghiên cứu an toàn AI, đó là cách bạn thực sự tạo ra mô hình an toàn với một thứ gì đó thực tế hơn nhiều. Tôi thực sự nghĩ rằng có giá trị khi nói rằng: "Đây sẽ là một điều lớn. Chúng ta cũng phải thực hiện công việc thực tế này mỗi ngày để xây dựng năng lực cho khi mọi thứ sẽ có rủi ro cao hơn nhiều." Đó có thể là một điểm chuyển tiếp tốt để nói về.

Chính sách mở rộng quy mô có trách nhiệm (RSP) của Anthropic

Tôi nghĩ rằng Chính sách mở rộng quy mô có trách nhiệm (RSP) và cách chúng tôi đưa ra hoặc tại sao chúng tôi đưa ra nó và cách chúng tôi đang sử dụng nó hiện nay, đặc biệt là khi xem xét chúng tôi đã thực hiện bao nhiêu công việc tin cậy và an toàn trên các mô hình hiện tại.

Vậy ý tưởng về RSP là của ai? Bạn và Paul? Vâng, tôi và Paul đã nói chuyện về nó lần đầu tiên vào cuối năm 2022, Paul Christiano. Ban đầu, giống như: "Ồ, chúng ta có nên giới hạn mở rộng quy mô tại một điểm cụ thể cho đến khi chúng ta khám phá ra cách giải quyết các vấn đề an toàn nhất định không?" Và sau đó, giống như: "Ồ, thật kỳ lạ khi có một nơi duy nhất bạn giới hạn nó và sau đó bạn bỏ giới hạn." Vì vậy, hãy có một loạt các ngưỡng. Và sau đó, ở mỗi ngưỡng, bạn phải thực hiện các bài kiểm tra nhất định để xem mô hình có khả năng hay không và bạn phải thực hiện các biện pháp an toàn và bảo mật ngày càng tăng. Ban đầu, chúng tôi có ý tưởng này. Và sau đó, suy nghĩ chỉ là: "Điều này sẽ tốt hơn nếu nó được thực hiện bởi một bên thứ ba nào đó. Chúng ta không nên là những người làm điều đó. Nó không nên đến từ một công ty vì sau đó các công ty khác ít có khả năng áp dụng nó." Vì vậy, Paul thực sự đã đi và thiết kế nó và nhiều tính năng của nó đã thay đổi. Và chúng tôi đang làm việc riêng về cách nó nên hoạt động. Và một khi Paul đã có một cái gì đó hoàn chỉnh, thì ngay sau khi anh ấy công bố khái niệm, chúng tôi đã công bố của chúng tôi trong vòng một hoặc hai tháng.

Nhiều người trong chúng tôi đã tham gia rất nhiều vào đó. Tôi nhớ mình đã viết ít nhất một bản nháp, nhưng có một vài bản nháp. Có rất nhiều bản nháp. Tôi nghĩ nó có nhiều bản nháp nhất trong bất kỳ tài liệu nào. Điều đó hợp lý, phải không? Giống như, tôi cảm thấy nó giống như cách Hoa Kỳ coi Hiến pháp là tài liệu thiêng liêng. Tôi nghĩ đó chỉ là một điều lớn lao củng cố Hoa Kỳ. Và chúng ta không mong đợi Hoa Kỳ đi chệch hướng một phần vì mỗi người dân ở Hoa Kỳ đều nói: "Hiến pháp là một vấn đề lớn. Và nếu bạn chà đạp lên điều đó, tôi sẽ tức giận." Vâng. Tôi nghĩ rằng RSP của chúng tôi, nó giữ điều đó. Nó là tài liệu thiêng liêng của Anthropic. Vì vậy, giống như, chúng tôi đang thực hiện rất nhiều lần lặp để làm cho nó đúng.

Một số điều mà tôi nghĩ rất thú vị khi xem về sự phát triển của RSP tại Anthropic nữa là nó cảm giác như đã trải qua rất nhiều giai đoạn khác nhau và có rất nhiều kỹ năng khác nhau cần thiết để làm cho nó hoạt động, phải không? Có những ý tưởng lớn, mà tôi cảm thấy Dario và Paul và Sam và Jared và rất nhiều người khác nói: "Các nguyên tắc là gì? Chúng ta đang cố gắng nói gì? Làm thế nào chúng ta biết nếu chúng ta đúng?" Nhưng cũng có cách tiếp cận rất mang tính vận hành để chỉ lặp lại nơi chúng ta nói: "Chà, chúng ta nghĩ rằng chúng ta sẽ thấy điều này ở mức an toàn này và chúng ta đã không thấy. Vậy chúng ta có nên thay đổi nó để đảm bảo rằng chúng ta đang tự chịu trách nhiệm không?" Và sau đó có tất cả các loại vấn đề về tổ chức, phải không? Chúng tôi chỉ, chúng tôi nói: "Hãy thay đổi cấu trúc của tổ chức RSP để có trách nhiệm giải trình rõ ràng hơn."

RSP: Hệ thống An toàn Toàn diện

Cảm nhận của tôi là đối với một tài liệu quan trọng như thế này, tôi rất thích phép tương tự với Hiến pháp. Giống như có tất cả các cơ quan và hệ thống tồn tại ở Hoa Kỳ để đảm bảo chúng ta tuân thủ Hiến pháp, phải không? Có các tòa án, có Tòa án Tối cao, có chức vụ Tổng thống, có cả hai viện của Quốc hội; và tất nhiên họ làm rất nhiều việc khác, nhưng có tất cả cơ sở hạ tầng này mà bạn cần xung quanh một tài liệu duy nhất. Và tôi cảm thấy chúng ta cũng đang học được bài học đó ở đây. Tôi nghĩ đó là một quan điểm phản ánh mà nhiều người trong chúng ta có về an toàn, đó là một vấn đề có thể giải quyết được. Nó chỉ là một vấn đề rất, rất khó khăn và sẽ đòi hỏi rất nhiều công sức.

Tất cả những thể chế mà chúng ta cần xây dựng, giống như có rất nhiều thể chế được xây dựng xung quanh an toàn ô tô, được xây dựng qua nhiều năm. Nhưng chúng ta đang tự hỏi, liệu chúng ta có đủ thời gian để làm điều đó không? Chúng ta phải đi nhanh nhất có thể để tìm ra những thể chế chúng ta cần cho an toàn và xây dựng chúng, cố gắng xây dựng chúng ở đây trước nhưng làm cho chúng có thể xuất khẩu được. Điều này cũng thúc đẩy sự đoàn kết bởi vì nếu bất kỳ phần nào của tổ chức không phù hợp với các giá trị an toàn của chúng ta, nó sẽ thể hiện qua RSP (Regulatory Safety Protocols). RSP sẽ ngăn họ làm những gì họ muốn. Và đó là một cách để nhắc nhở mọi người lặp đi lặp lại rằng, về cơ bản, an toàn là một yêu cầu của sản phẩm, một phần của quy trình lập kế hoạch sản phẩm. Và vì vậy, nó không chỉ là một loạt các lời nói chung chung mà chúng ta lặp đi lặp lại. Nó là thứ mà bạn thực sự gặp phải nếu bạn đến đây và không phù hợp. Và bạn phải học cách tuân thủ quy trình hoặc nó sẽ không hiệu quả.

RSP đã trở nên khá thú vị theo thời gian vì chúng tôi đã dành hàng ngàn giờ làm việc cho nó. Và sau đó tôi đi nói chuyện với các thượng nghị sĩ và giải thích RSP, và tôi nói: "Chúng tôi có một số quy định khiến cho những gì chúng tôi tạo ra khó bị đánh cắp và cũng an toàn." Và họ nói: "Vâng, đó là một việc hoàn toàn bình thường. Bạn đang nói với tôi rằng không phải ai cũng làm điều này à?" Bạn sẽ nghĩ, "Ồ, được rồi, vâng." Thực ra không phải ai cũng làm điều này. Nhưng thật đáng kinh ngạc vì chúng tôi đã bỏ ra rất nhiều công sức và chúng tôi yêu nó. Vâng, khi bạn tóm gọn lại, họ sẽ nói: "Vâng, điều đó nghe có vẻ bình thường. Nghe có vẻ tốt." Đó là mục tiêu. Như Yellowstone đã nói, hãy làm cho nó nhàm chán và bình thường nhất có thể, hãy làm cho nó giống như một vấn đề tài chính. Vâng, hãy hình dung nó giống như một cuộc kiểm toán. Vâng, vâng, vâng. Nhàm chán, nhàm chán, nhàm chán và bình thường là những gì chúng ta muốn. Chắc chắn là tôn trọng.

Minh bạch và Động lực Lành mạnh với RSP

Ngoài ra, Dario, tôi nghĩ bên cạnh việc thúc đẩy sự đồng thuận, nó còn thúc đẩy sự rõ ràng vì những gì chúng ta đang cố gắng làm đã được ghi lại. Và nó dễ hiểu đối với mọi người trong công ty và cũng dễ hiểu từ bên ngoài. Những gì chúng ta nghĩ mình nên hướng tới từ góc độ an toàn. Nó không hoàn hảo. Chúng ta đang lặp lại và cải thiện nó. Nhưng tôi nghĩ có một giá trị nào đó khi nói: "Đây là những gì chúng ta đang lo lắng. Cái điều này ở đây, bạn không thể chỉ dùng từ này để làm chệch hướng một thứ gì đó theo bất kỳ hướng nào, phải không?" Để nói, "Ồ, vì lý do an toàn, chúng ta không thể làm X." Hoặc "Vì lý do an toàn, chúng ta phải làm X." Chúng ta thực sự đang cố gắng làm cho rõ ràng hơn về ý nghĩa của chúng ta. Vâng, nó ngăn bạn lo lắng về mọi thứ nhỏ nhặt dưới ánh mặt trời, phải không? Bởi vì đó thực sự là một "buổi diễn tập chữa cháy" (fire drill) gây tổn hại đến mục tiêu an toàn về lâu dài. Tôi đã nói, giống như nếu có một tòa nhà và chuông báo cháy reo mỗi tuần, thì đó là một tòa nhà thực sự không an toàn khi thực sự có cháy. Nó giống như, "Ồ, nó cứ reo liên tục." Vì vậy, việc được hiệu chỉnh là rất quan trọng. Vâng, đúng vậy.

Một cách nhìn nhận hơi khác mà tôi thấy khá rõ ràng là tôi nghĩ rằng RSP tạo ra các động lực lành mạnh ở nhiều cấp độ. Vì vậy, tôi nghĩ rằng nội bộ, nó điều chỉnh các động lực của mỗi nhóm với an toàn vì nó có nghĩa là nếu chúng ta không đạt được tiến bộ về an toàn, chúng ta sẽ bị chặn. Tôi cũng nghĩ rằng bên ngoài, nó tạo ra nhiều động lực lành mạnh hơn so với các khả năng khác, ít nhất là những gì tôi thấy, bởi vì điều đó có nghĩa là, nếu đến một lúc nào đó chúng ta phải thực hiện một hành động kịch tính nào đó, giống như nếu đến một lúc nào đó chúng ta phải nói, mô hình AI của chúng ta, chúng ta đã đạt đến một điểm mà chúng ta không thể làm cho nó an toàn. Nó điều chỉnh điều đó với một điểm mà có bằng chứng hỗ trợ cho quyết định đó. Và có một khuôn khổ sẵn có để suy nghĩ về nó, và nó dễ hiểu. Vì vậy, tôi nghĩ có rất nhiều cấp độ mà RSP, tôi nghĩ theo những cách mà tôi có thể ban đầu không hiểu khi chúng ta nói về các phiên bản đầu tiên của nó, nó tạo ra một khuôn khổ tốt hơn bất kỳ khuôn khổ nào khác mà tôi đã nghĩ đến.

Thách thức và Lặp lại trong Triển khai RSP

Tôi nghĩ tất cả điều này đều đúng, nhưng tôi cảm thấy nó đã đánh giá thấp mức độ thách thức để tìm ra những chính sách và đánh giá phù hợp và những ranh giới nên là gì. Tôi nghĩ rằng chúng ta đã và đang tiếp tục lặp lại rất nhiều về điều đó, và tôi nghĩ có một câu hỏi. Ngoài ra, điều đó khó khăn là bạn có thể ở một điểm mà rất rõ ràng điều gì đó nguy hiểm hoặc rất rõ ràng điều gì đó an toàn, nhưng với một công nghệ mới như vậy, thực sự có một vùng xám lớn. Và vì vậy tôi nghĩ rằng tất cả những điều chúng ta đang nói là những điều khiến tôi thực sự, thực sự hào hứng với RSP ngay từ đầu và vẫn vậy, nhưng tôi cũng nghĩ việc thực hiện điều này một cách rõ ràng và làm cho nó hoạt động đã khó hơn và phức tạp hơn nhiều so với những gì tôi dự đoán. Tôi nghĩ đây chính xác là vấn đề. Các vùng xám không thể dự đoán được. Có rất nhiều trong số chúng cho đến khi bạn thực sự cố gắng triển khai mọi thứ, bạn không biết điều gì sẽ xảy ra sai, vì vậy những gì chúng ta đang cố gắng làm là đi và triển khai mọi thứ để chúng ta có thể thấy càng sớm càng tốt điều gì sẽ xảy ra sai. Bạn phải thực hiện ba hoặc bốn lần lặp trước khi bạn thực sự làm đúng. Giống như lặp lại rất mạnh mẽ, và bạn sẽ không làm đúng ngay từ lần đầu tiên, và vì vậy nếu rủi ro đang tăng lên, bạn muốn thực hiện các lần lặp của mình sớm, bạn không muốn thực hiện chúng muộn. Bạn cũng đang xây dựng các thể chế và quy trình nội bộ, vì vậy các chi tiết cụ thể có thể thay đổi rất nhiều, nhưng việc xây dựng "cơ bắp" của việc thực hiện nó là điều thực sự có giá trị.

Truyền thông Đối ngoại và Tầm quan trọng của Eval

Tôi chịu trách nhiệm về compute tại Anthropic và vì vậy điều đó quan trọng. Vì vậy, cảm ơn bạn. Tôi nghĩ rằng đối với tôi, chúng ta phải làm việc với các đối tác bên ngoài. Và các đối tác bên ngoài khác nhau có những quan điểm khác nhau về tốc độ phát triển. Và tôi nghĩ đó cũng là một điều mà ban đầu tôi không nghĩ mọi thứ sẽ nhanh đến vậy và đã thay đổi theo thời gian, vì vậy tôi thông cảm với điều đó. Và vì vậy tôi nghĩ rằng RSP đã cực kỳ hữu ích cho tôi trong việc giao tiếp với những người nghĩ rằng mọi thứ có thể mất nhiều thời gian hơn, bởi vì sau đó chúng ta có một điều mà giống như chúng ta không cần phải thực hiện các biện pháp an toàn cực đoan cho đến khi mọi thứ thực sự trở nên căng thẳng. Và sau đó chúng ta có thể nói, họ có thể nói: "Tôi không nghĩ mọi thứ sẽ căng thẳng trong một thời gian dài," và sau đó tôi sẽ nói: "OK, vâng, chúng ta không phải thực hiện các biện pháp an toàn cực đoan." Và điều đó giúp việc giao tiếp với các đối tác bên ngoài dễ dàng hơn rất nhiều. Vâng, vâng, nó làm cho nó giống như một điều bình thường mà bạn có thể nói về thay vì một điều thực sự kỳ lạ.

Nó còn thể hiện như thế nào đối với mọi người? Evals. Evals. Evals. Tốt. Tất cả là về Evals. Mọi người đều đang làm Evals. Nhóm đào tạo đang làm Evals liên tục. Chúng tôi đang cố gắng tìm hiểu, mô hình AI này đã cải thiện đủ để có khả năng nguy hiểm chưa. Vậy chúng ta có bao nhiêu nhóm Evals? Nhóm red team của bạn. Chắc chắn là phải có. Có rất nhiều người làm việc vào giữa đêm. Cơ bản là mọi nhóm đều làm Evals. Và điều đó có nghĩa là bạn chỉ đang đo lường dựa trên RSP, giống như đo lường các dấu hiệu nhất định của những điều sẽ khiến bạn lo lắng hay không lo lắng. Chính xác. Giống như, dễ dàng để lower bound khả năng của một mô hình AI, nhưng khó để upper bound. Vì vậy, chúng tôi dành rất nhiều nỗ lực nghiên cứu để nói, mô hình AI này có thể làm điều nguy hiểm này hay không? Có lẽ có một thủ thuật nào đó mà chúng tôi chưa nghĩ đến, giống như chain of thought (chuỗi suy nghĩ) hoặc best of N hoặc một loại tool use (sử dụng công cụ) nào đó sẽ khiến nó có thể giúp bạn làm điều gì đó rất nguy hiểm.

Nó thực sự hữu ích trong chính sách bởi vì khái niệm về an toàn đã từng rất trừu tượng. Và khi tôi nói: "Chúng tôi có một Eval (đánh giá), điều đó thay đổi việc chúng tôi triển khai mô hình AI hay không." Và sau đó bạn có thể đi và hiệu chỉnh với các nhà hoạch định chính sách hoặc các chuyên gia về an ninh quốc gia hoặc một số lĩnh vực CBRN (Hóa học, Sinh học, Phóng xạ, Hạt nhân) mà chúng ta làm để thực sự giúp chúng ta xây dựng các Eval được hiệu chỉnh tốt. Và điều đó thực sự sẽ không xảy ra nếu không có RSP. Nhưng một khi bạn có điều cụ thể, mọi người sẽ có động lực hơn nhiều để giúp bạn làm cho nó chính xác. Vì vậy, nó đã hữu ích cho điều đó.

Tính dễ tiếp cận của RSP và Sứ mệnh Cốt lõi

RSC thể hiện rõ ràng đối với tôi. Thường xuyên. Tôi thực sự nghĩ rằng một cách kỳ lạ, cách tôi nghĩ về RSP nhiều nhất là về tông giọng của nó. Tôi nghĩ chúng tôi vừa thực hiện một lần viết lại lớn về tông giọng của RSP vì nó cảm thấy quá technocratic (quan liêu kỹ thuật) và thậm chí hơi đối đầu. Tôi đã dành rất nhiều thời gian để suy nghĩ về, làm thế nào để xây dựng một hệ thống AI mà mọi người chỉ muốn là một phần của nó? Sẽ tốt hơn rất nhiều nếu RSP là một thứ mà mọi người trong công ty có thể đi lại và nói cho bạn biết, giống như với OKRs (Mục tiêu và Kết quả chính) mà chúng ta đang làm bây giờ. Giống như, những mục tiêu hàng đầu của RSP là gì? Làm thế nào chúng ta biết nếu chúng ta đang đạt được chúng? Mức độ an toàn Trí tuệ nhân tạo (AI) của chúng ta hiện tại là bao nhiêu? Chúng ta đang ở ASL2 hay ASL3? Rằng mọi người biết phải tìm kiếm điều gì bởi vì đó là cách bạn sẽ có kiến thức chung tốt nếu có điều gì đó không ổn. Nếu nó quá technocratic và nó là thứ mà chỉ những người cụ thể trong công ty cảm thấy dễ tiếp cận với họ. Nó sẽ không hiệu quả.

Và tôi nghĩ thật tuyệt vời khi xem nó chuyển đổi thành tài liệu này, nơi mà tôi thực sự nghĩ rằng hầu hết, nếu không phải tất cả mọi người trong công ty, bất kể vai trò của họ là gì, đều có thể đọc nó và nói: "Điều này cảm thấy thực sự hợp lý. Tôi muốn đảm bảo rằng chúng ta đang xây dựng Trí tuệ nhân tạo theo những cách sau." Và tôi hiểu tại sao tôi lại lo lắng về những điều này. Và tôi cũng biết phải tìm kiếm điều gì nếu tôi gặp phải một điều gì đó, phải không? Nó gần giống như làm cho nó đủ đơn giản để nếu bạn đang làm việc tại một nhà máy sản xuất và bạn nghĩ, "Hừm, có vẻ như dây an toàn trên cái này phải kết nối theo cách này, nhưng nó không kết nối," thì bạn có thể phát hiện ra. Và có một vòng lặp phản hồi lành mạnh giữa ban lãnh đạo và hội đồng quản trị và phần còn lại của công ty và những người thực sự xây dựng nó. Bởi vì tôi thực sự nghĩ rằng cách mà những thứ này sai trong hầu hết các trường hợp là do các dây không kết nối hoặc chúng bị chéo. Và đó sẽ là một cách thực sự đáng buồn để mọi thứ sai, phải không? Tất cả chỉ là về việc vận hành nó, làm cho mọi người dễ hiểu.

Điều tôi muốn nói là không ai trong chúng tôi muốn thành lập một công ty. Chúng tôi cảm thấy điều đó. Chúng tôi cảm thấy đó là nghĩa vụ của chúng tôi, phải không? Tôi cảm thấy chúng tôi phải làm điều này. Đây là cách chúng ta sẽ làm cho mọi thứ tốt hơn với Trí tuệ nhân tạo. Đó cũng là lý do tại sao chúng ta đã thực hiện lời cam kết, phải không? Bởi vì lý do chúng ta đang làm điều này là vì nó cảm thấy giống như nghĩa vụ của chúng ta. Tôi muốn phát minh và khám phá mọi thứ theo một cách có lợi. Đó là cách tôi đến với nó. Và điều đó dẫn đến việc làm việc về Trí tuệ nhân tạo và Trí tuệ nhân tạo đòi hỏi rất nhiều kỹ thuật và cuối cùng Trí tuệ nhân tạo đòi hỏi rất nhiều vốn. Nhưng điều tôi thấy là nếu bạn không làm điều này theo cách mà bạn đang thiết lập môi trường, nơi bạn thành lập công ty, thì rất nhiều thứ sẽ được thực hiện. Rất nhiều thứ lặp lại những sai lầm tương tự mà tôi thấy rất xa lạ về cộng đồng công nghệ. Đó là những con người tương tự, đó là thái độ tương tự, đó là cách đối sánh mẫu tương tự. Và vì vậy, đến một lúc nào đó, dường như không thể tránh khỏi việc chúng ta phải làm điều đó theo một cách khác.

Sự tin tưởng và Sứ mệnh cốt lõi

Tiếp lời Danielle, tôi thực sự tin rằng có rất nhiều sự tin tưởng trong nhóm này. Tôi nghĩ mỗi người trong chúng tôi đều biết rằng chúng tôi tham gia vào việc này vì muốn giúp ích cho thế giới. Chúng tôi đã thực hiện "80% pledge" và tôi nghĩ mọi người đều nói, "Vâng, rõ ràng là chúng ta sẽ làm điều này." Đúng vậy. Và tôi thực sự nghĩ rằng sự tin tưởng là một điều đặc biệt và cực kỳ hiếm có. Tôi ghi nhận Danielle đã duy trì tiêu chuẩn cao. Tôi ghi nhận anh vì chúng ta vẫn duy trì được nó. Oh, đó là một điểm chạm. Nó là một đám mây ngay đó. Đó là một điều tốt. Tôi nghĩ đó là lý do tôi gọi anh là người có kỹ năng. Mọi người nói rằng những người ở đây rất tốt bụng, đây thực sự là một điều vô cùng quan trọng. Tôi nghĩ Anthropic có rất ít chính trị nội bộ (politics). Và tất nhiên, tất cả chúng ta đều có một góc nhìn khác biệt so với mức trung bình và tôi cố gắng ghi nhớ điều đó. Bởi vì cái tôi (ego) thấp. Nhưng đúng vậy, cái tôi thấp. Và tôi nghĩ rằng quy trình phỏng vấn của chúng tôi và kiểu người làm việc ở đây, gần như có phản ứng dị ứng với chính trị nội bộ. Và sự thống nhất. Sự thống nhất rất quan trọng. Ý tưởng rằng đội sản phẩm, đội nghiên cứu, đội niềm tin và an toàn (trust and safety), đội go-to-market, đội chính sách, những người phụ trách an toàn, tất cả họ đều đang cố gắng đóng góp vào cùng một mục tiêu, cùng một sứ mệnh của công ty, đúng không? Tôi nghĩ sẽ là sự rối loạn chức năng khi các bộ phận khác nhau của công ty nghĩ rằng họ đang cố gắng đạt được những điều khác nhau. Hoặc nghĩ rằng các bộ phận khác của công ty đang cố gắng phá hoại những gì họ đang làm. Và tôi nghĩ điều quan trọng nhất chúng tôi đã cố gắng gìn giữ, và một lần nữa, những điều như RSP (Responsible Scaling Policy) đã thúc đẩy nó, là ý tưởng rằng không phải có những bộ phận của công ty gây ra thiệt hại và những bộ phận khác cố gắng sửa chữa nó, mà là các bộ phận khác nhau của công ty thực hiện các chức năng khác nhau và tất cả chúng đều hoạt động dưới một lý thuyết thay đổi duy nhất. Đó là chủ nghĩa thực dụng cực đoan, phải không?

Thực dụng và Mục tiêu An toàn

Lý do tôi đến OpenAI ngay từ đầu là vì đó là một tổ chức phi lợi nhuận, một nơi tôi có thể đến và tập trung vào an toàn. Và tôi nghĩ theo thời gian, có thể đó không phải là một sự phù hợp tốt, và đã có một số quyết định khó khăn. Và tôi nghĩ, theo nhiều cách, tôi thực sự tin tưởng Dario và Danielle về điều đó. Nhưng tôi không muốn rời đi. Đó là điều mà tôi thực sự khá miễn cưỡng chấp nhận, bởi vì một mặt, tôi không biết liệu việc có thêm nhiều phòng thí nghiệm Trí tuệ nhân tạo có tốt cho thế giới hay không, và tôi nghĩ đó là điều mà tôi khá miễn cưỡng. Và tôi nghĩ rằng khi chúng tôi rời đi, tôi cũng miễn cưỡng bắt đầu một công ty. Tôi nghĩ tôi đã tranh luận trong một thời gian dài rằng chúng ta nên làm một tổ chức phi lợi nhuận thay vì chỉ tập trung vào nghiên cứu an toàn. Và tôi nghĩ chính chủ nghĩa thực dụng và việc đối mặt với những ràng buộc, và thành thật về những gì các ràng buộc ngụ ý để hoàn thành sứ mệnh đó đã dẫn đến một tổ chức phi lợi nhuận. Nhưng một bài học thực sự quan trọng mà chúng tôi đã làm tốt ngay từ đầu là hãy hứa ít hơn và giữ lời nhiều hơn. Hãy cố gắng tự điều chỉnh, thực tế, đối mặt với các đánh đổi, bởi vì sự tin tưởng và uy tín quan trọng hơn bất kỳ chính sách cụ thể nào.

Đối mặt với Đánh đổi và "Cuộc Đua Lên Đỉnh"

Thật là bất thường khi có được những gì chúng tôi có. Và việc chứng kiến Mike Krieger bảo vệ các vấn đề an toàn về lý do tại sao chúng ta chưa nên xuất xưởng một sản phẩm, nhưng sau đó cũng chứng kiến Vene nói rằng, được rồi, chúng ta phải làm điều đúng đắn cho công việc kinh doanh. Làm thế nào để chúng ta hoàn thành điều này? Và nghe những người chuyên sâu về an toàn kỹ thuật nói về việc cũng quan trọng là chúng ta phải xây dựng những thứ thực tế cho mọi người, và nghe các kỹ sư về inference nói về an toàn, điều đó thật tuyệt vời. Tôi nghĩ đó là, một lần nữa, một trong những điều đặc biệt nhất khi làm việc ở đây là tất cả mọi người với sự thống nhất đó đều ưu tiên chủ nghĩa thực dụng, an toàn, và kinh doanh. Điều đó thật lạ lùng. Tôi nghĩ về nó như là việc phân tán các đánh đổi từ ban lãnh đạo công ty cho tất cả mọi người. Tôi nghĩ thế giới rối loạn chức năng là khi bạn có một nhóm người chỉ nhìn thấy một điều lớn, ví dụ, an toàn thì nói, "Chúng ta luôn phải làm điều này." Và sản phẩm thì nói, "Chúng ta luôn phải làm điều này." Và nghiên cứu thì nói, "Đây là điều duy nhất chúng ta nghe về." Và sau đó bạn bị mắc kẹt ở đỉnh, đúng không? Bạn bị mắc kẹt ở đỉnh. Bạn phải quyết định giữa, bạn không có nhiều thông tin như bất kỳ ai trong số họ. Đó là thế giới rối loạn chức năng. Thế giới chức năng là khi bạn có thể truyền đạt cho mọi người, "Có những đánh đổi này mà tất cả chúng ta đang cùng đối mặt. Thế giới không phải là một nơi hoàn hảo. Có những đánh đổi, mọi thứ bạn làm đều sẽ là không tối ưu. Mọi thứ bạn làm sẽ là một nỗ lực để đạt được điều tốt nhất của cả hai thế giới mà, bạn biết đấy, không hiệu quả như bạn nghĩ." Và mọi người đều đồng lòng đối mặt với những đánh đổi đó cùng nhau. Họ chỉ cảm thấy như họ đang đối mặt với chúng từ một vị trí cụ thể, từ một công việc cụ thể như một phần của công việc tổng thể là đối mặt với tất cả các đánh đổi. Đó là một cuộc đặt cược vào "cuộc đua lên đỉnh" (race to the top), đúng không? Đó là một cuộc đặt cược vào "cuộc đua lên đỉnh". Nó không phải là một cược tăng lợi nhuận (upside bet). Mọi thứ có thể đi sai hướng. Nhưng tất cả chúng tôi đều thống nhất rằng, "Đây là cuộc đặt cược mà chúng ta đang thực hiện." Và các thị trường thì thực dụng. Vì vậy, nếu công ty càng thành công và đúng đắn hơn, thì càng có nhiều động lực để mọi người sao chép những điều khiến chúng tôi thành công, và thành công đó càng gắn liền với những vấn đề an toàn thực tế mà chúng tôi làm, thì nó càng tạo ra một lực hấp dẫn trong ngành công nghiệp, và chúng tôi sẽ thực sự khiến phần còn lại của ngành công nghiệp cạnh tranh. Và nó giống như, chắc chắn, chúng tôi sẽ xây dựng dây an toàn (seat belts) và mọi người khác có thể sao chép chúng. Điều đó tốt. Đó là những thế giới tốt đẹp. Điều đó thực sự tốt. Vâng, đây là "cuộc đua lên đỉnh", đúng không? Nhưng nếu bạn nói, chúng ta sẽ không xây dựng công nghệ, bạn sẽ không xây dựng nó tốt hơn người khác, thì cuối cùng, điều đó sẽ không hiệu quả vì bạn không chứng minh rằng có thể đi từ đây đến đó. Nơi thế giới cần đến, chứ không phải ngành công nghiệp, không phải một công ty riêng lẻ, là nó cần đưa chúng ta thành công vượt qua từ công nghệ không tồn tại đến công nghệ tồn tại một cách rất mạnh mẽ và xã hội đã thực sự quản lý được nó. Và tôi nghĩ cách duy nhất để điều đó xảy ra là nếu bạn có ở cấp độ một công ty duy nhất và cuối cùng ở cấp độ ngành công nghiệp, bạn thực sự đang đối mặt với những đánh đổi đó. Bạn phải tìm cách thực sự cạnh tranh, thực sự dẫn đầu ngành công nghiệp trong một số trường hợp và vẫn quản lý để làm mọi thứ an toàn. Và nếu bạn có thể làm điều đó, lực hấp dẫn mà bạn tạo ra là rất lớn. Có rất nhiều yếu tố từ môi trường pháp lý, loại người muốn làm việc ở những nơi khác nhau, cho đến đôi khi cả quan điểm của khách hàng đều thúc đẩy theo hướng nếu bạn có thể chứng minh rằng bạn có thể làm tốt về an toàn mà không hy sinh khả năng cạnh tranh, đúng không? Nếu bạn có thể tìm thấy những kiểu đôi bên cùng có lợi (win-wins) này, thì những người khác sẽ có động lực để làm điều tương tự.

RSP, Tác động Thị trường và An toàn Thực dụng

Vâng, ý tôi là, tôi nghĩ đó là lý do tại sao việc thực hiện đúng những điều như RSP lại rất quan trọng, bởi vì tôi nghĩ rằng chính chúng tôi, khi nhìn thấy hướng đi của công nghệ, thường nghĩ, "Ồ, wow, chúng ta cần phải thực sự cẩn thận với điều này." Đồng thời, chúng ta phải cẩn thận hơn nữa để không báo động giả (crying wolf) rằng đổi mới cần dừng lại ở đây. Chúng ta cần tìm cách làm cho Trí tuệ nhân tạo trở nên hữu ích, đổi mới, thú vị cho khách hàng, nhưng cũng phải tìm ra những ràng buộc thực sự cần thiết mà chúng ta có thể kiên định để làm cho các hệ thống an toàn, để những người khác cũng có thể nghĩ rằng họ có thể làm điều đó và họ có thể thành công, họ có thể cạnh tranh với chúng ta. Chúng ta không phải là những người bi quan (doomers), đúng không? Chúng ta muốn xây dựng điều tích cực, chúng ta muốn xây dựng điều tốt đẹp. Và chúng ta đã thấy nó xảy ra trong thực tế. Vài tháng sau khi chúng tôi công bố RSP của mình, ba công ty Trí tuệ nhân tạo nổi bật nhất đều có một cái. Nghiên cứu khả năng diễn giải (Interpretability research), đó là một lĩnh vực khác mà chúng tôi đã thực hiện. Chỉ riêng việc tập trung vào an toàn nói chung, như hợp tác với các AI Safety Institutes, các lĩnh vực khác. Vâng, nhưng Frontier Red Team đã được sao chép gần như ngay lập tức, điều này rất tốt. Bạn muốn tất cả các phòng thí nghiệm kiểm tra những rủi ro rất, rất nghiêm trọng, đáng sợ, xuất khẩu dây an toàn. Vâng, xuất khẩu dây an toàn. Jack cũng đã đề cập trước đó, nhưng khách hàng cũng thực sự quan tâm đến an toàn, đúng không? Khách hàng không muốn các mô hình bị bịa đặt thông tin (hallucinating), họ không muốn các mô hình dễ dàng bị bẻ khóa (jailbreak), họ muốn các mô hình hữu ích và vô hại, đúng không? Và vì vậy, phần lớn thời gian chúng tôi nghe được trong các cuộc gọi với khách hàng là chúng tôi chọn Claude vì chúng tôi biết nó an toàn hơn. Tôi nghĩ đó cũng là một tác động thị trường rất lớn, đúng không? Bởi vì khả năng của chúng tôi có các mô hình đáng tin cậy và đáng tin cậy, điều đó quan trọng đối với áp lực thị trường mà nó tạo ra cho các đối thủ cạnh tranh nữa. Có lẽ để phân tích sâu hơn một chút về điều Dario đã nói. Tôi nghĩ có một câu chuyện hoặc ý tưởng rằng điều tốt đẹp có thể là gần như thất bại cao cả (nobly fail), đúng không? Giống như bạn nên đi và đặt an toàn, bạn nên đi và đặt mọi thứ, bạn nên thể hiện theo một cách phi thực dụng (impragmatic) để bạn có thể thể hiện sự thuần khiết (purity) của mình cho mục đích đó hoặc điều gì đó tương tự. Và tôi nghĩ nếu bạn làm điều đó, nó thực sự rất tự thất bại (self-defeating).

Điều chỉnh ưu đãi và cuộc đua lên đỉnh cao

Một mặt, điều đó có nghĩa là những người ra quyết định sẽ tự động là những người không quan tâm, không ưu tiên sự an toàn và không bận tâm về nó. Mặt khác, nếu chúng ta thực sự cố gắng tìm cách điều chỉnh các ưu đãi và đảm bảo rằng những quyết định khó khăn được đưa ra tại những thời điểm có đủ động lực để hỗ trợ đưa ra các quyết định đúng đắn và có nhiều bằng chứng nhất, thì chúng ta có thể thúc đẩy một cuộc chạy đua lên đỉnh cao mà Dario đã mô tả. Thay vì những người quan tâm bị gạt ra khỏi tầm ảnh hưởng, chúng ta sẽ kéo những người khác phải đi theo.

Vẻ đẹp ẩn giấu của mạng nơ-ron và dự án Interpreter

Vậy, điều gì khiến tất cả các bạn hào hứng với những gì chúng ta sẽ làm tiếp theo? Tôi nghĩ có nhiều lý do để hào hứng với Interpreter. Một là an toàn, điều hiển nhiên. Nhưng có một điều khác mà tôi thấy ý nghĩa và hấp dẫn không kém ở cấp độ cảm xúc, đó là tôi nghĩ các mạng nơ-ron rất đẹp. Và tôi nghĩ có rất nhiều vẻ đẹp tiềm ẩn trong chúng mà chúng ta không nhìn thấy. Chúng ta đối xử với chúng như những "hộp đen" mà chúng ta không mấy quan tâm đến cấu trúc bên trong. Nhưng khi bạn bắt đầu nhìn vào bên trong chúng, chúng chứa đầy những cấu trúc đẹp đẽ và đáng kinh ngạc. Nó giống như khi mọi người nhìn vào sinh học và nói rằng, "Quá trình tiến hóa thật nhàm chán. Đó là một quá trình đơn giản diễn ra trong thời gian dài rồi tạo ra động vật." Nhưng thực tế là, mỗi loài động vật mà quá trình tiến hóa tạo ra – và tôi nghĩ đó là một quá trình tối ưu hóa giống như việc huấn luyện một mạng nơ-ron – đều chứa đựng sự phức tạp và cấu trúc đáng kinh ngạc. Giống như chúng ta có cả một loại sinh học nhân tạo bên trong các mạng nơ-ron. Nếu bạn chịu khó nhìn vào bên trong, có vô vàn điều tuyệt vời. Và tôi nghĩ chúng ta chỉ mới bắt đầu khám phá từng chút một, và điều đó thật đáng kinh ngạc. Có rất nhiều điều ở đó, nhưng chúng ta chỉ mới bắt đầu khai phá. Và tôi nghĩ nó sẽ thật tuyệt vời và đẹp đẽ. Đôi khi, tôi hình dung mười năm nữa, mình bước vào một hiệu sách và mua một cuốn giáo trình về mạng nơ-ron và sinh học của các mạng nơ-ron, với tất cả những điều kỳ diệu bên trong nó. Và tôi nghĩ rằng trong thập kỷ tới, thậm chí là vài năm tới, chúng ta sẽ thực sự khám phá tất cả những điều đó. Nó sẽ thật kỳ diệu và đáng kinh ngạc. Thật tuyệt vời khi bạn có thể mua cuốn giáo trình của riêng mình.

Vai trò của chính phủ trong chuyển đổi AI

Tôi rất hào hứng vì vài năm trước, nếu bạn nói rằng các chính phủ sẽ thành lập các cơ quan mới để kiểm tra và đánh giá hệ thống AI, và các cơ quan đó sẽ thực sự có năng lực và hoạt động hiệu quả, thì sẽ không ai tin điều đó. Nhưng điều đó đã xảy ra. Giống như các chính phủ đã xây dựng những "đại sứ quán" mới để đối phó với loại công nghệ hoặc vấn đề mới này, như Chris đã nghiên cứu. Và tôi rất hào hứng muốn xem điều đó sẽ đi đến đâu. Tôi nghĩ điều này thực sự có nghĩa là nhà nước có đủ khả năng để đối phó với loại chuyển đổi xã hội này. Vì vậy, không chỉ các công ty mà tôi cũng rất muốn góp phần vào đó.

Tiềm năng của Claude trong giải quyết vấn đề con người

Tôi đã có một phần nào đó sự hào hứng với điều này ngay hôm nay. Nhưng tôi nghĩ, chỉ cần hình dung thế giới tương lai mà Trí tuệ nhân tạo có thể làm được cho con người, thì không thể không cảm thấy phấn khích. Dario thường nói rất nhiều về điều này, nhưng tôi nghĩ ngay cả những tia hy vọng nhỏ nhoi về việc Claude có thể giúp phát triển vắc-xin, nghiên cứu ung thư và nghiên cứu sinh học đã là điều điên rồ rồi, chỉ cần nhìn vào những gì nó có thể làm được bây giờ. Nhưng khi tôi hình dung ba hoặc năm năm tới, việc tưởng tượng rằng Claude thực sự có thể giải quyết rất nhiều vấn đề cơ bản mà chúng ta đang đối mặt với tư cách con người, chỉ riêng từ góc độ sức khỏe, ngay cả khi bạn bỏ qua mọi thứ khác, cũng khiến tôi vô cùng phấn khích. Nhớ lại thời gian tôi làm về phát triển quốc tế, sẽ thật tuyệt vời nếu Claude chịu trách nhiệm giúp thực hiện nhiều công việc mà tôi đã cố gắng làm kém hiệu quả hơn rất nhiều khi tôi 25 tuổi.

Claude trong công việc và sự chấp nhận mã hóa

Ý tôi là, tương tự như vậy, tôi rất hào hứng khi phát triển Claude cho công việc. Tôi hào hứng đưa Claude vào công ty và vào các công ty trên khắp thế giới. Tôi đoán là tôi hào hứng chỉ vì, cá nhân tôi rất thích sử dụng Claude. Vì vậy, chắc chắn là số lần tôi trò chuyện với Claude ở nhà về các vấn đề đã tăng lên. Tôi nghĩ điều lớn nhất gần đây là về mã. Sáu tháng trước, tôi không dùng Claude để làm bất kỳ công việc mã hóa nào, và các nhóm của chúng tôi cũng không thực sự sử dụng Claude nhiều cho mã hóa. Nhưng giờ đây, đó là một sự khác biệt hoàn toàn. Tuần trước nữa, tôi đã có một buổi nói chuyện tại YC, và lúc bắt đầu, tôi chỉ hỏi: "Vậy, có bao nhiêu người ở đây hiện đang dùng Claude để mã hóa?" Và thực sự là 95% số người giơ tay. Tất cả các cánh tay trong phòng, điều này hoàn toàn khác so với bốn tháng trước.

Interpretability: Chìa khóa cho AI an toàn và hiểu biết não bộ

Vì vậy, khi tôi nghĩ về những điều mình hào hứng, tôi nghĩ về những lĩnh vực mà, như tôi đã nói trước đây, có một loại đồng thuận tưởng chừng như là điều mọi người khôn ngoan đều nghĩ, rồi sau đó nó lại bị phá vỡ. Và đó là những lĩnh vực mà tôi nghĩ điều đó sắp xảy ra nhưng chưa xảy ra. Một trong số đó là interpretability. Tôi nghĩ interpretability vừa là chìa khóa để điều hướng và tạo ra các hệ thống AI an toàn, vừa sắp giúp chúng ta hiểu rõ hơn, đồng thời chứa đựng những thông tin chi tiết về các vấn đề tối ưu hóa thông minh và về cách não người hoạt động. Tôi đã nói, và tôi thực sự không đùa, rằng Chris Ola sẽ là một luật sư y học Nobel trong tương lai. Tôi nghiêm túc đấy, tôi nghiêm túc vì rất nhiều bệnh tâm thần mà chúng ta chưa tìm ra lời giải, phải không? Tâm thần phân liệt hoặc rối loạn khí sắc. Tôi nghi ngờ có một thứ gì đó ở cấp độ hệ thống cao hơn đang diễn ra, và rất khó để hiểu những điều đó với bộ não vì bộ não quá mềm mại và khó mở ra để tương tác. Các mạng nơ-ron không như vậy. Chúng không phải là một phép loại suy hoàn hảo, nhưng theo thời gian, chúng sẽ trở thành một phép loại suy tốt hơn. Đó là một lĩnh vực.

AI cho Sinh học, Dân chủ và những tiến bộ đột phá

Liên quan đến điều đó, tôi nghĩ việc sử dụng Trí tuệ nhân tạo cho sinh học. Sinh học là một vấn đề vô cùng khó khăn. Mọi người vẫn hoài nghi vì nhiều lý do. Tôi nghĩ rằng sự đồng thuận đó đang bắt đầu bị phá vỡ. Chúng ta đã thấy một giải Nobel Hóa học được trao cho AlphaFold, một thành tựu đáng kinh ngạc. Chúng ta nên cố gắng xây dựng những thứ có thể giúp chúng ta tạo ra 100 AlphaFold. Và cuối cùng, sử dụng Trí tuệ nhân tạo để tăng cường dân chủ. Chúng ta lo lắng rằng nếu Trí tuệ nhân tạo được xây dựng sai cách, nó có thể trở thành công cụ cho chủ nghĩa độc tài. Làm thế nào Trí tuệ nhân tạo có thể là một công cụ cho tự do và quyền tự quyết? Tôi nghĩ lĩnh vực này còn sơ khai hơn hai lĩnh vực kia, nhưng nó cũng sẽ quan trọng không kém.

Tầm nhìn thống nhất và rủi ro từ hệ thống AI tiên tiến

Vâng, ý tôi là, có hai điều ít nhất liên quan đến những gì bạn đã nói trước đó. Một là tôi cảm thấy mọi người thường tham gia, và họ thực sự tò mò về Trí tuệ nhân tạo về mặt khoa học. Và sau đó, họ dần bị thuyết phục bởi những tiến bộ của Trí tuệ nhân tạo để chia sẻ tầm nhìn về sự cần thiết không chỉ phát triển công nghệ mà còn hiểu sâu sắc hơn về nó, và đảm bảo rằng nó an toàn. Nhưng tôi cảm thấy thật thú vị khi những người bạn làm việc cùng ngày càng đoàn kết trong tầm nhìn của họ về cả sự phát triển Trí tuệ nhân tạo và ý thức trách nhiệm đi kèm với nó. Tôi cảm thấy điều đó đã xảy ra rất nhiều nhờ vào nhiều tiến bộ trong năm qua, như Tom đã nói. Một điều khác là, quay trở lại các vấn đề cụ thể, tôi cảm thấy chúng ta đã làm rất nhiều công việc về an toàn Trí tuệ nhân tạo cho đến thời điểm này, và rất nhiều trong số đó thực sự quan trọng. Nhưng tôi nghĩ giờ đây, với một số phát triển gần đây, chúng ta thực sự đang nhìn thấy những tia sáng về những loại rủi ro nào có thể thực sự phát sinh từ các hệ thống rất, rất tiên tiến để chúng ta có thể điều tra và nghiên cứu chúng trực tiếp bằng interpretability, bằng các loại cơ chế an toàn khác, và thực sự hiểu rõ rủi ro từ Trí tuệ nhân tạo rất tiên tiến có thể trông như thế nào. Và tôi nghĩ rằng đó là điều thực sự sẽ cho phép chúng ta thúc đẩy sứ mệnh một cách khoa học và quan trọng sâu sắc. Vì vậy, tôi rất hào hứng về sáu tháng tới, về cách chúng ta sử dụng sự hiểu biết của mình về những gì có thể sai với các hệ thống tiên tiến để mô tả điều đó và tìm ra cách tránh những cạm bẫy đó. Hoàn hảo. Finn. Được rồi. Làm tốt lắm. Chúng ta phải làm điều này mọi lúc. Đây là lần duy nhất chúng ta có thể làm được điều đó.

TL;DR

Các cá nhân tham gia lĩnh vực AI ban đầu bị cuốn hút bởi sự tổng quát và tiềm năng to lớn của các mô hình, thường đưa ra những "canh bạc có niềm tin" bất chấp sự hoài nghi phổ biến từ giới học thuật và công chúng.
Sự phát triển của "định luật mở rộng quy mô" và các mô hình lớn tại OpenAI đã mở ra những khả năng bất ngờ, dẫn đến việc tích hợp sâu rộng các nỗ lực mở rộng quy mô và an toàn AI, đặc biệt thông qua việc sử dụng mô hình ngôn ngữ để định hướng AI theo giá trị con người.
Việc vượt qua tư duy bảo thủ từ "mùa đông AI" và sự e ngại rủi ro của các tổ chức là yếu tố then chốt giúp lĩnh vực này tiến lên, thúc đẩy nhận thức công chúng và chính trị về tiềm năng và rủi ro nghiêm trọng của AI.

Điểm chính

Tận dụng Định luật Mở rộng quy mô: Tập trung vào việc tăng kích thước mô hình và tài nguyên tính toán, vì điều này đã liên tục dẫn đến các khả năng bất ngờ và cải thiện hiệu suất trong các hệ thống AI.
Tích hợp An toàn thông qua Mô hình Ngôn ngữ: Sử dụng các Mô hình Ngôn ngữ Lớn (LLM) và các kỹ thuật như RLHF (Học tăng cường với phản hồi từ con người) để điều chỉnh hệ thống AI theo giá trị và kiến thức ngầm của con người.
Xác định Mục tiêu Huấn luyện Rõ ràng: Đặt các nhiệm vụ AI và mục tiêu an toàn thành các mục tiêu rõ ràng có thể được dịch thành dữ liệu và hướng dẫn, cho phép các mô hình học các hành vi mong muốn một cách hiệu quả (ví dụ: AI theo hiến pháp).
Nền tảng An toàn Trừu tượng trong Học máy Cụ thể: Chuyển đổi các mối lo ngại về an toàn AI trừu tượng thành các vấn đề học máy cụ thể, có thể hành động được để thúc đẩy sự đồng thuận và nỗ lực nghiên cứu thực tế.
Thách thức Quan điểm Thông thường: Sẵn sàng nghi ngờ "sự đồng thuận" đã có hoặc sự e ngại rủi ro của tổ chức, vì những đột phá thường đến từ việc "đặt cược với niềm tin" vào những ý tưởng đầy tham vọng bất chấp sự hoài nghi ban đầu.
Ưu tiên Dự báo Xu hướng AI: Chủ động dự báo khả năng của AI và các tác động tiềm ẩn đến xã hội để giải quyết các hệ quả về an toàn và chính sách một cách chủ động.

Từ vựng

Trí tuệ nhân tạo (AI) — Artificial Intelligence (AI)
mô hình ngôn ngữ — Language model
định luật mở rộng quy mô — Scaling laws
an toàn AI — AI safety
học tăng cường với phản hồi từ con người (RLHF) — Reinforcement Learning from Human Feedback
tính toán — Computation / Compute
mùa đông AI — AI winter
hành vi bầy đàn — Herd behavior
AI theo hiến pháp — Constitutional AI
mục tiêu huấn luyện — Training objective

Lý do chúng ta làm việc với AI

Định luật Mở rộng quy mô và An toàn AI tại OpenAI

Nguồn gốc của "Concrete Problems in AI Safety"

AI theo Hiến pháp và Giải pháp Đơn giản

Chống lại Sự Thiếu Tham Vọng và Sự Đồng Thuận Giả Tạo

Quan điểm về An toàn AI và Sự thay đổi nhận thức công chúng

Hành trình tham gia lĩnh vực AI

Chính sách mở rộng quy mô có trách nhiệm (RSP) của Anthropic

RSP: Hệ thống An toàn Toàn diện

Minh bạch và Động lực Lành mạnh với RSP

Thách thức và Lặp lại trong Triển khai RSP

Truyền thông Đối ngoại và Tầm quan trọng của Eval

Tính dễ tiếp cận của RSP và Sứ mệnh Cốt lõi

Sự tin tưởng và Sứ mệnh cốt lõi

Thực dụng và Mục tiêu An toàn

Đối mặt với Đánh đổi và "Cuộc Đua Lên Đỉnh"

RSP, Tác động Thị trường và An toàn Thực dụng

Điều chỉnh ưu đãi và cuộc đua lên đỉnh cao

Vẻ đẹp ẩn giấu của mạng nơ-ron và dự án Interpreter

Vai trò của chính phủ trong chuyển đổi AI

Tiềm năng của Claude trong giải quyết vấn đề con người

Claude trong công việc và sự chấp nhận mã hóa

Interpretability: Chìa khóa cho AI an toàn và hiểu biết não bộ

AI cho Sinh học, Dân chủ và những tiến bộ đột phá

Tầm nhìn thống nhất và rủi ro từ hệ thống AI tiên tiến

TL;DR

Điểm chính

Từ vựng

Nội dung chi tiết

Lý do chúng ta làm việc với AI

Định luật Mở rộng quy mô và An toàn AI tại OpenAI

Nguồn gốc của "Concrete Problems in AI Safety"

AI theo Hiến pháp và Giải pháp Đơn giản

Chống lại Sự Thiếu Tham Vọng và Sự Đồng Thuận Giả Tạo

Quan điểm về An toàn AI và Sự thay đổi nhận thức công chúng

Hành trình tham gia lĩnh vực AI

Chính sách mở rộng quy mô có trách nhiệm (RSP) của Anthropic

RSP: Hệ thống An toàn Toàn diện

Minh bạch và Động lực Lành mạnh với RSP

Thách thức và Lặp lại trong Triển khai RSP

Truyền thông Đối ngoại và Tầm quan trọng của Eval

Tính dễ tiếp cận của RSP và Sứ mệnh Cốt lõi

Sự tin tưởng và Sứ mệnh cốt lõi

Thực dụng và Mục tiêu An toàn

Đối mặt với Đánh đổi và "Cuộc Đua Lên Đỉnh"

RSP, Tác động Thị trường và An toàn Thực dụng

Điều chỉnh ưu đãi và cuộc đua lên đỉnh cao

Vẻ đẹp ẩn giấu của mạng nơ-ron và dự án Interpreter

Vai trò của chính phủ trong chuyển đổi AI

Tiềm năng của Claude trong giải quyết vấn đề con người

Claude trong công việc và sự chấp nhận mã hóa

Interpretability: Chìa khóa cho AI an toàn và hiểu biết não bộ

AI cho Sinh học, Dân chủ và những tiến bộ đột phá

Tầm nhìn thống nhất và rủi ro từ hệ thống AI tiên tiến