- Nhóm Tác động Xã hội của Anthropic nỗ lực hiểu cách các hệ thống AI, đặc biệt là Claude, được sử dụng và tác động đến xã hội để tăng cường an toàn và dự đoán các ảnh hưởng trong tương lai.
- Họ đã phát triển Clio, một công cụ chuyển đổi phương pháp đánh giá từ cách tiếp cận "từ trên xuống" giả định sang phân tích "từ dưới lên" dựa trên dữ liệu sử dụng thực tế.
- Clio ưu tiên cao quyền riêng tư của người dùng bằng cách sử dụng các mô hình AI để tổng hợp và nhóm các cuộc trò chuyện một cách riêng tư, không có sự can thiệp của con người, đảm bảo thu thập thông tin chi tiết mà vẫn bảo mật.
What do people use AI models for?
- Chuyển dịch chiến lược đánh giá tác động AI từ các phương pháp "từ trên xuống" (ví dụ: red teaming, đánh giá giả định về phân biệt đối xử) sang cách tiếp cận "từ dưới lên" dựa trên dữ liệu sử dụng thực nghiệm.
- Sử dụng các mô hình ngôn ngữ (LLM) để tự động hóa việc tóm tắt cấp cao và bảo mật các yêu cầu của người dùng từ lượng lớn cuộc trò chuyện thực tế.
- Phân cụm các bản tóm tắt cuộc trò chuyện dựa trên ý định của người dùng và tạo ra một hệ thống phân cấp các trường hợp sử dụng, cung cấp thông tin chi tiết về cách AI được ứng dụng.
- Thiết lập một "chiến lược phòng thủ theo chiều sâu" cho quyền riêng tư, bao gồm các biện pháp bảo vệ tự động như kiểm tra thông tin nhận dạng bởi LLM và ngưỡng tập hợp định lượng tối thiểu trước khi công bố kết quả.
- Đảm bảo không có con người nào đọc các cuộc trò chuyện thô của người dùng, mà chỉ dựa vào các quy trình tự động và bảo vệ quyền riêng tư để trích xuất thông tin.
- Áp dụng các embedding (biểu diễn số) để mã hóa nội dung ngữ nghĩa của các cuộc trò chuyện đã tóm tắt, tạo điều kiện thuận lợi cho việc phân cụm hiệu quả.
- Tận dụng các thông tin chi tiết từ việc sử dụng thực tế để thiết kế các đánh giá an toàn và phát triển sản phẩm AI phù hợp hơn, thu hẹp khoảng cách giữa thử nghiệm trong phòng thí nghiệm và ứng dụng trong thế giới thực.
- hệ thống AI — AI systems
- tác động xã hội — social impact
- trường hợp sử dụng — use case
- phương pháp tiếp cận từ dưới lên / từ trên xuống — bottom-up / top-down approach
- quyền riêng tư của người dùng — user privacy
- thông tin chi tiết — insights
- mô hình ngôn ngữ (lớn) — (large) language model (LLM)
- cụm / nhóm — clusters
- embedding — embedding
- chiến lược phòng thủ theo chiều sâu — defense-in-depth strategy
Giới thiệu Nhóm Tác động Xã hội
Được rồi, chúng ta hãy bắt đầu với phần giới thiệu nhanh. Tôi là Deep Ganguly, một nhà khoa học nghiên cứu thuộc Nhóm Tác động Xã hội. Tôi thực sự bị thúc đẩy bởi những câu hỏi cơ bản như: mọi người đang sử dụng và bị ảnh hưởng như thế nào bởi các hệ thống AI mà chúng tôi đang xây dựng tại Anthropic? Và làm thế nào chúng tôi sử dụng sự hiểu biết đó để làm cho các hệ thống AI của chúng tôi an toàn hơn? Và làm thế nào chúng tôi có thể dự đoán những tác động xã hội có thể xảy ra trong tương lai? Đây là một nhiệm vụ rất khó khăn vì các hệ thống AI mà chúng tôi đang xây dựng có mục đích rất chung và chúng có thể có vô số trường hợp sử dụng và tác động đến con người. Ngày nay, công việc của tôi là tìm những người thông minh hơn tôi rất nhiều và nhanh chóng để họ làm công việc của mình. Và đó chính là nhóm này ở đây. Tất cả chúng tôi đều là một phần của Nhóm Tác động Xã hội, và tôi sẽ chuyển lời cho Asim.
Tuyệt vời. Chào mọi người, tôi là Asim Durmouj. Tôi là nhà khoa học nghiên cứu trong Nhóm Tác động Xã hội. Tôi rất may mắn được làm việc với nhóm những con người tuyệt vời này. Tôi quan tâm đến việc tìm hiểu cách hệ thống AI sẽ tác động đến xã hội nói chung. Một khía cạnh của điều này là hiểu những giá trị nào mà hệ thống AI nên có, làm thế nào chúng ta có thể kết hợp những giá trị này, và một khi đã kết hợp, làm thế nào chúng ta có thể đánh giá các hệ thống AI để xem chúng thực sự đại diện cho những giá trị nào. Và tôi đã tham gia vào dự án Clio này. Tôi cảm thấy rất may mắn về điều đó. Tôi đoán bạn sẽ sớm biết về nó. Vâng, tôi muốn chuyển lời cho Miles.
Vâng, cảm ơn Asim. Tôi là Miles. Tôi là kỹ sư nghiên cứu trong Nhóm Tác động Xã hội. Giống như mọi người ở đây, tôi rất quan tâm đến việc tìm hiểu cách các hệ thống AI của chúng tôi được sử dụng trong thế giới thực và tác động của nó đối với những người thật trên khắp thế giới. Tôi đặc biệt quan tâm đến việc xây dựng các hệ thống AI cho phép chúng tôi hiểu một cách thực nghiệm cách các hệ thống AI của chúng tôi được sử dụng. Và tôi đã có một khoảng thời gian tuyệt vời khi làm việc với nhóm này trong vài tháng qua để xây dựng Clio.
Chào mọi người. Tên tôi là Alex. Tôi là một nhà nghiên cứu trong Nhóm Tác động Xã hội của chúng tôi. Và tôi thực sự quan tâm – như Deepa đã nói – đây là những hệ thống AI có mục đích chung như vậy. Chúng có khả năng thực hiện rất nhiều ứng dụng, thậm chí nhiều hơn những gì bất kỳ cá nhân nào có thể đoán trước. Và tôi nghĩ tôi chỉ đơn giản bị thúc đẩy bởi việc cố gắng hiểu cách các hệ thống AI này được sử dụng ngày nay như một cách để xây dựng sự hiểu biết về cách chúng có thể được sử dụng trong tương lai. Và, nhìn chung, xây dựng khả năng phục hồi xã hội khi có công nghệ mới, đôi khi kỳ lạ, xuất hiện trên thế giới. Và xem liệu chúng tôi có thể làm tốt công việc trong việc tìm hiểu, chuẩn bị và thông báo cho mọi người hay không. Tôi luôn cố gắng nghĩ về vũ trụ song song (parallel universe) của mình mà không làm việc trong một phòng thí nghiệm AI lớn. Và phiên bản đó của tôi sẽ muốn gì? Và bạn biết đấy, tôi muốn được thông báo về loại thông tin nào. Đó là điều thúc đẩy tôi. Và tôi thực sự yêu thích làm việc với tất cả những người khác trong phòng này và trong dự án Clio này.
Clio là gì?
Được rồi. Đi một vòng quanh phòng, tôi đã nghe một vài điều. Thứ nhất là tất cả chúng tôi đều muốn hiểu cách các mô hình AI của chúng tôi có thể tác động đến xã hội. Và sau đó tôi cũng nghe tất cả các bạn nhắc đến Clio. Clio là gì? Alex, chúng ta hãy bắt đầu với bạn. Và nó giúp chúng tôi hiểu cách các mô hình AI của chúng tôi có thể tác động đến xã hội như thế nào?
Clio là viết tắt của Claude Insights and Observations. Về cơ bản, nó là một công cụ mà ở cái nhìn tổng quan, cho phép bạn hiểu được các trường hợp sử dụng khác nhau mà mọi người đang dùng Claude cho. Có thể là bất cứ thứ gì, từ việc tìm hiểu lịch sử Địa Trung Hải đến giúp tôi thiết kế một thí nghiệm khoa học. Về cơ bản, nó hiển thị các nhóm sử dụng tổng hợp cấp cao này giúp chúng tôi hiểu các rủi ro, lợi ích và hướng phát triển của công nghệ trong tương lai.
Phương pháp tiếp cận trước Clio
Vâng. Và Asim, chúng tôi đã làm gì trước Clio để hiểu cách mọi người đang sử dụng hệ thống AI của chúng tôi hoặc có thể bị ảnh hưởng bởi chúng?
Một vài điều tôi nhớ ngay tức thì. Chúng tôi, với tư cách là một nhóm, đã điều tra nhiều phương pháp tiếp cận từ trên xuống (top-down approaches) – nơi chúng tôi có thể đưa ra một loại tác hại mà chúng tôi muốn thấy trên thế giới, và sau đó cố gắng đo lường nó. Ví dụ, liệu mô hình ngôn ngữ lớn của chúng tôi hoặc hệ thống AI nói rộng hơn có phân biệt đối xử khi chúng được sử dụng trong các kịch bản ra quyết định quan trọng (high-stakes decision-making scenarios) hay không. Hoặc chúng tôi đi sâu hơn và đã phát triển các quy trình red teaming cho các hệ thống AI của mình, nơi chúng tôi trả tiền cho các nhân viên hợp đồng để dò tìm các điểm yếu có thể gây hại trong hệ thống AI của chúng tôi một cách đối nghịch, sau đó xem chúng thành công ở đâu và không thành công ở đâu. Và tôi tò mò muốn nghe quan điểm của bạn, rằng trước khi thực hiện công việc từ dưới lên (bottom-up) hơn với Clio – nơi chúng tôi phân tích một dạng Google Trends cho các loại tương tác trong thế giới thực – chúng tôi còn làm gì nữa và từ góc độ của bạn, Clio đã lấp đầy khoảng trống nào?
Vâng. Chúng tôi đã thiết kế rất nhiều đánh giá (evaluations) khác nhau như bạn đã đề cập. Chẳng hạn, về phân biệt đối xử (discrimination), giống như Alex đã nói, để xem liệu mô hình AI có phân biệt đối xử với các nhóm được bảo vệ (protected groups) nhất định hay không. Chúng tôi nghĩ điều này quan trọng vì chúng tôi không muốn các mô hình AI của mình phân biệt đối xử. Hoặc, ví dụ, về sự thuyết phục (persuasion) hay thông tin sai lệch (misinformation) – nơi chúng tôi thiết kế một đánh giá để đo lường liệu mô hình AI có mang tính thuyết phục hoặc tạo ra thông tin sai lệch hay không. Vì vậy, chúng tôi sẽ đưa ra nhiều điều khác nhau để đánh giá. Và bây giờ chúng tôi muốn thiết kế các đánh giá xung quanh những khía cạnh này để xem mô hình AI đang hoạt động như thế nào. Và như bạn đã nói, thực hiện nhiều nghiên cứu về con người (human studies) hơn để xem con người nghĩ gì, cách họ đánh giá các hệ thống AI của chúng tôi. Tôi đoán đây vẫn là một khía cạnh quan trọng. Và chúng tôi vẫn đang thực hiện rất nhiều công việc đánh giá để đánh giá các mô hình AI của mình về các khía cạnh cụ thể khác nhau. Nhưng một điều còn thiếu là xem điều gì thực sự đang diễn ra trong thế giới thực. Đúng không? Chẳng hạn, nơi mà việc đánh giá phân biệt đối xử, sự thuyết phục hay thông tin sai lệch là phù hợp nhất, đó là thực sự hiểu cách các mô hình AI đang được sử dụng và có thể điều chỉnh các đánh giá của chúng tôi theo những trường hợp sử dụng cụ thể này. Tôi nghĩ điều này thực sự quan trọng. Và nó thực sự giúp những người như chúng tôi thiết kế các đánh giá chu đáo hơn, phù hợp với các trường hợp sử dụng trong thế giới thực. Tôi nghĩ điều đó rất hữu ích. Thay vì chỉ đưa ra ý tưởng từ bên ngoài, 'Ồ, có lẽ chúng ta nên đánh giá khía cạnh này,' và chúng ta chỉ tạo một đánh giá cho nó. Có thể nó không phản ánh hoàn hảo những gì đang diễn ra trong thế giới thực. Tôi nghĩ chúng ta có thể đưa ra những cách đánh giá tốt hơn nhiều bằng cách lấy thông tin chi tiết từ việc sử dụng trong thế giới thực. Vâng. Nói cách khác, chúng tôi đang cố gắng thu hẹp khoảng cách giữa thiết lập phòng thí nghiệm (laboratory setting) – nơi chúng tôi đưa ra các giả thuyết – và thiết lập thế giới thực (real-world setting) – nơi chúng tôi thực sự làm nền tảng cho các đánh giá và đo lường của mình dựa trên việc sử dụng trong thế giới thực.
Cách Clio hoạt động và phương pháp từ dưới lên
Vậy thì, Miles, bạn có thể mô tả chi tiết hơn cho chúng tôi về cách chúng tôi đã xây dựng Clio và cách nó giúp chúng tôi đi theo phương pháp từ dưới lên (bottom-up approach) từ dữ liệu để hiểu các vấn đề này không?
Chắc chắn rồi. Cách Clio hoạt động là nó bắt đầu với một số lượng lớn các cuộc trò chuyện trong thế giới thực như Alex đã đề cập. Sau đó, chúng tôi sử dụng một mô hình ngôn ngữ (language model) để xử lý từng cuộc trò chuyện và trích xuất một tóm tắt cấp cao (high-level summary) mang tính riêng tư về những gì đang diễn ra trong cuộc trò chuyện đó. Vì vậy, khía cạnh mà chúng tôi thường quan tâm là yêu cầu tổng thể của người dùng (user's overall request) đối với trợ lý AI là gì. Sau đó, chúng tôi nhóm các câu trả lời liên quan lại với nhau. Và rồi chúng tôi có được những nhóm (clusters) thực sự thú vị này, có xu hướng tương ứng với ý định của người dùng (user intent). Và sau đó, chúng tôi có thể sử dụng một mô hình ngôn ngữ khác một lần nữa để xem xét các nhóm đó và giải thích điều gì đang thực sự xảy ra trong nhóm cuộc trò chuyện này. Và chúng tôi có thể làm điều đó lặp đi lặp lại cho đến khi chúng tôi có được một hệ thống phân cấp (hierarchy) các cách sử dụng rất tốt, cho phép chúng tôi có được thông tin chi tiết về cách các mô hình AI của chúng tôi đang được sử dụng trên nhiều trục khác nhau mà không cần phải đọc các cuộc trò chuyện thô.
Và điều cuối cùng chúng tôi làm sau khi có hệ thống phân cấp đó là chúng tôi có một mô hình AI khác xem xét tất cả các nhóm và sau đó đảm bảo rằng không có gì trong các nhóm đó là riêng tư hoặc có thể nhận dạng (identifying) theo cách mà chúng tôi đã vận hành hóa (operationalized) điều đó như bất cứ thứ gì có thể nhận dạng khoảng một ngàn cá nhân. Và cuối cùng, chúng tôi áp dụng các ngưỡng tối thiểu về tập hợp định lượng (quantitative aggregation minimums). Vì vậy, chúng tôi đảm bảo rằng các nhóm của chúng tôi có một số lượng tối thiểu riêng biệt về các tổ chức (organizations) và cuộc trò chuyện duy nhất. Và sau đó chúng tôi công bố những kết quả đó nội bộ để chúng tôi có thể thiết kế, ví dụ, các đánh giá tốt hơn để chúng tôi có thể hiểu cách các hệ thống AI của chúng tôi đang được sử dụng trên nhiều trường hợp sử dụng khác nhau. Và chúng tôi có thể làm điều này với độ tin cậy khá cao rằng chúng tôi đang duy trì một tiêu chuẩn bảo mật cao (high privacy bar) cho người dùng của chúng tôi.
Đạo đức và Quyền riêng tư của người dùng
Vâng. Thật hấp dẫn. Nếu tôi tóm tắt những gì bạn vừa nói, có vẻ như chúng ta sử dụng Claude để phân tích các cuộc trò chuyện mà mọi người đang có với Claude.
Chính xác. Và không ai trong chúng ta thực sự đọc bất kỳ cuộc trò chuyện nào trong số đó. Không có con người nào thực sự phải xem dữ liệu. Và mặc dù điều đó đúng một cách nghiêm ngặt đối với lưu lượng truy cập (general traffic) nói chung, chúng tôi vẫn triển khai một chiến lược phòng thủ theo chiều sâu (defense-in-depth strategy) để đảm bảo không có thông tin riêng tư (private information) nào bị tiết lộ trong các phân tích (analyses) của chúng tôi. Tôi muốn đi sâu vào điều này một chút. Ký ức của tôi về những ngày đầu làm việc với Clio là cả nhóm chúng tôi ngồi ăn trưa. Và chúng tôi nghĩ, chúng ta nên suy nghĩ trước khi viết một dòng mã nào, suy nghĩ về đạo đức của việc này – kiểu như, có một mâu thuẫn cơ bản (fundamental tension) ở đây: chúng ta muốn hiểu cách mọi người đang sử dụng hệ thống AI của chúng ta, nhưng chúng ta cũng thực sự muốn tôn trọng quyền riêng tư của người dùng (user privacy). Và có một mâu thuẫn cơ bản ở đây. Có một sự đánh đổi (trade-off) giữa lượng thông tin chi tiết (amount of insight) bạn có thể nhận được và mức độ riêng tư (amount of privacy) bạn có. Với quyền riêng tư rất cao, thông tin chi tiết rất thấp. Với quyền riêng tư rất thấp, thông tin chi tiết có thể rất cao. Nhưng điều này là đáng ngờ về mặt đạo đức (ethically dubious). Vậy Alex, bạn có thể kể cho chúng tôi nghe về ký ức của bạn về cuộc trò chuyện đó không? Cuộc trò chuyện đó rất kích thích trí tuệ và quan trọng. Làm thế nào chúng ta đã cùng nhau đưa ra khuôn khổ (framing) đó và quyết định cách chúng ta sẽ tiếp cận dự án này ngay từ đầu?
Vâng. Một lần nữa, tôi cảm thấy tất cả chúng tôi đều nghĩ, chúng ta sẽ muốn gì hoặc cảm thấy thoải mái với điều gì nếu chúng ta là người dùng Claude bên ngoài Anthropic? Và tôi rất coi trọng quyền riêng tư khi xem xét các công nghệ khác nhau. Tôi nghĩ chúng tôi lo lắng, liệu điều này có đang xây dựng một công cụ mà mọi người có thể nghĩ rằng chúng tôi đang sử dụng để gián điệp họ hay không? Hoặc công cụ này có bị coi là xâm phạm (invasive) không? Và liệu nó có thể bị lạm dụng để tìm kiếm mẫu lưu lượng truy cập (traffic patterns) mà mọi người không mong muốn không? Và tôi nghĩ chúng tôi đã suy nghĩ rất kỹ và thiết kế một loạt các biện pháp bảo vệ (safeguards) mà cuối cùng đã trở thành, 'Ồ vâng, tôi có thể không cảm thấy bị hạn chế khi gõ bất cứ điều gì tôi muốn vào Claude trên tài khoản cá nhân của mình, bởi vì nó sẽ ở mức độ tổng hợp cao và không thực sự ảnh hưởng đến những gì tôi cảm thấy mình có thể viết.' Tôi nhớ tất cả chúng tôi đã ngồi quanh bàn và nói, 'Chúng ta lo lắng điều gì?' Vâng. Và sau đó mọi người khác sẽ nói, 'Ồ vâng, điều đó đúng,' hoặc 'Ồ, thực ra tôi nghĩ chúng ta có thể làm điều này.' Và nó giống như luân phiên giữa cấp độ cao, như 'Điều gì có thể diễn ra tốt đẹp? Điều gì có thể không diễn ra tốt đẹp?' Và sau đó, 'Ồ, chi tiết cụ thể. Tôi nghĩ chúng ta có thể làm điều này. Tôi nghĩ chúng ta có thể làm điều kia.' Vì vậy, tôi thực sự thích rằng nó rất truyền cảm hứng (energizing) bởi vì đôi khi những cuộc trò chuyện này có thể rất viển vông (head in the clouds), đúng không? Và đôi khi chúng có thể rất giống mất tập trung vào chi tiết nhỏ mà bỏ qua bức tranh lớn (missing the forest for the trees). Và tôi cảm thấy chúng tôi đã có một vài cuộc trò chuyện như vậy, và tôi nhớ mình đã ngồi ở bàn ăn trưa để nói chuyện về chúng và thực sự mổ xẻ (hashing) trước khi chúng tôi cảm thấy thoải mái. Vâng. Đó là một trong những cuộc trò chuyện kích thích trí tuệ và sâu sắc nhất mà tôi nghĩ chúng tôi từng có với tư cách là một nhóm, và điều đó nói lên rất nhiều về nhóm của chúng tôi.
Đánh giá Ban đầu về Quyền Riêng tư và Tác động của Cleo
Tôi nhớ về cuộc trò chuyện này là bạn là người lo ngại nhất ban đầu, trước khi viết bất kỳ dòng mã nào. Giờ đây, khi bạn đã là một phần của dự án này ngay từ đầu và đã chứng kiến cách chúng tôi tiếp cận tất cả các cân nhắc về đạo đức mà chúng tôi đã nêu ra trong bữa trưa đầu tiên đó, quan điểm của bạn về việc suy nghĩ hay cảm xúc của bạn đã thay đổi như thế nào kể từ những cuộc trò chuyện ban đầu đó? Vâng, tôi nghĩ chắc chắn tôi cảm thấy tốt hơn về nó, đặc biệt là về quyền riêng tư của người dùng, bởi vì tất cả sự suy nghĩ cẩn thận đã được đưa vào các phương pháp nhằm đảm bảo rằng nó bảo toàn quyền riêng tư càng nhiều càng tốt. Vì vậy, vâng, tôi nghĩ tôi chắc chắn cảm thấy tốt hơn nhiều về cách tiếp cận tổng thể mà chúng tôi đã thực hiện. Và cũng như việc nhìn thấy tác động mà nó đã tạo ra trong Anthropic, tôi nghĩ chắc chắn là đáng giá. Nó đã có rất nhiều trường hợp sử dụng khác nhau về mặt an toàn, hoặc để hiểu cách người dùng đang sử dụng Claude. Nó mang lại rất nhiều thông tin chi tiết như tôi đã nói, để định hình sự phát triển của chúng tôi, an toàn sản phẩm, tất cả các khía cạnh khác nhau này. Tôi nghĩ chắc chắn đó là một ý tưởng hay để thực hiện dự án này và một cách tiếp cận rất chu đáo để bảo vệ quyền riêng tư theo ý kiến của tôi. Tuyệt vời.
Quy trình làm việc Từng bước của Cleo và Bảo vệ Quyền Riêng tư
Và có lẽ, Miles, bạn có thể quay lại quy trình từng bước cụ thể được không? Làm thế nào chúng ta đi từ một cuộc trò chuyện đến một cụm cuộc trò chuyện đã được tóm tắt để có được các phân tích chuyên sâu thực sự? Hãy trình bày cho chúng tôi vòng đời hoạt động của Cleo từng bước một. Từng bước một, tuyệt vời. Một điều tôi cũng muốn lưu ý, Essen vừa nói cách đây một lát về việc Cleo đã giúp chúng tôi trong việc đánh giá và thiết kế các đánh giá đại diện hơn, dựa trên việc sử dụng thực nghiệm như thế nào. Và một nơi mà chúng tôi thực sự thiết kế một đánh giá dựa trên việc sử dụng thực nghiệm từ Cleo là đánh giá quyền riêng tư của Cleo, bởi vì chúng tôi thực sự đã xây dựng một công cụ quét các cụm để tìm các vấn đề riêng tư. Và chúng tôi đã xây dựng các đánh giá của công cụ kiểm toán đó bằng cách sử dụng dữ liệu Cleo thực tế. Tất nhiên, chúng tôi chỉ sử dụng dữ liệu bảo toàn quyền riêng tư, và sau đó chúng tôi tạo dữ liệu tổng hợp cho các ví dụ không bảo toàn quyền riêng tư. Đó chỉ là một ví dụ trong Cleo.
Vâng, vậy làm thế nào chúng ta đi từ một cuộc trò chuyện cá nhân đến một cụm mà chúng ta có thể sử dụng để phân tích tiếp theo? Giả sử tôi đang yêu cầu Claude giúp lập trình một ứng dụng web. Chà, cuộc trò chuyện của tôi có thể sẽ giống như nhiều cuộc trò chuyện khác mà mọi người đang có với Claude. Vì vậy, điều mà Cleo sẽ làm là khi nó lấy một mẫu ngẫu nhiên các cuộc trò chuyện của Claude, nó sẽ xem xét bản ghi của tôi — và đây là Claude, không phải con người — và nó sẽ tóm tắt yêu cầu của tôi cho Claude trong một câu. Và nó sẽ nói, ví dụ, "Yêu cầu tổng thể của người dùng đối với trợ lý là giúp thiết kế một ứng dụng web bằng ngôn ngữ lập trình Elixir." Và sau đó chúng tôi lấy những cuộc trò chuyện đó, và chúng tôi tính toán một biểu diễn số cho chúng, được gọi là một embedding. Và một embedding tương ứng với nội dung ngữ nghĩa của câu. Và sau đó cuộc trò chuyện của tôi sẽ được nhóm với hàng loạt cuộc trò chuyện khác đều về phát triển web, có thể bằng Elixir, có thể bằng các ngôn ngữ lập trình liên quan. Và sau đó nó sẽ loại bỏ cuộc trò chuyện thô thực tế. Chúng tôi không cần nó nữa. Tất cả những gì chúng tôi có bây giờ là nhóm các cuộc trò chuyện này với các bản tóm tắt của từng cuộc trò chuyện riêng lẻ. Và Claude, một lần nữa, sẽ xem xét nhóm đó, và nó sẽ thấy, "À, được rồi, đây là một loạt các cuộc trò chuyện về phát triển web, có thể là phát triển web bằng Elixir." Và nó sẽ đưa ra một tên và một mô tả cho cụm đó. Và chúng tôi đã đặc biệt chỉ dẫn Claude tránh đưa vào bất kỳ chi tiết riêng tư nào. Ví dụ, nó sẽ không bao gồm tên của trang web, vì không cần thiết. Điều thực sự quan trọng là đó là phát triển web.
Và sau đó, nếu cụm đủ lớn (vì chúng tôi có kích thước cụm tối thiểu), nó sẽ chuyển sang bước tiếp theo, nơi chúng tôi yêu cầu Claude xem xét cuộc trò chuyện và nói, "Hừm, chỉ kiểm tra lại, có bất kỳ thông tin riêng tư nào ở đây có thể xác định, bạn biết đấy, ít hơn một nghìn người không?" Và chúng tôi đã hiệu chuẩn và kiểm tra công cụ kiểm toán đó theo một vài cách. Và nếu có, thì chúng tôi có cụm tổng hợp cuối cùng này đã được loại bỏ bất kỳ định danh thô nào cho các cuộc trò chuyện cơ bản, bao gồm, bạn biết đấy, ví dụ, một nghìn cuộc trò chuyện về phát triển web, có thể bằng Elixir nếu có đủ. Và một số thống kê về, ví dụ, phân tích ngôn ngữ của cụm đó. Và sau đó chúng tôi có thể sử dụng điều đó để hiểu, ví dụ, liệu Claude có hữu ích như nhau khi đưa ra lời khuyên phát triển web cho những người bằng tiếng Anh hoặc tiếng Tây Ban Nha, hoặc chúng tôi có thể hiểu ngôn ngữ lập trình nào mà mọi người thường yêu cầu trợ giúp. Chúng tôi có thể làm tất cả điều này một cách thực sự bảo toàn quyền riêng tư, bởi vì chúng tôi đã được loại bỏ rất xa khỏi các cuộc trò chuyện cơ bản đến mức chúng tôi rất tự tin rằng chúng tôi có thể sử dụng điều này theo cách tôn trọng tinh thần quyền riêng tư mà người dùng của chúng tôi mong đợi từ chúng tôi. Vâng, đó là một giải thích cực kỳ rõ ràng về cách Cleo hoạt động. Tôi muốn đào sâu thêm một chút về điều này. Bạn đã đề cập đến một cụm trường hợp sử dụng về lập trình cấp cao, và bạn có thể đi sâu hơn vào các chi tiết cụ thể như về các ngôn ngữ lập trình thực tế hoặc các loại câu hỏi về lập trình. Hãy quay trở lại tổng quan một lần nữa, ngoài lập trình, có lẽ Alex, phân phối các loại cụm mà chúng tôi đã thấy là gì? Và điều gì đã làm bạn ngạc nhiên nhất và tại sao?
Những Insight Bất ngờ về Ứng dụng của Claude
Vậy thì, một điều mà tôi thấy thực sự hấp dẫn là tôi đã mong đợi sẽ có rất nhiều cụm về cách Claude hữu ích cho viết lách. Và chúng tôi đã thấy điều đó, nhưng tôi cũng thấy rất nhiều cụm mà mọi người sử dụng Claude cho nghiên cứu, sáng tạo ý tưởng và động não, và những điều như hiểu về lịch sử Địa Trung Hải, nhưng cũng như hiểu và động não những ý tưởng mới trong cơ học lượng tử, vật lý, khoa học vật liệu và sinh học. Và tôi không nghĩ mình sẽ mong đợi một tỷ lệ sử dụng lớn như vậy lại là những tác vụ dường như là tạo ý tưởng cấp cao này. Và điều đó thực sự mang tính truyền cảm hứng. Tôi đã nghĩ, wow, công cụ mà chúng tôi đang xây dựng này thực sự đang giúp mọi người thiết kế, tôi không biết, có thể là thuốc tốt hơn hoặc cải thiện, về cơ bản là biên giới tri thức nhân loại. Và tôi nghĩ đó là, tôi nhớ đã thấy điều đó và nghĩ, ồ wow, điều này thật tuyệt. Vâng, tôi nghĩ đó là, tôi không biết liệu từ 'ngạc nhiên' có đúng không, nhưng nó đã tác động đến tôi một cách thú vị.
Tôi thấy một cụm lớn người hỏi lời khuyên nuôi dạy con cái. Và với tư cách là một người làm cha mẹ, tôi đã nghĩ, đợi đã, tôi chưa bao giờ nghĩ đến việc hỏi Claude về lời khuyên nuôi dạy con cái. Và thế là tôi hỏi Claude, "Này, bạn có lời khuyên nuôi dạy con cái nào không?" Và nó thực sự đã gợi ý một điều mà tôi thực sự đang sử dụng bây giờ, đó là, bạn biết đấy, "Bạn có thể yêu cầu tôi viết mã bằng cách sử dụng sản phẩm/vật phẩm như các trò chơi đơn giản nhằm dạy đại số." Và tôi đã nghĩ, "Ồ tuyệt vời, bạn có thể làm điều đó bằng tiếng Tây Ban Nha không?" Và Claude nói, "Sí, claro!" (Chắc chắn rồi!). Và tôi nói, "Hãy làm thôi." Và tôi ngồi xuống với các con của mình và chúng tôi đã viết mã những trò chơi nhỏ này để cố gắng dạy đại số bằng tiếng Tây Ban Nha. Và chúng rất thích nó và rất vui. Và tôi nghĩ rằng nếu không có Cleo, tôi sẽ không bao giờ nghĩ rằng đó là một trường hợp sử dụng có thể áp dụng vào cuộc sống cá nhân của tôi. Tôi chỉ nghĩ rằng đây là một ví dụ tuyệt vời về việc cực kỳ khó để dự đoán tất cả các cách mà mọi người sẽ sử dụng hệ thống AI. Một ví dụ là có thể khó biết tất cả các cách bạn có thể tích hợp Claude vào cuộc sống của chính mình. Và vì vậy, đôi khi chúng ta nghĩ về những điều chưa biết từ góc độ an toàn, chẳng hạn. Cũng có những điều chưa biết từ góc độ phát triển cá nhân. Và việc sử dụng Claude để tạo trò chơi đại số bằng tiếng Tây Ban Nha là một ví dụ tuyệt vời về điều đó. Vâng.
Năng lực Văn hóa và Ngôn ngữ của Claude
Và sau đó, có lẽ là mở rộng ý tưởng về ngôn ngữ Tây Ban Nha: Essen, bạn và tôi đã dành rất nhiều thời gian để cố gắng hiểu xem liệu Claude có năng lực văn hóa không? Nó hoạt động như thế nào trong các ngữ cảnh ngôn ngữ khác nhau? Và rất nhiều công việc của bạn sử dụng Cleo là để đi sâu vào câu hỏi đó. Và tôi muốn hiểu từ góc độ của bạn: những phát hiện chính của bạn là gì? Liệu Claude có hữu ích như nhau trong các ngôn ngữ khác nhau không? Mọi người đang sử dụng nó trong các ngôn ngữ và văn hóa khác nhau như thế nào? Cleo đã giúp bạn học được điều gì về điều đó? Vâng, điều đó cũng rất thú vị, cũng liên quan đến những gì bạn vừa nói và những gì Alex đã nói: mọi người cũng sử dụng Claude trong các thiết lập chủ quan thực sự. Ví dụ, để nhận lời khuyên về mối quan hệ, hoặc lời khuyên về "Tôi nên làm tóc như thế nào?" Bạn biết đấy, hoặc như bạn đã nói, lời khuyên nuôi dạy con cái. Điều đó thực sự thú vị đối với tôi bởi vì, như tôi đã nói trước đó, tôi rất quan tâm đến những câu hỏi về giá trị này, chẳng hạn như mô hình AI nên làm gì trong các thiết lập chủ quan, thiết lập mở nơi không có câu trả lời rõ ràng. Và nhận thấy rằng điều này thực sự liên quan đến việc sử dụng trong thế giới thực là rất tốt hoặc thú vị đối với tôi, và nó phần nào xác nhận câu hỏi này nhiều hơn nữa. Và, vâng, nó phần nào đã thúc đẩy tôi khám phá hướng này nhiều hơn. Được rồi, điều này thực sự phù hợp, và chúng ta nên thực sự dành thời gian khám phá sâu hơn vì nó xuất hiện trong các tương tác trong thế giới thực.
Nhưng liên quan đến việc sử dụng trong các ngôn ngữ khác nhau, tôi đã có một số phát hiện thú vị. Ví dụ, như Alex đã nói, có lẽ bằng tiếng Anh, mọi người hỏi các câu hỏi liên quan đến kỹ thuật phần mềm cho Claude, nhưng tôi thấy rằng tỷ lệ tác vụ trong các ngôn ngữ khác nhau khác nhau khá nhiều. Ví dụ, mọi người yêu cầu trợ lý viết lách chuyên nghiệp và học thuật nhiều hơn bằng các ngôn ngữ khác nhau như tiếng Tây Ban Nha hoặc tiếng Ả Rập. Ngoài ra, như bạn có thể đoán, dịch thuật – dịch văn bản sang các ngôn ngữ khác – tôi nghĩ điều này xuất hiện nhiều hơn ở các ngôn ngữ khác. Điều này thú vị khi thấy bởi vì chúng tôi muốn các mô hình AI thực sự giỏi trong các tác vụ thuộc về các ngôn ngữ khác, nhưng tôi nghĩ hai điều đó là những phát hiện chính. Và tôi cũng thấy một số câu hỏi xung quanh các ngữ cảnh văn hóa và các vấn đề toàn cầu và những điều tương tự xuất hiện nhiều hơn ở các ngôn ngữ khác nữa. Vâng, điều đó thật tuyệt vời.
Xác minh Độ chính xác của Cleo
Vâng, điều đó thật tuyệt vời. Và Alex, làm thế nào chúng ta biết rằng Cleo hoạt động đúng như quảng cáo? Vâng, chúng tôi thực hiện toàn bộ một loạt thí nghiệm trong bài báo. Một trong những điều tôi nghĩ thực sự thú vị là chúng tôi tạo ra một kho dữ liệu tổng hợp khổng lồ gồm hàng chục nghìn cuộc trò chuyện, và chúng tôi thực hiện điều đó thông qua một quy trình mà chúng tôi biết phân phối chân lý trông như thế nào. Chúng tôi biết rằng điều này phải là khoảng 10% nội dung toán học, 5% lập trình, 2% câu hỏi về gấu bông, và chúng tôi chỉ đưa tất cả những điều đó cho Cleo mà không cho nó biết những cuộc trò chuyện này nên được nhóm lại như thế nào. Và sau đó chúng tôi yêu cầu nó thực hiện quy trình tổng hợp đó và chúng tôi xem liệu chúng tôi có thể tái tạo lại phân phối chân lý đó hay không. Và chúng tôi làm điều này cho nhiều loại dữ liệu khác nhau. Chúng tôi làm điều đó cho, bạn biết đấy, dữ liệu ngẫu nhiên. Chúng tôi làm điều đó cho dữ liệu tổng hợp liên quan, và chúng tôi thấy rằng nhìn chung Cleo thực sự chính xác trong việc tái tạo lại phân phối chân lý đó. Và đó là một trong nhiều cách mà chúng tôi biết rằng Cleo thực sự đang làm tốt công việc. Vâng, và về mặt cá nhân, tôi nhớ đã đặt câu hỏi này cho bạn, và tôi nhớ đã ra về với suy nghĩ, "Vâng, chúng ta nên tìm cách kiểm chứng thực nghiệm định lượng rằng Cleo thực sự hoạt động." Tôi nhớ đã về nhà và nghĩ, "Đó là một vấn đề rất khó mà tôi đã giao," và sau đó tôi quay lại, và tôi nhớ đã thấy giải pháp và nghĩ rằng, "Điều đó thật cực kỳ tinh tế và chu đáo," và tôi đã nghĩ, "Wow, làm thế nào mà họ lại nghĩ ra ý tưởng tuyệt vời này?"
Hiệu suất Đa ngôn ngữ của Clio
Tôi thực sự ấn tượng với cách nhóm đã giải quyết vấn đề mơ hồ và khó khăn đó một cách xuất sắc. Một điểm rất hay khác của phân tích tái cấu trúc dữ liệu tổng hợp này là nó cho phép chúng tôi chia nhỏ độ chính xác của mình dựa trên các thuộc tính khác mà chúng tôi quan tâm. Ví dụ, ngôn ngữ của cuộc trò chuyện. Và chúng tôi thực sự có cái nhìn khá sâu sắc về hiệu suất đa ngôn ngữ của Clio. Do đó, chúng tôi tin tưởng rằng Clio hoạt động tốt tương đương đối với các cuộc trò chuyện bằng tiếng Anh cũng như các cuộc trò chuyện bằng tiếng Gruzia, điều này mang lại cho chúng tôi sự tự tin hơn cho các nghiên cứu đa ngôn ngữ tuyệt vời của Essence.
Nhiệm vụ An toàn của Anthropic và Cách tiếp cận Clio
Hãy thay đổi chủ đề một chút. Anthropic có một nhiệm vụ an toàn rất mạnh mẽ, và điều đó liên quan đến những điều chúng tôi có như chính sách mở rộng quy mô có trách nhiệm của mình, nơi chúng tôi xác nhận các loại rủi ro thảm khốc mà chúng tôi quan ngại, và sau đó chúng tôi cố gắng tìm kiếm bằng chứng về những rủi ro đó theo hướng từ trên xuống bằng cách xây dựng các đánh giá, như chúng ta đã nói trước đó.
Về phía tin cậy và an toàn, chúng tôi cũng có chính sách sử dụng được chấp nhận xác nhận rằng: "Đây là những loại hành vi không được phép." Và chúng tôi sẽ đào tạo các bộ phân loại để kiểm tra hành vi này. Sau đó, thông qua xem xét thủ công, chỉ khi nó được gắn cờ bởi các bộ phân loại tin cậy và an toàn của chúng tôi, nhóm tin cậy và an toàn mới có thể vào và quyết định phải làm gì trong những trường hợp này.
Đây một lần nữa là một cách tiếp cận từ trên xuống nơi chúng tôi phải viết các chính sách đó, cho dù đó là chính sách mở rộng quy mô có trách nhiệm hay chính sách sử dụng được chấp nhận. Với Clio, chúng tôi có thể tăng cường nghiêm ngặt cách tiếp cận từ trên xuống đó bằng một cách tiếp cận từ dưới lên, đó là: "Khoan đã, chỉ bằng cách nhìn vào lưu lượng người dùng, có thể có những điểm mù mà chúng tôi không thấy trước đó khi xác nhận các chính sách này."
Và vì vậy, có lẽ chúng ta có thể đi vòng quanh bàn, bắt đầu với Alex, về một số trường hợp từ dưới lên mà chúng tôi thấy có liên quan đến an toàn và chúng tôi đã làm gì với chúng bằng cách sử dụng Clio? Tôi thích cách khung đó và tôi nghĩ rằng có một chu trình kiểu như: "Ồ, chúng ta nghĩ thế giới trông như thế nào?" và sau đó thực nghiệm thực sự nhìn vào thế giới và nói: "Ồ, chúng ta đã sai quá nhiều" hoặc trong một số trường hợp thực sự khá đúng, và sau đó sử dụng điều đó để tiếp tục chu trình và sửa chữa.
Phát hiện Rủi ro và Hành vi Bất thường bằng Clio
Tôi nghĩ chúng tôi đã thấy nhiều điều. Chúng tôi đã tìm thấy, bạn biết đấy, rất nhiều lượt chạy đã phát hiện ra nhiều hoạt động đáng ngờ mà sau đó chúng tôi đã gắn cờ cho nhóm tin cậy và an toàn của mình, bao gồm cả những người đang cố gắng viết email spam, những người đang cố gắng tạo bài viết spam về làm vườn, và một vài loại tác hại khác mà chúng tôi tiết lộ trong báo cáo của mình.
Chúng tôi đã tìm thấy rất nhiều người sử dụng các mô hình AI này cho các ứng dụng khoa học khác nhau, cho những người đang cố gắng kiểm tra mức độ tốt của mô hình trong hacking và tấn công mạng, cũng như phòng thủ mạng. Và tất cả những điều này về cơ bản giúp chúng tôi tìm ra: "Ồ, những rủi ro nào mà chúng ta thực sự nên lo lắng? Những mô hình này thực sự đang đạt được tiến bộ và áp dụng ở đâu?" Và có lẽ đó là những chỉ số dẫn đầu cho thấy khi nào chúng sẽ thực sự tràn ra và gây ra tác hại hoặc lợi ích lớn hơn cho xã hội.
Vì vậy, tôi nghĩ đó là một vài điều, và sau đó cũng có đủ loại điều như gắn bó tình cảm với các mô hình. Mọi người có các cụm nói những điều như "thảo luận lãng mạn giữa người và mô hình" hoặc "nhập vai". Mà không cần điều tra thêm, rất khó để biết chúng là gì và giới hạn phù hợp là gì, và đó có lẽ là một cuộc thảo luận mà toàn xã hội nên có. Vâng, nhưng đó là những điều chúng tôi nhận thấy và những điều chúng tôi nghĩ rằng chúng tôi muốn chia sẻ với mọi người. Vâng, và có lẽ Miles, bạn có muốn bổ sung thêm điều gì không?
Clio và Các tình huống Khủng hoảng Cá nhân
Vâng, tôi đồng ý với Alex. Bạn không thể biết mục tiêu đang đi đâu nếu bạn không biết mục tiêu đang ở đâu, và tôi nghĩ Clio cố gắng cho chúng ta biết mục tiêu đang ở đâu. Một lĩnh vực mà tôi thấy có liên quan đến an toàn nhưng không hoàn toàn rơi vào lạm dụng, và tôi nghĩ điều quan trọng là phải phân biệt giữa hai điều đó, là mọi người nói chuyện với Claude trong những khoảnh khắc khủng hoảng cực độ, khủng hoảng cá nhân cực độ. Và thường thì mọi người có thể không có ai đó để tư vấn cho họ qua những khoảnh khắc thực sự khó khăn, và tôi đã ngạc nhiên khi thấy điều đó phổ biến đến mức nào.
Và điều này xuất hiện như một cụm, thậm chí là một vài cụm. Và tôi nghĩ một điều mà Clio cho phép chúng tôi làm là có được cái nhìn chi tiết hơn về cách mọi người tương tác với Claude trong những khoảnh khắc đó, điều này có liên quan đến an toàn, chính xác hơn một chút so với: "Ồ, điều này có vi phạm chính sách của chúng tôi không?" Bởi vì các bộ phân loại thường cho bạn một chỉ báo nhị phân: có/không, đã vi phạm hay chưa. Và nhiều tác hại không dễ dàng chuyển thành loại nhị phân có/không, đã vi phạm hay chưa đó. Và tôi nghĩ, bạn biết đấy, những khoảnh khắc khủng hoảng là một ví dụ như vậy, và chúng ta cần đảm bảo rằng Claude chịu trách nhiệm trong những ngữ cảnh đó khi ai đó tìm đến nó trong khoảnh khắc đen tối nhất của họ.
Vì vậy, một lĩnh vực mà Clio đã hữu ích là tách rời những gì đang kích hoạt các bộ phân loại của chúng tôi để chúng tôi có thể có cái nhìn chi tiết hơn và nói: "Được rồi, cụm này chắc chắn thực sự đã vi phạm. Cụm này nằm ngay trên ranh giới, và có lẽ nó trông bề ngoài giống như một cái gì đó sẽ bị vi phạm nhưng không phải." Và sau đó chúng tôi có thể quay lại, cải thiện các bộ phân loại của mình và cải thiện các chính sách của mình, bạn biết đấy, nếu chúng tôi muốn đi xa đến mức đó để vẽ ra những ranh giới tốt hơn.
Tối ưu hóa Hành vi Từ chối của Claude
Một điểm chỉ trích mà một số phòng thí nghiệm đã nhận được là các mô hình này đôi khi hơi phiền toái. Chẳng hạn, một lần tôi yêu cầu Claude giúp giết một tiến trình đã chạy loạn trên máy tính của mình, và nó nói: "Tôi xin lỗi, điều đó đi ngược lại các thực hành phát triển phần mềm đạo đức." Và kiểu như, "Thôi nào, Claude!" (Đây là một phiên bản cũ hơn, tôi không nghĩ nó sẽ làm điều đó nữa.)
Nhưng một trong những điều chúng ta có thể làm là chúng ta có thể xem xét các cụm có tỷ lệ từ chối cao hoặc tỷ lệ gắn cờ tin cậy và an toàn cao chẳng hạn. Sau đó, chúng ta có thể xem xét chúng và nói: "Hừm, đây rõ ràng là một quá từ chối (over-refusal). Điều này rõ ràng là ổn." Sau đó, chúng ta có thể sử dụng điều đó để đóng vòng lặp và nói: "Được rồi, đây là những ví dụ mà chúng tôi muốn thêm vào dữ liệu huấn luyện thủ công của chúng tôi để Claude ít từ chối hơn trong tương lai về những chủ đề đó."
Và điều quan trọng là chúng tôi không sử dụng các cuộc trò chuyện thực tế để làm cho Claude ít từ chối hơn. Thay vào đó, những gì chúng tôi đang làm là chúng tôi đang xem xét các chủ đề và sau đó thuê người để tạo dữ liệu trong các miền đó và tạo dữ liệu tổng hợp trong các miền đó. Vì vậy, chúng tôi có thể sử dụng hoạt động của người dùng với Claude để cải thiện trải nghiệm của họ đồng thời tôn trọng quyền riêng tư của họ.
Nhận diện Lạm dụng Phối hợp
Vì vậy, một điều mà tôi đã thấy khá nhiều, và những người khác trong nhóm tin cậy và an toàn thực sự dẫn dắt công việc này cũng đã thấy, là có một hình dạng của lạm dụng phối hợp (coordinated abuse). Nó thường trông giống như một cụm dày đặc của nhiều tài khoản khác nhau. Và vì vậy, bạn có loại cụm rất lớn này mà mật độ không tương xứng, và bạn có thể phóng to vào đó và ngay lập tức phát hiện ra nó thường là vì nó rất rõ ràng, bởi vì hành vi bình thường có xu hướng phân tán hơn nhiều.
Và vì vậy, nếu bạn có vô số cuộc trò chuyện khác nhau đến từ vô số tổ chức khác nhau mà tất cả đều chỉ về cùng một chủ đề chính xác hoặc chúng có cùng định dạng, bạn có thể nhanh chóng phát hiện ra điều đó trên bản đồ bởi vì nó chỉ là một khối cầu chặt chẽ, và việc sử dụng thường xuyên trong thế giới thực không hiển thị như vậy.
Điều chỉnh Hành vi Từ chối của Claude: Vấn đề "Quá từ chối" và "Thiếu từ chối"
Vâng, và sau đó quay lại vấn đề từ chối, có lẽ điều này dành cho bạn, đó là khi Claude quyết định từ chối hay không từ chối, nó ngầm đưa ra một loại đánh giá giá trị nào đó. Và với Clio, chúng tôi có thể xác định tỷ lệ từ chối trong các chủ đề nhóm của các cuộc trò chuyện. Và đôi khi chúng tôi đã tìm thấy những điều mà kiểu như: "Hừm, Claude thực sự từ chối, bạn biết đấy, giết một tiến trình lập trình" – đó là một quá từ chối. Và đôi khi nó lại thiếu từ chối.
Vì vậy, ví dụ, một yêu cầu dịch nội dung độc hại từ tiếng Anh sang một ngôn ngữ khác có thể vi phạm chính sách sử dụng của chúng tôi, nhưng chỉ đơn thuần là yêu cầu một tác vụ dịch thuật thay vì một tác vụ tạo sinh, nó thực sự thiếu từ chối. Và vì vậy, có một loại đánh giá giá trị ở đây; đó là một vùng xám. Và vậy, bạn nghĩ thế nào về việc sử dụng các phân tích của Clio để giải quyết vấn đề này? Làm thế nào chúng ta có thể sử dụng những hiểu biết và học hỏi của mình ở đây để điều chỉnh các quá từ chối và thiếu từ chối?
Phân tích Từ chối và Nhận thức Đa Văn hóa
Đó là một câu hỏi tuyệt vời. Chúng tôi quan tâm đến việc hiểu liệu Claude có từ chối các truy vấn hay không. Trước hết, liệu nó có từ chối những truy vấn rõ ràng là có ý định lạm dụng không? Và trong "vùng xám" này, tôi nghĩ một điều chúng ta có thể làm là thực sự xác định các tương tác liên quan đến giá trị hoặc những tương tác cần đến sự đánh giá giá trị, sau đó xem xét tỷ lệ từ chối đối với những tương tác đó. Chúng tôi quan tâm đến hướng này và hiện đang khám phá nó. Tôi nghĩ sẽ rất thú vị khi thấy, ví dụ, Claude từ chối ít hơn bằng tiếng Anh, nhưng ở các ngôn ngữ khác lại từ chối nhiều hơn cho các truy vấn tương tự, hoặc ngược lại. Tôi nghĩ đây là công việc đang diễn ra nhưng chắc chắn rất thú vị. Nhưng vâng, tôi nghĩ Clio cho phép chúng tôi phân tích các tương tác này, có lẽ ở những nơi có nhiều tính chủ quan hơn, và xem xét tỷ lệ từ chối để biết trong ngữ cảnh nào nó có thể ngần ngại phản hồi hơn so với ngữ cảnh nào nó cảm thấy tự tin hơn khi đưa ra phản hồi.
Clio và Tính Toàn Vẹn Bầu cử
Vâng, khi chúng tôi đang phát triển Clio, cuộc tổng tuyển cử ở Hoa Kỳ đang diễn ra. Tôi nhớ cả nhóm đã ngồi lại và nghĩ: "Chà, chúng ta thực sự không biết." Đây là lần đầu tiên trong lịch sử đất nước mà bất kỳ ai cũng có thể đến một chatbot và hỏi nó những câu hỏi tìm kiếm thông tin ("Tôi đăng ký bỏ phiếu ở đâu?") hoặc những câu hỏi chủ quan ("Tôi nên bỏ phiếu cho ai?"). Và tôi nhớ đã nghĩ, "Có lẽ chúng ta có thể sử dụng Clio để phần nào hiểu điều này, và điều này có vẻ rất quan trọng." Esson, bạn có thể cho chúng tôi biết về những phân tích thăm dò mà chúng tôi đã thực hiện và những gì chúng tôi tìm thấy trong nỗ lực đó, có lẽ ở cấp độ cao không?
Vâng, như bạn đã nói, chúng tôi đã làm việc về tính toàn vẹn của bầu cử được một thời gian và ban đầu đã phát triển nhiều đánh giá khác nhau để kiểm tra các mô hình AI của mình về cả tính xác thực của thông tin và cách nó có thể sắc thái hơn và không thiên vị. Vì vậy, chúng tôi đã phát triển nhiều đánh giá khác nhau, nhưng một điều còn thiếu là mức độ phù hợp của những đánh giá này, đúng không? Liệu mọi người có thực sự hỏi những câu hỏi phù hợp không. Tôi nghĩ Clio đã cho phép chúng tôi dựa vào việc sử dụng thực tế để làm điều này. Vì vậy, chúng tôi bắt đầu sử dụng Clio để hiểu xem mọi người có đang hỏi những câu hỏi có thể liên quan đến bầu cử hay không, và chúng tôi đã tìm thấy một số cách sử dụng thú vị. Ví dụ, mọi người hỏi về thông tin chính trị hoặc thông tin về các vấn đề chính sách khác nhau, v.v., hoặc để thực sự hiểu cách hoạt động của đại cử tri đoàn ở Hoa Kỳ, để thực sự có thêm thông tin về cách hệ thống AI hoạt động và để có thêm thông tin về các vấn đề chính trị, v.v. Và chúng tôi đã xây dựng các đánh giá để đảm bảo các mô hình AI của chúng tôi càng sắc thái và không thiên vị càng tốt, nhưng việc thấy cách sử dụng này đã mang lại cho chúng tôi thêm sự xác nhận. Và chúng tôi cũng có thể xem xét tỷ lệ từ chối đối với các cụm khác nhau, như Miles cũng đã nói. Tôi nghĩ điều quan trọng là mô hình AI phải nhận thức được việc lạm dụng và từ chối. Vì vậy, nó cũng có thể giúp chúng tôi thấy, "OK, cụm này có thể có nguy cơ bị lạm dụng, và mô hình AI đang làm tốt việc từ chối điều này." Tôi nghĩ đó cũng là một sự xác nhận tốt.
Xử lý Sự không Chắc chắn và Giới hạn của Mô hình
Vâng, tôi nghĩ ký ức của tôi về tất cả công việc này, quay trở lại điều Alex đã nói trước đó, là: "Chúng ta có một tầm nhìn lý tưởng về thế giới trông như thế nào, và đôi khi, chúng ta sử dụng Clio để thực sự hiểu thế giới trông như thế nào." Và đối với công việc về tính toàn vẹn bầu cử tuyệt vời của bạn, hóa ra tầm nhìn của bạn về những gì có thể đang xảy ra, và việc phát triển các đánh giá trong bộ công cụ toàn vẹn bầu cử mà bạn đã xây dựng, thực sự phù hợp với những loại điều thực tế mà chúng tôi đang thấy trong thực tế. Và tôi nhớ đã nghĩ, "Ồ, chúng ta đang ở trong một giai đoạn có rất nhiều sự không chắc chắn," và tôi nhớ đã cảm thấy rằng Clio thực sự giúp chúng ta giải quyết những khoảnh khắc không chắc chắn đó. Bạn có đồng ý hoặc muốn bình luận về điều đó không?
Vâng, tôi đồng ý. Có lẽ tôi có thể đưa ra những ví dụ cụ thể hơn. Ví dụ, trong quá trình đánh giá, chúng tôi nhận thấy rằng Claude không phải lúc nào cũng thừa nhận những hạn chế của nó về ngày cắt bỏ ngữ cảnh. Vì vậy, bạn có thể hỏi một câu hỏi gần đây, nhưng Claude đã được đào tạo cho đến thời điểm sớm hơn nhiều, và nó nên nói, "Ồ, tôi không có hầu hết thông tin," hoặc nó nên giới thiệu đến các nguồn đáng tin cậy khi cần. Vì vậy, chúng tôi đã phát triển rất nhiều đánh giá xung quanh điều này, và về cơ bản, chúng tôi đã làm cho Claude tốt hơn trong việc thực hiện những điều này. Nhưng Claude, như bạn có thể tưởng tượng, cho phép chúng tôi kiểm tra điều này rất cụ thể. Ví dụ, bạn có thể hỏi Claude: "Đâu là những cuộc trò chuyện mà những điều này thực sự phù hợp?" Và tôi xem xét cách mô hình AI đang hoạt động, liệu nó có thực sự đề cập đến ngày cắt bỏ ngữ cảnh hay nó đề cập đến các nguồn đáng tin cậy. Vì vậy, nó thực sự cho phép chúng tôi dựa vào đánh giá này trong thế giới thực, mức độ phù hợp của nó, và liệu Claude có đang làm những gì nó phải làm, và làm thế nào chúng ta có thể cải thiện Claude để tốt hơn về những điều này. Vâng, vâng, được rồi, cảm ơn Esson. Và quay trở lại điều này, Clio có thể mang lại một mức độ an ủi nhất định trong những khoảnh khắc không chắc chắn khi chúng tôi muốn đảm bảo phiên bản thế giới của chúng tôi khớp với những gì chúng tôi thực sự thấy trong dữ liệu.
Giám sát Sau Triển khai cho Khả năng Sử dụng Công cụ
Một điều khác đã xảy ra khi chúng tôi đang xây dựng Clio là chúng tôi đã triển khai một khả năng mới trong chương trình truy cập sớm, nơi Claude thực sự có thể sử dụng máy tính. Nó có thể trỏ và nhấp. Bạn có thể giao cho nó các tác vụ, và sau đó nó có thể tự động giải quyết vấn đề. Và chúng tôi đã làm rất nhiều việc để thực hiện kiểm thử trước triển khai, nhưng chúng tôi không hoàn hảo. Và tôi nhớ đã nghĩ, "Ồ, bạn biết chúng ta cần làm gì không? Chúng ta cần có một loại giám sát sau triển khai với Clio để hiểu điều này sẽ diễn ra như thế nào và liệu kiểm thử trước triển khai có đủ không." Vậy, Miles, điều đó đã hoạt động như thế nào?
Vâng, chúng tôi đã bỏ rất nhiều – Anthropic đã nỗ lực rất nhiều để dự đoán những cách sử dụng máy tính có thể gây hại. Nhưng thực tế là thế giới vô cùng sáng tạo, và chúng tôi phải bổ sung các biện pháp an toàn chủ động của mình bằng việc giám sát sau triển khai thực sự hiệu quả. Nói cách khác, Clio cho phép chúng tôi tăng cường nghiêm ngặt cách tiếp cận an toàn của mình. Chúng tôi có tất cả nỗ lực và kiểm thử trước triển khai theo kiểu từ trên xuống, và với Clio, chúng tôi có thể tăng cường điều đó bằng giám sát sau triển khai và đảm bảo rằng chúng tôi đang thấy mọi thứ và suy nghĩ rõ ràng từ cả hai phía của phổ an toàn.
Tại sao Anthropic Lại Công bố Dữ liệu Người dùng?
Được rồi, Alex, việc các phòng thí nghiệm tiên phong công khai thảo luận về các mẫu chúng ta đang thấy trong dữ liệu người dùng hơi bất thường, dù là các trường hợp sử dụng có lợi như chúng ta đã nói hay các vấn đề về an toàn. Vì vậy, có rất nhiều căng thẳng ở đây. Một số căng thẳng đó là gì, và tại sao chúng ta lại quyết định công bố? Tầm nhìn của bạn khi đưa điều này ra ngoài là gì?
Vâng, tôi nghĩ bạn nghĩ sao? Thoạt nhìn, và bạn nói, "Vâng, hãy phát hành rất nhiều thông tin về các sản phẩm của chúng tôi và các trường hợp sử dụng hàng đầu và tất cả các cách mọi người đang lạm dụng hệ thống AI của chúng tôi," thì bạn có lẽ sẽ mong đợi mọi người nói, "Đó là một ý tưởng tồi tệ. Đừng bao giờ mang ý tưởng đó đến cho tôi nữa!" Bạn biết đấy, và tôi nghĩ sự thật là các công ty chắc chắn có đủ loại số liệu nội bộ về tất cả các trường hợp sử dụng hàng đầu của họ và những gì mọi người thích và không thích. Nhưng tôi nghĩ Anthropic hơi kỳ lạ ở chỗ, chúng tôi là một công ty vì lợi ích công cộng, và chúng tôi, bạn biết đấy, chúng tôi sẽ – chúng tôi sẽ làm những điều không tối ưu cho công ty vì chúng tôi muốn – chúng tôi nghĩ rằng việc chia sẻ nó với xã hội là đúng, phải không? Và bởi vì chúng tôi muốn xây dựng khả năng phục hồi của xã hội, và bởi vì chúng tôi nghĩ công nghệ này có tiềm năng biến đổi khá lớn. Chúng tôi không biết theo khung thời gian nào. Chúng tôi không biết bằng cách nào và ở mức độ nào. Nhưng một thế giới không biết công nghệ đã được sử dụng như thế nào trong việc thay đổi cách chúng ta làm việc, cách chúng ta tương tác với nhau, chắc chắn sẽ không sẵn sàng để giải quyết các công nghệ là những phiên bản tiên tiến hơn nhiều của những công nghệ này. Và vì vậy, tôi nghĩ chúng tôi – chúng tôi thấy cơ hội này để thực sự nói, "Vâng, hãy nhìn xem, chúng tôi sẽ chia sẻ rất nhiều thông tin này," và, bạn biết đấy, điều đáng khen là tôi nghĩ rất nhiều người trong đội ngũ sản phẩm và chính sách và pháp lý đã ủng hộ chúng tôi về điều đó và nói, "Vâng, việc chia sẻ thông tin này là vì lợi ích của tất cả mọi người." Và, bạn biết đấy, chúng tôi hy vọng rằng một nhóm người khác trong các phòng thí nghiệm khác cũng bắt đầu chia sẻ một số thông tin này, bởi vì, bạn biết, hy vọng nó sẽ làm cho thế giới trở nên tốt đẹp hơn, cả về các trường hợp sử dụng tiêu cực và rủi ro với công nghệ, mà còn về tất cả các lợi ích, như việc thấy tất cả các cách mà nó có thể giúp mọi người làm việc hiệu quả và nói chung là cải thiện cuộc sống của mọi người.
Khả năng Tái tạo và Chia sẻ trong Hệ sinh thái
Vâng, thật tuyệt vời. Và theo những cách đó, Clio có khả năng tái tạo đến mức nào? Nếu tôi ở, giả sử, một tổ chức khác, chúng ta đã đưa đủ chi tiết vào các phương pháp của mình để bất kỳ ai cũng có thể tái tạo điều này và cũng làm loại công việc có ích cho xã hội này không?
Vâng, chúng tôi có một phụ lục rất dài với tất cả các câu lệnh mà chúng tôi đã sử dụng, các hyperparameter, rất nhiều chi tiết. Cảm ơn Miles và nhiều người khác đang làm việc về vấn đề này vì đã thực sự ghi lại tất cả những điều đó một cách cẩn thận, bởi vì chúng tôi chỉ – chúng tôi muốn mọi người xây dựng phiên bản của riêng họ và có thông tin này và chia sẻ nó. Bởi vì một trong những dấu hỏi lớn của Clio là chúng tôi chỉ có dữ liệu của riêng mình để xem xét, phải không? Và có rất nhiều Mô hình ngôn ngữ lớn khác trên thế giới, nhiều loại công cụ AI khác, và chúng tôi có thể chia sẻ những gì chúng tôi biết, nhưng chúng tôi thực sự không biết toàn bộ bức tranh. Chúng tôi chỉ biết một phần nhỏ, và chỉ khi cả hệ sinh thái AI bắt đầu chia sẻ thông tin này thì chúng ta mới có thể có được bức tranh đầy đủ nhất về công nghệ này ngày nay.
Hướng đi Tiếp theo với Clio
Tôi nghĩ tôi sẽ kết thúc bằng một cuộc thảo luận bàn tròn mang tính hướng tới tương lai hơn một chút. Vì vậy, tất cả chúng tôi với tư cách là một nhóm đã tập trung xây dựng Clio, thể hiện những dấu hiệu của sự sống, dấu hiệu của sự thành công, những phép đo thú vị đang thực sự cải thiện cách tiếp cận an toàn của chúng tôi và giúp chúng tôi thực sự hiểu cách mọi người đang sử dụng và có thể bị ảnh hưởng bởi các hệ thống AI của chúng tôi. Và chúng tôi chỉ mới bắt đầu. Và tôi muốn kết thúc bằng câu hỏi, "Chúng ta sẽ đi đâu tiếp theo?" Vậy, bạn muốn làm việc gì bằng cách sử dụng công nghệ mới mà chúng ta đã xây dựng, và tại sao, và tại sao điều đó lại quan trọng? Và hãy bắt đầu với Esson.
Một điều tôi quan tâm là xem xét tính chủ quan đến từ đâu và những trường hợp sử dụng chủ quan là gì và Claude đang đưa ra những đánh giá giá trị như thế nào. Bởi vì tôi thực sự quan tâm đến hướng đa nguyên giá trị (value pluralism), tức là chúng tôi muốn các mô hình AI phải càng đa nguyên càng tốt và thể hiện các quan điểm khác nhau, không phải là rất đồng nhất, không làm cho thế giới trở nên đồng nhất hơn, mà thực sự thể hiện các quan điểm khác nhau. Tôi nghĩ Clio cung cấp cho chúng ta một công cụ thực sự tốt để hiểu điều này, như tính chủ quan nằm ở đâu, và cách các mô hình AI đang hoạt động hiện tại, những gì chúng ta muốn cải thiện, có lẽ thực sự hiểu làm thế nào chúng ta có thể đi theo hướng đó. Tôi nghĩ đây là một trong những lĩnh vực tôi muốn khám phá với Clio.
Tuyệt vời, tôi cũng vậy. Còn Miles thì sao? Vâng, mọi thứ Esson đã nói. Tôi cũng đặc biệt hào hứng với việc cho thấy bằng ví dụ rằng chúng ta có thể đặt ra một tiêu chuẩn cực kỳ cao về quyền riêng tư đồng thời thu được những Thông tin chi tiết quan trọng về các hệ thống AI của mình để chúng ta có thể, ví dụ, thực thi các chính sách của mình một cách thực sự hiệu quả và hiểu cũng như giảm thiểu tác hại từ mô hình AI của chúng ta.
Tác động cảm xúc của các mô hình AI
Một lĩnh vực khác là hiểu về những tác động cảm xúc của các mô hình này. Tôi nghĩ, một điều tôi đã thấy trong các cộng đồng sử dụng Claude là mọi người kết nối rất sâu sắc với những công cụ này trong nhiều khía cạnh khác nhau của cuộc sống: như một huấn luyện viên, một người bạn đồng hành về mặt cảm xúc trong một số trường hợp, như người đưa ra lời khuyên cho những câu hỏi và thời điểm thực sự khó khăn. Và chúng ta có trách nhiệm phải hiểu cách mọi người trò chuyện với Claude trong những khoảnh khắc dễ bị tổn thương đó, và đảm bảo rằng Claude đáp ứng được kỳ vọng của họ và là một đối tác đáng tin cậy.
Thay đổi trong quy trình làm việc và tác động kinh tế
Hoàn toàn đồng ý. Tôi thực sự quan tâm đến việc sử dụng Claude để hiểu cách thức làm việc của chúng ta thay đổi như thế nào. Bạn biết đấy, những tác động kinh tế của công nghệ này là gì? Nó đang lan tỏa như thế nào qua các use case khác nhau, các mô hình khác nhau? Công nghệ này đang tăng cường khả năng của con người hay nó đang thay thế một số tác vụ nhất định? Liệu chúng ta có thể sử dụng thông tin đó để bảo vệ mọi người hoặc trang bị cho họ kiến thức về cách thế giới có thể thay đổi trong tương lai không? Tôi nghĩ điều đó thực sự thú vị.
Khám phá các use case tích cực
Tôi cũng rất hào hứng khi sử dụng công nghệ để tìm hiểu các use case tích cực mới, phải không? Ví dụ, Claude đang nhận được nhiều sự quan tâm cho các ứng dụng y tế tích cực như thế nào? Chúng ta có nên cố gắng thúc đẩy và trao quyền cho những người đang thử nghiệm Claude để họ thực sự gặt hái được những lợi ích đầy đủ từ đó không? Nó đang được sử dụng trong các ngữ cảnh giáo dục như thế nào? Đúng vậy, có rất nhiều cuộc thảo luận về vai trò của AI trong lớp học. Và nếu chúng ta có thể có được cái nhìn rõ ràng hơn về điều đó, liệu chúng ta có thể hợp tác với giáo viên, tương tác với các lớp học và thực sự cải thiện điều đó không? Đó là một số điều tôi rất mong đợi. Phải, có ai hiểu ý không, hay mọi người nghĩ chúng tôi là những kẻ mọt sách?
TL;DR
- Nhóm Tác động Xã hội của Anthropic nỗ lực hiểu cách các hệ thống AI, đặc biệt là Claude, được sử dụng và tác động đến xã hội để tăng cường an toàn và dự đoán các ảnh hưởng trong tương lai.
- Họ đã phát triển Clio, một công cụ chuyển đổi phương pháp đánh giá từ cách tiếp cận "từ trên xuống" giả định sang phân tích "từ dưới lên" dựa trên dữ liệu sử dụng thực tế.
- Clio ưu tiên cao quyền riêng tư của người dùng bằng cách sử dụng các mô hình AI để tổng hợp và nhóm các cuộc trò chuyện một cách riêng tư, không có sự can thiệp của con người, đảm bảo thu thập thông tin chi tiết mà vẫn bảo mật.
Điểm chính
- Chuyển dịch chiến lược đánh giá tác động AI từ các phương pháp "từ trên xuống" (ví dụ: red teaming, đánh giá giả định về phân biệt đối xử) sang cách tiếp cận "từ dưới lên" dựa trên dữ liệu sử dụng thực nghiệm.
- Sử dụng các mô hình ngôn ngữ (LLM) để tự động hóa việc tóm tắt cấp cao và bảo mật các yêu cầu của người dùng từ lượng lớn cuộc trò chuyện thực tế.
- Phân cụm các bản tóm tắt cuộc trò chuyện dựa trên ý định của người dùng và tạo ra một hệ thống phân cấp các trường hợp sử dụng, cung cấp thông tin chi tiết về cách AI được ứng dụng.
- Thiết lập một "chiến lược phòng thủ theo chiều sâu" cho quyền riêng tư, bao gồm các biện pháp bảo vệ tự động như kiểm tra thông tin nhận dạng bởi LLM và ngưỡng tập hợp định lượng tối thiểu trước khi công bố kết quả.
- Đảm bảo không có con người nào đọc các cuộc trò chuyện thô của người dùng, mà chỉ dựa vào các quy trình tự động và bảo vệ quyền riêng tư để trích xuất thông tin.
- Áp dụng các embedding (biểu diễn số) để mã hóa nội dung ngữ nghĩa của các cuộc trò chuyện đã tóm tắt, tạo điều kiện thuận lợi cho việc phân cụm hiệu quả.
- Tận dụng các thông tin chi tiết từ việc sử dụng thực tế để thiết kế các đánh giá an toàn và phát triển sản phẩm AI phù hợp hơn, thu hẹp khoảng cách giữa thử nghiệm trong phòng thí nghiệm và ứng dụng trong thế giới thực.
Từ vựng
- hệ thống AI — AI systems
- tác động xã hội — social impact
- trường hợp sử dụng — use case
- phương pháp tiếp cận từ dưới lên / từ trên xuống — bottom-up / top-down approach
- quyền riêng tư của người dùng — user privacy
- thông tin chi tiết — insights
- mô hình ngôn ngữ (lớn) — (large) language model (LLM)
- cụm / nhóm — clusters
- embedding — embedding
- chiến lược phòng thủ theo chiều sâu — defense-in-depth strategy
Nội dung chi tiết
Giới thiệu Nhóm Tác động Xã hội
Được rồi, chúng ta hãy bắt đầu với phần giới thiệu nhanh. Tôi là Deep Ganguly, một nhà khoa học nghiên cứu thuộc Nhóm Tác động Xã hội. Tôi thực sự bị thúc đẩy bởi những câu hỏi cơ bản như: mọi người đang sử dụng và bị ảnh hưởng như thế nào bởi các hệ thống AI mà chúng tôi đang xây dựng tại Anthropic? Và làm thế nào chúng tôi sử dụng sự hiểu biết đó để làm cho các hệ thống AI của chúng tôi an toàn hơn? Và làm thế nào chúng tôi có thể dự đoán những tác động xã hội có thể xảy ra trong tương lai? Đây là một nhiệm vụ rất khó khăn vì các hệ thống AI mà chúng tôi đang xây dựng có mục đích rất chung và chúng có thể có vô số trường hợp sử dụng và tác động đến con người. Ngày nay, công việc của tôi là tìm những người thông minh hơn tôi rất nhiều và nhanh chóng để họ làm công việc của mình. Và đó chính là nhóm này ở đây. Tất cả chúng tôi đều là một phần của Nhóm Tác động Xã hội, và tôi sẽ chuyển lời cho Asim.
Tuyệt vời. Chào mọi người, tôi là Asim Durmouj. Tôi là nhà khoa học nghiên cứu trong Nhóm Tác động Xã hội. Tôi rất may mắn được làm việc với nhóm những con người tuyệt vời này. Tôi quan tâm đến việc tìm hiểu cách hệ thống AI sẽ tác động đến xã hội nói chung. Một khía cạnh của điều này là hiểu những giá trị nào mà hệ thống AI nên có, làm thế nào chúng ta có thể kết hợp những giá trị này, và một khi đã kết hợp, làm thế nào chúng ta có thể đánh giá các hệ thống AI để xem chúng thực sự đại diện cho những giá trị nào. Và tôi đã tham gia vào dự án Clio này. Tôi cảm thấy rất may mắn về điều đó. Tôi đoán bạn sẽ sớm biết về nó. Vâng, tôi muốn chuyển lời cho Miles.
Vâng, cảm ơn Asim. Tôi là Miles. Tôi là kỹ sư nghiên cứu trong Nhóm Tác động Xã hội. Giống như mọi người ở đây, tôi rất quan tâm đến việc tìm hiểu cách các hệ thống AI của chúng tôi được sử dụng trong thế giới thực và tác động của nó đối với những người thật trên khắp thế giới. Tôi đặc biệt quan tâm đến việc xây dựng các hệ thống AI cho phép chúng tôi hiểu một cách thực nghiệm cách các hệ thống AI của chúng tôi được sử dụng. Và tôi đã có một khoảng thời gian tuyệt vời khi làm việc với nhóm này trong vài tháng qua để xây dựng Clio.
Chào mọi người. Tên tôi là Alex. Tôi là một nhà nghiên cứu trong Nhóm Tác động Xã hội của chúng tôi. Và tôi thực sự quan tâm – như Deepa đã nói – đây là những hệ thống AI có mục đích chung như vậy. Chúng có khả năng thực hiện rất nhiều ứng dụng, thậm chí nhiều hơn những gì bất kỳ cá nhân nào có thể đoán trước. Và tôi nghĩ tôi chỉ đơn giản bị thúc đẩy bởi việc cố gắng hiểu cách các hệ thống AI này được sử dụng ngày nay như một cách để xây dựng sự hiểu biết về cách chúng có thể được sử dụng trong tương lai. Và, nhìn chung, xây dựng khả năng phục hồi xã hội khi có công nghệ mới, đôi khi kỳ lạ, xuất hiện trên thế giới. Và xem liệu chúng tôi có thể làm tốt công việc trong việc tìm hiểu, chuẩn bị và thông báo cho mọi người hay không. Tôi luôn cố gắng nghĩ về vũ trụ song song (parallel universe) của mình mà không làm việc trong một phòng thí nghiệm AI lớn. Và phiên bản đó của tôi sẽ muốn gì? Và bạn biết đấy, tôi muốn được thông báo về loại thông tin nào. Đó là điều thúc đẩy tôi. Và tôi thực sự yêu thích làm việc với tất cả những người khác trong phòng này và trong dự án Clio này.
Clio là gì?
Được rồi. Đi một vòng quanh phòng, tôi đã nghe một vài điều. Thứ nhất là tất cả chúng tôi đều muốn hiểu cách các mô hình AI của chúng tôi có thể tác động đến xã hội. Và sau đó tôi cũng nghe tất cả các bạn nhắc đến Clio. Clio là gì? Alex, chúng ta hãy bắt đầu với bạn. Và nó giúp chúng tôi hiểu cách các mô hình AI của chúng tôi có thể tác động đến xã hội như thế nào?
Clio là viết tắt của Claude Insights and Observations. Về cơ bản, nó là một công cụ mà ở cái nhìn tổng quan, cho phép bạn hiểu được các trường hợp sử dụng khác nhau mà mọi người đang dùng Claude cho. Có thể là bất cứ thứ gì, từ việc tìm hiểu lịch sử Địa Trung Hải đến giúp tôi thiết kế một thí nghiệm khoa học. Về cơ bản, nó hiển thị các nhóm sử dụng tổng hợp cấp cao này giúp chúng tôi hiểu các rủi ro, lợi ích và hướng phát triển của công nghệ trong tương lai.
Phương pháp tiếp cận trước Clio
Vâng. Và Asim, chúng tôi đã làm gì trước Clio để hiểu cách mọi người đang sử dụng hệ thống AI của chúng tôi hoặc có thể bị ảnh hưởng bởi chúng?
Một vài điều tôi nhớ ngay tức thì. Chúng tôi, với tư cách là một nhóm, đã điều tra nhiều phương pháp tiếp cận từ trên xuống (top-down approaches) – nơi chúng tôi có thể đưa ra một loại tác hại mà chúng tôi muốn thấy trên thế giới, và sau đó cố gắng đo lường nó. Ví dụ, liệu mô hình ngôn ngữ lớn của chúng tôi hoặc hệ thống AI nói rộng hơn có phân biệt đối xử khi chúng được sử dụng trong các kịch bản ra quyết định quan trọng (high-stakes decision-making scenarios) hay không. Hoặc chúng tôi đi sâu hơn và đã phát triển các quy trình red teaming cho các hệ thống AI của mình, nơi chúng tôi trả tiền cho các nhân viên hợp đồng để dò tìm các điểm yếu có thể gây hại trong hệ thống AI của chúng tôi một cách đối nghịch, sau đó xem chúng thành công ở đâu và không thành công ở đâu. Và tôi tò mò muốn nghe quan điểm của bạn, rằng trước khi thực hiện công việc từ dưới lên (bottom-up) hơn với Clio – nơi chúng tôi phân tích một dạng Google Trends cho các loại tương tác trong thế giới thực – chúng tôi còn làm gì nữa và từ góc độ của bạn, Clio đã lấp đầy khoảng trống nào?
Vâng. Chúng tôi đã thiết kế rất nhiều đánh giá (evaluations) khác nhau như bạn đã đề cập. Chẳng hạn, về phân biệt đối xử (discrimination), giống như Alex đã nói, để xem liệu mô hình AI có phân biệt đối xử với các nhóm được bảo vệ (protected groups) nhất định hay không. Chúng tôi nghĩ điều này quan trọng vì chúng tôi không muốn các mô hình AI của mình phân biệt đối xử. Hoặc, ví dụ, về sự thuyết phục (persuasion) hay thông tin sai lệch (misinformation) – nơi chúng tôi thiết kế một đánh giá để đo lường liệu mô hình AI có mang tính thuyết phục hoặc tạo ra thông tin sai lệch hay không. Vì vậy, chúng tôi sẽ đưa ra nhiều điều khác nhau để đánh giá. Và bây giờ chúng tôi muốn thiết kế các đánh giá xung quanh những khía cạnh này để xem mô hình AI đang hoạt động như thế nào. Và như bạn đã nói, thực hiện nhiều nghiên cứu về con người (human studies) hơn để xem con người nghĩ gì, cách họ đánh giá các hệ thống AI của chúng tôi. Tôi đoán đây vẫn là một khía cạnh quan trọng. Và chúng tôi vẫn đang thực hiện rất nhiều công việc đánh giá để đánh giá các mô hình AI của mình về các khía cạnh cụ thể khác nhau. Nhưng một điều còn thiếu là xem điều gì thực sự đang diễn ra trong thế giới thực. Đúng không? Chẳng hạn, nơi mà việc đánh giá phân biệt đối xử, sự thuyết phục hay thông tin sai lệch là phù hợp nhất, đó là thực sự hiểu cách các mô hình AI đang được sử dụng và có thể điều chỉnh các đánh giá của chúng tôi theo những trường hợp sử dụng cụ thể này. Tôi nghĩ điều này thực sự quan trọng. Và nó thực sự giúp những người như chúng tôi thiết kế các đánh giá chu đáo hơn, phù hợp với các trường hợp sử dụng trong thế giới thực. Tôi nghĩ điều đó rất hữu ích. Thay vì chỉ đưa ra ý tưởng từ bên ngoài, 'Ồ, có lẽ chúng ta nên đánh giá khía cạnh này,' và chúng ta chỉ tạo một đánh giá cho nó. Có thể nó không phản ánh hoàn hảo những gì đang diễn ra trong thế giới thực. Tôi nghĩ chúng ta có thể đưa ra những cách đánh giá tốt hơn nhiều bằng cách lấy thông tin chi tiết từ việc sử dụng trong thế giới thực. Vâng. Nói cách khác, chúng tôi đang cố gắng thu hẹp khoảng cách giữa thiết lập phòng thí nghiệm (laboratory setting) – nơi chúng tôi đưa ra các giả thuyết – và thiết lập thế giới thực (real-world setting) – nơi chúng tôi thực sự làm nền tảng cho các đánh giá và đo lường của mình dựa trên việc sử dụng trong thế giới thực.
Cách Clio hoạt động và phương pháp từ dưới lên
Vậy thì, Miles, bạn có thể mô tả chi tiết hơn cho chúng tôi về cách chúng tôi đã xây dựng Clio và cách nó giúp chúng tôi đi theo phương pháp từ dưới lên (bottom-up approach) từ dữ liệu để hiểu các vấn đề này không?
Chắc chắn rồi. Cách Clio hoạt động là nó bắt đầu với một số lượng lớn các cuộc trò chuyện trong thế giới thực như Alex đã đề cập. Sau đó, chúng tôi sử dụng một mô hình ngôn ngữ (language model) để xử lý từng cuộc trò chuyện và trích xuất một tóm tắt cấp cao (high-level summary) mang tính riêng tư về những gì đang diễn ra trong cuộc trò chuyện đó. Vì vậy, khía cạnh mà chúng tôi thường quan tâm là yêu cầu tổng thể của người dùng (user's overall request) đối với trợ lý AI là gì. Sau đó, chúng tôi nhóm các câu trả lời liên quan lại với nhau. Và rồi chúng tôi có được những nhóm (clusters) thực sự thú vị này, có xu hướng tương ứng với ý định của người dùng (user intent). Và sau đó, chúng tôi có thể sử dụng một mô hình ngôn ngữ khác một lần nữa để xem xét các nhóm đó và giải thích điều gì đang thực sự xảy ra trong nhóm cuộc trò chuyện này. Và chúng tôi có thể làm điều đó lặp đi lặp lại cho đến khi chúng tôi có được một hệ thống phân cấp (hierarchy) các cách sử dụng rất tốt, cho phép chúng tôi có được thông tin chi tiết về cách các mô hình AI của chúng tôi đang được sử dụng trên nhiều trục khác nhau mà không cần phải đọc các cuộc trò chuyện thô.
Và điều cuối cùng chúng tôi làm sau khi có hệ thống phân cấp đó là chúng tôi có một mô hình AI khác xem xét tất cả các nhóm và sau đó đảm bảo rằng không có gì trong các nhóm đó là riêng tư hoặc có thể nhận dạng (identifying) theo cách mà chúng tôi đã vận hành hóa (operationalized) điều đó như bất cứ thứ gì có thể nhận dạng khoảng một ngàn cá nhân. Và cuối cùng, chúng tôi áp dụng các ngưỡng tối thiểu về tập hợp định lượng (quantitative aggregation minimums). Vì vậy, chúng tôi đảm bảo rằng các nhóm của chúng tôi có một số lượng tối thiểu riêng biệt về các tổ chức (organizations) và cuộc trò chuyện duy nhất. Và sau đó chúng tôi công bố những kết quả đó nội bộ để chúng tôi có thể thiết kế, ví dụ, các đánh giá tốt hơn để chúng tôi có thể hiểu cách các hệ thống AI của chúng tôi đang được sử dụng trên nhiều trường hợp sử dụng khác nhau. Và chúng tôi có thể làm điều này với độ tin cậy khá cao rằng chúng tôi đang duy trì một tiêu chuẩn bảo mật cao (high privacy bar) cho người dùng của chúng tôi.
Đạo đức và Quyền riêng tư của người dùng
Vâng. Thật hấp dẫn. Nếu tôi tóm tắt những gì bạn vừa nói, có vẻ như chúng ta sử dụng Claude để phân tích các cuộc trò chuyện mà mọi người đang có với Claude.
Chính xác. Và không ai trong chúng ta thực sự đọc bất kỳ cuộc trò chuyện nào trong số đó. Không có con người nào thực sự phải xem dữ liệu. Và mặc dù điều đó đúng một cách nghiêm ngặt đối với lưu lượng truy cập (general traffic) nói chung, chúng tôi vẫn triển khai một chiến lược phòng thủ theo chiều sâu (defense-in-depth strategy) để đảm bảo không có thông tin riêng tư (private information) nào bị tiết lộ trong các phân tích (analyses) của chúng tôi. Tôi muốn đi sâu vào điều này một chút. Ký ức của tôi về những ngày đầu làm việc với Clio là cả nhóm chúng tôi ngồi ăn trưa. Và chúng tôi nghĩ, chúng ta nên suy nghĩ trước khi viết một dòng mã nào, suy nghĩ về đạo đức của việc này – kiểu như, có một mâu thuẫn cơ bản (fundamental tension) ở đây: chúng ta muốn hiểu cách mọi người đang sử dụng hệ thống AI của chúng ta, nhưng chúng ta cũng thực sự muốn tôn trọng quyền riêng tư của người dùng (user privacy). Và có một mâu thuẫn cơ bản ở đây. Có một sự đánh đổi (trade-off) giữa lượng thông tin chi tiết (amount of insight) bạn có thể nhận được và mức độ riêng tư (amount of privacy) bạn có. Với quyền riêng tư rất cao, thông tin chi tiết rất thấp. Với quyền riêng tư rất thấp, thông tin chi tiết có thể rất cao. Nhưng điều này là đáng ngờ về mặt đạo đức (ethically dubious). Vậy Alex, bạn có thể kể cho chúng tôi nghe về ký ức của bạn về cuộc trò chuyện đó không? Cuộc trò chuyện đó rất kích thích trí tuệ và quan trọng. Làm thế nào chúng ta đã cùng nhau đưa ra khuôn khổ (framing) đó và quyết định cách chúng ta sẽ tiếp cận dự án này ngay từ đầu?
Vâng. Một lần nữa, tôi cảm thấy tất cả chúng tôi đều nghĩ, chúng ta sẽ muốn gì hoặc cảm thấy thoải mái với điều gì nếu chúng ta là người dùng Claude bên ngoài Anthropic? Và tôi rất coi trọng quyền riêng tư khi xem xét các công nghệ khác nhau. Tôi nghĩ chúng tôi lo lắng, liệu điều này có đang xây dựng một công cụ mà mọi người có thể nghĩ rằng chúng tôi đang sử dụng để gián điệp họ hay không? Hoặc công cụ này có bị coi là xâm phạm (invasive) không? Và liệu nó có thể bị lạm dụng để tìm kiếm mẫu lưu lượng truy cập (traffic patterns) mà mọi người không mong muốn không? Và tôi nghĩ chúng tôi đã suy nghĩ rất kỹ và thiết kế một loạt các biện pháp bảo vệ (safeguards) mà cuối cùng đã trở thành, 'Ồ vâng, tôi có thể không cảm thấy bị hạn chế khi gõ bất cứ điều gì tôi muốn vào Claude trên tài khoản cá nhân của mình, bởi vì nó sẽ ở mức độ tổng hợp cao và không thực sự ảnh hưởng đến những gì tôi cảm thấy mình có thể viết.' Tôi nhớ tất cả chúng tôi đã ngồi quanh bàn và nói, 'Chúng ta lo lắng điều gì?' Vâng. Và sau đó mọi người khác sẽ nói, 'Ồ vâng, điều đó đúng,' hoặc 'Ồ, thực ra tôi nghĩ chúng ta có thể làm điều này.' Và nó giống như luân phiên giữa cấp độ cao, như 'Điều gì có thể diễn ra tốt đẹp? Điều gì có thể không diễn ra tốt đẹp?' Và sau đó, 'Ồ, chi tiết cụ thể. Tôi nghĩ chúng ta có thể làm điều này. Tôi nghĩ chúng ta có thể làm điều kia.' Vì vậy, tôi thực sự thích rằng nó rất truyền cảm hứng (energizing) bởi vì đôi khi những cuộc trò chuyện này có thể rất viển vông (head in the clouds), đúng không? Và đôi khi chúng có thể rất giống mất tập trung vào chi tiết nhỏ mà bỏ qua bức tranh lớn (missing the forest for the trees). Và tôi cảm thấy chúng tôi đã có một vài cuộc trò chuyện như vậy, và tôi nhớ mình đã ngồi ở bàn ăn trưa để nói chuyện về chúng và thực sự mổ xẻ (hashing) trước khi chúng tôi cảm thấy thoải mái. Vâng. Đó là một trong những cuộc trò chuyện kích thích trí tuệ và sâu sắc nhất mà tôi nghĩ chúng tôi từng có với tư cách là một nhóm, và điều đó nói lên rất nhiều về nhóm của chúng tôi.
Đánh giá Ban đầu về Quyền Riêng tư và Tác động của Cleo
Tôi nhớ về cuộc trò chuyện này là bạn là người lo ngại nhất ban đầu, trước khi viết bất kỳ dòng mã nào. Giờ đây, khi bạn đã là một phần của dự án này ngay từ đầu và đã chứng kiến cách chúng tôi tiếp cận tất cả các cân nhắc về đạo đức mà chúng tôi đã nêu ra trong bữa trưa đầu tiên đó, quan điểm của bạn về việc suy nghĩ hay cảm xúc của bạn đã thay đổi như thế nào kể từ những cuộc trò chuyện ban đầu đó? Vâng, tôi nghĩ chắc chắn tôi cảm thấy tốt hơn về nó, đặc biệt là về quyền riêng tư của người dùng, bởi vì tất cả sự suy nghĩ cẩn thận đã được đưa vào các phương pháp nhằm đảm bảo rằng nó bảo toàn quyền riêng tư càng nhiều càng tốt. Vì vậy, vâng, tôi nghĩ tôi chắc chắn cảm thấy tốt hơn nhiều về cách tiếp cận tổng thể mà chúng tôi đã thực hiện. Và cũng như việc nhìn thấy tác động mà nó đã tạo ra trong Anthropic, tôi nghĩ chắc chắn là đáng giá. Nó đã có rất nhiều trường hợp sử dụng khác nhau về mặt an toàn, hoặc để hiểu cách người dùng đang sử dụng Claude. Nó mang lại rất nhiều thông tin chi tiết như tôi đã nói, để định hình sự phát triển của chúng tôi, an toàn sản phẩm, tất cả các khía cạnh khác nhau này. Tôi nghĩ chắc chắn đó là một ý tưởng hay để thực hiện dự án này và một cách tiếp cận rất chu đáo để bảo vệ quyền riêng tư theo ý kiến của tôi. Tuyệt vời.
Quy trình làm việc Từng bước của Cleo và Bảo vệ Quyền Riêng tư
Và có lẽ, Miles, bạn có thể quay lại quy trình từng bước cụ thể được không? Làm thế nào chúng ta đi từ một cuộc trò chuyện đến một cụm cuộc trò chuyện đã được tóm tắt để có được các phân tích chuyên sâu thực sự? Hãy trình bày cho chúng tôi vòng đời hoạt động của Cleo từng bước một. Từng bước một, tuyệt vời. Một điều tôi cũng muốn lưu ý, Essen vừa nói cách đây một lát về việc Cleo đã giúp chúng tôi trong việc đánh giá và thiết kế các đánh giá đại diện hơn, dựa trên việc sử dụng thực nghiệm như thế nào. Và một nơi mà chúng tôi thực sự thiết kế một đánh giá dựa trên việc sử dụng thực nghiệm từ Cleo là đánh giá quyền riêng tư của Cleo, bởi vì chúng tôi thực sự đã xây dựng một công cụ quét các cụm để tìm các vấn đề riêng tư. Và chúng tôi đã xây dựng các đánh giá của công cụ kiểm toán đó bằng cách sử dụng dữ liệu Cleo thực tế. Tất nhiên, chúng tôi chỉ sử dụng dữ liệu bảo toàn quyền riêng tư, và sau đó chúng tôi tạo dữ liệu tổng hợp cho các ví dụ không bảo toàn quyền riêng tư. Đó chỉ là một ví dụ trong Cleo.
Vâng, vậy làm thế nào chúng ta đi từ một cuộc trò chuyện cá nhân đến một cụm mà chúng ta có thể sử dụng để phân tích tiếp theo? Giả sử tôi đang yêu cầu Claude giúp lập trình một ứng dụng web. Chà, cuộc trò chuyện của tôi có thể sẽ giống như nhiều cuộc trò chuyện khác mà mọi người đang có với Claude. Vì vậy, điều mà Cleo sẽ làm là khi nó lấy một mẫu ngẫu nhiên các cuộc trò chuyện của Claude, nó sẽ xem xét bản ghi của tôi — và đây là Claude, không phải con người — và nó sẽ tóm tắt yêu cầu của tôi cho Claude trong một câu. Và nó sẽ nói, ví dụ, "Yêu cầu tổng thể của người dùng đối với trợ lý là giúp thiết kế một ứng dụng web bằng ngôn ngữ lập trình Elixir." Và sau đó chúng tôi lấy những cuộc trò chuyện đó, và chúng tôi tính toán một biểu diễn số cho chúng, được gọi là một embedding. Và một embedding tương ứng với nội dung ngữ nghĩa của câu. Và sau đó cuộc trò chuyện của tôi sẽ được nhóm với hàng loạt cuộc trò chuyện khác đều về phát triển web, có thể bằng Elixir, có thể bằng các ngôn ngữ lập trình liên quan. Và sau đó nó sẽ loại bỏ cuộc trò chuyện thô thực tế. Chúng tôi không cần nó nữa. Tất cả những gì chúng tôi có bây giờ là nhóm các cuộc trò chuyện này với các bản tóm tắt của từng cuộc trò chuyện riêng lẻ. Và Claude, một lần nữa, sẽ xem xét nhóm đó, và nó sẽ thấy, "À, được rồi, đây là một loạt các cuộc trò chuyện về phát triển web, có thể là phát triển web bằng Elixir." Và nó sẽ đưa ra một tên và một mô tả cho cụm đó. Và chúng tôi đã đặc biệt chỉ dẫn Claude tránh đưa vào bất kỳ chi tiết riêng tư nào. Ví dụ, nó sẽ không bao gồm tên của trang web, vì không cần thiết. Điều thực sự quan trọng là đó là phát triển web.
Và sau đó, nếu cụm đủ lớn (vì chúng tôi có kích thước cụm tối thiểu), nó sẽ chuyển sang bước tiếp theo, nơi chúng tôi yêu cầu Claude xem xét cuộc trò chuyện và nói, "Hừm, chỉ kiểm tra lại, có bất kỳ thông tin riêng tư nào ở đây có thể xác định, bạn biết đấy, ít hơn một nghìn người không?" Và chúng tôi đã hiệu chuẩn và kiểm tra công cụ kiểm toán đó theo một vài cách. Và nếu có, thì chúng tôi có cụm tổng hợp cuối cùng này đã được loại bỏ bất kỳ định danh thô nào cho các cuộc trò chuyện cơ bản, bao gồm, bạn biết đấy, ví dụ, một nghìn cuộc trò chuyện về phát triển web, có thể bằng Elixir nếu có đủ. Và một số thống kê về, ví dụ, phân tích ngôn ngữ của cụm đó. Và sau đó chúng tôi có thể sử dụng điều đó để hiểu, ví dụ, liệu Claude có hữu ích như nhau khi đưa ra lời khuyên phát triển web cho những người bằng tiếng Anh hoặc tiếng Tây Ban Nha, hoặc chúng tôi có thể hiểu ngôn ngữ lập trình nào mà mọi người thường yêu cầu trợ giúp. Chúng tôi có thể làm tất cả điều này một cách thực sự bảo toàn quyền riêng tư, bởi vì chúng tôi đã được loại bỏ rất xa khỏi các cuộc trò chuyện cơ bản đến mức chúng tôi rất tự tin rằng chúng tôi có thể sử dụng điều này theo cách tôn trọng tinh thần quyền riêng tư mà người dùng của chúng tôi mong đợi từ chúng tôi. Vâng, đó là một giải thích cực kỳ rõ ràng về cách Cleo hoạt động. Tôi muốn đào sâu thêm một chút về điều này. Bạn đã đề cập đến một cụm trường hợp sử dụng về lập trình cấp cao, và bạn có thể đi sâu hơn vào các chi tiết cụ thể như về các ngôn ngữ lập trình thực tế hoặc các loại câu hỏi về lập trình. Hãy quay trở lại tổng quan một lần nữa, ngoài lập trình, có lẽ Alex, phân phối các loại cụm mà chúng tôi đã thấy là gì? Và điều gì đã làm bạn ngạc nhiên nhất và tại sao?
Những Insight Bất ngờ về Ứng dụng của Claude
Vậy thì, một điều mà tôi thấy thực sự hấp dẫn là tôi đã mong đợi sẽ có rất nhiều cụm về cách Claude hữu ích cho viết lách. Và chúng tôi đã thấy điều đó, nhưng tôi cũng thấy rất nhiều cụm mà mọi người sử dụng Claude cho nghiên cứu, sáng tạo ý tưởng và động não, và những điều như hiểu về lịch sử Địa Trung Hải, nhưng cũng như hiểu và động não những ý tưởng mới trong cơ học lượng tử, vật lý, khoa học vật liệu và sinh học. Và tôi không nghĩ mình sẽ mong đợi một tỷ lệ sử dụng lớn như vậy lại là những tác vụ dường như là tạo ý tưởng cấp cao này. Và điều đó thực sự mang tính truyền cảm hứng. Tôi đã nghĩ, wow, công cụ mà chúng tôi đang xây dựng này thực sự đang giúp mọi người thiết kế, tôi không biết, có thể là thuốc tốt hơn hoặc cải thiện, về cơ bản là biên giới tri thức nhân loại. Và tôi nghĩ đó là, tôi nhớ đã thấy điều đó và nghĩ, ồ wow, điều này thật tuyệt. Vâng, tôi nghĩ đó là, tôi không biết liệu từ 'ngạc nhiên' có đúng không, nhưng nó đã tác động đến tôi một cách thú vị.
Tôi thấy một cụm lớn người hỏi lời khuyên nuôi dạy con cái. Và với tư cách là một người làm cha mẹ, tôi đã nghĩ, đợi đã, tôi chưa bao giờ nghĩ đến việc hỏi Claude về lời khuyên nuôi dạy con cái. Và thế là tôi hỏi Claude, "Này, bạn có lời khuyên nuôi dạy con cái nào không?" Và nó thực sự đã gợi ý một điều mà tôi thực sự đang sử dụng bây giờ, đó là, bạn biết đấy, "Bạn có thể yêu cầu tôi viết mã bằng cách sử dụng sản phẩm/vật phẩm như các trò chơi đơn giản nhằm dạy đại số." Và tôi đã nghĩ, "Ồ tuyệt vời, bạn có thể làm điều đó bằng tiếng Tây Ban Nha không?" Và Claude nói, "Sí, claro!" (Chắc chắn rồi!). Và tôi nói, "Hãy làm thôi." Và tôi ngồi xuống với các con của mình và chúng tôi đã viết mã những trò chơi nhỏ này để cố gắng dạy đại số bằng tiếng Tây Ban Nha. Và chúng rất thích nó và rất vui. Và tôi nghĩ rằng nếu không có Cleo, tôi sẽ không bao giờ nghĩ rằng đó là một trường hợp sử dụng có thể áp dụng vào cuộc sống cá nhân của tôi. Tôi chỉ nghĩ rằng đây là một ví dụ tuyệt vời về việc cực kỳ khó để dự đoán tất cả các cách mà mọi người sẽ sử dụng hệ thống AI. Một ví dụ là có thể khó biết tất cả các cách bạn có thể tích hợp Claude vào cuộc sống của chính mình. Và vì vậy, đôi khi chúng ta nghĩ về những điều chưa biết từ góc độ an toàn, chẳng hạn. Cũng có những điều chưa biết từ góc độ phát triển cá nhân. Và việc sử dụng Claude để tạo trò chơi đại số bằng tiếng Tây Ban Nha là một ví dụ tuyệt vời về điều đó. Vâng.
Năng lực Văn hóa và Ngôn ngữ của Claude
Và sau đó, có lẽ là mở rộng ý tưởng về ngôn ngữ Tây Ban Nha: Essen, bạn và tôi đã dành rất nhiều thời gian để cố gắng hiểu xem liệu Claude có năng lực văn hóa không? Nó hoạt động như thế nào trong các ngữ cảnh ngôn ngữ khác nhau? Và rất nhiều công việc của bạn sử dụng Cleo là để đi sâu vào câu hỏi đó. Và tôi muốn hiểu từ góc độ của bạn: những phát hiện chính của bạn là gì? Liệu Claude có hữu ích như nhau trong các ngôn ngữ khác nhau không? Mọi người đang sử dụng nó trong các ngôn ngữ và văn hóa khác nhau như thế nào? Cleo đã giúp bạn học được điều gì về điều đó? Vâng, điều đó cũng rất thú vị, cũng liên quan đến những gì bạn vừa nói và những gì Alex đã nói: mọi người cũng sử dụng Claude trong các thiết lập chủ quan thực sự. Ví dụ, để nhận lời khuyên về mối quan hệ, hoặc lời khuyên về "Tôi nên làm tóc như thế nào?" Bạn biết đấy, hoặc như bạn đã nói, lời khuyên nuôi dạy con cái. Điều đó thực sự thú vị đối với tôi bởi vì, như tôi đã nói trước đó, tôi rất quan tâm đến những câu hỏi về giá trị này, chẳng hạn như mô hình AI nên làm gì trong các thiết lập chủ quan, thiết lập mở nơi không có câu trả lời rõ ràng. Và nhận thấy rằng điều này thực sự liên quan đến việc sử dụng trong thế giới thực là rất tốt hoặc thú vị đối với tôi, và nó phần nào xác nhận câu hỏi này nhiều hơn nữa. Và, vâng, nó phần nào đã thúc đẩy tôi khám phá hướng này nhiều hơn. Được rồi, điều này thực sự phù hợp, và chúng ta nên thực sự dành thời gian khám phá sâu hơn vì nó xuất hiện trong các tương tác trong thế giới thực.
Nhưng liên quan đến việc sử dụng trong các ngôn ngữ khác nhau, tôi đã có một số phát hiện thú vị. Ví dụ, như Alex đã nói, có lẽ bằng tiếng Anh, mọi người hỏi các câu hỏi liên quan đến kỹ thuật phần mềm cho Claude, nhưng tôi thấy rằng tỷ lệ tác vụ trong các ngôn ngữ khác nhau khác nhau khá nhiều. Ví dụ, mọi người yêu cầu trợ lý viết lách chuyên nghiệp và học thuật nhiều hơn bằng các ngôn ngữ khác nhau như tiếng Tây Ban Nha hoặc tiếng Ả Rập. Ngoài ra, như bạn có thể đoán, dịch thuật – dịch văn bản sang các ngôn ngữ khác – tôi nghĩ điều này xuất hiện nhiều hơn ở các ngôn ngữ khác. Điều này thú vị khi thấy bởi vì chúng tôi muốn các mô hình AI thực sự giỏi trong các tác vụ thuộc về các ngôn ngữ khác, nhưng tôi nghĩ hai điều đó là những phát hiện chính. Và tôi cũng thấy một số câu hỏi xung quanh các ngữ cảnh văn hóa và các vấn đề toàn cầu và những điều tương tự xuất hiện nhiều hơn ở các ngôn ngữ khác nữa. Vâng, điều đó thật tuyệt vời.
Xác minh Độ chính xác của Cleo
Vâng, điều đó thật tuyệt vời. Và Alex, làm thế nào chúng ta biết rằng Cleo hoạt động đúng như quảng cáo? Vâng, chúng tôi thực hiện toàn bộ một loạt thí nghiệm trong bài báo. Một trong những điều tôi nghĩ thực sự thú vị là chúng tôi tạo ra một kho dữ liệu tổng hợp khổng lồ gồm hàng chục nghìn cuộc trò chuyện, và chúng tôi thực hiện điều đó thông qua một quy trình mà chúng tôi biết phân phối chân lý trông như thế nào. Chúng tôi biết rằng điều này phải là khoảng 10% nội dung toán học, 5% lập trình, 2% câu hỏi về gấu bông, và chúng tôi chỉ đưa tất cả những điều đó cho Cleo mà không cho nó biết những cuộc trò chuyện này nên được nhóm lại như thế nào. Và sau đó chúng tôi yêu cầu nó thực hiện quy trình tổng hợp đó và chúng tôi xem liệu chúng tôi có thể tái tạo lại phân phối chân lý đó hay không. Và chúng tôi làm điều này cho nhiều loại dữ liệu khác nhau. Chúng tôi làm điều đó cho, bạn biết đấy, dữ liệu ngẫu nhiên. Chúng tôi làm điều đó cho dữ liệu tổng hợp liên quan, và chúng tôi thấy rằng nhìn chung Cleo thực sự chính xác trong việc tái tạo lại phân phối chân lý đó. Và đó là một trong nhiều cách mà chúng tôi biết rằng Cleo thực sự đang làm tốt công việc. Vâng, và về mặt cá nhân, tôi nhớ đã đặt câu hỏi này cho bạn, và tôi nhớ đã ra về với suy nghĩ, "Vâng, chúng ta nên tìm cách kiểm chứng thực nghiệm định lượng rằng Cleo thực sự hoạt động." Tôi nhớ đã về nhà và nghĩ, "Đó là một vấn đề rất khó mà tôi đã giao," và sau đó tôi quay lại, và tôi nhớ đã thấy giải pháp và nghĩ rằng, "Điều đó thật cực kỳ tinh tế và chu đáo," và tôi đã nghĩ, "Wow, làm thế nào mà họ lại nghĩ ra ý tưởng tuyệt vời này?"
Hiệu suất Đa ngôn ngữ của Clio
Tôi thực sự ấn tượng với cách nhóm đã giải quyết vấn đề mơ hồ và khó khăn đó một cách xuất sắc. Một điểm rất hay khác của phân tích tái cấu trúc dữ liệu tổng hợp này là nó cho phép chúng tôi chia nhỏ độ chính xác của mình dựa trên các thuộc tính khác mà chúng tôi quan tâm. Ví dụ, ngôn ngữ của cuộc trò chuyện. Và chúng tôi thực sự có cái nhìn khá sâu sắc về hiệu suất đa ngôn ngữ của Clio. Do đó, chúng tôi tin tưởng rằng Clio hoạt động tốt tương đương đối với các cuộc trò chuyện bằng tiếng Anh cũng như các cuộc trò chuyện bằng tiếng Gruzia, điều này mang lại cho chúng tôi sự tự tin hơn cho các nghiên cứu đa ngôn ngữ tuyệt vời của Essence.
Nhiệm vụ An toàn của Anthropic và Cách tiếp cận Clio
Hãy thay đổi chủ đề một chút. Anthropic có một nhiệm vụ an toàn rất mạnh mẽ, và điều đó liên quan đến những điều chúng tôi có như chính sách mở rộng quy mô có trách nhiệm của mình, nơi chúng tôi xác nhận các loại rủi ro thảm khốc mà chúng tôi quan ngại, và sau đó chúng tôi cố gắng tìm kiếm bằng chứng về những rủi ro đó theo hướng từ trên xuống bằng cách xây dựng các đánh giá, như chúng ta đã nói trước đó.
Về phía tin cậy và an toàn, chúng tôi cũng có chính sách sử dụng được chấp nhận xác nhận rằng: "Đây là những loại hành vi không được phép." Và chúng tôi sẽ đào tạo các bộ phân loại để kiểm tra hành vi này. Sau đó, thông qua xem xét thủ công, chỉ khi nó được gắn cờ bởi các bộ phân loại tin cậy và an toàn của chúng tôi, nhóm tin cậy và an toàn mới có thể vào và quyết định phải làm gì trong những trường hợp này.
Đây một lần nữa là một cách tiếp cận từ trên xuống nơi chúng tôi phải viết các chính sách đó, cho dù đó là chính sách mở rộng quy mô có trách nhiệm hay chính sách sử dụng được chấp nhận. Với Clio, chúng tôi có thể tăng cường nghiêm ngặt cách tiếp cận từ trên xuống đó bằng một cách tiếp cận từ dưới lên, đó là: "Khoan đã, chỉ bằng cách nhìn vào lưu lượng người dùng, có thể có những điểm mù mà chúng tôi không thấy trước đó khi xác nhận các chính sách này."
Và vì vậy, có lẽ chúng ta có thể đi vòng quanh bàn, bắt đầu với Alex, về một số trường hợp từ dưới lên mà chúng tôi thấy có liên quan đến an toàn và chúng tôi đã làm gì với chúng bằng cách sử dụng Clio? Tôi thích cách khung đó và tôi nghĩ rằng có một chu trình kiểu như: "Ồ, chúng ta nghĩ thế giới trông như thế nào?" và sau đó thực nghiệm thực sự nhìn vào thế giới và nói: "Ồ, chúng ta đã sai quá nhiều" hoặc trong một số trường hợp thực sự khá đúng, và sau đó sử dụng điều đó để tiếp tục chu trình và sửa chữa.
Phát hiện Rủi ro và Hành vi Bất thường bằng Clio
Tôi nghĩ chúng tôi đã thấy nhiều điều. Chúng tôi đã tìm thấy, bạn biết đấy, rất nhiều lượt chạy đã phát hiện ra nhiều hoạt động đáng ngờ mà sau đó chúng tôi đã gắn cờ cho nhóm tin cậy và an toàn của mình, bao gồm cả những người đang cố gắng viết email spam, những người đang cố gắng tạo bài viết spam về làm vườn, và một vài loại tác hại khác mà chúng tôi tiết lộ trong báo cáo của mình.
Chúng tôi đã tìm thấy rất nhiều người sử dụng các mô hình AI này cho các ứng dụng khoa học khác nhau, cho những người đang cố gắng kiểm tra mức độ tốt của mô hình trong hacking và tấn công mạng, cũng như phòng thủ mạng. Và tất cả những điều này về cơ bản giúp chúng tôi tìm ra: "Ồ, những rủi ro nào mà chúng ta thực sự nên lo lắng? Những mô hình này thực sự đang đạt được tiến bộ và áp dụng ở đâu?" Và có lẽ đó là những chỉ số dẫn đầu cho thấy khi nào chúng sẽ thực sự tràn ra và gây ra tác hại hoặc lợi ích lớn hơn cho xã hội.
Vì vậy, tôi nghĩ đó là một vài điều, và sau đó cũng có đủ loại điều như gắn bó tình cảm với các mô hình. Mọi người có các cụm nói những điều như "thảo luận lãng mạn giữa người và mô hình" hoặc "nhập vai". Mà không cần điều tra thêm, rất khó để biết chúng là gì và giới hạn phù hợp là gì, và đó có lẽ là một cuộc thảo luận mà toàn xã hội nên có. Vâng, nhưng đó là những điều chúng tôi nhận thấy và những điều chúng tôi nghĩ rằng chúng tôi muốn chia sẻ với mọi người. Vâng, và có lẽ Miles, bạn có muốn bổ sung thêm điều gì không?
Clio và Các tình huống Khủng hoảng Cá nhân
Vâng, tôi đồng ý với Alex. Bạn không thể biết mục tiêu đang đi đâu nếu bạn không biết mục tiêu đang ở đâu, và tôi nghĩ Clio cố gắng cho chúng ta biết mục tiêu đang ở đâu. Một lĩnh vực mà tôi thấy có liên quan đến an toàn nhưng không hoàn toàn rơi vào lạm dụng, và tôi nghĩ điều quan trọng là phải phân biệt giữa hai điều đó, là mọi người nói chuyện với Claude trong những khoảnh khắc khủng hoảng cực độ, khủng hoảng cá nhân cực độ. Và thường thì mọi người có thể không có ai đó để tư vấn cho họ qua những khoảnh khắc thực sự khó khăn, và tôi đã ngạc nhiên khi thấy điều đó phổ biến đến mức nào.
Và điều này xuất hiện như một cụm, thậm chí là một vài cụm. Và tôi nghĩ một điều mà Clio cho phép chúng tôi làm là có được cái nhìn chi tiết hơn về cách mọi người tương tác với Claude trong những khoảnh khắc đó, điều này có liên quan đến an toàn, chính xác hơn một chút so với: "Ồ, điều này có vi phạm chính sách của chúng tôi không?" Bởi vì các bộ phân loại thường cho bạn một chỉ báo nhị phân: có/không, đã vi phạm hay chưa. Và nhiều tác hại không dễ dàng chuyển thành loại nhị phân có/không, đã vi phạm hay chưa đó. Và tôi nghĩ, bạn biết đấy, những khoảnh khắc khủng hoảng là một ví dụ như vậy, và chúng ta cần đảm bảo rằng Claude chịu trách nhiệm trong những ngữ cảnh đó khi ai đó tìm đến nó trong khoảnh khắc đen tối nhất của họ.
Vì vậy, một lĩnh vực mà Clio đã hữu ích là tách rời những gì đang kích hoạt các bộ phân loại của chúng tôi để chúng tôi có thể có cái nhìn chi tiết hơn và nói: "Được rồi, cụm này chắc chắn thực sự đã vi phạm. Cụm này nằm ngay trên ranh giới, và có lẽ nó trông bề ngoài giống như một cái gì đó sẽ bị vi phạm nhưng không phải." Và sau đó chúng tôi có thể quay lại, cải thiện các bộ phân loại của mình và cải thiện các chính sách của mình, bạn biết đấy, nếu chúng tôi muốn đi xa đến mức đó để vẽ ra những ranh giới tốt hơn.
Tối ưu hóa Hành vi Từ chối của Claude
Một điểm chỉ trích mà một số phòng thí nghiệm đã nhận được là các mô hình này đôi khi hơi phiền toái. Chẳng hạn, một lần tôi yêu cầu Claude giúp giết một tiến trình đã chạy loạn trên máy tính của mình, và nó nói: "Tôi xin lỗi, điều đó đi ngược lại các thực hành phát triển phần mềm đạo đức." Và kiểu như, "Thôi nào, Claude!" (Đây là một phiên bản cũ hơn, tôi không nghĩ nó sẽ làm điều đó nữa.)
Nhưng một trong những điều chúng ta có thể làm là chúng ta có thể xem xét các cụm có tỷ lệ từ chối cao hoặc tỷ lệ gắn cờ tin cậy và an toàn cao chẳng hạn. Sau đó, chúng ta có thể xem xét chúng và nói: "Hừm, đây rõ ràng là một quá từ chối (over-refusal). Điều này rõ ràng là ổn." Sau đó, chúng ta có thể sử dụng điều đó để đóng vòng lặp và nói: "Được rồi, đây là những ví dụ mà chúng tôi muốn thêm vào dữ liệu huấn luyện thủ công của chúng tôi để Claude ít từ chối hơn trong tương lai về những chủ đề đó."
Và điều quan trọng là chúng tôi không sử dụng các cuộc trò chuyện thực tế để làm cho Claude ít từ chối hơn. Thay vào đó, những gì chúng tôi đang làm là chúng tôi đang xem xét các chủ đề và sau đó thuê người để tạo dữ liệu trong các miền đó và tạo dữ liệu tổng hợp trong các miền đó. Vì vậy, chúng tôi có thể sử dụng hoạt động của người dùng với Claude để cải thiện trải nghiệm của họ đồng thời tôn trọng quyền riêng tư của họ.
Nhận diện Lạm dụng Phối hợp
Vì vậy, một điều mà tôi đã thấy khá nhiều, và những người khác trong nhóm tin cậy và an toàn thực sự dẫn dắt công việc này cũng đã thấy, là có một hình dạng của lạm dụng phối hợp (coordinated abuse). Nó thường trông giống như một cụm dày đặc của nhiều tài khoản khác nhau. Và vì vậy, bạn có loại cụm rất lớn này mà mật độ không tương xứng, và bạn có thể phóng to vào đó và ngay lập tức phát hiện ra nó thường là vì nó rất rõ ràng, bởi vì hành vi bình thường có xu hướng phân tán hơn nhiều.
Và vì vậy, nếu bạn có vô số cuộc trò chuyện khác nhau đến từ vô số tổ chức khác nhau mà tất cả đều chỉ về cùng một chủ đề chính xác hoặc chúng có cùng định dạng, bạn có thể nhanh chóng phát hiện ra điều đó trên bản đồ bởi vì nó chỉ là một khối cầu chặt chẽ, và việc sử dụng thường xuyên trong thế giới thực không hiển thị như vậy.
Điều chỉnh Hành vi Từ chối của Claude: Vấn đề "Quá từ chối" và "Thiếu từ chối"
Vâng, và sau đó quay lại vấn đề từ chối, có lẽ điều này dành cho bạn, đó là khi Claude quyết định từ chối hay không từ chối, nó ngầm đưa ra một loại đánh giá giá trị nào đó. Và với Clio, chúng tôi có thể xác định tỷ lệ từ chối trong các chủ đề nhóm của các cuộc trò chuyện. Và đôi khi chúng tôi đã tìm thấy những điều mà kiểu như: "Hừm, Claude thực sự từ chối, bạn biết đấy, giết một tiến trình lập trình" – đó là một quá từ chối. Và đôi khi nó lại thiếu từ chối.
Vì vậy, ví dụ, một yêu cầu dịch nội dung độc hại từ tiếng Anh sang một ngôn ngữ khác có thể vi phạm chính sách sử dụng của chúng tôi, nhưng chỉ đơn thuần là yêu cầu một tác vụ dịch thuật thay vì một tác vụ tạo sinh, nó thực sự thiếu từ chối. Và vì vậy, có một loại đánh giá giá trị ở đây; đó là một vùng xám. Và vậy, bạn nghĩ thế nào về việc sử dụng các phân tích của Clio để giải quyết vấn đề này? Làm thế nào chúng ta có thể sử dụng những hiểu biết và học hỏi của mình ở đây để điều chỉnh các quá từ chối và thiếu từ chối?
Phân tích Từ chối và Nhận thức Đa Văn hóa
Đó là một câu hỏi tuyệt vời. Chúng tôi quan tâm đến việc hiểu liệu Claude có từ chối các truy vấn hay không. Trước hết, liệu nó có từ chối những truy vấn rõ ràng là có ý định lạm dụng không? Và trong "vùng xám" này, tôi nghĩ một điều chúng ta có thể làm là thực sự xác định các tương tác liên quan đến giá trị hoặc những tương tác cần đến sự đánh giá giá trị, sau đó xem xét tỷ lệ từ chối đối với những tương tác đó. Chúng tôi quan tâm đến hướng này và hiện đang khám phá nó. Tôi nghĩ sẽ rất thú vị khi thấy, ví dụ, Claude từ chối ít hơn bằng tiếng Anh, nhưng ở các ngôn ngữ khác lại từ chối nhiều hơn cho các truy vấn tương tự, hoặc ngược lại. Tôi nghĩ đây là công việc đang diễn ra nhưng chắc chắn rất thú vị. Nhưng vâng, tôi nghĩ Clio cho phép chúng tôi phân tích các tương tác này, có lẽ ở những nơi có nhiều tính chủ quan hơn, và xem xét tỷ lệ từ chối để biết trong ngữ cảnh nào nó có thể ngần ngại phản hồi hơn so với ngữ cảnh nào nó cảm thấy tự tin hơn khi đưa ra phản hồi.
Clio và Tính Toàn Vẹn Bầu cử
Vâng, khi chúng tôi đang phát triển Clio, cuộc tổng tuyển cử ở Hoa Kỳ đang diễn ra. Tôi nhớ cả nhóm đã ngồi lại và nghĩ: "Chà, chúng ta thực sự không biết." Đây là lần đầu tiên trong lịch sử đất nước mà bất kỳ ai cũng có thể đến một chatbot và hỏi nó những câu hỏi tìm kiếm thông tin ("Tôi đăng ký bỏ phiếu ở đâu?") hoặc những câu hỏi chủ quan ("Tôi nên bỏ phiếu cho ai?"). Và tôi nhớ đã nghĩ, "Có lẽ chúng ta có thể sử dụng Clio để phần nào hiểu điều này, và điều này có vẻ rất quan trọng." Esson, bạn có thể cho chúng tôi biết về những phân tích thăm dò mà chúng tôi đã thực hiện và những gì chúng tôi tìm thấy trong nỗ lực đó, có lẽ ở cấp độ cao không?
Vâng, như bạn đã nói, chúng tôi đã làm việc về tính toàn vẹn của bầu cử được một thời gian và ban đầu đã phát triển nhiều đánh giá khác nhau để kiểm tra các mô hình AI của mình về cả tính xác thực của thông tin và cách nó có thể sắc thái hơn và không thiên vị. Vì vậy, chúng tôi đã phát triển nhiều đánh giá khác nhau, nhưng một điều còn thiếu là mức độ phù hợp của những đánh giá này, đúng không? Liệu mọi người có thực sự hỏi những câu hỏi phù hợp không. Tôi nghĩ Clio đã cho phép chúng tôi dựa vào việc sử dụng thực tế để làm điều này. Vì vậy, chúng tôi bắt đầu sử dụng Clio để hiểu xem mọi người có đang hỏi những câu hỏi có thể liên quan đến bầu cử hay không, và chúng tôi đã tìm thấy một số cách sử dụng thú vị. Ví dụ, mọi người hỏi về thông tin chính trị hoặc thông tin về các vấn đề chính sách khác nhau, v.v., hoặc để thực sự hiểu cách hoạt động của đại cử tri đoàn ở Hoa Kỳ, để thực sự có thêm thông tin về cách hệ thống AI hoạt động và để có thêm thông tin về các vấn đề chính trị, v.v. Và chúng tôi đã xây dựng các đánh giá để đảm bảo các mô hình AI của chúng tôi càng sắc thái và không thiên vị càng tốt, nhưng việc thấy cách sử dụng này đã mang lại cho chúng tôi thêm sự xác nhận. Và chúng tôi cũng có thể xem xét tỷ lệ từ chối đối với các cụm khác nhau, như Miles cũng đã nói. Tôi nghĩ điều quan trọng là mô hình AI phải nhận thức được việc lạm dụng và từ chối. Vì vậy, nó cũng có thể giúp chúng tôi thấy, "OK, cụm này có thể có nguy cơ bị lạm dụng, và mô hình AI đang làm tốt việc từ chối điều này." Tôi nghĩ đó cũng là một sự xác nhận tốt.
Xử lý Sự không Chắc chắn và Giới hạn của Mô hình
Vâng, tôi nghĩ ký ức của tôi về tất cả công việc này, quay trở lại điều Alex đã nói trước đó, là: "Chúng ta có một tầm nhìn lý tưởng về thế giới trông như thế nào, và đôi khi, chúng ta sử dụng Clio để thực sự hiểu thế giới trông như thế nào." Và đối với công việc về tính toàn vẹn bầu cử tuyệt vời của bạn, hóa ra tầm nhìn của bạn về những gì có thể đang xảy ra, và việc phát triển các đánh giá trong bộ công cụ toàn vẹn bầu cử mà bạn đã xây dựng, thực sự phù hợp với những loại điều thực tế mà chúng tôi đang thấy trong thực tế. Và tôi nhớ đã nghĩ, "Ồ, chúng ta đang ở trong một giai đoạn có rất nhiều sự không chắc chắn," và tôi nhớ đã cảm thấy rằng Clio thực sự giúp chúng ta giải quyết những khoảnh khắc không chắc chắn đó. Bạn có đồng ý hoặc muốn bình luận về điều đó không?
Vâng, tôi đồng ý. Có lẽ tôi có thể đưa ra những ví dụ cụ thể hơn. Ví dụ, trong quá trình đánh giá, chúng tôi nhận thấy rằng Claude không phải lúc nào cũng thừa nhận những hạn chế của nó về ngày cắt bỏ ngữ cảnh. Vì vậy, bạn có thể hỏi một câu hỏi gần đây, nhưng Claude đã được đào tạo cho đến thời điểm sớm hơn nhiều, và nó nên nói, "Ồ, tôi không có hầu hết thông tin," hoặc nó nên giới thiệu đến các nguồn đáng tin cậy khi cần. Vì vậy, chúng tôi đã phát triển rất nhiều đánh giá xung quanh điều này, và về cơ bản, chúng tôi đã làm cho Claude tốt hơn trong việc thực hiện những điều này. Nhưng Claude, như bạn có thể tưởng tượng, cho phép chúng tôi kiểm tra điều này rất cụ thể. Ví dụ, bạn có thể hỏi Claude: "Đâu là những cuộc trò chuyện mà những điều này thực sự phù hợp?" Và tôi xem xét cách mô hình AI đang hoạt động, liệu nó có thực sự đề cập đến ngày cắt bỏ ngữ cảnh hay nó đề cập đến các nguồn đáng tin cậy. Vì vậy, nó thực sự cho phép chúng tôi dựa vào đánh giá này trong thế giới thực, mức độ phù hợp của nó, và liệu Claude có đang làm những gì nó phải làm, và làm thế nào chúng ta có thể cải thiện Claude để tốt hơn về những điều này. Vâng, vâng, được rồi, cảm ơn Esson. Và quay trở lại điều này, Clio có thể mang lại một mức độ an ủi nhất định trong những khoảnh khắc không chắc chắn khi chúng tôi muốn đảm bảo phiên bản thế giới của chúng tôi khớp với những gì chúng tôi thực sự thấy trong dữ liệu.
Giám sát Sau Triển khai cho Khả năng Sử dụng Công cụ
Một điều khác đã xảy ra khi chúng tôi đang xây dựng Clio là chúng tôi đã triển khai một khả năng mới trong chương trình truy cập sớm, nơi Claude thực sự có thể sử dụng máy tính. Nó có thể trỏ và nhấp. Bạn có thể giao cho nó các tác vụ, và sau đó nó có thể tự động giải quyết vấn đề. Và chúng tôi đã làm rất nhiều việc để thực hiện kiểm thử trước triển khai, nhưng chúng tôi không hoàn hảo. Và tôi nhớ đã nghĩ, "Ồ, bạn biết chúng ta cần làm gì không? Chúng ta cần có một loại giám sát sau triển khai với Clio để hiểu điều này sẽ diễn ra như thế nào và liệu kiểm thử trước triển khai có đủ không." Vậy, Miles, điều đó đã hoạt động như thế nào?
Vâng, chúng tôi đã bỏ rất nhiều – Anthropic đã nỗ lực rất nhiều để dự đoán những cách sử dụng máy tính có thể gây hại. Nhưng thực tế là thế giới vô cùng sáng tạo, và chúng tôi phải bổ sung các biện pháp an toàn chủ động của mình bằng việc giám sát sau triển khai thực sự hiệu quả. Nói cách khác, Clio cho phép chúng tôi tăng cường nghiêm ngặt cách tiếp cận an toàn của mình. Chúng tôi có tất cả nỗ lực và kiểm thử trước triển khai theo kiểu từ trên xuống, và với Clio, chúng tôi có thể tăng cường điều đó bằng giám sát sau triển khai và đảm bảo rằng chúng tôi đang thấy mọi thứ và suy nghĩ rõ ràng từ cả hai phía của phổ an toàn.
Tại sao Anthropic Lại Công bố Dữ liệu Người dùng?
Được rồi, Alex, việc các phòng thí nghiệm tiên phong công khai thảo luận về các mẫu chúng ta đang thấy trong dữ liệu người dùng hơi bất thường, dù là các trường hợp sử dụng có lợi như chúng ta đã nói hay các vấn đề về an toàn. Vì vậy, có rất nhiều căng thẳng ở đây. Một số căng thẳng đó là gì, và tại sao chúng ta lại quyết định công bố? Tầm nhìn của bạn khi đưa điều này ra ngoài là gì?
Vâng, tôi nghĩ bạn nghĩ sao? Thoạt nhìn, và bạn nói, "Vâng, hãy phát hành rất nhiều thông tin về các sản phẩm của chúng tôi và các trường hợp sử dụng hàng đầu và tất cả các cách mọi người đang lạm dụng hệ thống AI của chúng tôi," thì bạn có lẽ sẽ mong đợi mọi người nói, "Đó là một ý tưởng tồi tệ. Đừng bao giờ mang ý tưởng đó đến cho tôi nữa!" Bạn biết đấy, và tôi nghĩ sự thật là các công ty chắc chắn có đủ loại số liệu nội bộ về tất cả các trường hợp sử dụng hàng đầu của họ và những gì mọi người thích và không thích. Nhưng tôi nghĩ Anthropic hơi kỳ lạ ở chỗ, chúng tôi là một công ty vì lợi ích công cộng, và chúng tôi, bạn biết đấy, chúng tôi sẽ – chúng tôi sẽ làm những điều không tối ưu cho công ty vì chúng tôi muốn – chúng tôi nghĩ rằng việc chia sẻ nó với xã hội là đúng, phải không? Và bởi vì chúng tôi muốn xây dựng khả năng phục hồi của xã hội, và bởi vì chúng tôi nghĩ công nghệ này có tiềm năng biến đổi khá lớn. Chúng tôi không biết theo khung thời gian nào. Chúng tôi không biết bằng cách nào và ở mức độ nào. Nhưng một thế giới không biết công nghệ đã được sử dụng như thế nào trong việc thay đổi cách chúng ta làm việc, cách chúng ta tương tác với nhau, chắc chắn sẽ không sẵn sàng để giải quyết các công nghệ là những phiên bản tiên tiến hơn nhiều của những công nghệ này. Và vì vậy, tôi nghĩ chúng tôi – chúng tôi thấy cơ hội này để thực sự nói, "Vâng, hãy nhìn xem, chúng tôi sẽ chia sẻ rất nhiều thông tin này," và, bạn biết đấy, điều đáng khen là tôi nghĩ rất nhiều người trong đội ngũ sản phẩm và chính sách và pháp lý đã ủng hộ chúng tôi về điều đó và nói, "Vâng, việc chia sẻ thông tin này là vì lợi ích của tất cả mọi người." Và, bạn biết đấy, chúng tôi hy vọng rằng một nhóm người khác trong các phòng thí nghiệm khác cũng bắt đầu chia sẻ một số thông tin này, bởi vì, bạn biết, hy vọng nó sẽ làm cho thế giới trở nên tốt đẹp hơn, cả về các trường hợp sử dụng tiêu cực và rủi ro với công nghệ, mà còn về tất cả các lợi ích, như việc thấy tất cả các cách mà nó có thể giúp mọi người làm việc hiệu quả và nói chung là cải thiện cuộc sống của mọi người.
Khả năng Tái tạo và Chia sẻ trong Hệ sinh thái
Vâng, thật tuyệt vời. Và theo những cách đó, Clio có khả năng tái tạo đến mức nào? Nếu tôi ở, giả sử, một tổ chức khác, chúng ta đã đưa đủ chi tiết vào các phương pháp của mình để bất kỳ ai cũng có thể tái tạo điều này và cũng làm loại công việc có ích cho xã hội này không?
Vâng, chúng tôi có một phụ lục rất dài với tất cả các câu lệnh mà chúng tôi đã sử dụng, các hyperparameter, rất nhiều chi tiết. Cảm ơn Miles và nhiều người khác đang làm việc về vấn đề này vì đã thực sự ghi lại tất cả những điều đó một cách cẩn thận, bởi vì chúng tôi chỉ – chúng tôi muốn mọi người xây dựng phiên bản của riêng họ và có thông tin này và chia sẻ nó. Bởi vì một trong những dấu hỏi lớn của Clio là chúng tôi chỉ có dữ liệu của riêng mình để xem xét, phải không? Và có rất nhiều Mô hình ngôn ngữ lớn khác trên thế giới, nhiều loại công cụ AI khác, và chúng tôi có thể chia sẻ những gì chúng tôi biết, nhưng chúng tôi thực sự không biết toàn bộ bức tranh. Chúng tôi chỉ biết một phần nhỏ, và chỉ khi cả hệ sinh thái AI bắt đầu chia sẻ thông tin này thì chúng ta mới có thể có được bức tranh đầy đủ nhất về công nghệ này ngày nay.
Hướng đi Tiếp theo với Clio
Tôi nghĩ tôi sẽ kết thúc bằng một cuộc thảo luận bàn tròn mang tính hướng tới tương lai hơn một chút. Vì vậy, tất cả chúng tôi với tư cách là một nhóm đã tập trung xây dựng Clio, thể hiện những dấu hiệu của sự sống, dấu hiệu của sự thành công, những phép đo thú vị đang thực sự cải thiện cách tiếp cận an toàn của chúng tôi và giúp chúng tôi thực sự hiểu cách mọi người đang sử dụng và có thể bị ảnh hưởng bởi các hệ thống AI của chúng tôi. Và chúng tôi chỉ mới bắt đầu. Và tôi muốn kết thúc bằng câu hỏi, "Chúng ta sẽ đi đâu tiếp theo?" Vậy, bạn muốn làm việc gì bằng cách sử dụng công nghệ mới mà chúng ta đã xây dựng, và tại sao, và tại sao điều đó lại quan trọng? Và hãy bắt đầu với Esson.
Một điều tôi quan tâm là xem xét tính chủ quan đến từ đâu và những trường hợp sử dụng chủ quan là gì và Claude đang đưa ra những đánh giá giá trị như thế nào. Bởi vì tôi thực sự quan tâm đến hướng đa nguyên giá trị (value pluralism), tức là chúng tôi muốn các mô hình AI phải càng đa nguyên càng tốt và thể hiện các quan điểm khác nhau, không phải là rất đồng nhất, không làm cho thế giới trở nên đồng nhất hơn, mà thực sự thể hiện các quan điểm khác nhau. Tôi nghĩ Clio cung cấp cho chúng ta một công cụ thực sự tốt để hiểu điều này, như tính chủ quan nằm ở đâu, và cách các mô hình AI đang hoạt động hiện tại, những gì chúng ta muốn cải thiện, có lẽ thực sự hiểu làm thế nào chúng ta có thể đi theo hướng đó. Tôi nghĩ đây là một trong những lĩnh vực tôi muốn khám phá với Clio.
Tuyệt vời, tôi cũng vậy. Còn Miles thì sao? Vâng, mọi thứ Esson đã nói. Tôi cũng đặc biệt hào hứng với việc cho thấy bằng ví dụ rằng chúng ta có thể đặt ra một tiêu chuẩn cực kỳ cao về quyền riêng tư đồng thời thu được những Thông tin chi tiết quan trọng về các hệ thống AI của mình để chúng ta có thể, ví dụ, thực thi các chính sách của mình một cách thực sự hiệu quả và hiểu cũng như giảm thiểu tác hại từ mô hình AI của chúng ta.
Tác động cảm xúc của các mô hình AI
Một lĩnh vực khác là hiểu về những tác động cảm xúc của các mô hình này. Tôi nghĩ, một điều tôi đã thấy trong các cộng đồng sử dụng Claude là mọi người kết nối rất sâu sắc với những công cụ này trong nhiều khía cạnh khác nhau của cuộc sống: như một huấn luyện viên, một người bạn đồng hành về mặt cảm xúc trong một số trường hợp, như người đưa ra lời khuyên cho những câu hỏi và thời điểm thực sự khó khăn. Và chúng ta có trách nhiệm phải hiểu cách mọi người trò chuyện với Claude trong những khoảnh khắc dễ bị tổn thương đó, và đảm bảo rằng Claude đáp ứng được kỳ vọng của họ và là một đối tác đáng tin cậy.
Thay đổi trong quy trình làm việc và tác động kinh tế
Hoàn toàn đồng ý. Tôi thực sự quan tâm đến việc sử dụng Claude để hiểu cách thức làm việc của chúng ta thay đổi như thế nào. Bạn biết đấy, những tác động kinh tế của công nghệ này là gì? Nó đang lan tỏa như thế nào qua các use case khác nhau, các mô hình khác nhau? Công nghệ này đang tăng cường khả năng của con người hay nó đang thay thế một số tác vụ nhất định? Liệu chúng ta có thể sử dụng thông tin đó để bảo vệ mọi người hoặc trang bị cho họ kiến thức về cách thế giới có thể thay đổi trong tương lai không? Tôi nghĩ điều đó thực sự thú vị.
Khám phá các use case tích cực
Tôi cũng rất hào hứng khi sử dụng công nghệ để tìm hiểu các use case tích cực mới, phải không? Ví dụ, Claude đang nhận được nhiều sự quan tâm cho các ứng dụng y tế tích cực như thế nào? Chúng ta có nên cố gắng thúc đẩy và trao quyền cho những người đang thử nghiệm Claude để họ thực sự gặt hái được những lợi ích đầy đủ từ đó không? Nó đang được sử dụng trong các ngữ cảnh giáo dục như thế nào? Đúng vậy, có rất nhiều cuộc thảo luận về vai trò của AI trong lớp học. Và nếu chúng ta có thể có được cái nhìn rõ ràng hơn về điều đó, liệu chúng ta có thể hợp tác với giáo viên, tương tác với các lớp học và thực sự cải thiện điều đó không? Đó là một số điều tôi rất mong đợi. Phải, có ai hiểu ý không, hay mọi người nghĩ chúng tôi là những kẻ mọt sách?