Robotics' End Game: Nvidia's Jim Fan

Ngành robot học đang bước vào "cuộc chơi cuối" của mình, học hỏi từ sự thành công của các Mô hình Ngôn ngữ Lớn (LLMs) bằng cách áp dụng chiến lược huấn luyện trước và tinh chỉnh để mô phỏng trạng thái thế giới vật lý và hành động.
Mô hình robot đang chuyển từ các mô hình VLA (ưu tiên ngôn ngữ) sang Mô hình Hành động Thế giới (WAMs), tập trung vào dự đoán trạng thái thế giới tiếp theo và các hành động, cho phép robot "mơ" và thực hiện nhiệm vụ một cách linh hoạt.
Chiến lược dữ liệu đang thay đổi từ việc thu thập dữ liệu thông qua điều khiển từ xa (teleoperation) kém hiệu quả sang dữ liệu con người được cảm biến hóa (như UMI và video góc nhìn thứ nhất) và các trình mô phỏng thần kinh dựa trên dữ liệu để mở rộng khả năng học.

Áp dụng mô hình phát triển LLM: Robot học đang sao chép cấu trúc "huấn luyện trước -> tinh chỉnh -> học tăng cường" của LLM, trong đó huấn luyện trước mô phỏng trạng thái thế giới vật lý tiếp theo, tinh chỉnh hành động điều chỉnh nó cho robot, và học tăng cường tối ưu hóa các nhiệm vụ.
Chuyển đổi sang World Action Models (WAMs): Các mô hình VLA (Visual Language Action) cũ bị loại bỏ vì ưu tiên ngôn ngữ, thay vào đó là WAMs (hoặc World Models) tập trung vào dự đoán "trạng thái thế giới tiếp theo" (next world state) và "hành động tiếp theo" (next actions) trực tiếp từ pixel, nắm bắt vật lý và lập kế hoạch thị giác.
Dream Zero cho khả năng zero-shot: Dream Zero là một loại mô hình chính sách mới sử dụng các mô hình thế giới để "mơ" về tương lai và hành động, cho phép thực hiện các nhiệm vụ và động từ chưa từng thấy trong quá trình huấn luyện mà không cần thêm bản trình diễn.
Vượt qua giới hạn của Teleoperation: Thu thập dữ liệu robot đang chuyển từ điều khiển từ xa (teleoperation) có giới hạn vật lý sang các phương pháp có khả năng mở rộng cao hơn như UMI (Universal Manipulation Interface) và các thiết bị đeo dữ liệu (data wearables).
Tận dụng Egocentric Video: Egocentric video của con người (video góc nhìn thứ nhất) cùng với theo dõi vị trí tay và chú thích ngôn ngữ dày đặc đang trở thành "chế độ ăn chính" cho dữ liệu huấn luyện robot, cho phép pre-training trên hàng ngàn giờ dữ liệu phi robot.
Ego-Scale và luật mở rộng thần kinh: Ego-Scale là một chính sách end-to-end được huấn luyện chủ yếu trên video egocentric của con người, chứng minh khả năng tổng quát hóa cao và phát hiện ra "định luật mở rộng thần kinh cho sự khéo léo" (neuroscaling law for dexterity) tuyến tính logarit.
Mở rộng môi trường bằng Neural Simulators: Để mở rộng học tăng cường (RL), robot học đang chuyển từ mô phỏng vật lý cổ điển sang các "trình mô phỏng thần kinh" (neural simulators) như Dream Dojo, được xây dựng hoàn toàn dựa trên dữ liệu video thế giới để tạo ra môi trường huấn luyện ảo không giới hạn.

embodied autonomous research — nghiên cứu tự hành có thể hình
deep learning — học sâu
reinforcement learning — học tăng cường
endgame — cuộc chơi cuối
World Model — mô hình thế giới
action fine-tuning — tinh chỉnh hành động
teleoperation — điều khiển từ xa
egocentric video — video góc nhìn thứ nhất (hoặc video tự thân)
neural simulator — trình mô phỏng thần kinh
physical Turing test — kiểm tra Turing vật lý

Giới thiệu và Hành trình của Jim Fan

Trước hết, tôi rất vinh dự được giới thiệu người bạn của mình, Jim Fan. Jim đang lãnh đạo nhóm nghiên cứu embodied autonomous research tại NVIDIA, còn được biết đến là NVIDIA Robotics. Tôi nghĩ rằng robot là một trong những điều thú vị nhất sắp xảy ra. Về cơ bản, một chiếc xe hơi là một robot lớn, nhưng tôi đặc biệt hào hứng với những robot có thể 'bíp bíp' và nâng đồ vật cho chúng ta. Jim đã là một nhân vật nổi bật tại AIN năm ngoái, và chúng tôi rất vui mừng được chào đón bạn trở lại.

Cảm ơn mọi người. Cảm ơn. Vào một ngày hè năm 2016, ngay tại văn phòng mà chúng ta đang ngồi đây, có một người đàn ông mặc áo khoác da bóng bẩy, với bắp tay lớn, đang mang vào một khay kim loại lớn. Trên miếng kim loại lớn đó, ông ấy viết: "Gửi Elon và đội ngũ OpenAI, vì tương lai của điện toán và nhân loại, tôi xin giới thiệu DGX-1 đầu tiên trên thế giới." Đó là lần đầu tiên tôi gặp Jensen. Và như bất kỳ thực tập sinh giỏi nào cũng làm, tôi vội vã xếp hàng để ký tên mình lên đó. Các bạn có thể tìm thấy không? Tên tôi ở đây. Và các bạn có thể tìm thấy một người khác nữa không? Đó là Andrej Karpathy ngay đó.

Vậy là, Andrej, chúng ta sẽ đến bảo tàng lịch sử máy tính. Tôi cảm thấy mình như một con khủng long. Hồi đó, tôi hoàn toàn không biết mình đang tham gia vào điều gì. Và sau đó, không ai có thể mô tả những gì đã xảy ra tốt hơn chính Ilya Sutskever: "Nếu bạn tin vào deep learning, deep learning sẽ tin vào bạn." Và quả thực, deep learning đã tin vào tất cả chúng ta một cách mạnh mẽ. Ba hàm bước, sáu năm. Đó là tất cả những gì cần thiết để đưa chúng ta đến ngày hôm nay. Bước đầu tiên, pre-training GPT-3 để dự đoán next token thực sự là về việc học các quy tắc ngữ pháp, hình dạng của ngôn ngữ. Đó là về việc mô phỏng cách tư duy, mã và các string nói chung nên diễn ra. Năm 2022, InstructGPT đã sử dụng supervised fine-tuning để điều chỉnh mô phỏng nhằm thực hiện các công việc hữu ích, hoặc one-reasoning sử dụng reinforcement learning để vượt qua imitation learning, và cuối cùng là AutoResearch tăng tốc toàn bộ loop vượt xa khả năng của con người.

Robotics: The Endgame và "Sự Tương Đồng Lớn"

Vì vậy, như Andrej đã nói, tất cả các phòng thí nghiệm đang tiến đến trận chiến final boss. Đối với LLMs, họ đang ở giữa giai đoạn endgame nảy lửa. Thành thật mà nói, tôi rất ghen tị. Hãy nhìn xem Andrej đã hạnh phúc thế nào, nụ cười lớn trên khuôn mặt anh ấy. Những người làm về LLM đang có một bữa tiệc lớn trong đời. Họ đang speedrunning AGI trên những sinh vật thần thoại theo đúng nghĩa đen gọi là mythos. Vậy tại sao robot học lại không thể có được niềm vui này?

Vì vậy, như bất kỳ nhà khoa học có lòng tự trọng nào cũng làm, tôi đã sao chép bài tập về nhà và đặt cho nó một cái tên mới. Tôi gọi nó là "sự tương đồng lớn" (a great parallel). Thay vì mô phỏng string, liệu chúng ta có thể mô phỏng next physical world state (trạng thái thế giới vật lý tiếp theo) và sau đó điều chỉnh thông qua action fine-tuning (tinh chỉnh hành động) vào một lát cắt mỏng của mô phỏng đó mà có ý nghĩa đối với robot thực tế. Và chúng ta để reinforcement learning (học tăng cường) hoàn thành chặng cuối. Chỉ có vậy. "Sự tương đồng lớn" đang sao chép thành công của LLM. Nếu bạn không thể đánh bại họ, hãy tham gia cùng họ. Vì vậy, xin hãy cùng tôi tham gia vào một tập mới: Robot học, The Endgame. Và xin lỗi, tôi chỉ không thể cưỡng lại được. Nano banana quá tuyệt. Cảm ơn Dennis.

Chiến lược Mô Hình: Vượt Qua `VLA`

Vậy, làm thế nào để chúng ta chơi endgame? Nó tóm gọn lại thành hai điều: Model strategy (chiến lược mô hình) và data strategy (chiến lược dữ liệu). Hãy xem xét model trước. Ba năm qua, các mô hình VLA (Visual Language Action models) đã thống trị, và các mô hình như PaLM và Gato thuộc loại này. Chúng ta giả định rằng pre-training được thực hiện bởi một VLA, và chúng ta chỉ đơn giản là gắn thêm một action head lên trên nó. Nhưng thực sự, nếu bạn nghĩ về những mô hình này, chúng là LVA (Language-Vision-Action) vì phần lớn parameter được dành cho ngôn ngữ. Vì vậy, ngôn ngữ là công dân hạng nhất, tiếp theo là thị giác và hành động. Và theo thiết kế, VLA rất giỏi trong việc mã hóa kiến thức và danh từ, nhưng không quá giỏi về vật lý và động từ. Nó giống như nặng đầu sai chỗ vậy. Đây là ví dụ yêu thích của tôi từ bài báo VLA gốc: "Di chuyển lon Coca đến một bức ảnh của Taylor Swift." Vâng, nó chưa từng thấy Taylor Swift trước đây. Vâng, nó có khả năng tổng quát hóa. Nhưng đây không hoàn toàn là khả năng pre-training mà chúng ta đang tìm kiếm.

Sự Trỗi Dậy của `World Model` và `Dream Zero`

Vậy đâu là mô hình pre-training thứ hai? Tôi luôn nghĩ rằng nó sẽ là một thứ gì đó vinh quang. Thật không may, hóa ra đây lại là cái mà chúng ta gọi là "video AI slop". Bạn biết đấy, tôi có thể xem những con mèo chơi banjo trên camera an ninh cả ngày. Đó là đỉnh cao của Internet. Nhưng thực sự, hãy nhìn vào điều này. Không ai có thể coi trọng điều này [tiếng cười] cho đến khi chúng ta nhận ra rằng những mô hình video này đang học cách mô phỏng next world state (trạng thái thế giới tiếp theo) bên trong. Đây là một số kết quả từ V3. Bạn có thể thấy rằng các mô hình tự chúng học được trọng lực, sức nổi, ánh sáng, phản xạ, khúc xạ. Không có thứ gì trong số này được mã hóa, vật lý tự xuất hiện bằng cách dự đoán next blob of pixels (khối pixel tiếp theo) ở quy mô lớn. Và thậm chí cả visual planning (lập kế hoạch thị giác) cũng xuất hiện. Hãy xem cách V3 giải quyết những mê cung này. Nó giải quyết chúng bằng cách chạy mô phỏng tiến về phía trước trong không gian pixel. Và hãy chú ý đến góc dưới bên phải ở đây. Đây là ví dụ yêu thích của tôi. Hãy cùng xem. Và bạn sẽ nháy mắt nếu bỏ lỡ cách V3 giải quyết vấn đề này. [tiếng cười] Nó siêu thông minh. Bạn biết đấy, V3 nhận ra rằng nếu bạn không nhìn, hình học là tùy chọn. Tôi gọi đây là "vật lý slop".

Vậy làm thế nào để chúng ta làm cho các world model này hữu ích? Chúng ta thực hiện action fine-tuning (tinh chỉnh hành động). Chúng ta điều chỉnh sự chồng chất của tất cả các trạng thái tương lai có thể và thu gọn nó vào một kích thước cụ thể có ý nghĩa đối với robot thực tế. Xin giới thiệu Dream Zero, một loại policy model mới có khả năng 'mơ' trước vài giây về tương lai và hành động theo đó. Và bạn biết rằng các hành động vận động là các tín hiệu liên tục có chiều cao. Vì vậy, nó trông giống như pixel. Chúng ta có thể render nó cùng lúc khi chúng ta render video. Dream Zero cùng lúc giải mã next world states và next actions, và kết quả là nó có thể zero-shot giải quyết các nhiệm vụ và động từ mà nó chưa từng thấy trong quá trình huấn luyện. Khi robot thực hiện, chúng ta có thể hình dung nó đang 'mơ' về điều gì, và mối tương quan rất chặt chẽ. Nếu dự đoán video hoạt động, hành động sẽ hoạt động; nếu video bị hallucinate (ảo giác), hành động sẽ thất bại. Vì vậy, một lần nữa, thị giác và hành động giờ đây là công dân hạng nhất. Và chúng tôi đã có rất nhiều niềm vui với Dream Zero. Chúng tôi đã điều khiển một robot quanh phòng thí nghiệm của mình và sau đó gõ những thứ ngẫu nhiên vào hộp prompt. Và tất nhiên, Dream Zero sẽ không hoàn thành 100% tất cả các nhiệm vụ này một cách mạnh mẽ, nhưng nó giống như GPT-2. Nó đang cố gắng làm cho hình dạng của chuyển động chính xác trong mọi trường hợp. Vì vậy, Dream Zero là bước đầu tiên của chúng ta hướng tới open-ended, open-vocabulary prompting cho robot học. Và chúng tôi gọi loại mô hình mới này là World Action Models (hoặc WAM). Hãy dành một phút mặc niệm cho người bạn thân yêu VLA của chúng ta. Họ đã phục vụ chúng ta rất tốt. Yên nghỉ. World Action Models muôn năm.

Chiến lược Dữ liệu: Vượt Xa `Teleoperation`

Tiếp theo là chiến lược dữ liệu. Đây là nhà khoa học trưởng của NVIDIA, Bill Dally, đang thực hiện teleoperation bên trong phòng thí nghiệm của chúng tôi. Với mức lương của ông ấy, tôi nghĩ đây là quỹ đạo teleop đắt nhất từng được thu thập trong tập dữ liệu của chúng tôi. Ba năm qua đã bị thống trị bởi teleoperation. Đó là kỷ nguyên vàng, phải không? Tai nghe VR, độ trễ được tối ưu hóa cực cao cho streaming và những giàn máy phức tạp trông giống như thiết bị tra tấn thời trung cổ. Rất nhiều đầu tư trong ngành, rất nhiều đau đớn và khó khăn. Tuy nhiên, đối với teleop, nó bị giới hạn tối đa bởi 24 giờ mỗi robot mỗi ngày. Giới hạn vật lý cơ bản. Và thực ra tôi đang đùa gì vậy? Nó giống như ba giờ mỗi robot mỗi ngày và chỉ khi 'thần robot' nhân từ vì chúng luôn 'giở chứng'.

Vậy làm thế nào chúng ta có thể làm tốt hơn? Thế còn cách này thì sao? Bạn chỉ cần đeo bàn tay robot lên tay của mình. Đây được gọi là UMI (Universal Manipulation Interface), và đó là một ý tưởng đơn giản đến bất ngờ. Bạn đeo bộ truyền động của robot lên tay mình và trực tiếp thu thập dữ liệu với tư cách con người, đồng thời loại bỏ phần còn lại của thân robot ra khỏi loop. Tuy nhiên, tôi dám nói rằng UMI có lẽ là một trong những bài báo vĩ đại nhất từng được viết trong lĩnh vực dữ liệu robot học và nó đã tạo ra hai unicorn startup. Ở phía bên trái là Generalist đang cải tiến thiết kế này, bạn có thể đeo gripper ở đây. Và ở phía bên phải, Sunday đã tạo ra những data glove ba ngón này. Vì vậy, năm ngoái chúng tôi đã tiến thêm một bước. Chúng tôi đã thiết kế bộ xương ngoài này có ánh xạ một-một với bàn tay robot khéo léo năm ngón và chúng tôi gọi nó là Dex-Ooi. Hãy xem nó hoạt động. Bên trái, con người trực tiếp thu thập dữ liệu luôn là nhanh nhất. Bên phải, hãy xem teleop khó khăn thế nào, người điều khiển ở đây, một trong những PhD lành nghề nhất của chúng tôi, phải căn chỉnh rất cẩn thận, và sau đó nó cực kỳ chậm, tỷ lệ thành công cũng rất thấp. Và ở giữa, bạn chỉ cần đeo bộ xương ngoài này và trực tiếp thu thập dữ liệu, và chúng tôi huấn luyện một robot policy trên dữ liệu này. Vì vậy, những gì bạn thấy ở đây là một policy hoàn toàn tự chủ được huấn luyện trên dữ liệu zero teleoperation.

Video `Egocentric` và `Ego-Scale`

Vì vậy, chúng tôi có thể phá vỡ lời nguyền 24 giờ mỗi robot mỗi ngày và xem những robot này hạnh phúc thế nào vì chúng không còn cần phải tham gia vào loop thu thập dữ liệu nữa. Vậy, đây có phải là câu trả lời không? Chúng ta đã giải quyết được vấn đề scaling cho robot học chưa? Có ai lái Tesla hay Waymo ở đây không? Ai không? Đúng vậy. Bạn biết đấy, khi bạn lái xe, bạn thực sự đang đóng góp vào physical data flywheel lớn nhất. Và điều tuyệt vời là bạn thậm chí không cảm thấy điều đó trong quá trình FSD (Full Self-Driving) vì việc tải dữ liệu là một quá trình ngầm. Tuy nhiên, việc đeo những thiết bị UMI hoặc data wearables này vẫn còn cồng kềnh, phải không? Nó gây khó chịu. Nó không liền mạch như việc chỉ lái xe đi làm. Vì vậy, chúng ta cần một thứ tương đương với FSD. Việc thu thập dữ liệu cần phải biến mất, hòa vào nền để chúng ta có thể ghi lại toàn bộ sự khéo léo của con người trong mọi tầng lớp xã hội, trong mọi loại hình lao động có giá trị kinh tế.

Vì vậy, chúng tôi đang tập trung hoàn toàn vào egocentric video của con người đi kèm với các chú thích chi tiết như hand position tracking (theo dõi vị trí tay) và dense language annotations (chú thích ngôn ngữ dày đặc). Giới thiệu Ego-Scale, trong đó 99.9% quá trình huấn luyện dựa trên egocentric video của con người và kết quả là một end-to-end policy ánh xạ trực tiếp từ pixel camera đến bàn tay robot khéo léo với 22 degrees of freedom mà bạn thấy ở đây là hoàn toàn tự chủ. Chúng tôi pre-train Ego-Scale trên 21.000 giờ dữ liệu egocentric của con người trong môi trường tự nhiên, không có bất kỳ dữ liệu robot nào. Và trong quá trình pre-training, chúng tôi dự đoán các khớp bàn tay và tư thế cổ tay. Sau đó, trong quá trình action fine-tuning, chúng tôi chỉ thu thập 50 giờ moap data gloves có độ chính xác cao và 4 giờ teleop. 4 giờ teleop này chiếm chưa đến 0.1% tổng hỗn hợp huấn luyện của chúng tôi. Với điều này, Ego-Scale có khả năng tổng quát hóa cho các nhiệm vụ đòi hỏi sự khéo léo cao như sắp xếp thẻ hoặc thao tác ống tiêm để truyền chất lỏng. Bạn biết đấy, một ngày nào đó chúng ta có thể có y tá robot tại nhà. Tốt hơn hết là thử điều này. Và đối với những nhiệm vụ này, nó chỉ cần một one-shot demonstration vào thời điểm thử nghiệm để học các chiến lược gấp áo khác nhau. Và có lẽ phát hiện hấp dẫn nhất từ bài báo là chúng tôi đã khám phá ra neuroscaling law for dexterity (định luật scaling thần kinh cho sự khéo léo). Đó là một mối quan hệ rất rõ ràng giữa số giờ chúng tôi đưa vào pre-training và validation loss tối ưu. Trên thực tế, đó là một phương trình toán học log-linear rõ ràng, sáu năm sau neuroscaling law gốc cho các language model.

Sự Phát Triển Chiến Lược Dữ liệu và Dự Đoán

Vì vậy, nếu chúng ta đặt tất cả các chiến lược dữ liệu này lên biểu đồ này, trục X là alignment to the robot hardware (mức độ phù hợp với phần cứng robot). Trục Y là scalability (khả năng mở rộng). Đây là những gì nó trông như. Teleop là ít scalable nhất. Data wearables có thể đạt tới hàng trăm nghìn giờ. Và egocentric video, nếu chúng ta có thể quay FSD flywheel một cách dễ dàng, có thể đạt 10 triệu giờ trong khoảng một năm tới. Và nếu chúng ta vẽ một đường ở đây, mọi thứ bên trái đường này là một mô hình mới: sensorized human data (dữ liệu con người được cảm biến hóa).

Vì vậy, hãy để tôi đưa ra một vài dự đoán. Trong một hoặc hai năm tới, chúng ta sẽ thấy teleop giảm dần xuống mức gần như không đáng kể. Và sau đó sẽ có một tập hợp các data wearables được thiết kế riêng cho các phần cứng và trường hợp sử dụng khác nhau. Và cuối cùng, 'chế độ ăn chính' cho robot học sẽ là egocentric video. Vậy, một phút mặc niệm cho người bạn thân mến teleop. Bạn đã phục vụ chúng ta rất tốt. Yên nghỉ. Sensorized human data muôn năm.

Chúng ta đã xong với chiến lược dữ liệu chưa? Bạn có để ý tôi đã đặt hai vòng tròn vào chiến lược dữ liệu không? Vòng tròn bên ngoài ở đây là gì? Tất cả các phòng thí nghiệm tiên phong về LLM hiện đã chi một ngân sách đáng kể để mua hàng triệu môi trường mã hóa để thực hiện reinforcement learning. Vì vậy, robot học cũng tương tự.

Thách thức Mở rộng Môi trường Robot

Chúng tôi đang có nhu cầu cấp bách để mở rộng môi trường. Và tất nhiên, bạn luôn có thể thực hiện reinforcement learning (học tăng cường) trực tiếp trên robot thật. Trong phòng thí nghiệm của chúng tôi, chúng tôi sử dụng RL để đẩy một số tác vụ lên gần 100% tỉ lệ thành công, để bạn có thể thực hiện các tác vụ liên tục này hàng giờ liền. Thật thư giãn khi nhìn những con robot tự lắp ráp GPU hoặc như một người khôn ngoan sẽ nói: "Tuyệt vời, nhiệm vụ này đã được sếp tôi duyệt." Tuy nhiên, chúng tôi không thể tạo ra một triệu môi trường, bởi vì điều đó sẽ đòi hỏi một triệu robot nếu chúng ta làm theo cách cũ. Vì vậy, chúng tôi cần một cách tốt hơn.

Quét Thế giới Thực vào Mô phỏng

Giả sử bạn chụp một bức ảnh bằng iPhone và có thể đưa nó qua pipeline quét tường 3D này để trích xuất tất cả các đối tượng, sau đó tự động tổng hợp lại chúng bên trong một classical physics simulator (trình mô phỏng vật lý cổ điển). Tất cả các đối tượng này đều có thể tương tác sau khi quét, và sau đó bạn có thể mở rộng vô hạn điều này trong mô phỏng với các biến thể mà chúng tôi gọi là digital cousins. Vì vậy, iPhone giờ đây về cơ bản đã trở thành một máy quét thế giới bỏ túi. Trong quá trình mà chúng tôi gọi là real to sim to real (thực tới mô phỏng tới thực), chúng tôi có một cách có thể mở rộng để đưa thế giới vật lý vào thế giới kỹ thuật số. Nhưng phương pháp này vẫn dựa vào một classical graphics engine (công cụ đồ họa cổ điển). Chúng ta có thể làm tốt hơn không?

Dream Dojo: Mô phỏng Dựa trên Dữ liệu

Giới thiệu Dream Dojo. Chúng tôi luôn tập trung vào các video world model (mô hình thế giới video) và biến chúng thành các neural simulator (trình mô phỏng thần kinh) hoàn chỉnh. Dream Dojo nhận các tín hiệu hành động liên tục làm đầu vào và xuất ra các khung hình RGB tiếp theo cũng như trạng thái cảm biến theo thời gian thực. Không một pixel nào bạn thấy ở đây là thật. Và Dream Dojo có thể nắm bắt và học cơ chế của các robot khác nhau thông qua phương pháp hoàn toàn dựa trên dữ liệu (data-driven approach). Không có phương trình vật lý, không có graphics engine nào tham gia vào quá trình này.

Mô hình Huấn luyện Hậu Kỳ Mới

Vậy, mô hình huấn luyện hậu kỳ mới cho robot là một hệ thống RL song song khổng lồ, chạy trên một vài trạm robot thật, một loạt graphics core chạy world scan và tính toán inference nặng chạy world model. Hay như phương trình này: compute (tính toán) = environment (môi trường) = data (dữ liệu). Hoặc như một người khôn ngoan sẽ nói: "Càng mua nhiều, càng tiết kiệm nhiều." (Và thông điệp này đã được sếp tôi duyệt.) Vậy đó. Tổng hợp lại, đây là sự phát triển song song lớn mà ngành robot sẽ theo đuổi. Nó đang diễn ra ngay lúc này, và chúng ta đang ở điểm khởi đầu của endgame (cuộc chơi cuối).

Các Cột mốc Tiếp theo của Robot

Các bạn có chơi trò chơi điện tử Civilization không? Đó vẫn là trò yêu thích của tôi. Tôi muốn coi nghiên cứu của mình như việc mở khóa các game achievement (thành tựu trò chơi) trên cây công nghệ văn minh này. Có ba achievement nữa cần mở khóa cho ngành robot và sau đó chúng ta sẽ hoàn thành. Tôi có thể nghỉ hưu, và tôi nóng lòng chờ đợi điều đó. Đầu tiên là vượt qua physical Turing test (kiểm tra Turing vật lý). Với nhiều hoạt động khác nhau, bạn không thể phân biệt được giữa con người thực hiện nhiệm vụ hay robot thực hiện. Có thể không phải là con người say xỉn, nhưng physical Turing test là về đơn vị năng lượng đầu vào và đơn vị lao động đầu ra. Chỉ cần nhìn vào tư thế quyến rũ của con robot này, tôi nghĩ chúng ta còn nhiều việc phải làm. Vì vậy, có lẽ chỉ còn hai đến ba năm nữa.

API Vật lý và Nghiên cứu Tự động

Tiếp theo là physical API (API vật lý). Bạn có cả một đội robot và chúng có thể được cấu hình giống như bất kỳ phần mềm nào khác, sử dụng API và dòng lệnh, một ngày nào đó sẽ được điều phối bởi Opus 9.0. Và nếu chúng ta có physical API này, chúng ta sẽ có thể hiện thực hóa các lysot factory – về cơ bản là máy in nguyên tử. Chúng nhận thiết kế dưới dạng file Markdown làm đầu vào và sau đó xuất ra các sản phẩm hoàn chỉnh đã được lắp ráp hoàn toàn tự động. Hoặc các wet lab (phòng thí nghiệm ướt) tự động hóa các khám phá khoa học trong hóa học, sinh học và y học. Và chặng dừng cuối cùng: physical auto research (nghiên cứu tự động vật lý) – khi robot bắt đầu thiết kế, cải tiến và xây dựng các thế hệ tiếp theo của chính chúng, vượt xa khả năng của con người. Vậy, bạn có thể hỏi, điều này có quá science fiction (khoa học viễn tưởng) không? Liệu chúng ta có thấy điều này trong đời mình không?

Tương lai của Robot học

Cộng đồng AI đã mất 14 năm để đi từ forward pass đầu tiên của AlexNet vào năm 2012 – một mô hình hầu như không thể nhận diện mèo với chó – đến sự phát triển của AI ngày nay, 2026. Nếu chúng ta nói về agentic auto research (nghiên cứu tự động tác nhân) và thêm 14 năm nữa thì sao? Năm 2026 nằm ngay giữa năm 2012 và 2040. Và công nghệ không phát triển tuyến tính, nó phát triển theo cấp số mũ. Vì vậy, tôi có thể nói với 95% chắc chắn rằng chúng ta sẽ đạt đến endgame, kết thúc cây công nghệ này vào năm 2040. Và chúng ta sẽ vẫn đồng hành. Nếu bạn tin vào ngành robot, ngành robot sẽ tin vào bạn. Và với tất cả chúng ta đang ngồi đây, tôi nghĩ thế hệ của chúng ta sinh ra quá muộn để khám phá Trái đất và quá sớm để khám phá các vì sao. Nhưng chúng ta sinh ra đúng lúc để giải quyết vấn đề robot học. [tiếng vỗ tay]

TL;DR

Ngành robot học đang bước vào "cuộc chơi cuối" của mình, học hỏi từ sự thành công của các Mô hình Ngôn ngữ Lớn (LLMs) bằng cách áp dụng chiến lược huấn luyện trước và tinh chỉnh để mô phỏng trạng thái thế giới vật lý và hành động.
Mô hình robot đang chuyển từ các mô hình VLA (ưu tiên ngôn ngữ) sang Mô hình Hành động Thế giới (WAMs), tập trung vào dự đoán trạng thái thế giới tiếp theo và các hành động, cho phép robot "mơ" và thực hiện nhiệm vụ một cách linh hoạt.
Chiến lược dữ liệu đang thay đổi từ việc thu thập dữ liệu thông qua điều khiển từ xa (teleoperation) kém hiệu quả sang dữ liệu con người được cảm biến hóa (như UMI và video góc nhìn thứ nhất) và các trình mô phỏng thần kinh dựa trên dữ liệu để mở rộng khả năng học.

Điểm chính

Áp dụng mô hình phát triển LLM: Robot học đang sao chép cấu trúc "huấn luyện trước -> tinh chỉnh -> học tăng cường" của LLM, trong đó huấn luyện trước mô phỏng trạng thái thế giới vật lý tiếp theo, tinh chỉnh hành động điều chỉnh nó cho robot, và học tăng cường tối ưu hóa các nhiệm vụ.
Chuyển đổi sang World Action Models (WAMs): Các mô hình VLA (Visual Language Action) cũ bị loại bỏ vì ưu tiên ngôn ngữ, thay vào đó là WAMs (hoặc World Models) tập trung vào dự đoán "trạng thái thế giới tiếp theo" (next world state) và "hành động tiếp theo" (next actions) trực tiếp từ pixel, nắm bắt vật lý và lập kế hoạch thị giác.
Dream Zero cho khả năng zero-shot: Dream Zero là một loại mô hình chính sách mới sử dụng các mô hình thế giới để "mơ" về tương lai và hành động, cho phép thực hiện các nhiệm vụ và động từ chưa từng thấy trong quá trình huấn luyện mà không cần thêm bản trình diễn.
Vượt qua giới hạn của Teleoperation: Thu thập dữ liệu robot đang chuyển từ điều khiển từ xa (teleoperation) có giới hạn vật lý sang các phương pháp có khả năng mở rộng cao hơn như UMI (Universal Manipulation Interface) và các thiết bị đeo dữ liệu (data wearables).
Tận dụng Egocentric Video: Egocentric video của con người (video góc nhìn thứ nhất) cùng với theo dõi vị trí tay và chú thích ngôn ngữ dày đặc đang trở thành "chế độ ăn chính" cho dữ liệu huấn luyện robot, cho phép pre-training trên hàng ngàn giờ dữ liệu phi robot.
Ego-Scale và luật mở rộng thần kinh: Ego-Scale là một chính sách end-to-end được huấn luyện chủ yếu trên video egocentric của con người, chứng minh khả năng tổng quát hóa cao và phát hiện ra "định luật mở rộng thần kinh cho sự khéo léo" (neuroscaling law for dexterity) tuyến tính logarit.
Mở rộng môi trường bằng Neural Simulators: Để mở rộng học tăng cường (RL), robot học đang chuyển từ mô phỏng vật lý cổ điển sang các "trình mô phỏng thần kinh" (neural simulators) như Dream Dojo, được xây dựng hoàn toàn dựa trên dữ liệu video thế giới để tạo ra môi trường huấn luyện ảo không giới hạn.

Từ vựng

embodied autonomous research — nghiên cứu tự hành có thể hình
deep learning — học sâu
reinforcement learning — học tăng cường
endgame — cuộc chơi cuối
World Model — mô hình thế giới
action fine-tuning — tinh chỉnh hành động
teleoperation — điều khiển từ xa
egocentric video — video góc nhìn thứ nhất (hoặc video tự thân)
neural simulator — trình mô phỏng thần kinh
physical Turing test — kiểm tra Turing vật lý

Nội dung chi tiết

Giới thiệu và Hành trình của Jim Fan

Robotics: The Endgame và "Sự Tương Đồng Lớn"

Chiến lược Mô Hình: Vượt Qua `VLA`

Sự Trỗi Dậy của `World Model` và `Dream Zero`

Chiến lược Dữ liệu: Vượt Xa `Teleoperation`

Video `Egocentric` và `Ego-Scale`

Sự Phát Triển Chiến Lược Dữ liệu và Dự Đoán

Thách thức Mở rộng Môi trường Robot

Quét Thế giới Thực vào Mô phỏng

Dream Dojo: Mô phỏng Dựa trên Dữ liệu

Mô hình Huấn luyện Hậu Kỳ Mới

Các Cột mốc Tiếp theo của Robot

API Vật lý và Nghiên cứu Tự động

Tương lai của Robot học

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?

Giới thiệu và Hành trình của Jim Fan

Robotics: The Endgame và "Sự Tương Đồng Lớn"

Chiến lược Mô Hình: Vượt Qua VLA

Sự Trỗi Dậy của World Model và Dream Zero

Chiến lược Dữ liệu: Vượt Xa Teleoperation

Video Egocentric và Ego-Scale

Sự Phát Triển Chiến Lược Dữ liệu và Dự Đoán

Thách thức Mở rộng Môi trường Robot

Quét Thế giới Thực vào Mô phỏng

Dream Dojo: Mô phỏng Dựa trên Dữ liệu

Mô hình Huấn luyện Hậu Kỳ Mới

Các Cột mốc Tiếp theo của Robot

API Vật lý và Nghiên cứu Tự động

Tương lai của Robot học

TL;DR

Điểm chính

Từ vựng

Nội dung chi tiết

Giới thiệu và Hành trình của Jim Fan

Robotics: The Endgame và "Sự Tương Đồng Lớn"

Chiến lược Mô Hình: Vượt Qua VLA

Sự Trỗi Dậy của World Model và Dream Zero

Chiến lược Dữ liệu: Vượt Xa Teleoperation

Video Egocentric và Ego-Scale

Sự Phát Triển Chiến Lược Dữ liệu và Dự Đoán

Thách thức Mở rộng Môi trường Robot

Quét Thế giới Thực vào Mô phỏng

Dream Dojo: Mô phỏng Dựa trên Dữ liệu

Mô hình Huấn luyện Hậu Kỳ Mới

Các Cột mốc Tiếp theo của Robot

API Vật lý và Nghiên cứu Tự động

Tương lai của Robot học

Chiến lược Mô Hình: Vượt Qua `VLA`

Sự Trỗi Dậy của `World Model` và `Dream Zero`

Chiến lược Dữ liệu: Vượt Xa `Teleoperation`

Video `Egocentric` và `Ego-Scale`

Chiến lược Mô Hình: Vượt Qua `VLA`

Sự Trỗi Dậy của `World Model` và `Dream Zero`

Chiến lược Dữ liệu: Vượt Xa `Teleoperation`

Video `Egocentric` và `Ego-Scale`