Bỏ qua đến nội dung chính

The End of Apps — Kitze, Sizzy.co

TL;DR

  • Tác giả, một người có tiền sử lâu dài với các ứng dụng năng suất và ADHD, đã dành nhiều năm xây dựng "Life OS" riêng mang tên Benji để quản lý cuộc sống, nhưng dự án luôn dang dở do tích hợp quá nhiều tính năng và thiếu khả năng tiếp thị.
  • Sau khoảnh khắc ChatGPT, tác giả tích hợp AI vào BenjiOpen Cloud (nền tảng agent tự chủ), nhưng lại thất vọng với sự thiếu tin cậy của các hệ thống AI đa tác nhân hiện tại, đặc biệt là về việc quản lý ngữ cảnh và các tác vụ định kỳ.
  • Tác giả nhận thấy tương lai của Agent AI có thể phân hóa thành hai hướng: các Agent tùy chỉnh phức tạp cho những người thích vọc vạch và các Agent đám mây đơn giản, sẵn sàng sử dụng, với xu hướng thứ hai có khả năng phổ biến hơn.

Điểm chính

  • Hệ thống "Life OS" tích hợp: Có một nhu cầu mạnh mẽ cho một hệ thống duy nhất tích hợp to-do, thói quen, lịch trình và ghi chú, thay vì nhiều ứng dụng rời rạc, để quản lý cuộc sống hiệu quả.
  • Nguy cơ "Feature Creep": Việc liên tục thêm feature mới và không hoàn thành sản phẩm là một thách thức lớn, đặc biệt đối với các dự án cá nhân đầy tham vọng, dẫn đến việc không thể ra mắt hoặc duy trì.
  • Tích hợp AI sớm đòi hỏi kỹ thuật: Việc "ép buộc" các mô hình AI trả về JSON hoặc xây dựng hệ thống lệnh thoại-API cho thấy sự cần thiết của kỹ năng kỹ thuật để tạo ra các giải pháp năng suất tiên tiến.
  • Ưu tiên Agent chuyên biệt: Agent có mục đích cụ thể (ví dụ: cho công việc, sức khỏe) được xem là hiệu quả hơn một Agent duy nhất đảm nhận mọi thông tin, tương tự như cách ủy thác nhiệm vụ trong cuộc sống thực.
  • Thách thức của Hệ thống AI đa tác nhân hiện tại: Các Agent hiện tại còn gặp vấn đề về độ tin cậy (cron jobs), khả năng duy trì ngữ cảnh, và giao diện người dùng (UI) không phù hợp (như Discord/Telegram) cho việc quản lý cuộc sống toàn diện.
  • Chuyển dịch sang self-hosting và sở hữu dữ liệu: Mong muốn sở hữu dữ liệu, memory và kiểm soát các session của Agent đang thúc đẩy xu hướng self-hosting và di chuyển dữ liệu ra khỏi các nền tảng đám mây lớn.
  • Phân khúc thị trường Agent AI: Thị trường Agent AI có khả năng chia thành giải pháp tùy chỉnh phức tạp cho người dùng "tinkerer" và các dịch vụ Agent đám mây đơn giản, dễ sử dụng hơn cho đại chúng.

Từ vựng

  • to-do app — ứng dụng quản lý công việc
  • Life OS — hệ điều hành cuộc sống
  • ADHD — Rối loạn tăng động giảm chú ý
  • feature — tính năng
  • API — Giao diện lập trình ứng dụng
  • Agent — tác nhân (trong ngữ cảnh AI)
  • self-hosting — tự lưu trữ
  • cron jobs — tác vụ định kỳ
  • UI — giao diện người dùng
  • LLM psychosis — chứng loạn thần của LLM (Large Language Model)
  • tinkerers — những người thích vọc vạch

Nội dung chi tiết

Lời Mở Đầu

Chào mọi người, tôi là Kite (Dekite trên X), và hôm nay là sinh nhật thứ 34 của tôi. Tôi quyết định thực hiện buổi nói chuyện này trong ngày sinh nhật mình. Cảm ơn các bạn. Tôi thích tự "tra tấn" mình bằng cách hỏi: Có ai từ Tinker Club ở đây không? Vừa rồi tôi đã thành lập một cộng đồng tại nhà, nơi mỗi người đều là bản sao "copy-paste" của những người khác, khá là hài hước. Nếu muốn, bạn có thể tham gia cùng chúng tôi.

Hành Trình Tìm Kiếm Năng Suất và Các To-Do App

Hôm nay, tôi sẽ nói về quá khứ, hiện tại và tương lai của năng suất và các Agent cá nhân. Ứng dụng to-do đầu tiên của tôi là khi tôi 10 tuổi, điều này thật điên rồ. Tôi tìm thấy một ghi chú cũ trong một cuốn sổ với những dòng chữ khó đọc như: "Hôm nay cần uống nước ép trái cây." Tôi không biết một đứa trẻ 10 tuổi dùng to-do list để làm gì, nhưng nó rõ ràng có các ô kiểm tra. Kể từ đó, tôi đã cố gắng vật lộn để giải quyết vấn đề năng suất. Có ai khác luôn không hài lòng với các to-do app không? Cảm ơn. Không có ứng dụng nào là hoàn hảo. Không chỉ mình tôi cảm thấy vậy.

Từ Tasker đến Life OS (Hệ Điều Hành Cuộc Sống)

Khoảng 15 năm trước, tôi đã quá chán nản với các to-do app và những ứng dụng tương tự, nên tôi bắt đầu sử dụng các tệp văn bản, rất lâu trước khi có markdown cục bộ và các thứ tương tự. Tôi đã dùng một ứng dụng Android tên là Tasker để quản lý các tệp văn bản này. Tôi nhận được các lời nhắc theo ngữ cảnh, ví dụ như khi tôi kết nối Wi-Fi, nó sẽ nhắc tôi về một việc gì đó, hoặc khi tôi đến một địa điểm, hoặc khi tôi đi xe đạp, v.v.

Tôi luôn cố gắng tìm ra một hệ thống năng suất phù hợp. Tôi có một Google Home mà ngày đó hỗ trợ IFTTT để cắt đôi lệnh. Khi bạn nói "Tell my assistant to" (Bảo trợ lý của tôi hãy...), bạn có thể lấy nửa sau của lệnh và gửi nó đến bất kỳ dịch vụ IFTTT nào, điều này khá thú vị. Bất cứ khi nào có việc cần làm trong nhà, tôi chỉ cần nói với Google Assistant và nó sẽ lưu lại. Nó không thông minh, không phải AI, nhưng tôi đang xây dựng một cái gì đó để có thể trút bỏ những suy nghĩ của mình và xử lý chúng trong một tuần. Tôi nhận ra mình chưa bao giờ muốn một to-do app; tôi muốn một kiểu life OS (hệ điều hành cuộc sống). Vì vậy, tôi dần dần đi theo hướng đó.

Benji: Hệ Điều Hành Cuộc Sống Tối Thượng (Chưa Hoàn Thành)

Năm 2016, tôi rất tệ trong việc đặt tên, nên hãy bỏ qua tên của mọi thứ tôi từng tạo. Tôi đã tạo ra một thứ gọi là to do do, giống như một to-do app. Nhưng tất cả các to-do sẽ được đẩy lên trên cùng dựa trên một hệ thống ưu tiên. Nếu bạn gắn thẻ chúng với health (sức khỏe) hoặc crisis (khẩn cấp) hoặc bất cứ điều gì, chúng sẽ tích lũy điểm và được đẩy lên cao hơn. Điều đó giúp tôi ưu tiên công việc. Sau đó, ADHD ập đến, và tất nhiên, tôi quên mất ứng dụng đó và bắt đầu một cái gì đó gọi là Better. Ứng dụng này khá khó để làm SEO, vì việc SEO cho "ứng dụng tốt hơn" là rất khó, vì vậy cuối cùng tôi phải đổi thương hiệu. Nhưng tôi đã mở rộng nó bằng cách thêm to-do, thói quen, kế hoạch sự kiện và một loạt những thứ khác, vì tôi nhận ra rằng nếu ba thứ này không đi cùng nhau, tôi không thể tạo ra một mini OS. Sau đó, tất nhiên, ADHD lại ập đến, và tôi chuyển sang một loạt các ứng dụng khác.

Năm 2022, tôi bắt đầu làm Benji. Nó được đặt theo tên con chó của tôi, con chó của tôi là linh vật. Đó không phải là logo, nhưng điều quan trọng là tôi muốn một app để thống trị tất cả. Có lẽ tôi đã đi hơi quá đà, vì vậy ở slide tiếp theo bạn sẽ thấy: "Ồ, có lẽ đây là các thói quen và sự kiện lịch và những gì khác?" Không. Đây là lý do tại sao tôi ghét marketing. Nếu bạn tự hỏi, "Chờ đã, tôi chưa bao giờ nghe nói về Benji? Tại sao vậy?" Bởi vì mỗi khi tôi có ý định làm marketing và thực sự quảng bá chúng đến mọi người, tôi lại nghĩ, "Có lẽ thêm một feature nữa. Có lẽ thêm một feature nữa." Cứ như vậy gần ba, bốn năm sau, và tôi vẫn chưa hoàn thành nó đúng cách. Nó vẫn chưa thực sự hoàn chỉnh. Nhưng tôi đã rất khó chịu khi phải sử dụng một web app cho việc này, một iOS app cho việc khác. Cái này hỗ trợ cái này, cái kia hỗ trợ Android, nhưng lại không hỗ trợ cái này. Một số là subscription (đăng ký), một số là premium. Tôi chỉ muốn tất cả các feature này được tích hợp vào một tool duy nhất có thể sắp xếp cuộc sống của tôi. Nó đã làm được không? Hoàn toàn không.

Chúng ta đang đi đến đâu với điều đó? Tầm nhìn của tôi là một ngày nào đó sẽ có một chiếc Benji phone và một Benji OS. Điều buồn cười là tôi đã nói điều này trên một podcast, và người đó nói: "Rất tham vọng đối với một người không có landing page cho Benji." Vì vậy, tôi không có landing page, nhưng một ngày nào đó tôi sẽ tạo ra một chiếc Benji phone.

Trải Nghiệm với Life OS và Khoảnh Khắc ChatGPT

Trở ngại khi tạo ra một life OS như Notion hoặc Benji là bạn phải sử dụng các biểu mẫu để nhập dữ liệu. Vì vậy, tôi dao động giữa hai trạng thái: hoặc tôi tập trung vào Benji trong nhiều tháng, ghi lại mọi thứ và thực hiện tất cả các việc, hoặc tôi hoàn toàn bỏ qua nó. Tôi không quan tâm đến những việc cần làm, dinh dưỡng hay bất cứ điều gì. Tôi nghĩ, "Không, không, không, tôi không muốn nhìn vào nó." Và rồi sau vài tháng, tôi lại quay trở lại chu kỳ đó vì có quá nhiều trở ngại trong việc sử dụng tất cả các tool này.

Chúng ta đã có khoảnh khắc ChatGPT. Thật tuyệt vời. Nhưng khi các GPT plugins ra mắt—tôi không biết bạn có nhớ cái "di tích cổ" mà bây giờ đã biến thành MCPs và các thứ khác không—tôi gọi cho vợ và nói, "Em yêu, xong rồi. Xong rồi cho tất cả các app, cho tất cả SaaS. GPT sẽ nuốt chửng thế giới. Tất cả sẽ là ChatGPT. Tất cả sẽ nằm trong đó. Benji là vô nghĩa. Anh đã phí nhiều năm vào blah, blah, blah." Ba năm sau, cô ấy đã nhận được quá nhiều cuộc gọi như vậy. Đến lúc này, cô ấy chỉ bỏ qua tôi. Tôi nói, "Ôi trời ơi, họ đã ra mắt một Opus mới." Cô ấy nói, "Ừm, được thôi, được thôi." Không có gì thay đổi cả.

Tích Hợp AI Ban Đầu vào Benji và Những Bài Học

Nhưng chúng ta đang tiến tới điều này. Khoảng năm 2023, trước khi các model có thể trả về JSON, bạn phải "ép buộc" các model trả về JSON. Tôi không biết ai còn nhớ điều này. Bạn phải nói, "Làm ơn đừng viết bất kỳ markdown nào." Nó sẽ nói, "Chắc chắn rồi, đây là một số JSON." Như, không. Vì vậy, bạn phải phân tích cú pháp (parse), cắt, định hình nó để tạo ra JSON.

Và tôi đã thêm một feature vào Benji nơi bạn có thể nhấn một phím trên bàn phím. Nó sẽ ghi âm bằng micro. Và khi tôi nói, nó sẽ định kỳ cắt một phần những gì tôi đang nói và về cơ bản gọi—nó không phải là MCP, nó không phải là bất cứ thứ gì—nó sẽ gọi các API trong Benji. Và bạn có thể thấy lịch của mình di chuyển trực tiếp và các to-do của bạn và mọi thứ. Và đối với mọi người trên Twitter, điều này thật đáng kinh ngạc. Mọi người nói, "Ôi trời ơi, anh nên theo đuổi nó. Anh nên tạo ra một cái gì đó từ nó." Nhưng ADHD đã nói, "Không, không, không. Tôi không thích nó." Nó đã trở nên viral, điều đó có nghĩa là chúng ta không bao giờ phải nói về điều này nữa. Vì vậy, hệ thống AI của Benji vẫn chưa được phát hành. Và tôi đã không làm gì về nó. Trong khi đó, mọi người đã lấy một feature của Benji, ví dụ như theo dõi thức ăn. Họ chụp ảnh bằng điện thoại và nó phân tích lượng calo. Và họ đã kiếm được hàng triệu đô la. Nhưng tôi có 60 feature. Có một bài học ở đó.

Từ Claude Code đến Cloudbot và Tầm Nhìn Open Cloud Tự Chủ

Tháng 10 năm ngoái, tôi nhận ra rằng, chờ đã, tôi đang dùng Claude Code. Tôi có thể sử dụng nó cho nhiều thứ hơn. Ví dụ, nó có tool calls, function và một loạt các thứ khác. Có lẽ tôi có thể bảo nó làm thuế cho tôi và kết thúc trong tù, hy vọng là không. Có lẽ tôi có thể bảo nó sắp xếp email và to-do list của tôi và một loạt những thứ khác.

Vì vậy, khi skill ra đời, tôi bắt đầu nạp Claude Code của mình với các skill cá nhân. Nhưng tôi nghĩ, chờ đã, bây giờ tôi có skill về mã hóa, tôi có skill cá nhân, nó bị lẫn lộn. Tôi bắt đầu hỏi mọi người, "Làm thế nào để tôi biến cái này thành một assistant đúng nghĩa?" Cái này nằm trên Claude Code, nhưng nó có tool cho những thứ khác ngoài mã hóa. Nhưng ADHD lại xuất hiện, và chúng ta quên mất điều này. Cứ để Speed ra mắt Cloudbot và mọi thứ khác. Bạn không cần phải lo lắng về điều này. Claude Codeshell không phù hợp với tôi vì nó dựa trên terminal và tôi khao khát một cái gì đó khác.

Vì vậy, khi Peter tạo Cloudbot hồi đó, khi tôi thấy tweet đó, tôi nghĩ, "Ôi trời ơi, bạn có thể nói chuyện với nó qua WhatsApp hoặc Telegram hoặc bất cứ thứ gì!" Đối với tôi, đó là khoảnh khắc. Đó là những gì tôi cần để thiết lập Claude của tôi thực sự phát triển thành thứ tiếp theo. Não tôi bùng cháy. Tôi nghĩ chúng ta đã mắc chứng mass psychosis, nó biến thành một cult, mọi người mặc lobster suits. Điều đó đã diễn ra điên rồ một thời gian. Và tôi tham gia một Discord. Và có chưa đến 100 người đã thiết lập Cloudbot của họ. Ngay cả Peter cũng nói, "Làm thế nào bạn làm được điều này? Không có onboarding. Không có cách nào để biết bạn đã làm thế nào?" Và tôi nói với anh ấy những gì tôi đang nói với mọi người bây giờ: Tôi không biết nội bộ của hệ thống của tôi hoạt động như thế nào. Tôi chỉ yêu cầu Codex hoặc Claude Code sửa nó, thay đổi nó, cải thiện memory, làm cái này, làm cái kia. Nhưng tôi hoàn toàn không biết. Mọi người hỏi, "Bạn có gì trong tệp JSON của mình?" Tôi nói, "Tôi chưa thấy tệp JSON nào kể từ bốn năm trước. Tôi không biết. Chỉ cần hỏi các bot của tôi và nó sẽ sửa mọi thứ."

Vì vậy, một thời gian, tôi đã hoàn toàn chìm đắm trong "chế độ tôm hùm" (lobster mode). Đây là tôi tại buổi gặp mặt đầu tiên ở Vienna trong bộ đồ tôm hùm. Tôi đã tạo ra logo đó, thực ra đã tạo logo Open Cloud lúc 2 giờ sáng. Tôi bắt đầu mặc tất cả những đồ merch hình tôm hùm này trong các hướng dẫn, podcast, với các khách mời, nói về tất cả các use case và blah, blah, blah. Và cuối cùng, điều tôi thích, đối với một người đã bị ám ảnh bởi to-do và năng suất từ năm 10 tuổi. Tôi nghĩ, "Tương lai cuối cùng đã trong tầm tay." Tất cả các tệp của tôi từ Google DriveiCloud trong các bài thuyết trình, tôi có trong ảnh từ trường trung học và tất cả những thứ tôi đã chất đống và những ý tưởng kinh doanh chưa hoàn thành. Tôi có thể thấy Open Cloud có thể vẫy tay tôm hùm một cách kỳ diệu và sửa chữa mọi thứ trong cuộc sống của tôi. Vì vậy, tôi ngay lập tức bỏ tất cả các Claude model. Tôi chuyển sang "chế độ hipster" hoàn toàn. Không Gemini nữa, không ChatGPT nữa, không Claude nữa. Tôi muốn hoàn toàn, tôi có được sức mạnh của việc cuối cùng sở hữu assistant, sở hữu các tệp, sở hữu memory, xóa các session nếu tôi muốn. Vì vậy, nó mang lại cảm giác hoàn toàn cục bộ.

Vì vậy, tự nhiên, tôi bắt đầu chuẩn bị tất cả dữ liệu của mình cho các Agent. Tôi từ một người luôn sử dụng Claude và những thứ tương tự đã trở thành một người self-hosting mọi thứ một cách khó chịu. Mọi thứ phải rời khỏi Claude. Nó phải nằm cục bộ trên NAS và máy của tôi để các Agent của tôi thực sự có thể hoạt động trên đó. Vì vậy, những điều này vẫn đang trong quá trình thực hiện (work in progress). Quá trình work in progress kinh điển này sẽ hoàn thành một ngày nào đó. Nhưng tôi bắt đầu chuyển sang các hệ thống được host cục bộ, như Nextcloud image, markdown cục bộ cho mọi thứ yêu cầu nhiều API call hoặc MCP và bất cứ thứ gì. Tôi thà có nó cục bộ để làm việc với tất cả những thứ này cục bộ. Tôi đã đi xa đến mức đó và tôi đã quay trở lại Android. Tôi cảm thấy như thứ này bằng cách nào đó đã mê hoặc tôi. Tôi nghĩ, "Tôi là ai? Tôi không còn nhận ra chính mình nữa," bởi vì tôi muốn Agent của tôi có thể đọc notification của tôi, xóa notification của tôi, cài đặt app, gỡ cài đặt app. Nó có thể làm bất cứ điều gì trên điện thoại Android. Và trên iOS, nó có thể gửi cho bạn một push notification, và nếu Tim Cook cho phép.

Giá Trị Của Các Agent Đóng Gói và Tầm Nhìn Multi-Agent AI Systems

Tôi đã dự định làm thêm khoảng 10, 15 slide nữa—xin lỗi vì flashbang ở đó—về các use case, nhưng sau đó họ nói với tôi rằng bài thuyết trình chỉ chính xác 18 phút. Vì vậy, tôi đã làm bài đó. Nó có trên YouTube. Nó có trên một loạt các podcast. Có lẽ tất cả các bạn thậm chí có nhiều use case hơn tôi. Nhưng khi chúng tôi tổ chức các buổi gặp mặt hàng tuần trong Tinker Club, và chúng tôi nói chuyện chủ yếu về Open Cloud. Và tôi thích đặt câu hỏi này. Khi tôi hỏi họ về những use case mà họ có, sau đó hỏi họ, nhưng những use case nào trong số đó bạn không thể làm được với Claude Code và với Codex? Và ngay lập tức, con số đó giảm đi 90% vì họ nói, "Phải, tôi có thể làm được điều đó với Claude Code."

Vì vậy, tôi cũng tự hỏi bản thân, "Giá trị của việc có một Agent đóng gói như Open Cloud là gì?" Tôi nghĩ rằng trò chuyện một đối một với một Agent là rất tệ, bởi vì nếu bạn nghĩ về việc ủy thác trong cuộc sống của mình, nếu bạn có công việc, cá nhân, gia đình và blah, blah, blah, bạn không muốn có một nhân viên duy nhất phải chịu trách nhiệm với tất cả thông tin về cuộc sống của bạn khi trò chuyện một đối một trong Telegram hoặc mọi thứ. Vì vậy, nhiều người bắt đầu sử dụng các Telegram topic. Họ bắt đầu sử dụng Discord, Slack và các thứ khác để tự tổ chức.

Khái niệm Agent chuyên biệt và các thách thức hiện tại

Tôi thích ý tưởng về các agent chuyên biệt mà OpenClaw hỗ trợ, nhưng không nhiều người sử dụng chúng. Về cơ bản, chúng có cấp độ tư duy như một mô hình của nhà cung cấp, một lời nhắc hệ thống (hay một "linh hồn"), một danh sách các công cụ (MCPs) và một danh sách các quyền hạn. Tôi thích cách điều này được đóng gói; chúng ta sẽ trò chuyện với agent này về chủ đề thể dục.

Hiện tại, mọi người đang nói về "chứng loạn thần của LLM" (LLM psychosis). Tôi cảm thấy như đang phát điên, bởi vì đây là tất cả các bot mà tôi đã tạo ra và tôi cố gắng giới hạn mỗi bot có một mục đích cụ thể trong cuộc sống của mình. Ví dụ, một số dành cho công việc, một số không chụp ảnh cùng các cuộc trò chuyện của tôi. Cuối cùng, tôi có năm Discord khác nhau. Điều buồn cười là, trong khi tôi tiếp tục nói chuyện, hãy nhớ rằng cuộc sống của tôi vẫn chưa hề được giải quyết. Nó chưa bao giờ hỗn loạn đến mức không kiểm soát được công việc. Tôi chưa bao giờ chậm trễ trong việc trả tiền thuê nhà, thế chấp, hay trả lời email khách hàng. Mọi thứ là một mớ hỗn độn, nhưng là một mớ hỗn độn có hiệu suất.

Vì vậy, tôi đã có năm Discord khác nhau, và mỗi Discord có nhiều kênh, luồng, bài đăng diễn đàn và các cấu trúc lồng nhau, v.v. Và sau đó, điều không thể tránh khỏi là tôi cảm nhận được điều này trong toàn cộng đồng. Tôi cảm nhận điều đó trong Tinker Club bởi vì ban đầu, có một sự bùng nổ về số lượng người đăng ký, người tham gia các buổi gặp mặt. Họ nói: "Ôi trời ơi, buổi gặp mặt hàng tuần, chúng ta sẽ chinh phục thế giới!" Nhưng bây giờ, nếu bạn tham gia một buổi gặp mặt, chỉ có khoảng năm người, và nó dần dần biến thành một thứ gì đó như OpenClawAnonymous, và mọi người đều nói: "Vâng, của tôi không hoạt động được như những cron jobs chết tiệt đó, chúng thật phiền phức." Thật là chán nản, nhưng tôi nghĩ chúng ta sẽ vực dậy, chúng ta sẽ tìm ra cách.

Tại sao điều này lại xảy ra? Bởi vì nó đã và đang (đối với tôi) không đáng tin cậy ở những khía cạnh quan trọng nhất, đó là các cron jobs, các hệ thống AI đa tác nhân, các agent nói chuyện với nhau, các agent quên mất những gì vừa nói ngay trong tin nhắn tiếp theo, kiểu như: "À, bạn đang nói gì vậy?" Và tôi thì: "Tin nhắn ở ngay phía trên bạn, chỉ cần lướt lên một tin nhắn thôi." Điều này vẫn đang được sửa chữa và cập nhật hàng ngày, nhưng tôi chưa thấy nó thực sự hoạt động. Đây không phải lỗi của OpenClaw hay bất kỳ agent nào khác, nhưng DiscordTelegram không được thiết kế cho mục đích quản lý cuộc sống. Chúng ta chỉ đang cố gắng biến chúng thành một thứ gì đó, nhưng chúng sẽ không bao giờ là giao diện người dùng (UI) phù hợp để bạn quản lý cuộc sống của mình một cách đầy đủ. Nó giống như một giải pháp tạm thời cho đến khi chúng ta có được thứ khác; chúng ta sẽ dùng DiscordTelegram.

Cuối cùng, tôi muốn gọi chúng là "thropping" – chúng đã phá hỏng sự hấp dẫn của trải nghiệm. Ngay khi bạn kéo mô hình ra, việc nói chuyện với GPT-5 cứ như nói chuyện với một hộp yến mạch. Thật sự, nó có cái "tính cách" đó. Hãy thử điều này: Bạn nói: "Được rồi, bạn đã làm điều đó chưa?" "Chưa." "Nhưng tôi đã bảo bạn làm mà." "Được rồi, tôi sẽ làm." "Bạn đã làm chưa?" "Chưa." Mọi cuộc trò chuyện với OpenClaw gần đây đều diễn ra như vậy, và điều đó làm tôi phát điên.

Hai hướng phát triển chính: Agent tùy chỉnh và Agent đám mây

Vậy bây giờ thì sao? Chúng ta sẽ đi đâu từ đây? Tôi không biết còn bao nhiêu thời gian. Nó báo sáu phút. Chúng ta sẽ đi đâu từ đây? Tôi thấy hai tương lai đang cạnh tranh nhau, và tôi không nghĩ rằng cái nào trong số chúng sẽ thắng trong dài hạn.

Chúng ta có các agent tùy chỉnh như OpenClaw, Hermes hoặc bất kỳ cái nào khác có thể tạo ra. Và chúng ta có các agent đám mây (Claude agents) bởi vì mọi người đều đang cố gắng giành một phần thị phần ngay bây giờ. Chúng ta có Co-Work, và OpenAI sẽ có một thứ, và Perplexity đang cố gắng tạo ra một thứ, và mọi người đều đang cố gắng tạo ra sản phẩm đám mây của riêng họ – đó là các agent đám mây.

Vậy thì các agent tùy chỉnh sẽ không bao giờ hoạt động được vì chúng dành cho những người dùng thích vọc vạch. Và tôi nói với bạn, trong Tinker Club, chúng tôi có những người đang tự xây dựng máy chơi pinball của riêng họ. Nói về những người thích vọc vạch, họ mày mò với mọi thứ. Và rồi họ phát mệt vì phải cố gắng làm cho mọi thứ hoạt động. Chưa kể những người có cuộc sống bận rộn, công việc và mọi thứ khác. Sẽ không ai có thời gian để tinh chỉnh những thứ này. Họ chỉ muốn một giải pháp sẵn có để mọi thứ hoạt động ngay lập tức. Riêng tôi thì không. Tôi sẽ không hài lòng cho đến khi...

Và rồi các agent đám mây. Tôi đã thử Co-Work trên đám mây khoảng năm phút và tôi nghĩ: "Cái này quá bị giới hạn tính năng (nerfed)." Đây không phải là một giải pháp thay thế cho OpenClaw. Nó thậm chí không thể làm được 5% những gì OpenClaw có thể làm. Vì vậy, giải pháp này sẽ dành cho số đông, nhưng nó sẽ không làm hài lòng những người dùng thích vọc vạch, những người muốn tự lưu trữ (self-host), sở hữu các mô hình, v.v.

Vậy là có hai hướng đi ở đây. Cá nhân tôi sẽ làm gì, và tôi nghĩ điều gì sẽ xảy ra tiếp theo trong ngành công nghiệp này?

Giải pháp cá nhân: Wolfer – Ưu điểm và Nhược điểm

Hiện tại, tôi đang phải vật lộn giữa OpenClaw, Hermes, Paperclip (có ai dùng Paperclip không? Nó giống như một loại Kanban tuyến tính khá hay dành cho các agent, nhưng tiêu tốn rất nhiều tín dụng). Tôi cũng thử dùng plain tmux với Codex rất nhiều. Khi bạn đạt đến đỉnh điểm của sự thất vọng với ba cái đầu tiên, bạn sẽ nghĩ: "Mặc kệ đi." Khi bạn mở terminal, bạn sẽ nghĩ: "Có lẽ các agent không thông minh đến thế."

Vì vậy, tôi đang luân phiên sử dụng tất cả những thứ này hàng ngày. Nhưng có một sự do dự mà tôi gặp phải: Tôi muốn xem địa điểm tổ chức sự kiện ở đâu và tôi có hai lựa chọn, mở trang web hoặc vào Discord. Và tôi nghĩ: "Tôi không muốn nói chuyện với cái hộp yến mạch đó." Nó sẽ kiểu như: "Vâng, tôi sẽ tìm địa điểm trong email của bạn." "Bạn đã tìm chưa?" "Chưa." "Bạn đã sẵn sàng chưa?" Nó cứ hỏi bạn đã sẵn sàng cho điều bạn bảo tôi làm chưa. Thật điên rồ.

Vì vậy, tôi bắt đầu tự làm thứ của riêng mình, bạn có thể thấy sự tiến triển một cách tự nhiên. Nó sẽ không bao giờ được công bố rộng rãi. Nó không dành cho người khác, nó chỉ là một thử nghiệm để tôi tự làm cho mình. Tôi gọi nó là Wolfer. Tôi không làm nó để thu hút số đông, tôi không làm nó để mọi người sử dụng. Tôi đang cố gắng tìm cách tạo ra một tầng trừu tượng nhỏ trên Codex hoặc Claude Code (r.i.p - mong nó yên nghỉ). Tôi sợ sử dụng Claude Code vì tôi có thể bị bắt. Vì vậy, hiện tại nó chỉ chạy trên Codex. Và nó không thể mở rộng và không hỗ trợ hàng tỷ nhà cung cấp.

Vậy tôi sẽ bắt đầu với những nhược điểm: Điều gì tệ?

  • Bạn buộc phải sử dụng giao diện trò chuyện (UI chat) của ứng dụng gốc và bạn không thể dùng Telegram hay iMessage hay bất cứ thứ gì khác. Không có hỗ trợ cho bất kỳ điều này. Nó hoàn toàn đối lập với OpenClaw, Hermes.
  • Nó không được xây dựng với ý tưởng về plugin. Ý tưởng là có mọi thứ trong đó.
  • Không có hệ thống bộ nhớ truyền thống. (Tôi thực sự không giỏi bán hàng).
  • Không có tính năng nào trong số này có sẵn ngay lập tức.
  • Nó không thực sự module hóa.
  • Nó được tạo ra bởi một bộ não "sóc ADHD" mà chúng ta sẽ quên vào cuối tháng.
  • Nó không có tài trợ của OpenAI và không có sĩ quan hành chính (COO) ngầu.

Đó là những nhược điểm. Nhưng những ưu điểm và lý do tại sao tôi gợi ý tất cả các bạn nên thử nghiệm và tự làm một cái của riêng mình, hoặc có thể thử của tôi nếu tôi từng phát hành nó cho mọi người:

  • Nó có các cuộc trò chuyện dễ đoán và UI mà tôi đã tạo ra. Bạn vào ứng dụng Wolfer, ví dụ Wolfer.whateverURL.
  • Nó có một UI dễ đoán được tạo ra cho kiểu điều phối orchestration đa tác nhân (multi-agent orchestration) vào nhiều chủ đề, nhiều cuộc trò chuyện. Mọi thứ đều được tạo ra cho mục đích này. Nó không giống như việc bạn lấy Discord và cố gắng uốn nắn nó để phục vụ một mục đích nhất định.
  • Và tính năng yêu thích của tôi là bởi vì tôi không tin vào bộ nhớ của các agent. Mọi người nói: "Ồ, cuối cùng chúng ta đã thấy Mila Yov-Witch giải quyết được vấn đề bộ nhớ." Tôi thì: "Không, cô ấy hoàn toàn không giải quyết được vấn đề bộ nhớ." Điều tôi tin ở đây là tôi có các chủ đề lồng nhau. Tôi có các dự án công việc, hỗ trợ khách hàng Benji. Giả sử đó là cây lồng nhau. Và khi tôi nói chuyện với hỗ trợ khách hàng Benji trong lời nhắc đầu tiên, nó sẽ inject mô tả của tất cả các lời nhắc cha. Vì vậy, khi tôi nói chuyện với hỗ trợ khách hàng Benji, nó không cần phải kéo từ bộ nhớ hay một nơi thần kỳ nào đó. Nó chỉ nhìn vào chủ đề, chủ đề cha, chủ đề cha của chủ đề cha. Nó tập hợp tất cả các mô tả lại với nhau và ngay lập tức biết công việc của tôi là gì, Benji là gì, các dự án của tôi là gì và cách tôi thực hiện hỗ trợ khách hàng. Và tôi có thể nhận được nhiều hơn từ cách này so với việc hy vọng một hệ thống bộ nhớ nào đó sẽ kéo đúng cửa sổ ngữ cảnh từ đúng chỗ. Nó khá hiệu quả với tôi.
  • Nó hỗ trợ các không gian làm việc (workspaces), tôi có thể chuyển đổi giữa các không gian làm việc.
  • Tôi ghét việc chi phí công cụ (tool costs) tương đương nhau. Tôi muốn thấy chi phí công cụ để thu gọn, mở rộng, để xem các chỉ báo tải (loading spinners). Có các nút để dừng quá trình. Tôi không cần dùng các lệnh slash command.
  • Các cron jobs dễ đoán. Và khi bạn nhận được một tin nhắn cron, nó thực sự đọc từ toàn bộ cuộc trò chuyện và gán nhãn nó là cron. Nó không còn là: "Cái này từ đâu ra và tại sao agent lại bị mất phương hướng?"
  • UI để quản lý các agent, điều này rất cần thiết cho bộ não của tôi. Khi tôi trò chuyện trong một chủ đề, ở phía bên phải, tôi thấy agentChandler và nó có mô hình này và khả năng này. Điều đó thực sự giúp tôi biết tôi đang nói chuyện với ai và chỉ cần tinh chỉnh, kiểu như: "Không, không, không, bạn không cần khả năng đó." Bùm, nó biến mất.
  • Tôi sẽ đưa các ảnh chụp màn hình vào, nhưng ứng dụng không hoạt động vì nó ở trên Mac Studio của tôi ở nhà. Chuyện dài lắm. Nhưng hãy tưởng tượng các ảnh chụp màn hình, nó khá thú vị.
  • Và tôi thích việc bạn có thể, có một cơ sở tri thức (knowledge base) và các tài liệu mà bạn có thể viết các tài liệu Markdown vào đó và bạn có thể thêm chúng, bởi vì trong Discord bạn chỉ có thể thêm các thành viên khác. Không có cách động để thêm vào và nhắc đến một thứ khác. Và ở đây tôi có thể nhắc đến, ví dụ: "Này, hãy sửa trang đích (landing page) của Benji," và sau đó tôi sẽ thêm trang đích của Tinker Club, chẳng hạn, hoặc tôi có thể thêm một cơ sở tri thức hoặc mật khẩu hoặc một kỹ năng để tôi có thể kết hợp nhiều bổ sung để tôi cung cấp đúng cửa sổ ngữ cảnh chính xác mà nó cần cho việc thực tế.

Tương lai của máy tính: AI chủ động tương tác với người dùng

Nhưng tôi nghĩ điều gì sẽ xảy ra tiếp theo, bởi vì điều này chắc chắn sẽ không trở thành một xu hướng chính. Điều gì sẽ xảy ra tiếp theo trong toàn bộ ngành công nghiệp agent và mọi người sẽ làm gì? Đây là dự đoán của tôi.

Tôi nghĩ cách chúng ta sử dụng máy tính hiện nay hoàn toàn điên rồ. Có ai đồng ý với tôi không, và bạn đã nhận ra điều này chưa? Khi bạn mở máy tính, máy tính không nên hoạt động như thế này. Một người, hai người, được rồi, chúng ta có rất nhiều người. Khi tôi mở máy tính sau vài giờ, nó chào đón tôi bằng 17 bản cập nhật cho các ứng dụng tôi đã không sử dụng trong một thời gian, và nó chào đón tôi bằng các tab tôi đã mở từ hôm qua.

Cách tôi hình dung trong tương lai, nó sẽ cần tiếp nhận tất cả thông tin về cuộc sống của tôi như thông báo, email và mọi thứ đang diễn ra. Và tùy thuộc vào việc tôi đã rời xa máy tính bao lâu, nó sẽ chào đón tôi bằng nhiệm vụ tiếp theo để làm, rồi nhiệm vụ tiếp theo, và cứ thế. Và nó có thể cho tôi một chút nghỉ ngơi và nói: "Này, đủ rồi, hãy làm cái này, hãy làm cái kia."

Vì vậy, theo một cách nào đó, tôi nghĩ vai trò của AI sẽ đảo ngược. Cách chúng ta prompt AI bây giờ, tôi nghĩ nó sẽ đảo ngược, và những người thực sự hiệu quả sẽ là những người ủy thác 99% công việc cho AI. Và rồi AI sẽ prompt bạn, kiểu như: "Này, bạn chưa gửi cho tôi ảnh hộ chiếu của bạn," hoặc "Này, bạn muốn làm gì?" Về cơ bản, bạn đưa ra các quyết định và bạn chỉ cần nhấp vào các biểu mẫu hoặc trả lời các câu hỏi hoặc bất cứ điều gì. Nhưng ở hậu trường, có thứ gì đó liên tục làm việc cho bạn thay vì bạn phải prompt nó liên tục.

Tôi đồng ý với quan điểm này: mọi người nói: "Bà tôi sẽ không bao giờ viết mã." Điều đó đúng 100% bởi vì tôi nghĩ nơi chúng ta đang đi đến, chúng ta sẽ thực sự không cần hầu hết các ứng dụng tiêu dùng. Bà của bạn, mẹ của bạn hoặc bạn bè của bạn sẽ không viết mã, nhưng họ sẽ có thể ngồi trong hệ điều hành tương lai mới này và họ sẽ có thể thực hiện bất kỳ nhiệm vụ nào họ muốn làm. UI sẽ tự động hiển thị hoặc bất cứ điều gì cần thiết, nhưng họ sẽ thực hiện các nhiệm vụ và họ sẽ quên đi việc cần một ứng dụng để làm một nhiệm vụ. Họ chỉ đơn giản là làm nó.

Một số lượng nhỏ các ứng dụng sẽ tồn tại, nhưng đó sẽ là phần mềm dành cho các chuyên gia và những người tôi không biết, những người đang làm chỉnh màu (color grading) hoặc làm phim hoặc làm nhạc, nơi họ thực sự cần một phần mềm. Nhưng những người dùng phổ thông sẽ chỉ trò chuyện với máy tính của họ và máy tính của họ sẽ thực hiện mọi thứ, và UI sẽ được tạo ra ngay lập tức.

Tiềm năng của Mô hình Ngôn ngữ Lớn cục bộ và Vai trò của Apple

Tôi cũng nghĩ sẽ rất thú vị nếu Apple chiến thắng trong cuộc đua này, bởi vì các mô hình cục bộ đang trở nên cực kỳ tốt, thậm chí là xuất sắc. Chúng sẽ còn tốt hơn nữa trong năm nay và năm tới. Tôi nghĩ rằng đối với hầu hết người dùng phổ thông, họ sẽ hoàn toàn hài lòng với một Agent cục bộ như Siri, có khả năng tận dụng các toolkit từ tất cả các ứng dụng đã cài đặt trên thiết bị, không tốn bất kỳ khoản tín dụng nào, dữ liệu của họ không bị gửi đi đâu cả, và điện thoại của họ có thể tự động thực hiện nhiều tác vụ. Google Pixel đời mới nhất đã có thể chạy ứng dụng của bạn ở chế độ nền, đặt cà phê và thực hiện nhiều tác vụ khác cho bạn. Vì vậy, tôi nghĩ đó là xu hướng phát triển chung của mọi thứ.

Lời kết

Thời gian của tôi đã hết. Cảm ơn các bạn đã lắng nghe những chia sẻ của tôi. Hy vọng chúng ta có thể thảo luận thêm sau đó. Xin chân thành cảm ơn. Cảm ơn. Cảm ơn.

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?