Accelerating AI on Edge — Chintan Parikh and Weiyi Wang, Google DeepMind

Google đang đẩy mạnh triển khai AI trên thiết bị biên (edge) với các mô hình Gemma 4 Edge (2B và 4B) và khung làm việc light RT, nhằm mang lại AI mạnh mẽ trực tiếp trên các thiết bị cục bộ.
Việc chạy AI trên thiết bị biên mang lại nhiều lợi ích quan trọng như giảm độ trễ, tăng cường quyền riêng tư, khả năng hoạt động ngoại tuyến và tiết kiệm chi phí điện toán đám mây.
Các khả năng tác nhân mới bao gồm gọi hàm (Function Calling) để tương tác với API cục bộ, đầu ra JSON có cấu trúc, chuỗi suy nghĩ (Chain of Thought) và hỗ trợ phần cứng gốc (Hardware Native Support), cùng với khả năng tăng tốc hiệu suất đáng kể nhờ NPU.

Mô hình Gemma 4 Edge: Có hai phiên bản chính là E2B (1-2GB RAM) và E4B, được thiết kế tối ưu cho triển khai AI trên thiết bị, phục vụ các trường hợp sử dụng đòi hỏi độ trễ thấp như giao diện giọng nói, tóm tắt và xử lý cục bộ.
Khả năng tác nhân nâng cao: Gemma 4 Edge hỗ trợ tích hợp gọi hàm (Function Calling) cho phép mô hình tương tác với các API cục bộ, đầu ra JSON có cấu trúc gốc (Structured JSON Output), chế độ "chuỗi suy nghĩ" (Chain of Thought) để minh bạch hóa quá trình suy luận, và hỗ trợ phần cứng gốc để chạy liền mạch trên nhiều nền tảng.
Khung làm việc light RT: Là giải pháp AI trên thiết bị của Google (phát triển từ TensorFlow Lite), hỗ trợ đa nền tảng (Android, iOS, Linux, Windows, web, IoT) và cho phép triển khai các mô hình từ nhiều khung làm việc khác (PyTorch, JAX) thông qua chuyển đổi sang định dạng TF Lite.
Công cụ chuyển đổi và tối ưu hóa mô hình: Light RT Torch cung cấp đường dẫn chuyển đổi mô hình sang định dạng TF Lite, kèm theo khả năng lượng tử hóa (quantize). Model Explorer giúp phân tích đồ thị mô hình để tối ưu hóa, và AI Edge Portal là công cụ điểm chuẩn đám mây để đánh giá triển khai trên nhiều thiết bị.
Tăng tốc hiệu suất với NPU: Light RT tích hợp với các NPU (đơn vị xử lý thần kinh) của Qualcomm, MediaTek và các đối tác khác, mang lại hiệu suất cải thiện đáng kể (3-13 lần) cho các ứng dụng thời gian thực như ASR, TTS, AR/VR, đồng thời giảm tiêu thụ năng lượng.
Tài nguyên và Cộng đồng: Các mô hình Gemma có sẵn trên trang Hugging Face của Google (giấy phép Apache 2.0). Ứng dụng Gallery demo và mã nguồn mẫu được cung cấp trên GitHub để người dùng khám phá khả năng, xây dựng và chia sẻ các "kỹ năng" tác nhân tùy chỉnh.
Triển khai linh hoạt: Hỗ trợ biên dịch ahead-of-time hoặc chạy on-device, cùng với các tùy chọn đơn giản hóa và tài liệu phong phú để giúp nhà phát triển dễ dàng triển khai AI trên các thiết bị đa dạng.

edge — thiết bị biên / biên
AI model — mô hình AI
use case — trường hợp sử dụng
latency — độ trễ
privacy — quyền riêng tư
on-device — trên thiết bị
cross-platform — đa nền tảng
Function Calling — gọi hàm
Structured JSON Output — đầu ra JSON có cấu trúc
Chain of Thought — chuỗi suy nghĩ
Hardware Native Support — hỗ trợ phần cứng gốc
quantize — lượng tử hóa
NPU (Neural Processing Unit) — đơn vị xử lý thần kinh
framework — khung làm việc
inference — suy luận

Giới thiệu và Khảo sát Khán giả

Chào buổi chiều mọi người. Chúng ta sẽ bắt đầu. Tôi là Chintan Purik, Giám đốc sản phẩm cho light RT, một phần của Google AI Edge. Đồng nghiệp của tôi, Ve, cũng sẽ tham gia cùng chúng tôi trong phần hỏi đáp của phiên này. Giơ tay nhanh nào: có bao nhiêu người trong số các bạn đang làm việc triển khai trên edge hoặc muốn tìm hiểu thêm về những lợi ích lớn mà nó mang lại? Tuyệt vời. Một số bạn đã triển khai rồi. Tôi sẽ trình bày các slide và cố gắng tạo cơ hội để các bạn chia sẻ nếu có bất kỳ use case nào hoặc dự án nào đang làm mà muốn thảo luận. Chúng ta sẽ giữ cho phần này mở như vậy.

Nội dung chính và Dòng Mô hình Gemma

Tuyệt vời. Đây sẽ là một danh sách các mục chính và tôi sẽ trình bày một số mô hình mới sắp ra mắt. Ngoài ra, tôi cũng sẽ đề cập đến một số use case edge liên quan. Tôi sẽ giới thiệu một số khả năng mới trong gallery app và sau đó chúng ta sẽ đi sâu vào stack của chúng tôi để triển khai AI trên các thiết bị edge.

Thêm vào đó, chúng tôi cũng muốn nhấn mạnh khả năng hỗ trợ cross-platform mà chúng tôi cung cấp, bởi vì tôi nghĩ nhiều bạn đang tìm cách triển khai không chỉ trên nền tảng di động mà còn trên các nền tảng khác nữa. Google DeepMind gần đây đã ra mắt Gemma 4. Bài nói chuyện này sẽ tập trung nhiều hơn vào các mô hình edge 2B và 4B được thiết kế để triển khai trên thiết bị. Google chắc chắn có một bộ mô hình lớn và thậm chí cả Gemma 3 family cũng có kích thước nhỏ hơn, đến 270 triệu tham số. Vì vậy, nếu bạn đang tìm kiếm các mô hình cực kỳ nhỏ mà có thể fine-tune, chúng tôi chắc chắn có một trang Hugging Face mà tôi sẽ giới thiệu, nơi có nhiều mô hình này hơn.

Vâng, sự tiến hóa lớn với Gemma 4 thực sự sẽ là sự chuyển đổi từ các khả năng chatbot sang các tác nhân tự chủ hơn, cũng hỗ trợ khả năng suy luận (reasoning capabilities) và các tính năng phức tạp hơn. Và điều tuyệt vời là bạn có thể triển khai chúng trên các thiết bị khác nhau.

Lợi ích của Triển khai AI trên Thiết bị Biên

Chạy trên edge mang lại nhiều lợi ích. Tôi nghĩ đồng nghiệp của tôi đã trình bày một số điều này vào ngày hôm qua, và tôi sẽ nhanh chóng lướt qua nó. Chắc chắn, latency là quan trọng đối với những người quan tâm. Bất kỳ use case camera real-time nào, như filter nơi bạn muốn thay thế nền hoặc các cuộc gọi video, latency real-time là yếu tố hàng đầu ở đó. Vì vậy, trên thiết bị có thể giúp ích điều đó. Privacy cũng rất quan trọng đối với bất kỳ use case nào có thông tin nhạy cảm, bạn đang thực hiện loại tóm tắt tài liệu nhạy cảm nào đó. Các use case offline nơi có kết nối kém, và chi phí. Bạn biết đấy, tôi đã thấy rất nhiều bài thuyết trình tại sự kiện AI Engineering này, nơi mọi người phàn nàn về số lượng mã thông báo đang được sử dụng, và thế này thế kia. Nhưng tôi nghĩ trên thiết bị luôn cung cấp cách tiếp cận hybrid, nơi nếu bạn đang tìm kiếm cách để thực sự bù đắp chi phí khi chạy trên edge so với trên Claude và nơi có thể đạt được sự cân bằng tốt nhất, tôi nghĩ điều này có ý nghĩa.

Tổng quan về Mô hình Gemma 4 E2B và 4B

Tuyệt vời. Về mô hình, có hai mô hình và tôi nghĩ nhiều use case tôi sẽ trình bày đều được xây dựng trên chúng. Gemma 4 E2B về mức độ sử dụng RAM là khoảng 1 đến 2 GB RAM. Vì vậy, nó có thể sử dụng được, nhưng latency nó phụ thuộc vào use case cuối cùng của bạn. Một lần nữa, chắc chắn tốt cho bất kỳ giao diện giọng nói nào hoặc các use case để tóm tắt hoặc bất kỳ loại xử lý cục bộ latency thấp nào. 4B sẽ nặng hơn một chút nếu bạn muốn chạy trên các nền tảng lớn hơn như máy tính xách tay hoặc thiết bị IoT. Nó sẽ có yêu cầu RAM cao hơn. Một lần nữa, điều này là sau khi nó đã được quantized đến kích thước mong muốn của bạn.

Các Khả năng Tác nhân Mới trên Gemma 4 Edge

Tôi muốn đi sâu nhanh vào những gì sẽ mới lần này trên Gemma 4 E2B và E4B về khả năng tác nhân. Tôi sẽ trình bày những gì đã có trong một vài slide tiếp theo về use case, và ở đây tôi sẽ nói một chút về chính xác những khả năng mới.

Function Calling: Hỗ trợ tích hợp cho tool calling và về cơ bản là các mô hình để tương tác với các API cục bộ khác. Vì vậy, bạn chắc chắn có thể bắt đầu inferencing trên edge nhưng bạn có đường dẫn để về cơ bản gọi các API khác bên ngoài, và tôi sẽ trình bày điều đó trong một số ví dụ của mình, nhưng phần cốt lõi của inferencing sẽ nằm trên edge.
Structured JSON Output: Hỗ trợ gốc cho bất kỳ đầu ra JSON có cấu trúc nào được hỗ trợ ở đây, được xây dựng trong kiến trúc mô hình thay vì đạt được thông qua một loại prompt engineering cụ thể nào đó. Bạn cũng có thể làm điều này và tôi sẽ trình bày các ví dụ tương tự.
Chain of Thought (Chuỗi suy nghĩ): Mới. Có một chế độ "tư duy" mà chúng tôi sẽ trình bày bằng ứng dụng, nơi chế độ "tư duy" sẽ giúp bạn hiểu quá trình suy nghĩ mà mô hình đang trải qua. Gallery app của chúng tôi mà tôi sẽ giới thiệu sẽ hỗ trợ điều đó.
Hỗ trợ phần cứng gốc (Hardware Native Support): Cuối cùng, điều tuyệt vời là các mô hình này được tối ưu hóa cho hỗ trợ phần cứng gốc, nghĩa là bạn có thể chạy liền mạch trên nhiều nền tảng và nhiều phần cứng, và chúng tôi thực sự muốn cung cấp cho bạn sự linh hoạt trong việc triển khai vào các nền tảng khác nhau.

Nguồn cung cấp Mô hình Gemma

Chỉ để bắt đầu, nếu ai đó đang nghĩ, "Vậy, tôi có thể lấy những mô hình này ở đâu?" Chúng tôi đã có sẵn những mô hình này. Trang Hugging Face của chúng tôi có các mô hình này. Vì vậy, nếu bạn đang tìm kiếm, bạn có thể, bạn biết đấy, chúng đều là các mô hình được cấp phép Apache 2.0. Vì vậy, bạn có thể tải xuống và sau đó, bạn biết đấy, bắt đầu xây dựng với nó. Và chúng tôi sẽ cung cấp cho bạn một số cách để bạn có thể xây dựng với nó.

Ứng dụng Gallery: Khám phá các Kỹ năng của Tác nhân

Được rồi. Vậy thì, hãy nói về một số use case bây giờ. Về các use case này, đây chỉ là một vài trong số nhiều use case có thể. Đây là những use case có thể thực hiện được ngày hôm nay. Đây là gallery app của chúng tôi mà chúng tôi đã demo ở tầng ba và chúng tôi cũng có một phiên demo slam sau phần này dành cho bất kỳ ai muốn tìm hiểu thêm. Tôi cũng có mã QR cho điều này. Trong một vài slide tiếp theo, hiện tại, điều mới là gallery app cho phép bạn minh họa các khả năng kỹ năng tác nhân và nó cũng có các khả năng audiocribe hoặc ask image và các tính năng khác liên quan đến trải nghiệm trò chuyện.

Tất cả những điều này đang diễn ra trên thiết bị. Mục đích của ứng dụng này, được tạo bởi Google, là giúp bạn có một playground để cảm nhận được khả năng của các mô hình này. Mỗi khả năng này đều có mã mẫu (sample code) mà bất kỳ ai cũng có thể lấy và sau đó bạn cũng có thể fork ứng dụng này để xây dựng trải nghiệm của riêng mình. Nhưng điều này về cơ bản là để truyền cảm hứng và động lực cho bạn xây dựng trải nghiệm của riêng mình.

Các Trường hợp Sử dụng Gemma 4 Edge

Một vài slide tiếp theo tôi sẽ tập trung vào một số use case Gemma 4 edge. Những điều này sẽ nhấn mạnh vào các khả năng tác nhân giọng nói hoặc khả năng tác nhân cục bộ và nhiều điều này cũng sẽ tập trung vào privacy. Vì vậy, có ba trụ cột chính sẽ mới ở đây so với những gì đã được hỗ trợ trong các slide trước. Vậy hãy cùng đi sâu vào các use case Gemma 4.

Mở rộng Kiến thức với Tác nhân

Hãy xem trường hợp này. Đây là một use case mà bạn đang mở rộng kiến thức, và ví dụ, bạn có thể xây dựng một kỹ năng để truy vấn Wikipedia, cho phép tác nhân truy vấn và phản hồi bất kỳ câu hỏi bách khoa toàn thư nào. Đây là một kỹ năng đã có sẵn trong ứng dụng của chúng tôi. Vì vậy, nếu bạn đang tìm cách xây dựng một cái gì đó như thế này, điều này là khả thi. Đây là những kỹ năng mới ngoài các kỹ năng cơ bản trên thiết bị như tóm tắt hoặc ask image và những thứ tương tự.

Ghi Nhật ký và Theo dõi Tâm trạng

Đây là một danh mục khác mà về cơ bản, hãy xem liệu bạn có thể nhập nhật ký với điểm số và bình luận không.

Tôi chỉ ngủ 8 tiếng và tôi mong muốn được đi chơi với Amy hôm nay.

Vì vậy, ở đây bạn sẽ thấy việc tạo và tóm tắt, hiển thị xu hướng số giờ ngủ. Bạn sẽ xây dựng một agent theo dõi giấc ngủ nhanh chóng giúp bạn theo dõi tâm trạng của mình.

Phân tích xu hướng tâm trạng của tôi trong bảy ngày qua.

Bạn có thể thấy rằng nó có khả năng tạo ra tất cả điều này trên thiết bị. Nó đang nhận đầu vào của bạn, nó đang xử lý, nó có thể hiểu. Vì vậy, khả năng suy luận và tư duy là mới trong mô hình mới và các khả năng trên thiết bị đã trở nên mạnh mẽ hơn rất nhiều.

Mở rộng Khả năng Core: Ảnh và Âm nhạc

Một ví dụ tương tự khác sẽ là mở rộng khả năng core. Ví dụ, bạn cũng có thể ghép nối ảnh và nó sẽ đọc ảnh, có hiểu biết về hình ảnh và tạo nhạc, tất cả đều trên thiết bị. Vậy hãy thử điều này.

Bữa sáng. Tôi đang gửi một bức ảnh. Bạn có thể ghép cảm giác này với một bản nhạc được không?

Nó mất vài giây và sau đó, rất nhiều kỹ năng này có thể được bạn tự viết trên chính ứng dụng. Vì vậy, bạn thậm chí không cần phải rời khỏi ứng dụng. Ứng dụng có hướng dẫn về cách làm điều này. Một lần nữa, trọng tâm duy nhất của việc này là giúp bạn hiểu các khả năng của mô hình và tự xây dựng một cái gì đó mà bạn thực sự thích. Vì vậy điều đó hữu ích.

Quản lý Quy trình làm việc Phức tạp và Tùy chỉnh Phần cứng

Một điều cuối cùng là bạn thực sự muốn làm một ứng dụng hoạt động mô tả, giả sử, tiếng kêu của động vật địa phương. Bây giờ chúng ta đang cố gắng điều hướng nhiều ứng dụng và người dùng và bạn có thể quản lý một quy trình làm việc phức tạp hơn trong trường hợp này. Vì vậy đây là một ví dụ khác và bạn cũng có thể thay đổi CPU, GPU và hy vọng chúng ta sẽ sớm có hỗ trợ NPU để bạn có thể quyết định bộ tăng tốc mình muốn sử dụng.

Đây là tạo âm thanh hoàn toàn từ lời nhắc của người đó, một lần nữa, kỹ năng đã được thiết lập và tạo và tải, và kỹ năng đang chạy trên thiết bị, và điều này cũng tương tự. Vì vậy, bạn có thể làm được rất nhiều điều với nó.

Cộng đồng và Phát triển Kỹ năng Tự tạo

Chúng tôi có một kho lưu trữ GitHub nơi thực sự có những người dùng đang đăng các kỹ năng của riêng họ lên trang web GitHub và họ có thể chia sẻ điều đó với những người khác trong cộng đồng. Vì vậy, bạn cũng được chào đón khám phá điều đó hoặc bạn được chào đón tải xuống một trong những ứng dụng này. Một lựa chọn khác là ứng dụng mẫu cũng là mã nguồn mở trên GitHub. Vì vậy, bạn được chào đón lấy nó và fork nó, và bạn cũng có thể thực hiện các thay đổi đối với ứng dụng đó nếu bạn muốn. Vì vậy, liên kết GitHub cũng ở đây và đó là một cơ hội để làm điều đó. Và việc tạo kỹ năng của riêng bạn cũng ở đây. Đây chỉ là những ví dụ về những gì mọi người đã làm. Mã QR này là hướng dẫn về cách xây dựng một kỹ năng. Vì vậy, nếu bạn đang tìm kiếm hướng dẫn về cách làm điều này, bạn biết đấy, bạn có thể bắt đầu.

Triển khai trên Thiết bị Biên với Light RT

Được rồi. Phần tiếp theo của bài nói chuyện, tôi sẽ tập trung một chút vào việc triển khai điều này trên các thiết bị edge. Vì vậy, chúng ta đã nói về những gì có thể với các mô hình Gemma. Khung làm việc được sử dụng ở đây, Google có một giải pháp với light RT cho các mô hình của riêng bạn (bring your own models). Vì vậy, light RT về cơ bản là khung làm việc trên thiết bị của Google. Nó được xây dựng dựa trên khung làm việc TensorFlow. TensorFlow Lite nếu các bạn quen thuộc với nó. Có ai quen thuộc với TensorFlow Lite không? Một số bạn. Tuyệt vời. Vậy thì, đó là thứ mà điều này được xây dựng dựa trên. Nó thực sự cũng có nghĩa là được xây dựng bằng cách sử dụng cùng định dạng mô hình TensorFlow Lite và đó là những gì chúng tôi đang tập trung vào thời điểm này. Vì vậy, ở đây, điểm mấu chốt là khung làm việc cơ bản cho ứng dụng đang chạy tất cả các trải nghiệm này là light RT, và sau đó chúng tôi đang cố gắng cho bạn thấy rằng điều này về cơ bản là một trong những khung làm việc được triển khai rộng rãi nhất cho đến nay, nó có hơn 100.000 ứng dụng, hàng tỷ người dùng tích cực và cũng có rất nhiều lượt gọi interpreter hàng ngày. Đây về cơ bản là số lượng inferences đang diễn ra mỗi ngày.

Nền tảng đáng tin cậy và hỗ trợ đa khung làm việc

Light RT được xây dựng trên một nền tảng đáng tin cậy. Định dạng tệp TF light của chúng tôi rất quan trọng vì các mô hình được phát triển bằng TensorFlow Lite vẫn sẽ chạy trên Light RT. Các mô hình này, với cùng một định dạng, là đa nền tảng (cross-platform), cho phép chạy trên Android, iOS, macOS, Linux, Windows, web và thậm chí cả thiết bị IoT. Chúng tôi sẽ trình bày một số ví dụ về IoT đã được xây dựng trong sáng nay.

Từ góc độ quy trình làm việc phát triển, bạn có các tệp mô hình của mình. Lý do đổi thương hiệu thành Light RT là để cho thấy chúng tôi không chỉ chấp nhận các mô hình TensorFlow Lite mà còn cả mô hình PyTorch và mô hình JAX. Nếu bạn đang làm việc với các mô hình PyTorch, bạn có thể chuyển đổi chúng sang định dạng tệp TFI và sau đó triển khai. Chúng tôi có nhiều ứng dụng mẫu. Tóm lại, Light RT mang lại tính khả chuyển (portability) cho mô hình và hỗ trợ nhiều khung làm việc.

Đây là một giải pháp hoàn chỉnh cung cấp kiến trúc đa nền tảng hợp nhất (unified cross-platform architecture). Nếu bạn muốn triển khai trên nhiều thiết bị Android hoặc iOS, và cần kiểm thử dễ dàng trên các thiết bị khác nhau (ví dụ: điện thoại 5 hoặc 6 năm tuổi), chúng tôi có các tùy chọn cho điều đó.

Công cụ chuyển đổi và tối ưu hóa mô hình

Light RT Torch là đường dẫn chuyển đổi của bạn – theo nguyên tắc "tự mang mô hình của bạn" (bring your own model). Nếu bạn có một mô hình và muốn chạy nó, bạn chuyển đổi nó sang định dạng TensorFlow TF Lite và có thể lượng tử hóa (quantize) nếu cần. Đối với các Mô hình Ngôn ngữ Lớn (LLM), bạn sẽ sử dụng đường dẫn Light RT LLM; nếu không, bạn sử dụng Light RT thông thường.

Một điểm thú vị là chúng tôi có công cụ Model Explorer giúp bạn khám phá đồ thị mô hình (model graph) và quyết định các khía cạnh cần thay đổi và lượng tử hóa. Bạn có thể nghiên cứu đồ thị để quyết định cách tốt nhất để thực hiện mix precision hoặc lượng tử hóa hoàn toàn mô hình theo ý muốn.

AI Edge Portal là một công cụ điểm chuẩn (benchmarking tool) dựa trên đám mây, hữu ích cho những ai muốn triển khai rộng rãi trên Android. AI Edge Portal giúp các nhà phát triển ứng dụng bên thứ ba và các dự án nội bộ đánh giá liệu một mô hình với số lượng tham số nhất định cần biên dịch ahead-of-time hay just-in-time để đảm bảo triển khai đáng tin cậy trên nhiều thiết bị.

Tăng tốc hiệu suất và tích hợp NPU

Phần tiếp theo là tăng tốc (acceleration). CPU và GPU hiện rất phổ biến, và chúng tôi cung cấp các thư viện giúp chạy mô hình trên cả hai. Với khung làm việc này, bạn có thể triển khai trên nhiều nền tảng với CPU và GPU. Tăng tốc NPU (NPU acceleration) cũng là một trọng tâm khác. Chúng tôi đã hoàn thành tích hợp với Qualcomm MediaTek và đang tiếp tục tích hợp với các đối tác khác trên các nền tảng khác nhau.

NPU sẽ là yếu tố thay đổi cuộc chơi (game-changer) cho các ứng dụng đòi hỏi khả năng thời gian thực (real-time capability) như ASR (Nhận dạng giọng nói tự động), TTS (Tổng hợp giọng nói), hoặc các ứng dụng AR/VR cần cập nhật luồng camera theo thời gian thực. NPU có thể mang lại hiệu suất cải thiện từ 3 đến 10 lần, giúp giảm tiêu thụ năng lượng và đạt được hiệu suất mong muốn để mở khóa các trường hợp sử dụng đó.

Về mặt linh hoạt, chúng tôi cung cấp các tùy chọn biên dịch ahead-of-time hoặc chạy on-device. Để dễ sử dụng, có nhiều tùy chọn đơn giản hóa, cùng với tài liệu và hỗ trợ phong phú.

Số liệu hiệu suất và demo thực tế

Chúng tôi đã minh họa những gì có thể làm ở cấp ứng dụng, cấp khung làm việc và cách mở rộng phạm vi bao phủ. Với các mô hình Gemma, chúng tôi đã thử nghiệm trên nhiều nền tảng như Android, iOS, Linux và Raspberry Pi.

Chúng tôi có một bản demo nhanh đã được thực hiện sáng nay với một con robot nhỏ tại gian hàng demo. Con robot này, chạy trên Raspberry Pi và CPU với Light RT LLM, đã thực hiện suy luận để điều khiển hành động của nó. Mặc dù đây là bản demo mới và hiệu suất còn cần được cải thiện, nó cho thấy khả năng của hệ thống.

Chúng tôi cũng cung cấp một công cụ CLI (Command Line Interface) mới với hỗ trợ Python binding trên trang web để triển khai dễ dàng hơn.

Về hiệu suất, việc chạy trên các bộ tăng tốc NPU mới có thể mang lại lợi thế đáng kể, lên đến tăng tốc 13 lần trong một số trường hợp. Chúng tôi cũng hỗ trợ hiệu suất trên iOS, với khoảng 56 mã thông báo mỗi giây. Các số liệu hiệu suất này, bao gồm cả trên máy tính để bàn, có thể tìm thấy trên trang Hugging Face của chúng tôi. Khi tải xuống các mô hình của chúng tôi, bạn sẽ nhận được chi tiết hiệu suất trên tất cả các nền tảng và IoT. Thời gian chạy (runtime) của chúng tôi cũng rất hiệu quả so với Llama, đặc biệt trên thiết bị di động với hiệu suất nhanh hơn đến 35 lần, trên máy tính để bàn thì tương đương, và trên IoT nhanh hơn 3 lần.

Tóm lại, Light RT hỗ trợ tất cả các khung làm việc này. Bạn có thể mang mô hình từ các khung làm việc khác nhau. Chúng tôi có các mô hình trên Hugging Face và một ứng dụng gallery để bạn trải nghiệm.

Hỏi & Đáp: Triển khai cục bộ và kiến trúc tác nhân

Khán giả: Hệ thống có thể nhận diện khuôn mặt bằng camera an ninh tại nhà không? Việc này giúp tránh chi phí điện toán đám mây và tăng cường bảo mật khi xử lý cục bộ.

Diễn giả: Có, điều đó hoàn toàn có thể. Trên các điện thoại như iPhone hoặc Pixel, tính năng mở khóa bằng khuôn mặt thường đã chạy cục bộ, sử dụng cùng khung làm việc này hoặc Core ML của Apple.

Khán giả: Có cần truyền dữ liệu liên tục, ví dụ cứ 2 giây một lần để nhận diện khuôn mặt không?

Diễn giả: Bạn có thể bật camera và truyền dữ liệu. Tuy nhiên, đối với camera an ninh gia đình, có thể cần một thuật toán để kiểm tra tính xác thực. Nó sẽ hơi khác so với cách triển khai trên điện thoại, nhưng bạn hoàn toàn có thể chạy nó on-device.

Khán giả: Việc truyền dữ liệu liên tục sẽ tiêu tốn nhiều tài nguyên. Sẽ tốt hơn nếu camera chỉ kiểm tra khung hình và gửi thông báo khi nhận diện được người.

Diễn giả: Đúng vậy, một thiết bị cục bộ như Raspberry Pi có thể thực hiện điều đó.

Khán giả: Các bạn đã thử nghiệm kiến trúc trong đó nhiều node chạy một mô hình và khi có sự kiện kích hoạt, chúng kết nối với một tác nhân cấp cao hơn để xử lý chưa?

Diễn giả: Chúng tôi có các nhóm đang làm việc trên kiến trúc speaker và thinking agent, với cơ chế orchestration để quyết định mô hình nào chạy cục bộ hoặc ở nơi khác. Đây là một thực hành khá phổ biến, ví dụ như sử dụng một mô hình phân loại nhỏ để đánh giá độ phức tạp của yêu cầu.

Khán giả: Tôi có một ứng dụng di động đang sử dụng API cho chuyển đổi âm thanh thành văn bản (audio to text). Có cách nào để tận dụng mô hình này cho audio to text không?

Diễn giả: Nếu bạn có các mô hình mã nguồn mở (open-weight models) ưa thích, chúng tôi có thể hỗ trợ chúng. Chỉ cần đảm bảo chúng ở đúng định dạng tệp và kích thước phù hợp. Trang Hugging Face của chúng tôi có các mô hình mã nguồn mở khác ngoài Gemma, một số được cung cấp để dễ sử dụng, một số khác bạn có thể tự chuyển đổi và sử dụng. Nếu bạn đã xác định được mô hình cụ thể, chúng ta có thể thảo luận thêm.

TL;DR

Google đang đẩy mạnh triển khai AI trên thiết bị biên (edge) với các mô hình Gemma 4 Edge (2B và 4B) và khung làm việc light RT, nhằm mang lại AI mạnh mẽ trực tiếp trên các thiết bị cục bộ.
Việc chạy AI trên thiết bị biên mang lại nhiều lợi ích quan trọng như giảm độ trễ, tăng cường quyền riêng tư, khả năng hoạt động ngoại tuyến và tiết kiệm chi phí điện toán đám mây.
Các khả năng tác nhân mới bao gồm gọi hàm (Function Calling) để tương tác với API cục bộ, đầu ra JSON có cấu trúc, chuỗi suy nghĩ (Chain of Thought) và hỗ trợ phần cứng gốc (Hardware Native Support), cùng với khả năng tăng tốc hiệu suất đáng kể nhờ NPU.

Điểm chính

Mô hình Gemma 4 Edge: Có hai phiên bản chính là E2B (1-2GB RAM) và E4B, được thiết kế tối ưu cho triển khai AI trên thiết bị, phục vụ các trường hợp sử dụng đòi hỏi độ trễ thấp như giao diện giọng nói, tóm tắt và xử lý cục bộ.
Khả năng tác nhân nâng cao: Gemma 4 Edge hỗ trợ tích hợp gọi hàm (Function Calling) cho phép mô hình tương tác với các API cục bộ, đầu ra JSON có cấu trúc gốc (Structured JSON Output), chế độ "chuỗi suy nghĩ" (Chain of Thought) để minh bạch hóa quá trình suy luận, và hỗ trợ phần cứng gốc để chạy liền mạch trên nhiều nền tảng.
Khung làm việc light RT: Là giải pháp AI trên thiết bị của Google (phát triển từ TensorFlow Lite), hỗ trợ đa nền tảng (Android, iOS, Linux, Windows, web, IoT) và cho phép triển khai các mô hình từ nhiều khung làm việc khác (PyTorch, JAX) thông qua chuyển đổi sang định dạng TF Lite.
Công cụ chuyển đổi và tối ưu hóa mô hình: Light RT Torch cung cấp đường dẫn chuyển đổi mô hình sang định dạng TF Lite, kèm theo khả năng lượng tử hóa (quantize). Model Explorer giúp phân tích đồ thị mô hình để tối ưu hóa, và AI Edge Portal là công cụ điểm chuẩn đám mây để đánh giá triển khai trên nhiều thiết bị.
Tăng tốc hiệu suất với NPU: Light RT tích hợp với các NPU (đơn vị xử lý thần kinh) của Qualcomm, MediaTek và các đối tác khác, mang lại hiệu suất cải thiện đáng kể (3-13 lần) cho các ứng dụng thời gian thực như ASR, TTS, AR/VR, đồng thời giảm tiêu thụ năng lượng.
Tài nguyên và Cộng đồng: Các mô hình Gemma có sẵn trên trang Hugging Face của Google (giấy phép Apache 2.0). Ứng dụng Gallery demo và mã nguồn mẫu được cung cấp trên GitHub để người dùng khám phá khả năng, xây dựng và chia sẻ các "kỹ năng" tác nhân tùy chỉnh.
Triển khai linh hoạt: Hỗ trợ biên dịch ahead-of-time hoặc chạy on-device, cùng với các tùy chọn đơn giản hóa và tài liệu phong phú để giúp nhà phát triển dễ dàng triển khai AI trên các thiết bị đa dạng.

Từ vựng

edge — thiết bị biên / biên
AI model — mô hình AI
use case — trường hợp sử dụng
latency — độ trễ
privacy — quyền riêng tư
on-device — trên thiết bị
cross-platform — đa nền tảng
Function Calling — gọi hàm
Structured JSON Output — đầu ra JSON có cấu trúc
Chain of Thought — chuỗi suy nghĩ
Hardware Native Support — hỗ trợ phần cứng gốc
quantize — lượng tử hóa
NPU (Neural Processing Unit) — đơn vị xử lý thần kinh
framework — khung làm việc
inference — suy luận

Nội dung chi tiết