Build & deploy AI-powered apps — Paige Bailey, Google DeepMind

Google DeepMind đang đẩy mạnh ra mắt hàng loạt mô hình AI tiên tiến, nổi bật với khả năng đa phương thức của dòng Gemini, hỗ trợ nhiều loại đầu vào và đầu ra như video, hình ảnh, âm thanh, văn bản và mã.
Nền tảng AI Studio đóng vai trò trung tâm, cho phép người dùng thử nghiệm các mô hình này với các công cụ mạnh mẽ như phân tích video, thực thi mã trong sandbox, tích hợp ngữ cảnh URL và tìm kiếm, cùng khả năng xây dựng ứng dụng toàn diện.
Các mô hình được thiết kế để hoạt động hiệu quả với chi phí thấp, đặc biệt là các phiên bản "Flash" và "Lite", đồng thời cung cấp các tính năng tương tác động như Gemini Live, cho phép trò chuyện đa ngôn ngữ và phân tích thời gian thực qua màn hình hoặc video.

Sử dụng các phiên bản Gemini 3.1 như Flash và Flash Lite để tận dụng khả năng đa phương thức về cả đầu vào (video, ảnh, âm thanh, văn bản, mã) và đầu ra (văn bản, mã, âm thanh, ảnh), mang lại hiệu suất cao với chi phí thấp.
Khai thác AI Studio (AI.dev) để thử nghiệm mô hình, chọn giữa các phiên bản Gemini và cấu hình các công cụ như structured outputs, code execution, function calling, grounding với Google Search/Maps, và URL context.
Sử dụng tính năng grounding (tìm kiếm hoặc ngữ cảnh URL) để cung cấp cho mô hình thông tin cập nhật hoặc cụ thể ngoài dữ liệu huấn luyện, đảm bảo các phản hồi chính xác và liên quan.
Tận dụng code execution trong AI Studio để cho phép Gemini thực hiện các tác vụ khoa học dữ liệu phức tạp (ví dụ: vẽ bounding box, segmentation mask) trong môi trường sandbox Python an toàn và hiệu quả về chi phí.
Thử nghiệm Gemini Live để xây dựng các ứng dụng tương tác thời gian thực, hỗ trợ chia sẻ màn hình/video/âm thanh, custom function calls, và giao tiếp đa ngôn ngữ với các giọng điệu/phong cách tùy chỉnh.
Sử dụng tính năng "Build" của AI Studio để phát triển và triển khai các ứng dụng hoàn chỉnh, tích hợp các dịch vụ như database (Firestore) và authentication (Google Sign-in) một cách an toàn và dễ dàng.
Ưu tiên các mô hình trọng số nhỏ hơn như Gemini 3.1 Flash Lite kết hợp với các công cụ để đạt được hiệu suất tối ưu và chi phí thấp đáng kể cho các tác vụ phân tích hình ảnh, video và văn bản.

developer relations — quan hệ nhà phát triển
machine learning — học máy
mô hình — model
đa phương thức — multimodal
đầu vào — input
đầu ra — output
Giao diện lập trình ứng dụng (API) — Application Programming Interface (API)
mã thông báo — token
suy luận — inference
thực thi mã — code execution
grounding — định vị/cung cấp cơ sở thông tin
hộp giới hạn — bounding box

Giới thiệu và Tổng quan các Phát hành Gần đây của Google DeepMind

Chào mừng các bạn. Tôi là Paige, một trong những trưởng nhóm kỹ sư phụ trách developer relations tại Google DeepMind. Tôi đã làm việc trong lĩnh vực machine learning từ rất lâu, bắt đầu từ năm 2009 và đã đóng góp vào những ngày đầu của các thư viện tính toán khoa học mã nguồn mở như NumPy, SciPy, Scikit-Learn. Sau đó, tôi làm product vài năm rồi quay lại mảng engineering. Bây giờ, ranh giới giữa product, engineering, design và DevRel ngày càng trở nên mờ nhạt.

Trong hơn một tháng rưỡi vừa qua, Google đã bận rộn phát hành các mô hình mới với tốc độ chóng mặt, khiến mọi người cảm thấy "choáng váng". Chúng tôi đã ra mắt Gemini 3.1 Flash Live (mà chúng ta sẽ xem xét sau), Gemini 3.1 Pro và Flash Lite. Đây lần lượt là các mô hình lớn nhất và nhỏ nhất của chúng tôi, có hiệu suất cao, hiệu quả, có thể thực hiện nhiều tác vụ rất nhanh chóng với chi phí thấp. Thậm chí, Augment Code (nếu ai đã quen thuộc) vừa tái thiết kế toàn bộ hệ thống tác nhân của họ để mặc định sử dụng Gemini 3.1 Pro vì lý do hiệu suất và chi phí.

Các phát hành khác bao gồm:

NanoBanana 2 để sinh ảnh và chỉnh sửa.
Mô hình phép nhúng của chúng tôi, hỗ trợ video, hình ảnh, âm thanh, văn bản và mã đều nằm trong cùng một không gian phép nhúng. Điều này cho phép bạn tìm kiếm "hiển thị tất cả nội dung liên quan đến mèo" và nó sẽ hiển thị không chỉ video, hình ảnh về mèo, mà còn cả âm thanh mèo gầm gừ hoặc kêu meo meo, hoặc sách về mèo, v.v.
Luria Freedy để sinh nhạc (mà bạn có thể đã thấy trong phiên Gen Media trước đó).
Genie 3 để xây dựng mô hình thế giới, cho phép tạo ra các thế giới mới một cách linh hoạt dựa trên đầu vào của người dùng.
Bộ runtime đầy đủ cho AI Studio của chúng tôi, bao gồm các thứ như cơ sở dữ liệu và OAuth.
Gemma 4, một phần của dòng mô hình mã nguồn mở của chúng tôi. Chúng tôi rất may mắn có một thành viên của nhóm Gemma tại AIE tuần này.
VO 3.1 Lite để sinh video với chi phí khá hấp dẫn.

Gemini: Khả năng Đa phương thức Vượt trội

Gemini thực sự đặc biệt trong ngành. Một trong những lý do chính là nó đa phương thức cả về đầu vào và đầu ra. Gemini hỗ trợ video, hình ảnh, âm thanh, văn bản, mã làm đầu vào. Nhưng nó cũng có thể xuất ra nhiều phương thức khác nhau, bao gồm văn bản, mã, âm thanh và hình ảnh. Hầu hết các mô hình khác trên thị trường chỉ có khả năng xử lý văn bản và mã làm đầu ra, và chỉ các loại hình ảnh tĩnh làm đầu vào. Vì vậy, khả năng của Gemini là rất ấn tượng.

Với Giao diện lập trình ứng dụng (API) của chúng tôi, bạn cũng có thể xử lý các định dạng đầu vào linh hoạt. Bạn có thể có tệp PDF với hình ảnh được nhúng, các loại video, âm thanh khác nhau mà bạn có thể cung cấp dưới dạng mã thông báo cho quá trình suy luận. Tuy nhiên, việc được nhìn trực tiếp sẽ thú vị hơn là chỉ nghe tôi mô tả.

Trình diễn AI Studio: Phân tích Video và Thực thi Mã

Tôi sẽ chuyển đến AI Studio để trình diễn. Bạn có thể truy cập AI Studio tại AI.dev, AI.studio hoặc AIstudio.google.com. Nó hoạt động với tài khoản Gmail cá nhân của bạn, cho phép bạn bắt đầu miễn phí.

Phân tích Video với Gemini 3.1 Flash Lite

Trong AI Studio, bạn có thể chọn các mô hình khác nhau. Tôi sẽ chọn Gemini 3.1 Flash Preview và Flash Lite Preview để tiết kiệm thời gian. Bạn cũng có thể bật và cấu hình nhiều công cụ khác nhau như structured outputs, code execution (chúng ta sẽ xem sau) và function calling. Bạn có thể bật grounding với Google Search để tự động tích hợp nó như một công cụ, grounding với Google Maps, và thậm chí cả URL context, cho phép bạn cung cấp một danh sách các URL để mô hình sử dụng làm cơ sở cho các đầu ra của nó trong cửa sổ ngữ cảnh.

Các mô hình bị giới hạn bởi dữ liệu mà chúng được tiền huấn luyện và hậu huấn luyện. Nếu chúng chỉ được huấn luyện trên dữ liệu đến một thời điểm cụ thể, đó là tất cả thông tin mà chúng có sẵn. Nếu bạn muốn mô hình trả lời các câu hỏi xảy ra sau ngày đó, bạn sẽ phải cấp cho nó quyền truy cập vào các công cụ, thông qua tìm kiếm hoặc truy xuất.

Tôi đã bật grounding với Google Search. Bạn cũng có thể thêm phương tiện bằng cách kết nối với Google Drive, tải lên tệp, ghi âm, thêm cảnh quay camera, liên kết video YouTube hoặc liên kết phương tiện mẫu. YouTube hoạt động chỉ qua URL. Ví dụ, tôi có thể dán một URL YouTube vào và sử dụng nó cho quá trình suy luận với các mô hình Gemini.

Hãy thử tìm một video về khủng long. Tôi yêu T-Rex. Tôi sẽ dán URL một video YouTube vào và đặt thời gian bắt đầu là 0 giây, kết thúc là 300 giây. Nội dung năm phút này tương đương khoảng 27.600 mã thông báo. Sau đó, tôi đưa ra lời nhắc: "Tạo một bảng với timestamps cho tất cả các loại khủng long xuất hiện trong video này. Đảm bảo bao gồm một sự thật thú vị về từng loại khủng long."

Ở hậu trường, chúng tôi đã bật grounding với Google Search để cung cấp thông tin cho các sự thật thú vị. Video cũng được đưa vào. Kết quả cho thấy các loại khủng long khác nhau như Rexie và bố mẹ của cậu ấy, Brachiosaurus, Velociraptor và Pteranodon (một loài bò sát bay). Mô hình thậm chí còn chỉ ra sự thật rằng Pteranodon là pterosaurs, không phải khủng long. Bạn cũng có thể thấy các trích dẫn từ các URL đã cung cấp thông tin.

Bạn có thể nhấp vào "Get code" để xem toàn bộ mã cần thiết để tái tạo thí nghiệm này trong AI Studio. Nó sẽ chọn mô hình thích hợp, chỉ cho bạn cách xử lý URI cho YouTube và cung cấp lời nhắc mà bạn có thể sử dụng cho video trong Python, TypeScript hoặc Java.

So sánh Mô hình và Thực thi Mã trên Hình ảnh

Một trong những tính năng ít được chú ý hơn trong các Giao diện lập trình ứng dụng (API) của chúng tôi, cũng như trong AI Studio nói chung, là chế độ so sánh và thực thi mã. Khi tôi bật thực thi mã, chúng tôi cung cấp cho Gemini một môi trường sandbox với Python và nhiều thư viện khoa học dữ liệu được cài đặt sẵn, nơi nó có thể sử dụng các thư viện đó làm công cụ để giải quyết các tác vụ khoa học dữ liệu tùy ý. Vì đây là một môi trường sandbox, bạn không có nguy cơ tác động đến môi trường cục bộ của mình.

Ví dụ, nếu tôi chọn Gemini 3.1 Flash Lite Preview, bật thực thi mã, rồi vào chế độ so sánh để so sánh nó với Gemini 3 Flash Preview (cũng bật thực thi mã). Sau đó, tôi chọn một hình ảnh, ví dụ như hình ảnh các viên gạch Lego. Tôi dán nó vào (hình ảnh này khoảng 1000 mã thông báo) và đưa ra lời nhắc: "Vẽ hộp giới hạn xung quanh tất cả các viên gạch Lego màu xanh lá cây bằng Python." Và sau đó, hiển thị hình ảnh với hộp giới hạn rồi nhấn chạy. Kết quả là chúng ta sẽ thấy sự so sánh trực tiếp giữa hai mô hình. Gemini 3.1 Flash Lite đã có thể thực hiện đúng ngay lập tức, điều này khá ấn tượng đối với một mô hình siêu nhỏ.

Phân tích hình ảnh hiệu quả với chi phí thấp

Tôi có đoạn mã Python để kéo hình ảnh vào, phân tích và định nghĩa các bounding box. Nếu bạn di chuột qua mức token consumption, số tiền cần thiết để thực hiện công việc này khá bất ngờ. Việc có thể kéo một hình ảnh vào, thực hiện loại phân tích này, bạn cũng có thể yêu cầu những thứ như mặt nạ phân đoạn (segmentation mask). Bạn có thể yêu cầu đếm các loại thực thể cụ thể trong ảnh, cũng sử dụng bounding box hoặc thứ gì đó tương tự. Tất cả những điều này được thực hiện với chi phí thấp hơn nhiều so với một phần nhỏ của một xu. Vì vậy, tôi thực sự khuyến khích mạnh mẽ việc thử nghiệm với các mô hình trọng số nhỏ hơn, đặc biệt là bật các công cụ này để giúp chúng thực hiện công việc hiệu quả hơn. Bạn cũng có thể thấy rằng bản xem trước Gemini 3 Flash đã đưa ra cùng một câu trả lời, chỉ mất thời gian lâu hơn một chút và chi phí cao hơn một chút, nhưng vẫn thấp hơn nhiều so với một xu. Đó là chế độ so sánh, một lần nữa sử dụng Gemini 3.1 flashlight, chỉ với việc thêm tính năng thực thi mã (code execution) trong quá trình này.

Sử dụng ngữ cảnh URL và truy xuất tài liệu tùy chỉnh

Đối với những người có thể quan tâm đến URL context, vì tôi biết đây là điều chúng tôi đã nghe khá nhiều từ những người đang sử dụng API của Gemini khá thường xuyên. Nếu bạn bật URL context, bạn có thể thực hiện những việc như thêm URL. Tôi sẽ kéo một URL cho một bài đăng blog về Gemma 4, vừa được phát hành tuần trước sau thời điểm cắt dữ liệu huấn luyện của mô hình. Tôi sẽ kéo một bài đăng blog về Genie 3, cũng sau thời điểm cắt dữ liệu huấn luyện của mô hình. Và tôi có thể nói điều gì đó có nội dung so sánh và đối chiếu Genie 3 và Gemma 4, cho tôi biết chúng giống nhau, khác nhau hay hoàn toàn không liên quan. Và chúng hầu hết là hoàn toàn không liên quan, nhưng chúng ta sẽ xem mô hình nghĩ gì. Có thể bật "medium" cho cấp độ suy nghĩ (thinking level) và sau đó nhấn chạy. Điều chúng ta cũng nên thấy là mô hình có thể đưa ra kết quả của nó nhưng vẫn trích dẫn từng nguồn mà nó sử dụng để đưa ra các giả định của mình. Vì vậy, bạn có thể thấy các nguồn khác nhau ở phía dưới, hai URL mà tôi đã sử dụng. Bạn có thể sử dụng nhiều hơn hai URL, nhưng nó trích dẫn từng nguồn ngay trong nội dung khi đưa ra các đánh giá. Và vì vậy, bạn có thể sử dụng thông tin có sẵn công khai và sau đó cũng có các công cụ trong Vertex cho phép bạn thực hiện retrieval trên các tài liệu tùy chỉnh chỉ dành cho nội bộ mà không nhất thiết phải thiết lập một vector database để retrieval. Và một lần nữa, nếu bạn nhấp vào "get code", nó sẽ cung cấp cho bạn tất cả mã bạn cần để tái tạo những gì bạn đang làm trong giao diện AI Studio.

Các phiên bản mô hình Gemini

Chúng tôi đã nói về dòng mô hình Gemma 9 3.1. Bạn cũng có thể sử dụng bản xem trước 3.1 Pro, đây là dòng mô hình lớn nhất của chúng tôi. Nó cũng là đắt nhất, và do lớn hơn nên nó cũng chậm hơn một chút. Gemma 9 3 Flash là mô hình chủ lực (workhorse), là mô hình chúng tôi thấy được sử dụng phổ biến nhất trong sản xuất. Và sau đó, Gemma 9 3.1 Flashlight cũng đang dần phổ biến, đặc biệt đối với những người đang sử dụng Gemma 9 2.0 Flash hoặc 2.5 Flash.

Gemini Live: Tương tác đa phương tiện năng động

Đối với dòng Gemma 9 live của chúng tôi, có bao nhiêu người đã thấy hoặc nghe nói về Gemma 9 live trước đây? Tuyệt vời. Một vài cánh tay. Cảm ơn, cảm ơn DeepMinders đã chú ý và cũng đã sử dụng các mô hình. Gemma 9 Live cung cấp cho bạn khả năng chia sẻ màn hình, chia sẻ nguồn cấp video, chia sẻ âm thanh với mô hình và có một cuộc trò chuyện với nó một cách linh hoạt, bao gồm những việc như thêm các lệnh gọi hàm tùy chỉnh (custom function calls), tạo phản hồi hàm tự động (automatic function responses), và sau đó cũng thực hiện những việc như grounding với Google Search. Vì vậy, tôi có thể bật grounding với Google Search một lần nữa, như một công cụ mà mô hình có thể gọi. Và sau đó, tôi có thể cấp cho mô hình quyền truy cập vào màn hình của mình để giúp tôi điều hướng một ứng dụng, để giúp tôi trả lời các câu hỏi về những gì nó thấy và thực hiện điều đó bằng nhiều ngôn ngữ, giọng điệu, v.v.

Ví dụ, tôi có thể bắt đầu chia sẻ màn hình. "Chào Gemma 9, bạn có thể cho tôi biết bạn thấy gì trên màn hình không?" "Tôi thấy một tìm kiếm trên Google cho Lego bricks and pieces. Có rất nhiều hình ảnh về Lego bricks đầy màu sắc, các bộ và bộ sưu tập lớn từ nhiều trang web khác nhau. Ở bên phải có một hình ảnh lớn hơn với cận cảnh các khối đỏ, vàng, xanh lam và xanh lục. Bạn đang tìm kiếm điều gì cụ thể trên trang này phải không?" Và có ai trong phòng nói một ngôn ngữ không phải tiếng Anh không? Vâng. Guillaume, bạn sẽ không phải là một người kể chuyện đáng tin cậy. Nhưng ít nhất đêm qua chúng tôi đã thử điều này và một trong những đồng nghiệp của chúng tôi đã tự tin nói lớn một ngôn ngữ mà họ không nói. Vì vậy, chúng tôi không có ai để xác minh. Nhưng tôi thấy một vài cánh tay ở phía trước, vậy các bạn nói những ngôn ngữ nào? Tiếng Ý. Được rồi, vậy tôi sẽ, bạn có ổn với việc xác minh nếu mô hình đang nói những điều đúng bằng tiếng Ý không? Được rồi, tuyệt vời. Cảm ơn bạn đã làm người kiểm tra thực tế của chúng tôi. "Chào Gemma 9, bạn có thể cho tôi biết những gì bạn đã nói lại một lần nữa bằng tiếng Ý không, và sau đó bạn cũng có thể cho tôi biết thời tiết ở London hôm nay như thế nào, cũng bằng tiếng Ý không?" Chắc chắn rồi, "Tôi thấy rất nhiều hình ảnh những viên gạch màu sắc, bảy và vòng cổ màu xanh lam. Ngoài ra còn có một hình ảnh lớn hơn với màu đỏ, vàng, xanh lam và xanh lục. Thời tiết ở London hôm nay có một chút mưa. Bạn có cần thêm thông tin nào không?" Tuyệt vời, xuất sắc, rất hay.

Và vì vậy, bạn có thể yêu cầu các ngôn ngữ khác nhau, bạn cũng có thể nói, "Chào Gemma 9, bạn có thể kể cho tôi một bài thơ về những gì bạn thấy trên màn hình này, nhưng bạn có thể kể nó bằng giọng Texan không?" "Chà, sao rồi đó? Để tôi nghía qua cái màn hình này. Tôi thấy những đống gạch Lego, một sự náo động đầy màu sắc như một thị trấn nhỏ mọc lên từ một đại dương nhựa đỏ và vàng, xanh lam và xanh lục và những mẻ lớn nhỏ, sẵn sàng xây một lâu đài cao hay có thể chỉ là một bức tường. Người ta muốn mua chúng, bán chúng, trao đổi chúng từ khắp mọi nơi để vẽ một nụ cười tôi nghĩ trên khuôn mặt của một người xây dựng nhỏ. Bạn cần giúp gì khác không, đối tác?" Điều đó gợi lại ký ức về quê hương tôi, nhưng bạn có thể thay đổi tất cả những điều này một cách linh hoạt chỉ bằng cách hỏi một cách tự nhiên trong dòng hội thoại. Vì vậy, bạn có thể tưởng tượng một kịch bản thực tế như có lẽ bạn có một lối vào trong một ngân hàng và có một loại màn hình nào đó, ai đó đi vào, bắt đầu nói tiếng Tây Ban Nha hoặc nói bằng ngôn ngữ mà họ cảm thấy tự tin nhất và mô hình có thể phản hồi và trả lời câu hỏi của họ một cách linh hoạt bằng ngôn ngữ quen thuộc với họ. Hoặc bạn có thể chỉ định trong các hướng dẫn hệ thống (system instructions) ngôn ngữ, phương ngữ, giọng điệu hoặc phong cách bạn muốn mô hình áp dụng. Vì vậy, nếu bạn chỉ muốn mô hình phản hồi bằng một ngôn ngữ cụ thể hoặc một phong cách cụ thể hoặc với một giọng điệu cụ thể, tôi thực sự, thực sự khuyên bạn nên sửa đổi các hướng dẫn hệ thống. Và như mọi khi, nếu tôi nhấp vào "get code", bạn sẽ thấy tất cả mã bạn cần để sử dụng để tái tạo thí nghiệm bạn đã làm trong UI. Vì vậy, bạn có thể thấy các cài đặt độ phân giải phương tiện, các cài đặt nén và tất cả những thứ đó được tích hợp một cách tự nhiên. Tôi cũng có thể làm những việc như chia sẻ nguồn cấp video. "Chào Gemini, tôi đang giơ mấy ngón tay?" "Họ đang giơ hai ngón tay." "Còn bây giờ thì sao?" "Đó là một ngón tay cái hướng lên." Vâng, tuyệt vời. Và vì vậy, Gemini Live có thể thực hiện rất, rất nhiều thứ. Và một lần nữa, với mức giá rất, rất thấp so với các giải pháp khác mà bắt bạn phải tự mình kết nối speech to text, hiểu LLM và đường dẫn text to speech với tất cả nội dung video và đưa ra đầu ra.

AI Studio "Build" - Xây dựng và triển khai ứng dụng

Chúng tôi có một tính năng khác, tôi luôn cảm thấy như khi tôi mô tả AI Studio, tôi chỉ nói "và ngoài ra, và ngoài ra, và ngoài ra bạn có thể làm tất cả những thứ khác này." Chúng tôi có một tính năng khác gọi là "Build", nếu bạn đã từng chơi với V0.dev hoặc Lovable thì nó rất giống, nó cung cấp cho bạn tùy chọn để tạo, triển khai và chia sẻ toàn bộ các ứng dụng. Và bây giờ chúng tôi thậm chí đã thêm hỗ trợ cho những thứ như database và authentication. Vì vậy, bạn có thể thêm một database, bạn có thể thêm đăng nhập bằng Google, bạn có thể thêm các API key tùy chỉnh mà tất cả đều được giữ an toàn cho bạn. Và tất nhiên, bạn cũng có thể tạo và chỉnh sửa các ứng dụng hiện có. Vì vậy, bạn đã thấy một vài ví dụ cách đây một thời gian sử dụng âm nhạc từ Luria 3, thật thú vị. Guillaume, người đã tạo ứng dụng Luria Studio, hôm nay đang ở phía sau. Và giống như những điều này thực sự, thực sự hấp dẫn để chơi nếu bạn chưa có cơ hội thử nghiệm với một số mô hình phương tiện tạo sinh. Bạn có thể thấy một số ví dụ với Nano Banana 2 cũng như MediaPipe.

Ví dụ, nếu tôi nhấp vào ứng dụng này, bạn có thể thấy nó đang yêu cầu quyền truy cập camera. Đây là một trò chơi đang lấy vị trí của bàn tay tôi. Vì vậy, tôi có thể nắm, nắm và tất cả chúng ta có thể thấy rằng tôi chơi trò chơi này rất tệ. Nhưng bạn có thể chơi trò chơi và sau đó cũng kiểm tra tất cả mã được sử dụng để tạo ứng dụng đó. Nhưng với mục đích này, tôi sẽ chỉ cho bạn cách bạn có thể bắt đầu tạo một ứng dụng từ đầu, chỉ dựa trên bất cứ điều gì bạn có thể tưởng tượng. Vì vậy, và tôi sẽ sử dụng database và authentication. Vì vậy, chúng ta có thể thêm một Firestore và ủy quyền nó, giống như Đăng nhập Google với Firebase. Và tôi sẽ nhấp vào micrô speech to text nhỏ mà chúng tôi có ở đây. Vì vậy, nó dễ dàng hơn là tôi phải gõ tất cả các chi tiết. Nhưng ví dụ, hãy tạo một ứng dụng cho phép tôi tải lên hình ảnh một giá sách. Giá sách nên có nhiều sách và các chế độ xem hồ sơ (profile views) để chúng ta có thể thấy tất cả các gáy sách và có thể một số thông tin về tựa sách, tên tác giả, v.v. Nhưng ứng dụng nên sử dụng Google search grounding để thêm nhiều thông tin hơn. Vì vậy, những gì chúng ta nên nhận được là tên tác giả, tên tựa đề, mô tả cuốn sách, loại sách đó có thể thuộc danh mục nào. Và ứng dụng nên yêu cầu người dùng đăng nhập bằng tài khoản Google của họ. Nó nên lưu tất cả thông tin đó cho người dùng vào một database. Và chúng ta nên có thể duy trì điều đó. Vì vậy, về cơ bản là bạn chụp ảnh giá sách của mình và nó tự động lập danh mục tất cả sách cho bạn. Đó là rất nhiều việc. Điều đó về lý thuyết sẽ là một công ty khởi nghiệp ba, bốn năm trước. Nhưng điều này có vẻ khá đúng. Vì vậy, tôi sẽ tiếp tục và nhấp vào "build".

Và điều đang xảy ra đằng sau hậu trường là bạn có thể thấy bản xem trước Gemini 3.1 Pro khởi động. Nó bắt đầu suy nghĩ và lập kế hoạch về những gì cần thiết để tạo ứng dụng này. Vì nó đang làm rất nhiều việc, thiết lập một database, suy nghĩ về authentication, nó sẽ mất một lúc. Và trong khi đó, chúng tôi sẽ đi và trình diễn một vài bản demo khác. Vì vậy, chúng ta có thể để mô hình xử lý ở chế độ nền. Và sau đó nếu nó cần tôi thực hiện bất kỳ hành động nào, cũng sẽ có một tiếng ping nhỏ. Vì vậy, chúng ta có thể nghe thấy nó ở chế độ nền chỉ trong trường hợp, chỉ trong trường hợp trên đường đi. Vì vậy, tôi sẽ thu nhỏ cái này một chút. Và tôi sẽ kéo cửa sổ trình duyệt khác của mình lên.

Dự án Genie: Tạo thế giới ảo động

Và chúng ta sẽ xem xét Dự án Genie. Có bao nhiêu người đã nghe nói về Genie trước đây? Vâng. Tuyệt vời. Vì vậy, tất cả những người ở hàng ghế sau, cảm ơn. Và sau đó cũng có một vài người ở đây trong khán giả. Genie 3 là mô hình của DeepMind để tạo ra các thế giới mới. Vì vậy, bạn có thể mô tả một loại cảnh, mô tả một nhân vật, và sau đó trải nghiệm nó một cách tích cực với mỗi khung hình được tạo động. Không có physics engine đằng sau hậu trường, không có Unity, không có Unreal Engine. Chỉ đơn giản là mỗi khung hình được tạo động theo từng điểm ảnh. Bạn có thể điều hướng nó bằng các phím mũi tên ở bên trái. Tức là các phím WASD trong ứng dụng Genie. Và bạn cũng có thể thay đổi góc nhìn video bằng các phím mũi tên. Thực hiện những việc như nhấp vào phím cách. Nhưng đó là tất cả mọi thứ từ cảnh quan núi lửa nơi bạn đang điều hướng bằng một loại xe tự hành đến những thứ như điều hướng cảnh quan nước trên một chiếc mô tô nước.

Tương tác với AI Studio và Tạo Thế giới trong Project Genie

Bạn có thể thấy rằng nếu bạn chạm vào một trong những ánh đèn này, nó thực sự phản hồi như thể có một loại công cụ vật lý nào đó dựa trên dữ liệu đào tạo và thông tin khác mà nó đã thấy trong quá trình. Nghe có vẻ như một studio có thể đã làm điều gì đó, vì vậy chúng ta cũng sẽ xem xét điều đó trong giây lát. Và sau đó, bạn cũng có thể thấy những thứ như bão và cảm giác khi trải qua một cơn bão ở Florida, sứa, và những tình huống dưới nước nhiệt này thực sự hoang dã và mang lại những trải nghiệm rất kỳ diệu. Bất cứ điều gì bạn có thể tạo ra.

Vậy hãy xem AI Studio đang yêu cầu tôi điều gì. Nó muốn tôi bật cơ sở dữ liệu Firebase. Có vẻ như nó đang thiết lập điều đó, vậy là tốt. Tôi sẽ chuyển sang Project Genie. Chúng ta sẽ khám phá và tạo một thế giới, nếu tôi có thể đăng nhập. Chúng tôi rất chú trọng bảo mật, có lý do chính đáng.

Sau đó, chúng ta có tùy chọn để tạo một Môi trường và tạo một nhân vật. Vì tôi đang cảm thấy nhớ nhà sau khi nghe giọng Texas đặc trưng đó trong bài thơ về Lego bricks, tôi sẽ nói "Vườn quốc gia Big Bend ở Texas giữa mùa hè. Mặt trời chiếu sáng trên bầu trời. Nhưng tất cả các khối đá được làm từ Lego bricks. Và bầu trời có cầu vồng, cầu vồng bốn lần." Tại sao không? Và tôi có thể đảm bảo với bạn rằng đó không phải là một tình huống tồn tại ở Texas thực tế. Mặt đất đầy cát và bụi. Và sau đó, nhân vật có thể là gì? Một con đà điểu với súng phun lửa và kính bảo hộ. Có lẽ làm nó màu hồng. Tôi không nghĩ Texas đã từng có màu hồng đó.

Chúng ta sẽ xem điều gì được tạo ra đằng sau hậu trường. Genie 3 thực sự là sự kết hợp của nhiều mô hình. Vì vậy, nó không chỉ là một mô hình duy nhất. Đó là nano banana, VO, Gemini để hỗ trợ tạo lời nhắc, tất cả được kết nối với nhau cùng với một số cách tiếp cận thực sự thú vị đối với hệ thống phân tán và tính toán.

Ôi Chúa ơi, điều này thật tuyệt vời! Tôi ngay lập tức muốn có một video trên YouTube về anh chàng này. Chúng ta cũng thấy một số khối đá Lego bricks. Vậy hãy tạo thế giới này. Và sau đó, điều chúng ta có thể làm là điều hướng qua nó bằng cách sử dụng các phím mũi tên. Các phím mũi tên để thay đổi trực quan hóa và góc nhìn, và các phím WASD để điều hướng nhân vật nhỏ bé xung quanh thế giới.

Chúng ta có một vài tùy chọn nhỏ cho những con đà điểu. Mỗi con di chuyển. Bạn có thể thấy rằng nó cũng dường như đã cho nó những cánh tay rất cơ bắp. Có lẽ nó muốn con đà điểu trở thành một chiến binh cấp quân sự. Nhưng bạn có thể thấy nó đi bộ xung quanh, điều hướng các khối Lego bricks. Và sau đó, nếu tôi quay lại, hãy xem liệu tôi có thể tìm đường ra khỏi khối đá này không. Bạn thậm chí có thể yêu cầu nó điều tra một số cảnh. Chúng ta có cầu vồng. Nếu tôi nhớ không lầm, nếu bạn đi về phía hẻm núi này, sẽ có một dòng sông ở phía dưới. Vì vậy, chúng ta có thể thử làm chúng nhảy xuống hẻm núi. Nhưng tất cả điều này được thu thập một cách động bởi chính mô hình Genie 3. Nào. Ôi không, tôi đã không kịp. Nhưng thật thú vị khi thấy một số điều bạn có thể xây dựng.

Một trong những đồng nghiệp của chúng tôi, Fofa (trên Twitter là F-O-F-R) đã tạo một trò chơi trong đó bạn là một con cá và bạn phải thoát khỏi nhà bếp. Và bạn cứ nảy lên như một con cá, cố gắng thoát ra trước bữa tối. Vì vậy, thật sự rất tuyệt khi có thể thấy một số điều này trong thực tế.

Khả năng và Giới hạn của Genie 3

Genie 3 hiện chưa có sẵn dưới dạng API. Nhưng nhóm đang tích cực suy nghĩ về một chương trình thử nghiệm đáng tin cậy. Và hôm nay, bạn có thể truy cập Genie 3 thông qua một gói đăng ký Ultra, mặc dù gói Ultra chỉ có sẵn với Genie ở một số quốc gia chọn lọc. Vì vậy, tôi thực sự khuyên bạn nên tìm hiểu về điều đó. Vâng, có câu hỏi không?

Không, không, bạn sẽ không thể tạo các lưới trò chơi 3D hoặc kéo anh chàng đà điểu này vào làm một tài sản cho trò chơi. Đó chỉ là các pixel. Chúng tôi đã thấy mọi người kết hợp các hình ảnh được tạo bằng nano banana và sử dụng các kỹ thuật bổ sung để biến chúng thành tài sản 3D. Nhưng điều đó đòi hỏi công việc bổ sung. Điều này không tự động tạo ra tài sản 3D cho trò chơi. Nhưng đó là một câu hỏi rất hay. Có một số công ty khác đang áp dụng các cách tiếp cận khác nhau để xây dựng mô hình thế giới. Ví dụ, công ty của Fefe Lee tại World Labs đang áp dụng một cách tiếp cận khác để xây dựng các Môi trường này, bao gồm nhiều yếu tố hơn về kiểu tạo tài sản của Unity và Unreal Engine. Nhưng tôi nghĩ về lâu dài, khi tất cả các mô hình dường như hội tụ trên nhiều phương thức đầu vào, nhiều phương thức đầu ra, chúng ta có thể sẽ thấy tất cả những điều đó cũng hội tụ. Và vì vậy, tôi sẽ không ngạc nhiên nếu trong tương lai có cơ hội để có video làm đầu vào cho một mô hình và sau đó thế giới 3D hoặc mã của nó được tạo ra bên ngoài.

Tạo ảnh SVG với Gemini

Vâng, đặc biệt là với Gemini hiện nay, bạn đã có thể đưa cho nó một hình ảnh và sau đó nói "Hãy tạo một SVG của hình ảnh này", và nó có thể làm điều đó khá tốt, đây thực sự có thể là một bản demo thú vị. Nhưng tôi chưa bao giờ thử điều này trước đây. Vì vậy, hãy xem liệu nó có thực sự hoạt động không và hy vọng đó không chỉ là tôi giả vờ. Nhưng điều bạn có thể làm là, nếu chúng ta đảm bảo tôi vẫn đang chia sẻ màn hình của mình, được thôi.

Vâng, nhưng điểm chuẩn đó đã trở nên bão hòa rồi, đúng không? Vì vậy, tôi sẽ lấy bức ảnh Lego bricks mà chúng ta vừa sử dụng và nói điều gì đó như "tạo một SVG biểu diễn của hình ảnh này", đây là một lời nhắc rất đơn giản. Tôi có thể sẽ nhận được kết quả tốt hơn nhiều bằng cách yêu cầu Gemini mở rộng lời nhắc này thay vì tôi chỉ đưa ra một cách ngẫu hứng một cái rất đơn giản. Vì vậy, nếu chúng ta không nhận được kết quả tuyệt vời, chúng ta sẽ yêu cầu Gemini viết lại lời nhắc của chúng ta để cải thiện nó. Và vì vậy, chúng ta có thể thấy quá trình suy nghĩ bắt đầu, một trong những dự án hackathon yêu thích nhất của tôi. Họ đã sử dụng nano banana để lấy một hình ảnh đầu vào và sau đó hiển thị từng bước cách bạn sẽ vẽ nó với các nét khác nhau trong suốt quá trình.

Nhưng chúng ta có thể thấy rằng nó đang suy nghĩ về phối cảnh. Nó đang định nghĩa các viên gạch. Nó đang suy nghĩ về kích thước của các viên gạch. Nó đang tính toán một lưới, định nghĩa một số màu sắc. Vì tôi đã đặt mức độ suy nghĩ cao cho mô hình Gemini 3.1 Pro, nó đang dành rất nhiều suy nghĩ để mô phỏng các phép quay và biến đổi. Chúng ta có thể thấy điều đó xảy ra trong suốt quá trình.

Cập nhật AI Studio và Mô hình Tạo phương tiện

Nghe có vẻ như AI Studio có một bản cập nhật cho trình quản lý danh mục sách. Vì vậy, hãy xem xét điều đó trong khi SVG đang được tạo. Các điều khoản Firebase đã được chấp nhận. Hãy thử lại để xem nó đang làm gì. Và có vẻ như nó đã có thể tạo một số mã cho TypeScript, CSS, v.v. Tôi tự hỏi liệu có phải vì tôi bắt đầu sử dụng Gemini 3.1 Pro trong một tab khác mà nó có thể hơi "mệt" không. Nhưng chúng ta sẽ xem.

Tôi cũng thực sự thích việc có thể thử nghiệm với các mô hình phương tiện tạo sinh trong AI Studio. Vì vậy, nếu bạn đã tham gia phiên trước, bạn đã thấy Guillem chia sẻ rất nhiều về Luria, về các mô hình nano banana của chúng tôi, về VO throughput one light. Và như một ví dụ với nano banana 2, bạn cũng có tùy chọn để thực hiện những việc như neo tìm kiếm hình ảnh (image search grounding). Vì vậy, bạn có thể bật tìm kiếm hình ảnh và nó sẽ thực hiện tìm kiếm hình ảnh ngược và đưa ra những thứ phù hợp chặt chẽ với những gì bạn đang yêu cầu.

Vì vậy, ví dụ, tôi có thể thêm phương tiện mẫu cho chú chó nhỏ dễ thương này. Có lẽ phương tiện mẫu cho... để xem. Phương tiện mẫu cho lời chào. Chào mừng, giống như phương tiện mẫu cho một địa điểm rất thân thiện với thiên nhiên ở bên ngoài này. Và sau đó nói điều gì đó như "hiển thị cho tôi con chó ở giữa công viên tự nhiên với một lon Celsius", mà nếu bạn chưa từng uống Celsius thì... đó có vẻ là một cuộc sống tuyệt vời. Celsius là loại đồ uống nổi tiếng là kinh tởm, hoặc ít nhất theo quan điểm của tôi thì nó khá kinh tởm. Nhưng nó rất phổ biến tại các Hackathon, đồ uống chứa caffeine có vị hơi giống axit pin. Ít nhất là đối với tôi, tôi chắc rằng nó ngon đối với nhiều người khác. Nó cũng rất ít calo, vì vậy nó giống như một lựa chọn thay thế cho Red Bull. Nhưng tôi đã đưa cho nó một bức ảnh về một con chó, về bức ảnh cảnh tự nhiên này. Tôi đã bật tìm kiếm hình ảnh ngược, vì vậy nó sẽ có thể lấy thông tin chi tiết về hình dạng của một lon Celsius và nó đang suy nghĩ về nhiệm vụ. Nó đã có chú chó nhỏ của tôi trong khung cảnh tự nhiên với một lon Celsius.

Và bạn cũng có thể, nếu bạn di chuột qua mức tiêu thụ mã thông báo (token consumption), thấy rằng so với mô hình cấp chuyên nghiệp nano banana, nó hiệu quả về chi phí hơn nhiều so với các phiên bản trước. Vì vậy, nếu bạn quan tâm đến việc sử dụng dòng nano banana, nano banana 2 là một lựa chọn tốt để bắt đầu, và như mọi khi, nếu bạn nhấp vào "Get code" (Lấy mã), nó sẽ cung cấp cho bạn mã bạn cần để tái tạo bất cứ điều gì bạn vừa làm trong UI của AI Studio chỉ bằng cách sử dụng TypeScript hoặc Python hoặc bất cứ điều gì khác. Điều này là đúng. Cũng như mọi khi, nếu bạn thay đổi cài đặt suy nghĩ thành tối thiểu hoặc thấp, mô hình sẽ đưa ra phản hồi nhanh hơn nhiều, trong khi nếu bạn yêu cầu nó suy nghĩ, nó sẽ dành nhiều thời gian để tạo mã thông báo cho việc lập kế hoạch và suy luận về nhiệm vụ mà bạn đã mô tả.

Xuất SVG và Thực thi Mã

Và vì vậy, hãy quay lại biểu diễn SVG này. Có vẻ như chúng ta đã có một bản thử nghiệm đầu tiên, vì vậy tôi sẽ sao chép, tôi sẽ truy cập một công cụ trực quan hóa SVG trực tuyến và sau đó dán vào đó, và có vẻ như chúng ta đã có các khối Lego bricks của mình, chúng hơi bị méo mó nhưng thành thật mà nói, trông chúng khá hợp lý. Và sau đó, nhắc lại, bức ảnh mà chúng ta đang cố gắng tái tạo là bức này, và nó đã có thể lấy tất cả các loại Lego bricks khác nhau, chỉ là không đúng cấu hình. Vì vậy, thật sự rất tuyệt khi thấy rằng bạn có thể đưa vào một hình ảnh và sau đó với lời nhắc rất đơn giản này, nhưng với một lời nhắc chi tiết hơn nhiều, bạn có thể sẽ nhận được một biểu diễn tốt hơn nhiều.

Tôi cũng tò mò, liệu nếu tôi bật thực thi mã, tôi tự hỏi liệu nó có thể gọi thực thi mã như một lời gọi công cụ (tool call) để thực hiện điều đó hiệu quả hơn không. Chúng ta sẽ thấy điều đó trong giây lát. Có vẻ như nó đã có thể sử dụng một thư viện thích hợp để suy nghĩ về quá trình tạo SVG cho hình ảnh. Và nó thậm chí còn thực hiện phân đoạn. Điều này rất tuyệt. Và đối với những người đến hơi muộn hơn một chút, thực thi mã là một công cụ có thể tự động gọi qua API để cung cấp cho chúng tôi tùy chọn tạo một môi trường Python được cô lập (sandboxed Python environment) với rất nhiều thư viện khoa học dữ liệu được cài đặt sẵn và nó có thể gọi chúng như các công cụ con trong Môi trường. Tuyệt vời. Rất tuyệt.

Tạo video và Gợi ý Lời nhắc

Vì vậy, chúng tôi cũng vẫn đang xây dựng trình trực quan hóa thư viện sách. Có vẻ như nó đang tạo bản thiết kế Firebase cũng như một số quy tắc. Và vì vậy, nếu chúng ta quay lại mã, chúng ta có thể thấy tất cả điều này đang được tạo ra trong suốt quá trình. Một điều khác mà tôi thực sự khuyên mọi người nên xem xét nếu bạn quan tâm là chuỗi tạo video của chúng tôi. Vì vậy, chúng tôi có một mô hình mới gọi là VO3.1 light, cũng cung cấp cho bạn tùy chọn để tạo footage chất lượng cao với âm thanh cũng như về cơ bản bất cứ điều gì bạn sẽ sử dụng mô hình VO lớn hơn để thực hiện chỉ với chính mô hình. Vì vậy, ví dụ, hãy truy cập Gemini và yêu cầu nó giúp chúng ta tạo một lời nhắc.

Tạo video với AI Studio và `API Key`

Tôi sẽ bật chế độ suy nghĩ ở mức thấp và nói gì đó như: "Tạo một prompt cho mô hình tạo video để tạo cảnh quay stock footage cho một xe bán đồ ăn chay chủ đề bóng rổ. Đảm bảo các lựa chọn món ăn mang chủ đề Warriors", đó là một đội bóng ở San Francisco. Sau đó, tôi sẽ nhấn run. Tiếp theo, chúng ta sẽ lấy prompt đầu ra này và đưa nó vào VO3.1 light, rồi nhấn run. Bạn có thể thấy độ phân giải đầu ra được đặt là 720p. Bạn có một vài tùy chọn khác cho độ phân giải đầu ra, nhưng không phải 4K, đó là độ phân giải bạn sẽ cần dùng một mô hình tạo video cấp cao hơn. Bạn cũng có thể chỉ định các tỷ lệ khung hình khác nhau, ví dụ 16:9 hoặc 9:16 nếu bạn muốn trải nghiệm ứng dụng di động hơn. Bạn cũng có thể cấu hình thời lượng video. Ví dụ, nếu bạn muốn 8 giây hoặc một cái gì đó ngắn gọn hơn như 4 hoặc 6 giây, bạn có thể điều chỉnh. Đây là một mô hình trả phí, vì vậy bạn sẽ phải đính kèm một API key để sử dụng nó. Một điều tiện lợi khác về AI Studio là nếu bạn mở rộng phần cài đặt ở bên trái, bạn sẽ thấy một mục gọi là "Get API key". Nếu bạn nhấp vào đó, bạn có thể tạo một API key chấp nhận được cho việc sử dụng free tier ngay lập tức mà không cần phải... Ôi trời ơi, Chef Curry, thật tuyệt vời! Chef Curry, Splash Brothers! Và đó trông giống như đậu phụ, đậu phụ barbacoa với cải xoăn, bơ và đậu nành edamame. Tôi thực sự rất thích điều này! Tôi chắc chắn sẽ gửi cái này cho một người tôi quen vì ước mơ của họ là bắt đầu một xe bán đồ ăn chay chủ đề bóng rổ, cũng như một doanh nghiệp kinh doanh bơ hạt chay tùy chỉnh. Tôi nghĩ đó sẽ là một ý tưởng tuyệt vời vì dường như bơ hạt có lợi nhuận từ 50 đến 60%. Vì vậy, nếu ai trong chúng ta cần một kế hoạch sở thích, có lẽ việc phát triển một số sở thích ẩm thực này là một lựa chọn tốt để theo đuổi.

Giới thiệu Mô hình Gemma 4

Một điều khác mà tôi muốn đảm bảo phải đề cập, chúng ta đã nói về nó một chút, và chúng ta có Ian từ nhóm Gemma cũng có mặt ở phía sau. Anh ấy sẽ trở lại vào cuối buổi chiều nay để thảo luận thêm. Nhưng chúng tôi vừa mới phát hành dòng mô hình Gemma 4, chúng cực kỳ mạnh mẽ. Vì vậy, chúng có khả năng vượt trội so với kích thước tham số và compute footprint liên quan, nhưng bạn có thể sử dụng chúng thông qua các API và AI Studio miễn phí. Vì vậy, nếu bạn muốn kiểm tra dòng mô hình Gemma, bạn có thể có trải nghiệm "thử trước khi mua" này trong AI Studio trước khi tải chúng xuống hạ tầng của riêng bạn, nếu chúng ta không nhất thiết phải có một GPU dự phòng ở nhà cất trong tủ quần áo. Bạn có thể chỉ cần gọi nó thông qua giao diện AI Studio. Và nếu bạn nhấp vào... Tôi sẽ thực hiện một prompt khác, sau đó kéo vào một hình ảnh ví dụ. Các mô hình Gemma 4 cũng hỗ trợ hiểu đa phương thức (multimodal understanding), vì vậy chúng có thể phân tích âm thanh, video hoặc hình ảnh. Bạn có thể nói gì đó như "tạo một mô tả ngắn gọn về hình ảnh này", chuyển mức độ suy nghĩ xuống tối thiểu, và sau đó các mô hình Gemma cũng khá nhanh. Vì vậy, nếu bạn cần một mô hình nhẹ hơn, có thể truy cập qua một API mà bạn có thể làm việc miễn phí, hoặc nếu bạn cần một mô hình mà bạn có thể tải xuống, sử dụng trên hạ tầng của riêng bạn, fine tune và chạy miễn phí theo giấy phép Apache 2, các mô hình Gemma 4 là một lựa chọn tuyệt vời để bạn thử. Chúng cũng chạy trên mobile devices cho các phiên bản nhỏ nhất, vì vậy bạn có thể tải một phiên bản xuống cục bộ trên chiếc Pixel của mình. Dòng Pixel tiếp theo, như Pixel 10, sẽ có Gemma được tích hợp sẵn. Và sau đó, trình duyệt Chrome cũng đang tích hợp các mô hình Gemma.

Sáng tạo âm thanh với Mô hình Luria 3

Tuyệt vời! Chúng ta đã thấy chiếc xe bán đồ ăn chay Warrior, chúng ta đã thấy Genie 3, chúng ta đã thấy dòng mô hình mở của mình, một số viên gạch và mảnh ghép Lego. Có vẻ như ứng dụng AI Studio vẫn đang xử lý một chút. Và một trong những điều khác đã được đề cập là mô hình Luria, cũng có sẵn thông qua AI Studio. Vì vậy, nếu chúng ta vào mục âm thanh, bạn có thể thấy một vài mô hình khác nhau có sẵn để thử thông qua API, như Luria 3 Pro preview, Luria 3 clip preview. Ví dụ, nếu tôi nhấp vào cái này, bạn có thể thấy một số mẫu tự động mà bạn có thể sử dụng với nó, như acoustic folk, 90s all rock, v.v. Nhưng tôi thực sự rất thích ứng dụng này mà GEOM đã xây dựng, bạn có thể tìm thấy nó trong thư viện và cũng có thể remix tùy ý. Nó tích hợp các cấu hình âm thanh khác nhau. Vì vậy, nếu chúng ta xem trước cái này, bạn có thể thấy một tùy chọn để tạo âm thanh của riêng mình, một clip, có thể là electronic, danceable, vegan food truck, vegan basketball food truck và Legos. Và sau đó, chúng ta đã nói về tiếng Ý, anh nói ngôn ngữ gì, thưa ngài ở hàng ghế đầu? Vâng, tiếng Tây Ban Nha, xuất sắc! Tiếng Tây Ban Nha, lyrics bằng tiếng Tây Ban Nha. Sau đó, nhấn tạo và chúng ta sẽ thấy clip bắt đầu tổng hợp. Trông nó khá là Tây Ban Nha. Và chúng ta sẽ xem nó có ý nghĩa gì đối với electronic và... Ôi trời ơi, thật tuyệt vời! Tuyệt vời quá! "in the food truck vegan piezas del lego de todos los colores construyendo un mundo de esa buena energía" (trong xe đồ ăn chay, những mảnh Lego đủ màu sắc xây dựng một thế giới đầy năng lượng tích cực). Đây là, bạn biết đấy, nó rất tốt. Vậy là chúng ta có một video cho nó, chúng ta có một bài hát chủ đề cho nó. Rõ ràng đây là điều mà tất cả chúng ta nên... như kế hoạch hậu ASI của chúng ta bây giờ là chúng ta sẽ bắt đầu một xe bán đồ ăn chay chủ đề bóng rổ và Legos. Nhưng đây là mô hình Luria 3 của chúng tôi. Chúng ta đã có một buổi thảo luận tuyệt vời về giới tính và truyền thông ngay trước buổi này, được dẫn dắt bởi Guillem. Vì vậy, nếu bạn bỏ lỡ, nó sẽ được ghi lại và bạn có thể xem lại sau. Chúng tôi cũng sẽ nói một chút về nó trong workshop vào cuối buổi chiều nay. Nhưng một lần nữa, tất cả mã đều có sẵn cho ứng dụng để bạn có thể thử nghiệm và kiểm tra nó. Và sau đó chúng ta cũng sẽ xem xét...

Ứng dụng quản lý sách và tích hợp Gemini vào Robot/AR

Ồ, tuyệt vời! Có vẻ như bookshelf cataloger của chúng ta đã xong rồi. Tôi sẽ đăng nhập bằng Google. Nó sẽ yêu cầu tôi đăng nhập bằng tài khoản Gmail cá nhân của mình. Chúng ta sẽ tiếp tục, vậy là nó đã đăng nhập với tên của tôi, thật tuyệt! Chúng ta sẽ tải một bức ảnh lên. Tôi sẽ tìm một giá sách có sách trên đó, một cái nhỏ hơn để dễ dàng hơn một chút. Hãy thử với một cái đã thử rồi. Chúng ta sẽ xem cái này trông như thế nào. Vâng, cái này có một số văn bản kiểu chữ viết tay mà tôi muốn xem liệu mô hình có thể nhận diện được không, và bạn cũng không thể thực sự nhìn thấy một số tên tác giả. Vì vậy, tôi muốn xem liệu nó có thể xác định được tiêu đề sách mặc dù tôi không thể nhìn thấy tất cả mọi thứ trên gáy sách. Tôi sẽ tải bức ảnh mà chúng ta vừa tải xuống, và nó hiển thị ảnh tải lên mới nhất, nó đang xác định chi tiết sách và thêm tất cả chúng. Vì vậy, nó đã xác định được các loại sách khác nhau, tên tác giả, mô tả sách. Và sau đó, nếu tôi đăng xuất và đăng nhập lại, nó cũng sẽ có thể persist. Vâng, nó persist tất cả các cuốn sách mà tôi đã có trên kệ của mình. Và sau đó, nếu tôi muốn chia sẻ nó với tất cả các bạn, và sao chép liên kết, hãy công khai để bất kỳ ai cũng có thể truy cập. Nếu bất kỳ ai muốn thử ứng dụng bookshelf này, bạn có thể truy cập nó bằng cách thử mã QR code ở đó và truy cập nó, điều này khá điên rồ, phải không? Nó cũng là một lần nhấp nút để deploy lên Cloud Run. Mặc dù tôi muốn không đốt cháy quá nhiều quota của mình, nhưng đó là một khung tôi đã xây dựng để làm điều này cho ứng dụng cụ thể này. Nhưng đó là hầu hết những thứ tôi muốn trình bày.

Vì vậy, hãy quay lại các slide một lần nữa. Tôi ghét slide, tôi khá dị ứng với chúng. Chúng ta sẽ xem điều này hoạt động như thế nào. Vì vậy, chúng ta đã nói về Luria. Một điều khác mà bạn có thể sử dụng mô hình Gemini Live – mô hình tương tác thời gian thực mà chúng ta vừa thử nghiệm – là trong robotics. Đây là một robot tên là Pupper. Nó hoàn toàn là open source, bạn có thể 3D print tất cả các bộ phận. Nó đang chạy Raspberry Pi, tất cả phần mềm đều là open source, nhưng nó đang sử dụng các mô hình Gemini ở hậu trường cho những việc như object detection và để có thể phản ứng với environment của nó. Bạn cũng có thể chạy Gemini Live với Pupper. Bạn có thể sử dụng nó để linh hoạt ra lệnh cho robot phải làm gì. Và cách để orchestrate điều này không phải là để Gemini Live kiểm soát các hành động của robot, mà bạn sẽ để nó xây dựng kế hoạch và sau đó gọi các mô hình có thể chạy cục bộ trên robot để thực hiện những việc như nhặt các vật phẩm cụ thể. Nhưng bạn có thể sử dụng Gemini để xây dựng kế hoạch để hoàn thành các tác vụ đó.

Và sau đó, những thứ như augmented reality (AR). Gemini Live rất tuyệt vời trong việc đưa ra chỉ dẫn, phản ứng với những gì nó nhìn thấy, mô tả cách làm toán có thể trên bảng trắng, và thậm chí cho phép những thứ như real-time transcription (phiên âm thời gian thực) của, ví dụ, nếu ai đó nói chuyện với bạn bằng tiếng Trung Quốc, có thể phiên âm sang tiếng Anh những gì người đó đang nói. Vì vậy, rất nhiều điều thực sự thú vị có thể thực hiện được với các multimodal systems này. Và với đó, có vẻ như đây là một nơi tốt để dừng lại để đặt câu hỏi, và cũng để… Tôi biết tôi là thứ duy nhất ngăn cách tất cả chúng ta với bữa trưa, hy vọng sẽ đưa tất cả chúng ta đến nhà ăn hoặc buổi có đồ ăn sớm một chút. Có ai có câu hỏi nào không? Có ai học được điều gì mới không? Tuyệt vời, tuyệt vời! Vâng, vâng, chúng không giống một codex, nhưng có một kế hoạch để có một AI Studio app mà Logan đã ám chỉ vài lần trên Twitter. Vì vậy, hãy theo dõi. Hãy theo dõi, sẽ rất thú vị để xem và nhóm rất hào hứng. Và bạn cũng có thể sử dụng các API của Gemini với tất cả những thứ bạn biết và yêu thích như OpenClaw. Chúng tôi có một đồng nghiệp tên Gali, người rất nhiệt huyết với thiết lập Telegram cộng với Gemini của anh ấy, và sử dụng nó mọi lúc để gọi các workspace actions và kết hợp với Google Search. Vì vậy, chắc chắn, đặc biệt với free tier cho các mô hình Gemini và một số mô hình Gemini của chúng tôi, Gemini cộng với OpenClaw là một con đường tốt để tiến lên. Tuyệt vời! Cảm ơn tất cả các bạn đã đến, cảm ơn tất cả các bạn đã đến sớm. Và hy vọng sẽ gặp lại các bạn vào ngày mai và cuối buổi chiều nay.

TL;DR

Google DeepMind đang đẩy mạnh ra mắt hàng loạt mô hình AI tiên tiến, nổi bật với khả năng đa phương thức của dòng Gemini, hỗ trợ nhiều loại đầu vào và đầu ra như video, hình ảnh, âm thanh, văn bản và mã.
Nền tảng AI Studio đóng vai trò trung tâm, cho phép người dùng thử nghiệm các mô hình này với các công cụ mạnh mẽ như phân tích video, thực thi mã trong sandbox, tích hợp ngữ cảnh URL và tìm kiếm, cùng khả năng xây dựng ứng dụng toàn diện.
Các mô hình được thiết kế để hoạt động hiệu quả với chi phí thấp, đặc biệt là các phiên bản "Flash" và "Lite", đồng thời cung cấp các tính năng tương tác động như Gemini Live, cho phép trò chuyện đa ngôn ngữ và phân tích thời gian thực qua màn hình hoặc video.

Điểm chính

Sử dụng các phiên bản Gemini 3.1 như Flash và Flash Lite để tận dụng khả năng đa phương thức về cả đầu vào (video, ảnh, âm thanh, văn bản, mã) và đầu ra (văn bản, mã, âm thanh, ảnh), mang lại hiệu suất cao với chi phí thấp.
Khai thác AI Studio (AI.dev) để thử nghiệm mô hình, chọn giữa các phiên bản Gemini và cấu hình các công cụ như structured outputs, code execution, function calling, grounding với Google Search/Maps, và URL context.
Sử dụng tính năng grounding (tìm kiếm hoặc ngữ cảnh URL) để cung cấp cho mô hình thông tin cập nhật hoặc cụ thể ngoài dữ liệu huấn luyện, đảm bảo các phản hồi chính xác và liên quan.
Tận dụng code execution trong AI Studio để cho phép Gemini thực hiện các tác vụ khoa học dữ liệu phức tạp (ví dụ: vẽ bounding box, segmentation mask) trong môi trường sandbox Python an toàn và hiệu quả về chi phí.
Thử nghiệm Gemini Live để xây dựng các ứng dụng tương tác thời gian thực, hỗ trợ chia sẻ màn hình/video/âm thanh, custom function calls, và giao tiếp đa ngôn ngữ với các giọng điệu/phong cách tùy chỉnh.
Sử dụng tính năng "Build" của AI Studio để phát triển và triển khai các ứng dụng hoàn chỉnh, tích hợp các dịch vụ như database (Firestore) và authentication (Google Sign-in) một cách an toàn và dễ dàng.
Ưu tiên các mô hình trọng số nhỏ hơn như Gemini 3.1 Flash Lite kết hợp với các công cụ để đạt được hiệu suất tối ưu và chi phí thấp đáng kể cho các tác vụ phân tích hình ảnh, video và văn bản.

Từ vựng

developer relations — quan hệ nhà phát triển
machine learning — học máy
mô hình — model
đa phương thức — multimodal
đầu vào — input
đầu ra — output
Giao diện lập trình ứng dụng (API) — Application Programming Interface (API)
mã thông báo — token
suy luận — inference
thực thi mã — code execution
grounding — định vị/cung cấp cơ sở thông tin
hộp giới hạn — bounding box

Nội dung chi tiết

Giới thiệu và Tổng quan các Phát hành Gần đây của Google DeepMind

Các phát hành khác bao gồm:

NanoBanana 2 để sinh ảnh và chỉnh sửa.
Mô hình phép nhúng của chúng tôi, hỗ trợ video, hình ảnh, âm thanh, văn bản và mã đều nằm trong cùng một không gian phép nhúng. Điều này cho phép bạn tìm kiếm "hiển thị tất cả nội dung liên quan đến mèo" và nó sẽ hiển thị không chỉ video, hình ảnh về mèo, mà còn cả âm thanh mèo gầm gừ hoặc kêu meo meo, hoặc sách về mèo, v.v.
Luria Freedy để sinh nhạc (mà bạn có thể đã thấy trong phiên Gen Media trước đó).
Genie 3 để xây dựng mô hình thế giới, cho phép tạo ra các thế giới mới một cách linh hoạt dựa trên đầu vào của người dùng.
Bộ runtime đầy đủ cho AI Studio của chúng tôi, bao gồm các thứ như cơ sở dữ liệu và OAuth.
Gemma 4, một phần của dòng mô hình mã nguồn mở của chúng tôi. Chúng tôi rất may mắn có một thành viên của nhóm Gemma tại AIE tuần này.
VO 3.1 Lite để sinh video với chi phí khá hấp dẫn.

Gemini: Khả năng Đa phương thức Vượt trội

Trình diễn AI Studio: Phân tích Video và Thực thi Mã

Phân tích Video với Gemini 3.1 Flash Lite

So sánh Mô hình và Thực thi Mã trên Hình ảnh

Phân tích hình ảnh hiệu quả với chi phí thấp

Sử dụng ngữ cảnh URL và truy xuất tài liệu tùy chỉnh

Các phiên bản mô hình Gemini

Gemini Live: Tương tác đa phương tiện năng động

AI Studio "Build" - Xây dựng và triển khai ứng dụng

Dự án Genie: Tạo thế giới ảo động

Tương tác với AI Studio và Tạo Thế giới trong Project Genie

Khả năng và Giới hạn của Genie 3

Tạo ảnh SVG với Gemini

Cập nhật AI Studio và Mô hình Tạo phương tiện

Xuất SVG và Thực thi Mã

Tạo video và Gợi ý Lời nhắc

Tạo video với AI Studio và `API Key`

Giới thiệu Mô hình Gemma 4

Sáng tạo âm thanh với Mô hình Luria 3

Ứng dụng quản lý sách và tích hợp Gemini vào Robot/AR

Góp ý / Báo lỗiPhát hiện sai sót hoặc có ý tưởng cải thiện?

Giới thiệu và Tổng quan các Phát hành Gần đây của Google DeepMind

Gemini: Khả năng Đa phương thức Vượt trội

Trình diễn AI Studio: Phân tích Video và Thực thi Mã

Phân tích Video với Gemini 3.1 Flash Lite

So sánh Mô hình và Thực thi Mã trên Hình ảnh

Phân tích hình ảnh hiệu quả với chi phí thấp

Sử dụng ngữ cảnh URL và truy xuất tài liệu tùy chỉnh

Các phiên bản mô hình Gemini

Gemini Live: Tương tác đa phương tiện năng động

AI Studio "Build" - Xây dựng và triển khai ứng dụng

Dự án Genie: Tạo thế giới ảo động

Tương tác với AI Studio và Tạo Thế giới trong Project Genie

Khả năng và Giới hạn của Genie 3

Tạo ảnh SVG với Gemini

Cập nhật AI Studio và Mô hình Tạo phương tiện

Xuất SVG và Thực thi Mã

Tạo video và Gợi ý Lời nhắc

Tạo video với AI Studio và API Key

Giới thiệu Mô hình Gemma 4

Sáng tạo âm thanh với Mô hình Luria 3

Ứng dụng quản lý sách và tích hợp Gemini vào Robot/AR

TL;DR

Điểm chính

Từ vựng

Nội dung chi tiết

Giới thiệu và Tổng quan các Phát hành Gần đây của Google DeepMind

Gemini: Khả năng Đa phương thức Vượt trội

Trình diễn AI Studio: Phân tích Video và Thực thi Mã

Phân tích Video với Gemini 3.1 Flash Lite

So sánh Mô hình và Thực thi Mã trên Hình ảnh

Phân tích hình ảnh hiệu quả với chi phí thấp

Sử dụng ngữ cảnh URL và truy xuất tài liệu tùy chỉnh

Các phiên bản mô hình Gemini

Gemini Live: Tương tác đa phương tiện năng động

AI Studio "Build" - Xây dựng và triển khai ứng dụng

Dự án Genie: Tạo thế giới ảo động

Tương tác với AI Studio và Tạo Thế giới trong Project Genie

Khả năng và Giới hạn của Genie 3

Tạo ảnh SVG với Gemini

Cập nhật AI Studio và Mô hình Tạo phương tiện

Xuất SVG và Thực thi Mã

Tạo video và Gợi ý Lời nhắc

Tạo video với AI Studio và API Key

Giới thiệu Mô hình Gemma 4

Sáng tạo âm thanh với Mô hình Luria 3

Ứng dụng quản lý sách và tích hợp Gemini vào Robot/AR

Tạo video với AI Studio và `API Key`

Tạo video với AI Studio và `API Key`