- Gemma 4 là dòng mô hình mở mới nhất của Google, cung cấp nhiều kích thước từ 2 tỷ đến 32 tỷ tham số, được thiết kế để chạy hiệu quả trên nhiều loại thiết bị, từ điện thoại di động đến GPU tiêu dùng.
- Những đổi mới chính bao gồm giấy phép Apache 2.0 thân thiện với cộng đồng và kiến trúc "Per-Layer Embeddings" độc đáo, tối ưu hóa cho hiệu suất trên thiết bị bằng cách giảm tải GPU và tăng cường khả năng đa phương thức, đa ngôn ngữ.
- Gemma 4 đã nhanh chóng tạo ra một hệ sinh thái sôi động với hơn 100.000 mô hình cộng đồng và các biến thể chính thức, ứng dụng rộng rãi từ phát triển ứng dụng Android ngoại tuyến đến nghiên cứu y tế thực tế.
Gemma, DeepMind's Family of Open Models — Omar Sanseviero, Google DeepMind
- Gemma 4 cung cấp một họ các mô hình mở (2B đến 32B tham số) có thể tải xuống, chạy trên hạ tầng riêng và tinh chỉnh cho các trường hợp sử dụng cụ thể.
- Giấy phép Apache 2.0 mới mang lại sự kiểm soát và linh hoạt hơn cho các nhà phát triển và doanh nghiệp sử dụng Gemma 4.
- Kiến trúc "Per-Layer Embeddings" (ví dụ: e2b, e4b) cho phép mô hình hoạt động hiệu quả trên thiết bị di động bằng cách chỉ tải một phần nhỏ tham số vào GPU, còn lại có thể ở CPU hoặc ổ đĩa.
- Gemma 4 hỗ trợ khả năng đa phương thức mạnh mẽ (hiểu hình ảnh, video, âm thanh) và đa ngôn ngữ (huấn luyện trên hơn 140 ngôn ngữ với bộ mã hóa token dựa trên Gemini).
- Các mô hình nhỏ có khả năng thực hiện các tác vụ tác nhân, tạo mã (bao gồm phát triển ứng dụng Android) và chạy hoàn toàn ngoại tuyến trên các thiết bị như điện thoại hoặc Raspberry Pi.
- Một hệ sinh thái mã nguồn mở rộng lớn đã hình thành xung quanh Gemma, với sự tích hợp từ các công cụ và nền tảng như Llama.cpp, Ollama, Hugging Face, vLLM, giúp cộng đồng dễ dàng triển khai và tùy chỉnh.
- Google đã phát hành các biến thể chính thức như Shield Gemma (kiểm duyệt) và Med Gemma (y tế) để phục vụ các trường hợp sử dụng cụ thể trong môi trường sản xuất.
- Gemma 4 có tiềm năng cho các ứng dụng thực tế phức tạp ngoài hội thoại, bao gồm tài chính, pháp lý và đề xuất phác đồ trị liệu.
mô hình mở— open modeltham số— parameterhạ tầng— infrastructurefine-tune— tinh chỉnhđa phương thức— multimodalMoE (Mixture of Experts)— Mixture of Experts (MoE)kiến trúc— architecturePer-Layer Embeddings— Per-Layer Embeddingsbộ mã hóa token— tokenizerhệ sinh thái— ecosystemtrên thiết bị— on-devicegiấy phép— licensetrường hợp sử dụng— use case
Chào mọi người, tôi là Full đây.
Giới thiệu Gemma 4 và Các Mô hình Mở
Tôi thực sự rất vui mừng được chia sẻ trong buổi nói chuyện này vì chỉ bảy ngày trước, chúng tôi đã phát hành Gemma 4. Trước hội nghị này, có ai ở đây đã nghe về Gemma 4 chưa? Tuyệt vời, hầu hết các bạn đã biết rồi.
Gemma 4 là tên dòng sản phẩm của Google, một họ các mô hình mở. Mô hình mở có nghĩa là đây là những mô hình mà bạn có thể lấy, tải xuống, chạy trên hạ tầng của riêng bạn, trên thiết bị của riêng bạn, và bạn có thể fine-tune chúng cho các trường hợp sử dụng của riêng mình.
Khoảng một năm trước, chúng tôi đã phát hành Gemma 3. Khi đó, Gemma 3 là những mô hình mở có khả năng mạnh nhất có thể chạy trên một GPU tiêu dùng duy nhất. Chúng tôi đã thiết kế các mô hình từ 1 tỷ tham số đến 27 tỷ tham số. Và khi đó, trong LMarena, đây là một mô hình rất mạnh. Bạn có thể thấy các mô hình mở khác nhau dưới điểm số LMarena. Và những chấm nhỏ ở phía dưới đại diện cho số lượng H100 hoặc A100 bạn sẽ cần chỉ để có thể tải các mô hình này. Đây là Gemma 3, từ một năm trước. Nhưng bạn có thể thấy rằng ngay cả khi đó là một mô hình từ một năm trước, nó là một mô hình nhỏ hoặc tương đối nhỏ nhưng cực kỳ có khả năng.
Và vâng, tuần trước chúng tôi đã phát hành Gemma 4, và đây là hội nghị đầu tiên của tôi nói về Gemma 4. Vì vậy, tôi rất hào hứng về điều đó. Gemma 4 là họ các mô hình mở có khả năng mạnh nhất mà Google đã phát hành. Tuy nhiên, đây là những mô hình có số tham số từ 2 tỷ đến 32 tỷ. Các mô hình này có các khả năng rất khác nhau, vì vậy tôi sẽ nói một chút về những điều khác biệt này. Và nếu bạn đang tự hỏi chữ 'E' ở đây là gì, tôi cũng sẽ giải thích điều đó trong giây lát.
Khả năng của Gemma 4 trên Thiết bị và MoE
Các mô hình nhỏ nhất có thể chạy trên điện thoại Android, trên iOS, trên iPhone, thậm chí cả trên Raspberry Pi. Đây thực sự là những mô hình rất nhỏ, đa phương thức, có khả năng suy luận, có thể thực hiện những điều rất thú vị, trên thiết bị và mang tính tác nhân. Và có một MoE (Mixture of Experts) mô hình siêu nhanh, có độ trễ rất thấp, một mô hình có thể thực hiện những điều rất tuyệt vời. Và sau đó bạn có mô hình 31B, đó là mô hình thông minh nhất, có khả năng nhất. Vì vậy, khi bạn muốn trí tuệ thuần túy nhất, bạn sẽ sử dụng mô hình lớn này. Nhưng ngay cả mô hình 31B cũng là một mô hình có thể chạy trên GPU tiêu dùng. Vì vậy, tất cả các mô hình này đã được phát triển với các kích thước khác nhau, điều này khá quan trọng đối với chúng tôi.
Hãy để tôi cho các bạn xem một vài ví dụ, giả sử video đã giảm tốc độ. Có rất nhiều điều đang xảy ra ở đây. Hãy bắt đầu với ví dụ bên phải. Đó là một ứng dụng mà bạn có Gemma chạy trực tiếp trên điện thoại Android, nơi bạn có thể chọn các kỹ năng khác nhau. Vì vậy, ở đây bạn có một thiết lập agentic hoàn chỉnh, nơi mô hình đang chọn một kỹ năng để chơi piano. Và sau đó bạn có Gemma chơi piano. Ví dụ bên trái là Gemma live coding, cũng trên thiết bị. Đây là ở chế độ máy bay, không có cuộc gọi API, hoàn toàn chạy trên điện thoại. Và ví dụ ở giữa là trên máy tính xách tay, chúng tôi có 20 hoặc 10 instance của Gemma chạy song song. Mỗi instance đang thực hiện một SVG khác nhau. Và trong vài giây nữa, bạn sẽ thấy 10 SVG được tạo bởi các tác nhân khác nhau, tất cả đều chạy trên thiết bị với Llama.cpp. Và ngay cả khi đó, tốc độ vẫn là khoảng một trăm mã thông báo mỗi giây, và bạn có thể thấy các SVG được tạo bởi 10 mô hình Gemma khác nhau. Gemma là một mô hình tạo mã tốt, nó có thể thực hiện các tác vụ agentic, nó có thể tạo mã, nó thậm chí có thể phát triển ứng dụng Android, và một lần nữa, tất cả đều offline.
Kết quả Benchmark và Cải tiến
Điểm số LMarena khá tốt. Ở đây bạn có thể thấy một loạt các mô hình khác nhau: trục X là số tỷ tham số mà mô hình có, trục Y là điểm số LMarena. Và tôi biết LMarena không phải là điểm chuẩn hoàn hảo, nhưng nó cung cấp cho bạn một số thước đo về mức độ cộng đồng yêu thích mô hình này cho các trường hợp sử dụng tổng quát, như hội thoại và vân vân. Và Gemma có một sự kết hợp tốt giữa sự thân thiện và hữu ích, đồng thời rất có khả năng. Và bạn có thể thấy góc trên bên trái này, điều đó có nghĩa là đây là những mô hình rất nhỏ nhưng rất có khả năng, điều này khá thú vị.
Thật thú vị khi thấy các mô hình đã tiến bộ như thế nào trong hai năm qua. Năm ngoái là Gemma 3, hai năm trước là Gemma 1, xin lỗi, Gemma 2. Và bạn có thể thấy rằng đối với nhiều thứ khác nhau, các mô hình đã trở nên tốt hơn và tốt hơn mà không cần lớn hơn. Điều này đối với tôi khá thú vị vì nếu tôi nghĩ về vị trí của chúng ta trong một hoặc hai năm tới, tôi thực sự nghĩ rằng chúng ta sẽ có những mô hình cực kỳ có khả năng chạy trực tiếp trên các thiết bị của chính chúng ta, trong túi của chúng ta. Tôi sẽ bỏ qua phần điểm chuẩn. Nhưng điều thú vị là Gemma có thể chạy trên máy tính để bàn, máy tính xách tay, điện thoại. Tôi đã gợi ý hôm nay, hoặc vài ngày trước, rằng ai đó đã cài Llama.cpp vào một Nintendo Switch và họ đang sử dụng Llama.cpp để thử Gemma trực tiếp ở đó. Vì vậy, tôi không biết mọi thứ sẽ như thế nào trong vài năm tới, nhưng tôi rất hào hứng.
Giấy phép và Kiến trúc mới
Một điều mà chúng tôi đã nghe rất nhiều với phiên bản Gemma trước đây là giấy phép mà chúng tôi có không tốt. Chúng tôi muốn một giấy phép mã nguồn mở phù hợp. Vì vậy, với Gemma 4, chúng tôi đã thay đổi giấy phép của mình thành một giấy phép Apache 2.0 thực sự mang lại cho bạn sự kiểm soát, bạn có sự linh hoạt của giấy phép Apache 2.0. Vì vậy, điều đó cũng khá tốt.
Bây giờ bạn có lẽ đã nghe về Mixture of Experts. Đó là mô hình 27B, mô hình 26B. Bạn đã nghe về Transformers và mô hình Tensor, nhưng bạn có lẽ chưa bao giờ nghe về chữ 'E' ở đây. Nó là viết tắt của "effectively 2 billion parameters" (hiệu quả 2 tỷ tham số). Vì vậy thực sự, Gemma sẽ là một tham số khách hàng. Nó có khoảng 4 tỷ tham số. Nó có một kiến trúc mới lạ được gọi là Per-Layer Embeddings. Đó là một cái gì đó thực sự đã thành hình vào mùa hè năm ngoái. Có một khối nhỏ ở phía dưới. TLDR ở đây là có một phép nhúng cho mỗi lớp, như tên gọi của nó. Và nó hoạt động như một bảng tra cứu hơn là một tính toán mà bạn cần thực hiện. Vì vậy, đây là một thứ cực kỳ nhanh. Bạn không cần phải có nó trong GPU. Bạn có thể có nó trong CPU. Bạn có thể có nó trong ổ đĩa. Và đây là một quyết định kiến trúc thực sự được tối ưu hóa cho các trường hợp sử dụng trên thiết bị như di động. Đó là lý do tại sao mô hình nhỏ nhất bắt đầu chạy trên Android hoặc iPhone đang sử dụng kiến trúc e2b hoặc e4b này. Vì vậy, ngay cả khi mô hình là 5 tỷ tham số, bạn thực sự chỉ cần tải 2 tỷ tham số vào GPU. Và sau đó phần còn lại có thể nằm trong bộ nhớ chậm hơn nhiều vì bạn không thực hiện bất kỳ phép nhân ma trận nào mà bạn thường làm với kiến trúc Transformer. Và điều này có thể được thực hiện với Llama.cpp bằng một fact đơn giản trên một tensor. Và sau đó bạn di chuyển các per-layer embeddings đến CPU hoặc thậm chí đến ổ đĩa và nó sẽ hoạt động khá tốt out of the box.
Khả năng Multimodal và Multilingual
Một vài điều thú vị khác, các mô hình nhỏ nhất có thể thực hiện hiểu biết đa phương thức cho hình ảnh, cho video và thậm chí cho âm thanh. Vì vậy, bạn có thể thực hiện nhận dạng giọng nói, bạn có thể thực hiện chuyển giọng nói thành văn bản. Ví dụ, tôi có thể nói bằng tiếng Tây Ban Nha và văn bản có thể được phiên âm sang tiếng Pháp. Và sau đó mô hình của bạn có thể thực hiện hiểu biết đa phương thức cực kỳ có khả năng. Ví dụ video, chi tiết hạt mịn, tôi thực sự có một vài ví dụ ở đây.
Ví dụ, nó có thể làm những việc như chỉ ra vị trí của Llama trong hình. Nó có thể thực hiện phát hiện vật thể, vì vậy nó có thể phát hiện các vật thể khác nhau trong một bức ảnh. Và điều thú vị là mô hình này rất đa ngôn ngữ. Gemma 4 được huấn luyện với hơn 140 ngôn ngữ và nó cũng sử dụng bộ mã hóa token dựa trên Gemini. Vì vậy, về cơ bản, tất cả nghiên cứu đa ngôn ngữ làm nền tảng cho Gemini cũng đang hỗ trợ Gemma.
Phần bộ mã hóa token khá thú vị bởi vì, độc lập với khả năng thô của Gemma, bộ mã hóa token này được thiết kế cho các trường hợp sử dụng đa ngôn ngữ và chúng tôi đã dành rất nhiều sự quan tâm cho nó. Điều này thú vị vì nếu bạn muốn tinh chỉnh Gemma cho một ngôn ngữ khác mà có ít tài nguyên kỹ thuật số – ví dụ như một ngôn ngữ bản địa ở Peru, Quechua, hoặc một trong những ngôn ngữ chính thức ở Ấn Độ – bạn có thể chọn mô hình, bạn có thể sử dụng dữ liệu của mình, bạn có thể huấn luyện mô hình. Độc lập với khả năng thô của Gemma, chỉ vì các quyết định về bộ mã hóa token, mọi thứ có xu hướng hoạt động khá tốt out of the box. Sau đó, bạn có thể kết hợp khả năng đa ngôn ngữ với khả năng đa phương thức. Ví dụ ở đây, để lấy văn bản hoặc giải thích một hình ảnh bằng văn bản tiếng Nhật và điều đó khá tuyệt.
Sự phát triển của Hệ sinh thái Gemma
Chúng tôi đã phát hành một mô hình một tuần trước. Chỉ mới hôm qua, chúng tôi đã đạt 10 triệu lượt tải xuống chỉ riêng cho các mô hình cơ sở Gemma. Đã có hơn 1000 mô hình dựa trên Gemma 4, bao gồm các lượng tử hóa hoặc tinh chỉnh của cộng đồng, tổng cộng hơn 500 triệu lượt tải xuống của toàn bộ họ Gemma.
Điều rất thú vị đối với tôi là Gemma không chỉ là một mô hình mà bạn có thể sử dụng, mà nó còn là về việc cho phép hệ sinh thái xây dựng dựa trên nó. Và đó là những gì cộng đồng đã làm trong vài ngày qua. Nó đã đứng đầu một giai đoạn đăng nhập. Mọi người đã xây dựng các ví dụ thú vị; tại chỗ, mọi người đã thực hiện kiểm toán kho lưu trữ đầy đủ bằng Gemma; mọi người đang cài đặt Gemma trên tất cả các loại thiết bị và khám phá tất cả các khả năng, điều này khá tốt.
Và tất cả điều này không chỉ được thực hiện bởi chúng tôi. Chúng tôi hợp tác với một hệ sinh thái mã nguồn mở, chúng tôi làm việc với MLX, Ollama, Hugging Face, vLLM, Silem, và rất nhiều đối tác khác. Chúng tôi muốn đảm bảo rằng khi chúng tôi ra mắt một công cụ mới, cả cho Gemma và ProGemma, mọi người có thể truy cập các khả năng out of the box, đúng không? Họ không nên phải chuyển sang Keras nếu họ muốn tinh chỉnh Gemma. Nếu họ đang tinh chỉnh với Hugging Face Transformers, họ sẽ có thể làm điều đó. Vì vậy, đối với chúng tôi, việc có mặt ở nơi cộng đồng đang ở là rất quan trọng và then chốt. Và đó là lý do tại sao tôi thực sự tuyên dương tất cả những người đang làm việc trong hệ sinh thái mã nguồn mở, những người đang đóng góp cho các công cụ khác nhau, các người bảo trì của tất cả các kho lưu trữ này, bởi vì đó thực sự là một cách để cho phép hệ sinh thái thực hiện những điều tuyệt vời.
Tích hợp sản phẩm và Gemmaverse
Một phần khác mà tôi thích ở Gemma là tất cả các tích hợp sản phẩm mà chúng tôi có thể thực hiện. Ví dụ, Android Studio. Tôi không biết có ai ở đây là nhà phát triển Android không, nhưng Android Studio có một chế độ tác nhân nơi bạn có một tác nhân giúp bạn tạo mã và phát triển. Và hiện có một chế độ ngoại tuyến nơi bạn có thể có một hệ thống được cung cấp bởi Llama.cpp, Ollama hoặc vLLM trong đó Gemma giúp bạn tạo mã cho phát triển Android. Và chúng tôi đã đưa vào một số tập dữ liệu và điểm chuẩn liên quan đến Android khi cung cấp Gemma. Vì vậy, đây thực sự là một mô hình rất có khả năng cho phát triển Android.
Tôi đã nói một chút về số lượng người đang tinh chỉnh và số lượng người đang chia sẻ. Vì vậy, hãy để tôi chia sẻ một chút về Gemmaverse. Con số này đã được cập nhật. Đây là từ tuần trước. Bây giờ chúng tôi có 500 triệu lượt tải xuống, như tôi đã đề cập. Và tổng cộng, Gemma có hơn 100.000 mô hình. Vì vậy, một lần nữa, có thể bạn chỉ muốn sử dụng các mô hình out of the box. Các mô hình mở có thể hoạt động tốt cho bạn, nhưng có thể bạn muốn cải thiện khả năng. Có thể bạn muốn thay đổi phong cách mà mô hình giao tiếp với người dùng. Có thể bạn không muốn một mô hình hội thoại, đúng không? Có thể bạn chỉ muốn một mô hình có thể dự đoán một số điều nhất định trong ngữ cảnh của riêng bạn. Hoặc có thể bạn có quá nhiều GPU ở nhà và bạn chỉ muốn sử dụng chúng. Tôi không biết lý do là gì, nhưng bạn có thể tinh chỉnh các mô hình cho nhiều điều thú vị.
Google đã thực hiện một vài điều mà chúng tôi gọi là biến thể Gemma chính thức. Chúng tôi đã tạo Shield Gemma, là một họ các mô hình được kiểm duyệt. Những mô hình này rất phù hợp cho môi trường sản xuất và các trường hợp sử dụng mà bạn có thể không muốn người dùng đưa vào, ví dụ, hình ảnh độc hại hoặc văn bản độc hại không phù hợp với chính sách mà bạn đã thiết lập. Vì vậy, Shield Gemma là họ các mô hình cho phép bạn làm điều đó. Nhưng sau đó cũng có các loại trường hợp sử dụng khác. Ví dụ, đối với các trường hợp sử dụng y tế, chúng tôi đã phát hành Med Gemma, là một Gemma đa phương thức, một mô hình tinh chỉnh cho các tác vụ y tế khác nhau. Ví dụ như X quang, phân tích X quang ngực và một loạt các thứ khác.
Mô hình mã nguồn mở và khả năng tùy chỉnh
Và một lần nữa, đây là những mô hình mã nguồn mở. Bạn có thể sử dụng chúng và thậm chí có thể tinh chỉnh chúng nhiều hơn nữa nếu bạn có một trường hợp sử dụng cụ thể hơn. Đó là những gì Google đã làm. Nhưng cộng đồng cũng đang thực hiện những điều thú vị. Ví dụ, có AI Singapore, một nhóm đang đào tạo các mô hình cho các ngôn ngữ Đông Nam Á. Có rất nhiều ngôn ngữ và họ đã thực hiện khá nhiều nghiên cứu với các mô hình mã nguồn mở để đẩy xa hơn nữa khả năng tiên tiến về đa ngôn ngữ. Một ví dụ khác là Sarvam. Ở Ấn Độ, có nhiều ngôn ngữ chính thức. Và có một nỗ lực của chính phủ. Họ đang đầu tư vào một vài startup lớn để đào tạo các mô hình quốc gia. Đây là góc nhìn về AI có chủ quyền quốc gia và các ngôn ngữ chính thức. Nhưng mọi người đang thực hiện những điều rất thú vị về khía cạnh đa ngôn ngữ.
Ứng dụng thực tế của mô hình mã nguồn mở
Ngoài ra, còn có khá nhiều nghiên cứu thú vị khác đang diễn ra. Có một bài báo được công bố vào tháng 12 năm ngoái về cách một số nhà nghiên cứu từ DeepMind đã có thể sử dụng JMA-3 để đề xuất một số phác đồ trị liệu ung thư, và điều này đã thực sự được đưa vào một phòng thí nghiệm thực tế. Họ đã có thể xác nhận rằng các phác đồ được đề xuất bởi mô hình dựa trên JMA này thực sự có thể dẫn đến các kết quả thực tế có thể được kiểm chứng. Điều đó khá thú vị vì nó không chỉ là việc trò chuyện hay làm những thứ như nhập vai. Nó còn là việc xây dựng các mô hình có thể được sử dụng cho những việc thực tế giúp ích cho cộng đồng trong nhiều lĩnh vực khác nhau. Dù đó là tài chính, pháp lý, hay các trường hợp sử dụng ngoại tuyến nơi bạn không muốn dữ liệu của mình rời khỏi máy chủ, nếu bạn đang ở trên tàu điện ngầm, trên máy bay và muốn sử dụng AI cho việc gì đó. Nếu bạn muốn có một tiện ích mở rộng chương trình tích hợp JMA để giúp bạn hiểu những gì đang hiển thị trên màn hình, nếu bạn muốn thực hiện điều khiển trên thiết bị, thì các mô hình mã nguồn mở đang tiến tới đó.
Tiềm năng của mô hình mã nguồn mở trên thiết bị
Đối với tôi, điều đó khá thú vị vì nếu bạn so sánh vị trí của chúng ta bây giờ so với một hoặc hai năm trước, các mô hình mã nguồn mở hiện nay có thể thực hiện các tác vụ phức tạp, có tính tác nhân cao, rất thú vị, hoàn toàn trên thiết bị, hoàn toàn trên điện thoại của bạn. Tôi thực sự khuyến khích tất cả các bạn dành khoảng một giờ trong hai tuần tới để thử nghiệm với các mô hình mã nguồn mở mới nhất và cố gắng hiểu khả năng của chúng. Tất nhiên, có nhiều điều mà bạn sẽ muốn sử dụng một mô hình dựa trên API. Nếu bạn muốn trí tuệ thô nhất, bạn sẽ sử dụng Gemini hoặc mô hình bạn chọn. Nhưng nếu bạn muốn có mọi thứ trên thiết bị, có rất nhiều điều thú vị mà bạn có thể làm ngay bây giờ.
Tầm nhìn tương lai và lời kêu gọi hành động
Và đối với tôi, điều thú vị hơn là tôi không biết mọi thứ sẽ như thế nào trong sáu hoặc mười hai tháng tới. Nhưng tôi nghĩ chúng ta đang đi đúng hướng, một hướng rất thú vị, nơi mọi người sẽ có thể sở hữu các mô hình mã nguồn mở cực kỳ mạnh mẽ trên các thiết bị của riêng mình, được tùy chỉnh cho các trường hợp sử dụng của riêng họ với dữ liệu của riêng họ. Vì vậy, hãy thử các mô hình, xây dựng thứ gì đó và chia sẻ nó. Cảm ơn.
TL;DR
- Gemma 4 là dòng mô hình mở mới nhất của Google, cung cấp nhiều kích thước từ 2 tỷ đến 32 tỷ tham số, được thiết kế để chạy hiệu quả trên nhiều loại thiết bị, từ điện thoại di động đến GPU tiêu dùng.
- Những đổi mới chính bao gồm giấy phép Apache 2.0 thân thiện với cộng đồng và kiến trúc "Per-Layer Embeddings" độc đáo, tối ưu hóa cho hiệu suất trên thiết bị bằng cách giảm tải GPU và tăng cường khả năng đa phương thức, đa ngôn ngữ.
- Gemma 4 đã nhanh chóng tạo ra một hệ sinh thái sôi động với hơn 100.000 mô hình cộng đồng và các biến thể chính thức, ứng dụng rộng rãi từ phát triển ứng dụng Android ngoại tuyến đến nghiên cứu y tế thực tế.
Điểm chính
- Gemma 4 cung cấp một họ các mô hình mở (2B đến 32B tham số) có thể tải xuống, chạy trên hạ tầng riêng và tinh chỉnh cho các trường hợp sử dụng cụ thể.
- Giấy phép Apache 2.0 mới mang lại sự kiểm soát và linh hoạt hơn cho các nhà phát triển và doanh nghiệp sử dụng Gemma 4.
- Kiến trúc "Per-Layer Embeddings" (ví dụ: e2b, e4b) cho phép mô hình hoạt động hiệu quả trên thiết bị di động bằng cách chỉ tải một phần nhỏ tham số vào GPU, còn lại có thể ở CPU hoặc ổ đĩa.
- Gemma 4 hỗ trợ khả năng đa phương thức mạnh mẽ (hiểu hình ảnh, video, âm thanh) và đa ngôn ngữ (huấn luyện trên hơn 140 ngôn ngữ với bộ mã hóa token dựa trên Gemini).
- Các mô hình nhỏ có khả năng thực hiện các tác vụ tác nhân, tạo mã (bao gồm phát triển ứng dụng Android) và chạy hoàn toàn ngoại tuyến trên các thiết bị như điện thoại hoặc Raspberry Pi.
- Một hệ sinh thái mã nguồn mở rộng lớn đã hình thành xung quanh Gemma, với sự tích hợp từ các công cụ và nền tảng như Llama.cpp, Ollama, Hugging Face, vLLM, giúp cộng đồng dễ dàng triển khai và tùy chỉnh.
- Google đã phát hành các biến thể chính thức như Shield Gemma (kiểm duyệt) và Med Gemma (y tế) để phục vụ các trường hợp sử dụng cụ thể trong môi trường sản xuất.
- Gemma 4 có tiềm năng cho các ứng dụng thực tế phức tạp ngoài hội thoại, bao gồm tài chính, pháp lý và đề xuất phác đồ trị liệu.
Từ vựng
mô hình mở— open modeltham số— parameterhạ tầng— infrastructurefine-tune— tinh chỉnhđa phương thức— multimodalMoE (Mixture of Experts)— Mixture of Experts (MoE)kiến trúc— architecturePer-Layer Embeddings— Per-Layer Embeddingsbộ mã hóa token— tokenizerhệ sinh thái— ecosystemtrên thiết bị— on-devicegiấy phép— licensetrường hợp sử dụng— use case
Nội dung chi tiết
Chào mọi người, tôi là Full đây.
Giới thiệu Gemma 4 và Các Mô hình Mở
Tôi thực sự rất vui mừng được chia sẻ trong buổi nói chuyện này vì chỉ bảy ngày trước, chúng tôi đã phát hành Gemma 4. Trước hội nghị này, có ai ở đây đã nghe về Gemma 4 chưa? Tuyệt vời, hầu hết các bạn đã biết rồi.
Gemma 4 là tên dòng sản phẩm của Google, một họ các mô hình mở. Mô hình mở có nghĩa là đây là những mô hình mà bạn có thể lấy, tải xuống, chạy trên hạ tầng của riêng bạn, trên thiết bị của riêng bạn, và bạn có thể fine-tune chúng cho các trường hợp sử dụng của riêng mình.
Khoảng một năm trước, chúng tôi đã phát hành Gemma 3. Khi đó, Gemma 3 là những mô hình mở có khả năng mạnh nhất có thể chạy trên một GPU tiêu dùng duy nhất. Chúng tôi đã thiết kế các mô hình từ 1 tỷ tham số đến 27 tỷ tham số. Và khi đó, trong LMarena, đây là một mô hình rất mạnh. Bạn có thể thấy các mô hình mở khác nhau dưới điểm số LMarena. Và những chấm nhỏ ở phía dưới đại diện cho số lượng H100 hoặc A100 bạn sẽ cần chỉ để có thể tải các mô hình này. Đây là Gemma 3, từ một năm trước. Nhưng bạn có thể thấy rằng ngay cả khi đó là một mô hình từ một năm trước, nó là một mô hình nhỏ hoặc tương đối nhỏ nhưng cực kỳ có khả năng.
Và vâng, tuần trước chúng tôi đã phát hành Gemma 4, và đây là hội nghị đầu tiên của tôi nói về Gemma 4. Vì vậy, tôi rất hào hứng về điều đó. Gemma 4 là họ các mô hình mở có khả năng mạnh nhất mà Google đã phát hành. Tuy nhiên, đây là những mô hình có số tham số từ 2 tỷ đến 32 tỷ. Các mô hình này có các khả năng rất khác nhau, vì vậy tôi sẽ nói một chút về những điều khác biệt này. Và nếu bạn đang tự hỏi chữ 'E' ở đây là gì, tôi cũng sẽ giải thích điều đó trong giây lát.
Khả năng của Gemma 4 trên Thiết bị và MoE
Các mô hình nhỏ nhất có thể chạy trên điện thoại Android, trên iOS, trên iPhone, thậm chí cả trên Raspberry Pi. Đây thực sự là những mô hình rất nhỏ, đa phương thức, có khả năng suy luận, có thể thực hiện những điều rất thú vị, trên thiết bị và mang tính tác nhân. Và có một MoE (Mixture of Experts) mô hình siêu nhanh, có độ trễ rất thấp, một mô hình có thể thực hiện những điều rất tuyệt vời. Và sau đó bạn có mô hình 31B, đó là mô hình thông minh nhất, có khả năng nhất. Vì vậy, khi bạn muốn trí tuệ thuần túy nhất, bạn sẽ sử dụng mô hình lớn này. Nhưng ngay cả mô hình 31B cũng là một mô hình có thể chạy trên GPU tiêu dùng. Vì vậy, tất cả các mô hình này đã được phát triển với các kích thước khác nhau, điều này khá quan trọng đối với chúng tôi.
Hãy để tôi cho các bạn xem một vài ví dụ, giả sử video đã giảm tốc độ. Có rất nhiều điều đang xảy ra ở đây. Hãy bắt đầu với ví dụ bên phải. Đó là một ứng dụng mà bạn có Gemma chạy trực tiếp trên điện thoại Android, nơi bạn có thể chọn các kỹ năng khác nhau. Vì vậy, ở đây bạn có một thiết lập agentic hoàn chỉnh, nơi mô hình đang chọn một kỹ năng để chơi piano. Và sau đó bạn có Gemma chơi piano. Ví dụ bên trái là Gemma live coding, cũng trên thiết bị. Đây là ở chế độ máy bay, không có cuộc gọi API, hoàn toàn chạy trên điện thoại. Và ví dụ ở giữa là trên máy tính xách tay, chúng tôi có 20 hoặc 10 instance của Gemma chạy song song. Mỗi instance đang thực hiện một SVG khác nhau. Và trong vài giây nữa, bạn sẽ thấy 10 SVG được tạo bởi các tác nhân khác nhau, tất cả đều chạy trên thiết bị với Llama.cpp. Và ngay cả khi đó, tốc độ vẫn là khoảng một trăm mã thông báo mỗi giây, và bạn có thể thấy các SVG được tạo bởi 10 mô hình Gemma khác nhau. Gemma là một mô hình tạo mã tốt, nó có thể thực hiện các tác vụ agentic, nó có thể tạo mã, nó thậm chí có thể phát triển ứng dụng Android, và một lần nữa, tất cả đều offline.
Kết quả Benchmark và Cải tiến
Điểm số LMarena khá tốt. Ở đây bạn có thể thấy một loạt các mô hình khác nhau: trục X là số tỷ tham số mà mô hình có, trục Y là điểm số LMarena. Và tôi biết LMarena không phải là điểm chuẩn hoàn hảo, nhưng nó cung cấp cho bạn một số thước đo về mức độ cộng đồng yêu thích mô hình này cho các trường hợp sử dụng tổng quát, như hội thoại và vân vân. Và Gemma có một sự kết hợp tốt giữa sự thân thiện và hữu ích, đồng thời rất có khả năng. Và bạn có thể thấy góc trên bên trái này, điều đó có nghĩa là đây là những mô hình rất nhỏ nhưng rất có khả năng, điều này khá thú vị.
Thật thú vị khi thấy các mô hình đã tiến bộ như thế nào trong hai năm qua. Năm ngoái là Gemma 3, hai năm trước là Gemma 1, xin lỗi, Gemma 2. Và bạn có thể thấy rằng đối với nhiều thứ khác nhau, các mô hình đã trở nên tốt hơn và tốt hơn mà không cần lớn hơn. Điều này đối với tôi khá thú vị vì nếu tôi nghĩ về vị trí của chúng ta trong một hoặc hai năm tới, tôi thực sự nghĩ rằng chúng ta sẽ có những mô hình cực kỳ có khả năng chạy trực tiếp trên các thiết bị của chính chúng ta, trong túi của chúng ta. Tôi sẽ bỏ qua phần điểm chuẩn. Nhưng điều thú vị là Gemma có thể chạy trên máy tính để bàn, máy tính xách tay, điện thoại. Tôi đã gợi ý hôm nay, hoặc vài ngày trước, rằng ai đó đã cài Llama.cpp vào một Nintendo Switch và họ đang sử dụng Llama.cpp để thử Gemma trực tiếp ở đó. Vì vậy, tôi không biết mọi thứ sẽ như thế nào trong vài năm tới, nhưng tôi rất hào hứng.
Giấy phép và Kiến trúc mới
Một điều mà chúng tôi đã nghe rất nhiều với phiên bản Gemma trước đây là giấy phép mà chúng tôi có không tốt. Chúng tôi muốn một giấy phép mã nguồn mở phù hợp. Vì vậy, với Gemma 4, chúng tôi đã thay đổi giấy phép của mình thành một giấy phép Apache 2.0 thực sự mang lại cho bạn sự kiểm soát, bạn có sự linh hoạt của giấy phép Apache 2.0. Vì vậy, điều đó cũng khá tốt.
Bây giờ bạn có lẽ đã nghe về Mixture of Experts. Đó là mô hình 27B, mô hình 26B. Bạn đã nghe về Transformers và mô hình Tensor, nhưng bạn có lẽ chưa bao giờ nghe về chữ 'E' ở đây. Nó là viết tắt của "effectively 2 billion parameters" (hiệu quả 2 tỷ tham số). Vì vậy thực sự, Gemma sẽ là một tham số khách hàng. Nó có khoảng 4 tỷ tham số. Nó có một kiến trúc mới lạ được gọi là Per-Layer Embeddings. Đó là một cái gì đó thực sự đã thành hình vào mùa hè năm ngoái. Có một khối nhỏ ở phía dưới. TLDR ở đây là có một phép nhúng cho mỗi lớp, như tên gọi của nó. Và nó hoạt động như một bảng tra cứu hơn là một tính toán mà bạn cần thực hiện. Vì vậy, đây là một thứ cực kỳ nhanh. Bạn không cần phải có nó trong GPU. Bạn có thể có nó trong CPU. Bạn có thể có nó trong ổ đĩa. Và đây là một quyết định kiến trúc thực sự được tối ưu hóa cho các trường hợp sử dụng trên thiết bị như di động. Đó là lý do tại sao mô hình nhỏ nhất bắt đầu chạy trên Android hoặc iPhone đang sử dụng kiến trúc e2b hoặc e4b này. Vì vậy, ngay cả khi mô hình là 5 tỷ tham số, bạn thực sự chỉ cần tải 2 tỷ tham số vào GPU. Và sau đó phần còn lại có thể nằm trong bộ nhớ chậm hơn nhiều vì bạn không thực hiện bất kỳ phép nhân ma trận nào mà bạn thường làm với kiến trúc Transformer. Và điều này có thể được thực hiện với Llama.cpp bằng một fact đơn giản trên một tensor. Và sau đó bạn di chuyển các per-layer embeddings đến CPU hoặc thậm chí đến ổ đĩa và nó sẽ hoạt động khá tốt out of the box.
Khả năng Multimodal và Multilingual
Một vài điều thú vị khác, các mô hình nhỏ nhất có thể thực hiện hiểu biết đa phương thức cho hình ảnh, cho video và thậm chí cho âm thanh. Vì vậy, bạn có thể thực hiện nhận dạng giọng nói, bạn có thể thực hiện chuyển giọng nói thành văn bản. Ví dụ, tôi có thể nói bằng tiếng Tây Ban Nha và văn bản có thể được phiên âm sang tiếng Pháp. Và sau đó mô hình của bạn có thể thực hiện hiểu biết đa phương thức cực kỳ có khả năng. Ví dụ video, chi tiết hạt mịn, tôi thực sự có một vài ví dụ ở đây.
Ví dụ, nó có thể làm những việc như chỉ ra vị trí của Llama trong hình. Nó có thể thực hiện phát hiện vật thể, vì vậy nó có thể phát hiện các vật thể khác nhau trong một bức ảnh. Và điều thú vị là mô hình này rất đa ngôn ngữ. Gemma 4 được huấn luyện với hơn 140 ngôn ngữ và nó cũng sử dụng bộ mã hóa token dựa trên Gemini. Vì vậy, về cơ bản, tất cả nghiên cứu đa ngôn ngữ làm nền tảng cho Gemini cũng đang hỗ trợ Gemma.
Phần bộ mã hóa token khá thú vị bởi vì, độc lập với khả năng thô của Gemma, bộ mã hóa token này được thiết kế cho các trường hợp sử dụng đa ngôn ngữ và chúng tôi đã dành rất nhiều sự quan tâm cho nó. Điều này thú vị vì nếu bạn muốn tinh chỉnh Gemma cho một ngôn ngữ khác mà có ít tài nguyên kỹ thuật số – ví dụ như một ngôn ngữ bản địa ở Peru, Quechua, hoặc một trong những ngôn ngữ chính thức ở Ấn Độ – bạn có thể chọn mô hình, bạn có thể sử dụng dữ liệu của mình, bạn có thể huấn luyện mô hình. Độc lập với khả năng thô của Gemma, chỉ vì các quyết định về bộ mã hóa token, mọi thứ có xu hướng hoạt động khá tốt out of the box. Sau đó, bạn có thể kết hợp khả năng đa ngôn ngữ với khả năng đa phương thức. Ví dụ ở đây, để lấy văn bản hoặc giải thích một hình ảnh bằng văn bản tiếng Nhật và điều đó khá tuyệt.
Sự phát triển của Hệ sinh thái Gemma
Chúng tôi đã phát hành một mô hình một tuần trước. Chỉ mới hôm qua, chúng tôi đã đạt 10 triệu lượt tải xuống chỉ riêng cho các mô hình cơ sở Gemma. Đã có hơn 1000 mô hình dựa trên Gemma 4, bao gồm các lượng tử hóa hoặc tinh chỉnh của cộng đồng, tổng cộng hơn 500 triệu lượt tải xuống của toàn bộ họ Gemma.
Điều rất thú vị đối với tôi là Gemma không chỉ là một mô hình mà bạn có thể sử dụng, mà nó còn là về việc cho phép hệ sinh thái xây dựng dựa trên nó. Và đó là những gì cộng đồng đã làm trong vài ngày qua. Nó đã đứng đầu một giai đoạn đăng nhập. Mọi người đã xây dựng các ví dụ thú vị; tại chỗ, mọi người đã thực hiện kiểm toán kho lưu trữ đầy đủ bằng Gemma; mọi người đang cài đặt Gemma trên tất cả các loại thiết bị và khám phá tất cả các khả năng, điều này khá tốt.
Và tất cả điều này không chỉ được thực hiện bởi chúng tôi. Chúng tôi hợp tác với một hệ sinh thái mã nguồn mở, chúng tôi làm việc với MLX, Ollama, Hugging Face, vLLM, Silem, và rất nhiều đối tác khác. Chúng tôi muốn đảm bảo rằng khi chúng tôi ra mắt một công cụ mới, cả cho Gemma và ProGemma, mọi người có thể truy cập các khả năng out of the box, đúng không? Họ không nên phải chuyển sang Keras nếu họ muốn tinh chỉnh Gemma. Nếu họ đang tinh chỉnh với Hugging Face Transformers, họ sẽ có thể làm điều đó. Vì vậy, đối với chúng tôi, việc có mặt ở nơi cộng đồng đang ở là rất quan trọng và then chốt. Và đó là lý do tại sao tôi thực sự tuyên dương tất cả những người đang làm việc trong hệ sinh thái mã nguồn mở, những người đang đóng góp cho các công cụ khác nhau, các người bảo trì của tất cả các kho lưu trữ này, bởi vì đó thực sự là một cách để cho phép hệ sinh thái thực hiện những điều tuyệt vời.
Tích hợp sản phẩm và Gemmaverse
Một phần khác mà tôi thích ở Gemma là tất cả các tích hợp sản phẩm mà chúng tôi có thể thực hiện. Ví dụ, Android Studio. Tôi không biết có ai ở đây là nhà phát triển Android không, nhưng Android Studio có một chế độ tác nhân nơi bạn có một tác nhân giúp bạn tạo mã và phát triển. Và hiện có một chế độ ngoại tuyến nơi bạn có thể có một hệ thống được cung cấp bởi Llama.cpp, Ollama hoặc vLLM trong đó Gemma giúp bạn tạo mã cho phát triển Android. Và chúng tôi đã đưa vào một số tập dữ liệu và điểm chuẩn liên quan đến Android khi cung cấp Gemma. Vì vậy, đây thực sự là một mô hình rất có khả năng cho phát triển Android.
Tôi đã nói một chút về số lượng người đang tinh chỉnh và số lượng người đang chia sẻ. Vì vậy, hãy để tôi chia sẻ một chút về Gemmaverse. Con số này đã được cập nhật. Đây là từ tuần trước. Bây giờ chúng tôi có 500 triệu lượt tải xuống, như tôi đã đề cập. Và tổng cộng, Gemma có hơn 100.000 mô hình. Vì vậy, một lần nữa, có thể bạn chỉ muốn sử dụng các mô hình out of the box. Các mô hình mở có thể hoạt động tốt cho bạn, nhưng có thể bạn muốn cải thiện khả năng. Có thể bạn muốn thay đổi phong cách mà mô hình giao tiếp với người dùng. Có thể bạn không muốn một mô hình hội thoại, đúng không? Có thể bạn chỉ muốn một mô hình có thể dự đoán một số điều nhất định trong ngữ cảnh của riêng bạn. Hoặc có thể bạn có quá nhiều GPU ở nhà và bạn chỉ muốn sử dụng chúng. Tôi không biết lý do là gì, nhưng bạn có thể tinh chỉnh các mô hình cho nhiều điều thú vị.
Google đã thực hiện một vài điều mà chúng tôi gọi là biến thể Gemma chính thức. Chúng tôi đã tạo Shield Gemma, là một họ các mô hình được kiểm duyệt. Những mô hình này rất phù hợp cho môi trường sản xuất và các trường hợp sử dụng mà bạn có thể không muốn người dùng đưa vào, ví dụ, hình ảnh độc hại hoặc văn bản độc hại không phù hợp với chính sách mà bạn đã thiết lập. Vì vậy, Shield Gemma là họ các mô hình cho phép bạn làm điều đó. Nhưng sau đó cũng có các loại trường hợp sử dụng khác. Ví dụ, đối với các trường hợp sử dụng y tế, chúng tôi đã phát hành Med Gemma, là một Gemma đa phương thức, một mô hình tinh chỉnh cho các tác vụ y tế khác nhau. Ví dụ như X quang, phân tích X quang ngực và một loạt các thứ khác.
Mô hình mã nguồn mở và khả năng tùy chỉnh
Và một lần nữa, đây là những mô hình mã nguồn mở. Bạn có thể sử dụng chúng và thậm chí có thể tinh chỉnh chúng nhiều hơn nữa nếu bạn có một trường hợp sử dụng cụ thể hơn. Đó là những gì Google đã làm. Nhưng cộng đồng cũng đang thực hiện những điều thú vị. Ví dụ, có AI Singapore, một nhóm đang đào tạo các mô hình cho các ngôn ngữ Đông Nam Á. Có rất nhiều ngôn ngữ và họ đã thực hiện khá nhiều nghiên cứu với các mô hình mã nguồn mở để đẩy xa hơn nữa khả năng tiên tiến về đa ngôn ngữ. Một ví dụ khác là Sarvam. Ở Ấn Độ, có nhiều ngôn ngữ chính thức. Và có một nỗ lực của chính phủ. Họ đang đầu tư vào một vài startup lớn để đào tạo các mô hình quốc gia. Đây là góc nhìn về AI có chủ quyền quốc gia và các ngôn ngữ chính thức. Nhưng mọi người đang thực hiện những điều rất thú vị về khía cạnh đa ngôn ngữ.
Ứng dụng thực tế của mô hình mã nguồn mở
Ngoài ra, còn có khá nhiều nghiên cứu thú vị khác đang diễn ra. Có một bài báo được công bố vào tháng 12 năm ngoái về cách một số nhà nghiên cứu từ DeepMind đã có thể sử dụng JMA-3 để đề xuất một số phác đồ trị liệu ung thư, và điều này đã thực sự được đưa vào một phòng thí nghiệm thực tế. Họ đã có thể xác nhận rằng các phác đồ được đề xuất bởi mô hình dựa trên JMA này thực sự có thể dẫn đến các kết quả thực tế có thể được kiểm chứng. Điều đó khá thú vị vì nó không chỉ là việc trò chuyện hay làm những thứ như nhập vai. Nó còn là việc xây dựng các mô hình có thể được sử dụng cho những việc thực tế giúp ích cho cộng đồng trong nhiều lĩnh vực khác nhau. Dù đó là tài chính, pháp lý, hay các trường hợp sử dụng ngoại tuyến nơi bạn không muốn dữ liệu của mình rời khỏi máy chủ, nếu bạn đang ở trên tàu điện ngầm, trên máy bay và muốn sử dụng AI cho việc gì đó. Nếu bạn muốn có một tiện ích mở rộng chương trình tích hợp JMA để giúp bạn hiểu những gì đang hiển thị trên màn hình, nếu bạn muốn thực hiện điều khiển trên thiết bị, thì các mô hình mã nguồn mở đang tiến tới đó.
Tiềm năng của mô hình mã nguồn mở trên thiết bị
Đối với tôi, điều đó khá thú vị vì nếu bạn so sánh vị trí của chúng ta bây giờ so với một hoặc hai năm trước, các mô hình mã nguồn mở hiện nay có thể thực hiện các tác vụ phức tạp, có tính tác nhân cao, rất thú vị, hoàn toàn trên thiết bị, hoàn toàn trên điện thoại của bạn. Tôi thực sự khuyến khích tất cả các bạn dành khoảng một giờ trong hai tuần tới để thử nghiệm với các mô hình mã nguồn mở mới nhất và cố gắng hiểu khả năng của chúng. Tất nhiên, có nhiều điều mà bạn sẽ muốn sử dụng một mô hình dựa trên API. Nếu bạn muốn trí tuệ thô nhất, bạn sẽ sử dụng Gemini hoặc mô hình bạn chọn. Nhưng nếu bạn muốn có mọi thứ trên thiết bị, có rất nhiều điều thú vị mà bạn có thể làm ngay bây giờ.
Tầm nhìn tương lai và lời kêu gọi hành động
Và đối với tôi, điều thú vị hơn là tôi không biết mọi thứ sẽ như thế nào trong sáu hoặc mười hai tháng tới. Nhưng tôi nghĩ chúng ta đang đi đúng hướng, một hướng rất thú vị, nơi mọi người sẽ có thể sở hữu các mô hình mã nguồn mở cực kỳ mạnh mẽ trên các thiết bị của riêng mình, được tùy chỉnh cho các trường hợp sử dụng của riêng họ với dữ liệu của riêng họ. Vì vậy, hãy thử các mô hình, xây dựng thứ gì đó và chia sẻ nó. Cảm ơn.