Running LLMs on your iPhone: 40 tok/s Gemma 4 with MLX — Adrien Grondin, Locally AI

MLX is an Apple-optimized machine learning framework designed to run AI models efficiently on Apple Silicon devices like iPhones, iPads, and Macs.
The Local AI application demonstrates how to deploy models such as GEMA 4 directly on-device using MLX, offering fast inference speeds even with advanced models.
Techniques like 4-bit quantization are crucial for optimizing model size and performance on mobile hardware, making it feasible to run complex AI locally.

MLX is an Apple framework optimized for on-device machine learning, leveraging the performance of Apple Silicon processors across Mac, iPad, and iPhone.
The Local AI app, developed by the speaker, showcases running AI models locally on iPhones using MLX for conversational AI.
MLX supports a variety of model types, including large language models (LLMs) like GEMA 4, visual language models (VLMs), and models for image generation.
Integrating and deploying MLX-compatible models is designed to be straightforward, potentially allowing a basic application setup in under 10 minutes.
Quantization, particularly 4-bit quantization, is highly recommended for MLX models to reduce model size (e.g., 1-3 GB) and significantly boost inference speed on mobile devices.
A 4-bit quantized GEMA 4 model can achieve speeds of up to 40 tokens per second on a recent iPhone, demonstrating robust on-device performance.
MLX models are typically available for download from community repositories, allowing developers to integrate pre-trained models without needing to build them from scratch.
LM Studio is mentioned as a tool compatible with MLX for managing and serving local AI models and creating local servers.
While many models are available, it's noted that not all models perform equally well with MLX, emphasizing the importance of selection.

MLX — An open-source machine learning framework developed by Apple for efficient execution of AI models on Apple Silicon. Local AI — A chatbot application that runs AI models directly on a user's device, without needing a cloud server. GEMA 4 — A specific large language model mentioned as being compatible with and performant on MLX. On-device model — An artificial intelligence model that runs locally on a user's hardware (e.g., smartphone, laptop) rather than relying on remote servers. Apple Silicon — The custom-designed ARM-based processors developed by Apple for its Mac computers, iPads, and iPhones. Framework — A standardized, reusable software environment providing a foundation for building applications, including tools, libraries, and APIs. Quantization — A technique in machine learning to reduce the precision of a model's numerical weights (e.g., from 32-bit floating point to 4-bit integer), decreasing model size and improving inference speed, often with minimal impact on accuracy. Tokens per second — A performance metric for large language models, indicating how many linguistic units (words or sub-word units) the model can generate in one second. LM Studio — A desktop application that allows users to discover, download, and run various large language models locally on their computers. VLM (Visual Language Model) — An AI model capable of understanding and processing both visual data (images, video) and textual data.

Bonjour, tout le monde. Je vais vous montrer aujourd'hui, pour faire un gm4 avec MLX. Donc, je vais vous montrer à moi, je suis Adrien. Vous pouvez trouver ma Twitter, si vous voulez le faire, ou de plus de choses sur le device. Je suis le développeur de local AI. Ou peut-être que vous avez déjà vu le app. local AI est un chatbot qui est un audio-youtuber sur les modèles de device, sur votre iPhone avec MLX. Je vais juste au niveau de l'amélique, dans un moment de quelques secondes. Comme je dis, c'est un chatbot, c'est pour l'inviter. Vous pouvez aussi le chat avec l'appel de l'affaire, avec elle. Et les modèles de l'amélique, comme des modèles compatible avec MLX. Et une de ces modèles est gm4. Donc, d'ailleurs, en même temps, il y a beaucoup de modèles. Et les modèles de l'amélique, comme des modèles de l'amélique, et ils sont très écrits. Peut-être que vous avez vu le Twitter, une fois que j'ai fait le post-avis, que je démarrais quand on est en l'appel de l'amélique. C'est vraiment fast, c'est quand même très bien en MLX. Et bien, l'amélique, c'est un framework, qui est optimisé pour l'appel de l'amélique. Donc, il peut aussi être un chiffre d'amélique, mais aussi des chiffres sur le mac. Le mac, l'appel de l'amélique, est évolué à l'ipad. Il est aussi très bien dans cette device et macOS. Et tout ce qui est dur pour être optimisé, c'est possible sur les devices. Donc, si vous voulez en avoir un téléphone de longues modèles, donc, GEMA, vous pouvez aussi avoir beaucoup de modèles que vous pouvez rentrer. Le modèle de l'amélique, le modèle de l'amélique, le reste que vous voulez, vous voulez aller au GitHub et aller au Mélique, avec l'amélique. Je ne vais pas en parler au détail de la réplmentation de l'amélique. Je vais vous laisser votre agent à l'amélique pour vous, mais c'est un réplment que vous devez installer si vous vous êtes développés à l'amélique, à macOS, à l'appel de l'appel. Vous pouvez utiliser cela pour simplement d'enlever le modèle. Et puis, vous vous rendez le API, c'est très très très fort, très simple pour vous implementer. En plus, 10 minutes, vous pouvez avoir un usap avec le modèle que vous faites. C'est très simple pour vous faire, comme je vous ai dit. Mélique, c'est un mélique SwiftLM, mais si vous vous êtes plus en train de faire le modèle de l'amélique, vous pouvez aussi vous rendez le mélique VLM, des prins, peut-être que vous avez vu un truc qui est en train de faire un défi pour audio avec l'amélique audio et visual modèle avec l'amélique VLM et aussi l'amélique VDO pour faire une image générale ou une image générale. L'amélique, c'est un très cool système qui est très bien égoutte. C'est très très bon. Vous pouvez faire beaucoup de choses comme des modèles, comme je dis, des textes de speech, des textes de speech. Il y a beaucoup de choses que vous pouvez faire avec le modèle. Et bien, vous dites que vous intégrerez cette modèle, vous ne pouvez pas juste faire une modèle sur cela. Vous ne needez pas de faire une modèle et il y a une bonne place pour faire une modèle. C'est un face qui est très bien sûr que vous avez une autre face. Et en une face, vous ne voulez pas faire une mélique pour l'amélique VLM. C'est où, comme tout le modèle de l'amélique, le quantiser, le sens de la full size, vous vous pliez à l'amélique. Vous pouvez juste faire une communauté sur cela. Vous pouvez voir les modèles. Je pense que vous ne pouvez pas faire une modèle sur cela. Donc, le monde est très active sur cela. Quand le modèle est réalisé par le modèle, vous vous pliez à l'amélique à 30 minutes, vous vous pliez à 4,6 minutes. Vous pouvez imaginer que vous avez une exemple pour GIMMA, qui est le modèle sur l'amélique. Il y a beaucoup de variants de l'amélique, et il y a 5,6 minutes pour faire une mélique. Vous ne le faites pas de mélique, vous installez avec votre agent ou d' anything. Vous allez à l'amélique de l'amélique et vous vous prenez la modèle. Vous pouvez juste passer à la frein-mourque. Vous pouvez être intégrés avec une face qui ne vous ne le donne pas de modèle. Vous pouvez juste faire une modèle sur l'amélique. Vous pouvez juste faire une modèle sur l'amélique. Vous pouvez juste passer à la frein-mourque. Quand vous le prenez à l'amélique, vous voulez qu'on soit en train de sélectionner parce que la foule est très large. Le récommentant est en train de sélectionner sur la foule. Il y a une hâte de 3-4 beats. Par exemple, l'amélique de 4 beats elle est très large. Elle est dans la foule. L'amélique est très large, car l'amélique est très large et elle est pas grave. L'amélique est très large et elle est pas grave. Et elle est très large. Elle est très large. Par exemple, il y a une hâte de 3-5. Par exemple, c'est unalth comme des pyrches. J'ai au niveau pour les pérates et unalth comme une hâte de 4. très vite et très efficace à l'adversaire de faire des processus de textes et des choses comme ça. Et sur le latest iPhone, comme si vous avez fait la gima 4Hubie, contisez-le en 4 bits, c'est très vite. Comme ça peut être une fois facilement à 40 tokens, 40 tokens, pour un moment. Je vais juste faire un update dans le slide, parce que je remets le slide où il y a un vidéo, mais peut-être que je peux le mettre à l'autre, parce que j'ai un peu plus de temps. Juste comme ça, je vais juste vous montrer dans lesquels le 4Hubie peut être un peu plus facile. Et ça va être un offline, et comme vous pouvez le voir, c'est vraiment facile. Le 4Hubie peut être plus un peu plus acceptable pour beaucoup de l'unité de l'unité. C'est de course, la streaming, vous pouvez aussi faire du streaming et le UI que vous pouvez juste faire pour 4Hubie. Et pour ce que vous avez pu faire, c'est très long. Donc c'est de générer beaucoup de tokens. Donc, sur le même niveau avec Amelix, on est ici. C'est vraiment pas très difficile, vraiment pas difficile pour intégrer. Comme je vous dis, si vous allez sur le report Amelix, on fait très très très très de l'attention pour l'attention. En plus de ça, comme je dis, le même niveau de l'information est très grave, mais il fonctionne aussi avec le même niveau de l'information. Il ne va pas être 40 secondes, qui est très vite. Mais même si vous êtes 20 secondes, il va être très grave et useful pour beaucoup pour beaucoup d'applications, beaucoup d'utilisation, pour que vous voulez faire avec votre app. Vous pouvez aller sur Scandyscree Accord, si vous voulez, vous pouvez vous découper, si vous avez un iPhone, votre app est en la store, il faut que vous tenz à utiliser. Les choses que vous voulez, vous allez avoir à faire le modèle, c'est quand même une gigabyte ou trois gigabytes, vraiment dépendant de ce modèle, mais c'est le plus grand barrier, maintenant, c'est le modèle de size, mais c'est aussi le modèle de plus grand, le plus grand, le plus grand, et aussi le iPhone est le plus grand, le plus grand, le plus grand, le plus grand, tout ce qui est élevé, c'est vraiment une bonne utilité de ce que je peux voir. Et aussi, sur le top de l'autre, peut-être que vous avez eu le nouveau jour, d'ailleurs, je suis acquérée par l'élème studio, si vous ne savez pas l'élème studio, c'est donc un studio AI, pour tous vos modèles locales. Vous pouvez pas le faire le modèle, avec un studio de modèle, directement, sur une face. Vous pouvez le faire, et vous pouvez le faire le serveur, vous pouvez le faire le serveur avec l'AMASCPP, mais aussi MLX. Vous pouvez vraiment le faire le serveur de l'angine, ou de l'esprit. Vous pouvez, comme je vous ai dit, vous pouvez le faire le serveur localement et le connecter votre application à cette au-dessus de la serveur. Vous pouvez le faire le serveur localement avec vos espèces de respawns, pour exemple, l'opinion, l'opinion, votre respawns type, ou un espèce de respawns type, pour le remet, et vous pouvez juste le faire le modèle, vraiment avec cela. Donc, je voulais vous dire que c'était vraiment très short d'introduction, pour que vous pouvez le faire le même et vous le faire le modèle, comme en GMA4, si vous ne voulez pas le faire sur votre iPhone. Si vous avez une question, est-ce que vous non, 어 Dynasty tapis? Oui, je vais vous dire que vous pouvez le faire. mais pas seulement une génération de structure, mais aussi sur le top de l'amélicion de l'Amérique, qui est en train de faire ce qui est passé. Je vais vous faire du même face, mais vous pouvez être très fin à l'aise. Mais l'Amérique de l'Amérique est un courant de l'amélicion, donc c'est vraiment useful si vous voulez le courant d'automne et le système d'automne. Et le modèle de l'argot est aussi mieux que l'amélicion de l'Amérique, et pas très vite, comme un mois, et maintenant, ce qui est plus bien. Oui. Donc vous avez le guitare pour l'amélicion de l'Amérique, qui est le passage qui va installer dans votre appareil, et puis vous allez à l'aise et de l'amélicion de l'Amérique. Oh, et si vous voulez me faire le courant, vous pouvez vous essayer de faire le courant de l'Amérique, si vous voulez vous faire le courant de l'Amérique, vous pouvez le faire. Vous avez le sélection, mais qu'il n'y a pas, comme je suis en train de faire tout le modèle correctement sur l'Amérique, parce que pas tous ceux qui travaillent bien. Merci beaucoup.

Running LLMs on your iPhone: 40 tok/s Gemma 4 with MLX — Adrien Grondin, Locally AI

TL;DR

Takeaways

Vocabulary

Transcript