Best AI Models for 16GB VRAM
With 16GB of VRAM you can run 108 of the 109 models in our database. Sorted by grade and parameter count below — bigger and better-grade models first.
GPUs with 16GB VRAM
NVIDIA GeForce RTX 5080NVIDIA GeForce RTX 5070 TiNVIDIA GeForce RTX 5060 TiNVIDIA GeForce RTX 4080 SUPERNVIDIA GeForce RTX 4080NVIDIA GeForce RTX 4070 Ti SUPERNVIDIA GeForce RTX 4060 Ti 16GBNVIDIA RTX A4000NVIDIA T4NVIDIA RTX 4090 LaptopNVIDIA RTX 3080 LaptopAMD Radeon RX 9070 XTAMD Radeon RX 9070AMD Radeon RX 7900 GREAMD Radeon RX 7800 XTAMD Radeon RX 7600 XTAMD Radeon RX 6950 XTAMD Radeon RX 6900 XTAMD Radeon RX 6800 XTAMD Radeon RX 6800Apple M1Intel Arc A770
Language Models46 of 47 run
S
Phi-4
14B · Microsoft
Q5_K_M · 10.38GB
48 tok/s
S
Qwen 2.5 14B
14B · Alibaba
Q4_K_M · 8.87GB
48 tok/s
S
Gemma 3 12B
12B · Google
Q4_K_M · 7.3GB
48 tok/s
S
Mistral Nemo 12B
12B · Mistral AI
Q4_K_M · 7.46GB
48 tok/s
S
Solar 10.7B
10.7B · Upstage
Q4_K_M · 6.52GB
48 tok/s
S
Falcon 3 10B
10B · TII
Q4_K_M · 6.36GB
78 tok/s
S
Gemma 2 9B Instruct
9.2B · Google
Q8_0 · 9.65GB
78 tok/s
S
Yi 1.5 9B Chat
9B · 01.AI
Q8_0 · 9.24GB
78 tok/s
S
DeepSeek R1 Distill 8B
8B · DeepSeek
Q8_0 · 8.45GB
78 tok/s
S
Llama 3.1 8B Instruct
8B · Meta
Q8_0 · 8.45GB
78 tok/s
S
Granite 3.3 8B
8B · IBM
Q8_0 · 8.59GB
78 tok/s
S
EXAONE 3.5 7.8B
7.8B · LG AI
Q8_0 · 8.24GB
78 tok/s
S
InternLM 2.5 7B
7.7B · Shanghai AI Lab
Q8_0 · 8.16GB
78 tok/s
S
Qwen 2.5 7B Instruct
7.6B · Alibaba
Q8_0 · 9GB
78 tok/s
S
Mistral 7B Instruct v0.3
7.3B · Mistral AI
Q8_0 · 7.67GB
78 tok/s
S
Falcon 3 7B
7B · TII
Q8_0 · 8.3GB
78 tok/s
S
OLMo 2 7B
7B · Allen AI
Q8_0 · 7.73GB
78 tok/s
S
OpenChat 3.5 7B
7B · OpenChat
Q8_0 · 7.67GB
78 tok/s
S
Yi 1.5 6B Chat
6B · 01.AI
Q8_0 · 6.5GB
78 tok/s
S
Gemma 3 4B
4B · Google
Q8_0 · 4.35GB
114 tok/s
S
Nemotron Mini 4B
4B · NVIDIA
Q8_0 · 4.65GB
114 tok/s
S
Danube 3 4B
4B · H2O.ai
Q8_0 · 4.42GB
114 tok/s
S
Phi-3.5 Mini 3.8B
3.8B · Microsoft
Q8_0 · 4.28GB
114 tok/s
S
Phi-4 Mini 3.8B
3.8B · Microsoft
Q8_0 · 4.3GB
114 tok/s
S
Llama 3.2 3B Instruct
3.2B · Meta
Q8_0 · 3.69GB
114 tok/s
S
Qwen 2.5 3B
3B · Alibaba
Q8_0 · 3.87GB
114 tok/s
S
Falcon 3 3B
3B · TII
Q8_0 · 3.8GB
114 tok/s
S
StableLM Zephyr 3B
3B · Stability AI
Q8_0 · 3.27GB
114 tok/s
S
Rocket 3B
3B · Pansophic
Q8_0 · 3.27GB
114 tok/s
S
Gemma 2 2B
2.6B · Google
Q8_0 · 3.09GB
114 tok/s
S
EXAONE 3.5 2.4B
2.4B · LG AI
Q8_0 · 3.14GB
114 tok/s
S
Granite 3.3 2B
2B · IBM
Q8_0 · 3.01GB
156 tok/s
S
SmolLM2 1.7B
1.7B · HuggingFace
Q8_0 · 2.2GB
156 tok/s
S
Qwen 2.5 1.5B
1.5B · Alibaba
Q8_0 · 2.26GB
156 tok/s
S
DeepSeek R1 Distill 1.5B
1.5B · DeepSeek
Q8_0 · 2.26GB
156 tok/s
S
Llama 3.2 1B Instruct
1.24B · Meta
FP16 · 2.81GB
156 tok/s
S
TinyLlama 1.1B
1.1B · TinyLlama
Q8_0 · 1.59GB
156 tok/s
S
Gemma 3 1B
1B · Google
Q8_0 · 1.5GB
156 tok/s
S
Falcon 3 1B
1B · TII
Q8_0 · 2.16GB
156 tok/s
S
Qwen 2.5 0.5B
0.5B · Alibaba
Q8_0 · 1.13GB
156 tok/s
S
Danube 3 500M
0.5B · H2O.ai
Q8_0 · 1.01GB
156 tok/s
S
SmolLM2 360M
0.36B · HuggingFace
Q8_0 · 0.86GB
156 tok/s
S
SmolLM2 135M
0.135B · HuggingFace
FP16 · 0.75GB
156 tok/s
A
Mistral Small 22B
22B · Mistral AI
Q4_K_M · 12.93GB
Cannot run
B
Gemma 3 27B
27B · Google
Q4_K_M · 15.91GB
Cannot run
C
Qwen 2.5 32B
32B · Alibaba
Q4_K_M · 18.99GB
Cannot run
F
Llama 3.1 70B Instruct
70B · Meta
Q4_K_M · 40.1GB
Cannot run
Code Models16 of 16 run
S
Qwen 2.5 Coder 14B
14B · Alibaba
Q4_K_M · 8.87GB
48 tok/s
S
Code Llama 13B Instruct
13B · Meta
Q4_K_M · 7.83GB
48 tok/s
S
Yi Coder 9B
9B · 01.AI
Q8_0 · 9.24GB
78 tok/s
S
CodeGemma 7B
8.5B · Google
Q8_0 · 8.95GB
78 tok/s
S
Qwen 2.5 Coder 7B
7.6B · Alibaba
Q8_0 · 8.04GB
78 tok/s
S
StarCoder2 7B
7B · BigCode
Q8_0 · 7.61GB
78 tok/s
S
Code Llama 7B
7B · Meta
Q8_0 · 7.17GB
78 tok/s
S
DeepSeek Coder 6.7B
6.7B · DeepSeek
Q8_0 · 7.17GB
78 tok/s
S
Qwen 2.5 Coder 3B
3B · Alibaba
Q8_0 · 3.87GB
114 tok/s
S
StarCoder2 3B
3B · BigCode
Q8_0 · 3.5GB
114 tok/s
S
Stable Code 3B
3B · Stability AI
Q8_0 · 3.27GB
114 tok/s
S
CodeGemma 2B
2B · Google
Q8_0 · 2.99GB
156 tok/s
S
Qwen 2.5 Coder 1.5B
1.5B · Alibaba
Q8_0 · 2.26GB
156 tok/s
S
Yi Coder 1.5B
1.5B · 01.AI
Q8_0 · 1.96GB
156 tok/s
S
DeepSeek Coder 1.3B
1.3B · DeepSeek
Q8_0 · 1.83GB
156 tok/s
S
Qwen 2.5 Coder 0.5B
0.5B · Alibaba
Q8_0 · 1.13GB
156 tok/s
Multimodal & Vision6 of 6 run
Image Generation9 of 9 run
S
Stable Diffusion XL (CoreML)
3.5B · Stability AI
CoreML · 3.34GB
114 tok/s
S
SDXL Turbo (GGUF)
3.5B · Stability AI
Q5_0 · 5GB
114 tok/s
S
Stable Diffusion 3 Medium (GGUF)
2.5B · Stability AI
Q8_0 · 9.15GB
114 tok/s
S
Stable Diffusion 2.1 Base (CoreML)
0.86B · Stability AI / Apple
CoreML-Palettized · 1.56GB
156 tok/s
S
Stable Diffusion 1.5 (CoreML)
0.86B · Runway
CoreML-Palettized · 2.5GB
156 tok/s
S
Stable Diffusion 1.5 (GGUF)
0.86B · Runway / GPUStack
Q8_0 · 2.25GB
156 tok/s
S
Stable Diffusion 2.1 (GGUF)
0.86B · Stability AI
Q8_0 · 2.66GB
156 tok/s
B
FLUX.1 Schnell (GGUF)
12B · Black Forest Labs
Q5_0 · 14GB
46 tok/s
B
FLUX.1 Dev (GGUF)
12B · Black Forest Labs
Q5_0 · 14GB
46 tok/s
Speech Recognition9 of 9 run
S
Whisper Large v3
1.55B · OpenAI
Q8_0 · 3.38GB
156 tok/s
S
Whisper Large v3 Turbo
0.81B · OpenAI
Q8_0 · 2.01GB
156 tok/s
S
Whisper Medium
0.77B · OpenAI
Q8_0 · 1.93GB
156 tok/s
S
Distil-Whisper Large v3
0.76B · HuggingFace
Q8_0 · 1.92GB
156 tok/s
S
Whisper Small
0.24B · OpenAI
Q8_0 · 0.95GB
156 tok/s
S
Whisper Base
0.074B · OpenAI
Q8_0 · 0.3GB
156 tok/s
S
Whisper Base English
0.074B · OpenAI
Q8_0 · 0.3GB
156 tok/s
S
Whisper Tiny English (Quantized)
0.039B · OpenAI
Q5_1 · 0.1GB
156 tok/s
S
Whisper Tiny
0.039B · OpenAI
Q8_0 · 0.2GB
156 tok/s
Text-to-Speech14 of 14 run
S
Kokoro 82M TTS
0.082B · Kokoro
ONNX-Q8F16 · 0.58GB
156 tok/s
S
Piper TTS - Amy (English)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - Lessac (English)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - LibriTTS-R (English)
0.02B · Rhasspy
ONNX · 0.57GB
156 tok/s
S
Piper TTS - Spanish (MLS)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - French (Siwis)
0.02B · Rhasspy
ONNX · 0.53GB
156 tok/s
S
Piper TTS - German (Thorsten)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - Chinese (Huayan)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - Japanese (Kokoro)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - Korean
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - Russian (Irina)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - Portuguese (Faber)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s
S
Piper TTS - Italian (Riccardo)
0.02B · Rhasspy
ONNX · 0.53GB
156 tok/s
S
Piper TTS - Arabic (Kareem)
0.02B · Rhasspy
ONNX · 0.15GB
156 tok/s