Best AI Models for 10GB VRAM
With 10GB of VRAM you can run 108 of the 109 models in our database. Sorted by grade and parameter count below — bigger and better-grade models first.
GPUs with 10GB VRAM
Language Models46 of 47 run
S
Solar 10.7B
10.7B · Upstage
Q4_K_M · 6.52GB
Cannot run
S
Falcon 3 10B
10B · TII
Q4_K_M · 6.36GB
46 tok/s
S
Gemma 2 9B Instruct
9.2B · Google
Q4_K_M · 5.87GB
46 tok/s
S
Yi 1.5 9B Chat
9B · 01.AI
Q4_K_M · 5.46GB
46 tok/s
S
DeepSeek R1 Distill 8B
8B · DeepSeek
Q5_K_M · 5.84GB
46 tok/s
S
Llama 3.1 8B Instruct
8B · Meta
Q5_K_M · 5.84GB
46 tok/s
S
Granite 3.3 8B
8B · IBM
Q4_K_M · 5.1GB
46 tok/s
S
EXAONE 3.5 7.8B
7.8B · LG AI
Q4_K_M · 4.94GB
46 tok/s
S
InternLM 2.5 7B
7.7B · Shanghai AI Lab
Q4_K_M · 4.89GB
46 tok/s
S
Qwen 2.5 7B Instruct
7.6B · Alibaba
Q5_K_M · 6.2GB
46 tok/s
S
Mistral 7B Instruct v0.3
7.3B · Mistral AI
Q5_K_M · 5.28GB
46 tok/s
S
Falcon 3 7B
7B · TII
Q4_K_M · 5GB
46 tok/s
S
OLMo 2 7B
7B · Allen AI
Q4_K_M · 4.67GB
46 tok/s
S
OpenChat 3.5 7B
7B · OpenChat
Q4_K_M · 4.57GB
46 tok/s
S
Yi 1.5 6B Chat
6B · 01.AI
Q8_0 · 6.5GB
46 tok/s
S
Gemma 3 4B
4B · Google
Q8_0 · 4.35GB
74 tok/s
S
Nemotron Mini 4B
4B · NVIDIA
Q8_0 · 4.65GB
74 tok/s
S
Danube 3 4B
4B · H2O.ai
Q8_0 · 4.42GB
74 tok/s
S
Phi-3.5 Mini 3.8B
3.8B · Microsoft
Q8_0 · 4.28GB
74 tok/s
S
Phi-4 Mini 3.8B
3.8B · Microsoft
Q8_0 · 4.3GB
74 tok/s
S
Llama 3.2 3B Instruct
3.2B · Meta
Q8_0 · 3.69GB
74 tok/s
S
Qwen 2.5 3B
3B · Alibaba
Q8_0 · 3.87GB
74 tok/s
S
Falcon 3 3B
3B · TII
Q8_0 · 3.8GB
74 tok/s
S
StableLM Zephyr 3B
3B · Stability AI
Q8_0 · 3.27GB
74 tok/s
S
Rocket 3B
3B · Pansophic
Q8_0 · 3.27GB
74 tok/s
S
Gemma 2 2B
2.6B · Google
Q8_0 · 3.09GB
74 tok/s
S
EXAONE 3.5 2.4B
2.4B · LG AI
Q8_0 · 3.14GB
74 tok/s
S
Granite 3.3 2B
2B · IBM
Q8_0 · 3.01GB
108 tok/s
S
SmolLM2 1.7B
1.7B · HuggingFace
Q8_0 · 2.2GB
108 tok/s
S
Qwen 2.5 1.5B
1.5B · Alibaba
Q8_0 · 2.26GB
108 tok/s
S
DeepSeek R1 Distill 1.5B
1.5B · DeepSeek
Q8_0 · 2.26GB
108 tok/s
S
Llama 3.2 1B Instruct
1.24B · Meta
FP16 · 2.81GB
108 tok/s
S
TinyLlama 1.1B
1.1B · TinyLlama
Q8_0 · 1.59GB
108 tok/s
S
Gemma 3 1B
1B · Google
Q8_0 · 1.5GB
108 tok/s
S
Falcon 3 1B
1B · TII
Q8_0 · 2.16GB
108 tok/s
S
Qwen 2.5 0.5B
0.5B · Alibaba
Q8_0 · 1.13GB
108 tok/s
S
Danube 3 500M
0.5B · H2O.ai
Q8_0 · 1.01GB
108 tok/s
S
SmolLM2 360M
0.36B · HuggingFace
Q8_0 · 0.86GB
108 tok/s
S
SmolLM2 135M
0.135B · HuggingFace
FP16 · 0.75GB
108 tok/s
A
Gemma 3 12B
12B · Google
Q4_K_M · 7.3GB
Cannot run
A
Mistral Nemo 12B
12B · Mistral AI
Q4_K_M · 7.46GB
Cannot run
B
Phi-4
14B · Microsoft
Q4_K_M · 8.93GB
Cannot run
B
Qwen 2.5 14B
14B · Alibaba
Q4_K_M · 8.87GB
Cannot run
D
Qwen 2.5 32B
32B · Alibaba
Q4_K_M · 18.99GB
Cannot run
D
Gemma 3 27B
27B · Google
Q4_K_M · 15.91GB
Cannot run
D
Mistral Small 22B
22B · Mistral AI
Q4_K_M · 12.93GB
Cannot run
F
Llama 3.1 70B Instruct
70B · Meta
Q4_K_M · 40.1GB
Cannot run
Code Models16 of 16 run
S
Yi Coder 9B
9B · 01.AI
Q4_K_M · 5.46GB
46 tok/s
S
CodeGemma 7B
8.5B · Google
Q4_K_M · 5.46GB
46 tok/s
S
Qwen 2.5 Coder 7B
7.6B · Alibaba
Q4_K_M · 4.86GB
46 tok/s
S
StarCoder2 7B
7B · BigCode
Q4_K_M · 4.66GB
46 tok/s
S
Code Llama 7B
7B · Meta
Q4_K_M · 4.3GB
46 tok/s
S
DeepSeek Coder 6.7B
6.7B · DeepSeek
Q4_K_M · 4.3GB
46 tok/s
S
Qwen 2.5 Coder 3B
3B · Alibaba
Q8_0 · 3.87GB
74 tok/s
S
StarCoder2 3B
3B · BigCode
Q8_0 · 3.5GB
74 tok/s
S
Stable Code 3B
3B · Stability AI
Q8_0 · 3.27GB
74 tok/s
S
CodeGemma 2B
2B · Google
Q8_0 · 2.99GB
108 tok/s
S
Qwen 2.5 Coder 1.5B
1.5B · Alibaba
Q8_0 · 2.26GB
108 tok/s
S
Yi Coder 1.5B
1.5B · 01.AI
Q8_0 · 1.96GB
108 tok/s
S
DeepSeek Coder 1.3B
1.3B · DeepSeek
Q8_0 · 1.83GB
108 tok/s
S
Qwen 2.5 Coder 0.5B
0.5B · Alibaba
Q8_0 · 1.13GB
108 tok/s
A
Code Llama 13B Instruct
13B · Meta
Q4_K_M · 7.83GB
Cannot run
B
Qwen 2.5 Coder 14B
14B · Alibaba
Q4_K_M · 8.87GB
Cannot run
Multimodal & Vision6 of 6 run
Image Generation9 of 9 run
S
Stable Diffusion XL (CoreML)
3.5B · Stability AI
CoreML · 3.34GB
74 tok/s
S
SDXL Turbo (GGUF)
3.5B · Stability AI
Q5_0 · 5GB
74 tok/s
S
Stable Diffusion 2.1 Base (CoreML)
0.86B · Stability AI / Apple
CoreML-Palettized · 1.56GB
108 tok/s
S
Stable Diffusion 1.5 (CoreML)
0.86B · Runway
CoreML-Palettized · 2.5GB
108 tok/s
S
Stable Diffusion 1.5 (GGUF)
0.86B · Runway / GPUStack
Q8_0 · 2.25GB
108 tok/s
S
Stable Diffusion 2.1 (GGUF)
0.86B · Stability AI
Q8_0 · 2.66GB
108 tok/s
B
Stable Diffusion 3 Medium (GGUF)
2.5B · Stability AI
Q8_0 · 9.15GB
68 tok/s
D
FLUX.1 Schnell (GGUF)
12B · Black Forest Labs
Q5_0 · 14GB
Cannot run
D
FLUX.1 Dev (GGUF)
12B · Black Forest Labs
Q5_0 · 14GB
Cannot run
Speech Recognition9 of 9 run
S
Whisper Large v3
1.55B · OpenAI
Q8_0 · 3.38GB
108 tok/s
S
Whisper Large v3 Turbo
0.81B · OpenAI
Q8_0 · 2.01GB
108 tok/s
S
Whisper Medium
0.77B · OpenAI
Q8_0 · 1.93GB
108 tok/s
S
Distil-Whisper Large v3
0.76B · HuggingFace
Q8_0 · 1.92GB
108 tok/s
S
Whisper Small
0.24B · OpenAI
Q8_0 · 0.95GB
108 tok/s
S
Whisper Base
0.074B · OpenAI
Q8_0 · 0.3GB
108 tok/s
S
Whisper Base English
0.074B · OpenAI
Q8_0 · 0.3GB
108 tok/s
S
Whisper Tiny English (Quantized)
0.039B · OpenAI
Q5_1 · 0.1GB
108 tok/s
S
Whisper Tiny
0.039B · OpenAI
Q8_0 · 0.2GB
108 tok/s
Text-to-Speech14 of 14 run
S
Kokoro 82M TTS
0.082B · Kokoro
ONNX-Q8F16 · 0.58GB
108 tok/s
S
Piper TTS - Amy (English)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - Lessac (English)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - LibriTTS-R (English)
0.02B · Rhasspy
ONNX · 0.57GB
108 tok/s
S
Piper TTS - Spanish (MLS)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - French (Siwis)
0.02B · Rhasspy
ONNX · 0.53GB
108 tok/s
S
Piper TTS - German (Thorsten)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - Chinese (Huayan)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - Japanese (Kokoro)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - Korean
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - Russian (Irina)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - Portuguese (Faber)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s
S
Piper TTS - Italian (Riccardo)
0.02B · Rhasspy
ONNX · 0.53GB
108 tok/s
S
Piper TTS - Arabic (Kareem)
0.02B · Rhasspy
ONNX · 0.15GB
108 tok/s