Best AI Models for 8GB VRAM
With 8GB of VRAM you can run 107 of the 109 models in our database. Sorted by grade and parameter count below — bigger and better-grade models first.
GPUs with 8GB VRAM
NVIDIA GeForce RTX 5060NVIDIA GeForce RTX 4060 TiNVIDIA GeForce RTX 4060NVIDIA GeForce RTX 3070 TiNVIDIA GeForce RTX 3070NVIDIA GeForce RTX 3060 TiNVIDIA GeForce RTX 3050NVIDIA GeForce RTX 2080 SUPERNVIDIA GeForce RTX 2080NVIDIA GeForce RTX 2070 SUPERNVIDIA GeForce RTX 2070NVIDIA GeForce RTX 2060 SUPERNVIDIA GeForce GTX 1080NVIDIA GeForce GTX 1070 TiNVIDIA GeForce GTX 1070NVIDIA RTX 4070 LaptopNVIDIA RTX 4060 LaptopNVIDIA RTX 3070 LaptopAMD Radeon RX 7600AMD Radeon RX 6600 XTAMD Radeon RX 6600Apple Silicon (Unknown)Intel Arc A750Intel Arc A580
Language Models45 of 47 run
S
DeepSeek R1 Distill 8B
8B · DeepSeek
Q4_K_M · 5.08GB
46 tok/s
S
Llama 3.1 8B Instruct
8B · Meta
Q4_K_M · 5.08GB
46 tok/s
S
Granite 3.3 8B
8B · IBM
Q4_K_M · 5.1GB
46 tok/s
S
EXAONE 3.5 7.8B
7.8B · LG AI
Q4_K_M · 4.94GB
46 tok/s
S
InternLM 2.5 7B
7.7B · Shanghai AI Lab
Q4_K_M · 4.89GB
46 tok/s
S
Qwen 2.5 7B Instruct
7.6B · Alibaba
Q4_K_M · 5.3GB
46 tok/s
S
Mistral 7B Instruct v0.3
7.3B · Mistral AI
Q5_K_M · 5.28GB
46 tok/s
S
Falcon 3 7B
7B · TII
Q4_K_M · 5GB
46 tok/s
S
OLMo 2 7B
7B · Allen AI
Q4_K_M · 4.67GB
46 tok/s
S
OpenChat 3.5 7B
7B · OpenChat
Q4_K_M · 4.57GB
46 tok/s
S
Yi 1.5 6B Chat
6B · 01.AI
Q4_K_M · 3.92GB
46 tok/s
S
Gemma 3 4B
4B · Google
Q8_0 · 4.35GB
78 tok/s
S
Nemotron Mini 4B
4B · NVIDIA
Q8_0 · 4.65GB
78 tok/s
S
Danube 3 4B
4B · H2O.ai
Q8_0 · 4.42GB
78 tok/s
S
Phi-3.5 Mini 3.8B
3.8B · Microsoft
Q8_0 · 4.28GB
78 tok/s
S
Phi-4 Mini 3.8B
3.8B · Microsoft
Q8_0 · 4.3GB
78 tok/s
S
Llama 3.2 3B Instruct
3.2B · Meta
Q8_0 · 3.69GB
78 tok/s
S
Qwen 2.5 3B
3B · Alibaba
Q8_0 · 3.87GB
78 tok/s
S
Falcon 3 3B
3B · TII
Q8_0 · 3.8GB
78 tok/s
S
StableLM Zephyr 3B
3B · Stability AI
Q8_0 · 3.27GB
78 tok/s
S
Rocket 3B
3B · Pansophic
Q8_0 · 3.27GB
78 tok/s
S
Gemma 2 2B
2.6B · Google
Q8_0 · 3.09GB
78 tok/s
S
EXAONE 3.5 2.4B
2.4B · LG AI
Q8_0 · 3.14GB
78 tok/s
S
Granite 3.3 2B
2B · IBM
Q8_0 · 3.01GB
114 tok/s
S
SmolLM2 1.7B
1.7B · HuggingFace
Q8_0 · 2.2GB
114 tok/s
S
Qwen 2.5 1.5B
1.5B · Alibaba
Q8_0 · 2.26GB
114 tok/s
S
DeepSeek R1 Distill 1.5B
1.5B · DeepSeek
Q8_0 · 2.26GB
114 tok/s
S
Llama 3.2 1B Instruct
1.24B · Meta
FP16 · 2.81GB
114 tok/s
S
TinyLlama 1.1B
1.1B · TinyLlama
Q8_0 · 1.59GB
114 tok/s
S
Gemma 3 1B
1B · Google
Q8_0 · 1.5GB
114 tok/s
S
Falcon 3 1B
1B · TII
Q8_0 · 2.16GB
114 tok/s
S
Qwen 2.5 0.5B
0.5B · Alibaba
Q8_0 · 1.13GB
114 tok/s
S
Danube 3 500M
0.5B · H2O.ai
Q8_0 · 1.01GB
114 tok/s
S
SmolLM2 360M
0.36B · HuggingFace
Q8_0 · 0.86GB
114 tok/s
S
SmolLM2 135M
0.135B · HuggingFace
FP16 · 0.75GB
114 tok/s
A
Solar 10.7B
10.7B · Upstage
Q4_K_M · 6.52GB
Cannot run
A
Falcon 3 10B
10B · TII
Q4_K_M · 6.36GB
46 tok/s
A
Gemma 2 9B Instruct
9.2B · Google
Q4_K_M · 5.87GB
46 tok/s
A
Yi 1.5 9B Chat
9B · 01.AI
Q4_K_M · 5.46GB
46 tok/s
B
Gemma 3 12B
12B · Google
Q4_K_M · 7.3GB
Cannot run
B
Mistral Nemo 12B
12B · Mistral AI
Q4_K_M · 7.46GB
Cannot run
C
Phi-4
14B · Microsoft
Q4_K_M · 8.93GB
Cannot run
C
Qwen 2.5 14B
14B · Alibaba
Q4_K_M · 8.87GB
Cannot run
D
Gemma 3 27B
27B · Google
Q4_K_M · 15.91GB
Cannot run
D
Mistral Small 22B
22B · Mistral AI
Q4_K_M · 12.93GB
Cannot run
F
Llama 3.1 70B Instruct
70B · Meta
Q4_K_M · 40.1GB
Cannot run
F
Qwen 2.5 32B
32B · Alibaba
Q4_K_M · 18.99GB
Cannot run
Code Models16 of 16 run
S
Qwen 2.5 Coder 7B
7.6B · Alibaba
Q4_K_M · 4.86GB
46 tok/s
S
StarCoder2 7B
7B · BigCode
Q4_K_M · 4.66GB
46 tok/s
S
Code Llama 7B
7B · Meta
Q4_K_M · 4.3GB
46 tok/s
S
DeepSeek Coder 6.7B
6.7B · DeepSeek
Q4_K_M · 4.3GB
46 tok/s
S
Qwen 2.5 Coder 3B
3B · Alibaba
Q8_0 · 3.87GB
78 tok/s
S
StarCoder2 3B
3B · BigCode
Q8_0 · 3.5GB
78 tok/s
S
Stable Code 3B
3B · Stability AI
Q8_0 · 3.27GB
78 tok/s
S
CodeGemma 2B
2B · Google
Q8_0 · 2.99GB
114 tok/s
S
Qwen 2.5 Coder 1.5B
1.5B · Alibaba
Q8_0 · 2.26GB
114 tok/s
S
Yi Coder 1.5B
1.5B · 01.AI
Q8_0 · 1.96GB
114 tok/s
S
DeepSeek Coder 1.3B
1.3B · DeepSeek
Q8_0 · 1.83GB
114 tok/s
S
Qwen 2.5 Coder 0.5B
0.5B · Alibaba
Q8_0 · 1.13GB
114 tok/s
A
Yi Coder 9B
9B · 01.AI
Q4_K_M · 5.46GB
46 tok/s
A
CodeGemma 7B
8.5B · Google
Q4_K_M · 5.46GB
46 tok/s
B
Code Llama 13B Instruct
13B · Meta
Q4_K_M · 7.83GB
Cannot run
C
Qwen 2.5 Coder 14B
14B · Alibaba
Q4_K_M · 8.87GB
Cannot run
Multimodal & Vision6 of 6 run
Image Generation9 of 9 run
S
Stable Diffusion XL (CoreML)
3.5B · Stability AI
CoreML · 3.34GB
78 tok/s
S
SDXL Turbo (GGUF)
3.5B · Stability AI
Q5_0 · 5GB
78 tok/s
S
Stable Diffusion 2.1 Base (CoreML)
0.86B · Stability AI / Apple
CoreML-Palettized · 1.56GB
114 tok/s
S
Stable Diffusion 1.5 (CoreML)
0.86B · Runway
CoreML-Palettized · 2.5GB
114 tok/s
S
Stable Diffusion 1.5 (GGUF)
0.86B · Runway / GPUStack
Q8_0 · 2.25GB
114 tok/s
S
Stable Diffusion 2.1 (GGUF)
0.86B · Stability AI
Q8_0 · 2.66GB
114 tok/s
C
Stable Diffusion 3 Medium (GGUF)
2.5B · Stability AI
Q8_0 · 9.15GB
57 tok/s
D
FLUX.1 Schnell (GGUF)
12B · Black Forest Labs
Q5_0 · 14GB
Cannot run
D
FLUX.1 Dev (GGUF)
12B · Black Forest Labs
Q5_0 · 14GB
Cannot run
Speech Recognition9 of 9 run
S
Whisper Large v3
1.55B · OpenAI
Q8_0 · 3.38GB
114 tok/s
S
Whisper Large v3 Turbo
0.81B · OpenAI
Q8_0 · 2.01GB
114 tok/s
S
Whisper Medium
0.77B · OpenAI
Q8_0 · 1.93GB
114 tok/s
S
Distil-Whisper Large v3
0.76B · HuggingFace
Q8_0 · 1.92GB
114 tok/s
S
Whisper Small
0.24B · OpenAI
Q8_0 · 0.95GB
114 tok/s
S
Whisper Base
0.074B · OpenAI
Q8_0 · 0.3GB
114 tok/s
S
Whisper Base English
0.074B · OpenAI
Q8_0 · 0.3GB
114 tok/s
S
Whisper Tiny English (Quantized)
0.039B · OpenAI
Q5_1 · 0.1GB
114 tok/s
S
Whisper Tiny
0.039B · OpenAI
Q8_0 · 0.2GB
114 tok/s
Text-to-Speech14 of 14 run
S
Kokoro 82M TTS
0.082B · Kokoro
ONNX-Q8F16 · 0.58GB
114 tok/s
S
Piper TTS - Amy (English)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - Lessac (English)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - LibriTTS-R (English)
0.02B · Rhasspy
ONNX · 0.57GB
114 tok/s
S
Piper TTS - Spanish (MLS)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - French (Siwis)
0.02B · Rhasspy
ONNX · 0.53GB
114 tok/s
S
Piper TTS - German (Thorsten)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - Chinese (Huayan)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - Japanese (Kokoro)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - Korean
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - Russian (Irina)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - Portuguese (Faber)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s
S
Piper TTS - Italian (Riccardo)
0.02B · Rhasspy
ONNX · 0.53GB
114 tok/s
S
Piper TTS - Arabic (Kareem)
0.02B · Rhasspy
ONNX · 0.15GB
114 tok/s