Vision & Multimodal
Models that understand images, video, or mixed inputs.
9 models, ranked by Hugging Face downloads.
Moondream 2
Moondream · 1.8B · apache-2.0
1.5GB · Q4_K_M
2834K dl
Gemma 3 12B
Google · 12B · gemma
7.3GB · Q4_K_M
2577K dl
Qwen2-VL 2B
Alibaba · 2.2B · apache-2.0
1.42GB · Q4_K_M
2266K dl
Gemma 3 4B
Google · 4B · gemma
2.82GB · Q4_K_M
1610K dl
Phi-3.5 Vision
Microsoft · 4.2B · mit
3.2GB · Q4_K_M
1436K dl
Gemma 3 27B
Google · 27B · gemma
15.91GB · Q4_K_M
797K dl
LLaVA 1.6 7B
LLaVA · 7B · apache-2.0
5GB · Q4_K_M
535K dl
PaliGemma 3B
Google · 3B · gemma
2.5GB · Q4_K_M
164K dl
MiniCPM-V 2.6
OpenBMB · 2B · apache-2.0
2.1GB · Q4_K_M
142K dl