Vision & Multimodal

Models that understand images, video, or mixed inputs.

9 models, ranked by Hugging Face downloads.

Moondream · 1.8B · apache-2.0

1.5GB · Q4_K_M

Google · 12B · gemma

7.3GB · Q4_K_M

Alibaba · 2.2B · apache-2.0

1.42GB · Q4_K_M

Google · 4B · gemma

2.82GB · Q4_K_M

Microsoft · 4.2B · mit

3.2GB · Q4_K_M

Google · 27B · gemma

15.91GB · Q4_K_M

LLaVA · 7B · apache-2.0

Google · 3B · gemma

2.5GB · Q4_K_M

OpenBMB · 2B · apache-2.0

2.1GB · Q4_K_M