KV Cache Quantization - a inference-optimization Collection

inference-optimization 's Collections

Qwen3-Next-80B-A3B-Instruct Quantized Models

Mixed Precision Models

KV Cache Quantization

KV Cache Quantization

updated 18 days ago

Collection on FP8 Quantization of Weights, Activations and KV Cache

inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Head

8B • Updated 12 days ago • 62
inference-optimization/Llama-3.1-8B-Instruct-QKV-Cache-FP8-Per-Tensor

8B • Updated 18 days ago • 28
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

8B • Updated 11 days ago • 33
inference-optimization/Llama-3.1-8B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

8B • Updated 18 days ago • 18
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Head

71B • Updated 18 days ago • 8
inference-optimization/Llama-3.3-70B-Instruct-QKV-Cache-FP8-Per-Tensor

71B • Updated 18 days ago • 8
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Head

71B • Updated 18 days ago • 10
inference-optimization/Llama-3.3-70B-Instruct-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

71B • Updated 18 days ago • 12
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Head

33B • Updated 18 days ago • 9
inference-optimization/Qwen3-32B-QKV-Cache-FP8-Per-Tensor

33B • Updated 18 days ago • 11
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Head

33B • Updated 18 days ago • 6
inference-optimization/Qwen3-32B-FP8-dynamic-QKV-Cache-FP8-Per-Tensor

33B • Updated 18 days ago • 11