aws-neuron
/

optimum-neuron-cache

Model card Files Files and versions

optimum-neuron-cache / inference-cache-config /llama.json

Commit History

Update inference-cache-config/llama.json

325c041
verified

dacorvo HF Staff commited on Aug 4

Add batch size 4 configurations for LLama 1B and 3B models

3b6312a
verified

dacorvo HF Staff commited on Jun 25

Added TinyLlama as requested by Jim burtoft

d9640f4
verified

dacorvo HF Staff commited on May 12

Update inference-cache-config/llama.json

d05f579
verified

dacorvo HF Staff commited on Sep 26, 2024

Update inference-cache-config/llama.json

0548cd2
verified

dacorvo HF Staff commited on Sep 26, 2024

Update inference-cache-config/llama.json

afb9fe6
verified

dacorvo HF Staff commited on Sep 26, 2024

Rename inference-cache-config/llama-3.1-8B.json to inference-cache-config/llama.json

14844a0
verified

dacorvo HF Staff commited on Sep 26, 2024

Rename inference-cache-config/llama.json to inference-cache-config/llama2.json

f06a55a
verified

dacorvo HF Staff commited on Apr 19, 2024

Add more llama config

2d87237
verified

dacorvo HF Staff commited on Apr 9, 2024

Added Llama-70b batch_size 4 to inference cache

593822e
verified

dacorvo HF Staff commited on Mar 8, 2024

Create inference-cache-config/llama.json

1960ccb
verified

philschmid commited on Mar 5, 2024