QuantTrio
/

DeepSeek-V3.2-Speciale-AWQ

Text Generation

4-bit precision

Model card Files Files and versions

JunHowie commited on 12 days ago

Commit

870f3ec

·

verified ·

1 Parent(s): 19cdb6f

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -64,7 +64,7 @@ export OMP_NUM_THREADS=4
 CONTEXT_LENGTH=32768
 vllm serve \
-    __YOUR_PATH__/tclf90/DeepSeek-V3.2-Speciale-AWQ \
     --served-model-name MY_MODEL_NAME \
     --enable-auto-tool-choice \
     --tool-call-parser deepseek_v31 \
@@ -75,7 +75,7 @@ vllm serve \
     --gpu-memory-utilization 0.9 \
     --tensor-parallel-size 8 \
     --enable-expert-parallel \  # optional
-    --speculative-config '{"model": "__YOUR_PATH__/tclf90/DeepSeek-V3.2-Speciale-AWQ", "num_speculative_tokens": 1}' \  # optional, 50%+- throughput increase is observed
     --trust-remote-code \
     --host 0.0.0.0 \
     --port 8000
@@ -95,7 +95,7 @@ vllm serve \
 ### 【Model Download】
 ```python
 from modelscope import snapshot_download
-snapshot_download('tclf90/DeepSeek-V3.2-Speciale-AWQ', cache_dir="your_local_path")
 ```
 ### 【Overview】

 CONTEXT_LENGTH=32768
 vllm serve \
+    __YOUR_PATH__/QuantTrio/DeepSeek-V3.2-Speciale-AWQ \
     --served-model-name MY_MODEL_NAME \
     --enable-auto-tool-choice \
     --tool-call-parser deepseek_v31 \
     --gpu-memory-utilization 0.9 \
     --tensor-parallel-size 8 \
     --enable-expert-parallel \  # optional
+    --speculative-config '{"model": "__YOUR_PATH__/QuantTrio/DeepSeek-V3.2-Speciale-AWQ", "num_speculative_tokens": 1}' \  # optional, 50%+- throughput increase is observed
     --trust-remote-code \
     --host 0.0.0.0 \
     --port 8000
 ### 【Model Download】
 ```python
 from modelscope import snapshot_download
+snapshot_download('QuantTrio/DeepSeek-V3.2-Speciale-AWQ', cache_dir="your_local_path")
 ```
 ### 【Overview】