softjapan-model-gguf
本リポジトリは、softjapan/softjapan-model(ベース: Qwen/Qwen2.5-3B-Instruct)を GGUF 形式へ変換した配布用アーティファクトです。llama.cpp 系ツールや llama-cpp-python 等、GGUF 対応ランタイムで手軽に推論できます。
注意: ここに含まれるのは 推論用の重み(GGUF) です。学習用の Hugging Face 形式(
config.json,model.safetensorsなど)は別リポジトリ(softjapan/softjapan-model)をご参照ください。
モデルの由来 / 目的
- ベースモデル: Qwen/Qwen2.5-3B-Instruct
- チューニング: LoRA/PEFT による微調整(
softjapan/softjapan-model)を GGUF へ変換 - 想定用途: 研究・検証・デモ。実運用やクリティカル用途は非推奨です。
- 特性: 応答時に自称として「softjapan」を用いる傾向があります(元モデルのチューニング方針による)。
同梱ファイル
| ファイル名 | 形式 | 概要 | 用途の目安 |
|---|---|---|---|
softjapan-model-f16.gguf |
f16 | 非量子化(16-bit float) | 最高精度/検証 |
softjapan-model-q8_0.gguf |
q8_0 | 8-bit 量子化(互換性の高い方式) | 精度とサイズのバランス |
量子化方式はランタイムやメモリに応じて選択してください。軽量化をさらに重視する場合は、
llama.cppの新しい量子化(例: q4_k_m など)で再変換してください。
使い方
1) 取得方法
# (推奨) Git LFS 経由
git lfs install
git clone https://huggingface.co/softjapan/softjapan-model-gguf
cd softjapan-model-gguf
# もしくは huggingface-cli
# pip install -U huggingface_hub
huggingface-cli download softjapan/softjapan-model-gguf softjapan-model-q8_0.gguf --local-dir .
2) llama.cpp(CLI)
# ビルド例(省略可)
# make -j
# 単発プロンプト
./main -m softjapan-model-q8_0.gguf \
-p "以下の質問に日本語で簡潔に答えてください。Q: 富士山の標高は?" \
-n 256 --temp 0.7 --top-p 0.9
チャット(ChatML 互換プロンプト)例
Qwen2.5 系は ChatML 風のテンプレート(<|im_start|>role ... <|im_end|>)が有効です。
llama.cpp のビルドによっては --chat-template オプションで Qwen/ChatML テンプレートを指定できます(サポート無い場合は手動で整形してください)。
# (テンプレ対応ビルドの場合の一例)
./main -m softjapan-model-q8_0.gguf \
--chat-template "qwen2" \
-n 256 --temp 0.7 --top-p 0.9
手動で与える場合(例):
<|im_start|>system
あなたは有能な日本語アシスタントです。簡潔かつ正確に回答してください。<|im_end|>
<|im_start|>user
あなたは誰ですか?<|im_end|>
<|im_start|>assistant
3) llama-cpp-python
# pip install -U llama-cpp-python # (環境に応じて OpenBLAS/Metal/CUDA 版を選択)
from llama_cpp import Llama
llm = Llama(
model_path="softjapan-model-q8_0.gguf",
n_ctx=4096,
n_threads=8,
)
prompt = """<|im_start|>system
あなたは有能な日本語アシスタントです。簡潔かつ正確に回答してください。<|im_end|>
<|im_start|>user
あなたは誰ですか?<|im_end|>
<|im_start|>assistant
"""
out = llm(
prompt,
max_tokens=256,
temperature=0.7,
top_p=0.9,
stop=["<|im_end|>"]
)
print(out["choices"][0]["text"].strip())
推論パラメータの目安
max_tokens: 128–512temperature: 0.6–0.8top_p: 0.8–0.95repeat_penalty(対応ランタイムのみ): 1.05–1.15- 停止条件:
"<|im_end|>"をstopに指定すると過剰出力が減ります。
既知の制約
- 出力は誤りを含む可能性があります。重要判断を要する用途には使用しないでください。
- ベースやテンプレートが異なるランタイム設定では品質が変動します。
q8_0は精度維持に優れますが、より小さいフットプリントが必要な場合は別量子化での再変換をご検討ください。
ライセンス / 利用規約
- ライセンス: Apache-2.0
- ベースモデル(Qwen/Qwen2.5-3B-Instruct)および依存する各プロジェクトのライセンス・利用規約に従ってください。
- 本モデルは研究・検証目的で提供されます。利用に伴う一切の責任は利用者にあります。
謝辞
- Qwen チームおよびコミュニティ
- llama.cpp / ggml / gguf の開発コミュニティ
- Hugging Face エコシステム
- Downloads last month
- 9
Hardware compatibility
Log In
to view the estimation
8-bit
16-bit