Upload folder using huggingface_hub

Browse files

Files changed (9) hide show

README.md +37 -48
chat_template.jinja +5 -5
config.json +14 -6
model-00002-of-00002.safetensors +0 -3
model-00001-of-00002.safetensors → model.safetensors +2 -2
model.safetensors.index.json +0 -466
params.json +4 -0
tokenizer.json +2 -2
tokenizer_config.json +0 -0

README.md CHANGED Viewed

@@ -15,46 +15,23 @@ language:
 license: apache-2.0
 inference: false
 base_model:
-- mistralai/Ministral-3-3B-Instruct-2512
 tags:
 - mistral-common
-- mistral
-- unsloth
----
-<div>
-  <p style="margin-bottom: 0; margin-top: 0;">
-    <strong>See our <a href="https://huggingface.co/collections/unsloth/ministral-3">Ministral 3 collection</a> for all versions including GGUF, 4-bit & FP8 formats.</strong>
-  </p>
-  <p style="margin-bottom: 0;">
-    <em>Learn to run Ministral correctly - <a href="https://docs.unsloth.ai/new/ministral-3">Read our Guide</a>.</em>
-  </p>
-<p style="margin-top: 0;margin-bottom: 0;">
-   <em>See <a href="https://docs.unsloth.ai/basics/unsloth-dynamic-v2.0-gguf">Unsloth Dynamic 2.0 GGUFs</a> for our quantization benchmarks.</em>
-  </p>
-  <div style="display: flex; gap: 5px; align-items: center; ">
-    <a href="https://github.com/unslothai/unsloth/">
-      <img src="https://github.com/unslothai/unsloth/raw/main/images/unsloth%20new%20logo.png" width="133">
-    </a>
-    <a href="https://discord.gg/unsloth">
-      <img src="https://github.com/unslothai/unsloth/raw/main/images/Discord%20button.png" width="173">
-    </a>
-    <a href="https://docs.unsloth.ai/new/ministral-3">
-      <img src="https://raw.githubusercontent.com/unslothai/unsloth/refs/heads/main/images/documentation%20green%20button.png" width="143">
-    </a>
-  </div>
-<h1 style="margin-top: 0rem;">✨ Read our Ministral 3 Guide <a href="https://docs.unsloth.ai/new/ministral-3">here</a>!</h1>
-</div>
-- Fine-tune Ministral 3 for free using our [Google Colab notebook](https://docs.unsloth.ai/new/ministral-3#fine-tuning)
-- Or train Ministral 3 with reinforcement learning (GSPO) with our [free notebook](https://docs.unsloth.ai/new/ministral-3#reinforcement-learning-grpo).
-- View the rest of our notebooks in our [docs here](https://docs.unsloth.ai/get-started/unsloth-notebooks).
 ---
 # Ministral 3 3B Instruct 2512
 The smallest model in the Ministral 3 family, **Ministral 3 3B** is a powerful, efficient tiny language model with vision capabilities.
 The Ministral 3 family is designed for edge deployment, capable of running on a wide range of hardware. Ministral 3 3B can even be deployed locally, capable of fitting in 8GB of VRAM in FP8, and less if further quantized.
 ## Key Features
 Ministral 3 3B consists of two main architectural components:
 - **3.4B Language Model**
@@ -81,12 +58,24 @@ Ideal for lightweight, real-time applications on edge or low-resource devices, s
 Bringing advanced AI capabilities to edge and distributed environments for embedded systems.
 ## Ministral 3 Family
 | Model Name                     | Type               | Precision | Link                                                                                     |
 |--------------------------------|--------------------|-----------|------------------------------------------------------------------------------------------|
 | Ministral 3 3B Base 2512       | Base pre-trained   | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-3B-Base-2512)                |
-| Ministral 3 3B Instruct 2512   | Instruct post-trained | FP8   | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-3B-Instruct-2512)            |
 | Ministral 3 3B Reasoning 2512  | Reasoning capable  | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-3B-Reasoning-2512)           |
 | Ministral 3 8B Base 2512       | Base pre-trained   | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-8B-Base-2512)                |
 | Ministral 3 8B Instruct 2512   | Instruct post-trained | FP8    | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-8B-Instruct-2512)            |
@@ -95,7 +84,7 @@ Bringing advanced AI capabilities to edge and distributed environments for embed
 | Ministral 3 14B Instruct 2512  | Instruct post-trained | FP8    | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512)           |
 | Ministral 3 14B Reasoning 2512 | Reasoning capable  | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-14B-Reasoning-2512)          |
-Other formats available [here](https://huggingface.co/collections/mistralai/ministral-3-more).
 ## Benchmark Results
@@ -157,7 +146,7 @@ We recommend using this model with [vLLM](https://github.com/vllm-project/vllm).
 #### Installation
-Make sure to install [`vLLM >= 0.12.0`](https://github.com/vllm-project/vllm/releases/tag/v0.12.0):
 ```
 pip install vllm --upgrade
@@ -170,7 +159,7 @@ To check:
 python -c "import mistral_common; print(mistral_common.__version__)"
 ```
-You can also make use of a ready-to-go [docker image](https://github.com/vllm-project/vllm/blob/main/Dockerfile) or on the [docker hub](https://hub.docker.com/layers/vllm/vllm-openai/latest/images/sha256-de9032a92ffea7b5c007dad80b38fd44aac11eddc31c435f8e52f3b7404bbf39).
 #### Serve
@@ -180,6 +169,7 @@ A simple launch command is:
 ```bash
 vllm serve mistralai/Ministral-3-3B-Instruct-2512 \
   --enable-auto-tool-choice --tool-call-parser mistral
 ```
@@ -193,10 +183,10 @@ Additional flags:
 * You can set `--max-model-len` to preserve memory. By default it is set to `262144` which is quite large but not necessary for most scenarios.
 * You can set `--max-num-batched-tokens` to balance throughput and latency, higher means higher throughput but higher latency.
 #### Usage of the model
-Here we asumme that the model `mistralai/Ministral-3-3B-Instruct-2512` is served and you can ping it to the domain `localhost` with the port `8000` which is the default for vLLM.
 <details>
   <summary>Vision Reasoning</summary>
@@ -252,8 +242,6 @@ messages = [
     },
 ]
-print(messages)
 response = client.chat.completions.create(
     model=model,
@@ -466,7 +454,7 @@ print(assistant_message)
 You can also use Ministral 3 3B Instruct 2512 with `Transformers` !
-Transformers very recently added prelimenary support for FP8, so please make sure to install from main:
 ```sh
 uv pip install git+https://github.com/huggingface/transformers
@@ -481,10 +469,11 @@ pip install mistral-common --upgrade
 Try it out by running the following snippet.
 > [!Tip]
-> By default Transformers will load the checkpoint in FP8 and dequantize it to BF16 on the fly,
-> which means the model currently does not make use of accelerated FP8-kernels.
-> Compatibility with accelerated FP8-kernels is currently worked on and will be available in a couple of weeks.
-> Stay tuned!
 <details>
   <summary>Python snippet</summary>
@@ -529,9 +518,11 @@ decoded_output = tokenizer.decode(output[len(tokenized["input_ids"][0]):])
 print(decoded_output)
 ```
-**Note:**
-Transformers allows you to automatically convert the checkpoint to Bfloat16. To so simple load the model as follows:
 ```py
 from transformers import Mistral3ForConditionalGeneration, FineGrainedFP8Config
@@ -544,8 +535,6 @@ model = Mistral3ForConditionalGeneration.from_pretrained(
 )
 ```
-</details>
 ## License
 This model is licensed under the [Apache 2.0 License](https://www.apache.org/licenses/LICENSE-2.0.txt).

 license: apache-2.0
 inference: false
 base_model:
+- mistralai/Ministral-3-3B-Base-2512
+extra_gated_description: >-
+  If you want to learn more about how we process your personal data, please read
+  our <a href="https://mistral.ai/terms/">Privacy Policy</a>.
 tags:
 - mistral-common
 ---
 # Ministral 3 3B Instruct 2512
 The smallest model in the Ministral 3 family, **Ministral 3 3B** is a powerful, efficient tiny language model with vision capabilities.
+This model is the instruct post-trained version in **FP8**, fine-tuned for instruction tasks, making it ideal for chat and instruction based use cases.
 The Ministral 3 family is designed for edge deployment, capable of running on a wide range of hardware. Ministral 3 3B can even be deployed locally, capable of fitting in 8GB of VRAM in FP8, and less if further quantized.
+Learn more in our blog post [here](https://mistral.ai/news/mistral-3).
 ## Key Features
 Ministral 3 3B consists of two main architectural components:
 - **3.4B Language Model**
 Bringing advanced AI capabilities to edge and distributed environments for embedded systems.
+### Recommended Settings
+We recommend deploying with the following best practices:
+- System Prompt: Define a clear environment and use case, including guidance on how to effectively leverage tools in agentic systems.
+- Sampling Parameters: Use a **temperature below 0.1** for daily-driver and production environments ; Higher temperatures may be explored for creative use cases - developers are encouraged to experiment with alternative settings.
+- Tools: Keep the set of tools well-defined and limit their number to the minimum required for the use case - Avoiding overloading the model with an excessive number of tools.
+- Vision: When deploying with vision capabilities, we recommend maintaining an aspect ratio close to 1:1 (width-to-height) for images. Avoiding the use of overly thin or wide images - crop them as needed to ensure optimal performance.
+### Recommended Sampling
+* We recommend starting with a Temperature of 0.1 for most use cases. Feel free to experiment with different settings to best suit your specific needs.
 ## Ministral 3 Family
 | Model Name                     | Type               | Precision | Link                                                                                     |
 |--------------------------------|--------------------|-----------|------------------------------------------------------------------------------------------|
 | Ministral 3 3B Base 2512       | Base pre-trained   | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-3B-Base-2512)                |
+| **Ministral 3 3B Instruct 2512**   | **Instruct post-trained** | **FP8**   | [**Hugging Face**](https://huggingface.co/mistralai/Ministral-3-3B-Instruct-2512)            |
 | Ministral 3 3B Reasoning 2512  | Reasoning capable  | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-3B-Reasoning-2512)           |
 | Ministral 3 8B Base 2512       | Base pre-trained   | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-8B-Base-2512)                |
 | Ministral 3 8B Instruct 2512   | Instruct post-trained | FP8    | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-8B-Instruct-2512)            |
 | Ministral 3 14B Instruct 2512  | Instruct post-trained | FP8    | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-14B-Instruct-2512)           |
 | Ministral 3 14B Reasoning 2512 | Reasoning capable  | BF16      | [Hugging Face](https://huggingface.co/mistralai/Ministral-3-14B-Reasoning-2512)          |
+Other formats available [here](https://huggingface.co/collections/mistralai/ministral-3-additional-checkpoints).
 ## Benchmark Results
 #### Installation
+Make sure to install **vllm >= 1.12.0**:
 ```
 pip install vllm --upgrade
 python -c "import mistral_common; print(mistral_common.__version__)"
 ```
+You can also make use of a ready-to-go [docker image](https://github.com/vllm-project/vllm/blob/main/docker/Dockerfile) or on the [docker hub](https://hub.docker.com/layers/vllm/vllm-openai/latest).
 #### Serve
 ```bash
 vllm serve mistralai/Ministral-3-3B-Instruct-2512 \
+  --tokenizer_mode mistral --config_format mistral --load_format mistral \
   --enable-auto-tool-choice --tool-call-parser mistral
 ```
 * You can set `--max-model-len` to preserve memory. By default it is set to `262144` which is quite large but not necessary for most scenarios.
 * You can set `--max-num-batched-tokens` to balance throughput and latency, higher means higher throughput but higher latency.
 #### Usage of the model
+Here we assume that the model `mistralai/Ministral-3-3B-Instruct-2512` is served and you can ping it to the domain `localhost` with the port `8000` which is the default for vLLM.
 <details>
   <summary>Vision Reasoning</summary>
     },
 ]
 response = client.chat.completions.create(
     model=model,
 You can also use Ministral 3 3B Instruct 2512 with `Transformers` !
+Transformers recently added support for FP8, so make sure to install from main:
 ```sh
 uv pip install git+https://github.com/huggingface/transformers
 Try it out by running the following snippet.
 > [!Tip]
+> On latest main as of 05/12/2025, by default
+> a FP8 triton kernel for fast accelerated matmuls
+> (`w8a8_block_fp8_matmul_triton`) will be used
+> without any degradation in accuracy. However, if you want to
+> run your model in BF16 see ([here](#transformers-bf16))
 <details>
   <summary>Python snippet</summary>
 print(decoded_output)
 ```
+</details>
+#### Transformers BF16
+Transformers allows you to automatically convert the checkpoint to Bfloat16. To do so, simply load the model as follows:
 ```py
 from transformers import Mistral3ForConditionalGeneration, FineGrainedFP8Config
 )
 ```
 ## License
 This model is licensed under the [Apache 2.0 License](https://www.apache.org/licenses/LICENSE-2.0.txt).

chat_template.jinja CHANGED Viewed

@@ -1,4 +1,3 @@
-{#- Unsloth template fixes #}
 {#- Default system message if no system prompt is passed. #}
 {%- set default_system_message = 'You are Ministral-3-3B-Instruct-2512, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.\nYou power an AI assistant called Le Chat.\nYour knowledge base was last updated on 2023-10-01.\nThe current date is {today}.\n\nWhen you\'re not sure about some information or when the user\'s request requires up-to-date or specific data, you must use the available tools to fetch the information. Do not hesitate to use tools whenever they can provide a more accurate or complete response. If no relevant tools are available, then clearly state that you don\'t have the information and avoid making up anything.\nIf the user\'s question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. "What are some good restaurants around me?" => "Where are you?" or "When is the next flight to Tokyo" => "Where do you travel from?").\nYou are always very attentive to dates, in particular you try to resolve dates (e.g. "yesterday" is {yesterday}) and when asked about information at specific dates, you discard information that is at another date.\nYou follow these instructions in all languages, and always respond to the user in the language they use or request.\nNext sections describe the capabilities that you have.\n\n# WEB BROWSING INSTRUCTIONS\n\nYou cannot perform any web search or access internet to open URLs, links etc. If it seems like the user is expecting you to do so, you clarify the situation and ask the user to copy paste the text directly in the chat.\n\n# MULTI-MODAL INSTRUCTIONS\n\nYou have the ability to read images, but you cannot generate images. You also cannot transcribe audio files or videos.\nYou cannot read nor transcribe audio files or videos.\n\n# TOOL CALLING INSTRUCTIONS\n\nYou may have access to tools that you can use to fetch information or perform actions. You must use these tools in the following situations:\n\n1. When the request requires up-to-date information.\n2. When the request requires specific data that you do not have in your knowledge base.\n3. When the request involves actions that you cannot perform without tools.\n\nAlways prioritize using tools to provide the most accurate and helpful response. If tools are not available, inform the user that you cannot perform the requested action at the moment.' %}
@@ -80,10 +79,13 @@
     {#- Assistant messages supports text content or text and image chunks. #}
     {%- elif message['role'] == 'assistant' %}
         {%- if message['content'] is string %}
             {{- message['content'] }}
-        {%- elif message['content'] is iterable and message['content'] | length > 0 %}
             {%- for block in message['content'] %}
                 {%- if block['type'] == 'text' %}
                     {{- block['text'] }}
@@ -114,8 +116,6 @@
     {#- Raise exception for unsupported roles. #}
     {%- else %}
-        {{- raise_exception('Only user, assistant and tool roles are supported, got ' + message['role']) }}
     {%- endif %}
 {%- endfor %}
-{#- Copyright 2025-present Unsloth. Apache 2.0 License. #}

 {#- Default system message if no system prompt is passed. #}
 {%- set default_system_message = 'You are Ministral-3-3B-Instruct-2512, a Large Language Model (LLM) created by Mistral AI, a French startup headquartered in Paris.\nYou power an AI assistant called Le Chat.\nYour knowledge base was last updated on 2023-10-01.\nThe current date is {today}.\n\nWhen you\'re not sure about some information or when the user\'s request requires up-to-date or specific data, you must use the available tools to fetch the information. Do not hesitate to use tools whenever they can provide a more accurate or complete response. If no relevant tools are available, then clearly state that you don\'t have the information and avoid making up anything.\nIf the user\'s question is not clear, ambiguous, or does not provide enough context for you to accurately answer the question, you do not try to answer it right away and you rather ask the user to clarify their request (e.g. "What are some good restaurants around me?" => "Where are you?" or "When is the next flight to Tokyo" => "Where do you travel from?").\nYou are always very attentive to dates, in particular you try to resolve dates (e.g. "yesterday" is {yesterday}) and when asked about information at specific dates, you discard information that is at another date.\nYou follow these instructions in all languages, and always respond to the user in the language they use or request.\nNext sections describe the capabilities that you have.\n\n# WEB BROWSING INSTRUCTIONS\n\nYou cannot perform any web search or access internet to open URLs, links etc. If it seems like the user is expecting you to do so, you clarify the situation and ask the user to copy paste the text directly in the chat.\n\n# MULTI-MODAL INSTRUCTIONS\n\nYou have the ability to read images, but you cannot generate images. You also cannot transcribe audio files or videos.\nYou cannot read nor transcribe audio files or videos.\n\n# TOOL CALLING INSTRUCTIONS\n\nYou may have access to tools that you can use to fetch information or perform actions. You must use these tools in the following situations:\n\n1. When the request requires up-to-date information.\n2. When the request requires specific data that you do not have in your knowledge base.\n3. When the request involves actions that you cannot perform without tools.\n\nAlways prioritize using tools to provide the most accurate and helpful response. If tools are not available, inform the user that you cannot perform the requested action at the moment.' %}
     {#- Assistant messages supports text content or text and image chunks. #}
     {%- elif message['role'] == 'assistant' %}
+        {%- if (message['content'] is none or message['content'] == '' or message['content']|length == 0) and (message['tool_calls'] is not defined or message['tool_calls'] is none or message['tool_calls']|length == 0) %}
+            {{- raise_exception('Assistant message must have a string or a list of chunks in content or a list of tool calls.') }}
+        {%- endif %}
         {%- if message['content'] is string %}
             {{- message['content'] }}
+        {%- elif message['content'] | length > 0 %}
             {%- for block in message['content'] %}
                 {%- if block['type'] == 'text' %}
                     {{- block['text'] }}
     {#- Raise exception for unsupported roles. #}
     {%- else %}
+        {{- raise_exception('Only user, assistant and tool roles are supported, got ' + message['role'] + '.') }}
     {%- endif %}
 {%- endfor %}

config.json CHANGED Viewed

@@ -2,18 +2,28 @@
   "architectures": [
     "Mistral3ForConditionalGeneration"
   ],
-  "bos_token_id": 1,
   "torch_dtype": "bfloat16",
-  "eos_token_id": 2,
   "image_token_index": 10,
   "model_type": "mistral3",
   "multimodal_projector_bias": false,
-  "pad_token_id": 11,
   "projector_hidden_act": "gelu",
   "spatial_merge_size": 2,
   "text_config": {
     "attention_dropout": 0.0,
-    "torch_dtype": "bfloat16",
     "head_dim": 128,
     "hidden_act": "silu",
     "hidden_size": 3072,
@@ -43,10 +53,8 @@
     "vocab_size": 131072
   },
   "transformers_version": "5.0.0.dev0",
-  "unsloth_fixed": true,
   "vision_config": {
     "attention_dropout": 0.0,
-    "torch_dtype": "bfloat16",
     "head_dim": 64,
     "hidden_act": "silu",
     "hidden_size": 1024,

   "architectures": [
     "Mistral3ForConditionalGeneration"
   ],
   "torch_dtype": "bfloat16",
   "image_token_index": 10,
   "model_type": "mistral3",
   "multimodal_projector_bias": false,
   "projector_hidden_act": "gelu",
+  "quantization_config": {
+    "activation_scheme": "static",
+    "dequantize": false,
+    "modules_to_not_convert": [
+      "model.vision_tower",
+      "model.multi_modal_projector",
+      "lm_head",
+      "model.vision_tower",
+      "model.multi_modal_projector",
+      "lm_head"
+    ],
+    "quant_method": "fp8",
+    "weight_block_size": null
+  },
   "spatial_merge_size": 2,
   "text_config": {
     "attention_dropout": 0.0,
     "head_dim": 128,
     "hidden_act": "silu",
     "hidden_size": 3072,
     "vocab_size": 131072
   },
   "transformers_version": "5.0.0.dev0",
   "vision_config": {
     "attention_dropout": 0.0,
     "head_dim": 64,
     "hidden_act": "silu",
     "hidden_size": 1024,

model-00002-of-00002.safetensors DELETED Viewed

@@ -1,3 +0,0 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:718d087fa591fd4356b7241f293c24219399d86f092d46cf36f765051498033a
-size 2730659224

model-00001-of-00002.safetensors → model.safetensors RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3821ebc30884f66e3d26d339e161641f34b91ed916627011e7b08e5f1edd884
-size 4967581832

 version https://git-lfs.github.com/spec/v1
+oid sha256:728f1826cd0e38191ca7b1379e81f78cf0555c6ffd95882aabd2404632346f86
+size 4672099184

model.safetensors.index.json DELETED Viewed

@@ -1,466 +0,0 @@
-{
-  "metadata": {
-    "total_parameters": 4251743232,
-    "total_size": 7698180096
-  },
-  "weight_map": {
-    "language_model.model.embed_tokens.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.15.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.15.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.16.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
-    "language_model.model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
-    "language_model.model.norm.weight": "model-00002-of-00002.safetensors",
-    "multi_modal_projector.linear_1.weight": "model-00001-of-00002.safetensors",
-    "multi_modal_projector.linear_2.weight": "model-00001-of-00002.safetensors",
-    "multi_modal_projector.norm.weight": "model-00001-of-00002.safetensors",
-    "multi_modal_projector.patch_merger.merging_layer.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.ln_pre.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.patch_conv.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.0.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.1.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.10.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.11.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.12.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.13.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.14.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.15.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.16.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.17.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.18.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.19.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.2.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.20.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.21.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.22.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.23.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.3.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.4.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.5.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.6.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.7.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.8.ffn_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.attention.k_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.attention.o_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.attention.q_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.attention.v_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.attention_norm.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.feed_forward.down_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.feed_forward.gate_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.feed_forward.up_proj.weight": "model-00001-of-00002.safetensors",
-    "vision_tower.transformer.layers.9.ffn_norm.weight": "model-00001-of-00002.safetensors"
-  }
-}

params.json CHANGED Viewed

@@ -19,6 +19,10 @@
   "qk_nope_head_dim": null,
   "kv_lora_rank": null,
   "v_head_dim": null,
   "yarn": {
     "original_max_position_embeddings": 16384,
     "factor": 16,

   "qk_nope_head_dim": null,
   "kv_lora_rank": null,
   "v_head_dim": null,
+  "quantization": {
+    "qformat_weight": "fp8_e4m3",
+    "qscheme_act": "TENSOR"
+  },
   "yarn": {
     "original_max_position_embeddings": 16384,
     "factor": 16,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:577575622324b2e099e2648be26bdeb5e5815ffe66d7004e9e3ddbf421db6bf1
-size 17078110

 version https://git-lfs.github.com/spec/v1
+oid sha256:286acad9b0e27fce778ac429763536accf618ccb6ed72963b6f94685e531c5c7
+size 17077402

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff