pcuenq
/

nvidia-nano-clone

@@ -15,6 +15,57 @@
     "img_context_token_id": 131072,
     "img_end_token": "</img>",
     "img_start_token": "<img>",
     "max_sequence_length": 131072,
     "model_type": "NemotronH_Nano_VL_V2",
     "norm_mean": [

     "img_context_token_id": 131072,
     "img_end_token": "</img>",
     "img_start_token": "<img>",
+    "llm_config": {
+        "architectures": [
+            "NemotronHForCausalLM"
+        ],
+        "attention_bias": false,
+        "attention_dropout": 0.0,
+        "attention_head_dim": 128,
+        "auto_map": {
+            "AutoConfig": "nvidia/NVIDIA-Nemotron-Nano-12B-v2-Base--configuration_nemotron_h.NemotronHConfig",
+            "AutoModelForCausalLM": "nvidia/NVIDIA-Nemotron-Nano-12B-v2-Base--modeling_nemotron_h.NemotronHForCausalLM"
+        },
+        "chunk_size": 128,
+        "conv_kernel": 4,
+        "eos_token_id": 12,
+        "expand": 2,
+        "head_dim": 128,
+        "hidden_dropout": 0.0,
+        "hidden_size": 5120,
+        "hybrid_override_pattern": "M-M-M-M*-M-M-M-M*-M-M-M-M*-M-M-M-M*-M-M-M-M*-M-M-M-M*-M-M-M-M-",
+        "initializer_range": 0.02,
+        "intermediate_size": 20480,
+        "layer_norm_epsilon": 1e-05,
+        "mamba_head_dim": 80,
+        "mamba_hidden_act": "silu",
+        "mamba_num_heads": 128,
+        "mamba_proj_bias": false,
+        "max_position_embeddings": 131072,
+        "mlp_bias": false,
+        "mlp_hidden_act": "relu2",
+        "model_type": "nemotron_h",
+        "n_groups": 8,
+        "num_attention_heads": 40,
+        "num_hidden_layers": 62,
+        "num_key_value_heads": 8,
+        "num_logits_to_keep": 1,
+        "rescale_prenorm_residual": true,
+        "residual_in_fp32": false,
+        "rms_norm_eps": 1e-05,
+        "sliding_window": null,
+        "ssm_state_size": 128,
+        "time_step_floor": 0.0001,
+        "time_step_max": 0.1,
+        "time_step_min": 0.001,
+        "time_step_rank": 256,
+        "torch_dtype": "bfloat16",
+        "use_bias": false,
+        "use_cache": true,
+        "use_conv_bias": true,
+        "use_mamba_kernels": true,
+        "vocab_size": 132096
+    },
     "max_sequence_length": 131072,
     "model_type": "NemotronH_Nano_VL_V2",
     "norm_mean": [