eric-tramel commited on Feb 19

Commit

a2e373c

verified ·

1 Parent(s): 5dfaf59

Training in progress, step 50, checkpoint

Browse files

Files changed (17) hide show

checkpoint-50/added_tokens.json +24 -0
checkpoint-50/config.json +29 -0
checkpoint-50/generation_config.json +14 -0
checkpoint-50/merges.txt +0 -0
checkpoint-50/model.safetensors +3 -0
checkpoint-50/optimizer.pt +3 -0
checkpoint-50/rng_state_0.pth +3 -0
checkpoint-50/rng_state_1.pth +3 -0
checkpoint-50/rng_state_2.pth +3 -0
checkpoint-50/rng_state_3.pth +3 -0
checkpoint-50/scheduler.pt +3 -0
checkpoint-50/special_tokens_map.json +31 -0
checkpoint-50/tokenizer.json +3 -0
checkpoint-50/tokenizer_config.json +209 -0
checkpoint-50/trainer_state.json +683 -0
checkpoint-50/training_args.bin +3 -0
checkpoint-50/vocab.json +0 -0

checkpoint-50/added_tokens.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-50/config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "_name_or_path": "Qwen/Qwen2.5-0.5B-Instruct",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151645,
+  "hidden_act": "silu",
+  "hidden_size": 896,
+  "initializer_range": 0.02,
+  "intermediate_size": 4864,
+  "max_position_embeddings": 32768,
+  "max_window_layers": 21,
+  "model_type": "qwen2",
+  "num_attention_heads": 14,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 2,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": true,
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.2",
+  "use_cache": false,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

checkpoint-50/generation_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "repetition_penalty": 1.1,
+  "temperature": 0.7,
+  "top_k": 20,
+  "top_p": 0.8,
+  "transformers_version": "4.48.2"
+}

checkpoint-50/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-50/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3ef575d88c25093b9c6abe7e67cdcd4e3e2c53dde898952a1c34c12451c46c30
+size 1976163472

checkpoint-50/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72e993476520c38b3985858941de1eaf872d9d90497c5408192803385085d33d
+size 3952505274

checkpoint-50/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:308d7c4d2c9cc27d313ee6bcb18fa125b2ff6ef04f22c5166780cc379781ff2e
+size 15024

checkpoint-50/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a85a6572356a0209f45408a99a5497ff63ed4d8c9f9192c95a69b8bbd4a9303
+size 15024

checkpoint-50/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2a6265ab766fb5999db722acc7616e2d1f610ff6de7c4039f05dda967c41d9a
+size 15024

checkpoint-50/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e473d45ed71367a91be15cd5274000a1c60df96ff9f3c21f352278725ac8e980
+size 15024

checkpoint-50/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a43513717b8c8325e4e53f3c32e1bc927629699ba294af0630ea787af80b695a
+size 1064

checkpoint-50/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-50/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:477179b4bef2f24c88d560fa2dbfd0b5ecef0d9789ddd96759ddbdfc53eb7c29
+size 11422164

checkpoint-50/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,209 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'You are Qwen, created by Alibaba Cloud. You are a helpful assistant.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nYou are Qwen, created by Alibaba Cloud. You are a helpful assistant.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-50/trainer_state.json ADDED Viewed

	@@ -0,0 +1,683 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.06666666666666667,
+  "eval_steps": 500,
+  "global_step": 50,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "completion_length": 139.8125,
+      "epoch": 0.0013333333333333333,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.998766400914329e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 1
+    },
+    {
+      "completion_length": 99.75,
+      "epoch": 0.0026666666666666666,
+      "grad_norm": 0.0,
+      "kl": 0.0,
+      "learning_rate": 4.995066821070679e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 2
+    },
+    {
+      "completion_length": 130.625,
+      "epoch": 0.004,
+      "grad_norm": 10.103676795959473,
+      "kl": 0.0,
+      "learning_rate": 4.9889049115077e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0625,
+      "step": 3
+    },
+    {
+      "completion_length": 63.125,
+      "epoch": 0.005333333333333333,
+      "grad_norm": 0.0013354145921766758,
+      "kl": 0.000917173339985311,
+      "learning_rate": 4.980286753286194e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 4
+    },
+    {
+      "completion_length": 114.4375,
+      "epoch": 0.006666666666666667,
+      "grad_norm": 3.7322745323181152,
+      "kl": 0.0011778868502005935,
+      "learning_rate": 4.969220851487844e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.0,
+      "step": 5
+    },
+    {
+      "completion_length": 114.5,
+      "epoch": 0.008,
+      "grad_norm": 0.000816968793515116,
+      "kl": 0.0007689747726544738,
+      "learning_rate": 4.955718126821722e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 6
+    },
+    {
+      "completion_length": 117.8125,
+      "epoch": 0.009333333333333334,
+      "grad_norm": 6.311767101287842,
+      "kl": 0.0008143486920744181,
+      "learning_rate": 4.939791904846868e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.0,
+      "step": 7
+    },
+    {
+      "completion_length": 122.4375,
+      "epoch": 0.010666666666666666,
+      "grad_norm": 7.456131935119629,
+      "kl": 0.0008329250849783421,
+      "learning_rate": 4.921457902821578e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.14433756470680237,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.0625,
+      "step": 8
+    },
+    {
+      "completion_length": 102.625,
+      "epoch": 0.012,
+      "grad_norm": 0.0012341401306912303,
+      "kl": 0.0009406378958374262,
+      "learning_rate": 4.900734214192358e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 9
+    },
+    {
+      "completion_length": 87.0625,
+      "epoch": 0.013333333333333334,
+      "grad_norm": 7.165847301483154,
+      "kl": 0.0011477736989036202,
+      "learning_rate": 4.877641290737883e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.25,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.0,
+      "step": 10
+    },
+    {
+      "completion_length": 69.4375,
+      "epoch": 0.014666666666666666,
+      "grad_norm": 9.744544982910156,
+      "kl": 0.001994970254600048,
+      "learning_rate": 4.852201922385564e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0625,
+      "step": 11
+    },
+    {
+      "completion_length": 78.625,
+      "epoch": 0.016,
+      "grad_norm": 5.940145969390869,
+      "kl": 0.002475572982802987,
+      "learning_rate": 4.824441214720628e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0625,
+      "step": 12
+    },
+    {
+      "completion_length": 77.0625,
+      "epoch": 0.017333333333333333,
+      "grad_norm": 9.249768257141113,
+      "kl": 0.00296708382666111,
+      "learning_rate": 4.794386564209952e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.0,
+      "step": 13
+    },
+    {
+      "completion_length": 88.3125,
+      "epoch": 0.018666666666666668,
+      "grad_norm": 0.004721676465123892,
+      "kl": 0.0022520977072417736,
+      "learning_rate": 4.762067631165049e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 14
+    },
+    {
+      "completion_length": 124.25,
+      "epoch": 0.02,
+      "grad_norm": 0.0038916626945137978,
+      "kl": 0.0022131651639938354,
+      "learning_rate": 4.7275163104709194e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 15
+    },
+    {
+      "completion_length": 108.9375,
+      "epoch": 0.021333333333333333,
+      "grad_norm": 10.418540000915527,
+      "kl": 0.004006014205515385,
+      "learning_rate": 4.6907667001096585e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.25,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.0625,
+      "step": 16
+    },
+    {
+      "completion_length": 115.625,
+      "epoch": 0.02266666666666667,
+      "grad_norm": 6.050858974456787,
+      "kl": 0.004326680675148964,
+      "learning_rate": 4.6518550675098587e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.25,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.125,
+      "step": 17
+    },
+    {
+      "completion_length": 68.8125,
+      "epoch": 0.024,
+      "grad_norm": 4.348077297210693,
+      "kl": 0.008564459159970284,
+      "learning_rate": 4.6108198137550377e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0625,
+      "step": 18
+    },
+    {
+      "completion_length": 52.0,
+      "epoch": 0.025333333333333333,
+      "grad_norm": 7.756259441375732,
+      "kl": 0.012305796146392822,
+      "learning_rate": 4.567701435686404e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0625,
+      "step": 19
+    },
+    {
+      "completion_length": 94.5625,
+      "epoch": 0.02666666666666667,
+      "grad_norm": 0.013369916006922722,
+      "kl": 0.011140521615743637,
+      "learning_rate": 4.5225424859373684e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 20
+    },
+    {
+      "completion_length": 80.9375,
+      "epoch": 0.028,
+      "grad_norm": 0.011601699516177177,
+      "kl": 0.010067824274301529,
+      "learning_rate": 4.475387530939226e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 21
+    },
+    {
+      "completion_length": 58.9375,
+      "epoch": 0.029333333333333333,
+      "grad_norm": 0.020853856578469276,
+      "kl": 0.014872935600578785,
+      "learning_rate": 4.426283106939473e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 22
+    },
+    {
+      "completion_length": 87.25,
+      "epoch": 0.030666666666666665,
+      "grad_norm": 8.2451753616333,
+      "kl": 0.0072629996575415134,
+      "learning_rate": 4.375277674076149e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.25,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.0,
+      "step": 23
+    },
+    {
+      "completion_length": 66.4375,
+      "epoch": 0.032,
+      "grad_norm": 12.476899147033691,
+      "kl": 0.016585208475589752,
+      "learning_rate": 4.3224215685535287e-07,
+      "loss": 0.0,
+      "reward": 0.1875,
+      "reward_std": 0.375,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.0625,
+      "step": 24
+    },
+    {
+      "completion_length": 76.625,
+      "epoch": 0.03333333333333333,
+      "grad_norm": 9.937981605529785,
+      "kl": 0.021889813244342804,
+      "learning_rate": 4.2677669529663686e-07,
+      "loss": 0.0,
+      "reward": 0.1875,
+      "reward_std": 0.26933756470680237,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.125,
+      "step": 25
+    },
+    {
+      "completion_length": 102.5,
+      "epoch": 0.034666666666666665,
+      "grad_norm": 13.229327201843262,
+      "kl": 0.02445467934012413,
+      "learning_rate": 4.2113677648217216e-07,
+      "loss": 0.0,
+      "reward": 0.25,
+      "reward_std": 0.39433756470680237,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.125,
+      "step": 26
+    },
+    {
+      "completion_length": 101.5625,
+      "epoch": 0.036,
+      "grad_norm": 5.182061672210693,
+      "kl": 0.01874729059636593,
+      "learning_rate": 4.1532796633091294e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0625,
+      "step": 27
+    },
+    {
+      "completion_length": 99.8125,
+      "epoch": 0.037333333333333336,
+      "grad_norm": 4.86380672454834,
+      "kl": 0.011712409555912018,
+      "learning_rate": 4.0935599743717244e-07,
+      "loss": 0.0,
+      "reward": 0.1875,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.0625,
+      "step": 28
+    },
+    {
+      "completion_length": 99.0625,
+      "epoch": 0.03866666666666667,
+      "grad_norm": 0.005987477023154497,
+      "kl": 0.00666175177320838,
+      "learning_rate": 4.0322676341324414e-07,
+      "loss": 0.0,
+      "reward": 0.0,
+      "reward_std": 0.0,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0,
+      "step": 29
+    },
+    {
+      "completion_length": 86.0,
+      "epoch": 0.04,
+      "grad_norm": 6.6918864250183105,
+      "kl": 0.02210947498679161,
+      "learning_rate": 3.9694631307311825e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.14433756470680237,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.125,
+      "step": 30
+    },
+    {
+      "completion_length": 53.1875,
+      "epoch": 0.04133333333333333,
+      "grad_norm": 7.236589431762695,
+      "kl": 0.03732139617204666,
+      "learning_rate": 3.9052084446303265e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.14433756470680237,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.125,
+      "step": 31
+    },
+    {
+      "completion_length": 91.6875,
+      "epoch": 0.042666666666666665,
+      "grad_norm": 9.589932441711426,
+      "kl": 0.021285340189933777,
+      "learning_rate": 3.839566987447491e-07,
+      "loss": 0.0,
+      "reward": 0.25,
+      "reward_std": 0.25,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.25,
+      "step": 32
+    },
+    {
+      "completion_length": 109.1875,
+      "epoch": 0.044,
+      "grad_norm": 5.473565578460693,
+      "kl": 0.019205989316105843,
+      "learning_rate": 3.7726035393759283e-07,
+      "loss": 0.0,
+      "reward": 0.0625,
+      "reward_std": 0.125,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.0625,
+      "step": 33
+    },
+    {
+      "completion_length": 93.4375,
+      "epoch": 0.04533333333333334,
+      "grad_norm": 8.452975273132324,
+      "kl": 0.021465059369802475,
+      "learning_rate": 3.704384185254288e-07,
+      "loss": 0.0,
+      "reward": 0.1875,
+      "reward_std": 0.375,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.0625,
+      "step": 34
+    },
+    {
+      "completion_length": 92.625,
+      "epoch": 0.04666666666666667,
+      "grad_norm": 7.347535133361816,
+      "kl": 0.026419799774885178,
+      "learning_rate": 3.634976249348867e-07,
+      "loss": 0.0,
+      "reward": 0.25,
+      "reward_std": 0.25,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.25,
+      "step": 35
+    },
+    {
+      "completion_length": 78.5,
+      "epoch": 0.048,
+      "grad_norm": 8.727449417114258,
+      "kl": 0.02185109257698059,
+      "learning_rate": 3.5644482289126813e-07,
+      "loss": 0.0,
+      "reward": 0.125,
+      "reward_std": 0.25,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.125,
+      "step": 36
+    },
+    {
+      "completion_length": 57.3125,
+      "epoch": 0.04933333333333333,
+      "grad_norm": 15.177477836608887,
+      "kl": 0.04622100666165352,
+      "learning_rate": 3.492869726586951e-07,
+      "loss": 0.0,
+      "reward": 0.3125,
+      "reward_std": 0.41367512941360474,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.3125,
+      "step": 37
+    },
+    {
+      "completion_length": 92.375,
+      "epoch": 0.050666666666666665,
+      "grad_norm": 10.578437805175781,
+      "kl": 0.044082142412662506,
+      "learning_rate": 3.4203113817116953e-07,
+      "loss": 0.0,
+      "reward": 0.3125,
+      "reward_std": 0.41367512941360474,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.1875,
+      "step": 38
+    },
+    {
+      "completion_length": 87.4375,
+      "epoch": 0.052,
+      "grad_norm": 10.343932151794434,
+      "kl": 0.03231078386306763,
+      "learning_rate": 3.346844800613229e-07,
+      "loss": 0.0,
+      "reward": 0.3125,
+      "reward_std": 0.375,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.25,
+      "step": 39
+    },
+    {
+      "completion_length": 48.5,
+      "epoch": 0.05333333333333334,
+      "grad_norm": 19.632137298583984,
+      "kl": 0.07163362205028534,
+      "learning_rate": 3.272542485937368e-07,
+      "loss": 0.0001,
+      "reward": 0.375,
+      "reward_std": 0.4330126941204071,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.25,
+      "step": 40
+    },
+    {
+      "completion_length": 85.75,
+      "epoch": 0.05466666666666667,
+      "grad_norm": 10.696102142333984,
+      "kl": 0.034582264721393585,
+      "learning_rate": 3.1974777650980734e-07,
+      "loss": 0.0,
+      "reward": 0.3125,
+      "reward_std": 0.41367512941360474,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.3125,
+      "step": 41
+    },
+    {
+      "completion_length": 108.9375,
+      "epoch": 0.056,
+      "grad_norm": 10.879018783569336,
+      "kl": 0.03657364100217819,
+      "learning_rate": 3.121724717912138e-07,
+      "loss": 0.0,
+      "reward": 0.375,
+      "reward_std": 0.4330126941204071,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.3125,
+      "step": 42
+    },
+    {
+      "completion_length": 75.625,
+      "epoch": 0.05733333333333333,
+      "grad_norm": 16.502370834350586,
+      "kl": 0.07044769823551178,
+      "learning_rate": 3.0453581034913565e-07,
+      "loss": 0.0001,
+      "reward": 0.6875,
+      "reward_std": 0.5791241526603699,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.625,
+      "step": 43
+    },
+    {
+      "completion_length": 69.9375,
+      "epoch": 0.058666666666666666,
+      "grad_norm": 9.02477741241455,
+      "kl": 0.030126627534627914,
+      "learning_rate": 2.968453286464312e-07,
+      "loss": 0.0,
+      "reward": 0.3125,
+      "reward_std": 0.41367512941360474,
+      "rewards/equation_reward_func": 0.0625,
+      "rewards/format_reward_func": 0.25,
+      "step": 44
+    },
+    {
+      "completion_length": 71.0,
+      "epoch": 0.06,
+      "grad_norm": 10.272525787353516,
+      "kl": 0.038944195955991745,
+      "learning_rate": 2.8910861626005773e-07,
+      "loss": 0.0,
+      "reward": 0.4375,
+      "reward_std": 0.51933753490448,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.3125,
+      "step": 45
+    },
+    {
+      "completion_length": 90.125,
+      "epoch": 0.06133333333333333,
+      "grad_norm": 12.634044647216797,
+      "kl": 0.06799886375665665,
+      "learning_rate": 2.8133330839107604e-07,
+      "loss": 0.0001,
+      "reward": 0.5,
+      "reward_std": 0.5386751294136047,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.5,
+      "step": 46
+    },
+    {
+      "completion_length": 74.75,
+      "epoch": 0.06266666666666666,
+      "grad_norm": 13.044803619384766,
+      "kl": 0.04725334420800209,
+      "learning_rate": 2.735270783296286e-07,
+      "loss": 0.0,
+      "reward": 0.625,
+      "reward_std": 0.7673887014389038,
+      "rewards/equation_reward_func": 0.125,
+      "rewards/format_reward_func": 0.5,
+      "step": 47
+    },
+    {
+      "completion_length": 68.125,
+      "epoch": 0.064,
+      "grad_norm": 12.499868392944336,
+      "kl": 0.06327543407678604,
+      "learning_rate": 2.6569762988232837e-07,
+      "loss": 0.0001,
+      "reward": 0.5625,
+      "reward_std": 0.5580127239227295,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.5625,
+      "step": 48
+    },
+    {
+      "completion_length": 63.1875,
+      "epoch": 0.06533333333333333,
+      "grad_norm": 13.13230037689209,
+      "kl": 0.11753000319004059,
+      "learning_rate": 2.5785268976953204e-07,
+      "loss": 0.0001,
+      "reward": 0.4375,
+      "reward_std": 0.51933753490448,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.4375,
+      "step": 49
+    },
+    {
+      "completion_length": 101.9375,
+      "epoch": 0.06666666666666667,
+      "grad_norm": 13.340404510498047,
+      "kl": 0.07909737527370453,
+      "learning_rate": 2.5e-07,
+      "loss": 0.0001,
+      "reward": 0.375,
+      "reward_std": 0.39433756470680237,
+      "rewards/equation_reward_func": 0.0,
+      "rewards/format_reward_func": 0.375,
+      "step": 50
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 100,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 50,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-50/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44028d40b3841ea820da6e7b4c46c26072bff1fc53ba336bed63b0030abe9bdd
+size 5560

checkpoint-50/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff