Training in progress, step 1250, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +77 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fd9927983a51bdbbbe3f6a896496fe7f34e36c8366b36cedd986c06700a1248
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5cca72daa84dd619b2d0f5827f7875f6225bf21230ec28901571741fe05a484
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:674ddc9dff63c1585f454a1014265dde25478368a5b7c4b9ac6e1d5ad8c4bf20
 size 162934501

 version https://git-lfs.github.com/spec/v1
+oid sha256:c69a2000a2d781aab5e4c2150091fa45f58d2247fcba867430eea8fe19576ed3
 size 162934501

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13672cd0f406fcf673996bd62cd145a1b4a99e9392245660dc5eedeaace38826
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:b02196a412b7b1bbb8e243002c719eb4ea8c8114bf5d1aa4efe847cee36bb5d6
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.05959475566150179,
   "eval_steps": 500,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1823,6 +1823,81 @@
       "rewards/margins": 1.0934114456176758,
       "rewards/rejected": -171.5682373046875,
       "step": 1200
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06207787048073103,
   "eval_steps": 500,
+  "global_step": 1250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 1.0934114456176758,
       "rewards/rejected": -171.5682373046875,
       "step": 1200
+    },
+    {
+      "epoch": 0.060091378625347636,
+      "grad_norm": 18.099149703979492,
+      "learning_rate": 0.00019892271922674633,
+      "logits/chosen": -2.4598028659820557,
+      "logits/rejected": -2.528168201446533,
+      "logps/chosen": -1820.162109375,
+      "logps/rejected": -1815.075927734375,
+      "loss": 9.8981,
+      "rewards/accuracies": 0.4000000059604645,
+      "rewards/chosen": -164.43930053710938,
+      "rewards/margins": -1.1209890842437744,
+      "rewards/rejected": -163.31829833984375,
+      "step": 1210
+    },
+    {
+      "epoch": 0.06058800158919348,
+      "grad_norm": 38.524173736572266,
+      "learning_rate": 0.0001989012993586112,
+      "logits/chosen": -2.442213535308838,
+      "logits/rejected": -2.491849422454834,
+      "logps/chosen": -1803.8734130859375,
+      "logps/rejected": -1723.594970703125,
+      "loss": 15.0076,
+      "rewards/accuracies": 0.33125001192092896,
+      "rewards/chosen": -163.45181274414062,
+      "rewards/margins": -8.174293518066406,
+      "rewards/rejected": -155.27752685546875,
+      "step": 1220
+    },
+    {
+      "epoch": 0.061084624553039334,
+      "grad_norm": 15.730033874511719,
+      "learning_rate": 0.00019887966980912841,
+      "logits/chosen": -2.4136605262756348,
+      "logits/rejected": -2.4654335975646973,
+      "logps/chosen": -1924.3226318359375,
+      "logps/rejected": -1878.5234375,
+      "loss": 12.3718,
+      "rewards/accuracies": 0.41874998807907104,
+      "rewards/chosen": -168.52288818359375,
+      "rewards/margins": -3.0252227783203125,
+      "rewards/rejected": -165.49766540527344,
+      "step": 1230
+    },
+    {
+      "epoch": 0.06158124751688518,
+      "grad_norm": 18.012292861938477,
+      "learning_rate": 0.00019885783062415503,
+      "logits/chosen": -2.262502431869507,
+      "logits/rejected": -2.30684757232666,
+      "logps/chosen": -1802.6370849609375,
+      "logps/rejected": -1747.916748046875,
+      "loss": 15.6914,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": -159.5081024169922,
+      "rewards/margins": -6.31906795501709,
+      "rewards/rejected": -153.18905639648438,
+      "step": 1240
+    },
+    {
+      "epoch": 0.06207787048073103,
+      "grad_norm": 31.46440315246582,
+      "learning_rate": 0.00019883578184999237,
+      "logits/chosen": -2.357743978500366,
+      "logits/rejected": -2.4041171073913574,
+      "logps/chosen": -1812.1968994140625,
+      "logps/rejected": -1822.2720947265625,
+      "loss": 11.4807,
+      "rewards/accuracies": 0.35624998807907104,
+      "rewards/chosen": -160.29063415527344,
+      "rewards/margins": -0.3494691848754883,
+      "rewards/rejected": -159.94117736816406,
+      "step": 1250
     }
   ],
   "logging_steps": 10,