Training in progress, step 1200, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +77 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a929d3820cc1c1b87aaa3a19c3151498709177752334961b9baea187ddadb3d2
 size 319876032

 version https://git-lfs.github.com/spec/v1
+oid sha256:58e84e33b10cbbb24ba1662f22f7320ae2ca58b43ff8e8ae917cf116fc02f200
 size 319876032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:599b6cf815824832480a957835de20f2fb6f9fe2a51fece8ad90ddab79816071
 size 162934501

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccf8419f1ca2bff65f49e54850fabd0198bb85d3259b300b99d840aacfc85037
 size 162934501

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37e03f7c5107969cc1329932dd9cfeb378051a709bd5fa18e9c0569938b2a7c7
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e36620b0d3c2a332d42c0e242e0afe41f2692002d485895a0199c7f0b34e433
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07223164374097105,
   "eval_steps": 500,
-  "global_step": 1150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1748,6 +1748,81 @@
       "rewards/margins": -21.650144577026367,
       "rewards/rejected": -189.57769775390625,
       "step": 1150
     }
   ],
   "logging_steps": 10,

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.07537214999057848,
   "eval_steps": 500,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": -21.650144577026367,
       "rewards/rejected": -189.57769775390625,
       "step": 1150
+    },
+    {
+      "epoch": 0.07285974499089254,
+      "grad_norm": 53.36018371582031,
+      "learning_rate": 0.00019859878751505834,
+      "logits/chosen": -2.3769264221191406,
+      "logits/rejected": -2.3773722648620605,
+      "logps/chosen": -2328.4267578125,
+      "logps/rejected": -2146.54541015625,
+      "loss": 35.5288,
+      "rewards/accuracies": 0.45625001192092896,
+      "rewards/chosen": -208.66061401367188,
+      "rewards/margins": -17.51542854309082,
+      "rewards/rejected": -191.1452178955078,
+      "step": 1160
+    },
+    {
+      "epoch": 0.07348784624081402,
+      "grad_norm": 23.861251831054688,
+      "learning_rate": 0.00019856948302398827,
+      "logits/chosen": -2.2911629676818848,
+      "logits/rejected": -2.291214942932129,
+      "logps/chosen": -2545.89599609375,
+      "logps/rejected": -2199.31396484375,
+      "loss": 46.9012,
+      "rewards/accuracies": 0.3687500059604645,
+      "rewards/chosen": -227.5490264892578,
+      "rewards/margins": -32.629981994628906,
+      "rewards/rejected": -194.91903686523438,
+      "step": 1170
+    },
+    {
+      "epoch": 0.07411594749073551,
+      "grad_norm": 111.14179229736328,
+      "learning_rate": 0.00019853987747088186,
+      "logits/chosen": -2.3458666801452637,
+      "logits/rejected": -2.3459057807922363,
+      "logps/chosen": -2504.62841796875,
+      "logps/rejected": -2294.13037109375,
+      "loss": 40.86,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -225.32571411132812,
+      "rewards/margins": -19.68381118774414,
+      "rewards/rejected": -205.64187622070312,
+      "step": 1180
+    },
+    {
+      "epoch": 0.07474404874065699,
+      "grad_norm": 44.11448669433594,
+      "learning_rate": 0.00019850997094616375,
+      "logits/chosen": -2.415238857269287,
+      "logits/rejected": -2.415276288986206,
+      "logps/chosen": -2614.903564453125,
+      "logps/rejected": -2364.593017578125,
+      "loss": 39.6064,
+      "rewards/accuracies": 0.3812499940395355,
+      "rewards/chosen": -234.325439453125,
+      "rewards/margins": -23.00688934326172,
+      "rewards/rejected": -211.3185272216797,
+      "step": 1190
+    },
+    {
+      "epoch": 0.07537214999057848,
+      "grad_norm": 12.600385665893555,
+      "learning_rate": 0.00019847976354117782,
+      "logits/chosen": -2.3000645637512207,
+      "logits/rejected": -2.300097942352295,
+      "logps/chosen": -2576.286865234375,
+      "logps/rejected": -2298.492919921875,
+      "loss": 44.5961,
+      "rewards/accuracies": 0.4124999940395355,
+      "rewards/chosen": -230.34500122070312,
+      "rewards/margins": -25.56293296813965,
+      "rewards/rejected": -204.7820587158203,
+      "step": 1200
     }
   ],
   "logging_steps": 10,