Training in progress, step 540, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +143 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc960fca69cb5a221aa8a825eefb4fade1dfb1ede30eea2200ef4e2111d697f9
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c1a22a5ad978a253e58570d5a6e4cbeec9bfa7a8ece40f8616e2220428cc7a
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d1abb3d05d6a92803ab2ebdda809e35b42b61b12d3dc690cd31f8f80303abdfd
 size 85723732

 version https://git-lfs.github.com/spec/v1
+oid sha256:9081acbf7e17111ebe4f8bbdc838b421d5fd63ae6342d91e8d860439a914c398
 size 85723732

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:615b22c8080fe4e88aae663f0d769e5c8cbe504c49fe0b09ae26279486ea1ec6
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a199493692cf25c16b518bf6e7216c3987b56836fc34a4b8f0b5e62bd338bbd
 size 14512

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e8969ed750a19c2f4413dcfe1605216f211d0e516f70f002601b0027cb83f9dc
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:74615d30db2006579916bf75a005a1eafb18948a8ecb1d61a6161179b736d4f2
 size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc5385188f3d7388d500dc532b7f97173664d249e1812dfaef1013ebeee30cc1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cccf180715c4b2e0d980973df8379f3cff06745ac6beabafbc8fc4345127563
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.674157303370786,
   "eval_steps": 56,
-  "global_step": 520,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3727,6 +3727,146 @@
       "learning_rate": 1.18052897181965e-06,
       "loss": 0.2621,
       "step": 520
     }
   ],
   "logging_steps": 1,
@@ -3746,7 +3886,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.0862510996114637e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.853932584269663,
   "eval_steps": 56,
+  "global_step": 540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.18052897181965e-06,
       "loss": 0.2621,
       "step": 520
+    },
+    {
+      "epoch": 4.683146067415731,
+      "grad_norm": 1.5518674850463867,
+      "learning_rate": 1.1142819925730686e-06,
+      "loss": 0.2573,
+      "step": 521
+    },
+    {
+      "epoch": 4.692134831460674,
+      "grad_norm": 1.6397637128829956,
+      "learning_rate": 1.0499269107544674e-06,
+      "loss": 0.2642,
+      "step": 522
+    },
+    {
+      "epoch": 4.701123595505618,
+      "grad_norm": 1.5932601690292358,
+      "learning_rate": 9.874662169320258e-07,
+      "loss": 0.2738,
+      "step": 523
+    },
+    {
+      "epoch": 4.710112359550562,
+      "grad_norm": 1.683666706085205,
+      "learning_rate": 9.269023283603296e-07,
+      "loss": 0.2814,
+      "step": 524
+    },
+    {
+      "epoch": 4.719101123595506,
+      "grad_norm": 1.767184853553772,
+      "learning_rate": 8.682375888868166e-07,
+      "loss": 0.2798,
+      "step": 525
+    },
+    {
+      "epoch": 4.72808988764045,
+      "grad_norm": 1.6281753778457642,
+      "learning_rate": 8.114742688610788e-07,
+      "loss": 0.2491,
+      "step": 526
+    },
+    {
+      "epoch": 4.737078651685393,
+      "grad_norm": 1.5955027341842651,
+      "learning_rate": 7.566145650469814e-07,
+      "loss": 0.2424,
+      "step": 527
+    },
+    {
+      "epoch": 4.746067415730337,
+      "grad_norm": 1.6692067384719849,
+      "learning_rate": 7.0366060053767e-07,
+      "loss": 0.29,
+      "step": 528
+    },
+    {
+      "epoch": 4.755056179775281,
+      "grad_norm": 1.8486473560333252,
+      "learning_rate": 6.526144246733868e-07,
+      "loss": 0.2945,
+      "step": 529
+    },
+    {
+      "epoch": 4.764044943820225,
+      "grad_norm": 1.6505565643310547,
+      "learning_rate": 6.034780129621664e-07,
+      "loss": 0.3064,
+      "step": 530
+    },
+    {
+      "epoch": 4.773033707865169,
+      "grad_norm": 1.8321211338043213,
+      "learning_rate": 5.562532670033871e-07,
+      "loss": 0.2854,
+      "step": 531
+    },
+    {
+      "epoch": 4.782022471910112,
+      "grad_norm": 1.6400787830352783,
+      "learning_rate": 5.109420144141786e-07,
+      "loss": 0.3191,
+      "step": 532
+    },
+    {
+      "epoch": 4.7910112359550565,
+      "grad_norm": 1.584359049797058,
+      "learning_rate": 4.675460087586847e-07,
+      "loss": 0.2786,
+      "step": 533
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 1.66130530834198,
+      "learning_rate": 4.2606692948019556e-07,
+      "loss": 0.2825,
+      "step": 534
+    },
+    {
+      "epoch": 4.808988764044944,
+      "grad_norm": 1.7023285627365112,
+      "learning_rate": 3.8650638183617694e-07,
+      "loss": 0.3146,
+      "step": 535
+    },
+    {
+      "epoch": 4.817977528089887,
+      "grad_norm": 1.9292840957641602,
+      "learning_rate": 3.488658968361147e-07,
+      "loss": 0.3581,
+      "step": 536
+    },
+    {
+      "epoch": 4.8269662921348315,
+      "grad_norm": 1.6868337392807007,
+      "learning_rate": 3.131469311822954e-07,
+      "loss": 0.286,
+      "step": 537
+    },
+    {
+      "epoch": 4.835955056179776,
+      "grad_norm": 1.7219264507293701,
+      "learning_rate": 2.7935086721339597e-07,
+      "loss": 0.2777,
+      "step": 538
+    },
+    {
+      "epoch": 4.844943820224719,
+      "grad_norm": 1.7083749771118164,
+      "learning_rate": 2.4747901285102624e-07,
+      "loss": 0.2542,
+      "step": 539
+    },
+    {
+      "epoch": 4.853932584269663,
+      "grad_norm": 1.6217012405395508,
+      "learning_rate": 2.1753260154906973e-07,
+      "loss": 0.2876,
+      "step": 540
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 3.2049530649811354e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null