Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +256 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac63d2e3fb7ee7b77c89041ac59cd8119c851263d0126f83e26cc716412deb9a
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:8da88a7160db49fe4081c9356e5298c05e77fd70559d53e7a8542d65e1336e51
 size 167832240

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f39932a98b4bb76f17b5793af74d9a31d9751b9118d7262fbae39a0ce10d6b8
 size 85723284

 version https://git-lfs.github.com/spec/v1
+oid sha256:486b3c22c3dbf050c3395cbe4b89eb1a849ea76837f5ba8aa9fea158fcaf3ca0
 size 85723284

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3359fd4547f68c7f451736863a509301728a1390912cbfc7bfdf510002771c2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e1f6bab0e0ac3b50230cdee09f918e47b5a05cda8a318f3c0288f311159f0c6f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d35a71cd96ab153cf58aa68810dc4405b5e1a7fbfef5501d233ae84e34aa51c4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:285055c203c0e51e433ff14d6fa6e0c364698ec978202e506a844a8372901f4a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.01789428246281835,
   "eval_steps": 38,
-  "global_step": 114,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -837,6 +837,258 @@
       "eval_samples_per_second": 3.269,
       "eval_steps_per_second": 1.635,
       "step": 114
     }
   ],
   "logging_steps": 1,
@@ -851,12 +1103,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 3.251973931401216e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.023545108503708355,
   "eval_steps": 38,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.269,
       "eval_steps_per_second": 1.635,
       "step": 114
+    },
+    {
+      "epoch": 0.018051249852843072,
+      "grad_norm": 6.698558807373047,
+      "learning_rate": 5.857864376269051e-05,
+      "loss": 2.5849,
+      "step": 115
+    },
+    {
+      "epoch": 0.018208217242867794,
+      "grad_norm": 10.639579772949219,
+      "learning_rate": 5.544102723452171e-05,
+      "loss": 2.6,
+      "step": 116
+    },
+    {
+      "epoch": 0.018365184632892516,
+      "grad_norm": 8.183032989501953,
+      "learning_rate": 5.237620050253189e-05,
+      "loss": 2.6161,
+      "step": 117
+    },
+    {
+      "epoch": 0.018522152022917238,
+      "grad_norm": 6.063802242279053,
+      "learning_rate": 4.938570679927783e-05,
+      "loss": 1.3668,
+      "step": 118
+    },
+    {
+      "epoch": 0.018679119412941963,
+      "grad_norm": 5.778029441833496,
+      "learning_rate": 4.647105192839778e-05,
+      "loss": 1.6742,
+      "step": 119
+    },
+    {
+      "epoch": 0.018836086802966685,
+      "grad_norm": 9.222543716430664,
+      "learning_rate": 4.363370350639404e-05,
+      "loss": 2.0035,
+      "step": 120
+    },
+    {
+      "epoch": 0.018993054192991406,
+      "grad_norm": 10.651296615600586,
+      "learning_rate": 4.087509022364382e-05,
+      "loss": 2.5014,
+      "step": 121
+    },
+    {
+      "epoch": 0.019150021583016128,
+      "grad_norm": 11.831440925598145,
+      "learning_rate": 3.819660112501053e-05,
+      "loss": 2.2869,
+      "step": 122
+    },
+    {
+      "epoch": 0.01930698897304085,
+      "grad_norm": 7.712268829345703,
+      "learning_rate": 3.5599584910418035e-05,
+      "loss": 2.0851,
+      "step": 123
+    },
+    {
+      "epoch": 0.01946395636306557,
+      "grad_norm": 9.053482055664062,
+      "learning_rate": 3.3085349255739474e-05,
+      "loss": 1.8142,
+      "step": 124
+    },
+    {
+      "epoch": 0.019620923753090297,
+      "grad_norm": 8.176172256469727,
+      "learning_rate": 3.0655160154343174e-05,
+      "loss": 2.3284,
+      "step": 125
+    },
+    {
+      "epoch": 0.01977789114311502,
+      "grad_norm": 18.283300399780273,
+      "learning_rate": 2.831024127962678e-05,
+      "loss": 1.9836,
+      "step": 126
+    },
+    {
+      "epoch": 0.01993485853313974,
+      "grad_norm": 7.915673732757568,
+      "learning_rate": 2.6051773368860934e-05,
+      "loss": 2.3106,
+      "step": 127
+    },
+    {
+      "epoch": 0.020091825923164462,
+      "grad_norm": 6.272395133972168,
+      "learning_rate": 2.38808936286524e-05,
+      "loss": 1.862,
+      "step": 128
+    },
+    {
+      "epoch": 0.020248793313189184,
+      "grad_norm": 9.373351097106934,
+      "learning_rate": 2.1798695162326442e-05,
+      "loss": 2.0214,
+      "step": 129
+    },
+    {
+      "epoch": 0.020405760703213906,
+      "grad_norm": 8.452390670776367,
+      "learning_rate": 1.9806226419516192e-05,
+      "loss": 1.8931,
+      "step": 130
+    },
+    {
+      "epoch": 0.02056272809323863,
+      "grad_norm": 6.104604721069336,
+      "learning_rate": 1.790449066823683e-05,
+      "loss": 1.9672,
+      "step": 131
+    },
+    {
+      "epoch": 0.020719695483263353,
+      "grad_norm": 5.282866477966309,
+      "learning_rate": 1.6094445489709885e-05,
+      "loss": 2.1532,
+      "step": 132
+    },
+    {
+      "epoch": 0.020876662873288074,
+      "grad_norm": 8.8634672164917,
+      "learning_rate": 1.4377002296192233e-05,
+      "loss": 1.9147,
+      "step": 133
+    },
+    {
+      "epoch": 0.021033630263312796,
+      "grad_norm": 29.37977409362793,
+      "learning_rate": 1.275302587205256e-05,
+      "loss": 3.5516,
+      "step": 134
+    },
+    {
+      "epoch": 0.021190597653337518,
+      "grad_norm": 12.045405387878418,
+      "learning_rate": 1.1223333938326485e-05,
+      "loss": 2.0136,
+      "step": 135
+    },
+    {
+      "epoch": 0.02134756504336224,
+      "grad_norm": 6.3739399909973145,
+      "learning_rate": 9.788696740969295e-06,
+      "loss": 1.7538,
+      "step": 136
+    },
+    {
+      "epoch": 0.021504532433386965,
+      "grad_norm": 10.208410263061523,
+      "learning_rate": 8.44983666301391e-06,
+      "loss": 1.9149,
+      "step": 137
+    },
+    {
+      "epoch": 0.021661499823411687,
+      "grad_norm": 6.10170841217041,
+      "learning_rate": 7.2074278608293525e-06,
+      "loss": 1.7403,
+      "step": 138
+    },
+    {
+      "epoch": 0.02181846721343641,
+      "grad_norm": 11.614684104919434,
+      "learning_rate": 6.062095924662625e-06,
+      "loss": 2.1914,
+      "step": 139
+    },
+    {
+      "epoch": 0.02197543460346113,
+      "grad_norm": 13.544835090637207,
+      "learning_rate": 5.0144175636352765e-06,
+      "loss": 2.4752,
+      "step": 140
+    },
+    {
+      "epoch": 0.022132401993485852,
+      "grad_norm": 10.997184753417969,
+      "learning_rate": 4.064920315352904e-06,
+      "loss": 1.691,
+      "step": 141
+    },
+    {
+      "epoch": 0.022289369383510577,
+      "grad_norm": 5.709866046905518,
+      "learning_rate": 3.2140822802740668e-06,
+      "loss": 1.5808,
+      "step": 142
+    },
+    {
+      "epoch": 0.0224463367735353,
+      "grad_norm": 8.197881698608398,
+      "learning_rate": 2.462331880972468e-06,
+      "loss": 2.0699,
+      "step": 143
+    },
+    {
+      "epoch": 0.02260330416356002,
+      "grad_norm": 9.883748054504395,
+      "learning_rate": 1.81004764641306e-06,
+      "loss": 2.9457,
+      "step": 144
+    },
+    {
+      "epoch": 0.022760271553584743,
+      "grad_norm": 9.526391983032227,
+      "learning_rate": 1.2575580213514792e-06,
+      "loss": 2.7024,
+      "step": 145
+    },
+    {
+      "epoch": 0.022917238943609464,
+      "grad_norm": 6.334656715393066,
+      "learning_rate": 8.051412009521864e-07,
+      "loss": 2.2296,
+      "step": 146
+    },
+    {
+      "epoch": 0.023074206333634186,
+      "grad_norm": 6.532505989074707,
+      "learning_rate": 4.530249907087836e-07,
+      "loss": 2.0629,
+      "step": 147
+    },
+    {
+      "epoch": 0.02323117372365891,
+      "grad_norm": 6.112399578094482,
+      "learning_rate": 2.0138669173708213e-07,
+      "loss": 1.8538,
+      "step": 148
+    },
+    {
+      "epoch": 0.023388141113683633,
+      "grad_norm": 6.967254161834717,
+      "learning_rate": 5.035301149869387e-08,
+      "loss": 1.9779,
+      "step": 149
+    },
+    {
+      "epoch": 0.023545108503708355,
+      "grad_norm": 6.000161647796631,
+      "learning_rate": 0.0,
+      "loss": 1.649,
+      "step": 150
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.333035535623782e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null