Training in progress, step 150, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d70cb3e47b8bd9ee979708c8996046f7b914dabbeb0a4d39760a855e2b9f269e
 size 28351000

 version https://git-lfs.github.com/spec/v1
+oid sha256:de78dc3363aecb9f22ecdfbeed8979c835ca4e7d5cdb30003dad7fdffe8c291a
 size 28351000

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75b59cd6c85c3a83d9e23469e0d25f0181da184f3fb85efaa471e939f89700ad
 size 14714068

 version https://git-lfs.github.com/spec/v1
+oid sha256:4052c7c42a47651b4b714e5edb7759f4a6564dd62afd8d519c47678b8af5170f
 size 14714068

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7575f737ffec765adaf6668cf5940187bdf07b93efbe422651e88cb99bf6123f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5594de2e446a7045aac3b386e78d4c1f13a9fe11214316d6159d55a78f75c60
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fc7800513a1b4dd006c457152c700dd768bb49ee4ed8e4d9665a4e42095b054
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd5d42bb0afda20ec4c83d38c6af1131541c335ecab229c74e7f418894f3c13b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.012718600953895072,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 57.185,
       "eval_steps_per_second": 28.601,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -750,7 +1108,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5975312852582400.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.019077901430842606,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 57.185,
       "eval_steps_per_second": 28.601,
       "step": 100
+    },
+    {
+      "epoch": 0.012845786963434021,
+      "grad_norm": 2.3275163173675537,
+      "learning_rate": 0.00010660905843256994,
+      "loss": 3.1327,
+      "step": 101
+    },
+    {
+      "epoch": 0.012972972972972972,
+      "grad_norm": 2.0324950218200684,
+      "learning_rate": 0.00010495837546732224,
+      "loss": 2.7223,
+      "step": 102
+    },
+    {
+      "epoch": 0.013100158982511923,
+      "grad_norm": 2.420083999633789,
+      "learning_rate": 0.00010330633693173082,
+      "loss": 3.1192,
+      "step": 103
+    },
+    {
+      "epoch": 0.013227344992050874,
+      "grad_norm": 2.116345167160034,
+      "learning_rate": 0.00010165339447663587,
+      "loss": 3.1318,
+      "step": 104
+    },
+    {
+      "epoch": 0.013354531001589825,
+      "grad_norm": 2.523977756500244,
+      "learning_rate": 0.0001,
+      "loss": 2.8798,
+      "step": 105
+    },
+    {
+      "epoch": 0.013481717011128776,
+      "grad_norm": 2.141871213912964,
+      "learning_rate": 9.834660552336415e-05,
+      "loss": 3.1058,
+      "step": 106
+    },
+    {
+      "epoch": 0.013608903020667727,
+      "grad_norm": 2.2081823348999023,
+      "learning_rate": 9.669366306826919e-05,
+      "loss": 2.9769,
+      "step": 107
+    },
+    {
+      "epoch": 0.013736089030206677,
+      "grad_norm": 2.0940332412719727,
+      "learning_rate": 9.504162453267777e-05,
+      "loss": 2.9284,
+      "step": 108
+    },
+    {
+      "epoch": 0.013863275039745628,
+      "grad_norm": 2.2576355934143066,
+      "learning_rate": 9.339094156743007e-05,
+      "loss": 3.0978,
+      "step": 109
+    },
+    {
+      "epoch": 0.013990461049284579,
+      "grad_norm": 2.107511043548584,
+      "learning_rate": 9.174206545276677e-05,
+      "loss": 2.8895,
+      "step": 110
+    },
+    {
+      "epoch": 0.01411764705882353,
+      "grad_norm": 2.289916515350342,
+      "learning_rate": 9.009544697495374e-05,
+      "loss": 3.1167,
+      "step": 111
+    },
+    {
+      "epoch": 0.01424483306836248,
+      "grad_norm": 2.1832778453826904,
+      "learning_rate": 8.845153630304139e-05,
+      "loss": 2.8849,
+      "step": 112
+    },
+    {
+      "epoch": 0.014372019077901432,
+      "grad_norm": 2.0638606548309326,
+      "learning_rate": 8.681078286579311e-05,
+      "loss": 2.8642,
+      "step": 113
+    },
+    {
+      "epoch": 0.01449920508744038,
+      "grad_norm": 2.2622199058532715,
+      "learning_rate": 8.517363522881579e-05,
+      "loss": 3.1066,
+      "step": 114
+    },
+    {
+      "epoch": 0.014626391096979332,
+      "grad_norm": 2.0616939067840576,
+      "learning_rate": 8.35405409719266e-05,
+      "loss": 2.9251,
+      "step": 115
+    },
+    {
+      "epoch": 0.014753577106518282,
+      "grad_norm": 2.2342519760131836,
+      "learning_rate": 8.191194656678904e-05,
+      "loss": 3.1882,
+      "step": 116
+    },
+    {
+      "epoch": 0.014880763116057233,
+      "grad_norm": 2.0429413318634033,
+      "learning_rate": 8.028829725485199e-05,
+      "loss": 3.0048,
+      "step": 117
+    },
+    {
+      "epoch": 0.015007949125596184,
+      "grad_norm": 2.2607035636901855,
+      "learning_rate": 7.867003692562534e-05,
+      "loss": 3.0522,
+      "step": 118
+    },
+    {
+      "epoch": 0.015135135135135135,
+      "grad_norm": 2.1233274936676025,
+      "learning_rate": 7.705760799532485e-05,
+      "loss": 2.952,
+      "step": 119
+    },
+    {
+      "epoch": 0.015262321144674086,
+      "grad_norm": 2.23429274559021,
+      "learning_rate": 7.54514512859201e-05,
+      "loss": 2.9693,
+      "step": 120
+    },
+    {
+      "epoch": 0.015389507154213037,
+      "grad_norm": 2.315385103225708,
+      "learning_rate": 7.385200590461803e-05,
+      "loss": 3.2038,
+      "step": 121
+    },
+    {
+      "epoch": 0.015516693163751987,
+      "grad_norm": 2.2843518257141113,
+      "learning_rate": 7.225970912381556e-05,
+      "loss": 2.7576,
+      "step": 122
+    },
+    {
+      "epoch": 0.015643879173290937,
+      "grad_norm": 2.316584825515747,
+      "learning_rate": 7.067499626155354e-05,
+      "loss": 3.1409,
+      "step": 123
+    },
+    {
+      "epoch": 0.015771065182829887,
+      "grad_norm": 2.1097593307495117,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 3.0405,
+      "step": 124
+    },
+    {
+      "epoch": 0.01589825119236884,
+      "grad_norm": 2.2882628440856934,
+      "learning_rate": 6.753005307953167e-05,
+      "loss": 2.9586,
+      "step": 125
+    },
+    {
+      "epoch": 0.01602543720190779,
+      "grad_norm": 2.2434895038604736,
+      "learning_rate": 6.59706825558357e-05,
+      "loss": 2.8796,
+      "step": 126
+    },
+    {
+      "epoch": 0.01615262321144674,
+      "grad_norm": 2.2158470153808594,
+      "learning_rate": 6.442061530774834e-05,
+      "loss": 3.1726,
+      "step": 127
+    },
+    {
+      "epoch": 0.01627980922098569,
+      "grad_norm": 2.311504364013672,
+      "learning_rate": 6.28802751081779e-05,
+      "loss": 3.2291,
+      "step": 128
+    },
+    {
+      "epoch": 0.01640699523052464,
+      "grad_norm": 2.22208833694458,
+      "learning_rate": 6.135008307075481e-05,
+      "loss": 3.2121,
+      "step": 129
+    },
+    {
+      "epoch": 0.016534181240063592,
+      "grad_norm": 2.165191650390625,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 3.103,
+      "step": 130
+    },
+    {
+      "epoch": 0.016661367249602543,
+      "grad_norm": 2.0541014671325684,
+      "learning_rate": 5.832181395047098e-05,
+      "loss": 2.9611,
+      "step": 131
+    },
+    {
+      "epoch": 0.016788553259141494,
+      "grad_norm": 2.2373898029327393,
+      "learning_rate": 5.6824564766150726e-05,
+      "loss": 2.7329,
+      "step": 132
+    },
+    {
+      "epoch": 0.016915739268680445,
+      "grad_norm": 2.2604360580444336,
+      "learning_rate": 5.533911931471936e-05,
+      "loss": 2.983,
+      "step": 133
+    },
+    {
+      "epoch": 0.017042925278219396,
+      "grad_norm": 2.3402767181396484,
+      "learning_rate": 5.386588370213124e-05,
+      "loss": 2.6614,
+      "step": 134
+    },
+    {
+      "epoch": 0.017170111287758347,
+      "grad_norm": 2.1931848526000977,
+      "learning_rate": 5.240526069629265e-05,
+      "loss": 3.2408,
+      "step": 135
+    },
+    {
+      "epoch": 0.017297297297297298,
+      "grad_norm": 2.2224552631378174,
+      "learning_rate": 5.095764961694922e-05,
+      "loss": 2.8428,
+      "step": 136
+    },
+    {
+      "epoch": 0.01742448330683625,
+      "grad_norm": 2.2872660160064697,
+      "learning_rate": 4.952344622651566e-05,
+      "loss": 2.928,
+      "step": 137
+    },
+    {
+      "epoch": 0.0175516693163752,
+      "grad_norm": 2.107144832611084,
+      "learning_rate": 4.810304262187852e-05,
+      "loss": 3.1571,
+      "step": 138
+    },
+    {
+      "epoch": 0.01767885532591415,
+      "grad_norm": 2.1836090087890625,
+      "learning_rate": 4.669682712720065e-05,
+      "loss": 2.9863,
+      "step": 139
+    },
+    {
+      "epoch": 0.0178060413354531,
+      "grad_norm": 2.202346086502075,
+      "learning_rate": 4.530518418775733e-05,
+      "loss": 3.0278,
+      "step": 140
+    },
+    {
+      "epoch": 0.017933227344992052,
+      "grad_norm": 2.1937851905822754,
+      "learning_rate": 4.392849426483274e-05,
+      "loss": 2.8878,
+      "step": 141
+    },
+    {
+      "epoch": 0.018060413354531003,
+      "grad_norm": 2.231384038925171,
+      "learning_rate": 4.256713373170564e-05,
+      "loss": 3.1869,
+      "step": 142
+    },
+    {
+      "epoch": 0.018187599364069953,
+      "grad_norm": 2.143895387649536,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 2.7143,
+      "step": 143
+    },
+    {
+      "epoch": 0.018314785373608904,
+      "grad_norm": 2.0842132568359375,
+      "learning_rate": 3.9891885271697496e-05,
+      "loss": 3.0679,
+      "step": 144
+    },
+    {
+      "epoch": 0.018441971383147855,
+      "grad_norm": 2.206463098526001,
+      "learning_rate": 3.857872873103322e-05,
+      "loss": 3.122,
+      "step": 145
+    },
+    {
+      "epoch": 0.018569157392686806,
+      "grad_norm": 2.248577833175659,
+      "learning_rate": 3.7282364152646297e-05,
+      "loss": 2.8049,
+      "step": 146
+    },
+    {
+      "epoch": 0.018696343402225757,
+      "grad_norm": 2.219324827194214,
+      "learning_rate": 3.600314594966834e-05,
+      "loss": 3.1196,
+      "step": 147
+    },
+    {
+      "epoch": 0.018823529411764704,
+      "grad_norm": 2.359001398086548,
+      "learning_rate": 3.4741423847583134e-05,
+      "loss": 3.1775,
+      "step": 148
+    },
+    {
+      "epoch": 0.018950715421303655,
+      "grad_norm": 2.1845834255218506,
+      "learning_rate": 3.349754278861517e-05,
+      "loss": 3.0865,
+      "step": 149
+    },
+    {
+      "epoch": 0.019077901430842606,
+      "grad_norm": 2.240842580795288,
+      "learning_rate": 3.227184283742591e-05,
+      "loss": 2.7162,
+      "step": 150
+    },
+    {
+      "epoch": 0.019077901430842606,
+      "eval_loss": 0.7287956476211548,
+      "eval_runtime": 57.7804,
+      "eval_samples_per_second": 57.303,
+      "eval_steps_per_second": 28.66,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8955500137807872.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null