Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state_0.pth +1 -1
rng_state_1.pth +1 -1
rng_state_2.pth +1 -1
rng_state_3.pth +1 -1
rng_state_4.pth +1 -1
rng_state_5.pth +1 -1
rng_state_6.pth +1 -1
rng_state_7.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +2203 -3

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf1e49bafee5e23d59bc89f4ed8a0094873d703923e2d80654edd0e0789fddb9
 size 505408136

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5ad63b79c6f5a0ce02ab80d656cc75c3f40065ca1444e1eeb8a989304b610fa
 size 505408136

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:01e7e30d843734b4ab3ea4838b6d299eaf917be50ce40b81d78b3b0bf9ba0b18
 size 1010874315

 version https://git-lfs.github.com/spec/v1
+oid sha256:b686e15846fe98d3e289254d43ec627262be81d3ccfd84694780cdc2d857d26d
 size 1010874315

rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:108dcd93929ea6e655c2ec96575cda913142bdd3522936dab01875d3147121da
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:9daa68d1a810813b1abdd9f201531e73b7d4e041dcc3fad23284f8fcf4b91d24
 size 16389

rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad148fbc9f8715ec96b91b740a012d3d056c09e40bce69864cb715320811705a
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d4cf6d3addd42425edfaae3634d0333d62c162775e97e30e6dbbb03fd74dd6f
 size 16389

rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bff46447846444bff4a32f38b4eededb4e43b40aa19fd44a1739de2373a4dfa0
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:b56ba980c9ffbdf2bb60baefdb68afe18fcb829a6a07f61c928a35c3737bd1d4
 size 16389

rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f10b07bcc5fafad4caf841092938cad70c523ed3bd84e9d6a5ebea3a4f89996b
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:7dc66401aa5093553b2517ab0a1356729053e4b424c30bd8d4bf1f904c790981
 size 16389

rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daa93c0f1b2ff29f1c6eb05b38bd2a7e7b3885209653ad9ac0b180ab26fe9d6c
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:71bf5ab9e423d6e1f39e134e259bf1988b5193894d9efa9209c9ed124671b440
 size 16389

rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1315452500a3da6d7c1ad424cda0948c9ffbe4e6d97f951009cadbf6940e8d5d
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b3bbe1c81dcd5d4dad45c273f16941ad3a079fae1884c8c592be9c19cf695f6
 size 16389

rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b2168cb46319b56c369191f7bd315e73e6b9d3325a75334249ecc44d81e8949e
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:3979078d5678a98b0350d1d45af82cb4e5ee17b169ebd5301f8daf30c0a3debe
 size 16389

rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a0273acd0392329a4383016813c5d2303685e01e1642270a57c078c815dc23d
 size 16389

 version https://git-lfs.github.com/spec/v1
+oid sha256:2672dccf4e80588003012e60bca5c978b07507e61cd0e44e8d1bce97be4a1ebb
 size 16389

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12ca48ca705b26744cb5a0abb45acbd477d0725271238b5b2bced00b4e073c3c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:709037943547f0e738a8d6f42c84d14097097b4e323fa2f1aad3fb147909ac3e
 size 1465

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04,
   "eval_steps": 500,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -17608,6 +17608,2206 @@
       "memory/max_allocated (GiB)": 107.43,
       "step": 1600,
       "tokens_per_second_per_gpu": 12031.87
     }
   ],
   "logging_steps": 1,
@@ -17627,7 +19827,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8819084394965238e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.045,
   "eval_steps": 500,
+  "global_step": 1800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "memory/max_allocated (GiB)": 107.43,
       "step": 1600,
       "tokens_per_second_per_gpu": 12031.87
+    },
+    {
+      "epoch": 0.040025,
+      "grad_norm": 0.431640625,
+      "learning_rate": 0.0024000000000000002,
+      "loss": 3.4425,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1601,
+      "tokens_per_second_per_gpu": 15837.83
+    },
+    {
+      "epoch": 0.04005,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.0024015,
+      "loss": 3.4657,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1602,
+      "tokens_per_second_per_gpu": 16144.09
+    },
+    {
+      "epoch": 0.040075,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.002403,
+      "loss": 3.4979,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1603,
+      "tokens_per_second_per_gpu": 15848.46
+    },
+    {
+      "epoch": 0.0401,
+      "grad_norm": 0.478515625,
+      "learning_rate": 0.0024045,
+      "loss": 3.4807,
+      "memory/device_reserved (GiB)": 96.22,
+      "memory/max_active (GiB)": 96.19,
+      "memory/max_allocated (GiB)": 96.19,
+      "step": 1604,
+      "tokens_per_second_per_gpu": 14136.87
+    },
+    {
+      "epoch": 0.040125,
+      "grad_norm": 0.2158203125,
+      "learning_rate": 0.002406,
+      "loss": 3.4584,
+      "memory/device_reserved (GiB)": 106.61,
+      "memory/max_active (GiB)": 106.43,
+      "memory/max_allocated (GiB)": 106.43,
+      "step": 1605,
+      "tokens_per_second_per_gpu": 12098.17
+    },
+    {
+      "epoch": 0.04015,
+      "grad_norm": 0.3828125,
+      "learning_rate": 0.0024075,
+      "loss": 3.4939,
+      "memory/device_reserved (GiB)": 96.93,
+      "memory/max_active (GiB)": 96.75,
+      "memory/max_allocated (GiB)": 96.75,
+      "step": 1606,
+      "tokens_per_second_per_gpu": 13997.28
+    },
+    {
+      "epoch": 0.040175,
+      "grad_norm": 0.376953125,
+      "learning_rate": 0.002409,
+      "loss": 3.4807,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1607,
+      "tokens_per_second_per_gpu": 15028.75
+    },
+    {
+      "epoch": 0.0402,
+      "grad_norm": 0.48046875,
+      "learning_rate": 0.0024105,
+      "loss": 3.4622,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1608,
+      "tokens_per_second_per_gpu": 20265.75
+    },
+    {
+      "epoch": 0.040225,
+      "grad_norm": 0.4765625,
+      "learning_rate": 0.002412,
+      "loss": 3.4482,
+      "memory/device_reserved (GiB)": 86.7,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1609,
+      "tokens_per_second_per_gpu": 15102.78
+    },
+    {
+      "epoch": 0.04025,
+      "grad_norm": 0.61328125,
+      "learning_rate": 0.0024135,
+      "loss": 3.4781,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1610,
+      "tokens_per_second_per_gpu": 14823.11
+    },
+    {
+      "epoch": 0.040275,
+      "grad_norm": 0.625,
+      "learning_rate": 0.002415,
+      "loss": 3.4686,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1611,
+      "tokens_per_second_per_gpu": 23148.24
+    },
+    {
+      "epoch": 0.0403,
+      "grad_norm": 0.5625,
+      "learning_rate": 0.0024165000000000002,
+      "loss": 3.4665,
+      "memory/device_reserved (GiB)": 86.7,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1612,
+      "tokens_per_second_per_gpu": 15439.18
+    },
+    {
+      "epoch": 0.040325,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.002418,
+      "loss": 3.4718,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1613,
+      "tokens_per_second_per_gpu": 16189.41
+    },
+    {
+      "epoch": 0.04035,
+      "grad_norm": 0.46875,
+      "learning_rate": 0.0024195,
+      "loss": 3.5027,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1614,
+      "tokens_per_second_per_gpu": 18394.53
+    },
+    {
+      "epoch": 0.040375,
+      "grad_norm": 0.388671875,
+      "learning_rate": 0.0024210000000000004,
+      "loss": 3.4931,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1615,
+      "tokens_per_second_per_gpu": 23895.62
+    },
+    {
+      "epoch": 0.0404,
+      "grad_norm": 0.412109375,
+      "learning_rate": 0.0024225,
+      "loss": 3.4385,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1616,
+      "tokens_per_second_per_gpu": 24598.08
+    },
+    {
+      "epoch": 0.040425,
+      "grad_norm": 0.390625,
+      "learning_rate": 0.0024240000000000004,
+      "loss": 3.4905,
+      "memory/device_reserved (GiB)": 55.57,
+      "memory/max_active (GiB)": 55.42,
+      "memory/max_allocated (GiB)": 55.42,
+      "step": 1617,
+      "tokens_per_second_per_gpu": 24013.93
+    },
+    {
+      "epoch": 0.04045,
+      "grad_norm": 0.44140625,
+      "learning_rate": 0.0024255,
+      "loss": 3.4878,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1618,
+      "tokens_per_second_per_gpu": 21628.74
+    },
+    {
+      "epoch": 0.040475,
+      "grad_norm": 0.375,
+      "learning_rate": 0.0024270000000000003,
+      "loss": 3.4842,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1619,
+      "tokens_per_second_per_gpu": 13740.61
+    },
+    {
+      "epoch": 0.0405,
+      "grad_norm": 0.396484375,
+      "learning_rate": 0.0024285,
+      "loss": 3.4546,
+      "memory/device_reserved (GiB)": 127.55,
+      "memory/max_active (GiB)": 127.35,
+      "memory/max_allocated (GiB)": 127.35,
+      "step": 1620,
+      "tokens_per_second_per_gpu": 10505.39
+    },
+    {
+      "epoch": 0.040525,
+      "grad_norm": 0.54296875,
+      "learning_rate": 0.0024300000000000003,
+      "loss": 3.4532,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1621,
+      "tokens_per_second_per_gpu": 14010.82
+    },
+    {
+      "epoch": 0.04055,
+      "grad_norm": 0.44140625,
+      "learning_rate": 0.0024315,
+      "loss": 3.4622,
+      "memory/device_reserved (GiB)": 86.71,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1622,
+      "tokens_per_second_per_gpu": 15600.27
+    },
+    {
+      "epoch": 0.040575,
+      "grad_norm": 0.328125,
+      "learning_rate": 0.0024330000000000003,
+      "loss": 3.4374,
+      "memory/device_reserved (GiB)": 56.63,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1623,
+      "tokens_per_second_per_gpu": 23962.38
+    },
+    {
+      "epoch": 0.0406,
+      "grad_norm": 0.486328125,
+      "learning_rate": 0.0024345,
+      "loss": 3.4678,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1624,
+      "tokens_per_second_per_gpu": 11110.47
+    },
+    {
+      "epoch": 0.040625,
+      "grad_norm": 0.41796875,
+      "learning_rate": 0.0024360000000000002,
+      "loss": 3.433,
+      "memory/device_reserved (GiB)": 46.36,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1625,
+      "tokens_per_second_per_gpu": 28676.3
+    },
+    {
+      "epoch": 0.04065,
+      "grad_norm": 0.5,
+      "learning_rate": 0.0024375,
+      "loss": 3.4638,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1626,
+      "tokens_per_second_per_gpu": 12804.39
+    },
+    {
+      "epoch": 0.040675,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.0024389999999999998,
+      "loss": 3.4699,
+      "memory/device_reserved (GiB)": 45.93,
+      "memory/max_active (GiB)": 45.75,
+      "memory/max_allocated (GiB)": 45.75,
+      "step": 1627,
+      "tokens_per_second_per_gpu": 28573.53
+    },
+    {
+      "epoch": 0.0407,
+      "grad_norm": 0.72265625,
+      "learning_rate": 0.0024405,
+      "loss": 3.4996,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1628,
+      "tokens_per_second_per_gpu": 10458.89
+    },
+    {
+      "epoch": 0.040725,
+      "grad_norm": 0.71484375,
+      "learning_rate": 0.0024419999999999997,
+      "loss": 3.4523,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1629,
+      "tokens_per_second_per_gpu": 24753.83
+    },
+    {
+      "epoch": 0.04075,
+      "grad_norm": 0.486328125,
+      "learning_rate": 0.0024435,
+      "loss": 3.502,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1630,
+      "tokens_per_second_per_gpu": 12038.92
+    },
+    {
+      "epoch": 0.040775,
+      "grad_norm": 0.45703125,
+      "learning_rate": 0.0024449999999999997,
+      "loss": 3.4451,
+      "memory/device_reserved (GiB)": 45.93,
+      "memory/max_active (GiB)": 45.75,
+      "memory/max_allocated (GiB)": 45.75,
+      "step": 1631,
+      "tokens_per_second_per_gpu": 28333.75
+    },
+    {
+      "epoch": 0.0408,
+      "grad_norm": 0.6640625,
+      "learning_rate": 0.0024465,
+      "loss": 3.4622,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1632,
+      "tokens_per_second_per_gpu": 10859.27
+    },
+    {
+      "epoch": 0.040825,
+      "grad_norm": 0.9609375,
+      "learning_rate": 0.002448,
+      "loss": 3.5624,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1633,
+      "tokens_per_second_per_gpu": 16038.7
+    },
+    {
+      "epoch": 0.04085,
+      "grad_norm": 0.92578125,
+      "learning_rate": 0.0024495,
+      "loss": 3.5544,
+      "memory/device_reserved (GiB)": 117.34,
+      "memory/max_active (GiB)": 117.15,
+      "memory/max_allocated (GiB)": 117.15,
+      "step": 1634,
+      "tokens_per_second_per_gpu": 11856.2
+    },
+    {
+      "epoch": 0.040875,
+      "grad_norm": 0.83203125,
+      "learning_rate": 0.002451,
+      "loss": 3.5095,
+      "memory/device_reserved (GiB)": 46.39,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1635,
+      "tokens_per_second_per_gpu": 26486.63
+    },
+    {
+      "epoch": 0.0409,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.0024525000000000003,
+      "loss": 3.5103,
+      "memory/device_reserved (GiB)": 86.21,
+      "memory/max_active (GiB)": 86.02,
+      "memory/max_allocated (GiB)": 86.02,
+      "step": 1636,
+      "tokens_per_second_per_gpu": 15558.25
+    },
+    {
+      "epoch": 0.040925,
+      "grad_norm": 0.6796875,
+      "learning_rate": 0.002454,
+      "loss": 3.5592,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1637,
+      "tokens_per_second_per_gpu": 13368.45
+    },
+    {
+      "epoch": 0.04095,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.0024555000000000002,
+      "loss": 3.5235,
+      "memory/device_reserved (GiB)": 107.12,
+      "memory/max_active (GiB)": 106.95,
+      "memory/max_allocated (GiB)": 106.95,
+      "step": 1638,
+      "tokens_per_second_per_gpu": 12681.15
+    },
+    {
+      "epoch": 0.040975,
+      "grad_norm": 0.6328125,
+      "learning_rate": 0.002457,
+      "loss": 3.518,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1639,
+      "tokens_per_second_per_gpu": 11755.22
+    },
+    {
+      "epoch": 0.041,
+      "grad_norm": 0.78515625,
+      "learning_rate": 0.0024585,
+      "loss": 3.5068,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1640,
+      "tokens_per_second_per_gpu": 24181.71
+    },
+    {
+      "epoch": 0.041025,
+      "grad_norm": 0.7578125,
+      "learning_rate": 0.00246,
+      "loss": 3.5537,
+      "memory/device_reserved (GiB)": 64.28,
+      "memory/max_active (GiB)": 64.24,
+      "memory/max_allocated (GiB)": 64.24,
+      "step": 1641,
+      "tokens_per_second_per_gpu": 19813.17
+    },
+    {
+      "epoch": 0.04105,
+      "grad_norm": 0.50390625,
+      "learning_rate": 0.0024615,
+      "loss": 3.4945,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1642,
+      "tokens_per_second_per_gpu": 17963.63
+    },
+    {
+      "epoch": 0.041075,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.002463,
+      "loss": 3.49,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1643,
+      "tokens_per_second_per_gpu": 17191.81
+    },
+    {
+      "epoch": 0.0411,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.0024645,
+      "loss": 3.4985,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1644,
+      "tokens_per_second_per_gpu": 15627.01
+    },
+    {
+      "epoch": 0.041125,
+      "grad_norm": 0.458984375,
+      "learning_rate": 0.002466,
+      "loss": 3.4606,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1645,
+      "tokens_per_second_per_gpu": 13447.72
+    },
+    {
+      "epoch": 0.04115,
+      "grad_norm": 0.384765625,
+      "learning_rate": 0.0024675,
+      "loss": 3.4865,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1646,
+      "tokens_per_second_per_gpu": 16562.44
+    },
+    {
+      "epoch": 0.041175,
+      "grad_norm": 0.30078125,
+      "learning_rate": 0.002469,
+      "loss": 3.452,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1647,
+      "tokens_per_second_per_gpu": 19882.36
+    },
+    {
+      "epoch": 0.0412,
+      "grad_norm": 0.3125,
+      "learning_rate": 0.0024705,
+      "loss": 3.482,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1648,
+      "tokens_per_second_per_gpu": 17699.48
+    },
+    {
+      "epoch": 0.041225,
+      "grad_norm": 0.275390625,
+      "learning_rate": 0.002472,
+      "loss": 3.4162,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1649,
+      "tokens_per_second_per_gpu": 20101.43
+    },
+    {
+      "epoch": 0.04125,
+      "grad_norm": 0.26953125,
+      "learning_rate": 0.0024735,
+      "loss": 3.4138,
+      "memory/device_reserved (GiB)": 46.39,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1650,
+      "tokens_per_second_per_gpu": 27146.19
+    },
+    {
+      "epoch": 0.041275,
+      "grad_norm": 0.234375,
+      "learning_rate": 0.0024749999999999998,
+      "loss": 3.4321,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1651,
+      "tokens_per_second_per_gpu": 19709.27
+    },
+    {
+      "epoch": 0.0413,
+      "grad_norm": 0.259765625,
+      "learning_rate": 0.0024765,
+      "loss": 3.477,
+      "memory/device_reserved (GiB)": 46.36,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1652,
+      "tokens_per_second_per_gpu": 31305.36
+    },
+    {
+      "epoch": 0.041325,
+      "grad_norm": 0.2333984375,
+      "learning_rate": 0.0024779999999999997,
+      "loss": 3.41,
+      "memory/device_reserved (GiB)": 56.14,
+      "memory/max_active (GiB)": 55.95,
+      "memory/max_allocated (GiB)": 55.95,
+      "step": 1653,
+      "tokens_per_second_per_gpu": 23790.99
+    },
+    {
+      "epoch": 0.04135,
+      "grad_norm": 0.294921875,
+      "learning_rate": 0.0024795,
+      "loss": 3.438,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1654,
+      "tokens_per_second_per_gpu": 13756.67
+    },
+    {
+      "epoch": 0.041375,
+      "grad_norm": 0.361328125,
+      "learning_rate": 0.002481,
+      "loss": 3.4131,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1655,
+      "tokens_per_second_per_gpu": 12021.3
+    },
+    {
+      "epoch": 0.0414,
+      "grad_norm": 0.314453125,
+      "learning_rate": 0.0024825,
+      "loss": 3.452,
+      "memory/device_reserved (GiB)": 76.49,
+      "memory/max_active (GiB)": 76.35,
+      "memory/max_allocated (GiB)": 76.35,
+      "step": 1656,
+      "tokens_per_second_per_gpu": 17313.17
+    },
+    {
+      "epoch": 0.041425,
+      "grad_norm": 0.2734375,
+      "learning_rate": 0.002484,
+      "loss": 3.4499,
+      "memory/device_reserved (GiB)": 75.99,
+      "memory/max_active (GiB)": 75.82,
+      "memory/max_allocated (GiB)": 75.82,
+      "step": 1657,
+      "tokens_per_second_per_gpu": 18143.79
+    },
+    {
+      "epoch": 0.04145,
+      "grad_norm": 0.3203125,
+      "learning_rate": 0.0024855000000000003,
+      "loss": 3.4232,
+      "memory/device_reserved (GiB)": 56.63,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1658,
+      "tokens_per_second_per_gpu": 22650.06
+    },
+    {
+      "epoch": 0.041475,
+      "grad_norm": 0.294921875,
+      "learning_rate": 0.002487,
+      "loss": 3.4367,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1659,
+      "tokens_per_second_per_gpu": 19148.84
+    },
+    {
+      "epoch": 0.0415,
+      "grad_norm": 0.337890625,
+      "learning_rate": 0.0024885000000000003,
+      "loss": 3.4237,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1660,
+      "tokens_per_second_per_gpu": 11299.52
+    },
+    {
+      "epoch": 0.041525,
+      "grad_norm": 0.376953125,
+      "learning_rate": 0.00249,
+      "loss": 3.4072,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1661,
+      "tokens_per_second_per_gpu": 10692.7
+    },
+    {
+      "epoch": 0.04155,
+      "grad_norm": 0.392578125,
+      "learning_rate": 0.0024915000000000002,
+      "loss": 3.4118,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1662,
+      "tokens_per_second_per_gpu": 14572.68
+    },
+    {
+      "epoch": 0.041575,
+      "grad_norm": 0.32421875,
+      "learning_rate": 0.002493,
+      "loss": 3.3948,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1663,
+      "tokens_per_second_per_gpu": 20532.19
+    },
+    {
+      "epoch": 0.0416,
+      "grad_norm": 0.28125,
+      "learning_rate": 0.0024945,
+      "loss": 3.373,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1664,
+      "tokens_per_second_per_gpu": 16522.28
+    },
+    {
+      "epoch": 0.041625,
+      "grad_norm": 0.306640625,
+      "learning_rate": 0.002496,
+      "loss": 3.4468,
+      "memory/device_reserved (GiB)": 56.14,
+      "memory/max_active (GiB)": 55.95,
+      "memory/max_allocated (GiB)": 55.95,
+      "step": 1665,
+      "tokens_per_second_per_gpu": 23946.77
+    },
+    {
+      "epoch": 0.04165,
+      "grad_norm": 0.296875,
+      "learning_rate": 0.0024975,
+      "loss": 3.4283,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1666,
+      "tokens_per_second_per_gpu": 19907.08
+    },
+    {
+      "epoch": 0.041675,
+      "grad_norm": 0.28125,
+      "learning_rate": 0.002499,
+      "loss": 3.4222,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1667,
+      "tokens_per_second_per_gpu": 12874.36
+    },
+    {
+      "epoch": 0.0417,
+      "grad_norm": 0.3671875,
+      "learning_rate": 0.0025005,
+      "loss": 3.4831,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1668,
+      "tokens_per_second_per_gpu": 20630.17
+    },
+    {
+      "epoch": 0.041725,
+      "grad_norm": 0.44140625,
+      "learning_rate": 0.002502,
+      "loss": 3.4484,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1669,
+      "tokens_per_second_per_gpu": 20443.85
+    },
+    {
+      "epoch": 0.04175,
+      "grad_norm": 0.4921875,
+      "learning_rate": 0.0025035,
+      "loss": 3.411,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1670,
+      "tokens_per_second_per_gpu": 10552.13
+    },
+    {
+      "epoch": 0.041775,
+      "grad_norm": 0.4609375,
+      "learning_rate": 0.002505,
+      "loss": 3.4083,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1671,
+      "tokens_per_second_per_gpu": 12234.78
+    },
+    {
+      "epoch": 0.0418,
+      "grad_norm": 0.40234375,
+      "learning_rate": 0.0025065,
+      "loss": 3.4449,
+      "memory/device_reserved (GiB)": 55.57,
+      "memory/max_active (GiB)": 55.42,
+      "memory/max_allocated (GiB)": 55.42,
+      "step": 1672,
+      "tokens_per_second_per_gpu": 23493.66
+    },
+    {
+      "epoch": 0.041825,
+      "grad_norm": 0.326171875,
+      "learning_rate": 0.002508,
+      "loss": 3.422,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1673,
+      "tokens_per_second_per_gpu": 13667.7
+    },
+    {
+      "epoch": 0.04185,
+      "grad_norm": 0.474609375,
+      "learning_rate": 0.0025095,
+      "loss": 3.4849,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1674,
+      "tokens_per_second_per_gpu": 13409.66
+    },
+    {
+      "epoch": 0.041875,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.0025109999999999998,
+      "loss": 3.4117,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1675,
+      "tokens_per_second_per_gpu": 12861.87
+    },
+    {
+      "epoch": 0.0419,
+      "grad_norm": 0.5859375,
+      "learning_rate": 0.0025125,
+      "loss": 3.4487,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1676,
+      "tokens_per_second_per_gpu": 13391.9
+    },
+    {
+      "epoch": 0.041925,
+      "grad_norm": 0.45703125,
+      "learning_rate": 0.0025139999999999997,
+      "loss": 3.4691,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1677,
+      "tokens_per_second_per_gpu": 13697.51
+    },
+    {
+      "epoch": 0.04195,
+      "grad_norm": 0.458984375,
+      "learning_rate": 0.0025155,
+      "loss": 3.4354,
+      "memory/device_reserved (GiB)": 117.34,
+      "memory/max_active (GiB)": 117.15,
+      "memory/max_allocated (GiB)": 117.15,
+      "step": 1678,
+      "tokens_per_second_per_gpu": 11489.94
+    },
+    {
+      "epoch": 0.041975,
+      "grad_norm": 0.41796875,
+      "learning_rate": 0.002517,
+      "loss": 3.4734,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1679,
+      "tokens_per_second_per_gpu": 10921.96
+    },
+    {
+      "epoch": 0.042,
+      "grad_norm": 0.376953125,
+      "learning_rate": 0.0025185000000000003,
+      "loss": 3.4138,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1680,
+      "tokens_per_second_per_gpu": 14813.73
+    },
+    {
+      "epoch": 0.042025,
+      "grad_norm": 0.357421875,
+      "learning_rate": 0.00252,
+      "loss": 3.395,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1681,
+      "tokens_per_second_per_gpu": 22947.66
+    },
+    {
+      "epoch": 0.04205,
+      "grad_norm": 0.375,
+      "learning_rate": 0.0025215000000000003,
+      "loss": 3.4281,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1682,
+      "tokens_per_second_per_gpu": 11994.21
+    },
+    {
+      "epoch": 0.042075,
+      "grad_norm": 0.37109375,
+      "learning_rate": 0.002523,
+      "loss": 3.4589,
+      "memory/device_reserved (GiB)": 86.7,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1683,
+      "tokens_per_second_per_gpu": 15257.0
+    },
+    {
+      "epoch": 0.0421,
+      "grad_norm": 0.34375,
+      "learning_rate": 0.0025245000000000003,
+      "loss": 3.4429,
+      "memory/device_reserved (GiB)": 44.36,
+      "memory/max_active (GiB)": 44.31,
+      "memory/max_allocated (GiB)": 44.31,
+      "step": 1684,
+      "tokens_per_second_per_gpu": 27548.71
+    },
+    {
+      "epoch": 0.042125,
+      "grad_norm": 0.4140625,
+      "learning_rate": 0.002526,
+      "loss": 3.4058,
+      "memory/device_reserved (GiB)": 76.49,
+      "memory/max_active (GiB)": 76.35,
+      "memory/max_allocated (GiB)": 76.35,
+      "step": 1685,
+      "tokens_per_second_per_gpu": 17574.15
+    },
+    {
+      "epoch": 0.04215,
+      "grad_norm": 0.3984375,
+      "learning_rate": 0.0025275000000000002,
+      "loss": 3.4312,
+      "memory/device_reserved (GiB)": 74.93,
+      "memory/max_active (GiB)": 74.91,
+      "memory/max_allocated (GiB)": 74.91,
+      "step": 1686,
+      "tokens_per_second_per_gpu": 18549.39
+    },
+    {
+      "epoch": 0.042175,
+      "grad_norm": 0.294921875,
+      "learning_rate": 0.002529,
+      "loss": 3.4163,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1687,
+      "tokens_per_second_per_gpu": 15868.69
+    },
+    {
+      "epoch": 0.0422,
+      "grad_norm": 0.416015625,
+      "learning_rate": 0.0025305,
+      "loss": 3.4385,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1688,
+      "tokens_per_second_per_gpu": 16224.91
+    },
+    {
+      "epoch": 0.042225,
+      "grad_norm": 0.41796875,
+      "learning_rate": 0.002532,
+      "loss": 3.4211,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1689,
+      "tokens_per_second_per_gpu": 14969.11
+    },
+    {
+      "epoch": 0.04225,
+      "grad_norm": 0.3203125,
+      "learning_rate": 0.0025335,
+      "loss": 3.3951,
+      "memory/device_reserved (GiB)": 76.49,
+      "memory/max_active (GiB)": 76.35,
+      "memory/max_allocated (GiB)": 76.35,
+      "step": 1690,
+      "tokens_per_second_per_gpu": 17850.22
+    },
+    {
+      "epoch": 0.042275,
+      "grad_norm": 0.41015625,
+      "learning_rate": 0.002535,
+      "loss": 3.4191,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1691,
+      "tokens_per_second_per_gpu": 15729.04
+    },
+    {
+      "epoch": 0.0423,
+      "grad_norm": 0.439453125,
+      "learning_rate": 0.0025365,
+      "loss": 3.4192,
+      "memory/device_reserved (GiB)": 86.7,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1692,
+      "tokens_per_second_per_gpu": 15578.61
+    },
+    {
+      "epoch": 0.042325,
+      "grad_norm": 0.326171875,
+      "learning_rate": 0.002538,
+      "loss": 3.4293,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1693,
+      "tokens_per_second_per_gpu": 21717.81
+    },
+    {
+      "epoch": 0.04235,
+      "grad_norm": 0.294921875,
+      "learning_rate": 0.0025395,
+      "loss": 3.4162,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1694,
+      "tokens_per_second_per_gpu": 23759.26
+    },
+    {
+      "epoch": 0.042375,
+      "grad_norm": 0.376953125,
+      "learning_rate": 0.002541,
+      "loss": 3.4058,
+      "memory/device_reserved (GiB)": 56.63,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1695,
+      "tokens_per_second_per_gpu": 22957.98
+    },
+    {
+      "epoch": 0.0424,
+      "grad_norm": 0.361328125,
+      "learning_rate": 0.0025425,
+      "loss": 3.4236,
+      "memory/device_reserved (GiB)": 85.82,
+      "memory/max_active (GiB)": 85.68,
+      "memory/max_allocated (GiB)": 85.68,
+      "step": 1696,
+      "tokens_per_second_per_gpu": 15174.02
+    },
+    {
+      "epoch": 0.042425,
+      "grad_norm": 0.353515625,
+      "learning_rate": 0.002544,
+      "loss": 3.3949,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1697,
+      "tokens_per_second_per_gpu": 17562.99
+    },
+    {
+      "epoch": 0.04245,
+      "grad_norm": 0.3671875,
+      "learning_rate": 0.0025455,
+      "loss": 3.4254,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1698,
+      "tokens_per_second_per_gpu": 22963.27
+    },
+    {
+      "epoch": 0.042475,
+      "grad_norm": 0.3671875,
+      "learning_rate": 0.002547,
+      "loss": 3.4004,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1699,
+      "tokens_per_second_per_gpu": 11758.64
+    },
+    {
+      "epoch": 0.0425,
+      "grad_norm": 0.37109375,
+      "learning_rate": 0.0025485,
+      "loss": 3.4032,
+      "memory/device_reserved (GiB)": 56.14,
+      "memory/max_active (GiB)": 55.95,
+      "memory/max_allocated (GiB)": 55.95,
+      "step": 1700,
+      "tokens_per_second_per_gpu": 23581.93
+    },
+    {
+      "epoch": 0.042525,
+      "grad_norm": 0.44921875,
+      "learning_rate": 0.00255,
+      "loss": 3.4364,
+      "memory/device_reserved (GiB)": 127.55,
+      "memory/max_active (GiB)": 127.35,
+      "memory/max_allocated (GiB)": 127.35,
+      "step": 1701,
+      "tokens_per_second_per_gpu": 10589.65
+    },
+    {
+      "epoch": 0.04255,
+      "grad_norm": 0.4921875,
+      "learning_rate": 0.0025515,
+      "loss": 3.4531,
+      "memory/device_reserved (GiB)": 96.93,
+      "memory/max_active (GiB)": 96.75,
+      "memory/max_allocated (GiB)": 96.75,
+      "step": 1702,
+      "tokens_per_second_per_gpu": 13398.45
+    },
+    {
+      "epoch": 0.042575,
+      "grad_norm": 0.5546875,
+      "learning_rate": 0.002553,
+      "loss": 3.4716,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1703,
+      "tokens_per_second_per_gpu": 17913.65
+    },
+    {
+      "epoch": 0.0426,
+      "grad_norm": 0.486328125,
+      "learning_rate": 0.0025545000000000003,
+      "loss": 3.4539,
+      "memory/device_reserved (GiB)": 96.93,
+      "memory/max_active (GiB)": 96.75,
+      "memory/max_allocated (GiB)": 96.75,
+      "step": 1704,
+      "tokens_per_second_per_gpu": 13482.41
+    },
+    {
+      "epoch": 0.042625,
+      "grad_norm": 0.458984375,
+      "learning_rate": 0.002556,
+      "loss": 3.4376,
+      "memory/device_reserved (GiB)": 64.72,
+      "memory/max_active (GiB)": 64.71,
+      "memory/max_allocated (GiB)": 64.71,
+      "step": 1705,
+      "tokens_per_second_per_gpu": 20009.22
+    },
+    {
+      "epoch": 0.04265,
+      "grad_norm": 0.458984375,
+      "learning_rate": 0.0025575000000000003,
+      "loss": 3.4079,
+      "memory/device_reserved (GiB)": 56.63,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1706,
+      "tokens_per_second_per_gpu": 22731.28
+    },
+    {
+      "epoch": 0.042675,
+      "grad_norm": 0.38671875,
+      "learning_rate": 0.002559,
+      "loss": 3.4195,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1707,
+      "tokens_per_second_per_gpu": 18695.79
+    },
+    {
+      "epoch": 0.0427,
+      "grad_norm": 0.39453125,
+      "learning_rate": 0.0025605000000000003,
+      "loss": 3.3978,
+      "memory/device_reserved (GiB)": 127.55,
+      "memory/max_active (GiB)": 127.35,
+      "memory/max_allocated (GiB)": 127.35,
+      "step": 1708,
+      "tokens_per_second_per_gpu": 10495.74
+    },
+    {
+      "epoch": 0.042725,
+      "grad_norm": 0.416015625,
+      "learning_rate": 0.002562,
+      "loss": 3.3919,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1709,
+      "tokens_per_second_per_gpu": 15384.14
+    },
+    {
+      "epoch": 0.04275,
+      "grad_norm": 0.5078125,
+      "learning_rate": 0.0025635000000000002,
+      "loss": 3.4465,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1710,
+      "tokens_per_second_per_gpu": 21356.58
+    },
+    {
+      "epoch": 0.042775,
+      "grad_norm": 0.423828125,
+      "learning_rate": 0.002565,
+      "loss": 3.408,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1711,
+      "tokens_per_second_per_gpu": 13459.02
+    },
+    {
+      "epoch": 0.0428,
+      "grad_norm": 0.421875,
+      "learning_rate": 0.0025665,
+      "loss": 3.4107,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1712,
+      "tokens_per_second_per_gpu": 15576.53
+    },
+    {
+      "epoch": 0.042825,
+      "grad_norm": 0.466796875,
+      "learning_rate": 0.002568,
+      "loss": 3.4465,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1713,
+      "tokens_per_second_per_gpu": 24181.26
+    },
+    {
+      "epoch": 0.04285,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.0025695,
+      "loss": 3.4621,
+      "memory/device_reserved (GiB)": 46.39,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1714,
+      "tokens_per_second_per_gpu": 27803.98
+    },
+    {
+      "epoch": 0.042875,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.002571,
+      "loss": 3.4206,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1715,
+      "tokens_per_second_per_gpu": 24012.74
+    },
+    {
+      "epoch": 0.0429,
+      "grad_norm": 0.490234375,
+      "learning_rate": 0.0025725,
+      "loss": 3.4463,
+      "memory/device_reserved (GiB)": 107.12,
+      "memory/max_active (GiB)": 106.95,
+      "memory/max_allocated (GiB)": 106.95,
+      "step": 1716,
+      "tokens_per_second_per_gpu": 12538.54
+    },
+    {
+      "epoch": 0.042925,
+      "grad_norm": 0.412109375,
+      "learning_rate": 0.002574,
+      "loss": 3.4565,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1717,
+      "tokens_per_second_per_gpu": 19965.96
+    },
+    {
+      "epoch": 0.04295,
+      "grad_norm": 0.392578125,
+      "learning_rate": 0.0025755,
+      "loss": 3.4361,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1718,
+      "tokens_per_second_per_gpu": 12689.62
+    },
+    {
+      "epoch": 0.042975,
+      "grad_norm": 0.38671875,
+      "learning_rate": 0.002577,
+      "loss": 3.4358,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1719,
+      "tokens_per_second_per_gpu": 15987.55
+    },
+    {
+      "epoch": 0.043,
+      "grad_norm": 0.431640625,
+      "learning_rate": 0.0025785,
+      "loss": 3.4481,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1720,
+      "tokens_per_second_per_gpu": 23525.6
+    },
+    {
+      "epoch": 0.043025,
+      "grad_norm": 0.4453125,
+      "learning_rate": 0.00258,
+      "loss": 3.4401,
+      "memory/device_reserved (GiB)": 127.55,
+      "memory/max_active (GiB)": 127.35,
+      "memory/max_allocated (GiB)": 127.35,
+      "step": 1721,
+      "tokens_per_second_per_gpu": 10768.58
+    },
+    {
+      "epoch": 0.04305,
+      "grad_norm": 0.44921875,
+      "learning_rate": 0.0025815,
+      "loss": 3.4029,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1722,
+      "tokens_per_second_per_gpu": 14518.37
+    },
+    {
+      "epoch": 0.043075,
+      "grad_norm": 0.384765625,
+      "learning_rate": 0.0025830000000000002,
+      "loss": 3.3824,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1723,
+      "tokens_per_second_per_gpu": 19566.23
+    },
+    {
+      "epoch": 0.0431,
+      "grad_norm": 0.27734375,
+      "learning_rate": 0.0025845,
+      "loss": 3.4756,
+      "memory/device_reserved (GiB)": 96.93,
+      "memory/max_active (GiB)": 96.75,
+      "memory/max_allocated (GiB)": 96.75,
+      "step": 1724,
+      "tokens_per_second_per_gpu": 13699.55
+    },
+    {
+      "epoch": 0.043125,
+      "grad_norm": 0.255859375,
+      "learning_rate": 0.002586,
+      "loss": 3.4392,
+      "memory/device_reserved (GiB)": 55.41,
+      "memory/max_active (GiB)": 55.39,
+      "memory/max_allocated (GiB)": 55.39,
+      "step": 1725,
+      "tokens_per_second_per_gpu": 23270.79
+    },
+    {
+      "epoch": 0.04315,
+      "grad_norm": 0.2421875,
+      "learning_rate": 0.0025875000000000004,
+      "loss": 3.4289,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1726,
+      "tokens_per_second_per_gpu": 20476.82
+    },
+    {
+      "epoch": 0.043175,
+      "grad_norm": 0.244140625,
+      "learning_rate": 0.002589,
+      "loss": 3.4447,
+      "memory/device_reserved (GiB)": 75.99,
+      "memory/max_active (GiB)": 75.82,
+      "memory/max_allocated (GiB)": 75.82,
+      "step": 1727,
+      "tokens_per_second_per_gpu": 17731.33
+    },
+    {
+      "epoch": 0.0432,
+      "grad_norm": 0.24609375,
+      "learning_rate": 0.0025905000000000004,
+      "loss": 3.4028,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1728,
+      "tokens_per_second_per_gpu": 10811.24
+    },
+    {
+      "epoch": 0.043225,
+      "grad_norm": 0.306640625,
+      "learning_rate": 0.002592,
+      "loss": 3.4164,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1729,
+      "tokens_per_second_per_gpu": 13945.48
+    },
+    {
+      "epoch": 0.04325,
+      "grad_norm": 0.369140625,
+      "learning_rate": 0.0025935000000000003,
+      "loss": 3.3548,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1730,
+      "tokens_per_second_per_gpu": 19830.86
+    },
+    {
+      "epoch": 0.043275,
+      "grad_norm": 0.37890625,
+      "learning_rate": 0.002595,
+      "loss": 3.421,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1731,
+      "tokens_per_second_per_gpu": 10542.1
+    },
+    {
+      "epoch": 0.0433,
+      "grad_norm": 0.38671875,
+      "learning_rate": 0.0025965000000000003,
+      "loss": 3.4064,
+      "memory/device_reserved (GiB)": 56.14,
+      "memory/max_active (GiB)": 55.95,
+      "memory/max_allocated (GiB)": 55.95,
+      "step": 1732,
+      "tokens_per_second_per_gpu": 21749.89
+    },
+    {
+      "epoch": 0.043325,
+      "grad_norm": 0.2255859375,
+      "learning_rate": 0.002598,
+      "loss": 3.4061,
+      "memory/device_reserved (GiB)": 85.15,
+      "memory/max_active (GiB)": 85.11,
+      "memory/max_allocated (GiB)": 85.11,
+      "step": 1733,
+      "tokens_per_second_per_gpu": 15894.06
+    },
+    {
+      "epoch": 0.04335,
+      "grad_norm": 0.30859375,
+      "learning_rate": 0.0025995000000000002,
+      "loss": 3.3912,
+      "memory/device_reserved (GiB)": 66.35,
+      "memory/max_active (GiB)": 66.15,
+      "memory/max_allocated (GiB)": 66.15,
+      "step": 1734,
+      "tokens_per_second_per_gpu": 20235.34
+    },
+    {
+      "epoch": 0.043375,
+      "grad_norm": 0.28125,
+      "learning_rate": 0.002601,
+      "loss": 3.3853,
+      "memory/device_reserved (GiB)": 44.36,
+      "memory/max_active (GiB)": 44.31,
+      "memory/max_allocated (GiB)": 44.31,
+      "step": 1735,
+      "tokens_per_second_per_gpu": 27550.53
+    },
+    {
+      "epoch": 0.0434,
+      "grad_norm": 0.251953125,
+      "learning_rate": 0.0026025,
+      "loss": 3.4352,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1736,
+      "tokens_per_second_per_gpu": 11236.12
+    },
+    {
+      "epoch": 0.043425,
+      "grad_norm": 0.404296875,
+      "learning_rate": 0.002604,
+      "loss": 3.4176,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1737,
+      "tokens_per_second_per_gpu": 10840.44
+    },
+    {
+      "epoch": 0.04345,
+      "grad_norm": 0.546875,
+      "learning_rate": 0.0026055,
+      "loss": 3.4038,
+      "memory/device_reserved (GiB)": 76.49,
+      "memory/max_active (GiB)": 76.35,
+      "memory/max_allocated (GiB)": 76.35,
+      "step": 1738,
+      "tokens_per_second_per_gpu": 17339.64
+    },
+    {
+      "epoch": 0.043475,
+      "grad_norm": 0.578125,
+      "learning_rate": 0.002607,
+      "loss": 3.4502,
+      "memory/device_reserved (GiB)": 127.55,
+      "memory/max_active (GiB)": 127.35,
+      "memory/max_allocated (GiB)": 127.35,
+      "step": 1739,
+      "tokens_per_second_per_gpu": 10609.71
+    },
+    {
+      "epoch": 0.0435,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.0026085,
+      "loss": 3.4514,
+      "memory/device_reserved (GiB)": 86.7,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1740,
+      "tokens_per_second_per_gpu": 14979.82
+    },
+    {
+      "epoch": 0.043525,
+      "grad_norm": 0.46484375,
+      "learning_rate": 0.00261,
+      "loss": 3.461,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1741,
+      "tokens_per_second_per_gpu": 13526.38
+    },
+    {
+      "epoch": 0.04355,
+      "grad_norm": 0.44921875,
+      "learning_rate": 0.0026115,
+      "loss": 3.4299,
+      "memory/device_reserved (GiB)": 64.72,
+      "memory/max_active (GiB)": 64.71,
+      "memory/max_allocated (GiB)": 64.71,
+      "step": 1742,
+      "tokens_per_second_per_gpu": 20033.73
+    },
+    {
+      "epoch": 0.043575,
+      "grad_norm": 0.40234375,
+      "learning_rate": 0.002613,
+      "loss": 3.4074,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1743,
+      "tokens_per_second_per_gpu": 13919.14
+    },
+    {
+      "epoch": 0.0436,
+      "grad_norm": 0.337890625,
+      "learning_rate": 0.0026145,
+      "loss": 3.4226,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1744,
+      "tokens_per_second_per_gpu": 10914.18
+    },
+    {
+      "epoch": 0.043625,
+      "grad_norm": 0.34375,
+      "learning_rate": 0.002616,
+      "loss": 3.4013,
+      "memory/device_reserved (GiB)": 46.39,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1745,
+      "tokens_per_second_per_gpu": 26513.04
+    },
+    {
+      "epoch": 0.04365,
+      "grad_norm": 0.400390625,
+      "learning_rate": 0.0026175,
+      "loss": 3.4318,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1746,
+      "tokens_per_second_per_gpu": 12843.87
+    },
+    {
+      "epoch": 0.043675,
+      "grad_norm": 0.4140625,
+      "learning_rate": 0.0026190000000000002,
+      "loss": 3.4096,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1747,
+      "tokens_per_second_per_gpu": 15880.59
+    },
+    {
+      "epoch": 0.0437,
+      "grad_norm": 0.50390625,
+      "learning_rate": 0.0026205000000000004,
+      "loss": 3.4245,
+      "memory/device_reserved (GiB)": 127.55,
+      "memory/max_active (GiB)": 127.35,
+      "memory/max_allocated (GiB)": 127.35,
+      "step": 1748,
+      "tokens_per_second_per_gpu": 10692.67
+    },
+    {
+      "epoch": 0.043725,
+      "grad_norm": 0.474609375,
+      "learning_rate": 0.002622,
+      "loss": 3.4249,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1749,
+      "tokens_per_second_per_gpu": 19357.34
+    },
+    {
+      "epoch": 0.04375,
+      "grad_norm": 0.423828125,
+      "learning_rate": 0.0026235000000000004,
+      "loss": 3.391,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1750,
+      "tokens_per_second_per_gpu": 23852.2
+    },
+    {
+      "epoch": 0.043775,
+      "grad_norm": 0.30859375,
+      "learning_rate": 0.002625,
+      "loss": 3.4351,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1751,
+      "tokens_per_second_per_gpu": 13356.15
+    },
+    {
+      "epoch": 0.0438,
+      "grad_norm": 0.25390625,
+      "learning_rate": 0.0026265,
+      "loss": 3.4141,
+      "memory/device_reserved (GiB)": 97.44,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1752,
+      "tokens_per_second_per_gpu": 13330.25
+    },
+    {
+      "epoch": 0.043825,
+      "grad_norm": 0.2314453125,
+      "learning_rate": 0.002628,
+      "loss": 3.3987,
+      "memory/device_reserved (GiB)": 96.42,
+      "memory/max_active (GiB)": 96.23,
+      "memory/max_allocated (GiB)": 96.23,
+      "step": 1753,
+      "tokens_per_second_per_gpu": 14470.45
+    },
+    {
+      "epoch": 0.04385,
+      "grad_norm": 0.30078125,
+      "learning_rate": 0.0026295,
+      "loss": 3.4109,
+      "memory/device_reserved (GiB)": 86.7,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1754,
+      "tokens_per_second_per_gpu": 14973.02
+    },
+    {
+      "epoch": 0.043875,
+      "grad_norm": 0.314453125,
+      "learning_rate": 0.002631,
+      "loss": 3.4064,
+      "memory/device_reserved (GiB)": 106.26,
+      "memory/max_active (GiB)": 106.08,
+      "memory/max_allocated (GiB)": 106.08,
+      "step": 1755,
+      "tokens_per_second_per_gpu": 12857.47
+    },
+    {
+      "epoch": 0.0439,
+      "grad_norm": 0.333984375,
+      "learning_rate": 0.0026325,
+      "loss": 3.4352,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1756,
+      "tokens_per_second_per_gpu": 15689.65
+    },
+    {
+      "epoch": 0.043925,
+      "grad_norm": 0.2333984375,
+      "learning_rate": 0.002634,
+      "loss": 3.4027,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1757,
+      "tokens_per_second_per_gpu": 21923.57
+    },
+    {
+      "epoch": 0.04395,
+      "grad_norm": 0.197265625,
+      "learning_rate": 0.0026355,
+      "loss": 3.426,
+      "memory/device_reserved (GiB)": 96.42,
+      "memory/max_active (GiB)": 96.22,
+      "memory/max_allocated (GiB)": 96.22,
+      "step": 1758,
+      "tokens_per_second_per_gpu": 13418.51
+    },
+    {
+      "epoch": 0.043975,
+      "grad_norm": 0.2578125,
+      "learning_rate": 0.002637,
+      "loss": 3.3894,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1759,
+      "tokens_per_second_per_gpu": 24491.74
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 0.423828125,
+      "learning_rate": 0.0026385,
+      "loss": 3.4275,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1760,
+      "tokens_per_second_per_gpu": 11247.5
+    },
+    {
+      "epoch": 0.044025,
+      "grad_norm": 0.61328125,
+      "learning_rate": 0.00264,
+      "loss": 3.4444,
+      "memory/device_reserved (GiB)": 35.22,
+      "memory/max_active (GiB)": 35.02,
+      "memory/max_allocated (GiB)": 35.02,
+      "step": 1761,
+      "tokens_per_second_per_gpu": 33971.64
+    },
+    {
+      "epoch": 0.04405,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.0026414999999999998,
+      "loss": 3.4196,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1762,
+      "tokens_per_second_per_gpu": 16207.95
+    },
+    {
+      "epoch": 0.044075,
+      "grad_norm": 0.474609375,
+      "learning_rate": 0.002643,
+      "loss": 3.4154,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1763,
+      "tokens_per_second_per_gpu": 20758.11
+    },
+    {
+      "epoch": 0.0441,
+      "grad_norm": 0.57421875,
+      "learning_rate": 0.0026444999999999997,
+      "loss": 3.4227,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1764,
+      "tokens_per_second_per_gpu": 20933.38
+    },
+    {
+      "epoch": 0.044125,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.002646,
+      "loss": 3.4113,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1765,
+      "tokens_per_second_per_gpu": 20328.8
+    },
+    {
+      "epoch": 0.04415,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0026475,
+      "loss": 3.424,
+      "memory/device_reserved (GiB)": 46.36,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1766,
+      "tokens_per_second_per_gpu": 28885.39
+    },
+    {
+      "epoch": 0.044175,
+      "grad_norm": 0.60546875,
+      "learning_rate": 0.002649,
+      "loss": 3.4592,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1767,
+      "tokens_per_second_per_gpu": 20234.49
+    },
+    {
+      "epoch": 0.0442,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.0026505,
+      "loss": 3.4609,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1768,
+      "tokens_per_second_per_gpu": 15912.34
+    },
+    {
+      "epoch": 0.044225,
+      "grad_norm": 0.466796875,
+      "learning_rate": 0.0026520000000000003,
+      "loss": 3.4629,
+      "memory/device_reserved (GiB)": 107.12,
+      "memory/max_active (GiB)": 106.95,
+      "memory/max_allocated (GiB)": 106.95,
+      "step": 1769,
+      "tokens_per_second_per_gpu": 12854.59
+    },
+    {
+      "epoch": 0.04425,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.0026535,
+      "loss": 3.4224,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1770,
+      "tokens_per_second_per_gpu": 23600.25
+    },
+    {
+      "epoch": 0.044275,
+      "grad_norm": 0.421875,
+      "learning_rate": 0.0026550000000000002,
+      "loss": 3.4245,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1771,
+      "tokens_per_second_per_gpu": 14240.32
+    },
+    {
+      "epoch": 0.0443,
+      "grad_norm": 0.2197265625,
+      "learning_rate": 0.0026565,
+      "loss": 3.4746,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.42,
+      "memory/max_allocated (GiB)": 107.42,
+      "step": 1772,
+      "tokens_per_second_per_gpu": 12415.51
+    },
+    {
+      "epoch": 0.044325,
+      "grad_norm": 0.3046875,
+      "learning_rate": 0.002658,
+      "loss": 3.4487,
+      "memory/device_reserved (GiB)": 117.82,
+      "memory/max_active (GiB)": 117.63,
+      "memory/max_allocated (GiB)": 117.63,
+      "step": 1773,
+      "tokens_per_second_per_gpu": 11728.76
+    },
+    {
+      "epoch": 0.04435,
+      "grad_norm": 0.380859375,
+      "learning_rate": 0.0026595,
+      "loss": 3.428,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1774,
+      "tokens_per_second_per_gpu": 13483.5
+    },
+    {
+      "epoch": 0.044375,
+      "grad_norm": 0.32421875,
+      "learning_rate": 0.002661,
+      "loss": 3.4394,
+      "memory/device_reserved (GiB)": 66.8,
+      "memory/max_active (GiB)": 66.63,
+      "memory/max_allocated (GiB)": 66.63,
+      "step": 1775,
+      "tokens_per_second_per_gpu": 18870.34
+    },
+    {
+      "epoch": 0.0444,
+      "grad_norm": 0.255859375,
+      "learning_rate": 0.0026625,
+      "loss": 3.4378,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1776,
+      "tokens_per_second_per_gpu": 13952.93
+    },
+    {
+      "epoch": 0.044425,
+      "grad_norm": 0.2275390625,
+      "learning_rate": 0.002664,
+      "loss": 3.3772,
+      "memory/device_reserved (GiB)": 46.36,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1777,
+      "tokens_per_second_per_gpu": 27786.47
+    },
+    {
+      "epoch": 0.04445,
+      "grad_norm": 0.1669921875,
+      "learning_rate": 0.0026655,
+      "loss": 3.4545,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.22,
+      "memory/max_allocated (GiB)": 97.22,
+      "step": 1778,
+      "tokens_per_second_per_gpu": 13063.98
+    },
+    {
+      "epoch": 0.044475,
+      "grad_norm": 0.271484375,
+      "learning_rate": 0.002667,
+      "loss": 3.4308,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1779,
+      "tokens_per_second_per_gpu": 15197.1
+    },
+    {
+      "epoch": 0.0445,
+      "grad_norm": 0.333984375,
+      "learning_rate": 0.0026685,
+      "loss": 3.3732,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1780,
+      "tokens_per_second_per_gpu": 13364.89
+    },
+    {
+      "epoch": 0.044525,
+      "grad_norm": 0.482421875,
+      "learning_rate": 0.00267,
+      "loss": 3.3969,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1781,
+      "tokens_per_second_per_gpu": 10848.07
+    },
+    {
+      "epoch": 0.04455,
+      "grad_norm": 0.46484375,
+      "learning_rate": 0.0026715,
+      "loss": 3.4136,
+      "memory/device_reserved (GiB)": 46.36,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1782,
+      "tokens_per_second_per_gpu": 26226.1
+    },
+    {
+      "epoch": 0.044575,
+      "grad_norm": 0.40234375,
+      "learning_rate": 0.002673,
+      "loss": 3.4063,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1783,
+      "tokens_per_second_per_gpu": 16623.15
+    },
+    {
+      "epoch": 0.0446,
+      "grad_norm": 0.4453125,
+      "learning_rate": 0.0026745,
+      "loss": 3.4083,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1784,
+      "tokens_per_second_per_gpu": 17625.86
+    },
+    {
+      "epoch": 0.044625,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.002676,
+      "loss": 3.4065,
+      "memory/device_reserved (GiB)": 76.49,
+      "memory/max_active (GiB)": 76.35,
+      "memory/max_allocated (GiB)": 76.35,
+      "step": 1785,
+      "tokens_per_second_per_gpu": 17692.48
+    },
+    {
+      "epoch": 0.04465,
+      "grad_norm": 0.45703125,
+      "learning_rate": 0.0026774999999999998,
+      "loss": 3.3926,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1786,
+      "tokens_per_second_per_gpu": 17734.6
+    },
+    {
+      "epoch": 0.044675,
+      "grad_norm": 0.4140625,
+      "learning_rate": 0.002679,
+      "loss": 3.4451,
+      "memory/device_reserved (GiB)": 107.61,
+      "memory/max_active (GiB)": 107.43,
+      "memory/max_allocated (GiB)": 107.43,
+      "step": 1787,
+      "tokens_per_second_per_gpu": 12253.75
+    },
+    {
+      "epoch": 0.0447,
+      "grad_norm": 0.37109375,
+      "learning_rate": 0.0026804999999999997,
+      "loss": 3.4092,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1788,
+      "tokens_per_second_per_gpu": 22035.77
+    },
+    {
+      "epoch": 0.044725,
+      "grad_norm": 0.365234375,
+      "learning_rate": 0.002682,
+      "loss": 3.4072,
+      "memory/device_reserved (GiB)": 46.36,
+      "memory/max_active (GiB)": 46.22,
+      "memory/max_allocated (GiB)": 46.22,
+      "step": 1789,
+      "tokens_per_second_per_gpu": 28799.13
+    },
+    {
+      "epoch": 0.04475,
+      "grad_norm": 0.486328125,
+      "learning_rate": 0.0026835,
+      "loss": 3.4273,
+      "memory/device_reserved (GiB)": 107.12,
+      "memory/max_active (GiB)": 106.95,
+      "memory/max_allocated (GiB)": 106.95,
+      "step": 1790,
+      "tokens_per_second_per_gpu": 13507.67
+    },
+    {
+      "epoch": 0.044775,
+      "grad_norm": 0.41796875,
+      "learning_rate": 0.0026850000000000003,
+      "loss": 3.4105,
+      "memory/device_reserved (GiB)": 97.42,
+      "memory/max_active (GiB)": 97.23,
+      "memory/max_allocated (GiB)": 97.23,
+      "step": 1791,
+      "tokens_per_second_per_gpu": 14054.94
+    },
+    {
+      "epoch": 0.0448,
+      "grad_norm": 0.39453125,
+      "learning_rate": 0.0026865,
+      "loss": 3.4125,
+      "memory/device_reserved (GiB)": 87.21,
+      "memory/max_active (GiB)": 87.03,
+      "memory/max_allocated (GiB)": 87.03,
+      "step": 1792,
+      "tokens_per_second_per_gpu": 15951.81
+    },
+    {
+      "epoch": 0.044825,
+      "grad_norm": 0.455078125,
+      "learning_rate": 0.0026880000000000003,
+      "loss": 3.4148,
+      "memory/device_reserved (GiB)": 117.34,
+      "memory/max_active (GiB)": 117.15,
+      "memory/max_allocated (GiB)": 117.15,
+      "step": 1793,
+      "tokens_per_second_per_gpu": 11286.11
+    },
+    {
+      "epoch": 0.04485,
+      "grad_norm": 0.47265625,
+      "learning_rate": 0.0026895,
+      "loss": 3.4305,
+      "memory/device_reserved (GiB)": 86.7,
+      "memory/max_active (GiB)": 86.55,
+      "memory/max_allocated (GiB)": 86.55,
+      "step": 1794,
+      "tokens_per_second_per_gpu": 15414.34
+    },
+    {
+      "epoch": 0.044875,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.0026910000000000002,
+      "loss": 3.4523,
+      "memory/device_reserved (GiB)": 56.57,
+      "memory/max_active (GiB)": 56.42,
+      "memory/max_allocated (GiB)": 56.42,
+      "step": 1795,
+      "tokens_per_second_per_gpu": 23738.61
+    },
+    {
+      "epoch": 0.0449,
+      "grad_norm": 0.416015625,
+      "learning_rate": 0.0026925,
+      "loss": 3.4288,
+      "memory/device_reserved (GiB)": 45.93,
+      "memory/max_active (GiB)": 45.75,
+      "memory/max_allocated (GiB)": 45.75,
+      "step": 1796,
+      "tokens_per_second_per_gpu": 29115.65
+    },
+    {
+      "epoch": 0.044925,
+      "grad_norm": 0.55859375,
+      "learning_rate": 0.002694,
+      "loss": 3.4467,
+      "memory/device_reserved (GiB)": 76.49,
+      "memory/max_active (GiB)": 76.35,
+      "memory/max_allocated (GiB)": 76.35,
+      "step": 1797,
+      "tokens_per_second_per_gpu": 18356.21
+    },
+    {
+      "epoch": 0.04495,
+      "grad_norm": 0.42578125,
+      "learning_rate": 0.0026955,
+      "loss": 3.4082,
+      "memory/device_reserved (GiB)": 86.21,
+      "memory/max_active (GiB)": 86.02,
+      "memory/max_allocated (GiB)": 86.02,
+      "step": 1798,
+      "tokens_per_second_per_gpu": 15680.13
+    },
+    {
+      "epoch": 0.044975,
+      "grad_norm": 0.376953125,
+      "learning_rate": 0.002697,
+      "loss": 3.3861,
+      "memory/device_reserved (GiB)": 77.01,
+      "memory/max_active (GiB)": 76.83,
+      "memory/max_allocated (GiB)": 76.83,
+      "step": 1799,
+      "tokens_per_second_per_gpu": 17597.13
+    },
+    {
+      "epoch": 0.045,
+      "grad_norm": 0.4140625,
+      "learning_rate": 0.0026985,
+      "loss": 3.4615,
+      "memory/device_reserved (GiB)": 127.96,
+      "memory/max_active (GiB)": 127.83,
+      "memory/max_allocated (GiB)": 127.83,
+      "step": 1800,
+      "tokens_per_second_per_gpu": 10181.44
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.1172492665891062e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null